此模型使用的编码器是whisper-large-v3, 原仓库则使用v2, 你可以在这里找到适用于v3编码器的代码
底模和v2无法推理出正确的结果, 但使用v2微调也许可行
训练素材绝大多数为西班牙语, 并且仅有一位说话人, 音素过少, 对汉语表现不佳, 后续会微调解决
speaking模型先在大量低质量数据集上训练了0.7M steps, 随后在少量高质量数据集上训练了0.3M steps
singing模型是在speaking模型的基础上使用歌声数据集微调0.33M steps得到的
- Downloads last month
- 2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support