此模型使用的编码器是whisper-large-v3, 原仓库则使用v2, 你可以在这里找到适用于v3编码器的代码

底模和v2无法推理出正确的结果, 但使用v2微调也许可行

训练素材绝大多数为西班牙语, 并且仅有一位说话人, 音素过少, 对汉语表现不佳, 后续会微调解决

speaking模型先在大量低质量数据集上训练了0.7M steps, 随后在少量高质量数据集上训练了0.3M steps

singing模型是在speaking模型的基础上使用歌声数据集微调0.33M steps得到的

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support