微软把语音 AI 玩出“Stable Diffusion 时刻”了?
微软把语音 AI 玩出“Stable Diffusion 时刻”了?😋
我试了下 Vibing 这款语音输入法, 转录速度跟翻译速度都很快,无需本地模型,毕竟安装包就 1.3MB🧐
VibeVoice 可以直接本地跑:
✅实时 TTS,300ms 就出声
✅一口气生成 90 分钟、多说话人对话
✅长音频转录还能标谁什么时候说的啥
可以省掉 ElevenLabs 的费用了哈哈😜
代码地址:
https://github.com/microsoft/VibeVoice


📌 版权声明
文章作者:大神K
版权说明:本文为原创内容,转载请注明出处。