开源免费声音克隆工具VoxCPM2
ElevenLabs 的 AI 声音克隆费用每月 5 美元到 99 美元不等,其商业计划每月高达 1,320 美元。有人开源了一款语音 AI,只需一段短音频即可克隆任何声音。支持 30 种语言,录音室级品质,且完全免费。它叫 VoxCPM2。只需提供一段任何人的声音短片,它就能克隆其口音、情感、音色和语速,然后用该精确的声音生成你想要的任何语音。48kHz 录音室级品质。输入“一位年轻女性,温柔甜美的声音”,它就能从零开始创建该声音。
无需参考音频,无需配音演员,无需录音。你只需用文字描述声音,它便能构建出来。拥有 20 亿参数,基于 200 万小时语音训练。支持 3 种语言。一键安装命令:
pip install voxcpm
以下是 VoxCPM2 的功能:
→ 声音设计:用文字描述任何声音。性别、年龄、音色、情感、语速。AI 从无到有进行创作,无需参考音频。
→ 声音克隆:上传一段短音频。AI 能完美克隆音色、口音、节奏和语速。→ 可控克隆:克隆声音的同时还能控制情感。“语速稍快,语气欢快。”搞定。→ 终极克隆:提供音频 + 转录文本。每一个声音细节都能被忠实还原。
→ 30 种语言。包括阿拉伯语、中文、英语、法语、德语、印地语、日语、韩语、西班牙语等 21 种语言。无需语言标签。→ 上下文感知。它能阅读文本并自动调整情感和节奏。新闻听起来像新闻,故事听起来像故事。→ 实时流式传输。
在 RTX 4090 上,RTF(实时率)低至 0.13。比播放速度还快。→ 仅需 8GB 显存即可运行。→ 使用 LoRA 技术,利用 5 到 10 分钟的自有音频进行微调,构建自定义声音模型。→ 48kHz 输出。录音室级品质,无需外部上采样器。最令人惊叹的部分在于:
在 Minimax-MLS 语音相似度基准测试中:
→ 英语:VoxCPM2 得分为 85.4%。
ElevenLabs 得分为 61.3%。→ 中文:VoxCPM2 得分为 82.5%。ElevenLabs 得分为 67.7%。→ 阿拉伯语:VoxCPM2 得分为 79.1%。ElevenLabs 得分为 70.6%。一款免费的开源模型,其生成的语音克隆效果竟然比每月收费高达 1,320 美元的商业服务还要逼真。专业配音演员每个项目的收费在 250 美元到 1,000 美元以上。
AI 语音平台每月收费 5 到 100 美元。录音棚每小时收费 200 美元。而这款模型运行在你的 GPU 上。本地运行。没有 API 费用。没有按字符计费。没有订阅费。
永久免费。它已登顶 GitHub Trending 榜单第一名。由 OpenBMB 和清华大学开发。20 亿参数。采用 Apache 2.0 协议。可免费用于商业用途。100% 开源。

文章作者:大神K
版权说明:本文为原创内容,转载请注明出处。