开源免费声音克隆工具VoxCPM2

作者大神K

2026年4月18日 1 分钟阅读

ElevenLabs 的 AI 声音克隆费用每月 5 美元到 99 美元不等，其商业计划每月高达 1,320 美元。有人开源了一款语音 AI，只需一段短音频即可克隆任何声音。支持 30 种语言，录音室级品质，且完全免费。它叫 VoxCPM2。只需提供一段任何人的声音短片，它就能克隆其口音、情感、音色和语速，然后用该精确的声音生成你想要的任何语音。48kHz 录音室级品质。输入“一位年轻女性，温柔甜美的声音”，它就能从零开始创建该声音。
无需参考音频，无需配音演员，无需录音。你只需用文字描述声音，它便能构建出来。拥有 20 亿参数，基于 200 万小时语音训练。支持 3 种语言。一键安装命令：

pip install voxcpm

以下是 VoxCPM2 的功能：

→ 声音设计：用文字描述任何声音。性别、年龄、音色、情感、语速。AI 从无到有进行创作，无需参考音频。
→ 声音克隆：上传一段短音频。AI 能完美克隆音色、口音、节奏和语速。→ 可控克隆：克隆声音的同时还能控制情感。“语速稍快，语气欢快。”搞定。→ 终极克隆：提供音频 + 转录文本。每一个声音细节都能被忠实还原。
→ 30 种语言。包括阿拉伯语、中文、英语、法语、德语、印地语、日语、韩语、西班牙语等 21 种语言。无需语言标签。→ 上下文感知。它能阅读文本并自动调整情感和节奏。新闻听起来像新闻，故事听起来像故事。→ 实时流式传输。
在 RTX 4090 上，RTF（实时率）低至 0.13。比播放速度还快。→ 仅需 8GB 显存即可运行。→ 使用 LoRA 技术，利用 5 到 10 分钟的自有音频进行微调，构建自定义声音模型。→ 48kHz 输出。录音室级品质，无需外部上采样器。最令人惊叹的部分在于：

在 Minimax-MLS 语音相似度基准测试中：

→ 英语：VoxCPM2 得分为 85.4%。
ElevenLabs 得分为 61.3%。→ 中文：VoxCPM2 得分为 82.5%。ElevenLabs 得分为 67.7%。→ 阿拉伯语：VoxCPM2 得分为 79.1%。ElevenLabs 得分为 70.6%。一款免费的开源模型，其生成的语音克隆效果竟然比每月收费高达 1,320 美元的商业服务还要逼真。专业配音演员每个项目的收费在 250 美元到 1,000 美元以上。
AI 语音平台每月收费 5 到 100 美元。录音棚每小时收费 200 美元。而这款模型运行在你的 GPU 上。本地运行。没有 API 费用。没有按字符计费。没有订阅费。
永久免费。它已登顶 GitHub Trending 榜单第一名。由 OpenBMB 和清华大学开发。20 亿参数。采用 Apache 2.0 协议。可免费用于商业用途。100% 开源。

文章作者：大神K

原文链接：https://dashenk.com/2026/04/18/%e5%bc%80%e6%ba%90%e5%85%8d%e8%b4%b9%e5%a3%b0%e9%9f%b3%e5%85%8b%e9%9a%86%e5%b7%a5%e5%85%b7voxcpm2/

版权说明：本文为原创内容，转载请注明出处。

开源免费声音克隆工具VoxCPM2

标签：

大神K

其他文章

检测AI生成的内容，离线运行无需APIkey无需配置

跨平台视频下载利器：Lux

暂无评论！成为第一个。

发表回复取消回复

开源免费声音克隆工具VoxCPM2

标签：

大神K

其他文章

检测AI生成的内容，离线运行无需APIkey无需配置

跨平台视频下载利器：Lux

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复