只需要三秒录音，即可克隆你的声音-宁波猫的窝

之前给大家分享过一款网易有道出品的AI语音生成工具EmotiVoice，很多人表示挺有用的，但它只有预设的2000多种语音，能玩一年，但暂时不能定向训练专属音色。近期收到一些反馈，咨询有没有那种可以投喂音频生成专属声音的AI工具，宠粉如我，肯定就要尽快支持啦！

今天就来分享一款有趣的开源项目：VALL-E X，它号称只需要三秒录音，即可克隆你的声音，而且为大家制作了一款懒人包。

VALL-E X简介

VALL-E X是微软开源的一款语音处理模型，只需要源语言中的一些语音语句作为提示，就可以生成高质量的目标语言的语音片段，同时还能保留源语言中说话者的声音、情感和声学环境。只需要上传一段3~10 秒的语音作为音频提示，然后输入你想要合成的文本，即可快速生成语音。

而且，这个模型还能有效解决外语口音问题，使生成的语音非常逼真。

下载解压整合包到本地，双击“一键启动-VALL-E X.exe”：

之后会打开一个命令提示窗口，等待项目加载。加载成功后，会自动打开一个网页，就可以快乐地玩耍了（如果没有自动打开，请在浏览器自行输入以下网址访问“ http://127.0.0.1:7860 ”）：

使用非常简单：只需要上传一段语音，输入需要的文本，然后点击“生成”按钮，等待一会即可获得需要的语音文件。

生成的声音是基于上传的语音文件训练所得，理论上只要有3秒的原始音频，即可无限生成你想要的任何声音，简直不要太爽！建议多生成几次，选择效果最好的使用。

注意事项：

①首次运行需要下载部分模型，请使用魔法以免下载失败；

没有魔法的朋友，可以自行下载模型，并放置到以下目录中“C:\Users\你的用户名\”

模型下载地址：

②该项目需要显存6G，过低显存可能无法使用。

VALL-E X懒人包：只需要三秒录音，即可克隆你的声音