https://mp.weixin.qq.com/s/_4oAFMlrigO2POZSpdwE3w

之前给大家分享过一款网易有道出品的AI语音生成工具EmotiVoice,很多人表示挺有用的,但它只有预设的2000多种语音,能玩一年,但暂时不能定向训练专属音色。近期收到一些反馈,咨询有没有那种可以投喂音频生成专属声音的AI工具,宠粉如我,肯定就要尽快支持啦!

今天就来分享一款有趣的开源项目:VALL-E X,它号称只需要三秒录音,即可克隆你的声音,而且为大家制作了一款懒人包。


VALL-E X简介

VALL-E X是微软开源的一款语音处理模型,只需要源语言中的一些语音语句作为提示,就可以生成高质量的目标语言的语音片段,同时还能保留源语言中说话者的声音、情感和声学环境。只需要上传一段3~10 秒的语音作为音频提示,然后输入你想要合成的文本,即可快速生成语音。

而且,这个模型还能有效解决外语口音问题,使生成的语音非常逼真。


整合包快速上手

下载解压整合包到本地,双击“一键启动-VALL-E X.exe”:

之后会打开一个命令提示窗口,等待项目加载。加载成功后,会自动打开一个网页,就可以快乐地玩耍了(如果没有自动打开,请在浏览器自行输入以下网址访问 http://127.0.0.1:7860 ):

使用非常简单:只需要上传一段语音,输入需要的文本,然后点击“生成”按钮,等待一会即可获得需要的语音文件。

生成的声音是基于上传的语音文件训练所得,理论上只要有3秒的原始音频,即可无限生成你想要的任何声音,简直不要太爽!建议多生成几次,选择效果最好的使用。

注意事项:

①首次运行需要下载部分模型,请使用魔法以免下载失败;

没有魔法的朋友,可以自行下载模型,并放置到以下目录中“C:\Users\你的用户名\”

模型下载地址:

https://www.123pan.com/s/ptkLVv-XK4tH.html


②该项目需要显存6G,过低显存可能无法使用。




VALL-E X懒人包:只需要三秒录音,即可克隆你的声音

https://drive.uc.cn/s/c2ae91ef99524