0b.
此时先取消刚刚勾上的框框,不然UVR5网页会一直占用内存,之后在红色框框里面输入你处理好或者准备好的纯人声音频文件的文件夹路径。此时如果你要训练的是中文或者英语那你直接点击开启语音分割就行,如果是日语请把每段最小时长调整为5000(日语长一点比较好,显卡好可以调更多,原则就是长度不能比你显卡的显存大),之后也是点击开启语音分割,在控制台可以看到进度,这个步骤很快,切分好的文件的文件夹路径为GPT-SoVITS-beta\output\slicer_opt
0c.
此时在“批量ASR(中文only)输入文件夹路径”里面填入你的切分好的文件夹路径,点击开启离线批量ASR。如果你要训练的是日语或者英语,那么等一下就要手动转录文本打标,或者你也可以使用由另一位UP主刘悦提供的转写标注软件:https://www.bilibili.com/video/BV1LW4y1w76v,下载地址:https://pan.baidu.com/s/1OMXwY4dYiKwcYTUP223m_w?pwd=v3uc,不过这样打标出来的文件每行前面缺少一段音频文件路径比如:E:\Bert-Vits2_Audio_Tool\wavs/这样的,一键加上去就行,具体百度,很简单
转录标注完的文件所在的文件夹的路径为GPT-SoVITS-beta\output\asr_opt
PS:如果这一步出现报错,一般是你没设置虚拟内存,或者虚拟内存设置的不够大,请调大一点,如何设置虚拟内存请百度
0d.
1.关键来了,看好这里,这个步骤是打标,打标一定要打好,我们先在红框里面输入.list文件地址,注意是这个.list文件的地址,不是文件夹地址!然后点击“是否开启打标WebUI”前面的框框,等待一下会弹出来一个界面
2.在这个界面我们可以对于识别出来的文本进行手动的修正,你要做的就是把错误的文本改成正确的,并且一定要加上合适的标点符号,其中如果有句子出现了笑声这种不能识别成文字的语气词,先点击这个句子后面的Yes前的框框,然后点击界面上的"Delete Audio"选项,注意删除句子前请务必确保你保存了文件,保存方式为先点击界面上方的"Save File"按钮,然后点击左上方的"Submit Text"按钮,这两个都点了才算保存,只点一个不生效!
3.在修正完第一个界面的句子之后请先保存,然后再点击右上角的"Next Index"按钮到下一页继续进行修正以及删除,如果想回到上一页点击"Previous Index"按钮就行,如果想切换为黑色主题,点击界面最下方的"Dark Theme"按钮就行,全部修正并且保存完成之后就能进行下一步了,进行下一步之前,记得先把框框里面的勾去掉,修正完成的文件一般都保存在GPT-SoVITS-beta\output\asr_opt下
PS:打标过程请记住一个原则:宁缺毋滥,不要把有噪音,有笑声的片段留着不删除,这种片段极其有可能导致你训练结果很不好看
还没有评论,快来抢沙发!