粉丝197获赞1175
好久不见,最近一直忙于学习,不少人私信询问我变声器的详细设置参数以及参数用途,我发现自己对此也不是特别清楚,于是查阅了很多资料,现在来和大家分享一下。 rvc 零六零四版本参数介绍。常规设置响应预值 一般直接拉到负六十左右,可保证声音的完整性,让大部分声音都能被正常处理。音调设置,男生变女生可在正十二左右调整,女生变男生在负十二左右,同性之间变身,在零附近微调 性别因子。 rvc 零六零四版本新增的功能可以改变声音的粗细,增加了变声的可玩性,往左声音越来越曲,往右声音越来越细。检索特征占比,指定分配给训练 中使用的 rvc 模型。特征的权重率数值越高,变声后的声音越接近目标模型的音色,但对电脑配置的要求也越高。延迟也可能增加 响度,音质可以调整模型的音量,一般在零点八左右。性能设置采样长度与变声的延迟和对电脑性能的要求相关,长度较短,声音延迟低,但可能影响变声质量。 长度较长,变身效果可能更好,但延迟会增加,一般推荐在零点二到零点三左右。如果显卡性能有限,可能需要调大 音高算法一 pm h max 特点,这是一种基于 cpu 的音高算法,相对来说计算速度较快,对 cpu 资源的占用相对较少,但在音高提取的准确性和质量上可能会 高均一层。它比较适合那些 cpu 性能不是特别强大,但又想使用变声器的用户。试用场景,如果你的电脑配置不是很高,尤其是 cpu 性能不太强劲,同时对音高转换的精度要求不是极其可可,那么 pm 算法是一个可以考虑的选择。 比如在一些普通的语音聊天场景中,使用 pm 算法,可以在不太占用过多 cpu 资源的情况下实现基本的变身效果。二、 harvest 特点 同样是基于 cpu 的算法,该算法在提取音高方面可能比 pm 算法更准确一些,尤其是对于一些低音部分的处理相对较好,能够更好的捕捉到音频中的低频信息。 但是其缺点是计算速度较慢,对 cpu 的占用较高,可能会导致电脑在运行变声器时出现卡顿的情况。适用场景,如果你 你对音高提取的准确性要求较高,并且你的电脑 cpu 性能还算可以承受其较高的资源占用,同时音频中包含较多的低音元素,需要准确处理,那么可以尝试使用 harvest 的算法。例如,在一些音乐录制获得音频质量要求较高的语音处理场景中, harvest 的算法可能会更有优势。 三、 crepe 特点这是一种基于 gpu 的音高算法。利用 gpu 的强大并行计算能力, crepe 算法在音高提取的速度和准确性上都有较好的表现, 它能够快速的对音频进行处理,并且可以较为准确的提取出音高信息,从而实现高质量的变声效果。不过,使用该算法对 gpu 的性能有一定要求。信用场景, 如果你的电脑配备了性能较好的 gpu, 并且你对变身的实时性和质量都有较高的要求,那么 crepe 算法是一个不错的选择,比如在一些实时的语音、 直播、游戏语音等对变声效果和实质性都有较高要求的场景中, crip 算法可以发挥出较好的作用。四、 r m v p e robust melody teach estimation 特点也是基于 gpu 的算法, 是一种较为先进的音高提取算法。他在多声部音乐中进行声乐音高估计时表现出色,对噪声具有较好的稳健性, 能够在复杂的音频环境下准确的提取出音高信息。与 quick 算法相比, i m a p e 算法在准确性和稳定性上可能更深一层,同时对 gpu 资源的利用效率也相对较高。适用场景, 适用于各种对音高提取准确性要求较高的场景,特别是在音频环境较为复杂,存在噪声干扰的情况下, rmvp 算法能够提供更可靠的音高提取。 例如,在一些嘈杂的网络语音环境中,使用 rmvp 算法可以获得更好的变身效果。五、 mcpe 特点这是后来新增的一种算法。关于该算法的具体特点和优势,目前相关的研究和使用经验相对较少, 但从一些用户的反馈来看,他在某些方面可能对变身效果有一定的优化,并且在算法的效率和资源占用上可能有其独特之处。适用场景, 如果在使用其他算法时遇到了一些问题,或者想要尝试新的算法以获得不同的变身效果,可以尝试使用 fcpe 算法。 不过在使用之前最好对其进行充分的测试和了解,以确定是否适合自己的需求。 harvest 的竞成数一般设置为四,这个参数会影响音频处理的效率和质量。设置为四通常可以在大 大多数情况下提供较好的性能表现,但如果你的电脑性能非常高,可以尝试增加这个数值与进一步提高处理速度。反之,如果电脑性能较低,可以适当降低这个数值,以减少系统负担。弹入弹珠强度 建议在零点四到零点八左右。标和线如果设置的太短,声音可能不连贯。设置太长,说话可能会有延迟感。 国外推理时长,该参数与变声的延迟和声音的处理效果有关。设置在二到三之间,可以在保证声音处理效果的同时避免出现不良现象。 输入降噪和输出降噪这两个选项虽然可以减少噪音,但在某些情况下可能会影响声音的质量和真实性。如果你的音频输入已经经过了其他降噪处理,可以不勾选这两个选项。启用校卫生马器, 勾选与否影响不大。这个选项主要用于一些特定的音频处理技术。对于一般的变声需求来说,勾选与否可能不会带来明显的差异,你可以根据自己的实际听觉感受来决定是否勾选。 如果有需要远程协助的朋友,可以私信我。这期视频就到这里了,感谢你的观看与喜欢。之后如果有什么不懂的地方,既可以私信问我,也可以催我发视频哦,不然我会缺乏动力,不想做视频呢。
亲爱的朋友们大家好,那个很多人问我这个这个虚拟的这个 rvc 啊,应该输入输出应该怎么样去选? 然后呢?这几天本身也忙,也没空弄这个,然后我重新从头,然后说一下这个怎么选啊? r v c, 咱们只要你的显卡驱动,只要你所有的东西都做好了之后,呃,直接一回车这个主程序它就直接打开了,打开了以后呢只用选两个东西,第一个呢是咱们的 这个 p t h 这个文件啊,然后点一下选择 p t h 文件, 然后他会浏览你 rvc 这个模型的路径,那么我就在这个 rvc 这个里边我建了一个模型的文件夹, 把我下载的模型全部都弄进来了。啊,那么这里我就任意选一种模型,就是我们那个模型包里边有很多很多模型吗?对吧?然后你把它都解压,解压过后呢?然后你自己做成记号,但是不能有,也是不能有中文啊, 那么我就直接选一个我平时用的模型,然后这个直接里边就有一个 p t h 这个文件,然后双击 p t h 文件, 然后底下点击选择这个 indesk 文件,然后选择 indesk 文件,然后还是刚才你选的哪还选哪?然后也是 我刚才选的那个模型,然后引带这个文件双击好,这个选完了之后,底下开始说这个声卡,声卡呢? 声卡呢?这个里边有这个什么里边有输入和输出,那么输入呢?通常就是你的第一块声卡, 那么我这个第一块声卡就是 idlog 一杠二,那么你要是艾肯的话,这个就是 h w 的一杠二,这个是输入啊,输入 h w 一杠二, 那么如果是 midiplus, 这个就是 idolog 的一杠二,如果是什么黑狮啊,什么东西,这个都选 idolog 一杠二,那么,呃,再往后哈,黑狮好像是 l 什么东西一杠二, 忘了,包括 id 幺四之类的这样的,这样的声卡都是 l 什么开头的一杠二,然后你选选试试后面再往后啊这个输出,输出这个声卡,你如果想让他在机架里面,那么输出这个声卡,我建议就跟播放器在一块, 你的播放器比如说像艾肯的话,是那个 vc 的一杠二,那么如果是 midiplus 的话,这个是 v 球的一杠二, 围球印的一杠二,然后你自己选啊,这个就可以跟你的播放器选到一块,那么如果你没有声卡,你这个用了一个 usb 的麦克风,那么上面就选择 usb 的这个麦克风的这个输入,下边就选择你的 usb 麦克 风的这个输出,再或者你没有这个 usb 的这个这个这个麦克风的输入输出的话,那你去装一个虚拟的跳线, 比如说像入梦的这个,他那个工具包里边有一个入梦工具箱工具,入梦工具里边装的有那个入梦麦克风和入梦的这个扬声器, 然后大概就是这么选呢,这个地方,这个地方我就解释明白了,那么底下这些咱都不用选啊,底下这些人家调完了就调完了,但是这个音调,这个 你如果是女变男,那么这里呢,你选择负十二,如果是男变女,你选择这个正十二或者 是十三或者十五左右,随便你选哈,只要别选的音调太夸张就行了,那么选完之后,我们这一次选完了以后呢,我们直接点这个开始音频转换,你看后面他这个批处理就已经开始工作了, 那你点击开始音频转换了以后呢?这个时候我们就直接看下面,只要有这个, 呃,就是我,嗯,就是他这个时长啊,他这个有这个时间出来,那么这个那那个那个什么什么推理时间啊?只要有推理时间出来,那么这个时候就可以用了, 那么这个时候呢,我们就我直接就切到我自己的这个我听不见的这个声卡里边,但是能录的到的啊,那么 这会我就直接切到那边去,我就直接切到那边去 看茄子。这边来了之后呢,这个这个声音呢是发送给了我的录音,这个声音是发送给了我的录音, 那么这个声音呢?就没有给我的耳机,我的耳机是这个哈,我的耳机是这个, 那这个声音我就留了一点点,因为我要,我要监督一下这个耳机到底啊,这个变声到底是变得怎么样? 我要稍微监督一下,我不能把他声音调太大,调太大的时候他会,他的声音会太大了以后会就是他会重复我的话,然后他是两三秒 鸟的这个延迟,然后我根本说不了话,我只顾着听他说去了,所以这个地方我们没必要听,你只知道你只需要知道你的这个说出来是什么样的感觉,什么样的语气, 但是我建议哈说话的时候尽量模仿一些女生的那个语气,虽然说他是正常的说话,但是尽量尽量模仿一些那个语气就行了,要不然你的语气还在的话,那冷不丁一听熟悉你的人的话,还知道是你, 就是大概就是这个情况。这个呢,需要注意的是我们在看啊,你需要用驱动精灵把你的这个网卡驱动还是要好好驱一下,我们在这个下载工具里边来看一眼。 那么卸载工具打开以后呢,我们可以看到这个,我这显卡驱动总共有五个啊, 你必须得把这些都打钱了,就是这显卡驱动这五个都打上,打上了以后呢,这个时候你才能正常的工作,要不然他会出现错误。还有一点就是上一次我说的这个 rvc 的这个路径啊,我们打开文件所在路径, 你看 r v c 的这个路径啊,我是没有中文的,没有中文的是在地盘的 program files 那个 r v c 这个里头一定记得是没有这个中文路径的,这样的话才能正常运行。嗯, 但愿你这个声音里边哈声音的输入输出,你先把它输入调好,然后输出的话,咱们一个一个去试 用录音机,一个一个试,你你,你这个调完了之后,然后你点一下这个音频转换,然后再停止, 然后再录音,完了之后再去调一个这个输出,然后再开始音频转换,然后再录音,要是还录不到,然后再停止,然后再换一个,一个一个去换,哪个地方能听得到,咱就用哪个就行了。 那如果要实在没有的话,就是直接装一个虚拟跳线,就我说那个虚拟跳线,包括我们调声卡用的虚拟跳线 vs meter, 或者是我们正常用的那个 wdm, vst 二的那个 wdm 都可以,都可以用。嗯,只要把这个啊,还有一点哈,还有一点,要把这个声卡的这个采用内, 找到这个右下角的喇叭,哈,右下角喇叭然后弹出,然后找声音,声音里边不管是录制还是播放里边这些每一个声卡属性里边的高级 属性里头的高级,然后点到这个采用率,点到点到这个底下采采用精度哈, 咱们要看这个采用率,一定要看他是二十四位四四幺零零,或者是十六位四四幺零零的,一定要注意这个,然后只要这些注意好了之后,然后点击开始音频转换,然后你这个声音呢?就到这了,你看 我这个直接是在录制声卡的默认的录制声卡,哈,直接输出到默认录制声卡了,那么我的录音机如果在这个默认的录制声卡里面,我就可以直接录到我这个女声,比如说我现在用到的这个 obs o b s 啊, o b s 的它这个设置,你看看啊,它这个设置里啊 o b s 这个设置里边的音频, 音频里边我是默认的,你看看到了吗?这个这个音频里边既然是默认的话,那他默认就应该是这个 a d a t 的七加八,也就是我的默认的录制声卡, 所以这个是正确的。你就有一些东西呢,比如说有一些录音机呢,是不用调的啊,不用调他, 他就直接就是这样的。嗯,我的视频如果能帮到你,多多点赞,多多转发,感谢感谢,拜拜。拜拜。拜拜。
哎,好的,今天抽空给大家出一期云端运行 rvc 变声器的教学,可能看教学的朋友电脑小白居多,所以我尽可能用词通俗易懂一点,你们跟着一步步操作就行。 时间比较匆忙,没有准备什么稿子,有讲的不对的地方也欢迎各位大佬指正。那么废话不多说,正片开始,现在咱们先租一台别人的电脑,租电脑的话一般就在这个网上 为他显卡打开这,然后这是登录,登录完之后会有一个充值,随便充一点就行,算你市场 用一个北京 a 区的这个二零八零泰 基本上就够用,基本上往下翻一点,往下翻一点,不至于经常会被别人租走,然后会省点事。 不过各位注意一下啊,这个看支持最高版本,这个选这个十二点零的,像这个十一点六的话,他可能会影响咱们使用,你说这个最高版本十二点零就行, 点一下这个足啊,下面选这个镜像社区, 把这个输进去, 嗯,点这个 v 十五就可以。点立即创建, 等一下,这个等他创建好了。嗯,这个地方我给快进一下。哎,好的,我们打开之后呢,现在是这个样子, 这里比较重要的地方是这个,这是咱们的账号密码,然后和这个快捷工具,我们登录到对方这台电脑,打开选这个,嗯, jup 这个这个 点开,点开之后是这样子,我们把把这个说明给点一个叉叉, 然后点这个终端, 好在这里输入这个代码, 正在启动这个变声器,好到这个出来。这个 d o n e 就是已经 在北京这台电脑上,我们已经打开了,现在看第二部连接上租的这个电脑, windows 加按键哦, c m d 一串连接代码给输一下。这个地方呢?需要改一点东西,怎么改?把这个指令复制, 接到这个地方之后把这个给改到这个地方,把这个 改到这个地方啊,上面这个,这个就是我们这个登录的指令, 下边这个就没有用了,删了吧。密码的话点一下复制, ok, 我们的登录的账号密码都有了。打开我们这个本地的终端,直接复制回车,第一次需要让你输这个 yes, 回车,现在是输入密, 输密码的话有一个小技巧,复制啊,在这个地方点这个空白的右键编辑有个粘贴, 因为密码他是不显示的,你如果自己复制啊,或者怎么操作,他有可能会报错,然后这样点回车, 好,大概等个五五秒到十秒,他如果不显示其他代码,就证明我们连接成功了。接下来我们打开这个变声器, 点这个 star, 如果你可能以前第一次打开的话,这应该会弹 弹出一个麦克风,是否允许使用,你点这个允许就可以了,点 star 开始,这样的话就是正常的你的 变声器设置,如果你本地变声器不会用的话,建议看一下其他的教学,这个就在这过多赘述了。选你自己的麦克风,选这个虚拟声卡都可以啊,这里是调个延迟 车的话,一般我挑点这个一二八三二七六八,选 gpu, 这个地方选 rmvpe, 上面这个降噪开不开都无所谓。然后选个模型,咱们随便点一个模型,大概就是这样, 这个 star 就可以了,至于怎么关闭,现在呢?这个正在扣钱。我们使用完之后呢,点这个关闭,然后把这个也关了,这个地方点关机, ok, 然后本地的这个点叉好了,现在已经关机。 之后使用电机开机就可以了,会比第一次用节省几个步骤。 以上就是完整的云端运行 rvc 全流程显卡开机才扣费,所以记得用完关机,如果下次点开显示显卡不足等提示,那可能是被别人租用了,你就需要换一台族,基本上就是这样喽,拜拜。
喂,哥哥在吗?你怎么不理我?哼,我生气了。看,这就是我们用出来的效果,然后你们用出来的效果却是这个样子的。喂,哥哥在吗?哥哥在吗?为什么不理我?为什么不理我?哼, 我生气了!大家都是人,都用的电脑,为什么他的清晰无杂音效果这么好,我的这么差?这就好像为什么自家妈妈这么烦,别人家的妈妈都和蔼可亲的,我很难搞。接下来我说的东西都很重要, 全是干货,没有一点废话。你们结合着我说的这些问题去改进,绝对绝对有效果。首先第一个是你没设置对。第二个是你硬件层面的问题,硬件的话,首先第一个要么就是你没有加外设,比如耳机麦克风之类的, 那么就是你外收太差了。我换个模型说吧,这个模型不太适合我的声线。 喂喂喂,耳机麦克风什么都不加的情况下,问题就会比较多。第二个就是你耳机里面的声音太大了,他变出来的声音又缠到你的麦克风里了,所以会出现一些鬼叫回声, 有一些电流。不过这个都不是导致这个问题最主要的原因。那最主要的原因是什么呢?是你电脑自己的配置,我很明确的告诉你, 这个软件还真的有点吃配置,现在市面上所有的 rvc 都有点吃配置。你不要管他软件在界面一不一样,他们用的都是同一种开源,包括我用的这种也是不存在,他的软件对配置的要求会更低,音质会更好,而且用的开源都是一个样的,只不过坏。 换了个皮肤行走在市面上而已,不用去纠结选哪款变声器,用起来效果都一样的,几乎没有什么区别,只不过我用的这个更简单明了一点,没有那么多花里胡哨的,包括我这个界面都是原版界面,市面上大大小小的变声器我几乎都用过,但我还是在用这一款, 这款比较干净一点,用起来比较方便,但配置低的难道就不能用了吗?错,不是的,一样可以用,包括 a 卡,甚至可以用出上万元显卡的效果,比现在视频里的效果还要好。原单他不需要电脑的内存, 更不需要电脑的配置,而且效果是真的好。总而言之,你电脑配置很高的情况下,你可以直接使用,不然的话你还是上云端吧,不然你配置不高的话,你比如说打游戏,你游戏可能不卡,但你变身出来的音效你 不是很好,而且还会伴随着各种杂音生字的情况。这个就不是软件的问题了,前面我也说过,市面上的 lvc 用的开源都是一样的,除了界面以外,其他整体都是一模一样的, 换配置除了云端就根本没有解决的办法。软件和模型我这边都是免费送给大家,如果大家想要调试的话可以找我,本地的和云端的我这边都可以帮你们调,包括应用到游戏里和软件聊天。好了,本期视频就到这里,拜拜各位吴彦祖。
哈喽,大家好呀,我是你们龙宝呀,今天给大家带来一期关于 r v c 常见问题设置的教程。 首先我们看到虚拟声卡,这里我们下载好了虚拟声卡和 r v c 之后,我们要 选择我们的麦克风和耳机导入到虚拟声卡里,怎么导入呢?我们首先要知道哪个是我们的麦克风, 呃,我们首先大声可以去大声说一句话,你看到哪一个?呃,麦克风在这里响了,那个就是我们的麦克风,我们去选择它,然后选择一定要记住不要选择这种 m m e 形式为开头的。 然后呢这里也是同理的,我们可以去播放一个视频,找到我们的耳机,然后然后去选择它,选择它之后我们这里就 这里就设置好了,设置好了之后呢,呃,我们再看到 r v c 的设置里就是一关于音频的设置,一共只有三个地方,我们是要特别去注意的啊,我现在点个停止推理。 再就是 r v c 这里因为我们用的是虚拟声卡,所以说我们就要用到虚拟声卡的麦克风,我们在系统音频里要找到这个虚拟虚拟的这个麦克风,然后播放选择我们的硬件耳机播播放就行了。然后呢这边因为我们其实是用到这个是做到一个跳线的功能, 然后呢我们就是所以我们这边是要反着来的,这里选择的是虚拟的输入设备,选择的是虚拟麦克风,这边选择选择的就是硬件的麦克风,我们在使用的那个麦克风,然后这里播放选择是我们的硬件耳机,这里的自己的输出设备耳机就选择我们的虚拟的这 个,这个 waist meter input, 我一定记住了,我们现在用的是普通版的,不要选择中间带有 a u x 的,你选择那个是香蕉版才用得到的,你选择 a u x 的是没有声音的。 然后再就是 rvc 设置的一些地方推荐,呃,配置不是很好的小伙伴,一开始先点击这个,点击这个均衡配置,呃,然后因为均衡配置和高配置他们之间差别其实只有这个缩影, 看我点一下高配置,缩影开到了一半点均衡配置,他就关掉缩影,呃,因为现在 我现在消息版本第四个,这个 r m v p e 算法是最好用的算法,我们一般无脑选择这个算法,然后采用长度,就是我们的延迟,我们拉的越低,它的延迟就越低 啊。然后呢,这个是高音,这个是高音算法的进程数吗?我们不用去管它,因为选的是第四个算法,我们随便拉多少都无所谓的,剩下的弹入弹珠和推挤时长都是跟我们声音 的空气含量和声音的长短有关的,我们拉的越高,声音的质感就越好,所以这里就是无脑拉满,我们不用去管它响应一直呢就是我们声音录进去它的灵敏度, 呃,我们调的越左边他的灵敏度就越好,就是他的他就越灵敏,也是一般是无脑拉满的。关于音调的设置呢,一般少女音我们一般是用十二,就是大部分都是这种单数啊。 御姐音呢是用十一,萝莉音是用十四,当然也是因人而异的,你可以自己去啊,改不同的音调去听,哪个最适合你?然后呢?我们这里三个地方都确认好了之后, 每次开机的时候,嗯,只需要在这里更改一下就行了。在系统音频这里改成虚拟,呃,这个虚拟声卡就行了,因为我们每次系统音频启动的时候,呃,虚拟声卡不是第一个启动的,是你的其他的硬件启动,他会把它设为默认设备,这个时候我们把它改过来就行了。 然后其他,然后开机的时候,我们正常的打开虚拟声卡,呃,这个,呃 rvc 就可以使用了, 然后像我们现在都设置好了,呃,我们就可以导入模型去使用,嗯,像我现在随便导入一个模型给你们看一下,呃,我,我推荐啊,是像我这样啊,创建一个文件夹,专门用来放模型,这样也比较好找。 然后我们去选择这个模型的时候,呃,它会自动识别 p t h 为结尾和 index 为结尾, 我们直接点进去就行了。点进去就行了,然后点击确定,这个时候他这里提示我是同同名文件,就是代表我已经添加过这个模型了,然后点这个确定就是了,然后我们这个模型刚刚这个模型就导入进去了,然后我们来使,然后我们来使用一下这里的模型来试一下效果。 这是一个 b 减音的模型,然后我们把音调改成十一,点击开始推理, 然后我现在,然后我现在把两个声音都打开,你们可以听到现在这个,现在这个御姐音就输出,输出出来了,然后我,然后我把我的本音关掉,就只有这个御姐的声音了,是不是看完之后觉得很简单呢?然后还有些小伙伴有些 其他的设置上的问题啊。呃,比如说他下了很多个虚拟虚动,他不知道怎么删除,就他到了他用了常规的这个 控制面板这个程序和功能里找到了这个威斯特这个驱动,他想去删除,他卸卸载之后发现也找不到了,他还是删除不了,发现最后去安装的时候是云幕还是删除,然后每次都叫他重启系统,一直删不掉,怎么办呢?呃,这种情况我推荐是去 设备管理器里找到声音这一栏,然后找到 vb 这个 what is 的这个驱动,在这里去把它卸载,卸载这个设备在这里卸载,就是完全卸载了之后就可以再重新安装一遍,就就就行了。然后呢,有的小伙伴就是他有声卡,但是他不会跳线,他不知道怎么用。 呃,我推荐这种小伙伴也比较简单,你直接在这里找到你机架在用的麦克风,点击把它选选进来,再在这个地方换成你机架在使用的麦克风,这样这样就就设置好了,然后我们点击开始推理就可以用了。 这个原理就是把虚拟声卡作作作作为一个缓存跳线去使用了,它的好处呢,就是你不用去设置跳线了,但是它也有坏处就是你的延迟,因为通过了虚拟声卡会多零点一秒的延迟,但是你声卡的你声卡的效果就是你在机架里面的效果,都是可以使用上了。 嗯,好就讲,哦,不对,还有关于 qq 的设置的问题啊,就是,嗯,我们这里系统音频设置设置 好了之后,所有的语音软件呢,这里都只需要改为默认设备就行了,我们就可以很好的。可以都可以,就都可以。呃,把我们变身的效果都弄出去。 好的,就这些吧。嗯,这是本人第一次录视频,如果有什么录的不好的地方还请大家多多包涵,再见。拜拜。
大家好,我是七月,最近 ai 变声非常流行,我也跟着学习了一段时间这个视频呢,想跟大家做一个分享。目前大众方面流行的 ai 变声效果比较好的就是 rvc 变声器,是有 b 加 up 主患爱不哭大脑开发并开源的, 开源的意思是说大家都能免费享受到 ar 技术带来的福利。安装包链接我也放在了视频简介,大家可以直接下载,包括需要的蓄力声卡都在安装包里,希望大家都能点赞关注支持下。 up ic 变声依靠电脑来运行,并且需要一定的配置,最低的配置和推荐配置分别是这样,大家可以截图保存。软件是一键安装的,尽量放在固态硬盘,且路径越简单越好。路径名称可以有拼音,不可以有中文解压就是安装。安装完成后,我们 看一下软件文件夹,整个文件夹需要用的东西只有四个, nars、 wax, 还有两个 g o 开头的运营文件。 nars 就是日志的意思,装了语音模型的缩影文件, with 就是权重的意思,装的云模型,当然这些模型都是我辛苦收集整理的,大家可能没有这么多,初十好像有三个模型,其他的大家往往上慢慢找就好了。 然后往下看 go 开头的两个文件,第一个是实时变声需要用的客户端,第二个是推理和训练需要用的客户端。这个文件夹只要记住这四个就可以了,其他的都不用管。 接下来就讲怎么使用 r v c 变声器, r v c 变声器分为三个功能,第一个推理,第二个实时变声,第三个训练模型。 首先我们来看推理,双击 go web 点 bet, 然后会出现一个黑框,我们可以按下空格键,按下回车键, 催一催他,他不要按太猛,然后他会出现你的显卡信息,待会会跳出来一个网页, 本地网页,然后我们把这个黑框不要把它擦掉,把它缩小到菜单栏,我们我是菜单栏是在最最右面,大家可能是看不到的,然后我们看到这个界面,把其他的往后面 放一下,说一下,然后留我自己,我自己打开了我一个录音文件的一个位置,我们就可以对应的看一下,放下面一点线,那么我们先看整个界面,整个界面需要调的东西不多,第一个退了音 色是需要选我们需要的云模型的,我们这里选一下,选因为圆绳嘛,圆绳我都是标好的 ys, 圆绳,胡桃,因为我这个比较多啊,有一百多个模型,所以找的话相对来说需要一点时间, 找到模型之后选择相对应的缩影文件,然后这里呢我们需要一下变调,如果你的声音没有我音调这么高,就是普通的比较低沉的男性声音的话,是需要十二的,正常是需要十二, 那么因为我的音调比较高的,我一般八到十或者六都可能是这样,那么我们现在是调了三个东西,第一个推理音色,第二个自动检测缩影路线,第二个就是缩影,第三个变调, 第四个需要调的东西是这里,这是需要处理的音频,音频文件我刚刚已经打开了,我们需要把它录进输入进去,这个词电脑是不用管的,然后我们复制这个, 然后把它复制过来,这时候我们还没选到文件,因为这里有很多,对吧?我们首先打开录音我们听一下,我们欢迎来到提瓦特大陆, 欢迎来到提瓦特大陆,这是我原来的声音,我们需要把它一撇,六六六,六 点 m 四,哎,他有启动格式都是可以的,这个是因为是用电脑的录音记录的,就是 m c 格式,大家千万记得我有时候会用属性啊,然后选这个复制,这是不可以的,这是会出错啊,我也不知道为什么,反正就是不可以,所以大家最好就文件夹,然后文件夹路径复制完之后,然后手 动一撇,然后把这个录音的名字输入进去,这是我们整个页面需要调的第四个地方,第五个地方就是选成这个 rmvpe, 这个不用管,就算法是这个最好了,直接选这个 rmvpe 效果最好。然后接下来我们就可以直接点转换 他首次转换,一打开这个页面之后,首次转换是需要一些时间的,然后我们就可以听一下声音,欢迎来到 twat 大陆, 欢迎来到 t 瓦特大陆,这时候如果你觉得音调不好的话,你可以变高一点 w 十, 欢迎来到 twat 大陆,然后这样就可能有十二的话就特别假。 欢迎来到 t 瓦特大陆,然后我们可以选一下六给大家听一下, 欢迎来到提瓦特大陆,然后这个音调就根据你自己说话的,你自己这个录音的刚刚这个录音文件的音调来进行调整,慢慢调就调到你合适的那个位置就可以了。所以这个页面看的这么多东西,其实很多都是不需要你管的,那么我们再复习一下,需要的就是模型、 锁影、音调,还有需要处理的这个音频文件,然后还有这个 i m v p e 就 ok 了。然后最后完成之后,大家说保存,保存着就点这个下载,那么他就会直接下载到我们这个下载到 我们电脑的这个 c 盘的这个下载,下载文件夹里,它就会出现在这里,就会出现在这里,然后我们换成大图标看一下, 打开听一下,欢迎来到提瓦特大陆,这就是六的一个,当然了大家如果想音色比较越靠近胡桃越好的话,那么就尽量模仿一下胡桃说话的,就是你录音的时候,你在这里录音的时候,你尽量模仿一下胡桃说话,这种方式会更好一点,而且这个 这个 就是你模仿的越像胡桃,然后你最后得出来的效果越好。 然后其他的也可以根据包括这几个这三个数字,包括这几个数字这个这个是不需要管的,这三个数字可以根据自己的 一个情况来进行调整,那么大家推理的时候完全可以用音箱啊,用麦克风都没有关系。接下来我们来看实时变声,实时变声需要打开这个 go real time g o i 点 bet, 同样的他会小黑框出来, 然后我们继续把小灰缸给缩小,把其他不需要的先缩小。 实时变声相对来说复杂一点,对电脑配置要求也比较高。除了 rvc 软件之外,我们还需要虚拟声卡和调整声音设置,虚拟声卡已经在下载链接里提供了,就是这个东西大家可以安装好后就可以搜索虚拟声卡,可能是桌面没有标 的,可以搜索这个 vs meter, 但是我这是经常搜他就会出现了,然后我们打他有三个选项都可以,但是我觉得 blana 最好用嘛,我们打开这个文件,他会出现在右下角,然后我们把它点开, 打开这个文件之后,我们把它先摆好了,然后我们还需要打开声音的一个右键,右下角的一个小喇叭选择声音, 会出现一个这个声音的设置框,我们需要在播放和录制两个里面进行调整。然后我们来看这三个东西。首先的话就是我们来设置训练声卡,然后这里是麦选麦克风, m m e 麦克风就行了,你 你用的麦克风前面带 m m e 的就 ok, 这是麦克风,然后这里选 a e, 选 m m e 的扬声器,这个我正常就放声音的一个东西, 但是虚拟你做实时变声的时候最好是戴耳机的,我现在看着音箱待会可能有一些回音也是正常的。那么左下角的设置,第一个选 b 二就行了,其他都不用动。然后这里可以稍微调一下音量的争议,可以调大小,你可以小一点,也可以大一点都可以, 就是说如果你声音比较小的话,你这里可以调调高一点,给他有一些争议。然后第二第三栏是不用管的,然后这一栏,这一栏是 左边这个竖排啊,他是系统声音,你可以把它全关掉,或者你可以 a b e 都点开都可以,这是系统的一个声音,就是系统本身发出的声音,和游戏打 标游戏本身发出的声音都是有的,如果你把它全关掉,你就听不到了, 那么右边呢,就是我们这个 r v c 变声的一个声音,通过这两个通道来进行,一是可以关 a, 你可以关掉,这就是反听,反听的声音,如果你不想要反听的话,变声后的反听的话就可以把它关掉,但是一般我是会留。 接下来我们看声音选项的设置,那么这里呢?我是目前的没有调整的默认设备是麦克风,但是我们现在已经用了蓄力声卡了,就不需要使用来麦克风,我们需要使用的是设置这个为默认设备, 就 worth meter output 默认设备,然后播放的话我们调到放到最底下,我们选择 in input 做声音设备就可以点确定。然后我们再来看 g o i 的部分, g o i 的部分我们这里选择模型,我们继续找胡桃, 这里选缩影,这个是跟刚推理是这里这两个选项是跟 com 刚刚推理部分是一样的,把模型和缩影文件放进去, 然后这里输入输出设备的话,大家一定要看好,这里都是带 ax output 和 ax input, 跟刚刚那个声音设置不一样的,都是带 ax, 只要记得这个就行了, 大家要记得这两个带 ax 就 ok 了。然后剩下的一些设置,这个最后我们直接选最后设置就行了,就是我之前都已经设置好,打开就 就这样了。然后其他的几个音调设置,包括六和八是跟刚刚一样的,这个音调跟刚刚推理是一样的,因为我音调比较高,所以我一般六和八就差不多了,音调的原则就是越高越假, 越高就会有更假更更嗲的声音,然后越低呢,就越像御姐。如果是你是女生的话,变男生的话就得往下走了,打比方你女生原来是零,然后你就得负十二,这样子, 男男女之间正常是十二的一个,在软件里,软件的设置里是十二音标的一个差差异, 然后这个应所引的速率呢?我直接选了一个一,然后这个右边的材样其实可以根据你自己情况调整,然后这个净成数 harvest 呢?是 不需要,因为我们选了第四个选项,跟他就没有关系啊。偶尔推理时长呢,开的越高越好,但是相对来说你的你的这个推理时间就会变长,所以基本上在一左右吧。这两个降噪不建议开,不建议开,然后我们开始音频的转换, 他需要一点时间。喂喂 喂喂喂喂喂喂喂, 那么调整完之后,我们就调整完之后,我们就可以开始这个实时变箱,这个实时变箱啊,实时变箱,当然因为我是用的音箱, 是没有用耳机,是没有用耳机,所以这个回声比较重,所以这个回声比较重, 那么我们不想看到回声就直接把 a 给点掉,就是不想听到回声,直接把 a 点掉就行了。但是如果小伙伴有的时候会,但如果小伙伴有的时候会卡路的话,就可以在麦克风这个地方切换一下别的,然后再切换一下别的,然后再换换呢,他就会 可以正常的喂,可以正常的一个使用。我先把这个回声给反听给关一下。勇士是变声来直播,我测试了避战直播机和微信直播,直播机是不怎么需要调的,微信可以这样调, 那么这个就是实时变声的一个部分,那么我先把它关掉, 接下来是训练的部分,我们打开刚刚这个推理的客户端,我们黑框会出现,然后他需要运行,等页面打开之后,我们把黑框给缩小,不要把它擦掉,把它缩小就行了。 训练的部分就看上面的菜单,在第三个训练的部分,那么训练的话,这部分内容比较难,也需要前期语音处理等大量的工作,不建议新手玩家去尝试,我也不是很熟练啊,就是跟大家共同学习。 训练开始前你需要准备优良的语音包,那么我们刚刚这个语音文件啊,我这几个文件我就当他是语音包了,我就 假装他是语音包,就是几个语音嘛,尽量使干净的声音,然后语音包的质量与最终的模型质量是成正比的。那么我们来看训练页面,训练页面首先是输入十 签名,这个可以用个拼音啊,或者什么都可以,然后采用率的话,正常选个四十 k 就行了。如果你的录音文件是语音文件是呃, 会显示有比特率,四十八 k 的话,你就选择四十八 k 就好了。这个是否带晕膏?我觉得是要带一下吧, 然后版本选择 vivi 会更好一点。然后这里是输入训练文件夹的目录,还是这个一样,这里不需,这里不需要每个文件的名字,你只要把这个文件夹我们复制进去,把它原来的替代掉就 ok 了,这样就 ok。 这个就相当于训练我自己的模型了,我自己录音的几个文件,这个 id 是不用管的,然后处理数据特征提取这个我这个是用用来 做锁引的,因为我们要使用一键训练就可以不管它。然后我们看一下啊,这个 g p u 它是自动选好的,瑞 r m v p e, 这是离卡多的情况下,选零零和卡一卡二,但是我就一张卡就就完全不用管,就是这个地方选一下,就第二个大长方方的地方,就是选 r m v p e 就行了, 这是我们上半部分。然后这里比较重要的就是这一盘保存频率的话,他是默认是五,就说你每五轮保存一次,但我不建议每五轮啊,其实十轮打比方,你训练一百轮的话,你可以每十轮保存一次,保存一次 对吧?如果你三百轮的话,你三十轮保存一次就很好,这是怕你突然断电啊,或者什么,然后总总的训练,能 成数的来讲的话,一百以上基本上就可以用,但是就不够好,一千是最好,越高越好了,但是越高需要的时间就特别特别的长,那么我们正常就是一百以上, 然后如果你效果还不错的话,就三百或者五百都可以,五百的话你正常大概十几个小时,每张显卡的这个这个可以开大一点,你开个六啊或者八啊都可以, 但也不要开太高,怕你的显卡啊吃不住,对吧?是否仅保证最新的 c k p t 文件,这个就是模型的原生文件,这个选辅啊,一定要选辅,如果你要,呃,如果你空间特别小的话,硬盘特别少的话,你就选,是因为他中间会保存大概几十个 g 的文件在里面,几十甚至上百 g, 就说 你的这个盘的,我们打开你这个盘的盘的一个空余的空间最起码要剩一百到两百 g, 这样比较好一点, 就是你硬盘的剩余空间要大一点。是否返程所有训练极致险程直接选否就可以了,因为要不然就会 有可能你声卡不太行的话,就会炸线中。是否在美食保持终点时将小模型保存的位置文件其实可以选试啊,可以选试,那么如果你这里选试的话,你后面就减少一个这个 ckpt 处理的一个在这里处理的一个过程,就是如果你这里直接选是的话,他就自动就处理掉了,然后然后再看最下面这个是不用管的,这是我们花不哭大佬 做的底膜,然后直接点一键训练就 ok, 我们把这个黑框打开, 就这就正常了,他已经开始处理数据了,我们看黑框他跑了很多,但是因为我的数据很少很少很少, 对吧?这已经开始正常处理了,我们中途不要关了,当然我待会会会关掉,因为我这个就是演示给大家看嘛。我不是真的要去训练,他现在训练就是正常训练的一个过程了,完成之后他会在这个我们回到,嗯,我们回到这个, 我们回到这个文件文件夹里来,呃,它这里 max 里面会出现一个七月,对吧?我刚刚起名叫七月,我们上面这个 实验名称叫七月,这就会出现一个文件夹,嗯,他就是会把练好的东西放在这里面,所有训练的东西放在这里面,然后因为我们刚点了一个在外外科斯 就说如果最终训练好之后,他会把这种小模型直接放到这个模型文件夹里,位次里面,直接放到这里面来, 就是会出现一个叫七月的一个模型,等训练完成之后就会出现现在就是训练成功的状态,已经在正常的进行训练了,然后完五百轮完成之后,他就会生成文件, 然后你也可以单独的去处理数据特征题句,然后出。所以啊什么我觉得就是新手我们就不需要直接把选项选好之后,直接一键训练就 ok 了, 把它关掉吧,我们把黑框直接关掉去中断他,但是你们训练的时候不要去中断他,你们训练的时候不要去中断他,中断他就是整个训练过程就前面就白费了,但是我是因为演示吗?我们就把他中断掉。 模型训练好之后呢,大家就可以把模型复制到这两个文件里,一个缩影文件是 index index 结尾的缩影的,一个结尾的放到这里面来,然后把这个模型文件它会自动生成放到这里面来,模型文件就不管了, 因为我们选了,我们刚刚选了这个选项嘛,就模型文件就不用管了,它就自动这个 c k p t 的处理了,那么这就是所有训练的一个流, 影响你模型最终训练效果的就两个东西,第一个你是语音的,一个你原始语音的一个质量是否够清晰,数量是否够多。第二个就是你的训练轮数是否足够多, 对吧?然后最终你是有没有成功,如果你成功好了,你就可以放到推理里面进来使用了,这就是 rvc 变声器的三大功能了。接下来是总结部分, rvc 变声器目前来说是最适合大众的变声方式,相比较于同流派的 相近流派的 vits 来说,效果更逼真。相比于 tts 的文字转语音来说,音调及语音节奏掌握更好,因为你可以说话,你录音的时候可以说话很慢很慢出现这样的效果变音声,但是文字转语音是做不到的。很多 声卡也有男变女,女变男的功能,但远没有 rvc 变声器的潜力大。你只要有语音包,你就可以训练如任何你想要的人物的语音模型,然后开始使用,当然了,不要用来违法犯罪。 关于 rvc 变声器的效果,效果首先取决于模型包的质量,其次就是你自己录音的质量。录音的时候尽量字正腔圆,尽量去模仿语音模型的说话方式及情绪, 比较特别的比如胡桃说话比较开朗,你录音的时候也尽量保持开朗的语气,如果像拉西达这样比较闷声闷气的,你说话也录音的时候也尽量温柔一点。从应用上来讲,推理功能可以用来给 电影、电视、动画视频去配音,也可以用 qq 语音来戏耍小伙伴等等。实时变声功能呢,可以用 用来游戏语音直播及游戏陪玩等。从难度上来讲,除了训练之外啊,除了训练这一块可能稍微比较难一点,对电脑也要求比较高一点,那么沉下心来,大家多摸索摸索,把视频多回看一下还是不难的,大概一天就能熟练的去掌握他了。 那么不是太理解的小伙伴可以多在评论区提问,我会力所能及的回答大家。提问多了,我也会出视频解答相关的问题,大家也可以搜索其他大佬的视频进行学习, rvc 这一块相对来说已经是比较成熟的一个氛围了。然后模型来讲,网上的免费模型有很多,大家可以搜索 rvc 模型来查找下载。 最后,如果想体验 ar 变声又不想自己麻烦的小伙伴,可以加群了解远程安装服务及模型包,还有人工转换等服务, 群号在置顶的评论区。当然了,希望大家都能自己搞定,畅享 ar 技术给生活带来的便利。我是七月,点赞关注我们很快再见!