✨ 关于训练一个自己的TTS模型 #1842
Replies: 15 comments 27 replies
-
Beta Was this translation helpful? Give feedback.
-
已经挺细了 可以直接去读一下shell代码 基本就知道流程了,因为我不懂shell也不怎么懂python 都能把流程走下来,所以我估计换一个人来走一遍流程也是轻而易举的。 |
Beta Was this translation helpful? Give feedback.
-
我和你的情况差不多,也不懂shell和python,只能按着你的流程试一下,再百度一下吧~~谢谢你啦
李子 ***@***.***> 于2022年5月9日周一 15:57写道:
… 已经挺细了 可以直接去读一下shell代码 基本就知道流程了,因为我不懂shell也不怎么懂python
都能把流程走下来,所以我估计换一个人来走一遍流程也是轻而易举的。
我估计我再写的细点,就要去牢里蹬缝纫机了
—
Reply to this email directly, view it on GitHub
<#1842 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ASJVGUG5EILLTDS5XXLHE5LVJDAM3ANCNFSM5VEC5RZA>
.
You are receiving this because you commented.Message ID:
***@***.***
com>
|
Beta Was this translation helpful? Give feedback.
-
请问,你训练出来模型,数据集用了多少个音频 |
Beta Was this translation helpful? Give feedback.
-
你好,我这边有几个问题: 2.在数据预处理阶段: |
Beta Was this translation helpful? Give feedback.
-
注意,finetune 的时候,❗❗speaker_id_map 也需要用预训练模型提供的(要保证 speaker 数与预训练模型保持一致),假设你有 n 个新的 speaker, 需要把前 n 个 speaker 替换成自己的 speaker ,合成的时候通过 |
Beta Was this translation helpful? Give feedback.
-
根据这个 discussion,我们发布了小样本 finetune 示例, 欢迎试用 |
Beta Was this translation helpful? Give feedback.
-
核显炼丹莫名喜感 |
Beta Was this translation helpful? Give feedback.
-
mfa工具安装哪个版本啊? |
Beta Was this translation helpful? Give feedback.
-
您好,请问paddlespeech能实现自己通过数据集训练后,生成训练集以外的说话人的声音吗?类似于sv2tts? |
Beta Was this translation helpful? Give feedback.
-
您好,请问一下finetune大概要多久呢?声学模型和声码器 |
Beta Was this translation helpful? Give feedback.
-
额 看不明白 我是不是废了 |
Beta Was this translation helpful? Give feedback.
-
我看了好几遍代码,没有发现locla/fitune.py在哪里加载预训练模型参数。是在那就加载预训练模型的pdz文件的? |
Beta Was this translation helpful? Give feedback.
-
有一个坑
\udce4\udcb8\udc8b\udce8\udcbd\udcbd就是中文路径名…… |
Beta Was this translation helpful? Give feedback.
-
大佬,问一下,自己训练一定需要有GPU吗? |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
首先看一下效果 对paddlespeech的拙劣尝试 对paddlespeech的拙劣尝试2
我们需要走通 other/mfa和aishell3/tts3 两个流程
另外 windows 电脑也能搞这个 用 gitshell 就好了 有的地方要小改一下
收集数据
我的数据收集自网上,一种speaker大概需要600句话。获取到数据后用SpleeterGui进行背景音乐的分离,只取人声。
数据标注
我自己写了个小软件 啪的一下 很快啊 我们就标注完了,然后模仿 aishell3 的格式制作数据集,记得要排除所有非中文字符。
经过尝试和读代码我觉得照搬 aishell3 的 speaker 名的方式是最好的,改动少。然后我们用 pypinyin 制作标注文本,效果不怎么喜人,但是大概够用。记得抽出几句来填进test文件夹里。
获取mfa结果
other/mfa 流程走一下 流程里下载的是 linux 版本的二进制文件 如果你是windows的电脑记得改成下载windows版本的文件。
数据预处理
mfa结果有了之后去走 aishell3/tts3 的流程 要记住,先下载预训练好的那个 aishell3_fastspeech2 模型然后 ❗❗把脚本里的音素对照表指向这里的音素对照表,不要用你自己生成的那个。
训练
走流程 练一会 然后停下 进checkpoints文件夹,❗❗把预训练模型复制进来然后编辑那个 jsonl 文件。删的只剩一行然后把那一行里的 pdz 文件指向你刚复制进来的那个模型就可以接着训练了。
运行
你可以走 e2e 那个 step 然后指定好 speaker 如果不出意外的话,你就能听到你的训练结果了。
Beta Was this translation helpful? Give feedback.
All reactions