✨ 关于训练一个自己的TTS模型 #1842

kslz · 2022-05-05T06:47:25Z

kslz
May 5, 2022

首先看一下效果对paddlespeech的拙劣尝试对paddlespeech的拙劣尝试2
我们需要走通 other/mfa和aishell3/tts3 两个流程
另外 windows 电脑也能搞这个用 gitshell 就好了有的地方要小改一下

收集数据

我的数据收集自网上，一种speaker大概需要600句话。获取到数据后用SpleeterGui进行背景音乐的分离，只取人声。

数据标注

我自己写了个小软件啪的一下很快啊我们就标注完了，然后模仿 aishell3 的格式制作数据集，记得要排除所有非中文字符。
经过尝试和读代码我觉得照搬 aishell3 的 speaker 名的方式是最好的，改动少。然后我们用 pypinyin 制作标注文本，效果不怎么喜人，但是大概够用。记得抽出几句来填进test文件夹里。

获取mfa结果

other/mfa 流程走一下流程里下载的是 linux 版本的二进制文件如果你是windows的电脑记得改成下载windows版本的文件。

数据预处理

mfa结果有了之后去走 aishell3/tts3 的流程要记住，先下载预训练好的那个 aishell3_fastspeech2 模型然后 ❗❗把脚本里的音素对照表指向这里的音素对照表，不要用你自己生成的那个。

训练

走流程练一会然后停下进checkpoints文件夹，❗❗把预训练模型复制进来然后编辑那个 jsonl 文件。删的只剩一行然后把那一行里的 pdz 文件指向你刚复制进来的那个模型就可以接着训练了。

运行

你可以走 e2e 那个 step 然后指定好 speaker 如果不出意外的话，你就能听到你的训练结果了。

kslz · 2022-05-05T06:54:16Z

kslz
May 5, 2022
Author

如果你的训练效果特别好那我只希望

4 replies

zhaixzz May 8, 2022

谢谢分享，但是能不能详细一点啊，没有基础，看不太明白~~~

lijielijie May 9, 2022

写的真不错，就是细节有点看不懂，可以详细一些吗。

phecda-xu May 20, 2022

请问训练需要多大的显存空间？

kslz May 20, 2022
Author

我的是16g 半张v100 小显存就batch_size调小点

kslz · 2022-05-09T07:56:50Z

kslz
May 9, 2022
Author

已经挺细了可以直接去读一下shell代码基本就知道流程了，因为我不懂shell也不怎么懂python 都能把流程走下来，所以我估计换一个人来走一遍流程也是轻而易举的。
我估计我再写的细点，就要去牢里蹬缝纫机了

0 replies

zhaixzz · 2022-05-12T08:32:02Z

zhaixzz
May 12, 2022

我和你的情况差不多，也不懂shell和python，只能按着你的流程试一下，再百度一下吧~~谢谢你啦李子 ***@***.***> 于2022年5月9日周一 15:57写道：

…

已经挺细了可以直接去读一下shell代码基本就知道流程了，因为我不懂shell也不怎么懂python 都能把流程走下来，所以我估计换一个人来走一遍流程也是轻而易举的。我估计我再写的细点，就要去牢里蹬缝纫机了 — Reply to this email directly, view it on GitHub <#1842 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ASJVGUG5EILLTDS5XXLHE5LVJDAM3ANCNFSM5VEC5RZA> . You are receiving this because you commented.Message ID: ***@***.*** com>

0 replies

lijielijie · 2022-05-14T15:57:58Z

lijielijie
May 14, 2022

请问，你训练出来模型，数据集用了多少个音频

1 reply

kslz May 14, 2022
Author

800句

lijielijie · 2022-05-16T16:13:48Z

lijielijie
May 16, 2022

你好，我这边有几个问题：
1.在获取mfa结果阶段：
必须要走other/mfa 流程吗？如果不走other/mfa 流程，直接在本地生成对齐文件可以直接拿过来用于训练吗？

2.在数据预处理阶段：
我看教程是基于 CSMCS 数据集，训练 FastSpeech2声学模型和Parallel WaveGAN声码器模型。但你的教程为啥只走aishell3/tts3的流程？

1 reply

kslz May 16, 2022
Author

1，要走other/mfa 的为了取得音素时长结果，如果你的数据集给你标注了拼音级别的音素时长那可以直接用
2， CSMCS 是单speaker数据集我想训练多speaker的FastSpeech2声学模型所以走了aishell3/tts3训练FastSpeech2 声码器就用现成的hifigan

yt605155624 · 2022-06-06T09:55:38Z

yt605155624
Jun 6, 2022
Collaborator

注意，finetune 的时候，❗❗speaker_id_map 也需要用预训练模型提供的（要保证 speaker 数与预训练模型保持一致），假设你有 n 个新的 speaker, 需要把前 n 个 speaker 替换成自己的 speaker ，合成的时候通过 spk_id 选择自己的 speaker

4 replies

kslz Jun 6, 2022
Author

注意，finetune 的时候，speaker_id_map 也需要用预训练模型提供的（要保证 speaker 数与预训练模型保持一致），假设你有 n 个新的 speaker, 需要把前 n 个 speaker 替换成自己的 speaker

哦对提起这个我倒是发现个情况，就是如果用我这种方法训练，会让其他的speaker的音色也变成我数据集里的音色，没法先训练A数据集然后再训练B数据集，只能把AB合起来之后一起训练，发音人的音色才会正确。细节我就不清楚了

yt605155624 Jun 8, 2022
Collaborator

无所谓了，在你的任务里面其实只想要你新加的 2 个音色，其他的音色是否还保持原样无所谓

liangwq Oct 26, 2022

语音wav文件，怎么转成可以训练的数据对

kslz Oct 26, 2022
Author

语音wav文件，怎么转成可以训练的数据对

我是识别字幕然后用上面说的工具切，然后手动挪一下位置模仿aishell3的格式

yt605155624 · 2022-08-25T13:18:39Z

yt605155624
Aug 25, 2022
Collaborator

根据这个 discussion，我们发布了小样本 finetune 示例, 欢迎试用
https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/other/tts_finetune/tts3

4 replies

maize-j Feb 23, 2023

在finetune上，使用了大概200条数据集微调，出来的效果机器音特重，而且有些字讲的清楚有些字讲不清楚，有什么优化的方法吗？是数据集不够或者数据集中读音分布不均匀的原因吗？

LAM037 Mar 23, 2023

请问大佬这个问题找到解决办法了吗？我也遇到了类似的问题，用官方提供的数据集训练效果很好，用自己的数据训练，就有很重的机械感

zhangchen116 Aug 4, 2023

我也同樣遇到了類似的問題

www000 Dec 24, 2023

大佬，请问不同wav数据中人说话的声音大小不一样，会影响训练效果吗？

tkp30 · 2022-10-08T01:07:22Z

tkp30
Oct 8, 2022

核显炼丹莫名喜感
还有同一个人有细微音调拼接（比如地铁报站什么的）会影响吗

1 reply

kslz Oct 26, 2022
Author

不太清楚了问问子龙（yt605155624）吧也可以群里问问

graciechen · 2022-11-29T07:16:30Z

graciechen
Nov 29, 2022

mfa工具安装哪个版本啊？

2 replies

yt605155624 Nov 29, 2022
Collaborator

1.x

xuriliuhen Mar 13, 2023

我下载的windows的MFA 1.X的压缩包，直接执行bin文件夹中的mfa_train_and_align，总是报错，报错的文件路径都没有，不知道是为什么呢？是因为我之前有安装一个MFA2.0的虚拟环境吗，可是这个路径我电脑上根本没有

alandarker · 2022-12-12T07:25:38Z

alandarker
Dec 12, 2022

您好，请问paddlespeech能实现自己通过数据集训练后，生成训练集以外的说话人的声音吗？类似于sv2tts？

5 replies

kslz Dec 12, 2022
Author

可能行这个也许会帮到你
https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/aishell3/vc0
https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/aishell3/vc1
https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/aishell3/vc2

alandarker Dec 12, 2022

谢谢～

yt605155624 Dec 12, 2022
Collaborator

这三个 example 就是 SV2TTS

alandarker Dec 12, 2022

这三个 example 就是 SV2TTS
您好，请问近期有考虑加入扩散模型吗？比如vocoder：fastdiff和声学模型：prodiff

yt605155624 Dec 14, 2022
Collaborator

暂时没有，有什么参考论文或者开源仓库么

godspirit00 · 2023-02-18T09:19:53Z

godspirit00
Feb 18, 2023

您好，请问一下finetune大概要多久呢？声学模型和声码器

0 replies

makeukus · 2023-04-08T16:13:48Z

makeukus
Apr 8, 2023

额看不明白我是不是废了

0 replies

MountainHolder · 2023-05-09T13:49:49Z

MountainHolder
May 9, 2023

我看了好几遍代码，没有发现locla/fitune.py在哪里加载预训练模型参数。是在那就加载预训练模型的pdz文件的？

2 replies

ben-8543 May 16, 2023

我看了好几遍代码，没有发现locla/fitune.py在哪里加载预训练模型参数。是在那就加载预训练模型的pdz文件的？

我发现也是，貌似不是一个finetune代码，而是从头跑的。

ROAD2018 Feb 27, 2024

local/finetune.py 中 Snapshot(max_size=config.num_snapshots), trigger=(1, 'epoch') 就是加载预训练模型的，Snapshot类中 initialize 函数会判断指定目录中是否存在records.jsonl文件，存在则加载records.jsonl文件中最新的模型路径，而Snapshot继承extension类，finetune.py中通过trainer.extend(*)添加到Trainer中。

lll123github · 2023-05-13T03:26:43Z

lll123github
May 13, 2023

有一个坑
synthesize_e2e在跑的时候对中文路径支持不好，会报这样的错

Traceback (most recent call last):
  File "/home/linucong/下载/from_git/PaddleSpeech/paddlespeech/t2s/exps/fastspeech2/../synthesize_e2e.py", line 317, in <module>
    main()
  File "/home/linucong/下载/from_git/PaddleSpeech/paddlespeech/t2s/exps/fastspeech2/../synthesize_e2e.py", line 313, in main
    evaluate(args)
  File "/home/linucong/下载/from_git/PaddleSpeech/paddlespeech/t2s/exps/fastspeech2/../synthesize_e2e.py", line 86, in evaluate
    speaker_dict=args.speaker_dict)
  File "/home/linucong/\udce4\udcb8\udc8b\udce8\udcbd\udcbd/from_git/PaddleSpeech/paddlespeech/t2s/exps/syn_utils.py", line 531, in am_to_static
    jit.save(am_inference, os.path.join(inference_dir, am))
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/wrapped_decorator.py", line 26, in __impl__
    return wrapped_func(*args, **kwargs)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/jit.py", line 649, in wrapper
    func(layer, path, input_spec, **configs)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/wrapped_decorator.py", line 26, in __impl__
    return wrapped_func(*args, **kwargs)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/base.py", line 67, in __impl__
    return func(*args, **kwargs)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/jit.py", line 928, in save
    inner_input_spec, with_hook=with_hook)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/dygraph_to_static/program_translator.py", line 580, in concrete_program_specify_input_spec
    is_train=self._is_train_mode())
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/dygraph_to_static/program_translator.py", line 485, in get_concrete_program
    concrete_program, partial_program_layer = self._program_cache[cache_key]
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/dygraph_to_static/program_translator.py", line 955, in __getitem__
    self._caches[item_id] = self._build_once(item)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/dygraph_to_static/program_translator.py", line 944, in _build_once
    **cache_key.kwargs)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/decorator.py", line 232, in fun
    return caller(func, *(extras + args), **kw)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/wrapped_decorator.py", line 26, in __impl__
    return wrapped_func(*args, **kwargs)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/base.py", line 67, in __impl__
    return func(*args, **kwargs)
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/dygraph_to_static/program_translator.py", line 895, in from_func_spec
    error_data.raise_new_exception()
  File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/dygraph/dygraph_to_static/error.py", line 350, in raise_new_exception
    six.exec_("raise new_exception from None")
  File "<string>", line 1, in <module>
TypeError: In transformed code:
    File "/home/linucong/\udce4\udcb8\udc8b\udce8\udcbd\udcbd/from_git/PaddleSpeech/paddlespeech/t2s/models/fastspeech2/fastspeech2.py", line 925, in forward
	normalized_mel, d_outs, p_outs, e_outs = self.acoustic_model.inference(
    File "/home/linucong/\udce4\udcb8\udc8b\udce8\udcbd\udcbd/from_git/PaddleSpeech/paddlespeech/t2s/models/fastspeech2/fastspeech2.py", line 783, in inference
        """
        # input of embedding must be int64
        x = paddle.cast(text, 'int64')
        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ <--- HERE
        d, p, e = durations, pitch, energy
        # setup batch axis
    File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/tensor/manipulation.py", line 127, in cast
	attrs={'in_dtype': x.dtype, 'out_dtype': out.dtype},
    File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/layer_helper.py", line 45, in append_op
	return self.main_program.current_block().append_op(*args, **kwargs)
    File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/framework.py", line 4046, in append_op
	attrs=kwargs.get("attrs", None),
    File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/framework.py", line 3012, in __init__
	self._update_desc_attr(attr_name, attr_val)
    File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/framework.py", line 3362, in _update_desc_attr
	self._update_desc_plain_attr(name, val)
    File "/home/linucong/miniconda3/envs/EDialect/lib/python3.7/site-packages/paddle/fluid/framework.py", line 3394, in _update_desc_plain_attr
	desc._set_strs_attr(name, val)
    TypeError: _set_strs_attr(): incompatible function arguments. The following argument types are supported:
    1. (self: paddle.fluid.libpaddle.OpDesc, arg0: str, arg1: List[str]) -> None

\udce4\udcb8\udc8b\udce8\udcbd\udcbd就是中文路径名……

0 replies

www000 · 2023-12-10T03:14:51Z

www000
Dec 10, 2023

大佬，问一下，自己训练一定需要有GPU吗？

3 replies

lll123github Dec 10, 2023

GPU 是图形处理器，可以承担大量的简单运算。既然是运算，所以CPU（中央处理器）也可以跑，但是CPU不适合大量的简单运算，所以比较慢，用图形处理器最好吧）
当然你可以看一下租赁计算资源的网站，你可以远程训练，但是需要注意数据丢失问题。（毕竟是公用的，上一个人用完所有东西就被擦掉了）

kslz Dec 10, 2023
Author

可以用aistudio提供的GPU

www000 Dec 18, 2023

谢谢

✨ 关于训练一个自己的TTS模型 #1842

Uh oh!

Uh oh!

收集数据

数据标注

获取mfa结果

数据预处理

训练

运行

Replies: 15 comments · 27 replies

Uh oh!

kslz May 5, 2022 Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

kslz May 20, 2022 Author

Uh oh!

kslz May 9, 2022 Author

Uh oh!

Uh oh!

Uh oh!

kslz May 14, 2022 Author

Uh oh!

Uh oh!

Uh oh!

kslz May 16, 2022 Author

Uh oh!

Uh oh!

yt605155624 Jun 6, 2022 Collaborator

Uh oh!

kslz Jun 6, 2022 Author

Uh oh!

yt605155624 Jun 8, 2022 Collaborator

Uh oh!

Uh oh!

kslz Oct 26, 2022 Author

Uh oh!

Uh oh!

yt605155624 Aug 25, 2022 Collaborator

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

kslz Oct 26, 2022 Author

Uh oh!

Uh oh!

yt605155624 Nov 29, 2022 Collaborator

Uh oh!

Uh oh!

Uh oh!

kslz Dec 12, 2022 Author

Replies: 15 comments 27 replies

kslz
May 5, 2022
Author

kslz May 20, 2022
Author

kslz
May 9, 2022
Author

kslz May 14, 2022
Author

kslz May 16, 2022
Author

yt605155624
Jun 6, 2022
Collaborator

kslz Jun 6, 2022
Author

yt605155624 Jun 8, 2022
Collaborator

kslz Oct 26, 2022
Author

yt605155624
Aug 25, 2022
Collaborator

kslz Oct 26, 2022
Author

yt605155624 Nov 29, 2022
Collaborator

kslz Dec 12, 2022
Author