Seed-TTS能生成与我们说话几乎没有区别的语音,非常逼真。支持英文、中文等。
能处理叙述性、情感表达、描述性等多种文本,能根据不同的情感和语境生成相应的语音!
项目:bytedancespeech.github.io/seedtts_tech_report/
论文:arxiv.org/abs/2406.02430
论文摘要:
我们介绍了 Seed-TTS,这是一系列大规模自回归文本转语音 (TTS) 模型,能够生成与人类语音几乎无法区分的语音。
Seed-TTS 是语音生成的基础模型,在语音上下文学习方面表现出色,在客观和主观评估中,说话人相似性和自然度的表现与真实人类语音相匹配。通过微调,我们在这些指标上获得了更高的主观分数。
Seed-TTS 对情感等各种语音属性具有出色的可控性,能够为自然界的说话者生成极具表现力和多样性的语音。此外,我们提出了一种语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人相似性和可控性。
我们还提出了 Seed-TTS 模型的非自回归 (NAR) 变体,称为 Seed-TTS DiT,它采用完全基于扩散的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTS DiT不依赖于预先估计的音素持续时间,而是通过端到端处理来执行语音生成。
我们证明此变体在客观和主观评估中都实现了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。