头条推出的语音生成模型:Seed-TTS_tiknovel-最新最全的nft,web3,AI技术资讯技术社区

头条推出的语音生成模型:Seed-TTS

2024-06-11 10:48:11  浏览:328  作者:管理员
头条推出的语音生成模型:Seed-TTS

Seed-TTS能生成与我们说话几乎没有区别的语音,非常逼真。支持英文、中文等。

能处理叙述性、情感表达、描述性等多种文本,能根据不同的情感和语境生成相应的语音!

项目:bytedancespeech.github.io/seedtts_tech_report/
论文:arxiv.org/abs/2406.02430

论文摘要:
我们介绍了 Seed-TTS,这是一系列大规模自回归文本转语音 (TTS) 模型,能够生成与人类语音几乎无法区分的语音。

Seed-TTS 是语音生成的基础模型,在语音上下文学习方面表现出色,在客观和主观评估中,说话人相似性和自然度的表现与真实人类语音相匹配。通过微调,我们在这些指标上获得了更高的主观分数。

Seed-TTS 对情感等各种语音属性具有出色的可控性,能够为自然界的说话者生成极具表现力和多样性的语音。此外,我们提出了一种语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人相似性和可控性。

我们还提出了 Seed-TTS 模型的非自回归 (NAR) 变体,称为 Seed-TTS DiT,它采用完全基于扩散的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTS DiT不依赖于预先估计的音素持续时间,而是通过端到端处理来执行语音生成。

我们证明此变体在客观和主观评估中都实现了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

评论区

共 0 条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机内容】

返回顶部