Meta 上周开源了一个端到端的语音模型 Spirit LM_tiknovel-最新最全的nft,web3,AI技术资讯技术社区

Meta 上周开源了一个端到端的语音模型 Spirit LM

2024-10-23 08:36:16  浏览:76  作者:管理员
Meta 上周开源了一个端到端的语音模型 Spirit LM

Meta 上周开源了一个端到端的语音模型 Spirit LM。

这个太重要了,居然没注意到。

这个模型有两个版本:

基础版: 适合进行一般的语音识别和生成,不包含情感变化。

高表现力版:可以捕捉语音中的情感特征,能够生成包含快乐、愤怒或兴奋等情感的语音。

主要特点有:

Spirit LM 直接使用语音标记、音高标记和声调标记 来保留语音中的表现力要素,不需要先转文本描述。

能够在不需要大量数据的情况下,完成自动语音识别、文本转语音和语音分类等复杂任务。

项目地址:speechbot.github.io/spiritlm/

论文:arxiv.org/pdf/2402.05755

评论区

共 0 条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机内容】

返回顶部