tiknovel.com tiknovel

AI

当前位置:首页 > 技术圈 > AI

Meta 上周开源了一个端到端的语音模型 Spirit LM

Meta 上周开源了一个端到端的语音模型 Spirit LM

Meta 上周开源了一个端到端的语音模型 Spirit LM。

这个太重要了,居然没注意到。

这个模型有两个版本:

基础版: 适合进行一般的语音识别和生成,不包含情感变化。

高表现力版:可以捕捉语音中的情感特征,能够生成包含快乐、愤怒或兴奋等情感的语音。

主要特点有:

Spirit LM 直接使用语音标记、音高标记和声调标记 来保留语音中的表现力要素,不需要先转文本描述。

能够在不需要大量数据的情况下,完成自动语音识别、文本转语音和语音分类等复杂任务。

项目地址:speechbot.github.io/spiritlm/

论文:arxiv.org/pdf/2402.05755

评论排行榜