Meta 上周开源了一个端到端的语音模型 Spirit LM

2024-10-23 08:36:16 浏览：76 作者：管理员

Meta 上周开源了一个端到端的语音模型 Spirit LM。

这个太重要了，居然没注意到。

这个模型有两个版本：

基础版：适合进行一般的语音识别和生成，不包含情感变化。

高表现力版：可以捕捉语音中的情感特征，能够生成包含快乐、愤怒或兴奋等情感的语音。

主要特点有：

Spirit LM 直接使用语音标记、音高标记和声调标记来保留语音中的表现力要素，不需要先转文本描述。

能够在不需要大量数据的情况下，完成自动语音识别、文本转语音和语音分类等复杂任务。

项目地址：speechbot.github.io/spiritlm/

论文：arxiv.org/pdf/2402.05755