Meta 上周开源了一个端到端的语音模型 Spirit LM。
这个太重要了,居然没注意到。
这个模型有两个版本:
基础版: 适合进行一般的语音识别和生成,不包含情感变化。
高表现力版:可以捕捉语音中的情感特征,能够生成包含快乐、愤怒或兴奋等情感的语音。
主要特点有:
Spirit LM 直接使用语音标记、音高标记和声调标记 来保留语音中的表现力要素,不需要先转文本描述。
能够在不需要大量数据的情况下,完成自动语音识别、文本转语音和语音分类等复杂任务。
项目地址:speechbot.github.io/spiritlm/
论文:arxiv.org/pdf/2402.05755