AI

当前位置：首页 > 技术圈 > AI

Meta 上周开源了一个端到端的语音模型 Spirit LM

更新时间：2024-10-23 08:36:58 编辑：管理员浏览：145

Meta 上周开源了一个端到端的语音模型 Spirit LM。

这个太重要了，居然没注意到。

这个模型有两个版本：

基础版：适合进行一般的语音识别和生成，不包含情感变化。

高表现力版：可以捕捉语音中的情感特征，能够生成包含快乐、愤怒或兴奋等情感的语音。

主要特点有：

Spirit LM 直接使用语音标记、音高标记和声调标记来保留语音中的表现力要素，不需要先转文本描述。

能够在不需要大量数据的情况下，完成自动语音识别、文本转语音和语音分类等复杂任务。

项目地址：speechbot.github.io/spiritlm/

论文：arxiv.org/pdf/2402.05755

开源 Meta 语音模型

收藏打印

上一篇：AI视频赛道，要变天了

下一篇：OpenAI满血版o1剧透：数学代码能力再破天花板，已开启测试评估

AI

Meta 上周开源了一个端到端的语音模型 Spirit LM

相关内容

点击排行

文章归档

评论排行榜

热门标签