tiknovel.com tiknovel

AI

当前位置:首页 > 技术圈 > AI

Meta AI发布Meta Spirit LM——第一个可以自由混合文本和语音的开源多模态大语言模型

Meta AI发布Meta Spirit LM——第一个可以自由混合文本和语音的开源多模态大语言模型

Meta AI发布Meta Spirit LM——第一个可以自由混合文本和语音的开源多模态大语言模型

> 许多现有的 AI 语音体验都使用 ASR 技术来处理语音,然后使用 LLM 进行合成以生成文本 - 但这些方法损害了语音的表达能力。

> 使用语音、音高和声调标记,Spirit LM 模型可以克服输入和输出的这些限制,以生成听起来更自然的语音,同时还可以学习 ASR、TTS 和语音分类方面的新任务。

更多:ai.meta.com/blog/fair-news-segment-anything-2-1-meta-spirit-lm-layer-skip-salsa-lingua

评论排行榜