Meta AI发布Meta Spirit LM——第一个可以自由混合文本和语音的开源多模态大语言模型

2024-10-20 16:24:45 浏览：91 作者：管理员

Meta AI发布Meta Spirit LM——第一个可以自由混合文本和语音的开源多模态大语言模型

> 许多现有的 AI 语音体验都使用 ASR 技术来处理语音，然后使用 LLM 进行合成以生成文本 - 但这些方法损害了语音的表达能力。

> 使用语音、音高和声调标记，Spirit LM 模型可以克服输入和输出的这些限制，以生成听起来更自然的语音，同时还可以学习 ASR、TTS 和语音分类方面的新任务。

更多：ai.meta.com/blog/fair-news-segment-anything-2-1-meta-spirit-lm-layer-skip-salsa-lingua