微软前几天发布了GAIA,可以从单个肖像图像和语音片段生成会说话的化身。它甚至支持“悲伤”、“张开嘴”或“惊讶”等文字提示来指导视频生成。
主页:microsoft.github.io/GAIA
论文:GAIA: Zero-shot Talking Avatar Generation,零镜头说话化身生成。arxiv.org/abs/2311.15230
论文摘要:
零镜头说话头像生成旨在从语音和单个肖像图像合成自然的说话视频。以前的方法依赖于特定领域的启发式方法,例如基于变形的运动表示和 3D 可变形模型,这限制了生成的化身的自然性和多样性。在这项工作中,我们引入了GAIA(头像生成人工智能),它消除了会说话的头像生成中的领域先验。
鉴于语音仅驱动头像的运动,而头像和背景的外观通常在整个视频中保持不变,我们将我们的方法分为两个阶段:1)将每个帧分解为运动和外观陈述;2)生成以语音和参考肖像图像为条件的运动序列。
我们收集了一个大规模的高质量说话头像数据集,并在其上以不同的尺度(最多 2B 参数)训练模型。实验结果验证了 GAIA 的优越性、可扩展性和灵活性,因为 1)所得模型在自然度、多样性、口型同步质量和视觉质量方面优于之前的基线模型;2)该框架是可扩展的,因为更大的模型会产生更好的结果;3)它是通用的,可以实现不同的应用,例如可控的说话化身生成和文本指令化身生成。
Prev Chapter:宫斗落幕OpenAI有望重拾吸引力 传公司已延长员工售股期限
Next Chapter:Outline:一款可平替 Notion 的开源软件
lord of the mysteries Chapter 1416 - In Modern Day 14
2024-11-16Beastmaster of the Ages Chapter 1141 – Spacetime Loops and Book of Tales
2024-11-19