高品质人工智能生成的头像来了_tiknovel-最新最全的nft,web3,AI技术资讯技术社区

高品质人工智能生成的头像来了

2023-12-04 10:38:06  浏览:150  作者:管理员
高品质人工智能生成的头像来了

微软前几天发布了GAIA,可以从单个肖像图像和语音片段生成会说话的化身。它甚至支持“悲伤”、“张开嘴”或“惊讶”等文字提示来指导视频生成。

主页:microsoft.github.io/GAIA

论文:GAIA: Zero-shot Talking Avatar Generation,零镜头说话化身生成。arxiv.org/abs/2311.15230

论文摘要:

零镜头说话头像生成旨在从语音和单个肖像图像合成自然的说话视频。以前的方法依赖于特定领域的启发式方法,例如基于变形的运动表示和 3D 可变形模型,这限制了生成的化身的自然性和多样性。在这项工作中,我们引入了GAIA(头像生成人工智能),它消除了会说话的头像生成中的领域先验。

鉴于语音仅驱动头像的运动,而头像和背景的外观通常在整个视频中保持不变,我们将我们的方法分为两个阶段:1)将每个帧分解为运动和外观陈述;2)生成以语音和参考肖像图像为条件的运动序列。

我们收集了一个大规模的高质量说话头像数据集,并在其上以不同的尺度(最多 2B 参数)训练模型。实验结果验证了 GAIA 的优越性、可扩展性和灵活性,因为 1)所得模型在自然度、多样性、口型同步质量和视觉质量方面优于之前的基线模型;2)该框架是可扩展的,因为更大的模型会产生更好的结果;3)它是通用的,可以实现不同的应用,例如可控的说话化身生成和文本指令化身生成。

评论区

共 0 条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机内容】

返回顶部