2024 年 8 月,Open-Sora项目发布了 Open-Sora-Plan v1.2.0,过渡到 3D 全注意力架构,增强了对联合时空特征的捕获。然而,巨大的计算成本使其难以持续,而且缺乏明确的训练策略阻碍了沿着专注路径持续进步。
戳视频看官方给出的Demo,黑神话悟空第三结局AI创意短片↓
在 1.3.0 版本中,Open-Sora-Plan 引入了以下五个主要功能:
1. 更强大、更经济的 WFVAE。使用小波变换将视频分解为几个子带,自然地捕获不同频域的信息,从而实现更高效、更稳健的 VAE 学习。
2. 提示精炼器。一种用于精炼短文本输入的大型语言模型。
3. 高质量的数据清洗策略。清洗后的panda70m数据集仅保留了原始数据的27%。
4. 具有新稀疏注意力机制的 DiT。一种更具成本效益和效率的学习方法。
5. 动态分辨率和动态持续时间。这使得能够更有效地利用不同长度的视频(将单个帧视为图像)。
项目:github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.3.0.md
Prev Chapter:奥特曼旧部成对手? OpenAI前女CTO创业公司或融资超1亿美元
Next Chapter:电子书<FreeBSD 从入门到跑路>