AI

当前位置：首页 > 技术圈 > AI

我用Sora建了几个三维模型，证明它懂“世界”

更新时间：2024-03-07 11:21:52 编辑：管理员浏览：185

我犯了个错，我倾向于认为Sora并不特别理解“物理世界”，纯二维图像与视频的训练和生成，也会让它缺失三维信息。

不过，从周末开始，大量的信息就一直在冲击着我的想法，我从假设模型“不懂”世界，转变成假设模型“懂”世界，于是，我用Sora官方的视频，尝试建了几个三维模型。

首先，我选取了四段有代表性的视频，特征都是：场景相对固定，运镜速度较慢，主角不是特写镜头或者主角变化很小。

其次，我按照3-5倍（如果原视频每秒24帧，那么差不多一秒钟采6-8帧）的采样率将视频转换为一帧帧的图片。

最后，我利用自己已经成熟的三维建模流程重建视频对应的“世界”场景。

先分别展示四个模型的原视频和三维模型，然后再说结论。

场景一：海边城镇

原视频一共20S，鸟瞰视角。

采样后，150张图片。

三维模型（工具界面中拖拉拽，放大缩小，变换视角等操作的截屏，后同）

结果：我们把这个海边城镇还原了。虽然有很多细节上的问题，但是对于我这种不可能徒手画出城镇三维模型的人而言，模型解决了我唯一无法实现的一步。

场景二：淘金热时的村庄

原视频场景明显大于前一个，而且镜头变化速度很快，视频25秒。

采样后，188张图片。

三维模型，建模前以为效果不会太好，但结果居然还是有亮点。

整个村庄的地理地貌结构是清晰的，中间缺失的部分在目前的游戏引擎里都很容易补全。很多房屋结构是完整的，表面因为镜头移动过快而造成的不平整，现在的模型都可以修正。也许，就是几天时间，一个“淘金热”的游戏就好了。

场景三：圣诞气氛的近景

原视频17s，场景固定，没有运动物体，镜头围绕物体旋转，焦段没有变化。

采样后，128张图片。

三维场景，不出意外，质量显然是最高的。

静态场景和物体，旋转运镜，正常三维建模经常采取的方法，所以，结果不意外。

场景四：赛博朋克

原视频20秒，虽然都是机器人为主角，但是机器人的头是转动的，场景也有变化。

采样后，149张图片。

三维模型，原视频是有三个视角的，所以模型自动也变成三个场景。

每个场景都有不少缺失，这是自然的，变化速度太快了，但是，如果我们就用Sora做个demo，然后生成许多幕戏的场景，同样的游戏引擎优化，加入追光效果。也许影视业的核心竞争力还是那几项：剧本、演员、特效。但是，可能场务、服装、道具，等等，我不敢想。

结论

1、选择的四段Sora官方视频，都顺利重建了三维模型。在目前的流程下，人工操作已经很少。虽然因为画质、场景变化速度偏快，物体移动、视角不完整等各方面原因，各模型都有明显的缺失。但是这些视频毕竟不是为了三维建模用的，如果以后可以专门通过prompt控制场景，运镜呢？相信效果一定会再有质的提升。

2、生成的是“真三维”，如下动图所示，可以测距（比例尺是可以预设的），测角度，可以导入CAD软件，也可以导入Unity、Unreal Engine等游戏引擎，可以编辑。以前，需要专业设计师在工具里花费很长时间手工建模的过程，也许，真的可以完全自动化了，至少，建模的过程证明，这走得通了，而且随着模型的快速进步，质量会越来越好。

3、我相信，Sora目前一定不是通过建立三维模型再去生成视频的，至少在模型架构上不是的。但是，建模的结果已经很清楚的证明了Sora技术报告里描述的“三维一致性”。我使用的是最严格的“像素级”摄影测量学模型（感兴趣的，可以移步我的一篇长文从摄影测量学到高斯渲染（1）：顶级三维成像系统DIY踩坑记（二）），空间不一致的物体是无法被构建的。虽然，我以前倾向于拒绝承认，但是，很不幸，这样的结果让我找不到任何拒绝“Sora懂世界”假设的证据，甚至，这不是无法证伪，这是证实。

4、假以时日，Sora这样的生成器+适当的prompt+三维重建模型，可以构建整个世界，只要算力足够。

5、这些三维模型是可以直接导入到游戏引擎的，如今游戏引擎也已经广泛应用于影视特效制作、数字孪生等领域。如果把Sora仅仅看作文生视频，那么它或许无法在短期取代相关岗位，但如果Sora可以这样生成三维，那么这些岗位被取代就在眼前了。

6、还差什么？数据。Sora是人造的生成器或者说仿真器，我们会希望它生成的接近人肉眼所见，所以，一方面，苹果Vision Pro的价值之一是告诉大家这个分界线大概是8K分辨率，8K分辨率不是训练更高分辨率的图片那么简单，而是可能要有多的多的描述细节的高质量图片，要能描述整体和局部之间的关系，这也会反过来再挑战算法；另一方面，目前看起来，也只有更多数据，更大规模的模型，才可以让很多生成的物体与运动更接近物理规律。在这个意义上说，现存的那些海量数据或许价值是下降的，系统性的采集甚至合成数据重要性是大幅提升的，大家都有机会，但是背后巨大的投入是惊人的。到了这一步，可能每提升一倍能力，就是要十倍甚至百倍的投入。

7、曾经，我认为自己是相对中立的，我相信模型的神奇，但又保持着碳基的自尊心。如今，我只剩下复杂的心情。正好跟朋友聊起我的发现，对方说了一句“也许模型看到的根本不止三维呢？”。

也许呢？

Sora

收藏打印

上一篇：90后清北学霸父母开始用AI哄孩子：AI可太会安慰小孩了

下一篇：Claude 3“自我认知”事件引爆，马斯克坐不住了，OpenAI被曝还有后手

AI

我用Sora建了几个三维模型，证明它懂“世界”

相关内容

点击排行

文章归档

评论排行榜

热门标签