近日,李飞飞与 a16z 合伙人 Martin Casado 以及研究者 Justin Johnson 展开讨论了 AI 领域的历史、现状以及未来发展方向,话题涵盖了 AI 技术的各个层面,特别是生成式 AI 和空间智能的未来潜力。
李飞飞强调,生成式 AI 在她的研究生阶段就已经存在,但早期技术还不成熟。随着深度学习和计算能力的飞跃,生成式 AI 在最近几年取得了令人瞩目的进展,成为 AI 领域的核心突破之一。
她还介绍了最新创业项目 World Labs,专注于“空间智能”,即机器在 3D 和 4D 空间中的理解和互动能力。
她指出,空间智能不仅适用于虚拟世界的生成,还可以融合现实世界,广泛应用于增强现实(AR)、虚拟现实(VR)和机器人领域,而 AI 技术的进步将为我们带来无法想象的新应用场景,包括虚拟世界生成、增强现实和与物理世界的交互。
以下为这次对话主要内容,enjoy~
Martin Casado
在过去的两年里,我们看到了一波涌现的消费级 AI 公司和技术,这个过程非常疯狂。而你们已经在这个领域工作了几十年。所以我们可能聊一下,你们在这个过程中做出的关键贡献以及洞见。
Feifei Li
这是一个非常激动人心的时刻,回顾一下, AI 正处于一个令人兴奋的时刻。我个人已经从事这个领域超过二十年,我们走出了上一次的 AI 寒冬,见证了现代 AI 的诞生。随后我们看到深度学习的兴起,它向我们展示了各种可能性,比如下棋。
然后,我们开始看到技术的深入发展以及行业对早期可能性的应用,比如语言模型。现在,我认为我们正处在一次“寒武纪大爆发”中。
在某种意义上来说,现在除了文本,我们还看到像素、视频、音频等都开始与 AI 应用和模型结合,所以这是一个非常令人兴奋的时刻。
Martin Casado
我认识你们俩很久了,很多人也认识你们,因为你们在这个领域非常突出。但并不是所有人都了解你们在 AI 领域的起步,所以或许我们可以简单介绍一下你们的背景,帮助观众建立基础认知。
Justin Johnson
好的,我最初接触 AI 是在本科快结束时。我在加州理工学院(Caltech)学习数学和计算机科学,那段时间非常棒。在那期间,有一篇非常有名的论文发布了,那就是 Home Neck Lee 和 Andrew Ng 等人在 Google Brain 的“猫论文”,这是我第一次接触深度学习的概念。
这种技术让我感到惊艳,那是我第一次遇到这种配方:强大的通用学习算法、巨大的计算资源和大量的数据结合在一起时,会发生一些神奇的事情。我大约在 2011 年、 2012 年左右接触到这个想法,当时我就觉得这将是我未来要做的事情。
显然,要做这些工作必须去读研究生,于是我发现 Feifei 在斯坦福,她当时是世界上少数几位深入研究这一领域的人之一。当时是从事深度学习和计算机视觉的绝佳时机,因为这是技术从萌芽期走向成熟并广泛应用的时刻。
那段时间,我们看到了语言建模的开端,也看到了区分性计算机视觉的起步——你可以通过图片理解其中的内容。这段时间还出现了我们今天称之为生成式 AI 的早期发展,生成图像、生成文本等算法核心部分也是在我读博期间由学术界解决的。
当时每天早上醒来,我都会打开 arXiv 查看最新的研究成果,就像拆圣诞礼物一样,几乎每天都有新的发现。过去两年里,世界其他人也开始意识到,每天通过 AI 技术有新的“圣诞礼物”收到。但对我们这些从事这个领域十多年的人来说,这种体验早就有了。
Feifei Li
显然,我比Justin要年长得多。我是从物理学进入 AI 领域的,因为我的本科背景是物理学。物理学是一门教你思考大胆问题的学科,比如世界上未解之谜。在物理学中,这些问题可能与原子世界、宇宙相关,但这种训练让我产生了对另一个问题的兴趣——智能。因此,我在加州理工学院做了 AI 和计算神经科学的博士研究。Justin和我虽然没有在加州理工学院重叠过,但我们共享相同的母校。
Justin Johnson
还有相同的导师?
Feifei Li
是的,你的本科导师也是我的博士导师,Pietro Perona。在我读博期间, AI 在公众视野里正处于寒冬,但在我眼中并非如此。这更像是春天前的冬眠期,机器学习和生成模型正在蓄积力量。我认为我是机器学习领域的“本地人”,而 Justin 的那一代是深度学习的“原住民”。
机器学习是深度学习的前身,我们当时实验了各种模型。但在我博士结束时以及担任助理教授期间,我的学生和我实验室意识到,有一个被忽视的 AI 元素在驱动着泛化能力,这个领域当时并未深入思考,那就是数据。我们当时专注于贝叶斯模型等复杂模型,而忽略了让数据驱动模型的重要性。
这是我们押注 ImageNet 的原因之一。当时所有领域的数据集规模都很小,计算机视觉和自然语言处理的标准数据集都是几千或几万条数据,但我们意识到需要提升到互联网规模。幸运的是,互联网时代也正在崛起,我们乘上了这股浪潮,也正是在这个时候我来到了斯坦福。
Martin Casado
这些时代就像我们经常谈论的那些,比如 ImageNet 显然是推动或至少是让计算机视觉在生成式 AI 领域中流行并具备可行性的重要时代。我们通常会提到两个关键的突破:一个是 Transformer 的论文,即“注意力机制”(attention),另一个是较少谈到的“稳定扩散”(stable diffusion)。
用这种方式来理解这两个来自学术界(尤其是谷歌)的算法突破是否合理?或者说这更是一个有意为之的过程?亦或是还有其他一些不常被提及的重大突破也推动了我们走到今天?
Justin Johnson
是的,我认为最大的突破在于计算能力。我知道 AI 的故事往往也是计算能力的故事,但即便人们经常提到它,我认为它的影响还是被低估了。
过去十年我们在计算能力上看到的增长是惊人的。被认为是深度学习在计算机视觉领域突破性时刻的第一篇论文是 AlexNet,这是一篇 2012 年的论文,深度神经网络在 ImageNet 挑战赛中表现出色,远超其他当时的算法。
在研究生期间你可能会接触到的那些算法,和 AlexNet 相比相形见绌。AlexNet 是一个拥有 6000 万个参数的深度神经网络,它在两张 GTX 580 显卡上训练了六天,GTX 580 是当时最强大的消费级显卡,发布于 2010 年。
我昨晚查了一些数据,想把这些放在一个更大的背景中看待。英伟达最新的显卡是 GB200,你们猜一下 GTX 580 和 GB200 之间的计算能力差距有多大?
数量在几千左右,所以我昨晚算了一下数据。像是那两周的训练,那六天是在两块GTX 580上运行的,如果扩展一下,大概可以在一块GB200上运行不到五分钟。
这样想的话,真的有个很好的论点—— 2012 年 AlexNet 在 ImageNet 挑战赛上的论文真的是一个非常经典的模型,那就是卷积神经网络模型。
而实际上,这个概念早在 1980 年代就已经出现了,我还记得作为研究生学习的第一篇论文,内容也差不多,有六七层的网络结构。AlexNet 和卷积神经网络模型的唯一区别几乎就是 GPU ——使用了两个 GPU 和海量的数据。
所以我本来要说的是,大多数人现在都熟悉所谓的“痛苦的教训”(bitter lesson),这个教训说的是,如果你开发一个算法,只要确保你能利用现有的计算资源,因为这些资源会逐渐变得可用。于是你只需要一个能够不断进步的系统。
另一方面,似乎还有另一个同样有说服力的观点,那就是新的数据源实际上解锁了深度学习。ImageNet 就是一个很好的例子。虽然很多人认为自注意力机制对 Transformer 模型很重要,但他们也会说这是利用人工标注数据的一种方式。
因为人类为句子结构提供了标注,如果你看看 CLIP 模型,它实际上是通过互联网让人类使用alt标签来标记图片。因此,这实际上是一个关于数据的故事,而不是关于计算的故事。那么答案是两者兼有,还是更偏向某一方呢?我认为是两者兼有,但你也提到了另一个非常关键的点。
Martin Casado
我觉得在算法领域中,实际上有两个明显不同的时代。ImageNet 时代是监督学习的时代。在这个时代,我们有很多数据,但我们不知道如何仅凭数据本身来训练。
ImageNet 和其他同时期的数据集的预期是,我们会有大量的图像,但我们需要人类对每张图像进行标注。而我们训练的所有数据,都是由人类标注员逐一查看并标注的。
而算法的重大突破在于,我们现在知道如何在不依赖人类标注的数据上进行训练。对于一个没有 AI 背景的普通人来说,似乎如果你在训练人类数据,人类实际上已经进行了标注,只是这种标注并不是显式的。
Justin Johnson
是的,哲学上来说,这是一个非常重要的问题,但这个问题在语言领域比在图像领域更为真实。是的,但我确实认为这是一个重要的区别。CLIP 确实是由人类标注的。我认为自注意力机制是人类已经理解了事物之间的关系,然后你通过这些关系进行学习。
所以它仍然是由人类标注的,只不过这种标注是隐式的,而不是显式的。区别在于,在监督学习时代,我们的学习任务受到更多限制。我们必须设计出一套我们想要发现的概念本体论。
比如在 ImageNet 中,Fei-Fei Li和她的学生们花了很多时间思考 ImageNet 挑战赛中的一千个类别应该是什么。而在同时期的其他数据集,如用于目标检测的COCO数据集,他们也花了很多心思去决定放入哪些80个类别。
Martin Casado
那么让我们谈谈生成式 AI 。当我攻读博士学位的时候,在你们出现之前,我上过 Andrew Ng 的机器学习课程,还学过 Daphne Koller 非常复杂的贝叶斯课程,对我来说这些都很复杂。
当时的很多内容都是预测建模。我还记得你解锁了整个视觉领域的东西,但是生成式 AI 大约是在过去四年中才出现的。这对我来说是一个完全不同的领域——你不再是识别物体,也不是在预测什么,而是在生成新的东西。
所以也许我们可以谈谈是什么关键因素让生成式 AI 得以实现,它和之前的不同之处,以及我们是否应该以不同的方式去看待它,它是否是一个连续发展的部分还是另一个全新的领域?
Feifei Li
这非常有趣,即使在我研究生时代,生成模型就已经存在了。我们当时就想做生成,只不过没人记得了,即使是用字母和数字做生成,我们也在尝试一些事情。Jeff Hinton 当时有一些关于生成的论文,我们也在思考如何生成。
实际上,如果你从概率分布的角度来看,数学上是可以进行生成的,只是当时生成的东西根本无法让人感到惊艳。所以,尽管从数学理论上来看生成的概念是存在的,但实际上没有任何生成效果让人感到满意。
然后我想特别提到一位博士生,他在深度学习方面有着浓厚的兴趣,来到了我的实验室。这个博士生的整个博士学习经历几乎可以说是这个领域发展轨迹的缩影。
他的第一个项目是数据,我逼着他做,尽管他不喜欢,但事后他也承认学到了很多有用的东西。“现在我很高兴你能这么说。”于是我们转向深度学习,核心问题是如何从图像生成文字。实际上,这个过程中有三个明确的阶段。
第一个阶段是将图像和文字进行匹配。我们有图像,也有文字,接下来我们要看它们之间的关联度。我的第一篇学术论文,也是我的第一篇博士论文,研究的就是基于场景图的图像检索。接下来,我们继续深入研究,从像素生成文字,这方面他和 Andrej 都做了很多工作,但依然是一种非常有损的生成方式,信息从像素世界中获取时损失很大。
中间阶段有一个非常著名的工作,那个时候有人第一次实现了实时化。2015 年,一篇叫《神经算法的艺术风格》的论文由 Leon Gatys 领导发表。他们展示了将现实世界的照片转换为梵高风格的图片。
我们现在可能习以为常,但那是在 2015 年,那篇论文突然出现在 arXiv 上,震惊了我。我感觉大脑中被注入了一种“生成 AI 的病毒”。我心想:“天哪,我需要理解这个算法,玩一玩,试着把自己的图片变成梵高风格。”
于是,我花了一个长周末重新实现了这个算法,让它能够正常运行。其实它是一个非常简单的算法,我的实现大概只有 300 行代码,当时是用Lua写的,因为那时候还没有 PyTorch,我们用的是 Lua Torch。不过尽管算法简单,它的速度很慢。每生成一张图片,你都需要运行优化循环,耗费很多时间。生成的图片很漂亮,但我就是希望它能更快一点。最后,我们确实让它变快了。
还有一点我非常自豪的是,在生成 AI 真正走向世界之前,他在博士研究的最后一部分做了一个非常前沿的工作。这个项目是通过输入自然语言来生成完整的图像,这可以说是最早的生成 AI 工作之一。我们使用的是GANs,但当时它非常难用。问题是,我们还没有准备好用自然语言来描述一幅完整的图像。
于是,他采用了一个场景图结构输入方式,输入内容是“羊群”、“草地”、“天空”等,并用这种方式生成了一幅完整的图像。
从数据匹配到风格转换,再到生成图像,我们逐渐看到了一个完整的转变。你问这是否是一个巨大的变化,对于像我们这样的人来说,这是一个持续的过程,但对于大众而言,成果确实显得突然且具有冲击力。
Martin Casado
我读了你的书,真是一本很棒的书,我强烈推荐大家去读。而且,Fei-Fei,我想说的是,长期以来,你的很多研究和方向都聚焦于空间智能、像素处理等领域。现在你在做的 World Labs 也和空间智能相关。能谈谈这是你长期旅程的一部分吗?你为什么现在决定去做这个?这是否是某种技术突破或个人原因?你能否带我们从 AI 研究的背景过渡到 World Labs?
Fei-Fei Li
对于我来说,这既是个人的追求,也是智力上的旅程。你提到了我的书,我的整个智力旅程实际上是一种对“北极星”的追寻,同时也坚信这些北极星对于我们领域的进步至关重要。
在一开始的时候,我还记得研究生毕业后,我认为我的北极星是“为图像讲故事”,因为对我来说,这是视觉智能的一个重要组成部分,也就是你所说的 AI 的一部分。
但是,当 Justin 和 Andrej 完成他们的工作时,我想:“天哪,这就是我一生的梦想,我接下来要做什么?”这个进展比我预期的快得多——我本以为需要一百年才能实现这些。
视觉智能始终是我的热情所在。我坚信,对于每一个有智能的存在,比如人类、机器人,或者其他形式的存在,学会如何看待这个世界、如何推理、如何与世界互动是至关重要的。无论是导航、操控、制造,甚至是构建文明,视觉和空间智能都在其中扮演着基础性角色。
它的基础性可能和语言一样,甚至在某些方面更加古老和基本。因此,World Labs的北极星,就是解锁空间智能,而现在是正确的时机。
就像 Justin 说的那样,我们已经具备了所需的资源——计算能力和对数据更深的理解。与 ImageNet 时代相比,我们在数据理解上变得更加复杂。
我们也拥有了算法方面的进展,比如我们的共同创始人 Ben Mildenhall 和 Christoph Lassner 在 Nerf 方面的前沿工作。我们觉得现在是下定决心、专注这一领域并解锁其潜力的最佳时机。
Martin Casado
为了让大家理解清楚,你现在创办了这家公司——World Labs,而你们要解决的问题就是“空间智能”。你能简明扼要地描述一下,什么是空间智能吗?
Fei-Fei Li
空间智能指的是机器理解、感知、推理并在 3D 空间和时间中采取行动的能力。具体来说,它是指理解物体和事件如何在 3D 空间和时间中定位,以及世界中的交互如何影响这些 3D 位置。
这不仅仅是让机器停留在数据中心或主机中,而是让它走向现实世界,去理解这个丰富的 3D 、4D 世界。
Martin Casado
你说的这个“世界”是指现实的物理世界,还是一种抽象概念上的世界?
Fei-Fei Li
我认为两者兼有。这也代表了我们长期的愿景。即使你是在生成虚拟世界或内容,定位于 3D 中仍然有很多好处。或者当你在识别现实世界时,能够将 3D 理解应用到真实世界中也是其中的一部分。
Martin Casado
你们的共同创始人团队真是非常强大。那你觉得为什么现在是做这件事的合适时机呢?
Fei-Fei Li
这实际上是一个长期进化的过程。在博士毕业后,我开始寻找成为独立研究员的道路,并且思考 AI 和计算机视觉领域中的大问题。当时我得出的结论是,过去十年主要是在理解已经存在的数据,而接下来的十年将会是理解新的数据。
过去的数据,主要是网络上已经存在的图像和视频,而未来的数据则是全新的——智能手机出现了,这些手机有相机,有新的传感器,并且可以在 3D 世界中定位。这不仅仅是你从互联网上获取一堆像素并试图判断这是一只猫还是一只狗的问题了。
我们希望把这些图像当作与物理世界的通用传感器,帮助我们理解世界的 3D 和4D 结构,无论是在物理空间还是生成空间中。
博士毕业后,我做了一个很大的转变,进入了 3D 计算机视觉领域,与我的同事们一起研究如何预测物体的 3D 形状。后来,我对通过 2D 数据学习 3D 结构的想法产生了浓厚的兴趣。
我们讨论数据时常会提到,获取 3D 数据很难,但实际上 2D 图像是 3D 世界的投影,这里有很多可以利用的数学结构。即便你有大量的 2D 数据,你也可以通过这些数学结构推导出 3D 世界的结构。
2020年是一个突破性时刻。我们的共同创始人 Ben Mildenhall 提出了 Nerf (神经辐射场)方法。这是一种非常简单、清晰的方式,可以通过 2D 观测推导出 3D 结构,点燃了整个 3D 计算机视觉领域。
与此同时, LLM 也开始崭露头角。很多语言建模的工作实际上在学术界已经发展了很长时间。即使在我的博士阶段,我也与 Andrej Karpathy 在 2014 年进行了一些语言建模工作。
Justin Johnson
这其实是出现在 Transformer 之前的事情,但到了 GPT-2 的时代,你在学术界已经很难再做这样的模型了,因为它们需要的计算资源太大了。然而,有趣的是,Ben 提出的 Nerf 方法,只需要在单个 GPU 上训练几个小时。
这让很多学术研究者开始重新聚焦于这些问题,因为可以在有限的计算资源下解决一些核心算法问题,而且你可以在单个 GPU 上获得最先进的成果。所以当时很多学术研究者都在思考:我们如何通过核心算法来推动这个领域的发展?我和Fei-Fei聊了很多,我们都非常确信这一点。
Fei-Fei Li
是的,我们发现我们的研究方向在某种程度上正朝着相似的目标前进。我还想讲述一个很有趣的技术问题,或者说一个关于像素的技术故事。
很多从事语言研究的人可能不知道,在生成 AI 时代之前,我们这些从事计算机视觉领域的人,实际上有一个很长的历史,叫做 3D 重建的研究。
这可以追溯到上世纪70年代,你可以通过拍摄照片——因为人类有两只眼睛,所以可以用立体照片来尝试三角测量,构建 3D 形状。然而这是一个非常难的问题,至今尚未完全解决,因为存在匹配问题等复杂情况。
这个领域有着长期的进展,但是当 Nerf 和生成方法结合,尤其是在扩散模型的背景下, 3D 重建与生成突然开始融合。在计算机视觉领域内,我们突然发现,如果我们看到某个东西,或者想象某个东西,二者都可以汇聚到生成它的方向。这是一个非常重要的时刻,但很多人可能没有注意到这一点,因为我们没有像谈论 LLM 那样广泛讨论它。
Justin Johnson
对,在像素空间中有重建,例如你重建一个真实的场景;而如果你看不到那个场景,则会使用生成技术。这两者实际上是非常相似的。整个对话中你一直在谈论语言和像素,或许这是一个好时机来讨论空间智能与语言方法的对比,比如它们是互补的,还是完全不同的?
Fei-Fei Li
我认为它们是互补的。我不确定如何定义“完全不同”,但我可以尝试做个对比。如今,很多人都在谈论GPT、开放 AI 以及多模态模型。大家觉得这些模型既能处理像素,也能处理语言。那么它们是否能实现我们想要的空间推理呢?为了回答这个问题,我们需要打开这些系统的“黑箱”,看看它们是如何在底层工作的。
语言模型和我们现在看到的多模态语言模型,其底层的表示是“一维的”。我们谈论上下文长度、 Transformer 、序列、注意力机制,但归根结底,这些模型的表示是基于一维的序列化令牌。
这种表示在处理语言时是非常自然的,因为文本本身就是由一维的离散字母序列组成的。这种一维表示是