差不多一年前,整个科技圈还处在大语言模型热潮最顶点时,刚刚回到香港大学担任计算机系主任的马毅教授在网上评论道:“最优秀的CS毕业生现在不应该在现有大语言模型基础上去调,而是应该去做更新的事情。连与众不同的追求都没有,有何资格拥有创新?”
几个月后,OpenAI的Sora惊艳世人,主要作者之一的Bill Peebles正是刚刚从伯克利博士毕业的“应届生”。
马毅在不同的场合均曾表示,大语言模型绝不会是通往AGI之路上的最后一个重大技术突破。
而ChatGPT横空出世的一年多以来,以Transformer为代表的“AI 2.0”,让人类看到了AI体现出的智能的通用性。进一步,AGI(通用人工智能)作为一个曾经在AI研究人员圈子中被羞于谈论的“不切实际”的概念,突然成为了AI大佬口中“5年之内”就可以实现的“确定目标”。
而由AI研究人员提出的”Scaling Law“成为了当下实现AGI的“第一性原理”——只要等比例地不断增加训练模型的数据量,模型的参数量以及训练模型的算力,模型性能就能不断提升。
在“Scaling Law”的指导之下,GPT-2到GPT-4,训练成本已经飞涨了10000倍,模型的能力确实也在肉眼可见的成长。但“Scaling Law”指导下的这种资源投入数量级的扩展,使得未来模型性能的提升,需要地不仅仅是这三个维度的资源——绑定在数据,算力,参数之后,是更多的人力和“人心”的投入。
但是就像AI 1.0时代一样,如果AI技术本身的局限是客观存在的,不计成本的去堆资源,可能真的会让AI越来越擅长本已经能做得不错事情,但是模型自身固有的局限性可能依然会难以得到突破——比如现在大模型明显缺乏的逻辑推理能力,数理能力。而根据历史的经验,技术上限,往往是由那些它做的不太好的事情决定的。
让现在最先进的大模型GPT-4o造5个句子,每个句子的第5个字是“王”,结果没有一个答案符合要求。图源:ChatGPT截图
而要理解Transformer模型在逻辑推理,数理能力方面的缺陷,很大程度上,要依赖于对于模型原理的深度理解。而Transformer的“黑盒”特性,使得要彻底解释它的工作原理,可能比开发出一个新的模型还要难。包括OpenAI,Anthropic在内的众多大模型企业,也一直从AI安全的角度,试图做好这件事。
而学术圈中,认真拆解Transformer“黑盒”并且取得了确定结果的研究团队不多。毕业于加州大学伯克利分校,现任香港大学计算机系主任和数据科学研究院院长的马毅教授团队,去年发表了历时5年完成的基于白盒CRATE架构的下一代智能系统(以下简称白盒CRATE智能系统)的相关论文,尝试用数学,从第一性原理去解释像Transformer这样的黑盒模型工作的原理。
在6月初智能涌现和他的专访中,他表示,如果能彻底解释清楚Transformer这样的模型,至少在几个层面上都有非常大的意义。
首先,就是通过理论研究解释清了Transformer这样的实践突破,到底是在做什么事。这样,就为客观地看待AI技术的发展提供了基本的条件,从而避免了对能力强大但是原理却不清楚的技术的恐慌,以及对未来不负责任的臆测。他们的研究得出的结论,Transformer类的大模型,本质上就是在进行数据的“压缩”。
而这样的技术路径,在他看来是达不到产生像人类一样的智能水平的门槛的。而现在担心未来AI会接管人类,甚至毁灭人类,似乎就有些无厘头了。包括Yanne LeCun这样的深度学习的传奇学者,也和他持有相同的观点。
能够给大模型“祛魅”,就是这个研究的第一个意义。
其次,在他看来,Transformer是以一种经验性的方式开启了大模型之门。而社会资源的急速跟进,AI行业前进的范式向Transformer以及其衍生技术的收敛说明了大模型对于生产力的提升是显而易见的。
基于这个前提,白盒CRATE智能系统最大的现实意义不一定是基于AI安全研究方向的考虑。而获得了内部可以完全解释的白盒架构,可以让模型的发展变得更加高效,有针对性,节省资源。而他们对于白盒架构的研究也进一步证实了,在把白盒架构规模化之后,可以达到Transformer同样的性能。
白盒CRATE架构的最新迭代版本CRATE-α,也能够随着模型尺寸和训练数据集的增大而扩展,性能可以持续提升。而且需要投入的资源只有传统大模型的1/3到1/4,并且未来还有很大的进一步优化的空间。
论文地址:https://arxiv.org/abs/2405.20299
如果白盒架构真的既能有像Transformer模型这样的规模化性能,又能让整个行业以一种更加高效,有针对性地方法投入资源进行训练和推理,在现在训练一个GPT-4级别的模型动辄需要数亿元投入的大背景下,背后能产生的经济价值无疑也将是巨大的。
而要将这个方向继续推进下去,在大学里进行研究已经不是一个可选的办法了。这也是他创立忆生科技的最大动因——“产业界能够提供更多的资源,这样才能够完全体现技术进步的潜力。大学里出来的创新,如果只能被动等待产业资源的垂青,会埋没创新的本身的价值”。
Transformer从谷歌的科学家2017年提出,到OpenAI用这个技术做出了惊艳世人的ChatGPT,不过短短8年时间。如此之短的时间,科研成果就转化成了一个历史级的产品,这个过程体现了Transformer的巨大价值和OpenAI的卓越工作。但是在马毅看来,Transformer效果很好,但是如果人类不能理解它的工作原理,那对它的理解和应用就只能停留在“经验性”的层面上。而某种程度上,Scaling Law在他看起来,也是一个经验性的法则。
如果搞不清楚模型内部的运行机制,那么哪些参数和数据是有用的,哪些是打酱油的,怎么训练效率才能够最高效,这些问题就永远不会有答案。只有在理论上把大模型原理搞清楚了,才能更好地指导实践,造福人类。
在马毅看来,而很多科学和工程技术的发展,也在不断重复一个过程——经验性的发现开辟新的领域;理论研究继续跟进,完成对于现象的解释和理论构建;最后在这个基础上不断对技术进行改进,而技术也在这个过程中完成从实验室走向社会的过程。
Transformer快速地吸取了产业资源,很短的时间完成了一个诗级的从实验室到产品化的过程,而对它的研究还远远称不上充分。但是并不代表打破大模型“黑箱”的工作就不需要做了。如果能做出一个白盒架构,并且它的扩展性和扩展之后表现出的性能都能和现在Transformer向媲美的话,那这个白盒架构的价值就迟早会被社会认识到。
当我们在访谈中谈到未来AI的发展,他再次谈到,Transformer不会是AGI之前人类最后一个AI的重大突破。因为现在的大模型的本质工作就是在做数据压缩,是一个知识的存量过程。而生物的演化过程中,智能需要帮助生物去不断总结预测这个世界的规则,从而让生物能够用尽量少的资源生存下来,需要不断地产生知识的增量,这中间还有很大差距。
而未来,AI要能达到像人类一样发现发现新的知识,只靠大模型肯定是不够的,还需要在范式上有新的创新。对于这个问题,很多AI大佬可能都有自己看法,但是碍于自己所处的位置,以及行业的现状,没有明确表态。而马毅作为AI领域世界范围内资深的科学家,以及初创公司的创始人,这是他在很多公开场合都反复表明的观点。
有意思的是,前OpenAI首席科学家Ilya也在近日离开OpenAI后宣布,将会追求一个绝对安全的超越人类的超级人工智能。他在接受彭博社的访谈时提到,“大模型会是超级人工智能的重要组成部分,但是现在大模型的能力最本质的就是对话,未来他们做出的AI系统将会有更加通用的能力以及更强的规模化能力,类似于一个可以自主研发新技术的超级数据中心。”
也许,如果将人类发展AI的目标设定为AGI,甚至是超越AGI的超级人工智能的话,现在依然是AI技术的早期阶段,依然需要有大量创新的工作要做。不论是在Transformer层面的创新,还是在Transformer之外,超越“数据压缩”的创新,都还有很大的空间。
而这个过程,也需要更多的像Hinton,OpenAI当年那样,愿意在无人知晓的领域做长期创新的人和组织。
下面是智能涌现整理的访谈实录:
智能的核心在于不断增加和改进知识,从而使得生物能够自主适应和利用自然界的规则,而不是简单地积累知识
智能涌现:您觉得智能的本质是什么?人类有可能搞清楚这个本质吗?
马毅:从某种角度来看,智能实际上就是生命,生命就是智能。生物的发展历程表明,生命实际上是智能行为的载体。从最低等的生物到越来越高等的生物,智能和生命形式是成正比的,高级生命形式完全具备智能,所以可以认为生命是智能的载体。
那么,为什么会有智能呢?很大程度上,这是因为我们的世界在很大程度上是可预测的,因此生物体能够根据这些可预测的规律来利用规律。生命是不断重复的,一代又一代地延续。如果环境不可预测,生命就无法存在。如果没有稳定的环境条件,生命就无法延续。
而从低等生物到高等生物,智能的发展经历了三个主要阶段。
第一阶段是生命的初始阶段,从简单的生命形式到更复杂的形式。第二阶段是智能的逐步进化,复杂生物出现,进化到人类出现。人类的智能与动物的智能有本质的不同,这是智能发展的第二个阶段。第三阶段是技术阶段,从上世纪40年代开始,人们尝试将自然现象模拟成机器,计算机、信息论等技术应运而生,推动了AI的发展。
智能本质上是获取新知识、改进旧知识的能力,智能是关于知识的增量,而知识本身是存量。例如,一个小婴儿虽然没有GPT-4拥有的知识量多,但其智能体现在能够通过观测和学习不断增加知识,而GPT-4本身并没有这种能力,除非与开发它的工程师团队结合,形成一个闭环系统,才能不断改进,更新迭代知识。
智能的核心在于不断增加和改进知识,以适应和利用世界的可预测性,而不是简单地积累知识。
理解智能的本质,是研究AI的出发点和基础。
智能涌现:您怎么看待这波从22年底开始的大模型浪潮?历史上似乎没有什么技术能如此之快的引发全世界的关注,并快速地汲取产业资源,这对学术界有什么影响?
马毅:我们从去年的神经网络白盒研究Transformer得到的结论,确实它有其合理性和做得对的地方。我们的白盒CRATE论文(White-Box Transformers via Sparse Rate Reduction:Compression Is All There Is?)中提到,通过压缩原理可以推导出的基本的神经网络构架,与Transformer非常相似,实现了压缩去噪。这就在本质上解释了Transformer在做的就是数据的“压缩去噪”。
在我们看来,Transformer能实现一些正确的操作,虽然不一定是最优或最高效的,但确实能完成任务。对于数据进行压缩去噪,使得它在图像和文本处理的应用上现在占据了主导地位。它使用了一种压缩算子,虽然不是最优的,但它确实能实现目的。
再加上现在大家不关心效率和可解释性,只注重投入数据和算力。可以强制系统执行这些任务,效果也是可以的。因此,从这个角度看,正因为可以解释清楚Transformer哪些地方做对了或哪些地方做得不足,这就是理论研究存在的意义。
而且Tansformer能如此快的吸引产业界的资源,确实也给学界带来了很大的影响。
很多算法本质上并不复杂,但通过数据和算力的放大后,其能力得到了显著提升。企业界在这方面发挥了积极作用。例如,Transformer模型其实最初也没有未受到广泛关注,但OpenAI一直坚持优化和规模化,提出了scaling Law,不断提高效率。这条路径是否最优尚不可知,但至少真的能够提升模型能力。
而后来的模型如Diffusion和Sora(DiT),最初也只是学术验证。但是企业在资源充足的情况下,能够将这些方法很快规模化,使其潜力得以快速显现。这种现象在过去几年中尤为明显。学术验证到现象级demo的时间越来越短,这个趋势也是促使我们成立公司的原因之一。
深度网络从ResNet到ImageNet的发展历程很长,而Transformer在OpenAI的推动下仅用了七八年。最近的扩散模型(diffusion model)从DIT到Sora不到一年。这表明随着工程平台、资源和数据的改进,一个有效的想法很快就能被放大,其周期越来越短。这已经是一个很明显的趋势了。
在这个趋势之下,研究的想法到实验的现象级演示之间的界限变得越来越模糊。这就使得在人工智能领域,学校和科研机构需要调整自己的定位,可能需要与企业更紧密合作。一些创新的想法需要产业和社会资源的支持,否则只能停留在论文阶段,难以实现大规模应用。
学校往往缺乏足够的资源,申请经费和招募学生的周期太长,即使理论和验证工作完成,规模也比较小,难以令人信服。相反,工业界在大规模验证上更加有优势。学术界需要适应这种变化,既要做出新的研究,又要找到方法使其在大规模上验证,从而获得更加广泛的认可。
OpenAI在Transformer上的成功,既有偶然性,又有必然性
智能涌现:OpenAI看到了Transformer的潜力,把它坚持做出ChatGPT,对产业界产生了这么大的影响,这个事情某种程度上是一个偶然或者特例吗?
马毅:是有偶然性。但是任何成功都蕴含着某种必然性。例如,Transformer架构的成功,我们现在是已经清楚其原理和有效性了。然而,最初谁会在不确定其潜力的情况下愿意冒险尝试呢?这个过程涉及了很多经验性、试错的方法。他们也是是通过1.0、2.0版本的不断迭代,逐步发现其潜力。早期的OpenAI并不是一开始就聚焦于自然语言处理的。
最初,OpenAI也涉足了包括机器人在内的多个领域,自然语言处理只是其中的一小部分。他们逐渐筛选出不靠谱的项目,最终只剩下机器人和自然语言处理。然而,机器人项目过于烧钱,最终被砍掉了。自然语言处理项目则显得更为可行,所以这个过程确实带有一定的偶然性,但任何成功都肯定包含必然的成分。
而也许最值得借鉴的经验,可能是要有坚定的使命感。OpenAI的目标是实现AGI(通用人工智能),尽管技术路线是否正确尚不可知,但团队的使命感推动了他们的前进。类似地,DeepMind也专注于AI在科学领域的应用,如解决蛋白质结构预测问题,这个成就是诺奖级别的,成果对生物科学具有重大影响,节省了数亿年的研究时间和上万亿的设备投入。
这样的使命感是他们成功的必然性,是自已可以控制的部分,但是也同样确实有很多偶然的因素,比如算力的发展到了一个量变引起质变的阶段,以及他们能够获得源源不断的资金支持。
智能涌现:您觉得白盒架构的意义,在OpenAI已经把Transformer做得如此之好的背景下,能体现在什么地方呢?
马毅:首先,它让我们清楚地了解我们的白盒CRATE智能系统正在做什么,从而避免因其神秘性导致的恐惧、误解、误导,甚至被人利用。从科学角度看,我们需要了解我们在做什么,满足我们的知识需求和好奇心,明确哪些工作是必须的。从实际价值来看,没有理论指导,试错成本非常高。不论是一个团队还是整个社会,进行试错需要大量资源。理论指导可以大幅降低这种成本。
其次,有了理论后,我们可以明确当前系统的各个部分的功能,为下一代系统的迭代和改进提供指导。例如,像飞机一样,每个部件可以用更好的材料和设计来改进,故障也能更明确地定位和修复。相比之下,如果没有明确的理论指导,每次迭代都可能耗费巨额资金和时间,仍不一定能找到问题所在。
此外,了解每个部分的功能后,我们可以去掉不必要的结构,用最小化的设计完成同样的任务。我们已经开始进行这方面的工作了,未来几个月会有许多新成果出现。因为我们现在了解白盒架构每个部分的作用,可以有针对性地替换和优化,而不是盲目的高成本的试错。在这个方向上我们很有信心。
这一方法可以彻底改变我们对学习系统的设计和优化方式,提高效率。我们可以验证每个部分是否完成了预期任务,达到预期效果。这样一来,不仅可以提高系统的性能,还可以确保其稳健性,避免不必要的重复训练和资源浪费。
最终,白盒方法可以使学习系统的设计和优化更加高效、可靠。我们不再需要依赖大量的试错过程,而是通过理论指导,清晰地知道每一步在做什么,如何改进。这不仅提高了系统的稳定性和性能,还能节约大量资源,推动技术的快速发展。
智能涌现:您觉得白盒架构的上限在什么地方?
马毅:可以这样讲,我们现在的白盒方法只是建立在现有基础上的一种初步尝试,虽然在有限的条件下已经能够解释传统神经网络(Transformer)的工作原理了,但它的目标函数依然存在局限性。这并不是一个更广泛、更通用的条件。虽然我们了解其基本概念,但具体如何计算、如何优化这个量仍然未知。我们仅能在一些简单的数学模型条件下,比如混合高斯模型,知道如何计算,并且通过这些数学结构性假设推导出现有Transformer的工作机制。
然而,这是否是最佳的目标函数,我们仍然不清楚。我们肯定能够找到比现在更优的方案,例如,现有生成模型在很多方面仍存在明显不足。比如,在生成图像和文字时,虽然文本语言的处理效果很好,但图像信号和自然语言的语义绑定相关性较弱,因此生成的图像并不总是准确,而在生成视频时表现就更差了,所以很多视频生成的效果还非常不稳定,也更加理解不了现实世界的规则和物理规律。
为了提升模型现在在这些领域的表现,我们必须明白其内在工作原理,才能进行有效改进。目前AI技术还处于非常初步的阶段,现在能做的东西还只是真正的一个智能系统对数据结构的理解。抓取知识的学习,实际上现在AI能做的都是还是非常的皮毛,甚至从工作上来看到其实是比较原始粗暴的。
而且,就按照大脑的工作量来看,70%以上的工作量是在处理视觉信息,而处理语言的部分占比其实很少,所以我们的智能除了语言作为载体之外的其他部分,现在的模型的生成能力还是很差的。而人的记忆或者说知识是非常丰富的,有语言记忆,视觉记忆,数字记忆,甚至还有肌肉记忆。所以其实人类很多的知识是只可意会不可言传的,很多也是不需要和别人分享的,比如我家里是什么样子,是不需要展现给所有人类的。因为这些视觉记忆信号和语言相关性很弱,那在现在大模型在生成这些内容时效果就一定不会好。
所以,从这个角度就能看出,人工智能现在对于外部世界的建模还处在一个非常早期的路上。
智能涌现:所以OpenAI选取了自然语言这样一个人类有着共同记忆和感知的角度,是一个很能扩大影响力,很讨巧的方式吗?
马毅:确实能够吸引大众的注意力。而且像生成图像和视频的技术,虽然有趣,但其实实际产生的影响有限。然而,在制药、AI For Science等领域,一旦取得突破,将会产生巨大影响,如改善健康、解决人类各种问题、优化气象环境等。这些技术的真正价值需要每个人根据自身价值观来评判。不同公司在选择发展方向时有不同的使命,但都是值得敬佩的。
回顾OpenAI的发展历程,他们在自然语言处理领域坚持了七八年,中途面临许多挑战,甚至曾遭到Elon Musk的质疑和撤资,最后还要告他们。然而,微软的持续支持,特别是在看到2.0版本的进展后,继续投入资金和资源,帮助OpenAI渡过难关。这种坚持需要大量资金支持,每天投入数百万美元,普通投资者很难承受。
所以说这个过程充满了必然和偶然。坚持是成功的必然因素,但能否得到支持则是偶然的因素。OpenAI和DeepMind的成功不仅是由于他们的独创性和技术突破,更因为他们在长期的时间跨度内获得了大量资源支持。DeepMind在过去几年中也消耗了数百亿资金,这些资金支持了一群平均年龄只有二三十岁的年轻人,他们没有显赫的头衔或资历,却创造了现象级的创新。
智能涌现:OpenAI的成功对学界有什么影响吗?
马毅:OpenAI花了8年时间把它真正打造到千亿模型和万亿规模的模型的实现,其中有工程上的壁垒,数据上的壁垒是学校无法解决的。学校里没有做系统的资源,且合作也不容易。
但是公司可以做这种集成,OpenAI成功的两个关键是先进的研究方法和高效的工程团队。这两者必须迭代,既要保证方法的先进性,也要具备工程实力,包括数据准备、集群优化和算法的规模化,这些都需要额外的工程知识和积累。这些方法和工程是相辅相成的。而学校可能都不具备的。
而如果没有这种支持创新的环境和机制,就很难奢望出现这种现象级的创新了。而斯坦福大学和伯克利大学等知名高校的高层在AlphaFold成功之后,甚至还进行了反思。这些前瞻性、现象级的创新本应出现在学校,因为学校不仅拥有资源,还具备进行前沿研究的能力和领域资源。为什么这些创新最终出现在企业而非学校?这是高校和研究院需要反思的问题。
AI领域的现象级创新,需要更多像OpenAI的组织,能把资源给到没有头衔或资历的年轻人
智能涌现:所以就像您在很多场合下表示过的,您成立公司和创业,就是希望在自己可控的范围之内,能尽可能的形成这样的机制,尽量以这样的方式来聚集资源和人才吗?
马毅:确实,作为一家小公司,我们需要将新方法的潜力放大并实现应用。这是我们努力的方向,但我也明白为什么自己需要参与驱动这一过程,而不仅仅是让学生去完成。这样可以确保我们在面临各种压力时,始终把握住大的方向,朝着我们的使命或正确的方向前进。
同时,在实现这一目标的过程中,我们需要务实。公司必须产生价值并获得认可,这样才能生存。因此,我们需要证明自己的价值。然而,我希望在这个过程中,我们能够坚持初心,即不要因为产业压力或赚钱的需要而偏离最初的使命。实现的方法可以多样化,我们可以进行各个方向的探索和调整,但方向和技术的正确性以及先进性必须保持不变。
智能涌现:从您个人的角度来说,您在学校做研究,到做出学术成果,再到成立公司希望进一步推动技术创新的落地,您自己底层的逻辑是什么?或者说是什么在驱动着您?
马毅:我们在研究中取得了一些进展,比如在视觉重建和高维数据处理和识别等领域。我对自身的贡献和影响力有一定的判断,尤其是在深度网络的理解上,我认为我们的工作确实与其他团队有所不同。
但是虽然以前的工作在某些局部领域产生了影响,但现在的框架有可能对现有实践产生更广泛和深远的影响。这种改进是我看到的巨大价值所在。从概念到框架,再到算法验证,我认为这不仅在学术上有重要意义,而且在当前的实践中已经有很大的应用潜力。
可以把这种情况比作一个孩子成长到18岁,需要独立,但我觉得这个孩子选择的职业与我高度相关,我可能还需要再扶持一段时间,帮助他更加成熟。
所以我们必须推动这些技术的放大和验证。如果我们不去推动,其他人可能不会意识到其价值,而这个价值的体现过程,也会变得很随机和不可控。因此,我们希望在产业中进一步推进,验证和放大我们的研究成果,尽快展示其合理性和潜在价值。这也是我们公司的使命之一:通过产业化加速技术的应用和认可。
总结来说,我希望通过参与驱动这个过程,确保技术的正确性和先进性,同时坚持我们的使命和方向,不因外界压力而偏离。这样不仅能确保公司在经济上取得成功,还能在技术和学术上取得突破。
智能涌现:那在您看来,未来白盒架构的推动和落地,是会成为一个独立的生态,还是会在现有生态的改进和补充?
马毅:都会有,一方面能对基础构架至少可以做一些替换改进,就是让模型更加的高效,更加可解释,更加明白是用来做什么的。而尤其在一些应用里面,对这个模型的解释性要求很高或者数据处理的过程要很清楚的话,你就不可能一直处于黑盒的状态。
第二,正因为我们也看到了现在大模型能够变得更加高效,而且现在很多系统是不完整的,所以我们肯定是要在白盒平台上开发更完整跟完善系统。那么它会带来新的功能,那么这些功能就会赋能性的应用,这是我们也会希望看到让整个产业更加的概变得更加的有前途,这些事情做得更加完整完善,功能更加丰富。这一点我们还是非常有信心的。
比如说它能让整个人工智能系统变得更加不是那么单一化、同质化。现在都训练同样的模型、同样方法、同样的数据上在这跑,刷刷分,这是很有问题的。
实际上AI系统可以实现更复杂、更了不起的功能。就和我们的生物系统一样,是有生物多样性的。目前的大模型缺的就这个。
智能涌现:您在公司的愿景里也提到,未来希望能够开发出能够自主学习的AI系统,这个能力是如何和白盒架构联系起来的呢?
马毅:我们已经进行了早期验证,证实了自主学习的可行性。白盒架构作为整个系统的骨干结构,可以将其视为由多个组件组成的整体。一旦我们了