OpenAI遭遇研发谜团：有时大模型很难学会某一技能，过后又能突然学会

2024-03-05 17:53:50 浏览：144 作者：管理员

两年前，OpenAI 的研究人员尤里·布尔达（Yuri Burda）和哈里·爱德华兹（Harri Edwards）曾试图找出如何让一个大型语言模型进行基本运算。

（来源：OpenAI 官网）

他们想知道，模型需要看到多少个将两个数字相加的例子，才能正确地将他们给出的任何两个数字加起来。

起初，事情进展得不太顺利。模型只是单纯地记住了它见过的加法运算，但不能解决没见过的问题。

一次偶然，布尔达和爱德华兹让一些实验运行了几天的时间，这远远超过了他们原本预计的几个小时。

这些模型看了一遍又一遍的加法运算例子，如果研究人员在旁边监督，他们早就该叫停了。

但当两人终于回来时，他们惊讶地发现实验奏效了。他们训练了一个懂得如何把两个数字加起来的大型语言模型，只不过花费的时间比任何人预想的都要多。

由于好奇到底发生了什么，布尔达和爱德华兹与同事们合作研究了这一现象。

他们发现，在某些情况下，模型似乎一直无法学会一项任务，然后突然间就学会了，就好像灯泡突然亮了一样。

这不是传统的深度学习的工作方式，所以他们称这种行为为“摸索（grokking）”。

加拿大蒙特利尔大学和苹果机器学习研究所的人工智能研究员哈蒂·周（Hattie Zhou）表示：“这真的很有趣。我们能确信模型已经停止学习了吗？或许只是我们训练的时间不够长。”她没有参与这项研究。

这种奇怪的行为引起了科研界更广泛的关注。英国剑桥大学的劳罗·兰戈斯科（Lauro Langosco）说：“很多人都有不同的看法。我不认为人们对到底发生了什么达成了共识。”

rokking 只是让人工智能研究人员感到困惑的几种奇怪现象之一。那些迄今为止最大的模型，尤其是大型语言模型，其运作方式似乎不同于数学所展示的、其该有的运作方式。

深度学习是当今人工智能繁荣背后的底层技术，这次发现揭示了一个关于深度学习的事实：尽管它取得了巨大成功，但没有人确切知道它是如何工作的，也不知道为什么它能有用。

“显然，我们并非完全无知。”美国加州大学圣地亚哥分校的计算机科学家米哈伊尔·贝尔金（Mikhail Belkin）说，“但我们的理论分析与这些模型能做的相去甚远。比如，它们为什么能学习语言？我认为这非常神秘。”

大模型现在如此复杂，以至于研究人员正在把它们当作奇怪的自然现象来研究，进行实验并试图解释结果。

其中许多观察结果与经典统计学背道而驰，而经典统计学通常为预测模型的行为提供了最好的解释。

你可能会说，那又怎样？在过去的几周里，谷歌 DeepMind 在其大多数消费者应用程序中推出了其生成式人工智能模型 Gemini。OpenAI 以其最新的文本到视频模型 Sora 让人们惊叹不已。

世界各地的企业都在争先恐后地利用人工智能来满足他们的需求。这项技术不仅有效，而且正在走进我们的生活，这理由还不够吗？

但是，弄清楚为什么深度学习如此有效，不仅仅是一个有趣的科学难题，也可能是解锁下一代技术的关键，以及应对其巨大风险的关键。

“这是一个激动人心的时刻。”美国哈佛大学的计算机科学家波兹·巴拉克（Boaz Barak）说，他被借调到 OpenAI 的超级对齐团队一年，“该领域的许多人经常将其与 20 世纪初的物理学进行比较。

有很多实验结果我们并不能完全理解，当你做实验时，结果往往会让你感到惊讶。”

OpenAI遭遇研发谜团：有时大模型很难学会某一技能，过后又能突然学会

旧代码，新技巧

最令人惊讶的是，模型可以完成你没有向它展示过的任务。这被称为“泛化（generalization）”，是机器学习中最基本的想法之一，也是最大的难题。

模型可以通过一组特定的例子进行训练，学会做一项任务，比如识别人脸、翻译句子、避开行人。然而，它们也可以做到泛化，学会用以前从未见过的例子来完成这项任务。

不知道为什么，模型不仅能记住它们所看到的模式，还能想出规则，让它们将这些模式应用到新的任务中。有时候，就像 grokking 一样，泛化也发生在我们意想不到的时候。

大型语言模型，如 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini，都具备惊人的泛化能力。

巴拉克说：“神奇之处不在于该模型可以用英语学习数学问题，然后泛化到新的数学问题。

而是该模型可以用英语学习数学问题，再看一些法国文献，然后泛化到学会用法语解决数学问题。这不是统计学所能告诉你的东西。”

几年前，当哈蒂·周开始研究人工智能时，她不理解为什么老师们更关注实现的过程，而不是实现的原理。

她说：“这就像是告诉了你这是训练这些模型的方法，然后就得到了结果。但不清楚为什么这个过程会产生能够做出这些惊人事情的模型。”

她想知道更多，但没人能给她一个好答案：“我的假设是，科学家知道他们在做什么。比如，他们已经有了理论，然后再建立模型。但事实并非如此。”

在过去的 10 多年里，深度学习的快速发展更多地来自于试错，而不是理解。研究人员复制了他人发现的有效方法，并添加了自己的创新。

现在有许多不同的“佐料（ingredients）”可以添加到模型中，我们还有一本越来越厚的深度学习“食谱”，里面装满了这些模型的使用方式。

贝尔金说：“人们就是试试这个，试试那个，把所有的技巧都试一遍。有些很重要，有些则没什么意义。”

他说：“它起作用了，我们会觉得这太神奇了。我们的大脑被这些东西的强大所震撼。”

然而，尽管它们取得了成功，但这些“食谱”记载的更像是炼金术，而不是严谨的化学。他说：“就像我们在午夜混合了一些东西，然后想出了某种正确的咒语。”

OpenAI遭遇研发谜团：有时大模型很难学会某一技能，过后又能突然学会

过拟合

问题是，在大型语言模型时代，人工智能似乎与教科书上的统计学原理相悖。当今最强大的模型非常庞大，有多达一万亿个参数。这些参数会在模型训练中不断调整。

但统计学表明，随着模型越来越大，它们一开始会提高性能，但之后变得更糟。原因是所谓的“过拟合（overfitting）”现象。

当模型在一个数据集上进行训练时，它会尝试将数据拟合到一个模式中。举个简单的例子，这就像在图表上绘制一组数据点，最适合数据的模式就是在图表上穿过这些点的线。

训练模型的过程，就是让它找到一条既适合训练数据（图表上已经有的点），也适合新数据（新点）的线。

直线是一种最简单的模式（线性回归），但它可能不太准确，会漏掉一些点。如果有一条曲线能够连接每个点，那它将在训练数据上获得满分，但它无法泛化到新点。当这种情况发生时，该模型就出现了数据过拟合。

根据经典统计学理论，模型越大、就越容易出现过拟合。这是因为有了更多的参数，模型更容易找到能连接每个点的线。

这意味着，如果要追求泛化，模型必须在欠拟合和过拟合之间找到一个最佳平衡点。

然而，这并不是我们在大模型中看到的。这方面最著名的例子是一种被称为“双下降（double descent）”的现象。

模型的性能通常用它所犯的错误数量来表示：随着性能的提高，错误率也会下降。

几十年来，人们一直认为，随着模型越来越大，错误率会先下降后上升。就像一条 U 形曲线，它的最低点就是泛化的最佳点。

但在 2018 年，贝尔金和他的同事发现，当某些模型变得更大时，它们的错误率会下降，然后上升，然后再次下降。由此得名双下降，或 W 形曲线。

换言之，大模型会以某种方式超越曾经我们以为的最佳点，并解决过拟合问题。随着模型变得更大，情况（性能）会变得更好。

一年后，巴拉克与人合著了一篇论文，表明双下降现象比许多人想象的更普遍。这种情况不仅发生在模型变得更大时，也发生在拥有大量训练数据的模型或训练时间更长的模型中。

这种行为被称为良性过拟合，目前我们还没有完全理解它。它引发了一些基本问题，即应该如何训练模型以最大限度地激发它们的潜能。

研究人员已经对他们认为正在发生的事情有了一些眉目。贝尔金认为，有一种奥卡姆剃刀效应在起作用：最简单的描述数据的模式，也就是所有数据点之间最平滑的曲线，往往是泛化效果最好的。

较大的模型所需的训练时间比人们原以为的要长，原因可能是它们比小模型更有可能找到一条性能一般的曲线：更多的参数意味着有更多的曲线要尝试。

贝尔金说：“我们的理论似乎解释了它为什么有效的基本原理。然后人们制作了能说 100 种语言的模型，这证明原来我们什么都不懂。”他笑着补充道：“事实证明，我们甚至都没触及皮毛。”

对贝尔金来说，大型语言模型是一个全新的谜题。这些模型基于 transformer，这是一种神经网络，擅长处理数据序列，如句子中的单词。

贝尔金说，transformer 内部有很多复杂性。但他认为，从本质上讲，它们所做的事情或多或少与马尔可夫链类似。

后者是一种更容易理解的统计结构，会根据之前的情况预测序列中的下一个东西。

但这还不足以解释大型语言模型所能做的一切。贝尔金说：“直到最近，我们还认为它不应该奏效。

这意味着，我们对它的理解在根本上缺失了一些东西，我们对这个世界的理解存在空白。”

贝尔金进一步猜想，语言中或许存在一种隐藏的数学模式，大型语言模型找到了利用这种模式的方法：“这纯粹是我的猜测，但谁知道呢？”

他说：“如果我们真的发现这些东西给语言建立了模型，这可能是历史上最伟大的发现之一。你可以用马尔可夫链预测下一个单词来学习语言，这让我感到震惊。”

OpenAI遭遇研发谜团：有时大模型很难学会某一技能，过后又能突然学会

从小处着手

研究人员正试图一点一点地弄清楚它。由于大模型过于复杂，无法直接研究，贝尔金、巴拉克、周和其他人转而对更容易理解的较小（和较旧）的统计模型进行实验。

在不同条件下，根据各种数据训练这些代理，并观察发生的事情。由此可以深入了解正在发生的事情。

这有助于启发新的理论，但我们并不清楚这些理论是否也适用于更大的模型。毕竟，许多奇怪的行为都存在于大模型的复杂性中。

一套深度学习理论即将出现吗？哥伦比亚大学的计算机科学家大卫·许（David Hsu，音译）是贝尔金的双下降论文的合著者之一，他预计我们不会很快找到所有答案。

“我们现在有了更好的直觉。”他说，“但真的能解释为什么神经网络会有这种意想不到的行为吗？我们还远远没有做到这一点。”

2016 年，麻省理工学院的张驰原和谷歌大脑（Google Brain）的同事发表了一篇有影响力的论文，题为《理解深度学习需要重新思考泛化》（Understanding Deep Learning Requires Rethinking Generalization）。

五年后的 2021 年，他们重新发表了这篇论文，称其为《理解深度学习（仍然）需要重新思考泛化》（Understanding Deep Learning (Still) Requires Rethinking Generalization）。

那么时至今日呢？“是，也不是。”张驰原说，“最近几年取得了很大进展，但新出现的问题可能比已解决的问题多得多。”

与此同时，研究人员仍在努力研究搞懂基础的观测结果。2023 年 12 月，兰戈斯科和他的同事在顶级人工智能会议 NeurIPS 上发表了一篇论文。

他们在论文中声称，grokking 和双下降实际上是同一现象的不同方面，兰戈斯科说：“你盯着它们看，会发现它们看起来有点像。”他认为，对（深度学习背后）正在发生的事情的解释应该兼顾两者。

在同一次会议上，英国剑桥大学研究统计学的艾莉西亚·库思（Alicia Curth）和她的同事认为，双下降实际上是一种“幻觉（illusion）”。

库思说：“我不太同意现代机器学习是一种魔法，可以挑战我们迄今为止建立的所有定律。”她的团队认为，双下降现象的出现是因为测量模型复杂性的方式。

贝尔金和他的同事使用模型大小（参数的数量）来衡量复杂性。但库思和她的同事发现，参数的数量可能不能很好地替代复杂度，因为添加参数有时会使模型变得更复杂，有时则会使其不那么复杂。

这取决于参数值是什么，它们在训练中如何使用，以及它们如何与其他参数互动，这些大部分都隐藏在模型中。

库思说：“我们得出的结论是，并非所有的模型参数都可以一视同仁的。”

简而言之，如果使用不同的复杂性度量，大型模型可能会很好地符合经典统计学理论。

库思说，这并不是说当模型变大时，我们不会见到更多不了解的事情，但我们已经掌握了解释它所需的所有数学知识。

OpenAI遭遇研发谜团：有时大模型很难学会某一技能，过后又能突然学会

我们这个时代的一大谜团

诚然，这样的争论会愈演愈烈。那么，为什么人工智能模型是否以经典统计学为基础很重要？

一个答案是，更好的理论理解将有助于构建更好的人工智能或提高其效率。

目前，我们的进展很快，但不可预测。OpenAI 的 GPT-4 所能做的许多事情甚至让制造它的人都感到惊讶。

研究人员仍在争论它能实现什么，不能实现什么。贝尔金说：“如果没有某种基本理论，我们很难知道我们期望从这些东西中看到什么。”

巴拉克对此表示赞同。他说：“即使我们现在有了模型，即使是从事后来看，我们也很难准确说出某些能力出现的确切原因。”

这不仅关乎技术发展的管理，也关乎技术风险的预测。许多研究深度学习背后理论的研究人员，其动机都是出于对未来模型安全性的担忧。

兰戈斯科说：“在我们对 GPT-5 进行训练和测试之前，我们不知道它会有什么能力。

现在这可能是一个中等规模的问题，但随着模型变得更加强大，未来这将成为一个真正的大问题。”

巴拉克在 OpenAI 的超级对齐团队工作，该团队由该公司的首席科学家伊利亚·苏茨凯弗（Ilya Sutskever）成立，旨在找出如何阻止一种假想中的超级智能变得失控。

“我对掌控力很感兴趣。”他说，“如果你能做一些了不起的事情，但你不能真正控制它，那就没那么了不起了。如果方向盘不稳，一辆时速能达到 300 英里的车又有什么价值呢？”

但在这一切的背后，还有一个巨大的科学挑战。巴拉克说：“智能（intelligence），无疑是我们这个时代的一大谜团。”

“我们的科学还很稚嫩。”他说，“这个月或许有某个问题让我感到很兴奋，但下个月可能就变了。我们仍在发现很多事情，所以我们非常需要做实验，并看到惊喜。”

Prev Chapter：刚刚曝光的Claude3，直击OpenAI最大弱点

Next Chapter：外媒：超威半导体对华销售“定制版AI芯片”，被美政府认定“性能太强”阻拦

评论区

共 0 条评论

这篇文章还没有收到评论，赶紧来抢沙发吧~

OpenAI遭遇研发谜团：有时大模型很难学会某一技能，过后又能突然学会_tiknovel-最新最全的nft,web3,AI技术资讯技术社区

OpenAI遭遇研发谜团：有时大模型很难学会某一技能，过后又能突然学会

评论区

【随机内容】