Geoffrey Hinton 宣布辞去 Google 的职务,并称自己现在对自己毕生的工作感到后悔。Hinton 对人工智能领域的发展所带来的风险感到担忧,并为人类敲响警钟。
被誉为「深度学习教父」的 Geoffrey Hinton 是深度神经网络技术的奠基人之一,对人工智能的发展做出了重要贡献,曾获得过计算机领域的最高荣誉「图灵奖」。
Geoffrey Hinton 在 2013 年加入 Google,担任 Google 的工程师,领导开发了一系列 AI 领域的核心技术。
在 2023 年 3 月初的一场采访上,Geoffrey Hinton 曾就 AI 的发展做了详细的解读,完整地阐述了他对大语言模型的看法和忧虑。整个采访全长 40 分钟,相信在你看完后会对 AI 有更深的了解。
划重点:
1. ChatGPT 实现智能的途径和人类大脑并不一样
2. 20 年或更短时间内我们会构建出 AGI(通用型人工智能)
3. 当我们完成对大模型的训练后,未来像 ChatGPT 这样的程序可以在非常低功耗的芯片上运行
4. AI 有可能会伤害人类,美国军方计划将这项技术应用于战争的一些想法令人做呕
5. AI 普及后,人们将从事更有创造性的工作,而减少例行工作
Q:CBS 主持人 Brook Silva-Braga
A:Geoffrey Hinton
Q:您如何描述当前 AI 机器学习领域的时刻?
A:我认为这是一个关键时刻。ChatGPT 表明,这些大型语言模型可以做一些令人惊奇的事情。普通公众突然开始关注这个领域,因为微软发布了一些产品,他们突然意识到了大公司在过去五年里所知道的东西。
Q:你第一次使用 ChatGPT 时的想法是什么?
A:在 ChatGPT 前,我已经使用了许多类似的东西,所以 ChatGPT 并没有让我感到惊讶。
GPT-2(这是早期的一种语言模型)曾让我惊讶,Google 的一个模型也让我惊讶,它实际上可以解释为什么一个笑话很好笑。它用自然语言告诉你为什么一个笑话很好笑。当然,并非所有笑话都可以,但对于很多笑话,它都可以告诉你为什么它们好笑。
Q:如果 ChatGPT 并不那么令人惊讶或令人印象深刻,那么您对公众对它的反应感到惊讶吗?因为反应很大。
A:是的,我认为每个人都有点惊讶于反应如此之大。这是最快增长的应用程序。也许我们不应该感到惊讶,但研究人员已经习惯于这些东西实际上是有效的。
Q:你在 AI 领域一直处于领先地位,半个世纪都领先于其他人,对吗?
A:其实不然。在 AI 领域,有两种思路。一种是主流 AI,另一种是关于神经网络的。主流 AI 认为,AI 是关于推理和逻辑的,而神经网络则认为,我们最好研究生物学,因为那些才是真正有效的东西。
所以,主流 AI 基于推理和逻辑制定理论,而我们基于神经元之间的连接变化来学习制定理论。从长远来看,我们取得了成功,但短期内看起来有点无望。
Q:回顾过去,了解你现在所知道的,你认为当时你是否可以说服人们?
A:我当时可以说,但那并不能说服人们。我可以说,神经网络在 20 世纪 80 年代没有真正奏效的唯一原因是计算机运行速度不够快,数据集不够大。
然而,在 80 年代,一个重要的问题是,一个拥有大量神经元的大型神经网络,计算节点和它们之间的连接,仅通过改变连接的强度,从数据中学习,而没有先验知识,这是否可行?主流 AI 的人认为这完全荒谬。尽管这听起来有点荒谬,但它确实有效。
Q:您是如何知道或为什么相信这种方法会奏效的?
A:因为大脑就是这样。你必须解释我们是如何做到这些事情的,以及我们是如何做到那些我们没有进化出来的事情的,比如阅读。
阅读对我们来说是非常新近的,我们没有足够的进化时间来适应它。但我们可以学会阅读,我们可以学会数学。所以一定有一种在这些神经网络中学习的方法。
Q:昨天,曾与您共事的 Nick 告诉我们,您并不是真正对创建 AI 感兴趣,您的核心兴趣是理解大脑是如何工作的。
A:是的,我真的想了解大脑是如何工作的。显然,如果你关于大脑工作原理的错误理论带来了好的技术,你可以利用这一点来获得资助。但我真的想知道大脑是如何工作的。我认为目前人工神经网络与大脑实际工作原理之间存在一定的分歧。我认为它们现在走的是不同的道路。
Q:那么我们现在还没有采取正确的方法?
A:这是我的个人观点。
Q:但所有大型模型现在都使用一种叫做反向传播的技术,而这种技术是您帮助推广的。
A:我认为大脑并不是在做这个。有两条通往智能的不同道路。一条是生物学途径,另一条是我们所拥有的模拟硬件途径。我们必须用自然语言进行沟通,还要向人们展示如何做事情,模仿等。
但我们在交流方面做得很糟糕,与现在运行在数字计算机上的计算机模型相比,我们的交流能力差得多。计算机模型之间的沟通带宽非常大,因为它们是相同模型的克隆,运行在不同的计算机上。
正因为如此,它们可以查看大量的数据,因为不同的计算机可以查看不同的数据,然后它们结合了它们所学到的东西,远远超出了任何人能够理解的范围。尽管如此,我们仍然比它们聪明。
Q:所以它们就像是天才白痴吗?
A:对,ChatGPT 知道的比任何一个人都多。如果有一个关于知识量的比赛,它会轻松击败任何一个人。它在智力竞赛中表现出色,可以写诗,但在推理方面并不擅长。我们在推理方面做得更好。我们必须从更少的数据中提取我们的知识。
我们有 100 万亿个连接,其中大部分是通过学习得到的,但我们只活了十亿秒,这并不算很长的时间。像 ChatGPT 这样的东西,它们在许多不同的计算机上运行了比我们更长的时间,吸收了所有这些数据。
Q:1986 年,您在《自然》杂志上发表了一篇文章,提出了一个想法:我们将拥有一个由单词组成的句子,并预测最后一个单词。
A:是的,那是第一个语言模型,基本上就是我们现在在做的事情。1986 年是很久以前的事情了。
Q:为什么那时候人们还没有说「哦,好吧,我认为他找到了方法」?
A:因为那时候,如果你问我用多少数据训练了那个模型,我有一个简单的家庭关系模型,有 112 个可能的句子,我用其中的 104 个进行了训练,然后检查它是否正确预测了最后 8 个。
它在预测最后 8 个方面表现得相当好,比符号 AI 更好。问题是那时候的计算机还不够强大。现在的计算机速度快了数百万倍,可以进行数百万倍的计算。我做了一个小计算,如果我拿 1986 年的计算机去学习一些东西,它现在仍在运行,但还没有完成。现在,学习这些东西只需要几秒钟。
Q:你知道这是你的制约因素吗?
A:我并不知道,但我相信那可能是我们的制约因素。但人们对这样的说法嗤之以鼻,好像这是一个借口:「如果我有更大的计算机和更多的数据,一切都会好起来。现在它不起作用是因为我们没有足够的数据和计算能力。」这种观点被当作对事物无法正常运作的一种狡辩。
Q:在 90 年代从事这项工作很困难吗?
A:在 90 年代,计算机在不断发展,但是那时确实有其他学习技术,在小型数据集上表现得和神经网络一样好,而且更容易解释,背后有更为复杂的数学理论。
所以,在计算机科学领域,人们对神经网络失去了兴趣。但在心理学领域,他们仍然对神经网络感兴趣,因为心理学家对人类可能如何学习感兴趣,这些其他技术甚至比反向传播还不合理。
Q:这是您背景的一个有趣部分,您之所以投身于这个领域,并非因为对计算机感兴趣,而是因为对大脑感兴趣。
A:是的,我原本对心理学感兴趣,后来我决定,如果不了解大脑,我们永远无法理解人类。在 70 年代,有一种时髦的观点认为,你可以在不关心大脑的情况下做到这一点,但我觉得那是不可能的。你必须了解大脑是如何运作的。
Q:现在我们快进到 2000 年代,您回顾过去,是否认为有一个关键时刻,当时您觉得我们这一方将在这场争论中获胜?
A:大约在 2006 年,我们开始做所谓的深度学习。在那之前,让具有多层表示的神经网络学会复杂事物一直很困难。我们找到了更好的方法来实现这一点,更好的初始化网络的方法,称为预训练。
在 ChatGPT 中,P 代表预训练。T 代表变换器,G 代表生成。实际上,是生成模型为神经网络提供了更好的预训练方法。2006 年时,这个理念的种子已经埋下,到了 2009 年,我们已经研发出了比最好的语音识别器更好的东西,用与其他所有语音识别器不同的技术识别您说的哪个音素。
Q:那么 2012 年发生了什么大事呢?
A:实际上 2012 年发生了两件大事。其中一项研究始于 2009 年,是由我的两名学生在暑假进行的,他们的研究成果导致了语音识别的改进。
这项技术被推广到了微软、IBM 和 Google 等大型语音识别实验室。2012 年,Google 首次将其应用于产品,突然之间,安卓上的语音识别变得跟 Siri 一样好,甚至更好。这是深度神经网络在语音识别领域的一个应用,比以前提前了三年。
在那个时间点的几个月内,我的另外两名学生开发了一个物体识别系统。该系统可以查看图像,告诉你图像中的物体是什么,效果比以前的系统好得多。
这个系统是怎么工作的呢?有一个人叫李飞飞,和她的合作者创建了一个大型图像数据库,包含了 1000 个不同类别的 100 万张图像。你需要查看一张图像,并对图像中的主要物体进行最好的猜测。
所以,这些图像通常会在中间有一个物体,比如子弹头火车或者哈士奇之类的东西。其他系统的错误率是 25%,而我们的错误率是 15%。几年之后,15% 的错误率降到了 3%,这已经接近人类水平了。
让我试着解释一下,让人们理解他们的方法与其他团队的方法之间的区别。假设你想在图像中识别一只鸟。图像本身,假设是 200x200 的图像,有 200x200 个像素,每个像素有三个颜色值 RGB。所以你在计算机里有 200x200x3 个数字,就是计算机里的数字。
任务是将这些数字转换成一个表示鸟的字符串。50 年来,标准 AI 领域的人们一直试图做到这一点,但没有成功。将一堆数字转换成一个表示鸟的标签是很棘手的。
你可以这样做:首先,你可以制作特征检测器,检测像素的小组合。然后在下一级别,你可能会说,假设我有 22 个边缘检测器,它们以一个细角相连,那可能就是一只喙。然后在更高的层次上,我们可能有一个探测器,它会说,嘿,我找到了这个类似喙的东西,还找到了一个圆形的东西,它们在空间关系上大致是一只鸟的眼睛和喙。
所以下一个级别,你会有一个鸟类探测器,它会说,如果我看到这两个特征,我认为这可能是一只鸟。
你可以想象通过手动连接这些特征检测器。而反向传播的思想就是在一开始随机设置连接权重,然后根据预测结果调整权重。如果预测出现错误,那么你就通过网络反向计算,并提出以下问题:我应该如何改变这个连接强度,使其更不容易说出错误答案,更容易说出正确答案?这称为误差或差异。
然后,你要计算每个连接强度如何进行微调,使其更容易得出正确答案,更不容易得出错误答案。
一个人会判断这是一只鸟,然后将标签提供给算法。但是反向传播算法只是一种计算方法,用于确定如何改变每个连接强度,使其更容易说鸟,更不容易说猫。
算法会不断尝试调整权重。现在,如果你展示足够多的鸟和猫,当你展示一只鸟时,它会说鸟;当你展示一只猫时,它会说猫。事实证明,这种方法比手动连接特征检测器要有效得多。
这就是我的学生在图像数据库上所做的事情。他们让这个系统工作得非常好。这些学生非常聪明,事实上,其中一名学生,他是 ChatGPT 背后的主要人物之一。那是人工智能的一个巨大时刻,他实际上参与了这两个项目。
你可以想象,当你调整这个小旋钮时,它会说出「鸟」,这感觉就像是一个惊人的突破。这主要是因为计算机视觉领域的其他人认为,这些神经网络只适用于简单的任务,例如识别手写数字,但这并不是真正复杂的图像,具有自然背景等。他们认为这种方法永远不会适用于这些大型复杂图像,但突然之间,这种方法就成功了。
值得称道的是,那些曾经坚定反对神经网络的人,当看到这种方法成功时,他们做了科学家通常不会做的事情,也就是说:「哦,它有效,我们会采用这个方法。」人们认为这是一个巨大的转变。因为他们看到这种方法比他们正在使用的方法更有效,所以他们很快就改变了立场。
当人们既在思考机器,也在思考我们自己的思维方式时,我们常常认为,输入是语言,输出是语言,那么中间一定也是语言。这是一个重要的误解。
实际上,这种观点并不正确。如果这是真的,那么被称为符号人工智能的方法应该非常擅长进行机器翻译,比如把英语转换成法语。你会认为操作符号是实现这一目标的正确方法。但实际上,神经网络的效果更好。当 Google 翻译从使用符号方法转向神经网络时,效果大大提高了。
我认为,在中间的部分,你会发现有数百万个神经元,它们中的一些是活跃的,一些则不是。符号只能在输入和输出处找到,而不是在整个过程中。
现在,我们在多伦多大学附近,虽然并非在多伦多大学里,但在这里和世界各地的大学里,我们教育了很多人学习编码。教这么多人编码是否仍然有意义呢?我不知道答案是什么。
在 2015 年左右,我曾经声称,在未来五年内,计算机将在图像识别方面超越放射科医生,因此教他们识别图像中的东西已经没有意义了。事实证明,我的预测错误了,实际上需要 10 年,而不是 5 年。
在精神层面上,我并没有错,只是时间预测出了差错。计算机现在在很多医学图像识别方面与放射科医生相当,尽管它们还没有在所有方面做得更好,但它们只会变得更好。
因此,我认为有一段时间,我们仍然需要编码人员。我不知道这段时间会有多长,但我们需要的编码人员会减少。或者,我们可能需要相同数量的编码人员,但他们将能够实现更多的成果。
Q:我们在这里谈论的是一家初创公司,昨天我们拜访了他们。你是他们的投资者,那么,什么是说服你的投资理由呢?
A:首先,他们是好人,我曾与其中的几位合作过。其次,他们是第一批意识到需要将 Google、OpenAI 等地开发的大型语言模型带给企业的公司。这对公司来说将非常有价值,因此,他们一直在努力实现这一目标,而且在这方面取得了领先地位。所以,我认为他们会成功的。
Q:你曾经提到过一个我觉得非常有趣的观点,那就是未来可能会有一种新型计算机,专门解决这个问题。这个观点是什么?
A:我们有两种途径来理解智能:一种是生物途径,其中每个大脑都是不同的,我们需要通过语言来在不同的大脑之间传递知识;另一种是目前的 AI 神经网络版本,你可以在不同的计算机上运行相同的模型,实际上它们可以共享连接权重,因此它们可以共享数十亿个数字。
这就是我们如何让一只鸟跳舞的。它们可以共享识别鸟的所有连接权重,一个可以学会识别猫,另一个可以学会识别鸟,它们可以共享它们的连接权重,这样每个模型都可以做两件事。
这正是这些大型语言模型所做的,它们在共享。但这种方法只适用于数字计算机,因为它们必须能够模拟相同的事物。而不同的生物大脑无法相互模拟,因此它们无法共享连接。
Q:为什么我们不坚持使用数字计算机呢?
A:因为电力消耗。你需要很多电力。虽然随着芯片的改进,电力需求在减少,但运行数字计算机仍然需要大量的电力。你必须让计算机以高电力运行,以便它能够精确地以正确的方式工作。
然而,如果你愿意让计算机以较低的电力运行,比如大脑所做的那样,你会允许一些噪声等,但特定系统会适应该特定系统中的噪声,整个系统将正常工作,尽管你没有以如此高的电力运行它以便它能精确地按照你的意图进行工作。
大脑的运行功率是 30 瓦,而大型 AI 系统需要像兆瓦这样的功率。所以我们在 30 瓦上进行训练,而大型系统则使用兆瓦,它们有很多相同的东西。所以你知道,我们在谈论功率需求方面的 1000 倍差距。
因此,我认为会有一个阶段,我们会在数字计算机上进行训练,但一旦某个 AI 系统训练完毕,我们会将其运行在非常低功耗的系统上。所以,如果你想让你的烤面包机能和你对话,你需要一个只花费几美元的芯片,而且它能运行像 ChatGPT 这样的程序,那么最好是一个低功耗和低芯片。
Q:你认为接下来这项技术将做些什么,以影响人们的生活?
A:很难选一个。我认为这将无处不在。它已经开始无处不在了,ChatGPT 只是让很多人意识到了这一点。它将无处不在。但实际上,当 Google 进行搜索时,它会使用大型神经网络来帮助决定向你展示什么最佳结果。我们现在正处于一个过渡点,其中 ChatGPT 像一个「白痴天才」,它也并不真正了解事实真相。
它接受了大量不一致的数据训练,试图预测下一个网络用户会说什么。人们对很多事情有不同的观点,而它必须有一种混合所有这些观点的方式,以便可以模拟任何人可能说的话。这与一个试图拥有一致世界观的人非常不同,特别是如果你想在世界上采取行动,拥有一致的世界观是非常有益的。
我认为接下来会发生的一件事是,我们将朝着能够理解不同世界观的系统发展,并且能够理解,好吧,如果你有这个世界观,那么这就是答案。而如果你有另一个世界观,那么答案就是另一个。我们得到我们自己的真相。
Q:那么这个问题是不是因为,你和我可能都相信(除非你是一个极端的相对主义者),实际上在很多话题上,甚至在大多数话题上,确实存在一个事实真相,比如地球实际上并不是平的,只是看起来平而已,对吧?
A:是的,所以我们真的想要一个模型说,好吧,对某些人来说,我们不知道吗?这将是一个巨大的问题,我们目前还不知道如何处理。目前我并不认为微软知道如何处理这个问题。他们也不知道。
这似乎是一个巨大的治理挑战。谁来做这些决策?这是非常棘手的事情。你可不希望某个大型盈利公司来决定什么是真实的。但他们正在控制我们如何使用这些东西。Google 目前非常小心,不要那样做。Google 会做的是将你引向相关文件,这些文件中会有各种各样的观点。
Q:那么他们还没有发布他们的聊天产品,至少在我们谈话的时候还没有,对吧?
A:是的,但我们已经看到,至少那些已经发布聊天产品的人觉得有些事情他们不希望用他们的声音说出来,所以他们会去干预它,以免说出冒犯人的话。
是的,但这种方式你能做的事情是有限的。总会有你想不到的事情,对吧?是的。所以我认为 Google 在发布聊天机器人时会比微软更谨慎,并且它可能会附带很多警告,这只是一个聊天机器人,不要一定相信它所说的。
在标签上小心,或者在干预方式上小心,以免做出糟糕的事情。所有这些方面都要小心。在如何将其作为产品呈现以及如何进行训练方面要小心。是的。并努力防止它说出不好的东西。但是,谁来决定什么是坏事呢?有些坏事是相当明显的,但是很多最重要的事情并不是那么明显。所以,目前这是一个很大的悬而未决的问题。我认为微软发布 ChatGPT 是非常勇敢的。
Prev Chapter:确保隐私的代价:私有版ChatGPT费用将高出常规版10倍
Next Chapter:Meta:假冒ChatGPT的恶意软件正激增