近日,Meta 突然官宣了 Llama 3,把开源模型的实力又往上提了一截。
Llama 3 总共有三个版本 ——8B、70B 和 405B。其中,8B 和 70B 版本已经开源,405B 版本仍在训练中。
根据现有的评测数据,405B 版本的性能已经逼近 GPT-4。这可能促使 OpenAI 尽早发布下一代模型,从而保持其最强 AI 模型的地位。
那么,这个还没有亮相的 Llama 3 405B 大模型将带来哪些惊喜?Meta 会继续坚持开源吗?Llama 4 以及之后的模型会往哪些方向迭代?
之前 Meta 对元宇宙的笃信是出于哪些动力?在最近的一次访谈中,Meta CEO 扎克伯格回应了这些问题。
附上视频地址:https://www.youtube.com/watch?v=bc6uFV9CJGg&t=17s
他提到,Llama 3 405B 将是一个密集模型,预计年末发布。此外,他们还计划到年底拥有约 35 万块 GPU,目前已经建立了由 22000 块 GPU 和 24000 块 GPU 构建起来的两个单独集群。
在谈到开源问题时,他类比说,在现有的应用生态系统中,苹果和 Google 等「守门人」对开发者能够构建的应用类型拥有很大的控制权,他不想让 AI 世界也变成这个样子,因此他对开源持积极态度。他表达了对于一个开放的 AI 生态系统的愿景,在这个系统中,开发者不会被少数控制着闭源模型的大公司所限制。
以下是机器之心整理的访谈内容,部分内容存在删减。
Llama-3 超大杯什么时候发布?
Dwarkesh Patel:我们来谈谈刚发布的 Llama-3 和 Meta AI 吧。
Mark Zuckerberg:我想大多数人最关心的还是 Meta AI 的新模型,即 Llama 模型的升级版本:Llama-3。我们既会向开发社区开源,也会让其成为 Meta AI 的助力。Meta AI 值得关注的点有很多,但我认为最重要的是它是目前人们可以使用的最智能且可自由使用的 AI。我们将把 Google 和 Bing 整合起来用以获取实时知识。
Meta AI 将会整合进我们的许多应用,包括 Facebook 和 Messenger—— 你可以在它们的搜索框中任意提问。我们在其中加入了很多创意功能,比如动画化功能可以将任意图片变成动画。
比较震撼眼球的一项更新是它现在能以非常快的速度生成高质量图像,而且它能随着用户输入而实时更新生成结果。
我们未来几周或几个月会在一些国家发布这些应用,但还不会全面铺开。我认为这会是一个非常重要的事件,是 Meta AI 向前迈出的一大步。
深入到 Meta AI 内部,在技术方面最吸引眼球的当然是 Llama-3。我们训练了三个版本:8B 和 70B 参数的模型,还有一个 405B 参数的密集模型(还在训练之中)。8B 和 70B 模型的表现非常激动人心,它们都是同等规模模型的领军者。
我们还有后续发布的路线图,包括多模态、更强大的多语言支持、更大的上下文窗口。我们希望能在今年年末的某个时候发布 405B 版本。在目前的训练阶段,它的 MMLU 得分已经达到了 85 左右。我们预计完成训练后它能在许多基准上领先。刚刚发布的 70B 模型也很出色,MMLU 为 82,数学和推理能力的得分都领先。
Dwarkesh Patel:着实不凡。
Mark Zuckerberg:8B 版本基本上与我们之前发布的 Llama-2 的最大版本一样强大,也就是说 Llama-3 的最小版本足以比肩 Llama-2 的最大版本。
买那么多 GPU 是未卜先知?
Dwarkesh Patel:在深入这些模型之前,我想聊聊过去。大概 2022 年时,你们开始购进 H100。那时候你们的股价不振,人们都很疑惑为什么要这样花钱。人们并不看好元宇宙。那时候你怎么知道要去买 H100 呢?
Mark Zuckerberg:那是因为我们当时正在研究 Reels(一款短视频应用,Tiktok 竞品)。我们总是希望有足够的能力去构建尚不存在的东西。我们当时在研究 Reels,我们需要更多 GPU 去训练模型。
加上我们当时希望在基础设施方面尽快追赶上 TikTok。我们当时想:「唉,我们必须确保我们再也不这样落后了。那就订购足够训练 Reels 的 GPU 并且再加一倍吧。」
Dwarkesh Patel:当时你知道这会用于训练 AI 吗?
Mark Zuckerberg:我们当时知道这会与训练大型模型有关。当时我觉得这可能与内容有关 —— 那时候我非常急切地想要为 Reels 和其它内容开发出推荐算法。现在这成为了 Instagram 和 Facebook 的一大卖点:向人们展示他们可能感兴趣的内容,即便他们没有关注。
事后来看,这是一个非常明智的决定。这都是后见之明 ——「哦,我当时多么领先。」事实上,我们当时做的大多数决定最后都有不错的结果,原因不过是我们之前搞砸过,不想再犯同样的错了。
何时决定 All in AGI?
Dwarkesh Patel:Facebook AI 研究院已经成立了很长时间了。现在它似乎已经变成了你们公司的核心。你们是从什么时候开始考虑将造就 AGI 作为自己的使命和关键优先事项?
Mark Zuckerberg:确实挺久了。FAIR 成立于大概十年之前。我们的想法是,在创造通用智能的道路上,我们会得到很多能改善方方面面的不同创新。因此我们并不是将其看作一个产品,它更像是一个研究团队。过去十年来,它创造了很多提升我们所有产品的东西。它也推动了 AI 领域的发展。
过去几年随着 ChatGPT 和扩散模型的出现,这一领域发生了重大转变,出现了很多会改变人们与应用的交互方式的东西。那时候我们成立了另一个团队:Gen AI 团队。其目标是将这些创新引入我们的产品并且构建支持所有这些不同产品的先进基础模型。
一开始我们想做的东西都与社交有关,比如帮助人们与创作者沟通、帮助人们与企业互动、帮助企业销售产品或提供客户服务。还有一些基础的助理功能,可以用于我们的应用以及智能眼镜和 VR 设备。
所以一开始的时候,我们并不完全清楚我们需要完整的 AGI 来支持所有这些用例。但经过多年的研究和实践之后,这方面变得清晰起来。举个例子,在我们开发 Llama-2 时,我们并没有将编程看作一个优先事项,因为人们并不会用 WhatsApp 向 Meta AI 提很多编程问题。
Dwarkesh Patel:现在他们会问这些了吗?
Mark Zuckerberg:我不知道。我不确定人们是否会使用 WhatsApp 或 Facebook 或 Instagram 作为 UI 来问与编程有关的问题,也许他们会使用我们刚上线的网站 meta.ai。但过去 18 个月的发展已经表明,编程对很多领域都很重要,而不仅仅是编程领域。
即便人们问的问题与编程无关,但训练模型学习编程依然有用 —— 这能帮助模型给出更严谨的回答,让模型可以在不同类型的领域执行推理。Llama-3 就是这样,编程能力是我们关注的一大重点,因为这能帮助模型的能力获得全面的提升。
另一个重点是推理。用户在与商家或企业等沟通时,不是一问一答就完成了,而是往往涉及到多步互动。很多时候客户只知道自己的需求,并不知道自己想要什么产品或服务。这时候光回答字面上的问题是不够的,还需要推理。
Llama-3 能取代程序员吗?
Dwarkesh Patel:所以 Llama-3 能解决所有这些用例吗?你认为这个版本足以替代程序员吗?
Mark Zuckerberg:我只是觉得这些能力都会随时间而进步。
Dwarkesh Patel:但最终能解决,比如 Llama-10?
Mark Zuckerberg:我认为这个问题不简单。我不确定这些模型是会替代人们更多,还是帮助人们更多。
Dwarkesh Patel:Llama-10 诞生后,程序员的生产力能提升 10 倍吗?
Mark Zuckerberg:我希望会更多。我相信人们的智能并不存在一个单一阈值,因为人们有不同的技能。我认为未来某个时候,AI 将在大多数事情上超过人类。但我认为这个过程是渐进式的,而且我认为 AGI 并不是一个单一存在,而实际上是不同功能的集合。
目前我们关注的一大关键功能是多模态,起先是照片、图像和文本,最后到视频。而且我们还很关注元宇宙,因此 3D 模态也很重要。另一个我非常关注的模态是情绪理解(emotional understanding)—— 我还没看到业界有很多人关注这方面。
人脑中有很大部分是专门用于理解别人的表情和情绪。我认为这是一个单独完整的模态。你也许会说这就是视频或图像,但很显然这是非常特别的视频或图像。
因此,模型不只是需要具备理解和记忆的能力,还有很多其它不同能力需要掌握。我认为未来我们解决复杂问题时并不会再以查询窗口为中心,通过输入上下文来处理。人们会有更加个人化的记忆数据和不同的定制化模型。
它们会有各自不同的能力,规模也有大有小。大小模型我们都很关注。Meta AI 这样的模型运行在大型服务器上,但我们也希望会有能运行在智能眼镜等小型设备上的模型。因此我们也需要非常高效的模型。
大模型将催生哪些产业级用例?
Dwarkesh Patel:你认为模型推理有什么百亿美元级乃至千亿美元级的市场?它有什么产业级的用例?模拟或者元宇宙?
Mark Zuckerberg:我们猜想这将能改变所有产品。我认为将会出现一种 Meta AI 通用助理产品。这种产品不再是只会问答的聊天机器人,而是可以完成更复杂任务的系统性模型。这就需要大量的推理和计算。
另一个重要方向是与其它智能体或人类交互,包括企业业务和创意工作。我的想法是,未来并不只有单一 AI。每家企业都会想要一个代表其利益的 AI。
创意工作也是一个重点。我们平台有大约 2 亿位创作者。他们与各自的社区互动时通常都有模式可循,但他们每天的时间有限。
如果我们能创造出可让创作者拥有的 AI,让他们以自己的方式去训练它与自己的社区交互,那必然会是一个非常棒的应用场景。这样的 AI 会赢得大量的互动参与。
这还只是消费者用例,我和妻子的基金会 Chan Zuckerberg Initiative 在科学方面做了很多工作,其中也包括很多与 AI 相关的工作,这些将能推动科学和医疗等领域的发展。我相信这些最终将能影响产品和经济的每个方面。
Llama-3 将带来哪些改进?
Dwarkesh Patel:你提到模型的进步是渐进式的,这是指模型变得更大吗?还是说使用更好的数据训练同样大小的模型让其变得更强大?
Mark Zuckerberg:我认为我们不知道这个问题的答案。我想一种发展模式是基于 Llama 这样的模型开发其它应用,也就是针对用例进行微调,比如让 Meta AI 可以使用 Google 或 Bing 等工具来获取实时知识。
基础 Llama 模型并不具备这种能力。Llama-2 具备一些,但这是人工设计开发的。Llama-3 开始具备一些类似智能体的能力。对于 Llama-4,我们的部分目标是让模型本身具备更多能力。
每一次进步都会出现新的可能性,解锁出新的用例。
Dwarkesh Patel:你说「让模型本身具备更多能力」,你是指在你希望模型完成的事情上训练模型吗?
Mark Zuckerberg:Llama-2 只能使用非常特定的工具,而 Llama-3 能使用好得多的工具。我们无需人工编程就能让其使用 Google 执行搜索。它本身就能做到。类似的功能还有编程和运行代码等。
模型既然能具备这样的能力,我们就能借此一窥未来。我们不必等到开发 Llama-4 时才去构建这些能力,我们现在就能探究它们。我们可以人工编写一些让产品更好用的工具,用以临时过渡。这有助于展现下一版本模型的开发方向。
Dwarkesh Patel:开源社区对 Llama-3 的微调,你最感兴趣的是什么?也许不是对你最有用的那个。
Mark Zuckerberg:我认为有价值的事情,我们可能都会着手构建。我认为你会得到精简版本、更小的版本。我认为 8B 参数对于很多用例来说还不够小。随着时间的推移,我很想得到一个 1-2B 参数的模型,甚至是一个 500M 参数的模型,然后看看你能做些什么。
如果使用 8B 参数,我们几乎能与最大的 Llama-2 模型媲美,那么使用 10 亿个参数,你应该能够做一些有趣且更快的事情。我们也在考虑优化模型,但现在 GPU 已经被用来训练 405B 模型了。
LLama-3 70B 模型还有待发掘的潜力
Dwarkesh Patel:关于 GPU,我记得你说到年底会有 35 万块。
Mark Zuckerberg:我们建造了两个集群, 每个集群大约有 22,000 或 24,000 个 GPU。由于我们服务的社区规模之大,我们所需的推理计算量与训练计算量的比例可能比其他公司高得多。
Dwarkesh Patel:在你们之前分享给我的材料中,我注意到你们用更多的数据来训练,你能具体谈一下吗?
Mark Zuckerberg:关于 70B 模型,我们发现了一件有趣的事情,我们训练 token 达到 15 万亿,但在训练的最后阶段模型仍然在学习。假如我们给它更多的 token,模型可能会变得更好。
但是经营一家公司,你需要有所取舍,我问自己是否想要调用 GPU 来进一步训练 70B 模型?还是准备测试 Llama-4 的一些前期假设?我们需要做出决定,我认为 70B 版本的模型已经取得了不错的平衡。
未来会有其他版本,例如 70B 多模态版本,会在未来推出。但最令人着迷的是,目前这些架构可以容纳如此多的数据。
Dwarkesh Patel:这真的很有趣。这对未来的模型意味着什么?你提到 Llama-3 的 8B 比 Llama-2 的 70B 更好。
Mark Zuckerberg:不,不,它几乎一样好。我不想过分夸大。它的数量级差不多。
除了能源瓶颈,还有架构瓶颈
Dwarkesh Patel:这是否意味着 Llama-4 70B 会和 Llama-3 405B 一样好?未来会是什么样子?
Mark Zuckerberg:这确实是一个很好的问题,我想没人会给出答案。世界上最棘手的事情之一就是指数曲线还能持续多久?我认为我们很可能会继续下去。我认为投资 100 亿美元,甚至 1000 亿美元来建设基础设施是值得的,这样的话,你将会得到一些真正令人惊奇的东西,从而创造出令人惊奇的产品。
一般来说,从历史来看,当你遇到瓶颈时会耗费大量的时间解决。但是现在,也许这些瓶颈很快就会被克服。
Dwarkesh Patel:如果没有这些瓶颈,世界会是什么样子?假设进展以这种速度继续下去。
Mark Zuckerberg:无论如何,都会遇到不同的瓶颈。在过去几年中,我认为 GPU 的生产是一个问题。即使有钱支付 GPU 的公司也不一定能够获得他们想要的数量,因为存在供应限制。现在我觉得这种情况正在减少。因此,你会看到很多公司现在考虑投资大量资金来构建这些设施。
我认为这种情况会持续一段时间。还有一个资本问题,在什么时候,投入更多的资本就不再具有性价比了。实际上我认为在我们达到这个点之前,你会遇到能源的限制。
据我所知,还没有人建立过一千兆瓦的单一训练集群。此外,获取能源许可会受到政府的严格监管。显然,如果你是在创办一家小公司,也许你会感觉到这种监管较少。我们与不同的政府和监管机构打交道,我们有很多规则需要遵循,以此确保我们在全球做好工作。但我认为能源无疑是一个巨大的限制。
Dwarkesh Patel:有没有什么东西,也许是人工智能相关的项目,也许不是,即使是像 Meta 这样的公司也没有资源?如果完成这项任务是研发预算或资本支出预算的 10 倍,你还会实施吗?
Mark Zuckerberg:我认为能源问题是其中之一,如果我们有足够的能源,我们可能会建立比现在更大的集群。
Dwarkesh Patel:这基本上是资金瓶颈的极限?如果你有 1 万亿美元……
Mark Zuckerberg:我认为现在是时候考虑这个问题了。这取决于指数曲线会走多远。目前,许多数据中心的规模大约是 50 兆瓦或 100 兆瓦,大型数据中心可能达到 150 兆瓦。如果把一个整个数据中心都用来进行训练,并建立最大的集群,我认为很多公司正在这样做。
但是当你开始建造像 300 兆瓦、500 兆瓦或 1 吉瓦这样规模的数据中心时,还没有人建造过 1 吉瓦的数据中心。我认为这迟早会发生,但不会在明年。有些事情需要花费数年时间才能建成。换个角度来看,我认为 1 吉瓦的规模相当于一个核电厂的能源供应仅用于训练模型。
Dwarkesh Patel:亚马逊有没有做过这个?他们有一个 950 兆瓦的……
Mark Zuckerberg:我不太确定他们做了什么。你得问他们。
Dwarkesh Patel:但是这种规模的数据中心不一定要建在同一个地方,对吧?如果分布式训练有效,也可以分布式进行。
Mark Zuckerberg:嗯,我觉得这是一个很大的问题,数据中心将如何运作。
Dwarkesh Patel:Llama-3,甚至可能是 Llama-4 之后的版本,能否遇到这种情况,也就是说,你发布了这个模型,如果有人有大量计算资源,他们就可以在你发布的模型的基础上,让这些模型变得更加智能。
Mark Zuckerberg:我认为这种可能性是存在的,但我也认为模型架构存在根本性的限制。用 Llama-3 架构训练的 70B 模型可以变得更好,它可以持续改进。正如我之前说的,如果我们继续给它提供更多的数据,或者再次通过 token 进行优化,它会变得更好,世界各地的许多不同公司基本上都采用了 Llama-2 70B 模型架构,然后构建了一个新模型。
但仍然存在这样一个情况,当你对像 Llama-3 70B 或 Llama-3 405B 这样的模型进行改进时,人们在此基础上可以构建的东西不能无限地进步。在达到下一个重要进展之前,可能只能在现有的基础上进行优化和改进。
AI 是有史以来最重要的技术吗?
Dwarkesh Patel:未来几十年人工智能会发生什么?它是否会让你感觉像是另一种技术,如虚拟宇宙或社交技术,或者是人类历史进程中根本不同的事物?
Mark Zuckerberg:我认为将人工智能形容为非常基础性的技术是非常合适的。它更像计算机的发明,将催生全新的应用。但我认为这是一个低层次的创新,我的感觉是,这更像是人们从没有计算机到拥有计算机的过程。
然而,我们很难预测 AI 如何发展。从宇宙尺度来讲,AI 变革会很快发生,需要几十年的时间。有些人会很担心 AI 真的会在一夜之间从有点聪明变成极其聪明,但我认为所有这些物理限制使得这种情况不太可能发生。不过我们必须承认,AI 确实会改变我们的工作方式,让人们做他们更想做的事情。
Dwarkesh Patel:也许不是一夜之间,但你认为在宇宙尺度上我们可以用这种方式来思考这些里程碑吗:人类进化了,然后人工智能出现了,然后他们进入了银河系,按照这个推理,这个过程也许需要几十年,也许需要一个世纪,AI 会是历史发展的重要一环吗?我指的是比如计算机甚至火在人类发展史上至关重要,但人工智能可以和这些发明相提并论吗?
Mark Zuckerberg:我认为这很难回答。人类历史上,人类的某些方面确实是独一无二的,然后认识到事实并非如此,但人类实际上仍然非常特殊。我们认为地球是宇宙的中心,但事实并非如此,但人类仍然非常伟大和独特,对吧?
我认为人们往往存在的另一个偏见是认为智能在某种程度上与生活有着根本的联系,但并非如此。我们还没有对意识或生命有清晰的定义来全面理解这个问题。很多科幻小说都是关于创造智能的,这些智能体开始承担所有这些类人行为和类似的事情。
Prev Chapter:GPT-4化身黑客搞破坏,成功率87%!OpenAI要求保密提示词,网友复现ing
Next Chapter:爆火的Kimi,抢了谁的生意?