今天凌晨,微软和 OpenAI 的秘密计划被 The Information 曝光,双方准备花费 1000 亿亿美元的巨资,打造一个一台 AI 超级计算机。
先给大家总结这份报道的关键信息:
微软高管计划在 2028 年推出美国超级计算机 Stargate,投资高达 1000 亿美元。
超级计算机将需要前所未有的大量电力,可能高达5千兆瓦。
OpenAI 的下一个重大 AI 升级预计将在明年年初发布
微软与 OpenAI 的高层正筹划一个宏大的数据中心项目,旨在打造一台配备数百万专用服务器芯片的超级计算机,以助力 OpenAI 人工智能的运行。
根据几位了解内情的人士透露,这一项目的预计投资高达 1000 亿美元。其中一位曾与 OpenAI 首席执行官 Sam Altman 交流过,另一位看过微软初步成本估算的人士提供了相关信息。
项目的资金主要由微软承担,预计成本将是现今某些最大数据中心投资的百倍之多。这一巨额投资凸显了在未来数年内构建人工智能所需计算力的宏大规模。
高管们设想,这个被命名为 Stargate(星际之门)的美国超级计算机项目,将是接下来六年内计划建设的一系列设施中最大的一个。
虽然该项目尚处在规划阶段且未获正式批准,可能还会有所变动,但这一计划体现了科技领域最重要的合作之一,及两家公司的前瞻性。迄今为止,微软已向 OpenAI 投资超过 130 亿美元,使其能够借助微软的数据中心支持 ChatGPT 及其其他对话型人工智能模型。
作为回报,微软获得了 OpenAI 技术核心的使用权,并独家获准将该技术提供给其云计算客户,如摩根士丹利等。此外,微软还将 OpenAI 的技术集成到了 Office、Teams 以及 Bing 的新 AI Copilot 功能中。
微软是否会继续推动 Stargate 项目的进展,部分取决于 OpenAI 能否有效提升其人工智能技术。
去年,由于 OpenAI 未能如期向微软交付新的模型,显示了人工智能领域的不可预测性。尽管如此,OpenAI 的 CEO Sam Altman 公开表示,目前阻碍更先进人工智能发展的主要障碍是缺乏足够的服务器资源。
如果 Stargate 项目得以实施,它将为 OpenAI 提供远超微软现有在凤凰城等地数据中心所能提供的计算能力,据相关人士透露。这台拟建的超级计算机预计还将需要数千兆瓦的电力,足以支撑多个大型数据中心运行。据悉,项目的大部分预算将用于采购芯片,而确保足够的电力供应也将是一大挑战。
Digital Realty 的首席技术官 Chris Sharp 表示,对于能够执行人类绝大多数计算任务的通用人工智能(AGI)而言,此类项目是绝对必要的。他指出,虽然如今这样的计划看似难以置信,但未来超级计算机的规模将不再令人惊讶。
位于凤凰城附近的一家与 OpenAI 无关的微软数据中心. 图片来自:微软
参与项目讨论的人士指出,高管们计划最早于 2028 年启动 Stargate 项目,并在 2030 年前进一步扩展,届时可能需用到高达 5000 兆瓦的电力。
五个阶段
Altman 与微软的工作人员已就这些超级计算机进行了讨论,分为五个阶段,其中第五阶段即为 Stargate,名字源自一部科幻电影,影片中的科学家发明了一种能在星系间旅行的装置。据一位参与者透露,这一代号最初由 OpenAI 提出,但并非微软官方使用的项目名称。
Stargate 之前的阶段成本相对较低。据两位消息人士透露,微软正在为 OpenAI 开发一个规模较小的第四阶段超级计算机,预计于 2026 年左右投入使用。该设施计划建在威斯康星州的普莱森特山,据当地经济发展机构最近透露,微软已启动了 10 亿美元的数据中心扩建项目。
据悉,这台超级计算机及其数据中心的总投资可能高达 100 亿美元,远超现有数据中心的成本。还有消息称,微软正在考虑使用 Nvidia 制造的人工智能芯片来实施该项目。
目前,微软和 OpenAI 正处于五阶段计划的第三阶段。接下来两个阶段的主要开销将用于采购人工智能芯片。
两位非项目参与者但在数据中心领域工作的专业人士指出,人工智能服务器芯片通常占其他公司当前建设的以人工智能为重点的数据中心总预算的约一半。
综上所述,这些提案中的努力可能耗资超过 1150 亿美元,是微软去年在服务器、建筑及其他设施上资本支出的三倍多。假设微软保持 2023 年下半年公开的资本支出水平,今年的支出将达到约 500 亿美元。
微软首席财务官 Amy Hood 在一月份表示,由于对「云计算和人工智能基础设施」的投资,这一支出在未来几个季度将「显著增加」。
微软发言人 Frank Shaw 对超级计算计划未作评论,但在一份声明中表示:「我们一直在规划下一代基础设施创新,以持续推进人工智能能力的发展。」OpenAI 发言人未对本文发表评论。
Altman 私下表示,OpenAI 的主要竞争对手之一 Google 在短期内将拥有更多计算能力,并公开抱怨未能获得期望中的大量人工智能服务器芯片。
这促使他提议成立一家新的服务器芯片公司,开发一款能与 Nvidia 的图形处理单元(GPU)相匹敌的芯片,后者目前是 OpenAI 软件的动力来源。对 Nvidia GPU 服务器的需求激增,导致微软和 OpenAI 等客户的成本上升。
除了控制成本外,支持 Altman 的替代芯片项目对微软来说还有其他潜在好处。GPU 市场的繁荣使得 Nvidia 成为了决定哪些客户能获得最多芯片的关键一方,并有助于支持与微软竞争的小型云服务提供商。Nvidia 还进入了向自己的客户提供云服务器租赁服务的市场。
无论微软是否参与,Altman 的计划都需要大量的投资用于电力和数据中心以支持芯片运行。
据参与讨论的人士称,Stargate 的设计旨在为微软和 OpenAI 提供使用 Nvidia 以外其他公司制造的 GPU 的选择,例如 Advanced Micro Devices,甚至是微软最近推出的 AI 服务器芯片。目前尚不清楚 Altman 是否相信他计划在未来几年内开发的理论上的 GPU 将准备好用于 Stargate。
星际之门超级计算机的总成本可能取决于随着时间的推移,使数据中心变得更加高效的软硬件改进。据参与者透露,这些公司已经讨论了使用替代能源,例如核能的可能性。(亚马逊最近购买了一个拥有核能供应的宾夕法尼亚州数据中心地点。根据两位参与谈判的人士透露,微软也曾讨论竞标该地点。)Altman 本人曾表示,开发超级智能可能需要重大的能源突破。
为了实现星际之门的目标,微软还需要克服几个技术挑战,两位人士表示。例如,目前的设计提案要求将更多的 GPU 安装在单个机架中,以提高芯片的效率和性能。由于 GPU 密度更高,微软还需要找到防止芯片过热的解决方案,他们说。
微软和 OpenAI 还在讨论使用哪种电缆来连接数百万个 GPU。网络电缆对于快速传输大量数据至关重要,以便快速进出服务器芯片。据两位参与讨论的人士透露,OpenAI 已告诉微软,它不想在 Stargate 超级计算机中使用 Nvidia 的专有 InfiniBand 电缆,尽管微软目前在其现有的超级计算机中使用了这种电缆。(OpenAI 希望使用更通用的以太网电缆。)放弃 InfiniBand 可能会使 OpenAI 和微软在未来减少对 Nvidia 的依赖。
AI 计算比传统计算更昂贵和复杂,这就是为什么公司密切保护有关其 AI 数据中心的细节,包括 GPU 的连接和冷却方式。至于 Nvidia 首席执行官黄仁勋表示,公司和国家需要在未来四到五年内建造价值 1 万亿美元的新数据中心,以处理即将到来的所有 AI 计算。
微软和 OpenAI 的高管自去年夏天以来一直在讨论数据中心项目。除了首席执行官 Satya Nadella 和首席技术官 Kevin Scott 之外,还有其他微软经理参与了超级计算机的讨论,包括 Pradeep Sindhu,他负责微软在数据中心中如何组合 AI 服务器芯片的战略,以及 Brian Harry,他帮助开发 Azure 云服务器部门的 AI 硬件,根据与他们合作过的人的说法。
OpenAI总裁和微软首席技术官. 图片来自:YouTube/Microsoft Developer
双方仍在解决几个关键细节,可能不会很快最终确定。目前还不清楚超级计算机将被放置在哪里,以及它是在一个数据中心内建造还是在多个相邻的数据中心内建造。AI 从业者表示,当 GPU 集群位于同一个数据中心时,它们的工作效率更高。
OpenAI 已经推动了微软在数据中心方面的能力边界扩展。在 2019 年对这家初创公司进行首次投资后,微软建造了第一台 GPU 超级计算机,内含数千个 Nvidia GPU,以满足 OpenAI 的计算需求,并在数年间花费 12 亿美元购置了该系统。据一位了解其计算需求的人士透露,今年和明年微软计划为 OpenAI 提供总计数十万个 GPU 的服务器。
下一个晴雨表:GPT-5
微软和 OpenAI 对于世界一流数据中心的宏伟计划几乎完全依赖于 OpenAI 能否通过朝着超级智能的方向迈出重要步伐来帮助微软证明对这些项目的投资是合理的。
超级智能是指能够帮助解决诸如癌症、核聚变、全球变暖或火星殖民等复杂问题的人工智能。这样的成就可能是一个遥远的梦想。
虽然一些消费者和专业人士已经接受了 ChatGPT 和其他对话型人工智能以及由人工智能生成的视频,但将这些最新突破转化为能够产生重大收入的技术可能需要比该领域的从业者预期的时间更长。
亚马逊和 Google 等公司已经悄悄降低了销售预期,部分原因是这样的人工智能成本高昂,并且需要大量工作才能在大型企业内部推出或为数百万人使用的应用程序提供新功能。
Altman 在上个月的英特尔活动上表示,当研究人员为 AI 模型提供更多的计算能力时,它们会「可预测地变得更好」。OpenAI 已经发表了关于这个主题的研究,它称之为「对话式 AI 的扩展规律」。
开放 AI「不断投入更多的计算力量来扩大现有的人工智能」可能会导致客户产生「幻灭的低谷」,因为他们意识到技术的局限性,Databricks 的首席执行官 Ali Ghodsi 说道。Databricks 帮助企业使用人工智能。「我们应该真正专注于使这项技术对人类和企业有用。这需要时间。我相信它会很惊人,但这不是一夜之间就能实现的。」
OpenAI 需要证明其下一代主要对话型人工智能(称为大型语言模型)在性能上明显优于其最先进的 GPT-4。
OpenAI 一年前发布了 GPT-4,与此同时,Google 也发布了一个可比较的模型,试图迎头赶上。据知情人士透露,OpenAI 计划在明年年初发布其下一代主要的升级版本。在此之前,可能会发布更多的渐进式改进。
随着更多服务器的可用性,一些 OpenAI 的高管认为,在用尽人工生成的数据后,公司可以利用现有的人工智能和最近的技术突破,比如 Q*模型,这个模型可以推理出它以前没有经过训练的数学问题的解答,从而为训练更好的模型创造合适的合成(非人类生成的)数据。这些模型也可能能够找出现有模型(如 GPT-4)的缺陷,并提出技术改进的建议。
换句话说,OpenAI 要开发实现自我进化的人工智能。