科技巨头们有一种新方法来衡量谁将在人工智能(AI)霸主的竞争中获胜,那就是看谁能将最多的英伟达(Nvidia)芯片集结到一起。
过去两年,运营大型数据中心的公司一直在争相购买英伟达擅长的AI处理器。现在,一些最雄心勃勃的企业正在加大这方面的努力,斥资数以十亿计美元打造所谓的超级计算机服务器集群,这些集群包含数量空前的英伟达最先进芯片。
埃隆·马斯克(Elon Musk)旗下的xAI在短短几个月内就在孟菲斯市建成了一台名为Colossus的超级计算机,该计算机配备了10万个英伟达Hopper AI芯片。Meta首席执行官马克·扎克伯格(Mark Zuckerberg)上个月表示,该公司已经在用一个芯片集群训练最先进的AI模型。他称,这个芯片集群的规模比他所知已报道的其他公司进行的规模都要大。
一年前,拥有数万个芯片的集群还被认为是非常大的。瑞银(UBS)分析师估计,OpenAI使用了大约1万个英伟达芯片来训练2022年底推出的ChatGPT版本。
这种对更大规模超级集群的追逐,可能有助于英伟达保持增长轨迹。两年前,英伟达的季度收入约为70亿美元,如今已超过350亿美元。这一跃升使其成为全球市值最高的上市公司,市值超过3.5万亿美元。
到目前为止,将许多芯片安装在一个地方并通过超高速网络电缆连接起来,已经能够以更快的速度生成更大的AI模型。但人们不禁要问,规模越来越大的超级集群是否会继续转化为更智能的聊天机器人和更令人信服的图像生成工具。
英伟达AI热潮能否持续,很大程度上还取决于最大规模的芯片集群项目能否取得成功。这一趋势不仅预示着英伟达芯片将迎来一波购买潮,还将推动对该公司网络设备的需求。网络设备正迅速成为英伟达的一项重要业务,每年带来数以十亿美元计的销售额。
英伟达首席执行官黄仁勋(Jensen Huang)在该公司上周三发布财报后与分析师举行的电话会议上表示,随着更大规模运算设施的建立,所谓的AI基础模型仍有很大改进空间。他预计,随着该公司过渡到下一代AI芯片Blackwell,投资将会持续;Blackwell的功能比该公司现有芯片强大数倍。
黄仁勋说,虽然目前用于训练巨型AI模型的最大集群规模在10万颗英伟达现有芯片左右,但“下一代将从大约10万颗Blackwell芯片起步。由此能感知到该行业的发展方向”。
这对于xAI和Meta等公司来说利益攸关。这些公司不但在为谁拥有最强运算能力的“吹牛权”展开竞争,还在押注拥有更多英伟达GPU将转化为相应更好的AI模型。
“没有证据表明这将扩展到100万颗芯片和1,000亿美元的系统,但有观点认为,从几十颗芯片到10万颗芯片,它们的可扩展性都非常好,”研究公司SemiAnalysis的首席分析师迪伦·帕特尔(Dylan Patel)说。
除了xAI和Meta外,OpenAI和微软(Microsof)也一直在努力为AI建立重要的新运算设施。谷歌(Google)正在建设大规模数据中心,以容纳推动该公司AI战略的芯片。
黄仁勋在10月份一档播客节目中对马斯克建立他Colossus集群的速度表示惊叹,并肯定地说,未来将出现更多、更大的集群。黄仁勋还提到了对分配在多个数据中心的模型进行训练的工作。
“我们认为我们需要数百万个GPU吗?这一点毫无疑问。”黄仁勋说道,“现在看答案是肯定的。问题是我们如何从数据中心的角度来进行架构。”
史无前例的超级集群已经开始大行其道。马斯克上个月在他的社交媒体平台X上发帖称,在一栋独立建筑中,他的10万颗芯片Colossus超级集群很快就会变成20万颗芯片集群。他之前在6月份也曾发帖称,下一步行动可能是在明年夏天建成一个由英伟达最新型芯片组成的30万颗芯片集群。
超级集群的兴起正值数据中心运营商准备迎接Blackwell芯片面市之际,Blackwell芯片将在未来几个月内开始发货。据估计,每个Blackwell芯片的成本约为3万美元,这意味着一个拥有10万颗芯片的集群将耗资30亿美元,这还没算上围绕芯片所需的发电基础设施和IT设备的价格。
业内人士说,这些高昂的开支使得建立拥有更多芯片的超级集群成为一场豪赌,因为目前还不清楚这些芯片能否在一定程度上改进AI模型,从而证明如此高昂的成本是合理的。
更大规模的集群往往还会带来新的工程挑战。Meta的研究人员在7月份发表的一篇论文中说,一个由逾16万个英伟达GPU组成的集群在54天里对Meta高级版本的Llama模型进行训练时,芯片和其他组件经常出现意想不到的故障。
行业高管们表示,随着功耗高的芯片集群越来越紧密地排在一起,如何保持英伟达芯片的冷却就成了一项重大挑战,这也是向液体冷却技术转变的部分原因,即通过管道直接向芯片输送制冷剂,以防止芯片过热。
超级集群的庞大规模要求能在芯片出现故障时加强芯片管理。帮助建立和运营计算基础设施的公司Penguin Solutions的首席执行官马克·亚当斯(Mark Adams)说,运行大型芯片集群会导致复杂性提高,这不可避免地会带来一些问题。
亚当斯说,“当你检查所有可能出错的地方时,可能会因为所有这些会出现故障的地方而耗费一半的资本支出。”