据路透社报道,OpenAI等人工智能公司正在尝试新的训练方法,来克服大型语言模型发展中遇到的意外延迟和挑战。
大模型困境
十几位AI科学家、研究人员和投资者告诉路透社,他们认为这些技术(OpenAI最近发布的o1模型)可能会重塑人工智能军备竞赛的格局,并加剧人工智能公司对能源、芯片类型等各类资源贪得无厌的需求。OpenAI拒绝就此事发表评论。
两年前,病毒式的ChatGPT聊天机器人发布后,从人工智能热潮中获益的科技公司公开表示,通过增加数据和计算能力来“扩大”现有模型,会不断改进人工智能模型。
但现在,一些最杰出的人工智能科学家则指出这种“越大越好”理念的局限性。
人工智能实验室Safe Superintelligence(SSI)和OpenAI的联合创始人伊利亚-苏茨克沃尔(Ilya Sutskever)最近告诉路透社,扩大预训练(即用大量未标记数据来训练大模型)的结果已经趋于稳定,该训练模式下的大模型发展空间已接近瓶颈。据消息人士透露,为超越OpenAI的GPT-4模型,各大人工智能实验室都在竞相发布大模型,但这一过程一直伴随着延迟以及种种令人失望的结果。
大型模型的所谓“训练运行”是通过耗资数千万美元,同时运行数百个芯片来进行的。由于系统非常复杂,它们更容易出现硬件故障;研究人员可能要到运行结束后才能知道模型的最终性能,而这可能需要几个月的时间。
另一个问题是,大型语言模型会吞噬大量数据,而人工智能模型已经耗尽了世界上所有容易获取的数据。电力短缺也阻碍了训练运行,因为这一过程需要大量能源。
探索新途径
为了克服这些挑战,研究人员正在探索“测试时间计算”,这种技术可以在所谓的 “推理”阶段,或者在使用模型时,增强现有的人工智能模型。例如,模型可以实时生成并评估多种可能性,最终选择最佳前进路径,而不是立即选择单一答案。
这种方法可以让模型将更多的处理能力用于具有挑战性的任务,如数学或编码问题,或者用于需要像人类一样进行推理和决策的复杂操作时。
上个月在旧金山举行的TED人工智能大会上,曾参与o1研究的OpenAI研究员诺姆-布朗(Noam Brown)说:“事实证明,机器人在扑克牌游戏中思考20秒钟,与将机器人背后的模型放大10万倍、训练时间延长10万倍,两种方式所获得的提升性能是一样的。”
与此同时,据相关人士透露,其他顶级人工智能实验室(Anthropic、xAI和DeepMind等)的研究人员,也一直在努力开发自己版本的技术。
Prev Chapter:华人高管频频离职,OpenAI发生了什么
Next Chapter:AI初创公司推出Nous Chat聊天机器人,底层基于Meta Llama 3.1打造