作者|苏霍伊
编辑|王博
高管离职、苹果退出融资磋商,对于OpenAI来说,这无疑是动荡的一周。但OpenAI仍在坚持说服开发者使用他们的AI模型构建应用程序。
美国当地时间10月1日,OpenAI在旧金山举办了DevDay。与去年的盛大活动不同,今年更为低调,转为面向开发者的路演。
这次,OpenAI没有发布重大产品,而是对现有的AI工具和API套件进行了渐进式改进。
他们公布了四项创新:视觉微调 (Vision Fine-Tuning)、实时API(Realtime API)、模型蒸馏(Model Distillation)和提示缓存(Prompt Caching)。
比如实时API的公开测试版能让开发者制作应用程序,并让其能够快速生成AI语音响应。这项新技术不仅响应速度快,而且提供了六种不同的声音选项,声音都是由OpenAI自行开发,避免了第三方版权问题。该API没有“复制”ChatGPT的高级语音模式,但功能基本相近。
OpenAI的开发者体验主管罗曼·于特(Romain Huet)还在现场演示了如何使用o1在约30秒内通过一个提示构建一个iPhone iOS应用程序。
于特演示构建iPhone iOS应用程序。图片来源:Romain Huet的X
过去两年,为了应对Meta和谷歌等竞争对手的市场压力,OpenAI已将开发者访问其API的成本降低了99%。而从新工具的脉络中可以摸索出,OpenAI策略更倾向于增强其开发者生态系统,而不是直接在终端用户应用领域竞争。
在活动前,OpenAI的首席产品官凯文·韦尔(Kevin Weil)提及,首席技术官米拉·穆拉蒂(Mira Murati)和首席研究官鲍勃·麦格鲁(Bob McGrew)的离职不会影响公司的长远发展。他表示尽管“人事频频变动”,但OpenAI仍能“维持发展势头”。
随着谷歌和苹果等科技集团竞相向消费者推出所谓的人工智能代理,OpenAI认为AI助手将在明年“成为主流”。AI助手的能力,包括推理和完成复杂任务等,已成为科技公司争夺市场的最新战场,每家希望借助这项迅速发展的技术来开辟收入来源。
“希望AI的互动方式能够覆盖人类互动的所有方式。”韦尔说道,“代理系统的发展将使这种交互成为可能。”简而言之,即让AI能够模仿或复制人类在交流和互动中的各种方式,无论是语言交流、情感表达还是非言语交流等,使得人与AI之间的互动尽可能自然和无缝。
除了OpenAI,其他公司如微软、Salesforce和Workday也在将代理功能置于其AI计划的核心,而谷歌和Meta也表示,将AI模型整合到其产品中是他们的重点关注领域。
去年,OpenAI发布了“Assistants API”,让开发者能够利用其技术构建代理。但他们也透露,由于早期模型的功能有限,计划受到了一定的阻碍。
韦尔提到,OpenAI最新的模型在思考和推理方面的提升将反映在其产品上,如ChatGPT以及那些利用其API构建应用的初创公司和开发者,但并未透露他们是否会立即开发自己的AI代理。
OpenAI现场演示了与AI系统对话任务:帮助寻找并购买当地可获得的产品。比如购买草莓,随后AI将根据用户的指示打电话给商家下单。
AI根据提示购买草莓的演示,图片来源:Ken Collins的X
OpenAI强调,任何利用这个技术的人必须明确表明其为AI而非人类,并且只为开发者提供有限的预设选项,而不能创建新的声音。
韦尔表示:“如果我们做得对,我们将有更多时间投入到重要事务上,而不再需要时刻盯着手机的时间。”
1.提示缓存:开发者预算的救星
“提示缓存”功能是这次活动最重要的推出之一,它用于降低开发人员的成本和延迟。
许多开发者在构建AI应用时会在多个API调用中重复使用相同的上下文,例如在编辑代码库或与聊天机器人进行长时间的多轮对话时。提示缓存通过重复使用最近看到的输入令牌,自动对模型最近处理的输入标记应用50%的折扣。
与各种GPT模型中的非缓存tokens相比,缓存输入tokens可节省高达 50% 的成本。图片来源:OpenAI
提示缓存的可用性与定价 从今天起,提示缓存将自动应用于GPT-4o、GPT-4o mini、o1-preview和o1-mini的最新版本,以及这些模型的微调版本。与未缓存的提示相比,缓存的提示提供了折扣。
对受支持模型的API调用将自动从提示缓存中受益,适用于长度超过1024标记的提示。API缓存之前计算过的提示的最长前缀,从1024标记开始,以128标记为增量。如果用户多使用具有常见前缀的提示,OpenAI将自动应用提示缓存折扣,用户则无需对API集成进行任何更改。
缓存通常在5到10分钟的不活动后被清除,并且在缓存最后使用后的一小时内总是被移除。与所有API服务一样,提示缓存受OpeAI的企业隐私承诺约束。提示缓存不在组织之间共享。
成本的显著降低为各类企业开发以往因成本过高而难以实现的新应用提供了机会。
OpenAI平台产品负责人奥利维尔·哥德门特(Olivier Godement)在OpenAI旧金山总部举办的小型新闻发布会上发言:“我们一直非常忙碌。两年前GPT-3在同类技术中处于领先位置,但现在我们已经实现了将相关成本降低近1000倍。”并难言骄傲地表示,他无法找到其他任何技术在短短两年内实现了类似规模的成本下降。
2.视觉微调:视觉AI的新前沿
另一项重大公告是OpenAI最新大型语言模型GPT-4o引入了视觉微调功能。开发者不仅可以对文本进行微调,还可以对图像进行微调,这或将可能会改变自动驾驶汽车、医学成像和视觉搜索功能等领域。
自引入文本微调功能以来,已有数十万开发者利用纯文本数据集来优化模型以提高特定任务的性能。但在很多情况下,仅凭文本微调并不能满足所有需求。通过视觉微调,开发者可以通过简单地上传至少100张图像来优化GPT-4o模型,以提升其在视觉任务中的表现,特别是在处理大量的文本和图像数据时。
据OpenAI称,东南亚领先的食品配送和拼车公司Grab已经利用这项技术来改进其地图服务。仅使用100个示例,Grab就将车道计数准确率提高了20%,限速标志定位准确率提高了13%。
视觉微调 GPT-4o 模型成功标记的限速标志示例,图片来源:OpenAI
Automat公司使用视觉微调训练GPT-4o识别屏幕上的UI元素,基于屏幕截图数据集,从而提高其自动化工具的成功率。通过这种方式,Automat的机器人代理的成功率从原来的16.60%提升到61.67%。
桌面机器人通过使用网站截图的视觉微调成功识别UI元素中心,来源:OpenAI
视觉微调现实世界的应用程序展示了视觉微调的可能性,可以使用小批量的视觉训练数据显著增强各行各业的AI服务。
视觉微调功能现已对所有付费用户开放,支持最新的GPT-4o模型。开发人员可以利用这些功能来扩展现有的图像微调训练数据集。此外,OpenAI提供了每天100万个免费训练令牌,直至2024年10月31日。之后微调训练和推理的费用将进行调整。
3.实时API:弥合对话式AI之间的差距
实时API目前处于公开测试阶段。它能让开发人员能够创建低延迟、多模式体验,尤其是在语音转语音应用程序中。这意味着开发人员可以开始将ChatGPT的语音控件添加到应用程序中。
为了说明该API的潜力,OpenAI演示了Wanderlust的更新版本,Wanderlust是去年会议上展示的一款旅行计划应用程序。
借助实时API,用户可以直接与应用对话,以自然对话的方式规划行程。该系统甚至允许在说话过程中打断,模仿人类对话。
Healthify是一款营养和健身指导应用程序,它使用实时API 实现与AI的自然对话。图片来源:OpenAI
虽然旅行计划只是一个例子,但实时API为各个行业的语音应用程序开辟了广泛的可能性。从客户服务到教育和辅助功能工具,开发人员现在拥有强大的新资源来创造更直观、响应更迅速的人工智能驱动体验。
哥德门特解释:“每当我们设计产品时,我们基本上都会同时考虑初创公司和企业。因此在alpha阶段,我们有许多企业使用API,以及新产品的新模型。”
实时API本质上简化了构建语音助手和其他对话式AI工具的过程,无需将多个模型拼接在一起进行转录、推理和文本到语音的转换。
早期采用者如营养和健身指导应用程序Healthify和语言学习平台Speak已经将实时API集成到他们的产品中。API在医疗保健到教育等领域创造更自然、更具吸引力的用户体验的潜力。
实时API的定价结构虽并不便宜(每分钟音频输入0.06美元、每分钟音频输出0.24美元),但对于希望创建基于语音的应用程序的开发人员来说,仍代表者一个重要的价值主张。
4.模型蒸馏:迈向更易于访问的AI
这也许最具变革性的公告是引入了模型蒸馏。
它集成的工作流程能让开发人员使用o1-preview和GPT-4o等高级模型的输出来提高GPT-4o mini等更高效模型的性能。小公司也能使用先进模型类似的功能,又不用担心承担不起计算成本。
微调演示,来源:OpenAI
模型蒸馏解决了AI行业长期存在的尖端、资源密集型系统与更易于访问但功能较弱的系统之间的差距。
假设一家小型医疗技术初创公司正在为农村诊所开发一款人工智能诊断工具,团队使用模型蒸馏可训练一个小模型,它能在标准笔记本电脑或平板电脑上运行,也能捕捉大型模型的大部分诊断能力。
这能将复杂的人工智能能力带入资源受限的环境,从而改善医疗服务不足地区的医疗保健结果。
从这次更新不难看出,OpenAI在战略上的重要转折——更加注重于生态系统的开发而非单纯追求引人注目的产品发布,虽然策略对公众的吸引力可能不如产品发布那样直接。
与2023年充满激情、推出了GPT商店和自定义GPT工具的开发者日相比,今年的活动显得低调许多。AI领域的快速变化,以及竞争对手的显著进步和对训练数据可用性的日益关注,促使OpenAI更加专注于完善现有工具和增强开发者能力,以应对这些变化。
通过提高模型的效率和降低成本,OpenAI希望维持其在激烈竞争中的优势,并解决资源密集和环境影响的问题。OpenAI的成功将在很大程度上依赖于其能否有效培育一个充满活力的开发者生态系统。
参考资料:
《Introducing the Realtime API》,OpenAI
《Introducing vision to the fine-tuning API》,OpenAI
《Prompt Caching in the API》,OpenAI
《Model Distillation in the API》OpenAI
《OpenAI’s DevDay 2024: 4 major updates that will make AI more accessible and affordable》,VentureBeat
《OpenAI’s DevDay brings Realtime API and other treats for AI app developers》,TechCrunch
(封面图来源:OpenAI)
Prev Chapter:OpenAI发布Realtime API,助力第三方应用集成其语音合成技术
Next Chapter:OpenAI高管5月已作好倒闭准备
Cultivation Online Chapter 272: The Three Names
2024-11-19A Will Eternal Chapter 1124 - Just Go, Sir
2024-11-21Legend of Swordsman Chapter 2255 - Can“t Do I
2024-11-17