北京时间5月14日凌晨,美国人工智能研究公司OpenAI召开春季发布会,发布全新旗舰模型GPT-4o。该发布会仅在线上进行了不到30分钟,却引起了AI界的广泛关注。
GPT-4o的“o”代表“omni(全能)”。OpenAI称,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色,这款模型接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。在英语文本和代码上,GPT-4o的性能和GPT-4 Turbo模型的性能相匹配,在非英语文本上,GPT-4o的性能有显著提高。
GPT-4o的“类人”交互能力尤其受到关注。在发布会现场,OpenAI的工程师对GPT-4o说“我第一次来直播的发布会,有点紧张”,GPT-4o回应他“要不你深呼吸一下”。在工程师略作夸张的大力深呼吸后,GPT-4o很快说道“你这不行,喘得也太大了”。
金山云AI业务负责人于游在GPT-4o发布后也进行了相关测试。他称,GPT-4o“TTS(从文本到语音)效果优化明显”。在他看来,OpenAI真正意义上实现着VPA(虚拟个人助理)的落地。
于游指出,近几年无论是学界还是技术界,“类人”应用在AGI(通用人工智能)领域高速发展,但把多模态、类人语音这些东西完全对齐,放在一个模型当中,如此顺畅地将效果展现出来,OpenAI实现了“一个非常重大的工程化进步”。
GPT-4o的音频响应速度已经达到和人类相似的水平。OpenAI称,GPT-4o可以在短至0.23秒(平均为0.32秒)的时间内响应音频输入,与人类的响应时间相似。而使用语音模式与GPT-3.5对话的平均延迟为2.8秒,与GPT-4对话的平均延迟为5.4秒。
在浙江大学计算机系统结构实验室从事大模型相关研究的陈天楚全程观看了OpenAI的发布会。陈天楚称,GPT-4o弱化了编程等专业能力,尤其突出了语音模态能力,“是首个公开、有实用价值的端到端语音对话模型”。
GPT-4o的“类人”交互能力也让市场关注到OpenAI在端侧,以及和苹果公司合作的想象空间。
身在新加坡的Vibranium Consulting副总裁陈沛一早打开ChatGPT就收到了更新提示,他使用后的感受是“这次最大的优化是响应延迟”。陈沛称,以前使用ChatGPT基本上要1秒到2秒才能生成,如今流畅度进一步增加。
陈沛称,GPT-4o的效果展示让外界看到OpenAI正在推动大模型在手机终端侧的落地,因为“语音输入和生成延迟,一直都不是网页端的刚需”。
这也是近期市场的关注焦点之一。日前,有报道称,苹果公司接近与OpenAI达成协议,将在苹果手机下一代操作系统iOS 18集成ChatGPT。苹果还与谷歌就授权Gemini聊天机器人进行了谈判。
2024年苹果全球开发者大会(WWDC 2024)将于6月10日至6月14日举行,并计划发布iOS18。
英伟达科学家Jim Fan在社交媒体发文猜测,OpenAI与苹果iOS的集成可能有三个层次:一是苹果放弃语音助手Siri,OpenAI为iOS提炼出更小型、纯设备上的GPT-4o,并可选择付费升级以使用云;二是设备将拥有把相机或屏幕传输到模型中的功能,可以对神经音频或视频编解码器进行芯片级支持;三是与iOS系统级操作API(应用程序编程接口)和智能家居API集成。
相关方均未就上述消息予以公开回应。但在发布会上,OpenAI称,苹果电脑用户将迎来一款为macOS系统设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面并向ChatGPT提问。
于游称,OpenAI去年发布GPT-4后,其付费的高性能版本就已经展现出模型对图文、语音、视觉等全方位的实时推理等相关能力。现在OpenAI通过GPT-4o一个大模型将图文、语音、视觉交互进行了集中展示,还为未来应用层打开了想象空间,机器完全可以通过识别语音和表情实现与人的交互。
“VPA的载体会发生变化。”于游说,OpenAI试图撬动一种新的交互逻辑,伴随人机智能交互方式的改变,不论是硬件端还是软件端,都极有可能产生一个新的载体,去实现AGI系统响应人类强人工智能的需求。