继上周预告了ChatGPT和GPT-4「就像魔法一样」的重大更新后,OpenAI在北京时间14日凌晨,通过直播向外界展现了这家全球最瞩目人工智能大模型企业的最新成果。
关于此次发布会的时间与内容,在直播前就已掀起了一场「全民大预测」,足见OpenAI的影响力。距离去年11月6日的OpenAI DevDay已经过去半年,尽管OpenAI开年以来放出Sora等大招,围绕ChatGPT功能和模型商业模式,如API调用等方面都进行了「渐进式改革」,但业内更希望看到OpenAI的系统化更新。
从本次发布会来看,OpenAI围绕ChatGPT和GPT-4模型层更新的亮点如下:
1、模型:推出了全新旗舰GPT-4o模型(o是omni全能),在文本、视觉和音频处理方面能力都有显著增强;
2、交互:在GPT-4o能力支持下,ChatGPT能实现语音聊天和实时视频交互,类似一个更先进的AI语音助手。同时,OpenA宣布将推出桌面版ChatGPT。
3、价格:GPT-4o向所有人免费开放,对比GPT-4 Turbo,API定价减半,但速度是GPT-4 Turbo的2倍。
图源:直播活动截图
值得一提的是,此次发布会创始人Sam Altman并没有出现,而时间恰好卡在谷歌I/O 2024大会的前一天,且此前已有爆料OpenAI正在开发类搜索引擎产品,名为「SearchGPT」。 在最新的公开采访中,Altman提到对「打造比谷歌更好的搜索引擎没兴趣」。不管是如OpenAI一样的明星初创公司,还是如谷歌一样的巨头,2024无疑都是它们的关键之年。
本文「硅基研究室」梳理了此次发布会OpenAI的主要升级方向和它的竞争对手们的最新动态,试图回答两个主要问题:
1、OpenAI此次发布会主要的亮点是什么?它们有何影响?
2、从最新格局来看,OpenAI还面临哪些挑战?
OpenAI此次发布会的重头戏无疑是最新的模型与暗示已久的AI语音助手。
在发布会前,除了媒体爆料外,OpenAI「音频AGI研究负责人」Alexis Conneau就将自己的社交媒体主页背景换成了电影《Her》,这部电影讲述得正是一个有感情的AI语音助手的故事。
图源:X
Altman本人对于语音交互也有自己的看法,在不久前的一次采访中,他就提到:“我相信语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,那将是一种与计算机互动的全新方式。”发布会结束,他在X上也发了一条:“Her”。
图源:X
在直播活动中,OpenAI演示了这款实时语音助手的能力,不仅可以响应速度快,没有尴尬的延迟,能声情并茂地讲故事和唱歌,还能模仿人的语气,甚至具备情绪感知的能力。
这背后是对GPT-4o模型结构的优化。出行问问创始人、CEO李志飞表示,GPT-4o更像是一个万能的虚拟个人助理(VPA),但并不是一个新概念,OpenAI之所以把VPA推到新高度,只要是实现了模型的端到端、实时交互、多模态交互与更丝滑的体验。
语音AI并非是新鲜事物,发展数十年之久,据英伟达高级研究科学家Jim Fan的划分,几乎所有的语音AI都会经历三个阶段:
一是语音识别技术(Automatic Speech Recognition,ASR),将用户的音频语音转化为文字信息,例如(Speech-to-Text),例如OpenAI在2022年9月推出开源Whisper语音转文字模型。二是大语言模型,例如chatGPT。三是语音合成技术(TTS),可以自动将文本转化为语音,例如ElevenLabs自研的Eleven Multilingual系列模型,微软的VALL-E系列等。
图源:X@Jim Fan
从ASR-LLM-TTS的过程,OpenAI表示,它们找到将「三个独立模型变成一个」的方式,借助GPT-4o,OpenAI通过跨文本、视觉和音频端到端训练出了一个新模型,让所有输入和输出都由同一个神经网络处理。
不过,Jim Fan表示,从技术角度来说,总的来说,这是一个数据和系统的优化问题。
OpenAI在语音AI上的技术也有多年布局,其不仅拥有开源语音识别项目 Whisper,还拥有热门的语音生成开源项目Tortoise的作者James Betker。在今年3月,OpenAI所推出的语音合成引擎Voice Engine,可通过15秒的语音样本,克隆出一个人的声音,这也是驱动ChatGPT APP版语音功能的关键技术。
在去年大语言模型和多模态的风潮中,声音模态虽然热度不及二者,但始终也是备受关注的对象。行业们玩家的进化主要分为三个方向:
一是细分赛道的语音AI企业,针对内容创作者,满足其内容制作过程中语音的设计、克隆与合成等需求,包括ElevenLabs等初创企业均是如此。二是大型科技企业,如谷歌、Meta、微软等,它们均具备语音AI储备,但出于安全、隐私等合规需求,它们大多数是将语音AI技术糅合进现有业务中,并未直接推出商业化产品。
还有一类其实就是OpenAI所擅长的,人们一直期待着由大语言模型驱动的chatGPT可以实现自由地语音交互。(不久前,火遍全网的由前Google研究员的AI初创公司Hume AI也是类似逻辑的产品)。
OpenAI为chatGPT增加语音助手功能并不意外:首先,从时间点上来看,从年初Sora拉动的多模态浪潮开始,OpenAI已频频向外界展示其新的模型技术。
其次,语音AI助手对OpenAI利好处也是多重的:最直接的就是增加C端用户的吸引力,此前我们在《ChatGPT悄悄变懒,OpenAI还能加速跑吗?》上曾说,随着GPT-4用户体验的下降,特别是在其专注企业AI下,它的一批忠实用户们,正在开始寻找替代方案。
另一方面,OpenAI需要更强有力的AI故事支撑,以应对竞争。比如,在去年OpenAI DevDay上展示出的GPT Store,并没有如OpenAI预想之中带来好的成效。
更为关键的是,它能为OpenAI提供更多商业化的想象力。围绕语音方面进行功能更新,可以帮助OpenAI深入更多的硬件设备,随着科技巨头争相进入AI硬件的新竞争,这对OpenAI而言也是一条稳定的商业化道路。
每次OpenAI一个更新,社交媒体几乎都会预言一部分初创公司的「死亡」,这次也不例外,有网友就直接写了一份「死亡名单」,包括情感分析、翻译助手、心理健康等领域。
图源:X
如果从去年11月6日发布会的「大更新」算起,尽管OpenAI围绕ChatGPT和模型API进行了诸多「小更新」,但毕竟也过了半年之久。
坊间经常说:“AI一天,人间一年”,对OpenAI来说,或许也有类似的体感。
对比OpenAI和Altman半年前立下的「Flag」,人工智能的竞争比他们想象中或许还要更戏剧些。
首先,就是竞争对手们超出预期的扩张速度。被称为「法国版OpenAI」的Mistral AI据报道已获得新一轮6亿美元的融资,目前估值达60亿美元。马斯克的人工智能初创公司xAI也被传在新一轮融资中,估值约在180亿美元。作为OpenAI最大劲敌的Anthropic,也在近期推出了其首款移动端应用程序,为用户提供访问Claude 3模型的新渠道。
其次,则是扑朔迷离的AI硬件计划。除了与苹果的合作,据外媒此前报道,Sam Altman正计划和前苹果设计师Jony Ive创立的一家神秘公司,推出一款人工智能驱动的个人设备。更早前,Altman领投了AI硬件初创企业Humane。Humane推出的首款产品AI Pin在最近上市时由于体验较差,受到了国外媒体的「集体吐槽」。
不过,在这次直播演示中,OpenAI展示了其利用智能手机中的能力。比如,chatGPT可以扫描纸上的方程后,引导用户解决数学问题。前Uber和Skype工程师Gergely Orosz表示:“很难看到苹果执行这样的'神奇'手机体验。”
好在这次的发布会,至少让人们看到了OpenAI一直在专注自己的「主线任务」——新模型、新产品一直在迭代。在直播后,Altman在博客中更新了OpenAI的新使命,他提到:“首先,我们的使命是向人们免费(或以非常优惠的价格)提供功能强大的AI工具。”