编辑 | 汤安迪
OpenAI 的圣诞大礼包来了!
12月4日,OpenAI CEO 山姆·奥尔特曼高调宣布要给大家“整个活”:
OpenAI 将开启为期十二天的直播活动,内容包括新品发布和功能更新等,还有一些“圣诞礼物”。
但等到全世界的科技媒体打开直播时,却发现第一天的直播只有14分钟,更像是一场大的发布活动直播中的一节切片。
熬夜的中国科技媒体们叫苦不迭,称自己被被山姆·奥尔特曼摆了一道~
不过,这次的发布会还是有亮点的,用山姆·奥尔特曼的话来说,主要讲了两件事:
我们刚刚推出了两项新功能:
o1,世界上最智能的模型。比 o1-preview 更智能、更快,功能更多(比如多模态功能)。现在已在 ChatGPT 中上线,稍后将推出 API 版本。
ChatGPT Pro。每月 200 美元。提供无限使用和更智能的 o1 模式。更多福利即将推出!
满血版o1发布
满血版 o1 现已取代了之前的 o1-preview 版本,面向 ChatGPT Plus 和 Team 用户推出。
官网显示,ChatGPT Plus 用户和 Team 用户每周可以使用 OpenAI o1 发送 50 条消息,每天可以使用 OpenAI o1-mini 发送 50 条消息。
满血版 o1 到底有多强?
奥尔特曼介绍,o1 模型在美国数学邀请赛(AIME 2024)中的准确率达到了83.3%,远远超过了 o1-preview 的 56.7% 和早期 GPT-4o 模型的 13.4%。
编程方面,o1模型在 CodeForces 竞赛中得分为89.0%,而 o1-preview 为62.0%,GPT-4o仅为11.0%。
在GPQA Diamond博士级科学问题测试中,o1甚至超过了人类专家,准确率为78.3%,而人类专家的得分为69.7%。
要知道,这些题目真的是“地狱级”难度......
与之前的 o1-preview 相比,新版o1在处理复杂问题时的错误率降低了34%,思考速度提升了 50 %。
同时,o1 引入了多模态功能,在发布会上,OpenAI 演示了其实际效果。
o1 的负责人现场绘制了一个草图,然后丢进输入框中,询问o1模型:
如果需要为这个数据中心提供1吉瓦的电力,需要多大面积的散热片才能保持GPU阵列正常工作?
牛逼的是,即便只是一张草图,但 o1 却能够准确的识别和理解,并计算出:需要242万平方米的巨大散热片以满足散热需求。
弱智吧实测
被震撼之余,基哥也有点给将信将疑:真的这么强吗?
于是基哥赶忙充了个会员,扔了几个弱智吧问题测试下:
比如:
“为了研究蜷蜂的耳朵长在哪个部位,海牛设计了一个实验:他抓住了一只蜷蜂,对它大吼,蜷蜂跳了起来,然后他切掉了蜷蜂的一条腿,再对他大吼,蜷蜂又跳了起来,最后他把蜷蜂的腿都切了,再怎么大吼,蜷蜂都不跳了。所以这个实验证明,蜷蜂的耳朵长在哪个部位?
o1 居然能识别出这是个笑话:
“高考满分才750,怎么才能考985?”
真的不错啊!
“导盲犬禁止入内,是给盲人看的,还是给导盲犬看的?”
当然,还是有翻车的时候......
“9.11 和 9.8 哪个大?”
200美刀的 ChatGPT Pro
值不值?
而 Pro 用户,可以无限制使用一个更强的版本:o1 Pro。
o1 pro 增强了模型在响应答案之前的“推理”时间,能通过更长的思考时间生成最佳的回答。
在数学竞赛 AIME 2024、编程竞赛 Codeforces、博士级科学推理问题 GPQA Diamond 等较量中,o1 pro 都领先于满血版 o1。
为了突出 o1 pro 的优势,OpenAI 使用了严格的评估设置,只有当模型在四次尝试中四次都回答正确时,才会认为它解决了问题。
OpenAI 技术团队成员 Jason Wei 在直播活动中表示:
我们预计 ChatGPT Pro 的目标用户群体将是那些已经在数学、编程和写作等领域充分利用和挑战 ChatGPT 模型能力的高级用户。
如果基哥的读者群里有哪位高知人士,可以买个 ChatGPT Pro试试看~
结语
如火如荼的生成式AI浪潮,已经改变了我们的世界。
最近山姆·奥尔特曼在接受采访时透露,ChatGPT 的周活跃用户已突破 3 亿大关,平台每日消息量更是高达 10 亿条。
OpenAI 未来一年的目标,是撬动 10 亿用户市场。
接下来的 11 场直播活动,Open AI 肯定还憋了不少大招。
让我们搬好小板凳拭目以待吧。