tiknovel.com tiknovel

AI

当前位置:首页 > 技术圈 > AI

重磅!OpenAI推出满血版o1,史上最贵会员1450元/月!我们试了下

重磅!OpenAI推出满血版o1,史上最贵会员1450元/月!我们试了下

编辑 | 汤安迪

OpenAI 的圣诞大礼包来了!

12月4日,OpenAI CEO 山姆·奥尔特曼高调宣布要给大家“整个活”:

OpenAI 将开启为期十二天的直播活动,内容包括新品发布和功能更新等,还有一些“圣诞礼物”。

但等到全世界的科技媒体打开直播时,却发现第一天的直播只有14分钟,更像是一场大的发布活动直播中的一节切片。

熬夜的中国科技媒体们叫苦不迭,称自己被被山姆·奥尔特曼摆了一道~

不过,这次的发布会还是有亮点的,用山姆·奥尔特曼的话来说,主要讲了两件事:

我们刚刚推出了两项新功能:

o1,世界上最智能的模型。比 o1-preview 更智能、更快,功能更多(比如多模态功能)。现在已在 ChatGPT 中上线,稍后将推出 API 版本。

ChatGPT Pro。每月 200 美元。提供无限使用和更智能的 o1 模式。更多福利即将推出!

满血版o1发布

满血版 o1 现已取代了之前的 o1-preview 版本,面向 ChatGPT Plus 和 Team 用户推出。

官网显示,ChatGPT Plus 用户和 Team 用户每周可以使用 OpenAI o1 发送 50 条消息,每天可以使用 OpenAI o1-mini 发送 50 条消息。

满血版 o1 到底有多强?

奥尔特曼介绍,o1 模型在美国数学邀请赛(AIME 2024)中的准确率达到了83.3%,远远超过了 o1-preview 的 56.7% 和早期 GPT-4o 模型的 13.4%。

编程方面,o1模型在 CodeForces 竞赛中得分为89.0%,而 o1-preview 为62.0%,GPT-4o仅为11.0%。

在GPQA Diamond博士级科学问题测试中,o1甚至超过了人类专家,准确率为78.3%,而人类专家的得分为69.7%。

要知道,这些题目真的是“地狱级”难度......

与之前的 o1-preview 相比,新版o1在处理复杂问题时的错误率降低了34%,思考速度提升了 50 %。

同时,o1 引入了多模态功能,在发布会上,OpenAI 演示了其实际效果。

o1 的负责人现场绘制了一个草图,然后丢进输入框中,询问o1模型:

如果需要为这个数据中心提供1吉瓦的电力,需要多大面积的散热片才能保持GPU阵列正常工作?

牛逼的是,即便只是一张草图,但 o1 却能够准确的识别和理解,并计算出:需要242万平方米的巨大散热片以满足散热需求。

弱智吧实测

被震撼之余,基哥也有点给将信将疑:真的这么强吗?

于是基哥赶忙充了个会员,扔了几个弱智吧问题测试下:

比如:

“为了研究蜷蜂的耳朵长在哪个部位,海牛设计了一个实验:他抓住了一只蜷蜂,对它大吼,蜷蜂跳了起来,然后他切掉了蜷蜂的一条腿,再对他大吼,蜷蜂又跳了起来,最后他把蜷蜂的腿都切了,再怎么大吼,蜷蜂都不跳了。所以这个实验证明,蜷蜂的耳朵长在哪个部位?

o1 居然能识别出这是个笑话:

“高考满分才750,怎么才能考985?”

真的不错啊!

“导盲犬禁止入内,是给盲人看的,还是给导盲犬看的?”

当然,还是有翻车的时候......

“9.11 和 9.8 哪个大?”

200美刀的 ChatGPT Pro

值不值?

而 Pro 用户,可以无限制使用一个更强的版本:o1 Pro。

o1 pro 增强了模型在响应答案之前的“推理”时间,能通过更长的思考时间生成最佳的回答。

在数学竞赛 AIME 2024、编程竞赛 Codeforces、博士级科学推理问题 GPQA Diamond 等较量中,o1 pro 都领先于满血版 o1。

为了突出 o1 pro 的优势,OpenAI 使用了严格的评估设置,有当模型在四次尝试中四次都回答正确时,才会认为它解决了问题。

OpenAI 技术团队成员 Jason Wei 在直播活动中表示:

我们预计 ChatGPT Pro 的目标用户群体将是那些已经在数学、编程和写作等领域充分利用和挑战 ChatGPT 模型能力的高级用户。

如果基哥的读者群里有哪位高知人士,可以买个 ChatGPT Pro试试看~

结语

如火如荼的生成式AI浪潮,已经改变了我们的世界。

最近山姆·奥尔特曼在接受采访时透露,ChatGPT 的周活跃用户已突破 3 亿大关,平台每日消息量更是高达 10 亿条。

OpenAI 未来一年的目标,是撬动 10 亿用户市场。

接下来的 11 场直播活动,Open AI 肯定还憋了不少大招。

让我们搬好小板凳拭目以待吧。


评论排行榜