AI

当前位置：首页 > 技术圈 > AI

谷歌2小时疯狂复仇，终极杀器硬刚GPT-4o！Gemini颠覆搜索，视频AI震破Sora

更新时间：2024-05-15 09:07:05 编辑：管理员浏览：263

昨天被OpenAI提前截胡的谷歌，今天不甘示弱地开启反击！大杀器Project Astra效果不输GPT-4o，文生视频模型Veo硬刚Sora，用AI彻底颠覆谷歌搜索，Gemini 1.5 Pro达到200万token上下文……谷歌轰出一连串武器，对OpenAI贴脸开大。

谷歌I/O 2024如期来了，眼花缭乱地发布了一堆更新。

跟OpenAI半小时的「小而美」发布会相比，谷歌显然准备得更加充分，当然，时间也相当之长……

2个多小时的发布会也是挑战着观众们的极限，在场人群早已困倒一大片

准备好，谷歌要开始轰炸了。

首先，Gemini 1.5 Pro，上下文长度将达到惊人的200万token。

然后，面对昨天OpenAI GPT-4o的挑衅，谷歌直接甩出大杀器Project Astra，视觉识别和语音交互效果，跟GPT-4o不相上下。

接着，谷歌祭出文生视频模型Veo硬刚Sora，效果酷炫，时长超过1分钟，打破Sora纪录。

最后来了一个重磅消息：谷歌搜索将被Gemini重塑，形态从此彻底改变！我们不再需要自己点进搜索结果，而是由多步骤推理的AI Overview来代办一切。

发布会结束后，劈柴甚至还用Gemini算了一下，整个发布会共提了121次AI。

Gemini时代，来了

CEO劈柴上来就无视了GPT和Llama的存在，这样总结道：「我们完全处于Gemini时代」。

并且给出数据：如今全世界使用Gemini的开发者，一共有150万人。

万众瞩目的Gemini更新如期而至。

Gemini 1.5 Pro最强特性之一，就是超长的上下文窗口，达到了100万tokens的级别，超过了目前所有的大语言模型，而且开放给个人用户使用。

今天，劈柴宣布：它的上下文token数将会达到2000K（200万）！相比之下，GPT-4 Turbo只有128K，Claude 3也只有200K。

而这也意味着——你可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。

2M长上下文窗口，可以去排队申请了

这个上下文长度，已经超过了目前所有大模型。

但是，这并不是终点，谷歌的目标是——无限长上下文，不过，这就是后话了。

用篮球讲解牛顿运动定律

在这样的Gemini加持下，我们可以实现许多迅捷的功能。

比如，作为父母需要了解孩子在学校的情况，就可以在Gmail中要求Gemini识别所有关于学校的电子邮件，然后帮你总结出要点。

如果你错过了公司会议，但可以拿到一小时时长的会议录音，Gemini就能立刻帮你总结出会议要点。

为了帮助学生和教师，在NotebookLM中，谷歌设计了一个「音频概述」的功能。

把左边的所有材料作为输入，Notebook就可以把它们整合成一个个性化的科学讨论了。

对于听觉学习型学生，这种形式就非常生动。

演示这个demo的Josh表示，自己的儿子第一次看到这个功能时，直接惊掉下巴。

他第一次感觉到，学习不再是死板的，牛顿力学定律居然以通过篮球来学习！

支持多模态的Gemini可以处理你上传的任何格式的信息，理解内容后将其改造成适合你的形式，与你对话互动了！

Agent：帮你申请退货

接下来，劈柴展示了Agent的一些例子。

买了一双鞋子，不合适想退回怎么办？

拍一张照片给Agent，它就可以从你的邮箱中搜出订单后，帮你填写退货单了。

再比如，你刚搬到某个城市，Agent就能帮你探索你在这个城市所需的服务了，比如干洗店、帮忙遛狗的人等等。

如果靠我们自己搜索，可是要搜十几个网站，但Gemini可以发挥自己的「多步推理」能力包揽这些任务，把你需要的信息一次性提供给你！

搜索和整合信息的功能非常强大，输入新家的地址后，它甚至可以代替软件问你外卖应该放哪个位置。

总的来说，谷歌的理念就是：利用Gemini的多模态、超长上下文和智能体能力，把世界上的所有信息组织起来，让它们对每个人都可触达、可利用。

而最终目标，就是让AI对每一个人都有用。

谷歌搜索，被Gemini彻底重塑

之前OpenAI一直有意无意放出烟雾弹，声称要发布全新的搜索产品，等于是把刀架在谷歌脖子上了。

果然，谷歌这次不甘示弱，放出了个大的。

从今天开始，在Gemini的加持下，谷歌搜索会彻底变样。

在搜索框下，会出现一个为你量身定做的AI总结。

注意，它并不简单地将所有内容拼凑在一起，而是帮你把活都干了！

你的问题是什么样，它就会帮你做规划，展示出若干个卡片，让搜索信息以鲜明的方式被呈现出来。

这次AI Overview即将发布的另一个重磅功能，就是多步骤推理。

它能将用户输入的一个复杂问题分解成多部分，确定需要解决哪些问题，以及用什么顺序解决。

因此，以前可能要花几分钟甚至几个小时的研究，现在几秒钟内就可以完成！因为它将十个问题合而为一。

比如，如果想找到波士顿最好的瑜伽或普拉提工作室，它会直接搜出来结果，然后帮你整理好情况介绍和工作时间。

只要一次搜索，所有需要的信息就自动呈现出来。

在下面这个例子中，你可以要求谷歌提供一个三天的膳食计划。

这些食谱被从整个网络整合出来，清晰又全面。

而且，我们还可以用视频去搜索了！

比如，该怎么修这个唱片机？

以前，我们需要进行一堆搜索，确定它的牌子、型号。

现在，直接拍一个视频丢给谷歌，然后直接开口问：它的这个毛病是什么原因？

谷歌用AI Overview，给出了最全面的信息。

从此，在谷歌搜索中，你需要做的，就是简单的「张嘴问」。

对标GPT-4o，Project Astra打造通用AI智能体

我们已经看到，新模型GPT-4o赋予了ChatGPT强大的实时对话能力，让Her走进现实。

全新AI语音助手，是通往AGI的下一个未来。

对标OpenAI，谷歌DeepMind今天首次对外公布了「通用AI智能体」新项目——Astra。

其实，昨天谷歌放出了一个demo，已经让所有人对Astra项目有了初步的了解。

而今天，现场的演示更加炸裂。

网友称，这是谷歌I/O大会中，自己最喜欢的part。

不仅有Astra强大的对答如流的能力，还首次展示了「谷歌AR原型眼镜」配上AI的震撼演示。

Astra两部分演示，每段视频均为单次拍摄、实时录制完成

召唤Gemini之后，测试者提出问题，「当你看到会发出声音的东西时，告诉我」。

它回答道，「我看到一个扬声器，它可能会发声」。

接下来，测试者用红色剪头指向扬声器的顶部，再次问道，「这个扬声器的部件叫什么」？

Gemini准确理解指令，并答出「这是高音扬声器，能产生高频的声音」。

然后，对着桌上一桶彩色蜡笔，让Gemini就展示的物体，给出了「押头韵」的创意——

「Creative crayons color cheerfully. They certainly craft colorful creations.」

Gemini以「c」音重复开头，生动形象地描绘了用蜡笔欢快涂色，可以创作出许多绚丽多彩作品的场景。

而更让你意想不到的是，它还可以读懂代码。

甚至都不是截屏，而是用摄像头怼着电脑屏幕拍，然后问Gemini「这部分代码是做什么的」？

Gemini看了一眼，就立即给出回答：「此段代码定义了加密和解密函数。它似乎使用AES CBC加密，根据密钥和初始化向量对数据进行编码和解码」。

再将镜头移向窗外，「我在哪个街区」？

Gemini便回答道，「这似乎是伦敦国王十字区，这里以火车站和交通枢纽而闻名」。

眼镜找不到了？

直接可以问Gemini，「你记得在哪里见过我的眼镜」？

它立刻回想刚刚见到的场景，「是的，我记得。你的眼镜就在桌子上，旁边有一个红苹果」。

要知道，刚刚这个问题并没有向它提过，Astra完全是凭自己的视觉记忆回答出来的，简直成精了。

而Astra的这番表现，直接让全场倒吸一口凉气，发出惊呼。

谷歌原型AR眼镜首现身

接下来的演示，更炫酷了。

刚刚找到的眼镜，竟是谷歌的原型AR眼镜！配合上强大的Gemini模型，即将开辟全新的应用。

测试者走到白板前，看向一个「服务器」的构建示意图，然后问道，「我应该怎样做能使这个系统更快」？

Sora Gemini 谷歌 GPT-4o

收藏打印

上一篇：GPT-4o的“类人”响应速度刺痛Siri？

下一篇：谷歌7大模型22项AI大招轰炸！70秒视频生成、Gemini安卓合体、200万tokens上下文

AI

谷歌2小时疯狂复仇，终极杀器硬刚GPT-4o！Gemini颠覆搜索，视频AI震破Sora

相关内容

点击排行

文章归档

评论排行榜

热门标签