5月16日,在近期备受瞩目的OpenAI和Google大战话题之下,我们邀请到了潞晨科技创始人尤洋、Zilliz技术合伙人栾小凡、51CTO内容中心主编薛彦泽、硅星人/品玩创始人&CEO骆轶航、硅星人/品玩内容中心负责人王兆洋作为嘉宾分享他们的观点和新洞察。
我们思考和探讨了几个问题:
从技术工程和产品开发的视角出发,在资源受限的条件下,如何巧妙地训练出高效能的动态模型?
OpenAI都做了哪些工作,它们会对整个行业产生哪些影响?
这些技术进步对多模态融合模型成熟度产生什么影响?以及它们可能对特定行业和应用场景,尤其是中国市场带来怎样的深远变革?
在硬件制造这一中国的传统优势领域,AI技术的最新动态如何为我们带来新的增长机遇?
01
GPT-4o发布之后:“Her的降临”还是“雕花的胜利”?
尤洋:首先工程化、产品化非常重要。这次GPT-4o所做的这一步,对于长期AI公司的商业化,甚至是成为超级公司,都是非常关键的。最终肯定希望把这AI一个标准化的产品能基于知识产权嵌入生活环境里边。
骆轶航: 大家实际上也注意到的一个事情,之前当sora刚出来的时候,大家非常关心其商业化的可能性。但到目前为止,sora已经启动了一些特别小规模的、特邀制的商业化内测。但我们看这次GPT-4o发布的版本,它的第一步是免费的。那么,从这个角度来看,尤老师怎么看?
尤洋:sora之所以不能直接像GPT-4o一样免费去用主要有两个原因。第一点是,它的成本非常高。再一个,视频大模型对GPU基础设施的要求太高了,费时用户交互性非常差。但是GPT-4o的表现非常流畅丝滑,显然他们已经把模型做得非常精简,并且它的下层基础设施本身就比较强大。我认为从成本和用户体验的角度来看,GPT-4o都是OK的。
栾小凡: 这一次我认为真正的突破在于,它真正实现了端到端(E to E)的处理,我认为这个模型的能力在接下来的一段时间内将会大幅加强。这跟前段时间特斯拉的完全自动驾驶(FSD)升级非常相似。从scaling law的角度来说,用于训练的数据量和可以处理的信息量,实际上都比之前多了很多,只要我们的算力和推理层面能够跟上。
我觉得对整个行业或者对应用的开发者来说,可能现在已经到了可以真正做出好应用的阶段,至少底层infra的响应能力已经具备了。
骆轶航: 如果我们谈论特斯拉最近的FSD更新,它在很大程度上也是一种工程上的变革。包括内部组织结构上的大幅变革,为了推进这一变革而进行的工作。
另一方面,它实际上也证实了scaling law的某些东西,比如在训练数据量上的处理,以及它能够通过训练这些数据,包括推理过程所产生结果的能力。它就像一个领导者。
薛彦泽: 我想从另一个角度来说,无论是对用户还是对企业的使用,我认为可以说是迈出了一小步。但是,在OpenAI奥特曼看来,这其实也不算什么。OpenAI现在似乎被市场教育了,奥特曼再一次采访中说“我们学到的一点是,我们应该放慢步伐,采取更小的迭代步骤。”
因此GPT-5可能已经完成了,但正在等待一个合适的时机发布。
骆轶航: 从奥特曼最近对外公开的一些表达中,可以看到他们的策略可能会有所调整。在这个阶段,他们可能认为小幅快跑、小步迭代,像开发一个产品那样,是大家更愿意接受的方式。但这并不意味着他们的步伐真的慢下来了。GPT在去年3月份发布的时候,实际上至少在22年的7-8月份,就已经准备好了。
另外,很多人可能也了解到,ChatGPT之所以在2022年11月30号发布,可能是为了对冲之前不久发生的一个团队的出走事件的影响。我觉得他们把握节奏的能力非常好,包括抢在Google之前一天举办发布会,以及与Gemini 1.0版本同一天发布。
的确它是有这样的一种可能,这个不意味着步子慢下来了,只是我先给你看到我目前想给你看到的,我觉得这个是一种可能性。
薛彦泽: OpenAI目前是想通过这种小布迭代的策略,观察市场对发布产品的反应。
骆轶航: AI产品化的问题,我们应该如何去看待它,以及如何去看它与用户的关系?
它融合了多模态,将视频、主要是图像和声音,语音,融合到了文本文字中,形成了一种多模态的融合形式。实际上,从Gemini 一开始推出时,它就声称自己是一个融合模型。这个融合模型,他认为自己是在多元化自己。这是他们ChatGPT中一个非常重要的点。
王兆洋: 我对它前后脚的节奏印象很深。我当时想说Google I/O大会只字不提openAI,但是满眼到处都是openAI。它节奏上的把握,真的是就是一个非常灵活的一个游击战和一个比较身型庞大的一个大型公司之间的一个对比。Google知道OpenAI在做多模态的东西,但Google也在强调自己是原生多模态的。
我昨天与Google的CTO交流时,他一直在强调这一点,似乎有一种争夺正统的感觉。但Google似乎还不确定何时会展示他们的成果。
骆轶航:那你有没有发现OpenAI从来没有争过正统?We are bound to be正统。
王兆洋:对,它不会去强调自己是多模态的,但它展示给你的东西,让你知道当理解用户和使用起来的时候,它就是多模态的。所以我觉得整个Google I/O大会基本上是在OpenAI的ChatGPT全新的阴影下进行的。
他们尝试给出了一些回应,比如Extra。我们现场有机会体验了Extra。现场展示的是一个动态识别的能力,效果可以说是不太稳定。实际上这个产品还没有完全推出。我觉得这个就是处处都是在做对比和回应的。
02
OpenAI团队都做了哪些工作?
尤洋: 我感觉他们在做的一件事是如何在不损失精度和用户体验的情况下,让模型运行更加流畅。他们可能使用了更大的数据去训练一个更小的模型,但这个模型也不会太小,当然我确认过它不是蒸馏。在基础设施方面,OpenAI的水平已经很高,最近一两年没有太多实质上的创新。但如果有创新的话,我最近看到的架构还挺有意思的。
王兆洋: Google的I/O是在OpenAI之后发生的,OpenAI并没有对这个技术做太多解释。但是Google可能觉得,如果你是在别人后面发布的,你在出来讲的时候,会尝试表达你认为对方做的技术你也有。我觉得Google可能已经意识到了对方在模型小参数上的突破,Google实际上强调了蒸馏技术,即如何将大模型变得更小。但他们不会在大型会议上明确说出来。
然而在小型会议上,他们想要强调的往往是他们认为在当前竞争中比较重要的点。他们还强调了自己是正统的原生多模态的,他们认为原生多模态是将所有不同模态的数据都用同一种计算机理解的同一种token来处理。
不同模态的数据,比如文本、图像等,都用同一种方式处理,使用同一种token,然后让计算机去处理,可以让数据规模做得更大,或者说涵盖的不同模态更多,整体的多样性也更好,这可能是他们的一个优势。
栾小凡: 这次发布的一个比较小的一个细节,我觉得他可能是尝试把多模态里面的像音频和文本的tokenization某种程度上有一个统一。这样整个的信息密度可能就更高了,推理速度可能也会更快。
关于对向量数据库的影响,如果我们真的能在未来就是实现这种多模态的融合,tokenization如果真的是一个体系的话,那embedding的产生可能会变成多模态数据加文本数据,或者说图片数据加音频数据,整个的搜索的场景和使用的一个广泛程度,其实是更具有想象空间的。
我个人觉得大模型还是一个推理的工具,推理能力可能比他能记住多少东西更加重要,记忆可能是长期来看还是会一直是存在的东西。
03
从Google I/O和openAI的更新中得到的启示
薛彦泽:OpenAI可能唯一包袱就是现在ChatGPT有多少用户量了。奥特曼要实现的是要把全人类都可以使用的AI变成一种服务或产品,只要能被更多的人能发挥出价值来就去做。
正如GPT-4o所展示的,语音互动很流畅,且声音具备人类的情绪。而谷歌则不一样,虽然CEO皮查伊注意到了AI必须得革新,但是在如何追这个OpenAI这件事上他犯难了,所以他最后不得不推出了另外一条路线:既然我在这个通用模型上追不上OpenAI,那我就不如都一口气融入到各个业务里。
谷歌唯一的底牌还是数据。之前谷歌沉淀了丰富的公域的数据。现在谷歌可以借用AI的能力,然后让每个人都能用起AI来,积累到更私域一些的数据。
骆轶航 OpenAI将ChatGPT视为新型产品,迅速整合工程、训练、推理及模型迭代的实践到产品中。相比之下,Google的做法显得有些分散,急于展示其基座模型并将其融入多个产品中以彰显AI实力,通过新模型优化旧产品。
这种策略对比引人深思。
我们推送的文章里用了一张头图,那个头图是兆洋拍的,他抓拍了奥特曼走向后台,戴密斯·哈萨比斯走向前台的一张照片。我们使用的头图上展示了Google deepmind的两个标志,同时有两个人在台上。他现在不认为自己是Googler,而是认为自己是一个Geminier。
这个就很有意思,你一边说自己是个Geminier,一边在用这个基座模型,你还可以做很多更新。
王兆洋: 有人说可以改名叫Gemini I/O。
骆轶航: 应该类似于Gemini I/O。通常在进行此类操作时,一方面不断强调将技术应用到旧产品中。
如果我们将其投射到国内,也是我们所看到的两种不同的产品思路:一种是利用新技术定义新产品,另一种是利用新技术优化旧产品。
首先讨论第一类情况,即将人工智能快速产品化。最近人们经常讨论的是,目前大家在选择卷token的价格,另一方面还在选择卷API的价格。云服务商在某种程度上也在降低服务价格,这可能是因为作为上市公司,他们面临的压力较大,可能不能无限制地降价,但目前看来,这两方面的趋势非常明显。如果在工程方面或其他方面没有重大更新,并且产品无法实现本质提升,就可能出现这种价格竞争的状况。
04
多模态融合模型的成熟之下如何快速变成更好用的产品,实现产品与技术的契合?
薛彦泽:目前我可能更倾向于基于AI的产品,而不是AI原生应用。
首先,我们看到目前代理的概念非常火爆,但当我们真正与这些专家接触并询问他们的看法时,他们最终的落脚点在于开发机器人,即具身智能领域。如果纯粹讨论这个概念,他们似乎也无法给出明确答案,因此不如将其转化为具体场景。
第二点是,我最近在研究奥特曼的想法,他认为最好的产品是将GPT作为一种工具、服务或产品来使用,让其他人基于此构建他们认为酷炫的应用产品。现有的互联网产品已相当成熟,需要的是利用AI创造新想法。云服务商虽然有开发AgentBuilder等工具,虽然很酷,但目前缺乏大规模成功案例。
骆轶航:这个现象也很有趣,在硅谷,真正声称自己在做AI的人并没有那么多。在这个环境中,OpenAI随时在凝视大家,人们实际上会变得更加谦逊。他们可能不会总是宣称自己正在开发agent,而是可能会说他们正在为智能家居提供AI能力服务,或者他们可能正在提供跨不同设备和系统的文档整理和时间表整理服务,但他们说自己在做copilot。
他们没有觉得自己能够去做这样的一个事,两边人的心态可能也不太一样。我并不是很确定。
栾小凡: 我与薛老师的看法心路历程正好相反。到了现在这个时间点,在OpenAI所搭建的平台上与OpenAI竞争是非常困难的。但我认为是否有可能通过新的硬件和新的交互方式诞生一些新的产品。未来我们的玩法可能不再是移动互联网或Web应用,而可能是可穿戴式或纯硬件产品。我认为这是一个机会,特别是如果交互方式真的像GPT-4o展示的那样令人惊叹,那么这个机会可能确实存在。
05
开发基座模型应当如何跟进?
尤洋: 我感觉在开源领域,很快就能对齐LLamMA 4000亿参数的水平。如果这个水平与OpenAI的差距不大,大家都可以在此部署上进行开发,那么应用开发者的壁垒可能不会那么弱。我们现在并不知道OpenAI是否真的遇到瓶颈,还是他们想控制公关节奏,毕竟奥特曼被称为PR大师。
骆轶航: 据我们了解,这样一个会实际上是由背后参与具体筹办的人,即那些每天都投入精力筹备这个会议的人组织的内部参与筹备的人数大约有1000人。但是,OpenAI基本上就是由20个人就把这件事做成了。
紧接着在接下来的一天,我们就看到了火山在北京举办的如此大规模的发布会,会场里挤满了人。
未来我们是否可以换一种方式?
我再提出一个观点,即我们通过4o这种免费的模式,我之所以一开始就提到免费这个问题,是因为无论是卷价格还是免费,都意味着你的产品或服务提供给他人使用的成本是比较低的,或者需要付出的代价是较小的。如果产品或服务足够有价值,或多或少应该收取一些费用。
另外一种情况是,有些人可能愿意接受体验稍差的产品,4o最大特点,至少目前表现出来的是尽管语音功能尚未可用,但其速度比3.5版本还要快。然而,有时准确度可能不是那么高。人们可能会认为这是否是一个瓶颈。当然,如果他们真的认为这不是一个瓶颈,而是故意表现出弱点,那这件事就太狡猾了,但我们不知道真相。
这件事至少体现了一点,即我有一些更新,至少在融合模态方面、在工程上,以及在训练一个小模型上,我取得了一些进展,我迅速将其发布出来,让人们能够感知并使用它,实际上对产品本身是有好处的。
国内目前流行的一个讨论是,创业公司应该专注于模型还是产品?
如果一个公司既做模型又做产品,它是否还存在?
产品的能力是长在模型上的,这两者实际上是不可分割的。
在AI时代,产品经理实际上会更频繁地思考技术问题。在移动互联网的下半场,产品和技术之间的界限和结合逐渐形成。但现在到了模型时代,某种程度上,模型和产品是紧密相连的。这是我从这次两家公司的发布会中感受到和体会到的。
06
模型与产品之间的关系的对立是否真的存在?基座模型是否还有做产品的空间?
王兆洋: 还有一个角度可能大家都没有提到,就是这一次这两家公司的产品和能力的展示背后,都有一个传言或者说一个大的背景,即谁能与苹果达成接下来的合作。
我认为这也有点像产品在寻找超级应用,或者说真正让所有人都使用一个基于AI能力的产品。
在这个阶段,ChatGPT用户量的增长确实受限,这个阶段我觉得可能一个很好的方向是做出一个毫无延迟的、比现在有大量用户的语音助手比ChatGPT更强的下一代产品。
很难想象,如果4o产品真的像展示的那样,并且真的应用到iPhone上,那将是一个可怕的事情。刚才提到的免费,我也有一个想法,现在大家看手机,其实它提供的是计算,然后被ChatGPT这类AI应用所付费使用,我们付费的也是计算,那如果免费意味着如果这个东西都用上了手机,免费不是指针的免费,而是我只用为计算付一次费,即购买硬件的费用。因为它可能上了一部分是所谓的端侧。那收费方式可能也是一个新的变化。
如果是这样一个思路的话,我觉得有点像是在给Apple看。在逻辑上,无论是模型厂商还是应用厂商,他们的思路可能真的是将目前已经做得足够好的东西,如何快速地展示出来。
07
硬件制造领域可能带来的机遇
骆轶航: 在产品不够完善的情况下,要让更多人使用这项技术,就需要借助其他手段。当技术尚未达到理想状态时,就会出现所谓的中美AI差距拉大的讨论。但事实上,不是中美之间的AI差距在拉大,而是所有人与OpenAI的差距在拉大。
如果你不是OpenAI,你无法真正实现技术上的突破,就可能需要借助其他手段来实现目标。目前,与苹果合作的传言中最有可能的合作方又是OpenAI,这使得情况变得非常诡异。
实际上,你需要考虑的是如何借助一个场景,利用其他手段降低门槛。而大家能想到的有趣场景可能就是硬件。那么,如何更好地利用这些硬件是一个问题。目前看来,只有OpenAI实现了技术、产品和用户的完美契合。并且他们在市场上的表现也非常出色。但其他公司似乎还没有起飞,这是一个目前比较突出的问题。
尤洋:我认为如果最终AI在面向TOC的领域中有几个超级应用程序让大家受益,这实际上能够促进企业进行更多的大模型部署。另外,未来我们对长序列推理预测的需求是真实的,即长序列推理训练的准确性和效率,这是一个技术问题,但它是真实地能够让用户直接感受到产品上的差异。
我认为,只要解决好算力问题,中国仍然具有一定优势。
骆轶航: 我认为在探讨产品和技术问题时,我们需要将中国与世界其他地区分开来考虑,因为我们有自己的基座模型。我们的基座模型进步的速度并不是在一个完全没有干扰的环境中,对吧?实际上在这个领域中,模型本身的优化以及产品方面可能还有一些问题。
08
OpenAI和Google相当于是在闭源的基础上各自向前迈进了一步,这一次更新在开源领域有什么不同,如何跟进?
尤洋-潞晨科技创始人:个人感觉,开源领域的发展可能暂时还需要关注Facebook的动态,Facebook的400亿参数模型尚未发布。如果该模型发布,可能会使大家感觉开源技术又向前迈进了一步。目前,我们处于观望阶段。目前使用开源技术的人们的业务需求是可以被满足的。即使是不使用国外的技术,仅仅使用国内的开源模型,对于当前这个阶段的应用场景来说,已经足够用了。
观众提问:
模型能不能无限地长大?算力优化的极限边界在哪里?
栾小凡-Zilliz技术合伙人:根据黄仁勋对NVIDIA的规划来看,未来十年内算力应该提升一万倍。如果我们的软件也能在未来的时间里至少提升十倍或者一百倍,我认为我们的想象空间还是非常巨大的。目前最大的制约因素是数据,因此关键问题是我们能够找到多少训练数据。我也非常赞同未来的想象空间是谁能合成出这个更好的数据,用户数据这边我觉得大家其实都到头了。
市场的困惑:全新的技术创新还是已有技术的新表现形式?
栾小凡: 早在1920年,人们就讨论过AI技术,但当时技术尚未成熟,效果与传统方法相近,未能达到实际应用水平。我认为AI技术的发展是逐渐积累量变到质变的过程。GPT 3.5推出时,有人认为已足够先进,但深入使用后发现推理能力不足。GPT-4o更新后,也有类似看法。技术本身并没有太多新意,但每次进步都可能带来新思路,就像闯关游戏一样,每上一个新台阶就可能解锁新想法。
制造业可以用到AI吗?
骆轶航: 制造业的许多方面已经在应用AI技术。包括在流程管理上,制造业应该是比较快速地采用AI技术的行业之一。如果我们再结合刚才讨论的具身机器人和属于流程管理的低层次工作,我认为现在应该已经有很多应用了。
从另一个角度来看,即机器人的角度,从某种意义上说,实际上背后使用的是一个大型语言模型或者多模态模型进行交互,实际上能够做很多事情。
栾小凡:AI在工业界的应用实际上相当广泛。举一个特别有趣的例子,我最近与一些芯片制造公司合作,他们在芯片上寻找一些问题,例如芯片上的缺陷,这可能会导致整个芯片的最终性能不佳。他们实际上使用基于模型的视觉解决方案来识别这些缺陷,效果相当不错。
第二类是关于序列数据的应用,这不仅仅是指我们今天讨论的文本数据。前段时间Google发布的关于DNA序列检测的研究,序列的处理实际上与自然语言处理(NLP)非常相似,它涉及将DNA序列分解成单个的氨基酸,这些我们称之为token。再去预测这些token之间的关系。这包括序列数据的持续分析,并预测一些异常信息,例如预测骨骼问题。
目前,这类应用可能不需要特别大的模型,许多问题在传统的生产领域中已经可以通过现有的技术很好地解决。
目前,是否正在考虑合成数据对未来产品设计和技术路线选择的影响?
王兆洋:比较重要的变化在于数据量的增加,而数据量增加的一个来源可能是合成数据。AI领域是希望降低整个训练过程的成本。如果未来数据构成中合成数据的比例逐渐增加,这将对产品开发或整个研发层面的成本降低产生影响。
尤洋: 我认为主要是在技术路线上,可能会进行一些配合性的工作。这件事情最极端的情况是模型能够直接放入一张卡内,即模型小型化以便集成,但我们拥有的数据量很大,我们的目标是尽可能增大模型规模。随着数据量的增加,每次迭代所需的循环次数就会减少,假定计算资源固定。本质上,这涉及到大批量优化,其核心是加速模型的收敛过程。未来可能会在这一方向上有更多的发展。
09