2023年ChatGPT横空出世,人工智能上半场开启近两年,海量企业加入AI赛道,却鲜有成功的、实现盈利的商业模式。
本质是缺乏超级应用,没有新的需求创造,在终端消费没有引爆点。
互联网时代上半场,集成电路技术为手机、PC铺路;下半场“iPhone时刻”对传统手机、软件服务进行革命,全球掀起智能消费电子浪潮,是历史上著名的超级应用。
人工智能下半场,全球也在等待AI超级应用。AI超级应用才是大多数人的机会。
第一类是具身智能体路线,如自动驾驶、人形机器人:AI像人一样、拥有一个物理的躯体,能感知、能互动,能主动地进入到“真实世界”。
第二类是超级AI软件,在辅助办公、作图、视频生成、教育等领域潜力巨大。基于大模型进行定制化扩展升级,将“超能力”带给各行各业。
第三类是AI消费电子,如AI PC、AI 手机、XR设备和脑机接口技术,对传统设备进行AI升级,或在新技术上开发新的需求,和元宇宙结合。
拥抱超级应用,也要重视AI对社会的影响。人类的道德伦理能被AI“理解”吗?什么样的数据是“基本”事实?哪些算法是衡量“公平”的指标?大模型由现实世界训练而来,因此AI也是社会的镜子。这些问题还需要更深层的审视和技术规范来解决。
正文
1 AI上半场,大模型和芯片大突破
1.1 上半场大模型算法诞生“思维”
人工智能上半场,算法进步铺垫了半个多世纪,催生出“百模大战”,人工智能概念始于1955年筹办达特茅斯会议,先后经历了统计语言模型、专家系统、神经网络、深度学习等阶段。
2019至2022年,预训练模型(Pre-trained Model)井喷式出现;2023年,首个真正意义上的大语言模型(Large Language Model)ChatGPT落地,开启全球人工智能元年,谷歌、Meta、亚马逊、百度、阿里、腾讯等科技巨头先后加入,AI初创企业如雨后春笋,大模型开启“炼丹”时代。
大模型与其他模型最大的区别在于“涌现”能力,出现类人的“思维方式”。在预训练阶段,随着模型规模的扩大和参数量提升,在超过某一阈值后,模型准确度突然大幅提升,例如GPT-3、PaLM、LaMDA等模型在参数量达到百亿级别时表现出涌现。
1.2 上半场,芯片算力爆发、一“芯”难求
GPU取代CPU成为AI算力载体。早期AI训练任务由CPU来完成,但效率较低。转折点在2012年10月,佛罗伦萨计算机视觉会议上,只用了4颗英伟达GPU的AlexNet击败了用了16000颗CPU的谷歌猫,成为了“冠军算法”,轰动AI界,此后GPU训练开始被广泛认可。AlexNet研发主导人辛顿也因对人工神经网络贡献获得2024年诺贝尔物理学奖。
对比看,CPU擅长于少量的复杂逻辑运算,相当于计算机的“大脑”。而GPU擅长于大量的简单相似计算,用于图形处理,相当于“视觉神经”。由于AI模型需要大量的并行乘法、加法运算,GPU的优势更明显。
AI发展遇上GPU迭代的“算力及时雨”,芯片需求大幅扩张,上游成为最大受益者。根据英伟达数据,GPU的性能在过去20年提升达到1000万倍,截止2023年底,英伟达的GPU产品已占据全球92%数据中心市场份额。2024年Q2,英伟达实现营收300亿美元,同比增长122%,净利润达到166亿美元,同比上升168.24%。
AI企业将2024-25视作布局的关键两年,英伟达加速GPU扩产,供不应求。谷歌2024年在芯片、设备及资产上的投入已攀升至约500亿美元,同比增幅超过50%。为布局2025年AI赛道,Meta已向英伟达下单价值约100亿美元芯片;微软正筹备在2025年Q1前为OpenAI配置5.5万至6.5万颗GB200芯片,价值约30亿美元。
2 AI下半场,机遇就看AI超级应用
什么是超级应用?
一是将前沿技术应用在人们可以广范接受的消费领域。比如硬件领域的“iPhone时刻”,触控屏并非苹果首创,但苹果设计师发掘了消费者的使用偏好,改变了手机使用习惯,让人们广泛接受了触控移动设备。
再比如,软件领域谷歌、百度搜索引擎网站的出现。在早期互联网还是直接输入网址的时代,搜索引擎极大程度提升了上网的便捷性,拓宽了互联网的潜在用途和可探索边界。
二是能制造需求引爆点,形成创造新增长、新应用的“链式反应”。例如,智能手机的硬件革命,将互联网时代的核心用户场景从PC转移到了手机,科技企业在软件开发上竞争,掀起了多轮App应用开拓和迭代,逐渐将个人生活需求与移动互联网形成深度绑定。开辟了移动出行、电子商务等新应用领域,创造了新的用户需求和消费趋势。
从龙头AI公司战略布局出发,可推测超级应用的发展走向。
大模型龙头公司:OpenAI当前聚焦于解决盈利难题,业务重心转向扩大商业化场景。由于模型算力和训练成本高昂,OpenAI至今未盈利。ChatGPT在2023年底有1.8亿用户和1亿付费月活。最新预测2024年营收也将达到50亿美元,即便如此,管理层对今年实现盈利仍没有做出期待。另一方面,OpenAI已经调整治理和经营架构,将目标从实现可控AGI转向了AI商业化和市场拓展方面投入:推出了Sora、GPT-4o等差异化模型来探索应用场景和订阅增长空间。Appfigures数据显示,2024年5月GPT-4o的发布推动了其APP端收入增长高达40%。
算力龙头公司:英伟达的新增长曲线全部聚焦于AI软硬件应用和服务,主要在人形机器人、自动驾驶汽车、AR/VR设备领域。①英伟达主导了OpenUSD项目和Isaac系列,前者用于创建和模拟复杂3D数据,后者服务于加速机器人应用的开发工程,两者都专注于机器人领域的算法和工程实现、验证。②发布Jetson Thor芯片,为高阶自动驾驶、人形机器人等需要高性能推理的边缘计算领域而设计。③开发了Isaac Sim和MimicGen NIM两种工具包,主要用于AR/VR穿戴设备的实时动作捕捉,并进行数据生成。
3 AI超级应用,先看具身智能与AI软件
3.1 AI具身智能:人形机器人
英伟达创始人黄仁勋认为,下一波的人工智能浪潮是“具身智能(embodied AI)”,人工智能可以真正理解、推理并与物理世界互动。人形机器人结合AI算法与控制、感知硬件,让AI拥有人类形态,是“具身智能”的集大成者。
人形机器人不同于以往的机器人。AI超级应用的人形机器人指的是“具备高度自动化、智能化、集成化的通用机器人”。类比AI就像是“通用智能与机械智能”的区别。传统机器人如工业机器人、服务机器人和特种机器人技术已经较为成熟:在工业领域的移动搬运、自动物流、工业制造、电网自动巡检等;服务领域的家用扫地、酒店自动配送等已经有大量的商用案例。而以特斯拉Optimus为代表的通用机器人不限于特定应用领域,在设计上可以像人一样从事各种复杂的、高难度任务,因此对大模型的算法和算力水平要求更高。
从设计理念上看,通用人形机器人的设计理念是为了模拟人类的一些关键特性,例如直立行走、双手操作工具的灵巧性,以及最重要的智能。为了实现这些功能,人形机器人的关键要素包括人机交互算法、先进机械结构、运动控制算法、环境感知、机器臂与灵巧手等,从而形成能够模拟人类步伐的双腿、能够执行类似人类动作的双臂和双手,以及能够感知、理解并响应外部环境的“大脑”。
人形机器人的核心技术还是人机交互算法和运动控制算法:①人机交互算法,即从通用类大模型上移植的核心“思维方式”,决定了机器人理解人类指示、理解周围环境、做出相应的反馈或智能化的交互能力。②运动控制算法决定了机器人的运动能力,通过计算所需力和力矩来驱动关节来运动,尤其是在复杂地形、和存在外部干扰的场景,如何确保机器人的行走、操作、平衡和稳定性。③此外,突破机器人的机械结构、传感装置的技术难点,降低综合成本、提高运行的可靠性和稳定性也是业内努力的方向。
特斯拉作为该领域先行者,于2021年8月AI Day首次发布Tesla Bot计划,2022年2月推出Optimus人形机器人。初代Optimus能完成招手、拧螺丝等简单动作,但行动不算流畅。2024年5月的第二代Optimus搭载了视觉神经网络和FSD芯片,技术源于电动车自动驾驶的成熟方案,不仅能实现流畅行走,还能精准地完成复杂的分拣工作(动力电池单元),离完全实现自动化迈进了一大步。2024年10月12日,“Tesla:We Bot”发布会上的Optimus更上一层楼,在行走、抓取、握持等能力上有了突破性改变,并且通用智能水平更高,可以与人自由交流。
马斯克预计2026能实现人形机器人大规模上市。当前Optimus已经有两台部署在特斯拉工厂工作,制造成本能控制到1万美元/台。特斯拉在短短两年半时间里将Optimus快速迭代,让社会看到了人形机器人量产、落地、大规模应用的可能性。同时,多模态大模型的蓬勃发展又为机器人技术成型注入新的血液,通用机器人极有可能成为功能最完备的“具身智能体”。
有实力的人形机器人公司尚集中在美国:除特斯拉外,OpenAI、英特尔、英伟达、三星等多家头部企业投资的Figure AI也在2023年发布了首款机器人,并与宝马达成合作,未来陆续将人形机器人部署于汽车总装车间岗位。由得克萨斯大学实验室孵化、和NASA共同开发人形机器人的Apptronik也在2024年与奔驰达成合作,让其发布的人形机器人参与产线流程作业。中国的优必选是国内较早研发人形机器人的企业,成立于2012年,其工业版人形机器人Walker S已部署于蔚来汽车总装车间,并陆续与东风、一汽大众达成合作,预计2026年将在工厂端放量。
3.2 AI具身智能:自动驾驶汽车
自动驾驶汽车可能是最早实现大规模落地的“具身AI”超级应用。
一是因为汽车的复杂性和普及程度适合与AI技术结合。汽车是复杂度仅次于飞机的现代工业品,也是附加价值最高的可选消费品,拥有上万个电子零部件。同时,汽车的架构也在向“中央集中式”和云计算变革,与AI技术可以实现“1+1>2”。
二是智能汽车相当于“带轮子的机器人”,由于两者的技术难点(算法)和核心零部件(传感器、算力芯片)相似,智能汽车肩负着给人形机器人研发开路的使命。高度智能化的汽车也能在不同场景中学习,模型在迭代中不断提升自身驾驶决策的准确度。
智能驾驶就是最好的“用硬件跑AI”。全球不少企业都有技术积淀:国内的百度Apollo已经能实现L4级自动驾驶,萝卜快跑截止2024年7月完成自动驾驶订单约82.6万单。海外的自动驾驶综合服务商Waymo也在2024年扩大了服务区,在8月初周单量翻了一倍,服务人数超过10万人。车企方面,塞力斯、小鹏、理想处于国内第一梯队,优势主要在高速和城市领航方面。特斯拉在海外的优势是FSD的数据驱动能力和“BEV+Transformer”算法框架。
从实践情况看,各车企和智能驾驶解决方案供应商都在竞相打造智算中心。特斯拉的DOJO智算中心,预计到2024年10月,总算力将达到100,000PFLOPS,相当于约30万块英伟达A100的算力总和。国内,商汤位于上海临港的上海人工智能计算中心(AIDC)算力已达到14,000 PFLOPS(截至今年8月);华为车Bu的ADS训练算力达3,500PFLOPS(截至今年7月);理想训练算力达5,390 PFLOPS(截至今年8月)。
特斯拉掀起“端到端”的自动驾驶变革。2023年马斯克直播试驾,展示了FSD Beta V12——有史以来第一个端到端AI自动驾驶系统(Full AI End-to-End),从智算量级来看,V12比上一代高出几个数量级:V12的C++代码只有2000行,而V11有30万行。
传统智能驾驶解决方案是模块化的,包含许多人为设定的规则(hand-crafted、rule-based)部分。一套模块化智驾方案以感知模块—规划模块—控制模块为主脉络,模块间联系紧密,每个模块都有输入端与输出端;前一个模块的输出是后一个模块的输入。程序实现上效率低、成本高,需要提前通过代码告知计算机制订行车方案。
端到端(end-to-end)更接近于人的驾驶实践。只需要一个神经网络模型,模型输入端输入摄像头、激光雷达、毫米波雷达等传感器所搜集到的信息,输出端便可以直接输出控制车辆方向和速度的操作指令。中间不需要任何人为设定的规则。与模块化相比,从感知环境到执行驾驶操作只需依靠直觉和经验。程序实现上更高效,由于模型不是由表征规则的代码驱动的,而是全部依靠基于海量数据的机器学习。
从智能驾驶解决方案的上限来看,端到端的上限空间更大。第一,模块化方案的环节间存在信息遗失问题;而端到端则不存在这个问题,因此端到端的最优化是全局最优化。第二,模块化方案中的规划模块具有许多基于规则的代码,然而规则是无法穷举的,模块化方案无法应对长尾场景;而端到端模型是基于数据而非规则的,经过深度学习,模型会习得类人的处理方式且具备相当的举一反三能力,从而具备更优秀的长尾场景应对能力。
端到端已经成为行业共识,但该技术的发展也必然伴随着掣肘因素,训练模型(神经网络结构)、训练数据、训练方法(参数优化方法)、算力(云端、车端)等都是端到端技术成熟度的决定因素,其中数据又是最重要的一个。端到端模型的实现本质是一个机器学习的过程,前提是提供给计算机足够多的、覆盖面广的、优秀的学习案例。少量训练数据最多只能支撑完成demo,而端到端技术的成熟必然需要海量优质训练数据的支撑,如马斯克所说:“用100万个视频case训练,勉强够用;200万个,稍好一些;到了1000万个,就变得难以置信了。”
在解决数据掣肘方面,有两个渠道:一是来源于真实世界的优质驾驶案例,如马斯克通过FSD影子模式创建的数据闭环;二则是源自虚拟世界的虚拟真实案例,如利用世界模型(World Model)生成的驾驶场景、驾驶案例。未来各车企与智能驾驶解决方案商如何攻克数据难关值得关注。数据之外,端到端技术的成熟要求配备足够的训练算力。支持端到端模型的训练需要海量算力支持,但目前还难以支持方案到达量产阶段。
中国智能驾驶产业的发展以“车路云一体化”为设计理念,是“单车智能”+“车路协同”双线发展。2024年上半年我国L2级的新乘用车渗透率超过50%,保守估计,到2030年,L2级以上车型的渗透率将超过80%。
我国推进车路云一体化研发及应用目前存在两大主要问题:当前“车路云一体化”研发以及示范仍为初级阶段,车端系统仍然以单车智能为主,车企数据尚未接入云控基础平台;绝大部分“车路云一体化”系统仍然为烟囱型架构,未实现分层解耦、跨域共用。这也是网联式智能驾驶迄今为止尚未形成商业闭环的两大原因。未来,路侧、云侧基础设施建设任重道远。下一步发展重点在于智能网联基础设施改造,这对未来智能驾驶实现,AI超级应用率先落地的意义重大。
3.3 AI助手:AI超级应用软件
AI助手是当前最快落地的AI超级应用软件,也是“百模大战”的直接产物。对个人消费者,用AI升级办公、生活体验已经迅速成为潮流。
AI助手不仅是简单的查询工具,还是能够理解复杂的用户需求,并提供个性化服务的成熟应用:可以完成文本创作、会议记录、实时翻译、头脑风暴、PPT创作、快捷搜索、文件与图片识别、信息处理等日常工作任务。在生活中,也可以委托AI助手处理制定旅行计划、安排行程、在线购物、管理邮件、远程操控智能家居等。
微软在2023年9月推出Copilot,将传统办公软件升级为Office+AI,减轻工作负担、提高工作效率,开启了新一轮办公室生产力革命。截止2024年8月,用户已用Copilot进行聊天超130亿次,服务企业超5万家。验证了“AI+办公”商业模式的可行性。
AI助手的技术实现源自大模型的技术衍生。比如Copilot采用的是微软投资的OpenAI开发的GPT4模型,此外还利用了DALL-E 3技术,使得AI助手不仅能回答文字问题,还能根据文本描述生成相对应的图片。这也是微软能抢先占据AI办公的核心优势。
国内的主要AI助手有字节跳动的豆包、百度Comate、腾讯元宝、讯飞星火、月之暗面的KimiChat等,各自具备差异化优势。
百度Comate是专注开发者群体的智能代码助手,擅长专业代码领域、有助于推动AI原生应用落地。腾讯元宝信息覆盖全面,依托腾讯的生态系统,有微信公众号的丰富内容和原创资源。讯飞星火在语音识别和语音合成方面表现出色。KimiChat的超长文本处理功能较强,支持处理和输出达20万字的文本。豆包的优势是功能丰富、操作便捷,且在推出浏览器插件后可以随时调用AI功能,极大提升工作效率。
3.4 AI作图、视频生成
AI进行图片、视频创作的主要原理是对抗学习(GAN):通过训练两个模型,一个生成与真实数据相似的“假图像”,另一个负责判断图像的真伪,并反馈学习成果。在两个模型的对抗任务下,逐渐生成逼真的图像作品,并根据需要切换为不同的艺术风格。
AI图片生成在to C和to B端都有海量应用潜力。个人应用的创意绘画、AI写真、修图;商业领域,从新兴的平面设计、电商设计、肖像设计、到传统的服装、包装、工业领域都能实现极大的成本节省和效率提升。比如妙鸭相机在AI写真领域有一席之地,由阿里云提供算力支持,能实现照片的快速合成和调整。再比如Midjourney、Stable Diffusion在AI绘图领域也十分热门,建筑、插画、动漫、装修到线稿、商业设计等都实现了场景覆盖。
在AI视频创作领域,2024年初横空出世的Sora有望极大降低短剧制作的综合成本,解决“重制作而轻创作”的共性问题,短剧制作的重心未来有望回归高质量的剧本内容创作。Sora或许能真正为传媒、文化、游戏等相关行业的企业降本增效,广告制作公司通过Sora模型生成符合品牌的广告视频,显著减少拍摄和后期制作成本;游戏与动画公司使用Sora直接生成游戏场景和角色动画,减少了3D建模和动画制作成本。企业节省下来的成本可以用于提高产品、服务质量或者技术创新,推动生产力进一步提升,对现实的影响与改变,不可不谓之巨大。
3.5 AI教育
教育是科技和社会进步的根基,在AI教育领域美国已经提前布局,中国需加快追赶。根据Sensor Tower数据,美国AI应用市场下载量前三分别是ChatGPT、Copilot,以及AI教育软件Question AI。
教学支持上,AI能帮助教师备课、作业批改、考试出题、智能阅卷、虚拟实验等。比如科大讯飞的星火教师助手,可以设计完整的教学方案,包含单元主题、教学目标等模块化内容,智能匹配大纲所要求的学习任务。为老师节省大量时间经历,同时附带了精准、贴切的教学素材。
学生辅导方面,AI应用可以实现个性化精准学习,让学生获得和人类老师辅学相等的互动式体验。比如Question AI最核心的功能——拍照答题。AI也能充当外语口语陪练,进行电子家教辅导、作业查漏补缺等,对于学龄前教育也能起到益智和兴趣开发作用。
AI对现代教育体系也会产生变革性影响。根据美国高等教育信息化协会发布的《2024年人工智能图景研究》,比起AI带来的潜在隐患,落后于时代是教育最大的担忧。
AI有消除教育不平等的潜力,让每个学生都获得世界一流的教育。过去的教育系统是以教师为核心,基于上课时间安排去塑造学生。AI教育或将转向以学生为核心,基于不同能力、个性化的学习来产生改变。2023年,全球最大的免费教育的非盈利组织可汗学院(Khan Academy)推出了基于GPT4的AI机器人Khanmigo,对学生能提供一对一私人导师服务,对老师也能成为超级助教,目前已有超过65000名用户。2024年4月17日,我国教育部也公布了首批18个“人工智能+高等教育”典型应用场景案例,包括北京航空航天大学、北京师范大学、哈尔滨工业大学等高校成为首批试点高校,在教育教学模式创新方面探索AI应用。
3.6 AI具身智能体+软件:AI PC、AI 手机
PC、手机的芯片随着过去十年的发展已经达到相当高算力水准,与AI模型部署天然适配,是第一批可以快速落地的端侧运行AI的硬件载体。
AI PC和AI手机最大的优势在于,一方面可借助生成式AI进一步拓展能力上限,不仅响应更即时,其定制化程度也更贴近用户习惯;另一方面,内嵌AI可以实行本地化模型部署,确保了个人数据和隐私安全。
无论是芯片企业、电脑厂商还是手机企业都将“产品AI化布局”提上日程。英伟达和AMD分别推出了AI-Ready RTX笔记本、Ryzen AI架构。联想一口气推出AI PC ThinkPad X1 Carbon AI等十余款AI PC,华硕2024年推出Zenbook S16,戴尔推出XPS 14。华为HarmonyOS 4系统全面接入盘古大模型,苹果最新iPhone16也全系搭载AI大模型。
以AI PC为例,初步功能有:①辅助办公、会议纪要;②辅助创作绘画、文案生成;③个人知识库、知识问答、本地搜索。2024年Q2全球PC出货量升至6280万台,同比增长3.4%,结束了七个季度的同比下滑;其中AI PC出货量达到880万台,占总出货量的14%。
对比来看,由于PC端搭载芯片性能优于手机,AI PC渗透速度将快过AI手机。IDC预测,2024年全年AI PC的市占率或达到55%,2027年将达到85%;生成式AI智能手机2024将增长344%,占18%市场份额。
Prev Chapter:o1满血版泄露!奥数题图片推理手拿把掐,奥特曼上线剧透o2
Next Chapter:小鹏机器人前高管创业入局AI陪伴机器人,完成千万元级天使轮融资
Emperor’s Domination Chapter 4985: The Legendary Nest
2024-11-19War Sovereign Soaring The Heavens Chapter 1454 - A Panic-Stricken Zhou Qi
2024-11-16