“生成式AI”的浪潮持续席卷全球。
ChatGPT之后,谷歌、百度、字节、商汤、科大讯飞开启了“百模大战”;随后浪潮席卷到应用层,让郭德纲飙英文、让霉霉说中文的视频刷屏朋友圈,“妙鸭相机”火爆全网,9.9元实现AI写真自由。不仅如此,AI数字人还代言了品牌、出演真人影视剧;打开短视频平台,各种AI主播攻占直播间……在刚刚结束的CES 2024上,全场馆都卷起AI硬件海啸,Rabbit大放异彩,AI PC重构终端。
和其他科技浪潮不同,这一次,从技术突破到走入实际应用,外界感知的时间大大缩短,眨眼之间,AI数字人就来到了我们身边。
2023年12月,AIGC数字人行业的头部公司硅基智能与科普博主严伯钧合作,打造了一个从形象到思想全面AI化的数字人博主。也就是说,向“AI严伯钧”提供任意一篇学术论文或者新闻事件,它均能以真人严伯钧的思维模式、谈吐风格和手势动作创作出一支科普视频。这意味着AI朝成为鲜活生动的“人”又迈进一步。
翻看严伯钧的社交平台,近三十天内更新的科普视频几乎都是由AI出镜。对严伯钧本人来说,应用数字人后,内容的创作效率和更新频率得到了极大的提升,而他只需每天花十几分钟审稿并简单修改,AI严伯钧可以独立完成大部分的视频产出工作。
在AI严伯钧最早更新的几期视频里,还是有“铁粉”凭借眨眼幅度、衣服款式等细节依据分辨出哪个是真人、哪个是AI。结合着这些用户反馈,硅基智能也在不断迭代调整,力求做出一个与百分百与真人无异的AI数字人。
硅基智能创始人兼CEO司马华鹏告诉「深响」,AI严伯钧的意义并不是把形象和思想简单复刻,而是要看到更长远的未来。
“就像是自动驾驶,今天很大程度上还是真人开车,但是未来自动驾驶的意义远高于个人开车的意义。AI数字人也是一样,尽管技术还有些许不完备的地方,但这肯定是未来的趋势。”
AI严伯钧
数字人克隆从形似到神似
司马华鹏将数字人克隆分为三个阶段:数字孪生、数字原生和数字永生。数字永生是克隆的终极目标。
大家比较熟知的刘润、江南春等大V企业家的数字人,是硅基分身的代表,主要克隆的是声音和形象。创作者向硅基智能提供一段3到5分钟的视频,便能生成出一个形象、声音和动作一致的数字人。在应用方面,数字人省去了创作者出镜、口播、拍摄短视频的过程,只需要输入文本就能自动生成短视频。
AI严伯钧的诞生意味着数字人来到了数字原生阶段,除了形象和声音外,还能实现思想上的克隆。那对应着来说,AI不仅要“形似”,还要“神似”,拥有和真人一致的思维逻辑能力。
这个过程中,硅基智能负责形象与声音训练,严伯钧团队负责思想训练。
严伯钧告诉「深响」,思想训练并没有想象中困难。作为一位科普博主,他有一千多支过往视频、一百多万字的语料,可以持续“喂养”AI,让AI不断学习,思维和写作方式向真人无限靠拢。比较具有挑战性的是声音训练,因为他的视频风格偏向于幽默风趣,需要把枯燥高深的知识理论用有趣的方式讲出来,语调的抑扬顿挫会更丰富、且极具个人特色,AI要“习得精髓”,对“底层技术”的要求也就更高。
在技术应用向前奔袭的同时,支撑的底层大模型也有了初步的进展。
去年五月,硅基智能自研的炎帝大模型上线,和市面上常见的语言大模型不同,炎帝主要做视频的“表达层”,负责数字人的形象与声音输出,并支持直播、短视频的自动化生成。司马华鹏表示,有了大模型支撑,仅需要一段1分钟的视频便能实现对形象和声音的自动化复刻。
“去年年初的时候,数字人跑得比较急,这就相当于木桶的长板,大模型是短板;现在大模型起来后,整个木桶的长板和短板都拉齐了。”
大模型支撑+技术升级,AI数字人在实际应用过程中也给创作者和行业带来了高溢价。
对于创作者而言,可以节省时间成本、提高创作效率。数字孪生阶段,AI产出视频已经节省了写稿、录音的过程,用一段音频便能驱动生产;而在新一阶段,写稿和录音的时间直接省去,只用输入想写的选题,AI便能直接生成文字内容,创作者仅需做好审核把关的角色——是否有逻辑混乱的地方、列举的例子是否合时宜、新闻解读是否真实和严谨。
之后再把修改好的内容放到硅基智能提供的引擎里,内容生产到视频发布几乎全流程“自动化”,视频创作的时间可以压缩到一小时以内,效率比真人创作有了明显的提升。
在“提效”以外,严伯钧认为AI具备可以超越人的知识储备的潜力。“我作为一个普通人,哪怕是拍了1000多集,我的知识总有不够的时候,它是存在上限的,相比之下,AI的语言模型应用了全网素材,具备海量的知识储备,且储备还在持续更新,所以我的数字分身在学会了我的讲解方式后,在内容的深度与广度上,是会给用户带来更大的价值的。”他坦言。
不止如此,硅基的炎帝大模型与AI数字人生产对行业也有借鉴意义。任何领域、任何圈层的博主、大V都能基于炎帝大模型做AI克隆,让内容生产变得自动化、高效化,“数字原生”也不再只是孤例,而是能人人可做、持续复用。
摊薄成本、技术成熟,
商业模式大变革
不管是大模型训练,还是新技术升级,这都是一个极“耗钱”的事情,需要巨额资金来支持,比如OpenAI的语言模型GPT-3,成本接近500万美元;司马华鹏也透露,硅基智能数百人的团队,其中研发队伍占比接近70%。
投入了巨额资金后,企业自然需要一些必要的商业化举措来达成回收成本的目的。这里也就衍生了一个对商业化路径的探讨:AI产品的变现方式是To B还是To C?To B是提供定制化服务,To C就是SaaS逻辑,走付费订阅。
硅基智能是行业内最早布局AI数字人的企业,最初的商业模式是以To B和To G为主,为政府、大V以及品牌商家提供AI数字人克隆服务,数字人形象克隆产品定价统一为8000元,通过标准化的价格和服务扩大市场份额。硅基率先定价后,之后行业的新入局者大多贴着8000元的定价往下走,因此市场上的售价参差不齐,从几百到几千不等。
入局者变多,通货膨胀,“降价”也成为必然。但其实不管价格怎么降,B端的大V和商家数量有限,想要实现用户量的拓展,To C是必然的路径。在此次采访中,司马华鹏告诉「深响」:新一年,硅基智能考虑尝试新的商业模式,去掉8000元的使用门槛,用户只需每年付费几百元,便可以得到一个AI数字人。
“我们考虑新的商业模式也是基于科技平权的核心逻辑,我们先服务那些大V,就是想通过他们把技术变得更完善,当技术完善到一定程度,就敞开大门,人人都能使用。就跟现在新药出厂一样的,可能一开始比较贵,那过了一年之后,摊薄了研发成本,其实很容易把成本降下来。”司马华鹏说。
用户付费订阅的路径其实在海外已经走通了。目前ChatGPT有两个付费计划,一个是面向个人用户的ChatGPT Plus,另一个是面向大型企业的ChatGPT Enterprise;Midjourney的商业模式也是以付费订阅为主,为用户提供了三个选择标准:10美元/月、30美元/月、60美元/月。
有了“前人”的经验,在司马华鹏看来,AI数字人跑通付费也只是时间的问题。“人工智能时代,核心是从信息互联网到服务互联网,它是个服务,只要我保证我的服务质量和服务的效率,大家还是愿意付费的。”
在尝试新的商业模式之前,硅基智能先后与B端的不少头部企业开启深度合作。比如在电商领域和谦寻成立控股公司,在文娱领域与乐华达成深度合作。司马华鹏将这些举措解释为“B2B2C”的打法,头部企业像是“战略高地”,拿下战略高地后,头部的用户和粉丝随之能转化为硅基智能的用户。这也是扩大用户范围的一种方式。
此外,其实B端的不少头部企业都属于内容公司,某种情况下这也是一种“互补合作”。硅基智能擅长科技,可以提供技术支持,乐华、谦寻有内容,有主播和艺人,双方合力,给AI数字人带来了新的呈现可能。
去年司马华鹏在采访中曾分享过“到2025年为全球提供1亿硅基劳动力”的目标,如今不管是尝试新的商业模式扩大范围,还是加大对内容运营的重视,这个目标的实现进程也在缩短。他预计,1亿劳动力的目标会在今年提前实现。
以下为「深响」整理后的部分访谈实录:
【关于严伯钧数字人】
深响:双方合作的契机是什么?有没有一些合作细节可以透露下。
严伯钧:我当时的初衷一方面是想证明自己团队的AI能力,另一方面觉得AI对用户来说在知识层面上有更大的价值。
之前一直在网上看到很多硅基智能做的很有意思的数字人案例和AI技术视频,当时跟硅基并不认识,我就发了个朋友圈问“谁认识硅基智能的人?”马上就有朋友给我介绍司马总,中间过程就很顺畅:发了朋友圈后1分钟内介绍、拉群,迅速打了一个6分钟的电话,整个合作过程大概10分钟搞定了。
合作确认后,就进入调试过程,差不多前后调了大概一个多月时间。大致分为三个方面,一是形象的训练,二是声音的训练,还有就是思想的训练。形象跟声音的训练是硅基智能这边在做,思想训练主要是我的团队在做。整个过程中我们发现挑战最大的是声音克隆。
思想训练就是让AI用我的方式写文案,这个也有一定难度,好在我是一个有非常丰富过往语料的博主,所以训练起来还是很快的。形象方面更不用担心,硅基智能的技术已经非常成熟了。声音训练是重点提升的部分,为什么呢?我作为一个科普博主,演绎的方式是比较有个人特色的,声音抑扬顿挫会比较多,所以说要AI来学的话,还要花一些功夫,通过不断地学习和训练,效果越来越接近我本人。
司马华鹏:因为严伯钧老师本身是一个科学工作者,做知识传播,所以他对技术的认知,包括他的理解、对新事物的接受度,包括他愿意在这上面去呈现自己作为一个最先进技术的使用者,综合来看,他对AI技术的应用和普及是有强烈的推动力的。
深响:之前您介绍称严伯钧的数字人大模型是从性格、语言风格、知识储备等方面1:1真人级可对话的,和之前做过的刘润、江南春等数字人的生产过程有何不一样?
司马华鹏:2022年11月份,我们有一个刘润数字人的发布,他是我们推出来的第一代数字孪生,主要是把刘润老师的声音和形象克隆出来。这一次跟严伯钧老师合作,已经到了数字原生的阶段,加入了思想克隆,严伯钧老师的文章都是用AI 写出来的。从最早我们叫形似,那现在叫神似了,把整个人从外到内给克隆出来了,对于行业来说是一个重要的突破。
最早制作数字人需要大概5到10分钟的视频来克隆,现在跟严伯钧老师合作,只需要大概不到1分钟的视频就可以了,通过这1分钟的视频,我们可以学习到他整个的声音和形象,之后再把严伯钧以前发表的所有的视频、包括文字,我们拿出来学习,这就是对他进行思想克隆的一个过程。我们把这看作是数字孪生到数字原生再到数字永生的一个逻辑。
深响:去年硅基自研的炎帝大模型上线,在严伯钧数字人克隆的过程中是怎么应用的?
司马华鹏:之前AI数字人缺少文本大模型的加持,今年我们自己的大模型出来之后,相当于拥有了一种能力,当学习了一个人的资料之后,我们可以基于学习的内容扩展更多新的领域。比如说最近我们出了一个新的事件,我们让严伯钧的大模型去评价一下,这样就形成了一个从内容到视频到发布都是全自动化的一个逻辑。
深响:我在翻看严伯钧的B站、抖音评论区的时候,观众还是很“火眼金睛”能识别出哪个是AI、哪个是真人,会有各种细节依据。您觉得现在数字人技术如果再向前一步,突破点还会有哪些?
司马华鹏:严伯钧老师是一个大V,本身观众就比较多,熟悉他的人都很了解他的风格。但其实我觉得这件事最大的意义,就像是今天基本上都是真人在开车,但是未来自动驾驶的意义将远远高于你个人开车的意义,尽管现在的自动驾驶可能还不太完备,但它肯定是未来的趋势。AI数字人也是,从去年到今年,我们一直在做技术迭代。
关于突破点,大部分用户其实是分辨不出来了,但少数的细节上还是能够看出来,所以这个真正的目标也非常简单,从图灵测试角度讲,哪一天严伯钧、刘润这些博主发视频的时候,大家分辨不出差别也不在乎是否是真人的时候,就表明是成功的了。
严伯钧:我觉得这是一个不断进步迭代的过程。任何产品投放到市场,都要看用户的反馈,再根据用户的反馈不断提升和完善。其实说句实话,为什么有很多用户能看出来?是因为他们太熟悉我了,我之前发了太多视频,如果是一个路人或者说是根本不认识我的,我不说这是AI,大家是不会往这方向想的。在这个过程中也可以看到我们的视频根据用户的反馈是有逐步的提升的,包括眨眼这些细节都在调整和完善中。
我们跟硅基智能合作的一个出发点,绝不是简单地说把我的形象复刻一下就结束,我们是能够看到未来的,AI数字人能够做出超越人类做的事情。
硅基智能不是一个新公司,很显然跟他们合作的博主我也不是第一批,为什么到现在这个节骨眼上合作?关键的一个核心点就是我们觉得不光从形象上、从内容上AI也具备了学习人、模仿人、超越人的能力。
深响:从创作者角度看,之前创作一条视频的过程和时间是怎样的?应用了数字人之后,在产量、质量和效率上有何提升?
严伯钧:其实视频制作不是个人行为,已经是团队的行为,对我们这种口播类博主来说数字人提升的效果是很快的。
最明显的就是视频制作这一块,跟传统的方法比,现在制作的时间基本可以忽略不计,就是点个按钮loading的时间。那在内容这一块,我们跟硅基智能的合作主要专注于AI产生内容,现在AI输出的文字稿,还不能做到人完全不看,但基本上大概看个10分钟、大致做一些修改,再放到硅基智能的引擎里面,效率是很快的。
修改有这么几个点,一个是看有没有逻辑错误,这是最重要的;二是举的一些例子、开的一些玩笑,会不会不合时宜,如果是新闻类型的,例如科研界又发生什么大的新闻,它通常来说都会出一篇论文,那对论文的解读在真实性、严谨性上是不是过关的等等。
【关于AI数字人的商业模式】
深响:其实行业里做数字人服务的公司也越来越多了,硅基智能的优势是什么?
司马华鹏:硅基智能是比较早入局的公司了,本身在行业里面我们所积累的客户也比较多,基本上大家评价下来就是硅基的数字人效果最好。当然我们也知道因为是先做这件事的,给出了一个定价之后,大部分企业都贴着我们的定价往下做,所以大家就是说我们行业里面价格比较高的。
但新一年我们想的是可能会把数字人的8000元的定制门槛砍掉,会走新的商业模式,这个实际上是一个很大的变革。
深响:这种新的商业模式是不是也意味着开放给了C端用户?为什么决定去做付费订阅了?新的定价模式有没有确定?
司马华鹏:我们核心的逻辑还是基于科技平权,要开放给更多人使用。我比较喜欢德鲁克的一句话,16世纪只有英国女王能穿丝袜,但是经过工业革命之后,普通的女工都能穿丝袜了。我们现在也希望像严伯钧、刘润、江南春他们用的数字人老百姓也能用到,这件事情是我们今天坚持做技术研发的一个非常重要的原因。
你看ChatGPT人家这么大的这个投资也才一个月收费十几美元,我们后面也是这个节奏,基本上也会收很便宜的钱了。比如起步价就是298元,类似于你花298元就能用一年,从早期的大几千到现在的二三百,还是比较好的一个突破。
深响:参考长视频和音乐平台,他们做付费教育做了十几年,硅基数字人面向C端之后,有担心用户对AI产品的付费意愿和接受度吗?
司马华鹏:因为这条路已经在海外走通了。SaaS按月付费包括AI产品付费订阅,我觉得这个事情并不是非常难。人工智能时代的核心是从信息互联网到服务互联网,它是个服务,只要我保证我的服务的质量和服务的效率,其实大家还是愿意付费的。
服务本身就是对于所有人而言,一定是因为技术让大家都降低门槛,我们先服务那些大V,核心就是帮我们把技术更完善。当技术完善到一定程度,价格就会降下来。就跟现在新药出厂是一样的,新药可能一开始都比较贵,那过了一年之后,大家已经摊薄了研发成本,我们就很容易把成本降下来。
深响:降价对普及产品应用来说是有好处的,那盈利这块会受影响吗?研发投入会随着价格变化而变化吗?
司马华鹏:人工智能这件事情我们已经做了六年了,资本、市场都很支持我们发展,(盈利)这块我们倒是不担心,因为本身我们还是想扩大用户基数,而不是说我们在这里面只服务这些头部的大V和博主。
研发上,我们的团队占到整体员工的70%,主要应用于AI技术的更新和迭代。可以理解为我们在早期的时候训练出来了一个成熟的版本,之后我们再应用,就用成熟的版本就可以了,不会再有更高的投入了。
深响:之前您在接受采访时提到过一个目标,说2025 年结束之前给全球提供1亿的硅基智能劳动力,那我们现在进展到哪一步了?
司马华鹏:今年我们可能有机会提前实现这个目标,因为现在把数字人做成免费了,价格降低很多。这也是为什么我们一直在倒逼自己的降价,你太贵的话,那你距离目标就越来越远了。
深响:我看去年硅基也和很多头部公司合作,比如在电商领域和谦寻成立了合资公司,在文娱领域又和乐华达成了协议,和每个领域的头部进行合作的这种模式对于数字人的应用和推广来说有哪些优势?
司马华鹏:比如现在我们跟中国移动合作,它的几千万用户马上都能用到我的数字人了。我们跟乐华合作,那有可能王一博的粉丝很快成为我的数字人用户。这个实际上是一种叫B2B2C的打法。我觉得各领域的头部企业属于是一个战略高地,你拿到这个战略高地之后,你就能俯冲,这是核心。
深响:去年初数字人刚火的时候大家应用数字人的共识是比真人主播便宜,使用后能够提升效率、降低成本。您怎么看待这样的说法?
司马华鹏:我觉得这不是一个便宜的逻辑,如果走到便宜逻辑的,大部分都会失败。你像严伯钧对选题、内容要求是非常高的,AI数字人的应用最大化节省了他的拍摄时间。
我们今天看的一些世界级的电影,可能要花3到5年做后期制作。内容产业本身是一个深度投入的逻辑,数字人就像是很多的影视制作技术一样,它能帮你去节省时间和成本,但是它不是说把这个钱省下来装进口袋变成利润。
所以我们一直跟所有的客户讲的核心逻辑是什么呢?比如说你原来每天都要直播,一年直播200天,你每天投入的这些成本现在放到数字人里,省掉的钱可以投入更多到内容创作上。所有东西本质都是一个投入产出的逻辑,在投入产出比不变的情况下,如果投入很少,但能产出很多,那这就有点像买彩票了。追求这种低概率事件,我觉得也很难。
如果我今天做了一个粗制滥造的内容,哪怕数字人做得再好,但是说出来的东西空洞无物,那也很难能打动客户。对于真人主播来说,内容是核心竞争力,换了数字人也是一样的道理,只是表达形式的差别。表达形式上数字人可能会节省点时间,但是你在内容上为了做的更好可能会花更多时间。我们最早就是希望能把这个省下来的钱用在其他地方,整个预算是不变的。
深响:之前大家可能提起硅基智能是技术性的公司,那您怎么在定义之后的硅基?
司马华鹏:我觉得硅基不是一个技术型公司,我们叫劳务输出型公司,输出的是硅基劳动力。你可以理解成最早输出的是扫地阿姨,主要做的是力气活,慢慢地输出销售,再慢慢要变成一个金牌销售,或者可能出一些像清华北大的高级人才去服务客户。我们输出的员工素质在提升,本质是没有变的,只是我们向更高级的工种去发展。
深响:去年12月,抖音又针对部分不规范的数字人行为发布相关政策,那这种平台的要求对于行业的入局者来说有哪些影响?
司马华鹏:因为2022年我们开始推数字人直播,到现在变成全民火爆的一个AI项目。(抖音发布相关政策)这个事情其实是好事,因为本身我们跟抖音一直在深度合作,如果抖音不管的话,就跟当年AI电话最后变成骚扰电话,最后变成国家出手管制是一样的。
抖音其实制约的不是数字人,而是垃圾和劣质的内容,他们很多高管跟我聊的时候都提到,他们的原则是一致的,抖音要约束的就是内容的粗制滥造,你看像柳夜熙,永远不会被约束,因为是非常优质的内容。但有很多中小商家,应用数字人后有的甚至连话术都不愿意改,每天都放一样的东西,那抖音当然是反对的。
【关于AI数字人行业的发展与展望】
深响:硅基大概从2019年就开始做数字人,然后从您的感受来看,从开始做到现在技术、大众态度有了哪些变化?
司马华鹏:我们2019年到现在,秉持的思想一个是科技平权,另一个是图灵测试,这两个原则我们其实一直在遵循。
最早我们可能需要30分钟的视频才能克隆一个数字人,那现在可能到三分钟、两分钟、一分钟,甚至30秒,我们都可以克隆。声音也是从原来需要半小时,现在可能需要5秒钟的声音就能克隆。这都代表着我们整个技术的一个升级。
深响:对于AI数字人未来的发展趋势,能否做下预判和展望。
司马华鹏:还是我刚才说的,一个是图灵测试,永远不要看上去一眼假,做到让客户无法识别出来这是个AI;另一个是科技平权,让更多的人得到普惠;第三个其实核心是围绕着知识产业,让知识像自来水一