过去 10 年,算法是移动互联网产品的最关键引擎,它创造了巨大的价值,带动了一大批产品和企业腾飞,同时也引发了争议和误解,大部分人大概都会同意,这是一把双刃剑。
随着新一轮 AI 浪潮启动,很显然,泛意义上的「机器学习」在未来 10 年还将进一步发展,变得更加重要。而与之对应的担忧则同步加码,如果 AI 的能力不断增强,取代我们工作、决策,是否会掩埋我们的价值?
从 Facebook 到抖音,以算法为核心技术资产的这代公司,它们的发展速度在整个互联网创业历史上或许是最快的,但在舆论上受到的质疑和争议可能也是最多的。不少人批评内容算法创造了信息茧房, 但实际上,推荐算法没有任何意图要让人进入信息茧房,否则就是它最大的失败。 这里的矛盾到底是怎产生的?
答案或许就藏在算法的历史中。当我们回过头,去分析它的发展历程,那些企业崛起的原因和踩过的坑,反而更容易让这个抽象的问题变得更具体。
面向未来,下一波 AI 浪潮来临之前,我们更应当想清楚,用户想要什么、需要什么,在这里面,既可能藏着下一个时代的「商业船票」,同时也可能蕴含着如何把算法变得更好的优化路径。
在近三个小时的直播里,极客公园客公园&总裁张鹏和《详谈》丛书作者、播客《高能量》主理人李翔共同回顾了内容推荐算法的发展史,探讨算法如何成为了移动互联网时代最重要的技术,引发了哪些争议与误解,并展望了 AGI 时代的未来。
以下是这次直播对话的实录,经极客公园整理后发布:
01
供给量✖️流动速率,
造就了内容算法的价值增量
张鹏:当我们要聊「基于算法的信息分发」这件事,你脑子里最先闪现的是什么画面?有什么触发你思考的点吗?
李翔:我是从一个媒体从业者角度来关心这件事的。今天大家经常讨论,社交媒体平台在公共事件里,特别是公共情绪发酵的过程中,该扮演怎样的角色?毕竟我们所有人都生活在这个由社交媒体算法影响的舆论场里。比如过去两届美国总统大选中,无论是 Twitter 还是 Facebook,都会被拿出来讨论,因为这些社交平台都在影响选民的决定。
实际上,过去每一种技术变化带动的媒介变化,都会带来类似的改变,引发讨论。比如大萧条时期,罗斯福的「炉边谈话」,就是通过广播——这个当时很先进的媒介来分发的。包括反面例子,希特勒,也是通过类似的方式来传播自己的理念,后来就有学者专门研究过技术如何改变媒介,以及如何出于公众的福祉和利益,来对媒介进一些管控。
后来美国还有过一些极右翼的神父,也会通过广播来布道、传教,引发了美国的一个大讨论,讨论要不要立法来对其进行管制。之后电视时代造就了肯尼迪这样一个「偶像式」的总统。
到奥巴马时代就已经有社交媒体顾问存在了,他们会从行为心理学角度研究,如何在社交媒体上更有效地与公众沟通。再往后,就是特朗普和 Twitter 了,大家可能知道,特朗普非常熟练地掌握了 Twitter 背后的那套信息分发机制,大家开玩笑说他是通过 Twitter 治国。
张鹏:每一波技术变化之后都会有很多吐槽,基于推荐算法的信息分发也一样。我们先梳理一下互联网时代「信息分发」的发展轴线。
最早的门户网站是结构化的信息,跟报纸、杂志没有本质的区别,都是以空间结构决定信息重要性,越在重要空间位置的就越重要;往后就是搜索引擎,用户会带着明确的需求去搜。从编辑决定版面,变成了机器帮你排列,根据你搜索关键词的相关性,加权排序;然后是 SNS,变成了关注机制,加上社交网络的传播,我能看到我关注的人发布的内容,还能看到他转发其他人的内容,形成了一个网状的结构;再往后是机器学习,字节开始推信息流。
这个过程中,信息分发从一个空间结构,越来越变成一个时间结构。因为信息非常丰富,越来越多,可能每一分钟打开,里边的重要信息都不一样。
李翔:是的,从第一代数字化的纸媒,到 SNS,再到 Facebook 和字节,其实就是媒介随着技术变迁,用户数量和内容的量也来越多,整个体量越来越大。
张鹏:我觉得「信息分发方式的每一次变化,都能长出一波新平台」,这是一个很有意思的现象。我从 1998 年开始关注这个行业,到 2013 年,我才终于觉得大概理解了为什么互联网领域的公司能创造这么大的价值增量,背后的核心在于信息的「总量」和「流动速率」相乘,最终得到了经济价值的增量。
在互联网发展的过程中,内容创作的门槛在不断降低,内容的生产增加之后,我们就需要一个更强势的、更有效率的分发机制。因为只有分发到位,才会激发更多的供给生产。最后发现,只要让内容创作者涨一个数量级,就有机会重新定义信息分发,成为新的平台。
李翔:我记得最早在微博、知乎,吸引我的完全是关注的人,但后来我发现它们都逐渐抛弃了单纯的关注逻辑,开始拥抱算法推荐,你怎么看?
张鹏:我拿我用抖音的体验来举个例子吧。抖音我最开始用的时候就是觉得很有趣,有一些我没看过但挺有意思的东西。用了一段时间之后,它通过不断的算法筛选,基本推的就是我爱看的东西了,所谓「这个号养好了」的感觉,开始有一种满足感。从「有趣」到「满足」,这是我从开始用一个产品,逐渐成为主力产品的一个过程。
但这没有结束,最关键的是接下来,它还在给我带来「惊喜」。它会基于我关注的身边的人,挖掘出更多的新内容,让我试试。后面从数据层面发现,我也喜欢,就相当于帮我扩大了接受内容的广度。
所以我后来发现,为什么一个产品能不断扩展用户,即便用户规模到了数亿的级别,我们这些比较早期的用户还在留在这里。这就是它的内容体验要从「有趣」到「满足」,最终还要能带来「惊喜」。这件事没有推荐算法引擎,是很难做到的。本质上这就是信息的总量上升,匹配的效率上升,才让抖音变得更有价值。它在努力满足我的个性化需求,我也在帮它实现平台的中心目标。
所以为什么大家最后都走向了推荐引擎这条道路,本质上还是因为用户需要个性化的服务,而这个个性化的服务并不是用户说「我要什么」,用户很多时候并不能准确表述自己的需求,而是要平台去帮用户主动扩展。
张鹏:你觉得为什么是在移动互联网时代,推荐算法成为了一个特别重要的事?
李翔:首先,第一个变化在于,我们接受信息的介质从 PC 变成了手机。因为这个「物理空间」变小,通过空间来分发信息的方式就变得非常不可行了。把过去门户网站那种索引式的、版面式的页面,放到 iPhone 那么小的屏幕上,眼都看花了。
其实不止是信息分发,当时所有的互联网平台都面临同样的问题。用空间来陈列信息,跟电商的货架也很像。货架也是物理空间,当时从大的 PC 屏幕到小的手机屏幕,电商的呈现逻辑也被颠覆了,每个公司都要找到一套效率更高、更简单和更极致的方式分发信息。只不过这个时候有算法科学家、公司敏锐地找到了用推荐算法,来更高效地推送信息,同时也让消费者能更高效地消费信息。
张鹏:是的,这过程中还有一个巨大的变化是,移动互联网时代,我们是随时在线的。智能手机可以存在于任何场景,这意味着我们接触信息的时空节点,比原来明显增加。这个改变造成了,不再围绕空间去做信息的分发,而是以时空为轴,用户获取信息的过程变成连续的了,随时可以发生。
与此同时,内容的供给量也在增加,通过微博、微信,我们需要花时间去消费的信息明显比 PC 时代增加了,变得更丰富、更加多模态。也就是我说的,信息的总量在增加,需求也在提升,这里蕴含了新的价值,必然要重新定义连接。
连接是一个效率问题,推荐引擎相比门户网站、搜索、SNS,最早充分利用了移动互联网时代内容无限供给、用户随时在线,可以通过智能手机去理解用户,用户可以用智能手机来生产内容的这一整个特点。与此同时,机器学习的算力、算法本身也在不断迭代、进步。
李翔:手机作为一个设备,它也在帮助算法机器了解用户,比如最基本的,手机能获取用户的位置信息。
张鹏:在移动互联网早期,流行过一个「船票」的概念,所有平台都在尽快完成向移动互联网的用户迁移。包括像字节,那个时候还是新公司,也在坚定地投入,跑马圈地,要把用户量做起来。
我事后思考,为什么那一波用户扩张特别重要?就是因为推荐引擎是字节的核心,需要大量的数据,内容的供给和需求之间要反复碰撞,才能越来越有效。当时机器学习的推荐引擎其实非常初级,很难精准匹配用户所有的需求。所以它需要给用户推一些不确定用户是否喜欢的内容,来帮助用户探索,即便用户不喜欢,这个成本也就是划过去。实际上用户对这件事的接受度很高,不喜欢划走就行,这对推荐引擎早期的成长,提供了很大的加持,相当于用户在帮助他构建初级的智能。
这件事对算法的发展也很关键,就是在「交互」这一层起了作用,帮助字节拿到了这张船票。
李翔:我认为所谓的「移动互联网船票」是看哪一家公司,能在从 PC 到手机的这个变迁中,真证找到先进的机器学习算法技术,然后去高效地匹配人和信息、商品,任何东西。比如像滴滴就是匹配人和车,BOSS 直聘是匹配人和工作岗位。
从这个角度去看一些 pc 时代很强的公司,但在移动互联网时代就走得有点磕磕绊绊,背后其实就是没有提高这个「匹配」的效率,你在 PC 上是输入关键词搜索,到了手机上还是输入关键词搜索。
所以真正的船票,指的不是用户规模,而是技术带来的匹配效率提升。
张鹏:当年今日头条刚出来的时候,很多人觉得这不就是一个新闻 App 吗?即便用了机器学习、推荐算法,也依然是一对新闻,甚至还没有其他新闻客户端的审美更好。很多人都认为今日头条不会有多大的高度,充其量就是另一个门户网站。
李翔:是的,后面当字节做大之后,很多人跳出来讲当年怎么错过了字节,怎么看走眼了,有各种各样的解释。
其中一个判断是说,这个赛道是做信息分发的,新浪的市值就是你的天花板,不值得更大投入。这个理论就忽略了从 PC 到手机的介质变化,以及背后的整个信息分发技术的变化,以及最终带来的用户数量级和消费信息的量的变化,这些变化把整个商业的天花板撑高了。
张鹏:「信息分发」实际上是一个非常底层的东西。当时我们认为它只是个新闻阅读,局限于这一个场景了,实际上后来当它延伸到短视频场景,抖音,我们就开始看到「信息分发」能够释放的巨大影响和能量。
02
好的分发算法,就是在
「利用」和「探索」间找平衡
张鹏:2016 年前后,业界基本都开始用上内容推荐算法了,不只是字节,包括 Facebook、Twitter 都加入了。但那个时候大家就开始会对算法有吐槽了,当时 Facebook 还引发了很多问题,你记得吗?
李翔:当时我印象里,美国的主流媒体确实都在批判以 Facebook 为代表的社交网络的各种弊端。很多批评者都是曾经在大公司里工作过的人,离职之后掀起了对科技伦理的反思。
比如假新闻泛滥的问题,因为你的算法动机是让用户更多地点击观看,而那些耸人听闻的新闻更容易被点击,这成了你们追求的目标,所以就是你们造成了假新闻的泛滥。
张鹏:你说的那一波浪潮,确实对整个 Facebook 的产品和技术系统带来了一些冲击和影响。
当时 Facebook 的系统、算法的目标设定,过于单一和极端化了,这就导致这个系统明显会出问题。因为扎克伯格他创业的时候还很年轻,从大学退学出来做的,他对于人类世界的很多理解,并不是很完善,特别是社会层面。所以他在驾驭一个大系统的时候,给系统设定的目标太单一,漏掉了对这个世界复杂性的理解。
我觉得这不是推荐算法技术的问题,而是用技术的人,你给技术设定的目标到底是什么的问题。
就像今天,国内任何一个推荐算法体系,都要做合法合规方面的规则设定,不能违背公序良俗。你不能说我的系统目标就是点击优化,将 KPI 最大化。这样肯定是不行的,这就是物理世界的真实规则,你肯定要遵守。但当年那一波,Facebook 出问题的时候,他们的工程师脑子里,对人类世界的理解可能没那么深刻。
李翔:是的,就像当时有个非常流行的词叫「增长黑客」。
张鹏:对,就是你所有的目标就只有增长,过程中考虑的系统变量不够多。这件事其实不是技术有问题。所以我觉得,一个能成熟运用技术的人,设计系统目标,运用推荐引擎算法的时候,就是要考虑到更复杂的东西,甚至主动限制算法的效率优化。
比如像现在抖音里面,有时候晚上晚一点,我刷了快一个小时抖音的话,它就会插入一个提醒,说是不是该睡觉了。一开始我觉得还挺烦的,后来我分析它这个行为是给谁看的?它牺牲了一个视频推荐的位置,那一定是产生了一定的影响。它一定不是只针对我,而是在大的用户量的数据层面,能看到用户行为的一些改变,而且这个概念不会摧毁它系统的整体有效性。
成熟的公司一定会这么看问题,不会竭泽而渔。
张鹏:还有一个大家吐槽很多的,会不会平台因为有流量,有算法推荐的能力,就可以实现想让谁红就让谁红,控制谁是下一代明星?
李翔:我们会发现,每一次内容平台的变迁,其实都在孕育不同的「红人」。
比如杂志时代,文章写得很好的记者,在博客时代可能不是最大的受益者。博客时代,当时最火的,关注量最大的徐静蕾,到微博时代也不是最红的博主。而微博时代最红的微博女王,姚晨,到了短视频时代,也并没有延续她的人气,而是又出现了疯狂小杨哥这样的素人。
这些平台在变迁、切换的时候,是不想让上个年代的人红吗?应该也不是,对吧?
张鹏:对,你要接受推荐引擎它有客观的规律,甚至这个规律都不是说背后的运营同学想改变就改变的。因为过年前后哈尔滨不是特别火嘛,我想这个模式一旦建立,是不是过完年全国各地城市都会想复制这个样板?但至少在我的时间线上,没有看到哪个城市火过哈尔滨,甚至没有第二个能到哈尔滨 1/10 的那种热度。
平台肯定很想推这件事,于自己的形象、平台价值等等都有好处,但是都没有第二个案例。这件事给了我很大释然,因为平台很想推,也未必能推红。
李翔:我感觉郭有才也一样。他并不符合一线城市的审美,但我很佩服抖音的这一点。因为如果一个平台能够不断地涌现出新的「景观」,就说明这个平台非常有活力。抖音就是这样,郭有才之前可能全网都在讨论东方臻选和董宇辉,再之前是俞敏洪老师在低谷中再次崛起,再往前是疯狂小杨哥,广东夫妇……
有一种带点阴谋论的质疑是,平台有意的每过一段时间就要造一个东西出来,不断有新的大的主播出现,不能老被那几个垄断着。当时我还在朋友圈问了,有各种各样的人给我回复。首先,郭有才肯定不是他们刻意运营的结果,不是抖音就选中这个人,给他叠加各种各样的有利的条件。
实际上,一个网红或者一个城市走红的原因是多种多样的,这里面有算法的助力,内容足够多、用户足够多,算法推荐、反馈机制足够灵敏,所以一个内容在一个小范围内非常受欢迎之后,算法就会把它推到一个稍微大一点的范围,如果依然受欢迎,就再往外扩一圈,如果都是正向反馈就不断地推。但算法在其中也不是决定性的因素,不管是淄博还是哈尔滨的走红,我们看到当地政府和民众都做了很多工作,是厚积薄发的结果,算法帮助发现和捕捉到了大家感兴趣的点,起到放大镜的作用,比如天水的麻辣烫,当地怎么也想不到把麻辣烫作为旅游宣传点,想不到外地人能喜欢。
网红的出现,归根结底是契合了某种社会情绪,平台也无法把一个人或城市从 0 到 1 推火,这个过程只能是自发的,平台也是在接住「泼天的流量」,比如董宇辉、刘畊宏,都是自发火起来的,平台接住了,共同做好从 1 到 2、到 3 的工作。
张鹏:人说了不算,当核心机制是推荐系统的时候,你给一两个流量池,如果不火,也没有办法,系统有对应的规则,你没法一直给流量。
当我们真的去理解推荐算法,就会发现它那一套规则是客观的,高速验证的循环。你的主观意愿,并不能对这件事产生直接影响,你可以输入你的意图,但最终不一定出那个结果。你总不能把算法全推翻重新改一遍,那整个系统就崩了。就像你刚刚总结的,平台可以决定谁不红,而不是真的能把谁推红,平台不像大家想的那么万能,有无限的能量。
张鹏:最近在抖音,视频号这样的平台上,你有发现什么惊喜吗?咱们交换一下,互相训练一下平台的推荐算法。
李翔:第一个是很多企业家的采访演讲,包括黄仁勋、马斯克最近讲了什么。而且短视频平台上有很多用户上传的,第一手的现场资料。比如前段时间有个很热的新闻,就是王传福在一个投资者会上,说「自动驾驶就是个骗局」。我当时看到这个新闻的时候,第一反应就是怀疑,真的是这样说的吗?我要探究一下它的出处和上下文。然后我就到短视频上去搜,就有很多用户上传的,当时讲话的现场影像。
第二个是有一些电影和美剧的解说,这是比较常见的娱乐消费了。
第三个是我在抖音上,会发现一些小众乐队的歌,被用作配乐。因为我喜欢听乐队,尤其是偏摇滚、民谣的。随着媒介变化,这些乐队发唱片,其实很难找到好的宣发渠道,就是说这个领域里有供给,有需求,但匹配不上。但我在刷抖音的时候,它会推很多这样的音乐给我,这个也挺惊喜的。包括我挺喜欢的一个乐队叫蛙池,他们在一个小众圈子里还挺火的,但我之前不知道,最早就是抖音给我推他们的旋律和歌,我才知道的。
张鹏:我也是。刚才你提到电影解说,我以前没有接触过这个所谓的「拉片」的概念。过去 DVD 上可能有一个评论音轨的版本,就是一边放这个电影,背后的导演、制作团队在那里解读,但我其实很少这么看,因为一部电影我已经看过了,然后再看评论音轨,你得特别喜欢这部电影才会这么做。但最近在抖音上,我很喜欢看那种,把一个经典电影拆成好多集,然后每一个细节反复地讲、解读,这个我特别喜欢,让我能更深层次地理解一个作品。
以及我还挺喜欢看一些科普博主的。他们往往在结合一些比较新的技术论文在做解读,用的又是我们都能听懂的语言。如果你能关注几个靠谱的人,这个比用 ChatGPT 来总结还是更有效一些。
张鹏:今天很多人批评内容算法导致了「信息茧房」,你怎么看?
李翔:我觉得信息茧房很难准确描述今天每个人信息摄入时的困境。
单纯从字面意思来看,信息茧房其实一直存在。比如古代的帝王,我们经常说他听信小人谗言,不就是陷入了所谓的「信息茧房」吗?包括平面媒体时代有一个现象,就是你从报纸上获得的信息,其实无关乎媒体公司所秉持的价值立场,很多时候是由受众的立场决定的。很多媒体就是为了迎合当地的信息消费者或广告客户,来进行内容创作的,包括美国 2016 年总统选举的过程和结果,就印证了这件事,双方信众都认为对方被媒体控制和洗脑了。所以我们每个人都生活在一个信息茧房里。
我们探究内容算法的核心原理,有两个很关键的概念,就是「探索」和「利用」。其中「探索」就是人们看到新东西的欲望,「利用」就是反复看同一个已经确定喜欢的内容的偏好。后者就有点像信息茧房。但今天,好的信息分发方式,一定会在里面寻找一个平衡,就是既有「利用」,也有「探索」。
张鹏:我非常认同。实际上,推荐算法没有任何意图让你进入信息茧房,因为如果你进入信息茧房,那就是这个推荐算法最大的失败。如果一个算法只让用户「利用」,不拿新的东西去验证,这个用户的画像就是一个静态的、不发展的,最终一定会越来越无聊,进而离开。
推荐算法如果不推动用户去「探索」,不破除茧房,它就不能壮大,拿不到更多的信息,无法赢得更多的用户时长。因为用户停留时长就是激励这个技术生长最重要的东西。实际上,跟纯关注的订阅系统相比,推荐算法反而可能更不茧房,迄今为止最不茧房的一个机制。
当然,这里有一个前提,就是这个推荐系统的目标没有歪曲。只要它是一个健康的,面向长期发展的生命体,这样的算法就不会让我们进入茧房。
这也让我意识到,「惊喜」和「探索」真的特别重要,如果一直是只看到以前关注的人,打开率会急剧下降。一个算法如果过度「利用」,而没有「探索」,用户就会变得不再活跃。
李翔:对,要不断给用户带来惊喜,对平台本身内容的供给量也有要求的。就像抖音有一段时间,在达到 600 万 DAU 之后,他们有一个很重要的策略,就是内容的「泛化」,不是只有小哥哥小姐姐的唱跳。因为唱跳内容可能会吸引很多人,但这个内容相对是比较单一的。后来他们的运营方向开始泛化之后,很多新的内容可能并不是用户喜好的最大公约数,但因为内容的泛化,随之而来的是用户的泛化和巨量增长。
张鹏:对,抖音就是这样一个案例。它最早就是一些手势舞,年轻人玩的东西,当时给人的感觉就是很有趣、很新鲜。后来 DAU 到达一个数量级之后,内部开启了这样一个内容泛化、人群泛化的运动。当时我跟他们也有过交流,抖音平台上内容涌现的能力是怎么出现的?实际上他们运营团队并不能判断谁会红,他们只能判断什么样品类的内容,需要被补充到这个系统里,所以他们会鼓励这部分内容的创作,给一定的推力。但最终内容走红,在平台上涌现,这完全是推荐引擎的作用结果。而这些流行内容的不断涌现,也印证了推荐系统的成功。
这个过程,它其实不是运营的成功。这是一个互相约束的系统,没有人有超能力。
03
未来,AI 要在算法的
基础上交付更个性化的服务
张鹏:我们刚才说了很多推荐引擎、信息分发在上个时代的变化。随着 AGI 能够更好地理解人的行为、信息,接下来我们又会看到用户提供给 AI 的,可被理解的数据增加,可能对信息分发又会带来改变,你怎么看?
李翔:从之前的演变来看,我觉得还是想看媒介的终端会怎么变化,这个技术与人如何交互。因为过去我们可能看一本杂志,到 PC 时代的网页,移动时代的超级 App,未来可能是一个 AI 助理?
张鹏:我觉得首先还是要理解用户的需求。比如抖音理解我们的方式是统计我看了什么,哪些视频看了,哪些划走了,哪些评论了、搜索了。
今天的大模型是以语言模型为基础实现突破的,最近有一个词很重要叫 life stream,生活流。它的终极形态是通过各种新的,分布式的传感器,来和我们的感官同步获取信息。我们今天觉得抖音已经了解我们很多信息,因为我们在上面花了很多时间。但还远远不够,远没有到「懂我的生活」的程度,无法交付给我更个性化的服务。所以我相信比如字节也在衔枚疾进地通过大模型,在 AGI 时代进化它的技术。
因为下一场革命,也就是可被机器低成本高效率理解的数据,和可被交付的数字化服务,又要爆发了。不管是供给侧还是需求侧,很快会连锁反应地变化,以数据为中心,