一
《黑神话:悟空》上线之后,各大资讯平台出现一批奇怪文章。
它们开篇讲“震惊”,全文说“震撼”,然而没评测、没细节、没结论,如大圣爷毫毛化猴,面目雷同又空空如也,最后汇入百亿流量之中。
类似场景已成常态。全红婵跳水时,它们齐喊“真牛啊真厉害”,樊振东逆袭时,它们齐叹“如流星划过巴黎夜空”。
陈若琳骑电动车接全红婵,它们写了一千多字废话,探讨“如何树立正确的价值观和行为准则”。
几天前,异形新电影上映,它们这样写道:
《异形夺命舰》犹如一艘穿越星际的票房巨轮,在暑期档的浩瀚影海中破浪前行。
它们辞藻华丽,但言之无物;它们会用修辞,但马嘴驴唇;它们善用固定套路,但从无中心思想。
它们由AI大模型昼夜产出,铺满我们的世界。
纸媒时代,如此文章绝无可能上版;论坛时代,通篇废话自然会沉。然而当下,在碎片和流量洗刷中,在算法和AI合谋下,污染开始了。
最开始只是洗稿,工作室辗转用上GPT,模仿文风,抄袭脉络,替换词汇,但终究还需人工编辑。
后来扩写流行,几句话的新闻,可填充废话,变成千字文章。国内大模型普及后,更势不可挡。
文心擅写百家号,豆包能写头条号,元宝更懂公众号,工具无疆,用者无畏。
堆砌而出的AI文章,最后要靠标题引流,标题也是AI起的,批量爆款标题,任君选择。
小红书上AI文章总结AI写作:只要会电脑,一天生产一百条爆款!
6年前,做号团队尚叫“内容农场”,有工作室设在山东北部农村,农妇运指如飞,日产文章10篇以上。
她们有着流水线套路:明星动态开头,填充背景资料,最后加几段口水看法,标题要亮眼,行文要简单。
最后,还有人开发出“一键伪原创”洗稿软件,躲避平台查重。
然而当年,做号团队的应届生,并不看好低质内容未来,“以后肯定会越来越少。”
他错了。6年后,低质内容正在泛滥,做号不用蜗居山村,写稿不再雇佣农妇,AI发文已没有了门槛。
滑动中,文章列表从鱼蛇混杂变为满屏荒唐。冗长文字中,信息量需自行发掘。
战场动态不知战果,凶案报道没有凶手,观影评论没有观感,有文章评测三款手机,罗列一番后写道:
这三款手机虽然各有特色,但也都不乏争议。或许,我们应该从一个更宏观的角度来审视它们。
今年1月,网传西安有巨大爆炸声,警方最终查出谣言来自江西南昌一家MCN,他们用AI日产7000篇内容,真假难辨。
清华大学新闻学院报告称,近一年来,经济与企业类AI谣言,增速高达99.91%。
海外同理,美国调查机构“新闻守卫”称,生成虚假文章的网站数量自2023年5月以来,激增了1000%以上,涉及15种语言。
如果说,当年算法推荐下,信息如茧房,那么当下,信息已成浊浪。
很多年前的夏天,清瘦的语文老师在黑板上写下,“蓬生麻中,不扶而直;白沙在涅,与之俱黑”。环境会改变一切。
那么被浊浪冲刷的我们,会改变什么?
二
AI污染的不只资讯。
知乎邀请回答列表中,大量回答都充斥AI味道。从罗马历史、音箱推荐到量子物理,AI无所不答。
机器生成的答案,保留着出厂特征:内容空洞、行文生硬、思维跳跃,最后爱加“综上所述”。
同样AI味也弥漫小红书。深夜的美女、卖萌的猫咪、不可发朋友圈的细糠,都可能是AI生成。
有男生见海边泳装少女,心生爱慕,私信未果后,放大图片,发现照片女子有多根手指。
经验贴里,有人传授“40岁的女人”起号方法:找到对标账号,下载别人照片,用AI图生图,一个虚构女人便诞生了。
虚构的40岁女人,用AI文案表达着岁月静好,灵活用着表情符号,并能带货保健品。
AI角色也活跃在评论区。微博上,AI机器人四处尬聊回复,有用户抱怨,拉黑都拉不过来。
他曾回复头像是孙悟空的AI,“有什么方法把你们这些AI都屏蔽掉吗?”
AI给了一个最具人味的回答:哈哈,你屏蔽不了俺老孙!
百度贴吧有个相似产品叫“贴吧包打听”,一年多发帖42.4万,吧友不堪其扰:
几乎每个游戏求助帖里,都有包打听身影。但如果仔细浏览包打听的言论,那么会发现它写的玩意99%都是胡编的。
有人发帖询问“如何关闭贴吧包打听”,包打听冲进来回答“建议在百度贴吧发帖询问如何关闭贴吧包打听”。无限套娃。
许多事情都在污染中丢失本来面目。
商品好评是AI,饭店长评是AI,AI已编织迷宫,举目难辨。
迷宫的砖石并不只是文字。
短视频平台上,“做人要有城府”的俄罗斯美女,“人生八个真相”的鸡汤导师,“不生孩子如何养老”的中年阿姨,都是假的。
形象是AI克隆的,声音是AI模拟的,文稿是爆款洗稿后,批量生成的。
视频质量差,但胜在海量,铺天盖地。
最后,连网文也开始沦陷。
今年7月,有小说平台上,出现多个疑似AI作者,ID“江沅说书”,近3个月内上架266本小说,更新速度远超人类。
小说开头基本雷同,多为“熙熙攘攘的街道,阳光如何如何”。
去年夏天,美国多家媒体报道“AI图书正在淹没亚马逊”。亚马逊“青少年浪漫”销排行榜前100本电子书中,八成语无伦次,疑似AI。
有人读一本AI写野生蘑菇的电子书,里面写识别蘑菇要靠味道,纽约真菌学会吓得出面呼吁:
“请只购买已知作者和美食家的书籍,这可能关系到生死”。
浊浪正遍布各个领域,我们看的新闻,看的书,刷的视频,读的回贴,查的评价,甚至交的网友,都涂抹着AI油彩。
这是当下的浮世绘,真伪不知,哭笑不得。
三
污染最后殃及AI自身。AI正用自己生产的垃圾,训练自己。
今年5月,谷歌推出AI概述,宣称不用再看网页,AI汇总,直接给出答案。
然而,AI告诉网友们:
人一天至少要吃一小块石头,披萨要加胶水防止奶酪掉,一只狗曾经打过NBA,奥巴马大学毕业了21次。
那些答案汇总自很多年前的帖子,AI不懂人类的幽默,最后调侃变成了答案。
比抓取旧贴更可怕是抓取AI结果。
国内曾有大模型,生成2000万条AI内容,被谷歌抓取。
结果啼笑皆非。在AI理解中,中国男足曾夺世界杯,因为有详细全程;福建人惧怕广东人,因为自身安全。
微软必应上搜索《肖生克救赎》主角,AI一本正经说:男的叫小帅,配角叫老黑,女主通通叫小美。
它抓取的是AI生产的3分钟介绍电影脚本。
搜索引擎的荒唐只是表象,更大危机来自大模型训练。
美国教授安德森计算,人类投喂大模型的高质量阅读材料,将在2027年耗尽。
事实上,人工内容已跟不上AI训练胃口,当下,许多大模型已用AI训练AI。
然而,深度学习之父辛顿称,如果AI的训练数据是垃圾,那么它输出的也将是垃圾。
论文显示,2023年6月GPT-4任务表现急速下滑,500道高数题目,3月份答对488个,6月只对12个。
工程师发现,用AI训练AI,模型会出现不可逆的缺陷,最终陷入瓶颈,只能输出垃圾,研究人员做了一个比喻:
就像用塑料垃圾散布海洋、用二氧化碳攻占大气,我们即将用废话填满互联网。
趋势已经出现。马斯克吐槽说,AI生成信息已污染互联网,“2023年AI普及前的搜索结果,相比来说会更靠谱。”
ChatGPT的数据源截至2021年9月,在那之前的互联网,可能是我们最后的净土。
而眼下,一个黑色螺旋正在运行:因为AI污染,原创减少,而原创减少后,AI缺乏训练,自噬自身,只能继续生产低质垃圾。
长久以来,我们一直忽略了另外一种可能。
我们以为AI带来的未来,崭新高效,虽然有失业冲击,但世界进化。
然而,或许还有一种可能,一切没有变好,我们面临的是垃圾围城。
1859年4月,伦敦灰雾中,路人展开杂志,狄更斯《双城记》第一句映入眼帘:
这是一个最好的时代,
也是一个最坏的时代;
这是智慧的时代,
这是愚昧的时代。
这是被引用过无数次的句子,但AI不知道,用在这里最合适。
Prev Chapter:英伟达发布80亿参数新AI模型:精度、效率高,可在RTX工作站上部署
Next Chapter:Meta公司发布Imagine Yourself:无需为特定对象微调的个性化图像生成AI模型