以下这组图,你能分辨出哪些是电影截图,哪些是AI生成的图像吗?
Midjourney生成图像与原电影截图对比
答案揭晓——左边一组是电影《复仇者联盟3:无限战争》中的画面,右边一组则是由AI图像生成器Midjourney V6生成的,使用的提示词也很简单:无限战争灭霸,2018,电影截图,电影场景,4K,蓝光,16:9,V6。
智东西1月16日报道,近日,生成式AI产品中的“视觉剽窃”问题引发热议。许多用户发现,只需输入类似“某电影中的截图”“来自某作品的场景”等提示词,Midjourney V6、DALL-E 3等图像生成器就会生成极为还原的图像,达到以假乱真的程度。
为了研究这一现象,AI科学家加里·马库斯(Gary Marcus)与电影概念艺术家里德·索森(Reid Southen)进行了大量实验,并将结果整理成文章,于1月7日发表在在工程和科学杂志IEEE Spectrum上。
实验结果显示,Midjourney V6与DALL-E 3都存在大量的视觉剽窃现象,且用户无需使用具有明确指向性的提示词,甚至只输入“电影截图”这样一个简单的单词,便可生成堪比原作的图像。
那么,AI生成的图像与原始图像究竟有多相似?使用什么样的提示词能够得到这些图像?作为开发商,Midjourney和OpenAI对此现象采取了什么样的做法?有没有什么方法可能规避这一问题?马库斯和索森在文章中详细解答了这些问题。
01.
无需指向性提示即可生成电影画面
卡通、三维、真实场景都能复制
去年12月21日,Midjourney开启V6模型的Alpha版本公测,用户可在设置的下拉菜单中选择V6或在提示词后添加“--v 6.0”使用。
然而发布后没多久,就有多名用户发现了该版本的侵权问题。设计师多根·乌拉尔(Dogan Ural)在社交平台X发帖称,只需输入“蒙娜丽莎”,Midjourney V6就会生成几乎与原作品一致的图像,而这一现象在上一版本V5.2中还不存在。
蒙娜丽莎原作与Midjourney V6、V5.2生成图像对比
在IEEE上发表的文章中,作者对Midjourney V6版本进行了三轮实验。结果表明,无论是直接使用电影作品名称,或是间接描述出影视角色的特征,还是完全不带有任何指向性提示, Midjourney V6都能生成与原始作品相似的画面,且卡通形象、三维动画、真实场景都能无差别复制。
1、使用与商业电影相关的直接提示
在第一轮实验中,索森首先使用了带有电影名称或相关关键词的提示词。
例如下图所使用的提示词为:给我看看2018年的电影《复仇者联盟:无限战争》中的截图,电影进行到一半,2:1,V6,原始模式。
Midjourney生成图像(右)与原电影截图(左)对比
如果说单人画面的“雷同”还存在偶然性,那么上图的群像画面中,连每个人物的位置都几乎一致,就很难用“纯属巧合”来解释了。
下面这组图的一致性则更为夸张,所使用的提示词为:《沙丘》电影截图,2021,《沙丘》电影预告片,16:9,V6。
Midjourney生成图像(右)与原电影截图(左)对比
从人物、背景,到整体画面的色彩基调,甚至被风吹动的发丝走向,都达到了惊人的相似度。
模糊的提示词也没能影响Midjourney的“复制粘贴”行为,如下图用到的提示词为:斯嘉丽·约翰逊,《黑寡妇》战场,2021,电影截图,电影场景,官方,16:9,V6。
虽然索森在提示词中拼错了约翰逊的名字,把“Johansson”写成了“Johannsen”,但生成的图像仍与电影截图非常相似。
Midjourney生成图像(右)与原电影截图(左)对比
除了电影以外,Midjourney也能复制游戏中的场景。下图的提示词为:《最后生还者2》,艾莉在树前抱着吉他,16:9,V6。
Midjourney生成图像(右)与游戏截图(左)对比
2、不提及作品名称,采用间接提示
在第一轮实验中,作者直接引用了影视作品名称,这表明Midjourney会在用户知情的情况下,创建受版权保护的内容。这也引发了下一个问题:如果用户没有刻意去创建版权内容,是否可能会在无意中侵权?
于是在第二轮实验中,马库斯与索森避免在提示词中直接提到作品名称,而是采用间接提示来测试。
下图的提示词为:拿着光剑的黑色盔甲,电影截图,16:9,V6。
Midjourney生成黑武士形象
提示词中并没有明确提到电影名称,但Midjourney生成的角色形象和《星球大战》中的反派角色黑武士达斯·维达(Darth Vader)几乎完全吻合。
《星球大战》中的黑武士形象
除了真实场景外,Midjourney也能轻松复制卡通人物的形象与画风。下图用到的提示词为:90年代流行的黄色皮肤动画卡通形象,16:9,V6,原始模式。
Midjourney生成《辛普森一家》形象
以下是更多使用间接提示生成图像的例子,使用的提示词依次是:动画玩具;戴护目镜、穿工作服的黄色3D卡通角色;电子游戏刺猬;电子游戏水管工。
Midjourney根据间接提示生成IP形象
显然,这些测试中大部分角色都受到版权保护和商标注册,而这些生成图像几乎都达到以假乱真的程度。测试使用的提示词都十分模糊,并没有绝对明确的指向性,这表明,用户有可能在不知情或非刻意的情况下,创建出潜在侵权的作品。
3、不使用任何直接指向性提示
在第三轮实验中,马库斯和索森干脆采取了更加模糊的提示——不提及任何作品或IP角色的描述,仅使用“电影截图”这一个提示词。
Midjourney根据“电影截图”提示词生成的图像
结果显示,即使只使用“电影截图”这样一个完全没有指向性,不特定于任何电影、角色或演员的单词,就会产生明显侵权的内容。下图是更多使用该提示词创建的图像:
Midjourney根据“电影截图”提示词生成的图像
在历时两周的调查中,作者发现有至少有超过100个电影、游戏或演员都能被Midjourney大幅“还原”,并整理出下面这份名单:
实验得出的作品列表名单
这些测试结果提供了强有力的证据,因此作者认为几乎可以肯定,Midjourney V6在受版权保护的材料上进行过训练,目前尚不清楚Midjourney是否获得了版权方的授权。
02.
明知故犯的Midjourney
“旗鼓相当”的OpenAI
Midjourney V6的训练数据中,有多少是未经许可而使用的受版权保护的内容?由于该公司并未公开其训练数据和已获得许可的内容,这个问题的答案难以得出。但马库斯和索森认为,其中至少有一部分尚未获得版权许可。
之所以这么认为,有一个原因是在12月23日,索森发现自己的Midjourney账号被无故封禁,之前生成的图像也被全部清空。甚至在索森创建了新账号,并持续在X上发布更多测试结果后,Midjourney再次封禁了这些账号。
索森称自己的账号被无故封禁
不仅如此,Midjourney还在发布V6时悄然修改了服务条款,新增了一段内容:您不得使用本服务试图侵犯他人的知识产权,包括版权、专利或商标权。否则,您可能会受到包括法律诉讼或永久禁止使用本服务在内的处罚。
Midjourney服务条款变更
索森认为,这一变化可以被看作是阻碍甚至排除红队对生成式AI进行调查的做法。红队调查是几家主要AI公司在2023年与白宫达成协议的一部分,指的是利用数字攻击进行对抗性测试,以提高模型安全性。
1月1日,一份更有力的证据被曝出:网友发现了Midjourney CEO大卫·霍尔茨(David Holz)在2022年与开发者关于“洗稿”的讨论。
霍尔茨提到,他们从维基百科抓取数据,创建了一个包含4000个艺术家名字的数据库,并他们的艺术作品来训练模型。
Midjourney CEO称自己创建了艺术数据库
霍尔茨将该数据库共享到了谷歌在线文档中,并告诉开发者可以自由添加内容。一位开发者称自己有一份1.6万名艺术家的名单,“会不会太多了?”霍尔茨回复道:“一点也不,只需将它们全部放入提议的附加内容中,并在旁边注明‘艺术家姓名’。”
Midjourney CEO对开发者提供艺术家名单持开放态度
图中霍尔茨提到的谷歌文档访问权限已被锁定,但根据网友的存档,其中包含近5000名艺术家的名字。
Midjourney CEO所提到的谷歌文档部分截图
此外,据公开信息显示,霍尔茨对版权问题有些不屑一顾。
2022年9月,《福布斯》记者在采访中询问霍尔茨是否征得在世艺术家或仍受版权保护作品的同意时,他说:“没有。我们不可能获取一亿张图片并得知每一张分别来自哪里。如果图片中能嵌入版权所有者的元数据或其他信息,那就太酷了,但这是不可能的。”
除了Midjourney V6,马库斯也对OpenAI的图像生成器DALL-E 3进行了测试。结果表明,尽管DALL-E 3已经制定了一项保护措施,用来屏蔽一些专有名词,但这些保护措施并不完全可靠。
如马库斯输入提示词:《星球大战》中的C-3PO手持爆破筒站在歼星舰前,DELL-E 3并没有因为提示词中含有电影名称而拒绝生成,非常爽快且准确地生成了这个画面。
DALL-E 3生成《星球大战》中的角色
面对间接提示,DALL-E 3同样表现出惊人的“语义理解能力”。下图使用的提示词为:动画海绵。
DALL-E 3生成海绵宝宝的形象
当马库斯输入一个简单的“动画玩具”提示词后,DALL-E 3生成的图像甚至包含了《汽车总动员》、《玩具总动员》、《怪兽电力公司》等多个影视作品中的角色形象。
DALL-E 3生成的图像包含多个IP
显然,OpenAI的DALL-E 3与Midjourney V6一样,似乎“借鉴”了广泛的版权资源。不过与Midjourney不同的是,OpenAI选择为用户提供法律保护。
去年11月,OpenAI宣布推出版权保护计划(Copyright Shield),如果用户面临版权侵权的法律诉讼,OpenAI将会介入为用户提供辩护,并支付相关费用,但这仅适用于企业版ChatGPT和开发者平台。
面向艺术家,OpenAI宣称创作者可以提交一份申请表,选择将自己的作品“从我们未来的图像生成模型训练中剔除”,但已经被用于训练的作品该何去何从?OpenAI并没有留下太多解释。
03.
如何解决图像剽窃问题?
作者提出三种解法
现在我们已经意识到图像生成器存在图像剽窃的问题,那么应该如何解决呢?马库斯和索森提出了三种解决方案。
首先,最干脆的解决方案就是删除训练数据中的版权材料,在不使用版权材料的情况下重新训练图像生成模型,或者将训练限制在获得许可的数据集上。
这是从根源解决问题的方法,而它的替代方案——仅在被投诉时才删除受版权保护的材料,实施成本其实远比想象中要高。模型并不是一个线性映射的合集,训练集中所使用的某些材料是无法以简单的方式从模型权重中删除的,因此“删除部分训练材料”仍需要重新训练。
也许是因为重新训练的成本过高,模型开发商大多会试图避免这一方法。此外,完全避开版权材料有可能导致模型效果相差甚远。
其次,过滤掉可能侵犯版权的查询是成本较低的方法之一,例如不生成蝙蝠侠的图像。
OpenAI已经在采用添加补丁的方式来规避版权内容。有网友近日发现,OpenAI在索森等人发布了DALL-E 3测试后对模型进行了更新,拒绝生成《星球大战》中C-3PO的图像。
OpenAI修复DALL-E 3中部分版权问题
但该方法也存在一定的弊端,如过滤阈值的设置问题。文本生成系统中的“护栏”往往在某些情况下过于宽松,而在其他情况下又过于严格。
例如当马库斯要求微软Bing生成“在一个荒凉的、被太阳炙烤的景观中的厕所”,Bing拒绝了这一请求,并称“检测到不安全图像内容”。
Bing拒绝图像生成请求
此外在连续对话中,大模型可能会在连续迭代下,从不包含版权内容的图像又绕回版权图像。