5月8日消息,据外电报道,OpenAI今天进行了一系列新更新,但最大的可能是它正在开发的一款名为媒体管理器的新工具,该工具将于明年 2025 年推出,该工具将允许创作者选择他们的哪些作品(如果有的话)将允许对公司的人工智能模型进行抓取和训练。
OpenAI 网站上的一篇博客文章中宣布,该工具的描述如下:
OpenAI 正在开发媒体管理器,该工具将使创作者和内容所有者能够告诉我们他们拥有什么,并指定他们希望如何将自己的作品纳入或排除在机器学习研究和培训之外。随着时间的推移,我们计划推出更多选择和功能。
这将需要尖端的机器学习研究来构建有史以来第一个同类工具,以帮助我们识别多个来源的受版权保护的文本、图像、音频和视频,并反映创作者的偏好。
在开发媒体管理器时,我们正在与创作者、内容所有者和监管机构合作。我们的目标是在 2025 年之前推出该工具,并希望它能为整个人工智能行业树立标准。
该工具尚未列出价格,媒体猜测它将免费提供,因为 OpenAI 正在使用它来将自己定位为道德参与者。
为什么需要媒体管理器
该工具旨在为创建者提供针对AI 数据抓取的额外保护,而不仅仅是在其网站上的 robots.txt 文件中添加一串代码(用户代理:GPTBot Disallow:/),这是 OpenAI 于 2023 年 8 月推出的一项措施。
毕竟,许多创作者在他们不拥有或控制的网站(例如 DeviantArt 或 Pateron 等平台)上发布作品,他们无法在其页面上编辑 robots.txt 文件。此外,一些创作者可能希望只免除某些作品(而不是他们发布的所有内容)的 AI 数据抓取和培训,因此 OpenAI 提出的媒体管理器将允许这种类型的更精细的控制和可选性。
此外,OpenAI 指出,创作者的作品可以轻松地在不提供选择退出文本的域上进行屏幕截图、保存、转发以及以其他方式在网络上重新发布或重新分发。
「我们知道这些都是不完整的解决方案,因为许多创作者无法控制其内容可能出现的网站,并且内容经常被引用、审查、重新混合、重新发布并用作跨多个领域的灵感。我们需要一个高效、可扩展的解决方案,让内容所有者能够表达他们在人工智能系统中使用其内容的偏好。」
对人工智能数据抓取的强烈批评的回应
这些举措发生之际,视觉艺术家和创作者不断反对 OpenAI 等人工智能模型制造商及其竞争对手 Anthropic、Meta、Cohere 等公司在未经他们明确许可、同意或补偿的情况下从网络上获取数据进行训练。
一些创作者已对 OpenAI 和其他人工智能公司提起集体诉讼,指控这种数据抓取行为侵犯了创作者图像和作品的版权。
OpenAI 的辩护是,数十年来,网络爬行和抓取已成为网络上许多公司所接受的标准做法,并且在今天的博客文章中再次提到了这一论点,并写道:几十年前,引入了 robots.txt 标准并被互联网生态系统自愿采用,供网络出版商指示网络爬虫可以访问网站的哪些部分。
事实上,许多艺术家默认了他们的数据被抓取以在谷歌等搜索引擎中建立索引,但反对对其进行生成式人工智能培训,因为这与他们自己的工作产品和生计更直接地竞争。
OpenAI为其被指控侵犯版权的付费计划订阅者提供赔偿——法律援助和辩护的保证,以安抚其不断增长的利润丰厚的企业客户名单。
持续的法律问题
法院尚未就人工智能公司和其他公司是否可以在未经创作者明确同意或许可的情况下窃取受版权保护的创意作品作出决定性裁决。但显然,无论如何通过法律解决,OpenAI 希望将自己定位为一个对于创作者及其数据源而言具有合作性和道德的实体。
也就是说,创作者可能会认为这一举措太少、太迟,因为他们的许多作品可能已经被废弃并用于训练人工智能模型,而 OpenAI 并没有暗示它可以或将删除其模型的部分内容接受过此类工作的培训。
OpenAI 在其博客文章中提出,它不会批量保留抓取数据的副本,而只会保留最能描述单词之间关系以及产生单词的基本过程之间关系的方程式。
正如该公司所写:
我们将人工智能模型设计为学习机器,而不是数据库。
我们的模型旨在帮助我们生成新的内容和想法,而不是重复或反刍内容。人工智能模型可以陈述属于公共领域的事实。如果在极少数情况下,模型无意中重复了表达内容,则表明机器学习过程失败。这种失败更有可能发生在训练数据集中频繁出现的内容上,例如由于频繁引用而出现在许多不同公共网站上的内容。我们在 API 或 ChatGPT 的整个培训和输出过程中采用最先进的技术,以防止重复,并且我们通过持续的研究和开发不断进行改进。
至少,与Glaze和Nightshade等其他现有选项相比,媒体管理器工具可能是一种更有效、更用户友好的阻止 AI 训练的方式,但如果它来自 OpenAI,目前尚不清楚创作者是否会信任它——也不知道它是否能够阻止其他竞争对手模型的训练。