OpenAI 表示正在开发工具,让内容创作者可以选择退出 AI 训练

OpenAI 表示,他们正在开发一种工具,让创作者更好地控制他们的内容在生成式 AI 训练中的使用方式。

这个名为 Media Manager 的工具将允许创作者和内容所有者向 OpenAI 标识他们的作品,并指定他们希望这些作品如何被包含或排除在 AI 研究和训练中。

OpenAI 表示,他们计划到 2025 年将这个工具推出,并与“创作者、内容所有者和监管者”合作,以制定一项标准,可能会通过他们最近加入的行业指导委员会来实现。

OpenAI 在一篇博客文章中写道:“这将需要最前沿的机器学习研究,建立一个史上首个的工具,帮助我们在多个来源中识别受版权保护的文本、图像、音频和视频,并反映创作者的偏好。随着时间的推移,我们计划推出更多选择和功能。”

似乎无论 Media Manager 最终采取何种形式,都是 OpenAI 对其开发 AI 方法日益受到批评的回应,其方法主要依赖于从网络上获取公开数据。最近,包括《芝加哥论坛报》在内的八家知名美国报纸起诉 OpenAI 侵犯知识产权,指控OpenAI未经授权使用生成式 AI 训练中他们的文章,后者又将其商业化而未给予赔偿或署名原出版物。

包括 OpenAI 在内的生成式AI模型——这种可以分析和生成文本、图像、视频等的模型——通常受过大量从公共网站和数据集中获得的示例的训练。OpenAI 和其他生成式 AI 供应商辩称,在公共数据上进行抓取并用于模型训练的做法受到合理使用的保护,即法律信条允许使用受版权保护的作品以创建二次创作,只要其具有变革性。但并非所有人都同意这一点。

事实上,OpenAI 最近声称,要想创造有用的 AI 模型,就离不开受版权保护的材料。

然而,为了安抚批评者并防范未来诉讼,OpenAI 一直在采取措施满足内容创作者的需求。

去年,OpenAI 允许艺术家“选择退出”并从该公司用于训练图像生成模型的数据集中删除自己的作品。该公司还让网站所有者通过 robots.txt 标准指示,该标准提供有关网站对网络爬行机器人的指示,说明网站上的内容是否可以被抓取以训练 AI 模型。OpenAI 也继续与大型内容所有者,包括新闻机构、库存媒体库和问答网站 Stack Overflow 签订许可协议。

然而,一些内容创作者表示,OpenAI 的做法还不够。

艺术家们描述 OpenAI 对图像进行“选择退出”流程,需要提交要删除的每个图像的个别副本以及描述,显得繁琐。据报道,OpenAI 相对较少支付许可费用。正如 OpenAI 本周二在博文中承认的那样,该公司目前的解决方案并未解决创作者的作品在他们无法控制的平台上被引用、混合或转载的情况。

除了 OpenAI 外,还有许多第三方尝试为生成式 AI 构建通用来源和选择退出工具。

启动公司 Spawning AI,其合作伙伴包括 Stability AI 和 Hugging Face,提供一款应用程序,可以识别和跟踪机器人的 IP 地址,以阻止抓取尝试,并提供一个数据库,让艺术家可以注册他们的作品,以阻止那些选择尊重这些请求的供应商进行训练。Steg.AI 和 Imatag 帮助创作者通过应用人眼无法察觉的水印来建立对图像所有权的权利。芝加哥大学的项目 Nightshade 将图像数据“毒化”,使其对 AI 模型训练变得无用或具有干扰性。