如果OpenAI使用非法数据爬取训练ChatGPT会怎样?据报道,纽约时报正在考虑提起诉讼来测试这一点
如果OpenAI非法爬取数据训练ChatGPT,纽约时报可能会提起诉讼来测试
如果这起诉讼成为现实,那将是对ChatGPT进行最高调的尝试,这个工具的炒作已经席卷全球。而且,成功的诉讼甚至可能进一步迫使OpenAI进行巨额成本的ChatGPT重新训练,因为这实际上将删除该大型语言模型所训练的大部分语言。
值得注意的是,《时代》曾是一个共同游说AI监管的团体的一员,直到它突然退出,根据Semafor的说法。《时代》的诉讼也不是唯一一个声称OpenAI非法抓取训练数据的诉讼。喜剧演员莎拉·西尔弗曼和作家保罗·特伦布莱、莫娜·阿瓦德和克里斯托弗·戈登上个月起诉了OpenAI,声称该公司在训练ChatGPT时犯下了“工业级”的抄袭行为。
今年1月,一组商业艺术家起诉了流行的图像生成引擎Midjourney的创建者,指控其盗取他们的作品来制作盗版,使艺术家无法通过自己的作品谋生。艺术家的律师称该技术是“一种寄生虫”,如果允许其大量繁殖,将对艺术家造成无法挽回的伤害。图像许可服务商Getty也起诉了Stability AI,指控其非法复制了1200万张Getty拥有的图片,试图创建竞争服务。与此同时,美联社在周四早些时候制定了一套鼓励员工尝试人工智能的标准,但禁止他们使用它来创作任何将被发布的内容或图片。
甚至埃隆·马斯克(Elon Musk),在2018年曾著名地离开OpenAI董事会,今年7月声称Twitter上正在发生“极端程度的数据抓取”,由人工智能公司负责。“几乎每家从初创公司到地球上最大的公司都在大量抓取数据。不得不紧急上线大量服务器,以满足某些人工智能初创公司荒谬的估值,这真是令人痛心。”
- 法官在具有里程碑意义的裁决后,允许美国证券交易委员会提起上诉,许多...
- 苹果应该以500亿美元的价格从迪士尼手中购买ESPN,分析师称这笔交易是一...
- Linda Yaccarino表示X从未如此安全,但是在出现与纳粹主义内容相邻的帖...
据NPR报道,时代报担心的是,OpenAI将创建一个直接竞争对手,通过根据报纸员工的原始报道和写作来回答问题的文字。
时代报和OpenAI没有立即回复置评的请求。然而,时代报有理由担心来自ChatGPT的竞争。依赖网络流量的小企业已经看到自己的业务被更基本的技术——谷歌的搜索框所摧毁,该搜索框将输入的问题的答案以段落形式显示在搜索结果的顶部。
“如果发生这种情况,这起诉讼将关乎信息收集的价值以及谁能为其客户使用这些信息,”西北大学梅迪尔学院数字媒体战略骑士教授Jeremy Gilbert告诉ANBLE。
搜索引擎Bing(其所有者微软已向OpenAI投资数十亿美元)现在正在使用ChatGPT来提供搜索功能。如果一个人向Bing提问,搜索引擎可以立即根据《纽约时报》的报道提供详细的长篇回答,消除人们访问时代报网站的需求(从而损害报纸的收入)。
“出版商最喜欢直接流量到新闻网站,”Gilbert说。但是像ChatGPT这样的大型语言模型“可能根本不会将您引导到新闻网站。”
“如果[观众]在不点击《纽约时报》的情况下获得他们需要的一切,那么《纽约时报》如何资助其报道呢?即使这对消费者来说更加令人满意,从根本上讲是不可行的,”他说。
由IAC领导的一组媒体机构组成了一个联盟,向OpenAI施压,要求其支付“数十亿美元”以用于他们作为训练材料的作品。
OpenAI正在复制一切——但是否合法?
OpenAI已经通过从公共网络中抓取的大量数据——小说、网络论坛、对话、新闻文章、照片和插图——进行了训练,这并不是什么秘密。
目前尚不清楚这种爬取数据的行为是否合法。越来越多的作家和艺术家表示不合法,对OpenAI和其他生成型人工智能创造者提起侵犯版权的诉讼也越来越多。
就连OpenAI的用户也对成为训练材料感到不安:为了回应用户的抵制,OpenAI在今年春天修改了条款,明确表示提交给ChatGPT的提示不会用于训练机器人。
生成型人工智能“对版权法来说是雷区”,一群律师和媒体学者最近写道。法院对这项技术的真正作用有何看法将成为这些案件的关键决定因素。
如果法官认为人工智能所生成的作品是新创作,或者它们对基于的作品进行了重大改变,那么他们可能会认为它对版权作品的处理是合理使用。
另一方面,如果他们认为人工智能只是简单地复制和重复别人的作品,他们可能会认为它的使用是非法的,并要求OpenAI销毁其数据集中的所有副本。
无论法院如何裁决,时报似乎已准备好分享人工智能蛋糕。时报首席执行官梅雷迪思·科皮特·莱维恩在今年春天的戛纳狮奖活动上表示:“对于已经被使用和将继续被使用来训练模型的内容,必须有公平的价值交换。”