人工智能正在引发一场大规模的数据争夺

AI引发大规模数据争夺

不久前,分析师们公开质疑人工智能(AI)是否会让适用于创意人群的软件制造商Adobe走向灭亡。新工具如DALL-E 2和Midjourney可以根据文字生成图片,似乎注定会使Adobe的图像编辑产品变得多余。就在今年4月,财经新闻网站Seeking Alpha发表了一篇题为“AI是否会致命于Adobe?”的文章。

事实并非如此。Adobe利用其数亿张库存照片的数据库,构建了自己的AI工具套件,名为Firefly。该公司的高管Dana Rao表示,自3月份发布以来,该软件已被用于创建超过10亿张图片。与竞争对手不同,Adobe避免了在互联网上获取图片,从而避开了现在困扰该行业的版权争议。自Firefly发布以来,该公司的股价上涨了36%。

Adobe战胜了灾难论者,这说明了在快速发展的AI工具市场中争夺主导地位的更广泛问题。最新一波所谓“生成式”AI的超大型模型依赖于庞大的数据量。模型构建者们已经在很大程度上(往往未经许可)从互联网上获取了大量数据,现在他们正在寻找新的数据来源以维持这种疯狂的繁荣。与此同时,拥有大量数据的公司正在权衡如何从中获利。数据争夺战正在进行中。

AI模型的两个基本要素是数据集(用于训练系统)和处理能力(通过它,模型可以检测数据集内部和之间的关系)。这两个要素在一定程度上可以互相替代:模型可以通过吸收更多数据或增加更多处理能力来提高性能。然而,由于专用的AI芯片短缺,后者正变得困难,这导致模型构建者们更加专注于寻找数据。

研究机构Epoch AI估计,对于训练来说,高质量文本的存储量可能会在2026年耗尽。据信,谷歌和Meta两家科技巨头最新的AI模型已经在超过1万亿个词上进行了训练。相比之下,维基百科(一个在线百科全书)上的英语单词总量约为40亿个。

重要的不仅是数据集的规模,数据质量也很关键。Scale AI的Russell Kaplan指出,基于文本的模型最好是在长篇、写作良好、事实准确的文本上进行训练。被提供这些信息的模型更有可能产生同样高质量的输出结果。同样,当要求AI聊天机器人逐步解释其工作原理时,它们给出的答案更好,这增加了对提供这种信息的来源(如教科书)的需求。专门的信息集也很受欢迎,因为它们可以使模型为更具专业性的应用进行“微调”。微软在2018年以75亿美元收购了软件代码存储库GitHub,从而帮助其开发了一个代码编写的AI工具。

随着对数据的需求迅速增长,获取数据变得更加棘手,因为内容创作者现在要求对已被纳入AI模型的材料进行补偿。已经有一些版权侵权案件针对美国的模型构建者提出。包括喜剧演员Sarah Silverman在内的一组作者正在起诉ChatGPT的制造商OpenAI和Meta。一组艺术家也正在起诉构建文本到图像工具的Stability AI和Midjourney。

所有这些的结果是,AI公司为了确保数据来源而进行了大量交易。今年7月,OpenAI与新闻机构美联社达成了一项协议,以获取其新闻档案。它还最近扩大了与提供库存照片的Shutterstock的协议,Meta也与该公司有一项协议。据报道,谷歌正在与唱片公司环球音乐进行讨论,以许可艺术家的声音用于歌曲创作的AI工具。资产管理公司富达表示,一些科技公司向其寻求获取金融数据的权限。有传言称,AI实验室正接触英国公共广播机构BBC,以获取其图像和影片档案。另一个被猜测的目标是学术期刊的数字图书馆JSTOR。

信息的持有者正在利用他们更大的议价权。讨论论坛Reddit和问答网站Stack Overflow已经提高了对数据的访问费用。这两个网站特别有价值,因为用户可以“点赞”喜欢的答案,帮助模型知道哪些答案最相关。社交媒体网站Twitter(现在称为X)已采取措施限制机器人对其进行数据抓取,并向任何希望访问其数据的人收费。其多变的所有者埃隆·马斯克计划利用这些数据建立自己的AI业务。

因此,模型构建者正在努力提高他们已有输入的质量。许多人工智能实验室雇佣了大量的数据标注员,执行诸如标记图像和评级答案等任务。其中一些工作非常复杂;一份招聘广告要求申请人拥有生命科学硕士或博士学位。但其中很多工作都是平凡的,正在被外包到劳动力成本较低的肯尼亚等地。

人工智能公司还通过用户与其工具的互动收集数据。其中许多工具都具有某种形式的反馈机制,用户可以指示哪些输出是有用的。Firefly的文本到图像生成器允许用户从四个选项中选择。Bard,Google的聊天机器人,类似地提供三个答案。当ChatGPT回答查询时,用户可以给予赞或踩。这些信息可以作为输入反馈到基本模型中,形成Contextual AI创业公司的联合创始人Douwe Kiela所称的“数据飞轮”。他补充说,聊天机器人答案质量更强的一个信号是用户是否复制文本并将其粘贴到其他地方。分析这样的信息帮助谷歌快速改进其翻译工具。

拓展边界

然而,仍然存在一种数据源几乎未被利用:科技公司企业客户墙内存在的信息。许多企业拥有大量有用的数据,从呼叫中心的文字记录到客户消费记录,而这些数据往往是不知不觉地拥有的。这些信息特别有价值,因为它们可以用于针对特定业务目的进行模型的细化,例如帮助呼叫中心员工回答客户查询或帮助业务分析师发现提高销售的方法。

然而,利用这种丰富的资源并不总是简单的。咨询公司贝恩的Roy Singh指出,大多数公司历来对那些最适合训练人工智能工具的庞大但非结构化的数据集没有给予太多关注。这些数据往往分散在多个系统中,埋藏在公司服务器而不是云端。

释放这些信息将帮助企业定制人工智能工具以更好地满足其特定需求。亚马逊和微软这两个科技巨头现在都提供了帮助企业更好管理非结构化数据集的工具,谷歌也有类似的工具。数据库公司Snowflake的Christian Kleinerman表示,随着客户寻求“拆除数据孤岛”,业务正在蓬勃发展。初创公司也纷纷加入。今年4月,面向人工智能的数据库公司Weaviate以20亿美元估值融资5000万美元。仅仅一周后,竞争对手PineCone以7.5亿美元估值融资1亿美元。本月早些时候,另一家数据库初创公司Neon又获得了4600万美元的额外融资。对于数据的争夺才刚刚开始。■