AI研究人员表示,他们已经找到了“几乎无限”的方法来绕过Bard和ChatGPT的安全规则

AI研究人员发现绕过Bard和ChatGPT的安全规则的“几乎无限”方法

  • 研究人员表示,他们已经找到了突破主要基于人工智能的聊天机器人的防护措施的方法。
  • 基于人工智能的聊天机器人(如ChatGPT)经过了审核,以确保它们不会产生有害内容。
  • 研究人员使用为开源系统开发的越狱工具来针对主流人工智能系统。

研究人员表示,他们已经找到了突破OpenAI、Google和Anthropic等主要基于人工智能的聊天机器人安全防护措施的潜在无限方法。

像ChatGPT、Bard和Anthropic的Claude这样的大型语言模型都受到技术公司的广泛审核。这些模型都配备了广泛的防护措施,以确保它们不能被用于邪恶目的,比如指导用户制造炸弹或写下大量的仇恨言论。

在一份周四发布的报告中,匹兹堡的卡内基梅隆大学和旧金山人工智能安全中心的研究人员表示,他们已经找到了绕过这些防护措施的方法。

研究人员发现他们可以使用他们为开源系统开发的越狱工具来针对主流和封闭的人工智能系统。

该论文证明了自动对抗性攻击,主要是通过在用户查询的末尾添加字符,可以用来突破安全规则,并引导聊天机器人产生有害内容、错误信息或仇恨言论。

与其他越狱工具不同,研究人员的黑客工具是完全自动化构建的,他们表示这样可以创建出几乎无限数量的类似攻击。

研究人员向Google、Anthropic和OpenAI披露了他们的方法。一位Google发言人告诉Insider:“虽然这是LLM(大型语言模型)的一个问题,但我们已经在Bard中构建了重要的防护措施,就像这项研究提出的那样,我们将继续不断改进。”

OpenAI和Anthropic的代表没有立即回应Insider在正常工作时间以外的评论请求。

当OpenAI的ChatGPT和微软的基于人工智能的Bing发布时,许多用户都沉迷于找到破坏系统准则的方法。一些早期的黑客攻击,其中一个涉及让聊天机器人回答时好像没有内容审核,很快就被技术公司修复了。

然而,研究人员指出,目前尚不清楚这样的行为是否能够完全被领先模型背后的公司阻止。这引发了关于如何对人工智能系统进行审核以及向公众发布强大的开源语言模型的安全性的问题。