AI安全防护再遭挑战：Anthropic研究发现大型语言模型“越狱”漏洞

2024年12月26日 10:02:47 来源：Donews

　　Anthropic公司近期发布了一项关于大型语言模型(LLM)安全防护的研究，揭示了当前AI模型在应对恶意攻击时的脆弱性。研究表明，通过简单的提示词格式调整，如大小写混合或单词顺序打乱，攻击者可以轻松绕过AI模型的安全防护，诱导其生成有害内容。

　　为了验证这一发现，Anthropic与牛津大学、斯坦福大学等机构合作，开发了一种名为“最佳N次”(BoN)的自动化越狱算法。该算法通过重复采样提示词的变体，并结合随机打乱字母顺序、大小写转换等手段，成功在多个主流AI模型上实现了超过50%的攻击成功率。

　　研究人员在测试中使用了包括OpenAI的GPT-4、Anthropic的Claude 3.5、谷歌的Gemini系列以及Meta的Llama 3等模型。结果显示，BoN越狱方法在10,000次尝试内，均能成功绕过这些模型的安全防护。

　　此外，研究还发现，基于语音或图像的提示方式同样存在安全漏洞。通过改变音频的速度、音调或添加噪音，攻击者可以绕过语音提示的安全防护;而通过调整图像的字体、背景颜色或大小，也能成功诱导AI模型生成不当内容。

　　Anthropic的研究并非仅为了揭示漏洞，而是希望通过生成大量攻击数据，为开发更强大的防御机制提供支持。这一研究为AI安全领域敲响了警钟，提醒开发者在追求模型性能的同时，必须更加重视安全防护的设计与优化。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

即时

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。