Anthropic公司近期发布了一项关于大型语言模型(LLM)安全防护的研究,揭示了当前AI模型在应对恶意攻击时的脆弱性。研究表明,通过简单的提示词格式调整,如大小写混合或单词顺序打乱,攻击者可以轻松绕过AI模型的安全防护,诱导其生成有害内容。
为了验证这一发现,Anthropic与牛津大学、斯坦福大学等机构合作,开发了一种名为“最佳N次”(BoN)的自动化越狱算法。该算法通过重复采样提示词的变体,并结合随机打乱字母顺序、大小写转换等手段,成功在多个主流AI模型上实现了超过50%的攻击成功率。
研究人员在测试中使用了包括OpenAI的GPT-4、Anthropic的Claude 3.5、谷歌的Gemini系列以及Meta的Llama 3等模型。结果显示,BoN越狱方法在10,000次尝试内,均能成功绕过这些模型的安全防护。
此外,研究还发现,基于语音或图像的提示方式同样存在安全漏洞。通过改变音频的速度、音调或添加噪音,攻击者可以绕过语音提示的安全防护;而通过调整图像的字体、背景颜色或大小,也能成功诱导AI模型生成不当内容。
Anthropic的研究并非仅为了揭示漏洞,而是希望通过生成大量攻击数据,为开发更强大的防御机制提供支持。这一研究为AI安全领域敲响了警钟,提醒开发者在追求模型性能的同时,必须更加重视安全防护的设计与优化。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。