• 首页 > 网络安全频道 > 云安全

    AI安全防护再遭挑战:Anthropic研究发现大型语言模型“越狱”漏洞

    2024年12月26日 10:02:47   来源:Donews

      Anthropic公司近期发布了一项关于大型语言模型(LLM)安全防护的研究,揭示了当前AI模型在应对恶意攻击时的脆弱性。研究表明,通过简单的提示词格式调整,如大小写混合或单词顺序打乱,攻击者可以轻松绕过AI模型的安全防护,诱导其生成有害内容。

      为了验证这一发现,Anthropic与牛津大学、斯坦福大学等机构合作,开发了一种名为“最佳N次”(BoN)的自动化越狱算法。该算法通过重复采样提示词的变体,并结合随机打乱字母顺序、大小写转换等手段,成功在多个主流AI模型上实现了超过50%的攻击成功率。

      研究人员在测试中使用了包括OpenAI的GPT-4、Anthropic的Claude 3.5、谷歌的Gemini系列以及Meta的Llama 3等模型。结果显示,BoN越狱方法在10,000次尝试内,均能成功绕过这些模型的安全防护。

      此外,研究还发现,基于语音或图像的提示方式同样存在安全漏洞。通过改变音频的速度、音调或添加噪音,攻击者可以绕过语音提示的安全防护;而通过调整图像的字体、背景颜色或大小,也能成功诱导AI模型生成不当内容。

      Anthropic的研究并非仅为了揭示漏洞,而是希望通过生成大量攻击数据,为开发更强大的防御机制提供支持。这一研究为AI安全领域敲响了警钟,提醒开发者在追求模型性能的同时,必须更加重视安全防护的设计与优化。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。