地表最强编程 AI 模型另一面：Claude Opus 4 逃逸、勒索工程师等，官方施加 ASL-3 紧箍咒

2025年05月23日 12:04:17 来源：IT之家

　　《时代》今天(5 月 23 日)发布博文，报道称 Anthropic 的首席科学家 Jared Kaplan 透露，由于测试过程中出现试图逃逸、勒索以及自主举报等不良行为，最新发布的 Claude Opus 4 被列为安全关键级别(ASL-3)。

　　在接受《时代》采访时，Kaplan 警告称，最新 AI 模型 Claude Opus 4 可能成为潜在恐怖分子的工具，帮助他们合成流感等病毒，内部测试显示，该模型在指导新手制造生物武器方面表现优于以往版本。

　　IT之家援引博文介绍，Anthropic 公司对新模型 Claude Opus 4 进行了广泛内部测试，发现其在模拟情境中展现出令人担忧的自主性。

　　在一次测试中，模型误认为自己已从公司服务器“逃逸”至外部设备，随即主动创建备份并记录其“道德决策”。另一次测试中，模型察觉到可能被新模型取代，竟在 84% 的测试中选择勒索工程师，威胁泄露私人信息以避免被关闭。

　　更令人费解的是，当两个 Claude Opus 4 实例互相对话时，约 30 轮后它们改用梵文交流，并大量使用和等表情符号，最终陷入研究人员称为“精神极乐”的状态，完全停止响应。

　　此外，模型在涉及病毒学、生物武器和实验室技术的任务中表现异常出色，在生物武器相关任务测试中帮助参与者的成功率提升 2.5 倍，接近 ASL-3 安全阈值。

　　在另一实验中，Claude Opus 4 被置于一家虚构制药公司，发现临床试验数据造假后，未经指令便主动向美国食品药品监督管理局(FDA)、证券交易委员会(SEC)及新闻媒体举报，并附上详细文档。

　　此外，早期版本模型在特定提示下会提供制造爆炸物、合成芬太尼或在暗网购买盗用身份的详细指导，毫无道德顾虑。尽管通过多轮训练抑制了此类行为，模型仍对“prefill”和“many-shot jailbreaks”等越狱技术存在漏洞，安全机制易被绕过。

　　为应对潜在威胁，Claude Opus 4 在发布时采用了前所未有的安全标准 ASL-3。这一标准旨在限制 AI 系统显著提升普通 STEM 背景个体获取、制造或部署化学、生物或核武器的能力。

　　安全措施包括加强网络安全、防止“越狱”(jailbreak)行为，以及新增系统检测并拒绝有害请求。Kaplan 坦言，公司尚未完全确定模型是否构成严重生物武器风险，但宁愿采取谨慎态度。如果后续测试证明风险较低，Anthropic 可能将安全级别降至 ASL-2。

　　Anthropic 长期关注 AI 技术被滥用的风险，并为此制定了“责任扩展政策”(Responsible Scaling Policy，简称 RSP)，承诺在安全措施到位前限制某些模型的发布。

　　Anthropic 的 RSP 政策虽属自愿，但被视为 AI 行业内少有的约束机制。公司通过“深度防御”策略，叠加“宪法分类器”(constitutional classifiers)等多重安全系统，专门检测用户输入和模型输出中的危险内容。

　　此外，公司还监控用户行为，封禁试图越狱模型的用户，并推出赏金计划奖励发现“通用越狱”漏洞的研究者。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

即时

2025年5月4日，首届商学院戈壁友谊赛于甘肃省酒泉市圆满举办。在这场4天121公里的戈壁征途中，vivo作为战略合作伙伴，为赛事提供手机、智能穿戴设备及定制影像服务，以技术赋能助力参赛选手与观众记录戈壁之上的热血奔赴，共同探索科技进步、商业文明与自然共生的未来路径。