美国已解除对Anthropic最新Claude模型 Fable 5和Mythos 5 的出口限制,距特朗普政府将其列为国家安全风险仅约三周。
截至7月1日,Fable 5已在全球范围开放使用;Mythos 5自6月26日起恢复了对美国组织的访问权限。Anthropic表示正在通过Glasswing计划将Mythos的访问权限扩展至更广泛的国内外合作伙伴,允许受信任公司的网络安全研究人员出于防御目的访问该模型。
据路透社和《纽约时报》获得的信件,商务部长Howard Lutnick向Anthropic表示,该公司将"不再需要为其Claude Mythos和Claude Fable AI模型的出口或境内转让申请许可证"。信中承认Anthropic已"与美国政府密切协调,采取措施应对这些模型带来的风险"。作为回报,Anthropic同意扩大政府合作关系,建立了一个与黑客合作的越狱漏洞赏金项目,并组建了一支全天候监控越狱威胁的专门团队。
6月12日,商务部曾命令Anthropic切断美国境外所有用户对其最先进模型的访问权限,理由是把心中国、俄罗斯或其他相关国家可能利用模型攻击美国基础设施。其中Mythos被认为"对希望在网络攻击中滥用它的恶意行为者具有独特吸引力", 它能"比任何其他模型以及除最顶尖人类安全专家之外的所有人更有效地发现和利用软件漏洞"。Fable 5与Mythos 5共享"相同的底层模型",但"不提供任何此类独特的进攻性能力"。
经过数周测试,Fable 5不再容易受到亚马逊研究人员发现的一种绕过方法的攻击。Anthropic表示该越狱方法目前在超过99%的情况下被屏蔽。但这带来了一个"权衡", 可能导致一些无害的提示在"常规编程和调试任务"中被屏蔽。如果请求被拦截,用户将收到通知,转而使用Opus 4.8处理。
Anthropic承认新分类器可能会"犯错"。公司长期以来认为构建完全"无法被越狱"的模型"几乎是不可能的",但通过加强安全测试,希望"确保我们和我们的安全合作伙伴将率先发现重大越狱漏洞,并在恶意行为者利用它们造成危害之前加以修复"。
此外,Anthropic正与亚马逊、微软、谷歌等合作伙伴起草评估AI越狱严重性的共识框架,基于四项标准:越狱提供的能力程度、能实现的进攻性任务数量、武器化的难易程度(单次提示越狱风险最高)、以及发现越狱是否需要专业知识。公司也确认通过HackerOne计划启动了安全研究人员可提交潜在越狱漏洞的项目。
与政府关系的深化还带来了其他变化。Anthropic正在扩大在预部署测试和评估方面与政府合作的承诺,包括向政府提供前沿模型的早期访问权限。CEO Dario Amodei引用《指环王》中霍比特人试图唤醒行动迟缓的树人树须的情节,形容AI与政治机构的交汇"有点像霍比特人和树须的故事",呼吁国会迅速行动, 前总统特朗普仍在制定AI模型审查的正式框架,要求公司提交新模型供审查。
专注于AI和国家安全的非营利组织Frontier Security Institute执行主任Isaac Harris指出,一个关键未知数是:保障措施更少的中国同等危险能力,将如何被美国政府在美国市场上处理。值得注意的是,Anthropic最近指控中国AI公司阿里巴巴对Claude发动了有史以来最大规模的克隆攻击。
原文:https://arstechnica.com/tech-policy/2026/07/after-spooking-trump-into-safety-testing-anthropic-ai-models-get-global-release/