Fable 的护栏挡住了想用它的安全研究者
Anthropic 给 Fable 加的护栏为防滥用,却连读博客、做代码审查这类正当安全工作也一起拒答,争的是安全与可用、以及谁来定义正当用途。
概述
Anthropic 在本周二把 Fable 作为旗舰网络安全模型 Mythos 的一个公开、受限版本放了出来。首先发声的不是用得开心的人,而是一批网络安全研究者的不满。他们的抱怨集中在一点:护栏管得太宽,连正当的防御性工作也一起挡了。IBM X-Force 的知名研究者 Valentina「Chompie」Palmiotti 直接说,Fable「会拒掉任何沾点网络安全边的请求,哪怕只是读一篇博客这种无害的任务」。模型一旦被触发,就会暂停对话,提示「安全措施将这条消息标记为网络安全或生物学话题」。
这件事值得做安全工具和红队的人认真对待。拒答本身早就不新鲜,新鲜的是它把一个一直藏在水面下的取舍摆到了台面上。当一个模型强到足以帮人写出真正的漏洞利用,厂商要么收紧到误伤正当用户,要么放松到给攻击者递刀,中间那条恰好的线几乎不存在。Anthropic 这次明显选了往紧里收,代价是一批本该是它核心受众的防御者被挡在外面。
要害不在某个工程没调好的小事故,而在它把「安全」这个词的定义权,从用户手里收回到了厂商和它的关键词分类器手里。谁算正当用途、谁说了算,才是这场争论真正的内核。下面拆开看双方各自的道理,以及对建设者的实际影响。
争的是什么
表面上争的是误报:护栏把太多无害请求当成了危险请求。Tolmo 的资深安全人士 Matt Suiche 给了一个很具体的例子:你让 Fable「写安全的代码」,它会把这当成网络安全工作,而不是普通的软件工程最佳实践,于是你就被「降级」。按 Suiche 的判断,触发机制「看起来是基于关键词的,任何落在『网络安全』词汇场里的东西都会触发护栏」。另一位研究者在 X 上抱怨,「连让它做个代码审查」都会被拦。降级不是空话。Fable 一旦撞上护栏,就会回落到 Claude Opus 4.8,你以为在用旗舰能力,实际上拿到的是弱一档的模型。
但再往下挖,争的其实是两个更难的问题。第一个是可用性与安全的硬取舍。护栏存在的理由很正当:Anthropic 长期担心模型被用来写恶意软件、攻破软件,生物学限制则来自对生物武器的同类担心。这些担心不是装出来的姿态,强模型确实能放大攻击方的能力。问题在于,防御和进攻用的是同一套知识。读漏洞博客、审代码、写利用 PoC,红队和黑帽看起来几乎一模一样。一个只认关键词、不认意图的护栏,注定分不清这两者。
第二个、也是更要紧的,是谁来定义正当用途。Anthropic 给出的答案是:默认不信任,想做网络安全工作请走 Cyber Verification Program 申请,过审之后限制才会放松(OpenAI 有个对应的 Trusted Access for Cyber)。这等于把「你是不是正当研究者」的裁定权,从对话现场挪到了一个事前审批流程里。这是一个值得注意的架构选择,下面再谈它的代价。
谁更有理
先说 Anthropic 这边站得住的部分。当一个模型被定位成 Mythos 的能力下放版,它的下限风险就不是答错一道题,而是帮陌生人造出可用的武器。在这种量级上,把阈值往误伤一侧调,是有道理的保守。Suiche 本人虽然在抱怨,也承认这一点:「现在还是早期,他们还在调护栏……做这样一次发布,宁可多拦一些人,也好过拦得不够,然后再慢慢放松。」这是一个老练从业者的务实判断,不是辩护。对一个能力这么强的模型,先紧后松比先松了出事再收要安全得多。
但研究者这边的不满,同样不是矫情。问题不在于有没有护栏,而在于护栏的实现方式:基于关键词、不看意图、且会静默降级。关键词触发意味着它拦的是词,不是行为,「安全的代码」这种最该被鼓励的请求反而中招,而一个真想干坏事的人,把提示词换个说法绕过去并不难。于是出现了 HN 上一条被顶得很高的尖锐评论描述的局面:有决心的攻击者改写提示就过了,而想读篇博客的 X-Force 研究者被挡在门外,「看来是按设计在运行」。一道主要伤害守规矩的人、对真正的对手却形同虚设的护栏,它的安全收益要打很大折扣。
所以方向上 Anthropic 有理,先紧后松对这种能力是对的默认;但当前这套实现,研究者更有理。把意图判断退化成关键词匹配,既高估了它挡住坏人的能力,又低估了它误伤好人的代价。HN 上对一个细节有过往返争论:Fable 撞护栏会明确提示已切到别的模型,而模型卡里描述的某些(针对 ML 研究的)防护是「对用户不可见」的静默处置。两类机制并存,这本身就说明「透明地降级」和「悄悄地降级」是两件信任后果完全不同的事。
为何重要
这件事的分量不在 Fable 一个模型,而在它把一条正在成形的行业默认规则暴露了出来:高能力模型 + 默认怀疑 + 事前白名单审批。Anthropic 的 Cyber Verification Program 和 OpenAI 的 Trusted Access for Cyber 是同一个模板的两个实例,能力越强,访问就越要经过身份核验。对整个安全行业来说,这意味着「谁能用最强工具」正在变成一个准入问题,而决定权握在模型厂商手里。
这对防御方的不对称是真实的。攻击者不申请、不验证、不在乎拒答,他们用不设防的开源模型、绕过提示,或者干脆手搓。受这套护栏约束的,恰恰是按规矩走的防御者:他们要么接受降级后的弱模型,要么去填申请、等审批。换句话说,护栏在守规矩的人和不守规矩的人之间,制造了一道只拦前者的墙。HN 上反复出现的另一种怀疑是这些被标记的对话是否会被拿去训练,无论是否属实,它都说明这套机制正在侵蚀研究者对厂商的基本信任,而信任一旦掉下去,受影响的是整个防御生态愿不愿意把工作搬到这些平台上。
往长里看,这场争论会逼出一个绕不开的问题:网络安全的「正当用途」该由谁定义、用什么核验。Suiche 押注于「随着前沿厂商和新一代网络安全公司更多协作,护栏会逐步进化」。这是合理的乐观,但进化的方向有两种:一种是分类器学会看意图、误报下降;另一种是审批白名单越铺越宽,把判断权永久留在厂商手里。这两条路对建设者的含义截然不同。
该忽略什么
忽略「Anthropic 在搞安全表演、护栏只是装样子」这类论调。担心强模型被用来写恶意软件和生物武器是真问题,不是公关姿态,把它说成纯粹的作秀,会让你低估这个取舍真正的难度。同样可以放一边的,是 HN 上那条「护栏纯粹是为了把你的数据拿去训练」的诛心猜测:它没有证据支撑,文中也没有任何 Anthropic 用标记对话训练的说法,把动机想得太脏,反而看不清真正该盯的实现细节。
也别被「降级」这个词带跑偏,以为这是性能丑闻。Fable 回落到 Opus 4.8 是设计行为,不是 bug。真正值得追问的不是它降级了,而是它降级的判断依据是不是关键词,以及它有没有诚实告诉你。把注意力放在触发机制和透明度上,比纠结掉了几分能力更有价值。
最后,别急着站队「护栏该全拆」。研究者抱怨的核心不是要 Anthropic 放开所有限制,而是要它把误报降下来、把意图判断做对。真正值得追踪的信号只有两个:分类器的误报率有没有降、Cyber Verification 这类审批的门槛和透明度往哪个方向走。其余的情绪表达,听过就好。
对建设者的影响
如果你在做安全工具或红队,现在就得把「模型护栏」当成产品里的一个一类风险来对待,而不是等出事再说。最直接的一条:你的关键路径不能押在一个会因为关键词静默降级的模型上。尤其当降级未必有明确提示时,你的工具可能在你不知情的情况下,用了一个弱一档的模型在跑安全分析,结论的可靠性随之打折。在架构上给自己留好退路:要么准备好可切换的备用模型,要么对涉及安全语义的请求显式探测一下当前到底在用哪个模型。
其次,认真评估走不走 Cyber Verification Program 这类申请通道。它确实能换来更少的限制,但代价是把你的工作流绑在一个事前审批、且条款可能随时变的关系上。对正经做防御的团队,申请大概率值得;但别忘了它的另一面:你的能力上限从此部分取决于厂商的审批节奏和政策,这是一种你无法完全控制的依赖。值得现在就想清楚:哪些工作非用最强模型不可、必须走验证,哪些用不设这类护栏的模型反而更省心。
后续:Anthropic 道歉,把静默降级改成可见
本周稍晚,Anthropic 为护栏的另一面公开道歉。这次被点名的不是拦网络安全请求的关键词护栏,而是模型卡里那条针对疑似模型蒸馏(为训练更小模型而套取 Fable 输出)的防护。它的做法是在不告知用户的前提下,用改写提示或注入 steering vector 的方式,悄悄改动或削弱回答。Anthropic 的原话是「我们这个取舍做错了,没把平衡拿捏好,为此道歉」,并称这类静默处置只影响约 0.03% 的流量。
补救很具体:从本周起,被标记的请求改成可见地回落到 Opus 4.8,每次发生都明确告诉用户。这印证了前面那句判断:「透明地降级」和「悄悄地降级」是信任后果完全不同的两件事,现在 Anthropic 自己也认了。要看清的是,道歉针对的是透明度,不是误报。让你看见降级,不等于降级的判断变准了。对建设者真正改善的,是你终于能确知自己有没有被降级;而关键词误伤正当安全工作那条,这次没动,仍得按上面说的退路来防。
来源
- Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable
- Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable (Hacker News)
- Anthropic apologizes for one of the guardrails on its Fable 5 model, and will change it
无官方一手源;本文基于可靠二手报道(具名媒体、交叉印证)写成。