堆代码讯 周二,AI企业Anthropic正式推出全新大模型Fable,官方将其定位为旗下重磅网络安全专用模型Mythos的公众受限版本,面向普通用户开放使用。而这套模型搭载的高强度安全限制机制,随即引发业内争议,大批网络安全研究人员与行业从业者公开发声表达不满。IBM X-Force知名安全研究员Valentina “Chompie” Palmiotti直言Fable模型管控过度,该模型会拦截一切沾边网络安全相关的用户请求,即便是阅读技术博文这类完全无害的基础任务,也会被系统直接拒绝。
一旦用户提示词触碰模型内置安全护栏,Fable会立刻终止对话,并弹出统一提示:“我们的安全措施已将该消息标记为涉及网络安全或生物主题。”
Anthropic设置双重安全管控边界具备明确风控初衷:限制模型被用于编写恶意软件、实施软件入侵破解,这也是企业内部长期忌惮的AI滥用风险;而针对生物类内容的封禁规则,则是为了规避模型被用于研发生物武器的安全隐患。
追溯产品布局,Anthropic于今年4月正式发布旗舰网络安全模型Mythos,依托「玻璃翼计划(Project Glasswing)」实行圈层化管控,仅对少量合作企业与机构开放权限,核心用途是防护关键软件与国家基础设施。就在上周,Anthropic再度扩容Mythos使用权限,覆盖15个国家、数百家行业组织机构。出于风险防控设立的安全护栏,并未收获行业认可,业内大量安全专家诟病规则粗放、随机性过强。任职于AI网络安全初创公司Tolmo的资深网络安全人士Matt Suiche向记者道出实操痛点:用户指令要求编写合规安全代码时,模型会误判定为网络安全工作需求,而非软件工程标准开发行为,随即触发模型性能降级。
据介绍,Fable护栏触发后会自动降级回退至Claude Opus 4.8模型承接任务,整套拦截机制依托关键词匹配运行,只要文本命中网络安全领域相关词汇,便会强制触发封禁规则。另有行业研究员在社交平台X吐槽,单纯发起代码审查工作,同样会触发模型安全拦截机制。与此同时,Matt Suiche也理性认可企业风控逻辑,他表示现阶段AI安全治理尚处早期阶段,模型安全护栏仍处于迭代调试周期。伴随Anthropic等前沿AI厂商与新一代网络安全企业深化合作,这套粗放式拦截规则后续会持续优化迭代。“模型公测前期,宁可过度拦截请求、规避高危风险,也不能风控缺位,后续再循序渐进放宽限制,是行业稳妥的落地思路。”Suiche补充道。
截至目前,Anthropic官方尚未回应媒体的置评请求。除模型原生内置硬性安全护栏外,Anthropic同步推出配套解决方案,面向网络安全从业者开放「网络验证计划」,专业人员提交申请并通过审核后,使用Claude开展合规网络安全工作时,即可解除大部分使用限制。值得一提的是,竞品厂商OpenAI也落地了同源风控方案,推出「网络安全可信访问」专项计划,适配专业从业者合规使用需求。