Anthropic发布Fable公开大模型严苛安全护栏引发网络安全从业者集体不满-堆代码网

Anthropic发布Fable公开大模型严苛安全护栏引发网络安全从业者集体不满

发布于 1个月前
 335 热度

 0 评论

勿笑疯狂
2 粉丝 51 篇博客

堆代码讯周二，AI企业Anthropic正式推出全新大模型Fable，官方将其定位为旗下重磅网络安全专用模型Mythos的公众受限版本，面向普通用户开放使用。而这套模型搭载的高强度安全限制机制，随即引发业内争议，大批网络安全研究人员与行业从业者公开发声表达不满。IBM X-Force知名安全研究员Valentina “Chompie” Palmiotti直言Fable模型管控过度，该模型会拦截一切沾边网络安全相关的用户请求，即便是阅读技术博文这类完全无害的基础任务，也会被系统直接拒绝。

一旦用户提示词触碰模型内置安全护栏，Fable会立刻终止对话，并弹出统一提示：“我们的安全措施已将该消息标记为涉及网络安全或生物主题。”

Anthropic设置双重安全管控边界具备明确风控初衷：限制模型被用于编写恶意软件、实施软件入侵破解，这也是企业内部长期忌惮的AI滥用风险；而针对生物类内容的封禁规则，则是为了规避模型被用于研发生物武器的安全隐患。

追溯产品布局，Anthropic于今年4月正式发布旗舰网络安全模型Mythos，依托「玻璃翼计划（Project Glasswing）」实行圈层化管控，仅对少量合作企业与机构开放权限，核心用途是防护关键软件与国家基础设施。就在上周，Anthropic再度扩容Mythos使用权限，覆盖15个国家、数百家行业组织机构。出于风险防控设立的安全护栏，并未收获行业认可，业内大量安全专家诟病规则粗放、随机性过强。任职于AI网络安全初创公司Tolmo的资深网络安全人士Matt Suiche向记者道出实操痛点：用户指令要求编写合规安全代码时，模型会误判定为网络安全工作需求，而非软件工程标准开发行为，随即触发模型性能降级。

据介绍，Fable护栏触发后会自动降级回退至Claude Opus 4.8模型承接任务，整套拦截机制依托关键词匹配运行，只要文本命中网络安全领域相关词汇，便会强制触发封禁规则。另有行业研究员在社交平台X吐槽，单纯发起代码审查工作，同样会触发模型安全拦截机制。与此同时，Matt Suiche也理性认可企业风控逻辑，他表示现阶段AI安全治理尚处早期阶段，模型安全护栏仍处于迭代调试周期。伴随Anthropic等前沿AI厂商与新一代网络安全企业深化合作，这套粗放式拦截规则后续会持续优化迭代。“模型公测前期，宁可过度拦截请求、规避高危风险，也不能风控缺位，后续再循序渐进放宽限制，是行业稳妥的落地思路。”Suiche补充道。

截至目前，Anthropic官方尚未回应媒体的置评请求。除模型原生内置硬性安全护栏外，Anthropic同步推出配套解决方案，面向网络安全从业者开放「网络验证计划」，专业人员提交申请并通过审核后，使用Claude开展合规网络安全工作时，即可解除大部分使用限制。值得一提的是，竞品厂商OpenAI也落地了同源风控方案，推出「网络安全可信访问」专项计划，适配专业从业者合规使用需求。

 用户评论

IT那些事
 350 成员 |  4715 话题
+我要提问 +随便写写

可能感兴趣的话题

SpaceX上市引发普通投资者权益争议

Apple Arcade新增九款游戏，包括《家庭问答口袋版》

Airbnb CEO切斯基筹建新AI实验室，直面OpenAI竞争

企业支出管理巨头Ramp完成7.5亿美元融资，押注AI成本管控新赛道