人不能同时踩两个坑,但 OpenAI 做到了。GPT-5 发布会上,OpenAI 因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。

表面上看,GPT-5 在 SWE-bench Verified 测试中拿下 74.9% 的成绩,似乎压了 Claude 一头,但知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻。

(左为新版图表,右为旧版出错图表)
给吃瓜的朋友先科普一下,SWE-bench Verified 是什么?简单说,这是个专门测试 AI 写代码能力的考卷,里面有 500 道实战题。每道题都来自 GitHub 上的真实 bug,主要是 Python 项目——Django、matplotlib、scikit-learn 等。AI 要像真正的开发者一样提交 Pull Request 来修复 bug,还得通过所有测试用例。
尽管模型可能存在只是「记住」了仓库代码的情况,而不是真的具备广泛的编程推理能力,但业内仍普遍认为,这是最接近真实开发场景的 AI 测试之一。

Anthropic 很实诚。8 月 6 日发布 Claude Opus 4.1 时,他们明确表示:所有 Claude 4 系列的成绩都是老老实实做完 500 道题算出来的,Claude Opus 4.1 得了 74.5%。OpenAI 呢?74.9% 的成绩看着更高,但仔细一瞧——他们只做了 477 道题。少了整整 23 道。
于是,SemiAnalysis 直接开始算账:500 道题考 74.9%,大概答对了 374.5 道。但 OpenAI 在标注里白纸黑字写着——他们只跑了 477 道题。那 23 道哪儿去了?OpenAI 的解释是:「这些题在我们现有的基础设施上无法运行。」有意思的是,OpenAI 很敞亮,至少说了是 477 道题。但又不是很敞亮——别家都是 500 道题的标准套餐,你少做 23 道,还把分数挂在最显眼的地方比较,这就有点微妙了。而这已经不是 OpenAI 第一次这么干了。
今年 4 月发布 GPT-4.1 时,OpenAI 就承认过这事儿。他们还做了个「保守估算」:如果把那 23 道没做的题都算 0 分,GPT-4.1 的成绩会从 54.6% 跌到 52.1%。那问题来了,这 23 道题到底是题目本身有问题,还是技术上确实搞不定?更关键的是,这些题难不难?如果恰好都是难度较高或者能拉低整体表现的题目,那 GPT-5 和 Claude Opus 4.1 的对比就没那么公平了。值得一提的是,SWE-bench Verified 这个测试集本身是由 OpenAI 在 2024 年推出。OpenAI 说,原始的 SWE-bench 数据集里有些题实在太难,几乎无法解决,会让 AI 的真实能力被低估。
为了让测试更合理,OpenAI 大手笔请了 93 名程序员,给 1699 道题目打分。评分标准是 0 到 3:
0 分:题目清晰,AI 能直接理解
1 分:需要额外解释
2 分:题目模糊,有多种理解方式
3 分:没有额外信息基本做不了
然后,OpenAI 把所有 2 分和 3 分题都扔了,只留下 0、1 分的题目。然后从中随机抽了 500 道,这就是 SWE-bench Verified——一个经过「净化」的测试集。

这也就导致 OpenAI 既是裁判又是选手。他们制定规则,然后用自己定的规则来比赛。如果去 swebench.com 看原版排行榜,我们可能反而更清楚。
这里的测试环境更加「原汁原味」,此外,这个榜单对模型能用的外部工具有限制——只能用 bash 命令行,不能调用更多开发工具或额外服务;测试框架也都是公开的。
而在这个榜单上,5 月 14 日版本的 Claude 4 Opus 反而领先于 GPT-5。说到「内部版本」和「公开版本」的差距,今天 OpenAI 又秀了一把肌肉。他们的内部推理模型在 IOI 2025(国际信息学奥林匹克竞赛)上拿到 AI 组第一、人类总排名第 6。并且,这个模型跟上次拿 IMO 金牌的是同一个版本,没有专门针对 IOI 做额外训练。
成绩确实很强——5 小时、50 次提交、不联网的限制下还能拿金牌,算法推理和代码生成能力相当可怕。但问题又来了:这不是你能用到的 GPT-5,而是 OpenAI 内部的「实验室版本」,可能更大、更强、成本也更高。

所以你看,OpenAI 在营销上确实很会玩——SWE-bench 上少做 23 道题,但把分数放在最显眼的地方;IOI 上用内部模型拿金牌,但很容易让大家以为这就是 ChatGPT 的实力。

在 AI 竞赛白热化的今天,零点几个百分点的差距都能成为营销亮点。测试范围、题目选择、计分方式,每个细节都可能被放大镜审视。

当然,也有网友指出,为了一个基准测试上 2% 的差异吵得不可开交没啥意义,GPT-5 的价格比 Opus 便宜 10 倍,比 Sonnet 也便宜近 2 倍。或许对大多数用户来说,这才是真正的「硬指标」。