人不能同时踩两个坑，但 OpenAI 做到了-堆代码网

人不能同时踩两个坑，但 OpenAI 做到了

发布于 2个月前
 695 热度

 0 评论

爱是蓝色.
0 粉丝 51 篇博客

人不能同时踩两个坑，但 OpenAI 做到了。GPT-5 发布会上，OpenAI 因为一张比例失调的图表被全网群嘲。后续他们火速更新图表，目前已经调整好了比例。

表面上看，GPT-5 在 SWE-bench Verified 测试中拿下 74.9% 的成绩，似乎压了 Claude 一头，但知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻。

（左为新版图表，右为旧版出错图表）

给吃瓜的朋友先科普一下，SWE-bench Verified 是什么？简单说，这是个专门测试 AI 写代码能力的考卷，里面有 500 道实战题。每道题都来自 GitHub 上的真实 bug，主要是 Python 项目——Django、matplotlib、scikit-learn 等。AI 要像真正的开发者一样提交 Pull Request 来修复 bug，还得通过所有测试用例。

尽管模型可能存在只是「记住」了仓库代码的情况，而不是真的具备广泛的编程推理能力，但业内仍普遍认为，这是最接近真实开发场景的 AI 测试之一。

Anthropic 很实诚。8 月 6 日发布 Claude Opus 4.1 时，他们明确表示：所有 Claude 4 系列的成绩都是老老实实做完 500 道题算出来的，Claude Opus 4.1 得了 74.5%。OpenAI 呢？74.9% 的成绩看着更高，但仔细一瞧——他们只做了 477 道题。少了整整 23 道。

于是，SemiAnalysis 直接开始算账：500 道题考 74.9%，大概答对了 374.5 道。但 OpenAI 在标注里白纸黑字写着——他们只跑了 477 道题。那 23 道哪儿去了？OpenAI 的解释是：「这些题在我们现有的基础设施上无法运行。」有意思的是，OpenAI 很敞亮，至少说了是 477 道题。但又不是很敞亮——别家都是 500 道题的标准套餐，你少做 23 道，还把分数挂在最显眼的地方比较，这就有点微妙了。而这已经不是 OpenAI 第一次这么干了。

今年 4 月发布 GPT-4.1 时，OpenAI 就承认过这事儿。他们还做了个「保守估算」：如果把那 23 道没做的题都算 0 分，GPT-4.1 的成绩会从 54.6% 跌到 52.1%。那问题来了，这 23 道题到底是题目本身有问题，还是技术上确实搞不定？更关键的是，这些题难不难？如果恰好都是难度较高或者能拉低整体表现的题目，那 GPT-5 和 Claude Opus 4.1 的对比就没那么公平了。值得一提的是，SWE-bench Verified 这个测试集本身是由 OpenAI 在 2024 年推出。OpenAI 说，原始的 SWE-bench 数据集里有些题实在太难，几乎无法解决，会让 AI 的真实能力被低估。

为了让测试更合理，OpenAI 大手笔请了 93 名程序员，给 1699 道题目打分。评分标准是 0 到 3：
0 分：题目清晰，AI 能直接理解
1 分：需要额外解释
2 分：题目模糊，有多种理解方式

3 分：没有额外信息基本做不了

然后，OpenAI 把所有 2 分和 3 分题都扔了，只留下 0、1 分的题目。然后从中随机抽了 500 道，这就是 SWE-bench Verified——一个经过「净化」的测试集。

这也就导致 OpenAI 既是裁判又是选手。他们制定规则，然后用自己定的规则来比赛。如果去 swebench.com 看原版排行榜，我们可能反而更清楚。
这里的测试环境更加「原汁原味」，此外，这个榜单对模型能用的外部工具有限制——只能用 bash 命令行，不能调用更多开发工具或额外服务；测试框架也都是公开的。

而在这个榜单上，5 月 14 日版本的 Claude 4 Opus 反而领先于 GPT-5。说到「内部版本」和「公开版本」的差距，今天 OpenAI 又秀了一把肌肉。他们的内部推理模型在 IOI 2025（国际信息学奥林匹克竞赛）上拿到 AI 组第一、人类总排名第 6。并且，这个模型跟上次拿 IMO 金牌的是同一个版本，没有专门针对 IOI 做额外训练。

成绩确实很强——5 小时、50 次提交、不联网的限制下还能拿金牌，算法推理和代码生成能力相当可怕。但问题又来了：这不是你能用到的 GPT-5，而是 OpenAI 内部的「实验室版本」，可能更大、更强、成本也更高。