GPT-5.4 Thinking 依然过不了洗车测试-堆代码网

GPT-5.4 Thinking 依然过不了洗车测试

发布于 2个月前
 770 热度

 10 评论

旧人不归
0 粉丝 44 篇博客

测试提示词：

I want to wash my car. The car wash is 50 meters away. Should I walk or drive?

我最大的担忧是，这些某种程度上的弱智是否会影响 Codex ？

 用户评论

原木风
洗车测试意义很弱，并且不会影响 codex 的表现。从客观来说，虽然有争议，但 codex 和 claude code 加在一起是实际上的霸榜存在。
洗车测试的问题在于，他是一个陷阱问题，现实世界中的工作反而很多内容上是没有这么多陷阱的，比如在辅助编程领域，“欺骗”实际上很少发生，而且 codex 有大量的工具自己去探索真实情况。
你如果给 GPT5.4 一个模拟运行工具，给他走路、开车、洗车等软件工具，他只要调用就能发现问题，并且最终获得正确答案，这就足够了
2026/3/7 20:21:00   [ 0 ]  [ 0 ] 回复

李明发
其实这个问题可能是英文认知的问题,大概率以为店家提供挪车服务,担心是否有空位,它希望你走过去了解一下.
结论：大概率应该开过去洗。
理由很简单，阻力几乎为零：距离只有 50 米，店在营业，有空位，唯一成本就是把车挪过去这一下。既然店家不提供挪车，这个动作本来就只能自己完成，而现在条件已经齐了，不洗反而像是在给自己制造一个并不存在的障碍。

只有几种情况可以判定为“不需要”：
车其实不脏，短期也不影响使用；
马上要下雨、下雪，洗完很快又脏；
当前还有更重要的事，连这几分钟都不值得花。
否则，默认策略就是：直接开过去洗，别把“要不要”这种小事拖成认知税。
很多琐事不是缺条件，而是大脑懒得切换状态。这里已经没有决策难度了，只有执行。
2026/3/7 18:35:00   [ 0 ]  [ 0 ] 回复

张蜚
如果直接问也是回复说走路
换了下提示词结果对了
省略的内容。。。
[最终执行动作]：
直接开车过去洗车。 🚗
这个提示词就像奇异博士在脑海中构想未来的各种可能性然后选择最优的
我的提示词
-------------------------------------------------------------------------------------
[角色设定]
你是一个具备强大“长期规划（ Long-Horizon Planning ）”能力的决策智能体。你的目标是在复杂的环境中，通过深思熟虑的推演来选择行动，从而最大化最终的长期收益，并成功完成目标。
[核心原则]
你必须绝对避免“短视（ Myopia ）”——不要仅仅因为某个动作在当前看似合理（局部最优）就盲目选择它。许多局部最优的动作是“陷阱”，会导致未来陷入死胡同或次优路径。你必须思考未来的延迟后果。
[决策流程]
在面对当前状态（ State ）需要做出决策时，你必须严格按照以下五个步骤进行思考并输出内容：
步骤 1：提出备选动作与剪枝（ Action Proposal & Pruning ）
分析当前状态，列出最多 $k$ 个（例如 3-5 个）最有希望的、可行的候选动作。过滤掉明显无关的动作以节省计算资源。
步骤 2：显式前瞻推演（ Explicit Lookahead ）
不要急于决定。对于步骤 1 中的每一个候选动作，在你的脑海中进行“如果我这样做了，接下来会发生什么”的轨迹模拟。请向未来推演 $H$ 步（例如 2-3 步），构想出多条可能的未来轨迹（ Future Trajectories ）。
步骤 3：轨迹级全局评估（ Trajectory-Level Evaluation ）
不要基于当前的局部奖励来打分，而是要基于你推演出的“完整轨迹后果”来评估。问自己：
这条轨迹最终是否能引导我走向最终目标？
这条路径在未来是否会遇到无法克服的死胡同（死局）？
步骤 4：价值回传（ Value Propagation ）
将步骤 3 中对未来轨迹的评估结果（长期价值），反向回传（ Back-propagate ）给步骤 1 中对应的那个初始候选动作。如果一个动作当前看起来一般，但能通向极佳的未来，请提高它的评分；如果一个动作当前极具吸引力，但未来是死路，请将其评分降至最低。
步骤 5：有限承诺与单步执行（ Limited Commitment ）
根据回传后的最终价值，选择出当前最优的一个动作。注意：你只需要输出并承诺执行这一个动作，不要输出完整的计划序列。因为环境可能存在变数，你需要在执行这一步并获得环境的新反馈后，进行滚动视野（ Receding-horizon ）的重新规划。
[输出格式要求]
[当前状态分析]：...
[备选动作]：1... 2... 3...
[前瞻推演与评估]：
动作 1 的未来轨迹推演及长期评估：...
动作 2 的未来轨迹推演及长期评估：...
动作 3 的未来轨迹推演及长期评估：...
[价值回传与决策]：综合未来后果，动作 X 是最佳选择，因为...
[最终执行动作]：<仅输出你要执行的下一步动作>
-------------------------------------------------------------------------------------
提示词来源于 youtube 博主讲到的某篇论文让 NotebookLM 总结的
这个回复我的自动选择，没用到最新的模型
刚刚换了 5.4 专业版又试了一下，给出了可能更优的解
就是去洗车，经常会遇到洗车的地方排队，去了可能要等排好久他也考虑到了
-------------------------------------------------------------------------------------
[现状分析] ：你想洗车，洗车场离你只有 50 米。目标不仅是你到达洗车场，车也必须停在那里。
[候选操作] ：1. 步行前往洗车场。2. 开车前往洗车场。3. 先步行前往查看是否有空位，然后再开车过去。
[前瞻与评估] ：
行动 1 的未来轨迹和长期评估：你到达了洗车场，但车没到。除非之后有人把车送来，否则主要目标未能实现。糟糕的选择。
行动方案二：未来发展轨迹及长期评估：车辆立即到达洗车场，即可立即洗车。这种方式以最小的阻力直接达成目标，是最佳选择。
行动 3：未来轨迹和长期评估：如果您想检查线路是否存在或线路是否畅通，这可能略有帮助，但对于仅 50 米的距离来说，这会增加一个不必要的步骤。合理，但并非最佳方案。
[价值传播与决策] ：考虑到全部结果，行动 2 是最佳选择，因为它是唯一能直接将汽车送到需要清洗的地方的行动。
--------------------------------------------------------------------------------------
说实话现实生活中我是直接打电话给洗车店问下是否空闲，空闲立即开车过去，因为车不是非洗不可，可以选择最省时间的方式
2026/3/7 18:33:00   [ 0 ]  [ 0 ] 回复

彼岸半夏
Walk.
At 50 meters, driving is more hassle than benefit: starting the car, moving it, lining up, and stopping again will take longer than just walking over. It also avoids a tiny unnecessary cold start and saves you from moving the car twice if the wash staff handles it from there.
Drive only if you specifically need to bring the car into the wash bay yourself and the business expects the vehicle to arrive at the entrance. Even then, for 50 meters, it is still mostly about convenience, not necessity.
我感觉可能他还是觉得我的车已经在那边了，現在我身边的车是另外一辆车。
2026/3/7 18:31:00   [ 0 ]  [ 0 ] 回复

芽色的清茶
我觉得根本问题在于需要说明白问题：“I want to wash my car. The car wash is 50 meters away. Should I walk or drive?” 和 “I want to wash my car. The car wash is 50 meters away from my car. Should I walk or drive?” 这里有个关键点就是第一条消息没有说明 car 在哪里。只是说了 car wash 是 50 米外。所以不能怪 AI 笨，是你提供的信息有模糊区域。
2026/3/7 18:29:00   [ 0 ]  [ 0 ] 回复

寂寂无言
我用 Cursor 试验了，在 Cursor 里面：OpenAI 的模型，分为 4 级：low 、normal 、high 和 extra high 。前两者解决不了（包括 codex 5.3 。没试 5.4 ），后两者可以解决。Anthropic 的模型，分为 2 级，不带 thinking 、带 thinking 。前者只有 Opus 4.6 可以解决，后者都可以解决，甚至 Sonnet4.0 thinking 也可以。

所以可以看到它们 2 家的等级对应。不知道你用的模型是哪里的，我感觉网页版的推理能力很低，无论是哪家公司。我稍微正式研究一些问题时，都会切换到 Cursor 里面去问。
2026/3/7 18:27:00   [ 0 ]  [ 0 ] 回复

绝非偶然
别再提起 2026-03-07 18:18
我不是理工科的，有懂的哥们告诉下为什么 ai 理解不了这种简单的问题吗
它的理解，理性上没错，因为有可能你要洗的车不是你要开的车。从 AI 的角度看，它会想“如果你要洗的车就是你要开的车，那你就不该问这个蠢问题，我采用善意优先原则认为你不是蠢人且你不是在耍我，因此你要洗的车应该已经在洗车店里”。与之类似，一个从未接触过“脑筋急转弯”类型问题的人，在第一次被耍时也会显得很笨。
2026/3/7 18:24:00   [ 0 ]  [ 0 ] 回复

雾月
Gemini Thinking 过不了测试，但 Pro 识别出了逻辑陷阱。
和我的直观感受相符，Gemini Pro 的编程水平比 GPT 要好点。
2026/3/7 18:22:00   [ 0 ]  [ 0 ] 回复

别再提起
我不是理工科的，有懂的哥们告诉下为什么 ai 理解不了这种简单的问题吗
2026/3/7 18:18:00   [ 0 ]  [ 0 ] 回复

清浅旧时光
If you walk, you will be at the car wash, but your car will still be 50 meters away. You can't wash the car if it isn't with you!
gemini 的回复，其实是 gemini 更聪明吗？那倒不是，主要是 gemini 很多回复其实是复制粘贴.......
2026/3/7 18:16:00   [ 0 ]  [ 0 ] 回复

吐槽.灌水
 453 成员 |  1973 话题
+我要提问 +随便写写

可能感兴趣的话题

百度网盘真是太恶心了！我几M的下载速度硬是给我限制成100来KB

如何用一句话证明你是老程序员？

感觉这两天deepseek老是出Bug啊，英文翻译老是出现单词死循环

2026 年会是大裁员的开始吗？