7 月 19 日,OpenAI 研究员 Alex Wei 在 X 平台发文,称其实验性大模型在 IMO 数学竞赛中取得了金牌级别的成绩。但值得关注的是,该评分标准是由 3 位前 IMO 金牌得主打分并达成共识。而 Alex 的帖子公布时间却成了争议开端。对此,有网友引用曾经 IMO 金牌得主 Joseph Myers 的评论图片发文:「国际数学奥林匹克要求人工智能公司不要抢孩子们的风头,并在闭幕式后一周再公布结果。而 OpenAI 在闭幕式之前就宣布了结果。」
Joseph Myers 也在评论中表示,IMO 2025 的评审团、协调员普遍认为 AI 开发者在 IMO 比赛前后(例如在闭幕派对之前)宣布与 IMO 相关的成绩是不合适的。Myers 指出,相关公告应至少在闭幕典礼后一周发布,因为比赛的重点应放在人类参赛者的成就上,而 AI 的报告不应分散大家的注意力。另据参加了 IMO 测试的数学超级智能 AI 公司 Harmonic 消息称,IMO 理事会已要求多家参与的主要 AI 公司,直到 7 月 28 日为止暂不发布结果。而 OpenAI 研究员 Noam Brown 随后澄清表示,OpenAI 是在 IMO 闭幕式结束后发布的消息,并且他在发帖前提前告知了一位 IMO 组织者,后者请求 OpenAI 等闭幕式结束再发,OpenAI 也确实遵守了这个请求。
据悉,OpenAI 并不在本次 IMO 2025 的官方邀请参赛的名单之上。也就是说 OpenAI 并没有正式注册参赛,也没有将结果提交 IMO 评审机构进行评分,而是选择了邀请三位前金牌得主「打分」。
对此,有评论指出,三位前金牌得主并非官方协调员,OpenAI 的测试过程也未公开,只是内部验证,没有像其他 AI 挑战(如前几天与 Psyho 的程序大战)那样接受第三方验证。而在昨晚,Google DeepMind 正式宣布,其搭载了 「深度思考」(Deep Think) 能力的高级版 Gemini 在 IMO 2025 中获得金牌水平,得分为 35 分(6 题解出 5 题),并且在规定时间(4.5 小时)内,用自然语言解决了世界上最难的数学题。