• Google Gemini 新版登顶大模型竞技场
  • 发布于 17小时前
  • 13 热度
    0 评论
日前,Google Gemini 2.5 Pro 宣布推出新版本「Gemini 2.5 Pro(0605)」。性能表现上,Gemini 2.5 Pro 新版在代码、推理等任务表现更强:在 Humanity’s Last Exam(人类最后的考试)中,以 21.6% 的成绩超越 OpenAI o3;在 GPQA 测试中,以 86.4% 的成绩位居榜首。

大模型竞技场中,Gemini 2.5 Pro 新版在 Elo 评分上,相较于 (0506) 版本提升了 24 分(达到 1470 分),保持领先地位。据 Google 介绍,本次 (0605) 版本是基于今年 I/O 大会上公布的 (0506) 版本所构建,并且新版有望成为 Gemini 2.5 Pro 的正式稳定版「出道」。另外,Google 还给新版 2.5 Pro 进行了回答改进,目前它可以提供更富有创意且格式更优的答复。


突袭更新,性能全面突破
谷歌此次发布行动迅速且突然。在深夜通过多个官方渠道同步官宣,称0605版本是“迄今为止最有智慧的模型”。谷歌DeepMind团队在官方博客中表示,该版本基于5月I/O大会上展示的0506版本构建,经过密集优化后,在文本、视觉、编程、数学推理等全方位能力上取得突破。特别在科学推理领域,0605在GPQA测试中的表现同样占据榜首。GPQA是一个由博士级问题组成的专业测试集,涵盖物理、生物、化学等专业领域。

“这个模型将在两周后作为稳定版发布,已具备企业级应用成熟度,”谷歌在技术公告中明确表示。这标志着谷歌首次将Gemini 2.5 Pro定位为可部署于商业环境的生产级AI。

编程领域,碾压级表现
在开发者最关注的编程能力上,0605展现了碾压级别的优势。根据LMArena最新榜单,该模型在高难度编程基准测试Aider Polyglot中名列前茅,超越DeepSeek R1等一众大模型。实际测试中,开发者要求0605编写Python程序模拟单行道交通信号灯运作。它生成的代码运行后展现出精美的动画效果,车辆行为符合物理规律5。作为对比,同一任务下GPT-4.5生成的动画不仅画面粗糙,车辆运动也不符合物理规律。

更令人惊艳的是,当用户要求生成“3D球体”时,0605仅凭一句指令就创建出完整的交互式粒子系统,令测试者直呼“这不可能是真的!”。在Android开发场景中,它完美生成了符合要求的Jetpack Compose代码,包含完整导入语句、Material3组件和代码文档。

用户评论