Google Gemini 新版登顶大模型竞技场-堆代码网

Google Gemini 新版登顶大模型竞技场

发布于 2个月前
 648 热度

 0 评论

我没那么帅
1 粉丝 71 篇博客

日前，Google Gemini 2.5 Pro 宣布推出新版本「Gemini 2.5 Pro(0605)」。性能表现上，Gemini 2.5 Pro 新版在代码、推理等任务表现更强：在 Humanity’s Last Exam（人类最后的考试）中，以 21.6% 的成绩超越 OpenAI o3；在 GPQA 测试中，以 86.4% 的成绩位居榜首。

大模型竞技场中，Gemini 2.5 Pro 新版在 Elo 评分上，相较于 (0506) 版本提升了 24 分（达到 1470 分），保持领先地位。据 Google 介绍，本次 (0605) 版本是基于今年 I/O 大会上公布的 (0506) 版本所构建，并且新版有望成为 Gemini 2.5 Pro 的正式稳定版「出道」。另外，Google 还给新版 2.5 Pro 进行了回答改进，目前它可以提供更富有创意且格式更优的答复。

突袭更新，性能全面突破
谷歌此次发布行动迅速且突然。在深夜通过多个官方渠道同步官宣，称0605版本是“迄今为止最有智慧的模型”。谷歌DeepMind团队在官方博客中表示，该版本基于5月I/O大会上展示的0506版本构建，经过密集优化后，在文本、视觉、编程、数学推理等全方位能力上取得突破。特别在科学推理领域，0605在GPQA测试中的表现同样占据榜首。GPQA是一个由博士级问题组成的专业测试集，涵盖物理、生物、化学等专业领域。

“这个模型将在两周后作为稳定版发布，已具备企业级应用成熟度，”谷歌在技术公告中明确表示。这标志着谷歌首次将Gemini 2.5 Pro定位为可部署于商业环境的生产级AI。

编程领域，碾压级表现
在开发者最关注的编程能力上，0605展现了碾压级别的优势。根据LMArena最新榜单，该模型在高难度编程基准测试Aider Polyglot中名列前茅，超越DeepSeek R1等一众大模型。实际测试中，开发者要求0605编写Python程序模拟单行道交通信号灯运作。它生成的代码运行后展现出精美的动画效果，车辆行为符合物理规律5。作为对比，同一任务下GPT-4.5生成的动画不仅画面粗糙，车辆运动也不符合物理规律。

更令人惊艳的是，当用户要求生成“3D球体”时，0605仅凭一句指令就创建出完整的交互式粒子系统，令测试者直呼“这不可能是真的！”。在Android开发场景中，它完美生成了符合要求的Jetpack Compose代码，包含完整导入语句、Material3组件和代码文档。

 用户评论

IT那些事
 350 成员 |  4715 话题
+我要提问 +随便写写

可能感兴趣的话题

SpaceX上市引发普通投资者权益争议

亚马尔再曝新配色，Beats未发布头戴耳机新增象牙色版本

Apple Arcade新增九款游戏，包括《家庭问答口袋版》

企业支出管理巨头Ramp完成7.5亿美元融资，押注AI成本管控新赛道