• 国产大模型哪个编程能力最顶?
  • 发布于 6小时前
  • 18 热度
    11 评论
如题,在不考虑价格的情况,目前国产大模型哪个编程能力最顶呢,以及各自的擅长领域,参赛的选手有:
GLM-4.6:说是 Claude Sonnet 4.5 和 GPT-5 ,但价格仅需要 Sonnet 1/7
Qwen3-Code:SWE-bench Live 测试中得分 54.7 ,超越 GPT-4.1 ( 48.6 ),中文 API 文档理解准确率达 92%
DeepSeek-V3.2-Exp:说是被 GLM4.6 超过,但在 Vercel 、Windsurf 等编程平台接入
MiniMax M2:每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ,专为 Agent 工作流设计
用户评论
  • 那场梦
  • 我现在的模式是,Claude Opus 4.5 给方案
    Deepseek v3.2 执行
    Minimax M2:刚开始我是它的粉丝,尤其是看到 openrouter 上它在 Cline 选用的模型里排前三,往往仅次于 Claude 家(现在又来了 Gemini 3pro ),这是老外每天真金白银投出来的,不过上次被它无声无息把我的文件删掉重写,所有的样式都按它的想法重改了以后,就不太敢用了。希望它的新版本改进些吧,我还会试用的!

    Deepseek v3.2:12 月 1 日更新的这个版本运行得很好,速度飞快,而且实在太便宜了,便宜得我用得都不好意思了。跟 Claude 这种血盆大口贪婪吞噬我钱钱的怪兽相比,Deepseek 简直是慈眉善目的大善人!它真正的缺点很少有人提到,就是上下文窗口从 1 月发布到 12 月都没有增长过,一直只有 128K !导致我必须把任务拆细了喂给它,不能给整坨的,不过这样也好,保持了自己对整个代码的掌控感。每次我想指责 Deepseek 的时候,看了它清一色的清北浙科南组成的开发团队名单,就讪讪地把话吞了回去,哈哈!

  • 2025/12/16 9:04:00 [ 0 ] [ 0 ] 回复
  • 顾及谁
  • 用了一段时间 Qwen Code ,我的结论是完全可用。我自己把控架构,细节交给它。提效还是很明显的。如果你想把 AI 当 CTO 来用那 Qwen Code 确实还不行。就算它能行我也不敢发布上线啊,毕竟出了问题是我背锅不是 AI 背锅。另外 Qwen Code 免费。让我花钱上班那是不可能的。
  • 2025/12/16 9:02:00 [ 0 ] [ 0 ] 回复
  • Zappos
  • 试过 kimi-k2 写前端,80%的情况下写的代码可用,不过有时候会不按要求来写代码,这时候切换到 Claude Sonnet ,一次提示就搞定了
  • 2025/12/16 9:01:00 [ 0 ] [ 0 ] 回复
  • Cactus
  • glm 没问题,我目前写的六轴机器人的正逆解,属于非常偏门的网上找不到参考答案的程序,我描述清楚的情况下,glm 不开思考模式都能写的又快又好,这说明逻辑面上模型能力没有问题。
    你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口,多思考自己是否真的给到了模型需要的信息,然后再来评价模型
  • 2025/12/16 8:59:00 [ 0 ] [ 0 ] 回复
  • APAC
  • 其他的没用过,glm 不怎么样。最近试着拿他和 claude code 分析日志数据生成一份测试报告,80%的统计结果都是错误的,错误到了随便找一个指标自己写脚本统计一下发现偏差能超过 10 倍的那种。
    这是我在花了 1.5 人日搞出来的东西,而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读,每次看这些东西都跟玩大家来找茬一样,需要在一堆垃圾中找出来到底哪里有问题,然后给它提出来等着它接下来再生成一堆垃圾。
  • 2025/12/16 8:58:00 [ 0 ] [ 0 ] 回复
  • 弄潮儿
  • 加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
    如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
    第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
    国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.
  • 2025/12/16 8:56:00 [ 0 ] [ 0 ] 回复
  • 原木风
  • 好奇问一下,GLM 4.6 ,在 trae 和 iflow cli 里都有免费的,用这个和用 GLM coding plan 里的付费套餐,对应的是同样的大模型吗,网速上或者功能上有差异吗?
  • 2025/12/16 8:54:00 [ 0 ] [ 0 ] 回复
  • 张蜚
  • 我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命
  • 2025/12/16 8:51:00 [ 0 ] [ 0 ] 回复