国产大模型哪个编程能力最顶？-堆代码网

国产大模型哪个编程能力最顶？

发布于 2个月前
 389 热度

 11 评论

人走茶凉
0 粉丝 43 篇博客

如题，在不考虑价格的情况，目前国产大模型哪个编程能力最顶呢，以及各自的擅长领域,参赛的选手有：
GLM-4.6：说是 Claude Sonnet 4.5 和 GPT-5 ，但价格仅需要 Sonnet 1/7
Qwen3-Code：SWE-bench Live 测试中得分 54.7 ，超越 GPT-4.1 （ 48.6 ），中文 API 文档理解准确率达 92%
DeepSeek-V3.2-Exp：说是被 GLM4.6 超过，但在 Vercel 、Windsurf 等编程平台接入
MiniMax M2：每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ，专为 Agent 工作流设计

 用户评论

那场梦
我现在的模式是，Claude Opus 4.5 给方案
Deepseek v3.2 执行
Minimax M2：刚开始我是它的粉丝，尤其是看到 openrouter 上它在 Cline 选用的模型里排前三，往往仅次于 Claude 家（现在又来了 Gemini 3pro ），这是老外每天真金白银投出来的，不过上次被它无声无息把我的文件删掉重写，所有的样式都按它的想法重改了以后，就不太敢用了。希望它的新版本改进些吧，我还会试用的！

Deepseek v3.2：12 月 1 日更新的这个版本运行得很好，速度飞快，而且实在太便宜了，便宜得我用得都不好意思了。跟 Claude 这种血盆大口贪婪吞噬我钱钱的怪兽相比，Deepseek 简直是慈眉善目的大善人！它真正的缺点很少有人提到，就是上下文窗口从 1 月发布到 12 月都没有增长过，一直只有 128K ！导致我必须把任务拆细了喂给它，不能给整坨的，不过这样也好，保持了自己对整个代码的掌控感。每次我想指责 Deepseek 的时候，看了它清一色的清北浙科南组成的开发团队名单，就讪讪地把话吞了回去，哈哈！
2025/12/16 9:04:00   [ 0 ]  [ 0 ] 回复

顾及谁
用了一段时间 Qwen Code ，我的结论是完全可用。我自己把控架构，细节交给它。提效还是很明显的。如果你想把 AI 当 CTO 来用那 Qwen Code 确实还不行。就算它能行我也不敢发布上线啊，毕竟出了问题是我背锅不是 AI 背锅。另外 Qwen Code 免费。让我花钱上班那是不可能的。
2025/12/16 9:02:00   [ 0 ]  [ 0 ] 回复

Zappos
试过 kimi-k2 写前端，80%的情况下写的代码可用，不过有时候会不按要求来写代码，这时候切换到 Claude Sonnet ，一次提示就搞定了
2025/12/16 9:01:00   [ 0 ]  [ 0 ] 回复

Cactus
glm 没问题，我目前写的六轴机器人的正逆解，属于非常偏门的网上找不到参考答案的程序，我描述清楚的情况下，glm 不开思考模式都能写的又快又好，这说明逻辑面上模型能力没有问题。
你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口，多思考自己是否真的给到了模型需要的信息，然后再来评价模型
2025/12/16 8:59:00   [ 0 ]  [ 0 ] 回复

APAC
其他的没用过，glm 不怎么样。最近试着拿他和 claude code 分析日志数据生成一份测试报告，80%的统计结果都是错误的，错误到了随便找一个指标自己写脚本统计一下发现偏差能超过 10 倍的那种。
这是我在花了 1.5 人日搞出来的东西，而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读，每次看这些东西都跟玩大家来找茬一样，需要在一堆垃圾中找出来到底哪里有问题，然后给它提出来等着它接下来再生成一堆垃圾。
2025/12/16 8:58:00   [ 0 ]  [ 0 ] 回复

弄潮儿
加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.
2025/12/16 8:56:00   [ 0 ]  [ 0 ] 回复