如题,在不考虑价格的情况,目前国产大模型哪个编程能力最顶呢,以及各自的擅长领域,参赛的选手有:
GLM-4.6:说是 Claude Sonnet 4.5 和 GPT-5 ,但价格仅需要 Sonnet 1/7
Qwen3-Code:SWE-bench Live 测试中得分 54.7 ,超越 GPT-4.1 ( 48.6 ),中文 API 文档理解准确率达 92%
DeepSeek-V3.2-Exp:说是被 GLM4.6 超过,但在 Vercel 、Windsurf 等编程平台接入
MiniMax M2:每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ,专为 Agent 工作流设计
Deepseek v3.2 执行
Minimax M2:刚开始我是它的粉丝,尤其是看到 openrouter 上它在 Cline 选用的模型里排前三,往往仅次于 Claude 家(现在又来了 Gemini 3pro ),这是老外每天真金白银投出来的,不过上次被它无声无息把我的文件删掉重写,所有的样式都按它的想法重改了以后,就不太敢用了。希望它的新版本改进些吧,我还会试用的!
Deepseek v3.2:12 月 1 日更新的这个版本运行得很好,速度飞快,而且实在太便宜了,便宜得我用得都不好意思了。跟 Claude 这种血盆大口贪婪吞噬我钱钱的怪兽相比,Deepseek 简直是慈眉善目的大善人!它真正的缺点很少有人提到,就是上下文窗口从 1 月发布到 12 月都没有增长过,一直只有 128K !导致我必须把任务拆细了喂给它,不能给整坨的,不过这样也好,保持了自己对整个代码的掌控感。每次我想指责 Deepseek 的时候,看了它清一色的清北浙科南组成的开发团队名单,就讪讪地把话吞了回去,哈哈!
你写个 crud 写个 UI 恨不得指望 1 句话让模型给你生成一个接口,多思考自己是否真的给到了模型需要的信息,然后再来评价模型
这是我在花了 1.5 人日搞出来的东西,而且 ai 编程非常爱一次性搞出一大堆没用的废话让你读,每次看这些东西都跟玩大家来找茬一样,需要在一堆垃圾中找出来到底哪里有问题,然后给它提出来等着它接下来再生成一堆垃圾。
如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.