2025年的中国大模型领域“接着奏乐接着舞”,继续热闹非凡。DeepSeek 在 4 月 30 日发布了数学模型 Prover-V2,这一模型参数规模扩展到 6710 亿,在数学测试集上成绩亮眼,miniF2F 测试通过率达到 88.9%,还解决了 PutnamBench 的 49 道题。无独有偶,月之暗面也在4月中旬推出了用于形式化定理证明的大模型 Kimina-Prover,并开源了 1.5B 和 7B 参数的模型蒸馏版本,其 miniF2F 测试通过率为 80.7% ,PutnamBench 测试成绩为 10 道题。而就在此前,这两家公司刚刚发生过另一起“撞车”事件:他们发布的论文,都聚焦于 Transformer 架构的核心——注意力机制。
针对这一系列的 “撞车” 现象,有人认为是神仙打架、双方较劲。但我却认为,这不是较劲,而是顶尖高手在通往AGI的圣杯征途上,不同选择下的殊途同归。这些“碰撞”背后,折射出的是中国AI产业在基础模型与应用落地之间的多元探索,以及对AGI终极目标的深刻思考。
一.AGI的必经之路:数学与编程
为何看似“高冷枯燥”的数学定理证明,会成为DeepSeek和月之暗面不约而同投入重兵的领域?这背后其实反映了这两家头部AI企业,对实现AGI路径的深层思考。
关于AGI的实现路径,DeepSeek创始人梁文锋在2024年接受《暗涌》采访时曾有过清晰的阐述。他提到,DeepSeek确实押注了三个方向:一是数学和代码、二是多模态、三是自然语言本身。梁文锋认为,“数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。” 这也意味着,在逻辑严谨、规则明确的数理世界中训练AI,是提升其核心推理能力、逼近真正智能的关键一步。而形式化定理证明,正是这一思路下的极致挑战,它不仅要求AI要能理解符号,还要能进行严密的、一步步可验证的逻辑推演。
简单理解,如果说自然语言让AI学会了沟通,那么在数学和代码上的突破,则意味着AI开始拥有更深层次的逻辑推理、抽象思维和创造潜力。攻克数学这个“硬骨头”,不仅仅是为了解决特定问题,更是为了锻造AI的“理性思维”内核。而这正是通往AGI道路上无法回避的基础性工作,也是区分“鹦鹉学舌”与“真正理解”的关键所在。
我认为,DeepSeek Prover-V2和月之暗面Kimina-Prover这两款模型的出现,恰恰标志着中国顶尖的AI团队,正将目光投向更基础、更长远、也更艰难的智能本质的探索,是一个非常积极、正面的信号。
二.DeepSeek专注基础模型
在创立DeepSeek之初,梁文锋就明确了公司做基础研究的定位。他认为,中国的AI不能永远做跟随者,只“模仿”,不“原创”,而是要勇于创新,敢做引领者。因此,DeepSeek一直专注于基础模型的研发,即使在DeepSeek爆火之后,也仍然保持这一战略定力,没有对应用层面做过多投入。也正因为这一战略选择,使得 DeepSeek 能够在基础模型领域不断取得突破,保持其在技术上的领先地位。
从 2024 年3 月首次发布 Prover 系列模型,到 2024 年 8 月更新为 DeepSeek-Prover-V1.5,再到 2025 年 4 月的 DeepSeek-Prover-V2,在数学定理证明模型上的不断进化,也充分体现了DeepSeek对基础模型研发持续不懈的投入。
此外,DeepSeek 的代码系列模型 Coder 也在不断突破。从 2024 年 4 月开始更新,6 月升级为 Coder-V2-0614,7 月再次升级;9 月,DeepSeek-V2-Chat 和 DeepSeek-Coder-V2 合并,升级后的新模型为 DeepSeek-V2.5;2024 年 12 月,该模型更新至 V3;今年 3 月,升级至 V3-0324。其中的每一步,都体现了DeepSeek对基础模型的用心和执着。
而Prover-V2的发布,则是再次印证了DeepSeek的战略决心。它依然不是一个能立刻带来现金流的应用,而是DeepSeek对AI能力边界的又一次严肃探索,是其基础研究战略版图上的又一块重要拼图。
但与此同时,我们也要看到,DeepSeek的这种战略定力,在追求快速迭代和用户增长的互联网逻辑下,无异于选择了一个更难、更寂寞的“窄门”。在探索的路上,也必将遭遇诸如阿里巴巴、百度等巨头对手的挑战。面对这些竞争和追赶,DeepSeek必然承压,其不赌一时的风口,而是试图通过在核心技术上建立代差优势,让自己在未来的AGI时代,占据无可替代地位的战略构想,也注定会是一条“难而正确”的光荣之路。
三.kimi布局社区
相较于DeepSeek的“深潜”,杨植麟为月之暗面规划的发展路径,则是一条“基础模型+AI应用并驾齐驱的“快车道”。这位同样年轻、背景耀眼的AI创始人,展现出了对技术落地和市场节奏更强的掌控欲。
月之暗面的明星产品Kimi智能助手,凭借其在长文本处理上的独特优势,自面世以来便迅速抓住了用户的眼球。为此,也反向刺激月之暗面采用了更为“激进”的市场策略。据公开信息和市场观察,月之暗面在Kimi的推广上投入了相当可观的营销费用,通过密集的线上线下宣传和用户获取活动,在短时间内将Kimi推向了国内AI应用排行榜的前列。这种“高举高打”的方式,迅速为其积累了庞大的用户基数和品牌知名度。
在流量和用户达到一定规模后,月之暗面并未止步于工具本身,而是开始积极布局社区产品。这被业内广泛解读为,月之暗面试图在流量高地之上,构建用户生态,增强用户粘性,探索更深层次的商业模式。相对DeepSeek而言,月之暗面从工具到社区,再到未来可能的平台化,似乎在走一条更遵循互联网产品“演进规律”的路径。
那么,在此背景下发布的Kimina-Prover,又意味着什么呢?在我看来,这并不是对月之暗面“应用路线”的偏离,而是对其战略的支撑和深化。Kimi的卓越表现,根植于其背后基础模型的强大能力。Kimina-Prover的研发,可以视为月之暗面在持续加固其技术“护城河”,为Kimi未来更强大的功能、更广泛的应用场景,储备核心动力。
即使是走应用驱动的“快车道”,也深知基础模型的迭代升级是持续领跑的关键。杨植麟的路线,代表了中国AI创业的另一种重要范式:以应用快速切入市场,通过用户反馈和数据驱动技术迭代,实现技术与商业的螺旋式上升,毕竟有OpenAI的珠玉在前,证明了这条路线的可行性。月之暗面和DeepSeek,如同两种不同的引擎,共同驱动着中国AI向前发展。
四.中国AI产业,需要更多DeepSeek
DeepSeek 的爆火出圈,不仅为自身的发展赢得了声誉,也为中国 AI 产业的发展树立了楷模。在 DeepSeek 的引领下,越来越多的科技公司开始拥抱开源、加大对基础模型研发的投入。不仅有利于推动整个行业的技术进步,也有助于提升中国在全球 AI 领域的竞争力。
1、阿里Qwen3,全面爆发
4月29日,阿里巴巴发布的新一代通义千问大模型Qwen3,就是一个典型例子。作为首个 “混合推理模型”,Qwen3 参数量仅为 DeepSeek-R1 的 1/3,但性能却全面赶超 R1、OpenAI o1 等同行产品。截至 2025 年 4 月,阿里通义已开源 200 余个模型,全球下载量超 3 亿次,千问衍生模型数超 10 万个,已超越美国 Llama,成为全球第一开源模型。
Qwen3的推出,不仅展示了阿里在模型架构创新、训练优化方面的技术实力,也反映出其在追求顶尖性能的同时,也高度关注模型的实用性(即推理效率和部署成本)。这种兼顾性能与成本的思路,对于大模型在产业中的广泛应用至关重要。此外,阿里坚持的开源策略,也为整个AI社区的技术进步,起到了非常好的示范作用。
2、百度文心4.5 Turbo和深度思考模型X1 Turbo
4月25日,比阿里稍早几天,百度也发布了文心 4.5 Turbo 和深度思考模型 X1 Turbo两款大模型。文心4.5 Turbo不仅在通用能力上有大幅提升,更在垂直领域如金融、医疗、法律等方面实现了专业级水平。而X1 Turbo则专注于提升模型的深度思考能力,具备更先进的思维链,问答、创作、逻辑推理、工具调用和多模态能力均得到进一步增强,特别是在复杂问题分析和决策支持方面,有很好的表现。
百度此次推出的两款大模型,采用了独特的"混合专家系统"架构,能够根据不同任务智能调用最适合的模型组件,从而在保证性能的同时,大幅降低计算资源消耗和用户使用成本。这一技术路线,也被业内认为是大模型发展的重要方向之一。
梁文锋与杨植麟的“撞车”,表面上是技术路线的交锋,实则是中国AI产业多元化发展的缩影。DeepSeek的专注基础研究,为中国AI在全球学术界赢得了话语权;月之暗面的生态布局,则让AI技术走进了千家万户。两者一个为技术突破铺路,一个为用户体验开疆拓土,恰好构成了中国AI创新扩散的完整图景。在这场“殊途同归”的旅程中,中国AI需要更多的DeepSeek,更多的Kimi,他们都是值得尊重的探索者和追梦者。