今天看到一篇文章,非常的有意思,说的就是阿里的通义千问。大模型领域,关于大模型到底是不是能推理,还是纯粹的记住了答案然后背出来,一直都有一些不同的观点。通义千问这个大模型很有意思,之前有一些论文用强化学习通义千问的大模型,比如DeepSeek就干过。一些研究人员发现,在强化学习里面,对通义千问的大模型,哪怕给予非常弱,甚至是很随机的奖励,通义千问的数学推理能力都蹭蹭蹭的上涨。
这个研究,如果把大模型换成Llama,那么结果就不行了。有些研究人员觉得,这是因为Llama这个基础模型太拉胯了,强化学习也拯救不了。通义千问就不一样了。然而,最新的精心构建的册数发现,对于已经有的测试集,比如说MATH-500,通义千问可以非常轻松的把整个题一字不差的补全,只要开始给一点点题目。这个准确率超过了50%。而Llama 3系列的模型准确率却只有不到4%。
但是一旦把测试集换成了比通义千问模型发布更晚的测试集,通义千问补全题干的能力立刻下降到了约等于0%。这就和Llama没什么区别了。所以显而易见,通义千问的训练里面,数据污染,应该是跑不掉了。文章作者还测试了各种随机算术题。然后,通义千问的表现就很不一样了。正确的奖励信号,的确可以提升模型的推理能力。而错误或者随机的奖励信号,训练和Llama一样,立刻垮掉。
所以其实并不存在着Llama的基础模型太差,而通义千问的基础模型比较好,所以哪怕只是随机或者错误的奖励信号,也能提高基础模型的推理能力。有的只是,模型的训练数据不知道怎么就污染了模型,所以模型变成了针对特定测试集的背答案。
文章是:Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination。
具体文章地址在:https://arxiv.org/abs/2507.10532
我肯定不是大模型领域的专家,看起这方面的文章来,也觉得吃力。但是我觉得,这很有意思。毕竟之前我写过一篇文章:被DeepSeek震撼,阿里让员工春节加班,睡办公室!!!文章里面讲述了阿里巴巴的董事会主席蔡崇信在接受挪威银行投资管理公司的播客采访的时候讲的一段真实的经历,具体如下:
今年初,DeepSeek发布。DeepSeek以其低成本,高性能的AI模型,让阿里巴巴做通义千问的工程师们感受到了巨大压力。阿里工程师们看了论文以后表示,明明大家做同一件事情,怎么阿里巴巴居然落后了。于是阿里巴巴的工程主管,立刻做了一个决定,要求取消春节假期,所有人都留在公司,睡在办公室里。加快研发进度。几个星期以后,阿里巴巴发布了自己的通义千问新模型,竞争力不错。
想象一下,如果你是通义千问团队的一个研发牛马,你事实上面临着从最高层到各种研发主管的时时刻刻多大的压力。春节都不让过,必须加班,睡在公司里。在高压环境下做研发大模型这种最尖端的科技,我想Llama 4的拉胯,已经说明了,这么做既不现实也不可持续。所以,如果说通义千问模型的数据确实被污染了,到底是什么原因导致的呢?
我盲猜,阿里巴巴的领导管理层从最高层下来一路层层加码给的压力,需要为这种事情负责。至于蔡崇信能够公开自信的把这种春节让员工加班,睡办公室的经历毫无顾忌的讲出来,这本身就说明了,去这家公司做牛马,真的是比做牛做马还要做牛做马,而公司领导不以为耻,还引以为荣。
真不知道这是一种什么样的工作环境,什么样的企业文化。