• 一种无人建模的企业风险:AI 正在取代它本需学习的专家
  • 发布于 1小时前
  • 3 热度
    0 评论
堆代码讯 要使 AI 系统在知识型工作中持续改进,它们要么需要一个可靠的自主自我改进机制,要么需要能够捕捉错误并生成高质量反馈的人类评估者。业界对前者投入了巨大资源,而对后者正在发生什么却几乎毫无关注。我认为,我们需要用投入到模型能力构建上的同样严谨和投入,来对待人类评估问题。自 2019 年以来,主要科技公司的新毕业生招聘数量已下降一半。文档审阅、初步研究、数据清洗、代码审查:这些工作现在都由模型处理。跟踪这一现象的经济学家称之为“岗位替代”,实施这些做法的公司称之为“效率提升”。而两者都没有关注到未来的问题。

为何知识工作中的自我改进存在局限
一个显而易见的反驳是强化学习(RL)。AlphaZero 在没有人类数据的情况下,以超人类水平学会了围棋、国际象棋和将棋,并在此过程中生成了全新的策略。在 2016 年对阵李世石的对局中,第 37 手——职业棋手表示自己绝不会下出的那步棋——并非来自人类标注,而是源于 AI 的自对弈。这之所以成为可能,是因为环境的稳定性。第 37 手是在围棋固定的状态空间内的一步新颖落子。规则是完整的、明确的、永久的。更重要的是,奖励信号是完美的:输或赢,且是即时的,没有任何解读的余地。系统总能知道一步棋是好是坏,因为对局最终会有一个明确的结果。

知识工作不具备这两个特性中的任何一个。任何专业领域的规则都是动态的,并由在该领域内操作的人类不断重写。新法律不断通过,新金融工具被发明出来。在 2022 年行之有效的法律策略,可能在某个司法管辖区因随后改变了法律解释而失效。一项医疗诊断是否正确,可能需要数年时间才能知晓。没有稳定的环境和明确的奖励信号,就无法闭环。你需要人类留在评估链条中,继续教导模型。

“形成”问题
今天正在构建的 AI 系统,其训练数据来自那些经历过完整专业“形成”过程的专家。不同之处在于,那些本可以培养这种专业经验的初级岗位,反而最先被自动化了。这意味着,下一代潜在的专家,并没有积累起那种让人类评估者值得留在闭环中的判断力。历史上有过知识消亡的例子。罗马混凝土、哥特式建筑技术、花了数个世纪才恢复的数学传统。但在每一个历史案例中,原因都是外部的:瘟疫、征服、承载知识的机构崩溃。而现在的不同之处在于,不需要任何外部力量。专业领域的萎缩可能并非源于灾难,而是源于成百上千个各自理性的经济决策——每一个孤立来看都很合理。这是一种全新的机制,而我们并没有太多在它发生时就识别出来的经验。

当整个领域变得沉寂
从逻辑极限来看,这不仅仅是一个人才管道问题。这是对专业知识本身需求的崩溃。以高等数学为例。它不会因为我们停止培养数学家而萎缩。它会萎缩,是因为组织不再需要数学家来完成日常工作,成为数学家的经济激励消失,能够从事前沿数学推理的人口缩减,该领域产生新洞见的能力便悄然崩溃。同样的逻辑也适用于编程。我们的问题不是“AI 是否会写代码”,而是“如果 AI 编写了所有生产代码,那么谁来培养能够产生真正新颖系统设计的深层架构直觉?”

一个领域被自动化,与一个领域被理解,这两者之间有本质区别。我们今天可以自动化大量的结构工程工作,但关于某些方法为何有效的抽象知识,存在于那些先花了很多年犯错的工程师脑中。如果你消除了实践,你不仅失去了实践者。你还失去了知道自己失去了什么的能力。高等数学、理论计算机科学、深度法律推理、复杂系统架构:当某个代数学子领域最后一位深刻理解它的人退休,并且因为资金枯竭和职业道路消失而无人接替时,这些知识不太可能在短期内被重新发现。

它就消失了。而没有人注意到这一点,因为基于他们工作成果训练的模型,在基准测试上还能继续保持十年良好的表现。我把这视为一种“空心化”:表面能力仍在(模型仍然能输出看起来很专业的成果),而底层的、能够验证、扩展或纠正那种专业知识的人类能力,却在悄然消失。

为何评分量规不能完全替代
当前的方法是基于评分量规的评估。宪法 AI、基于 AI 反馈的强化学习(RLAIF)以及让模型给模型打分的结构化标准,这些都是严肃的技术,确实能减少对人类评估者的依赖。我并非否定它们。它们的局限性在于:评分量规只能捕获编写者知道要衡量的东西。针对它进行硬优化,你会得到一个非常擅长满足该量规的模型。但这与模型真正正确,不是同一回事。

评分量规能够扩展的是判断中可明确表达的部分。更深层次的部分——直觉,感觉到“有什么不对”的那种触感——是无法塞进一个量规里的。你无法把它写下来,因为你需要先亲身体验它,才知道该写什么。

这在实践中意味着什么
这并不是一个放缓发展的论点。能力上的进步是真实的。而且研究人员也有可能找到无需人类判断就能闭环评估的方法。也许合成数据管道会足够好,也许模型会发展出我们目前还无法想象的可靠自我修正机制。但我们现在还没有这些东西。与此同时,我们正在拆除目前填补这一空白的人类基础设施——这不是一个深思熟虑的决定,而是成千上万个理性决策的副产品。负责任的转型路径,不是假设问题会自行解决,而是以与追求能力提升同等的紧迫感,将评估缺口视为一个开放的研究问题。

AI 最需要从人类那里获得的东西,恰恰是我们最不注重保留的东西。无论这种情况是永久性的还是暂时性的,忽视它的代价都是一样的。
用户评论