• 倒闭公司的"数字遗产"成了二级市场的抢手货
  • 发布于 2小时前
  • 6 热度
    0 评论

堆代码讯 当一家初创公司倒下的时候,剩下的除了未付的工资、闲置的办公家具,还有什么?如今,答案或许是:AI 训练的顶级数据。为了构建更强大的新一代人工智能系统,开发者们正在把目光从开放的互联网,转向了一个全新的、更私密的数据来源:失败初创公司的内部运作数据。那些曾经被当成运营垃圾的 Slack 讨论串、电子邮件链、内部文档,甚至是源代码,如今正在催生出一个全新的二级市场,被打包、脱敏,卖给急需高质量训练数据的 AI 开发者。

从公开数据到内部数据:AI 训练的需求变了

这一转变,本质上是 AI 模型构建逻辑的大演变。早期的大型语言模型,训练数据大多来自公开的新闻档案、维基百科、网络论坛,这些公开的文本数据足够支撑模型学会基础的语言逻辑。但现在,新一代的 AI 系统,尤其是能够自主完成工作任务的智能体(AI Agent),需要的是完全不同的数据:更具结构性、更有情境性的内容,能够真实反映一个组织内部的决策过程、工作流程、团队协作的模式。


为了训练这些智能体,开发者们正在搭建 “强化学习训练场”—— 一个模拟的工作环境,让 AI 可以在里面演练怎么完成工作任务。而这些训练场,极度依赖真实的、详细的内部工作数据:团队怎么协调任务?怎么解决分歧?怎么推进项目?这些内容,是公开的网络数据根本复现不了的。这个需求有多迫切?据透露,Anthropic 的领导层甚至讨论过,为了搭建这类训练基础设施,投入高达 10 亿美元的资金。而现在,这个需求,刚好和一个意想不到的供应方撞上了:那些专门帮初创公司做清算的企业。


倒闭公司的 “数字遗产”,成了抢手货

像 SimpleClosure 这样的公司,原本的业务是帮倒闭的初创公司处理工资结算、税务清算、投资者的资产结算。但现在,他们拓展了一个全新的业务:把这些倒闭公司的数字资产变现。他们推出的 Asset Hub 平台,就是用来帮创始人把公司剩下的内部资产授权出去,榨干最后一点价值。这些资产不仅包括源代码这类技术材料,还包括了内部的电子邮件、工作文档、Slack 的聊天记录 —— 这些曾经没人在意的运营残留物,如今成了 AI 公司抢着要的宝贝。


SimpleClosure 会先评估这些数据的价值,然后做脱敏处理,删掉所有的个人身份信息,之后再授权给 AI 开发者。根据《福布斯》的报道,过去一年里,他们已经促成了近 100 笔这样的交易,每家倒闭的初创公司,靠卖这些数据,能拿到 1 万到 10 万美元不等的收益。SimpleClosure 的 CEO 多里・约纳直言:“这些想要拿到真实世界数据的公司,现在就跟淘金热一样,疯了一样抢。”


对 AI 开发者来说,这些内部数据的价值无可替代:它们展示了工作到底是怎么完成的,团队怎么沟通,怎么解决问题,怎么推进任务。这些细节,是公开的网络内容根本给不了的,也是训练能干活的 AI 智能体最需要的东西。


但让这些数据如此有价值的特性,也引发了巨大的隐私担忧。和公开的网页内容不一样,工作场所的沟通数据,里面全是具体的人:员工的沟通习惯、行为模式,还有很多敏感的交流内容。哪怕做了匿名化处理,隐私倡导者也认为,风险根本没法忽视。“我觉得这里的隐私问题相当严重,” 人工智能与数字政策中心的创始人马克・罗滕伯格表示,“员工的隐私仍然是关键问题,尤其是现在大家都这么依赖 Slack 这类内部沟通工具…… 这些不是什么泛化的数据,是一个个可识别的个人。”


这些担忧已经开始引起政策制定者的注意了。最近,人工智能与数字政策中心已经给参议院商务委员会发了信,敦促联邦贸易委员会加强对 AI 行业的监管,尤其是在训练数据的获取和使用方式上。


一个循环:倒闭的数据,训练出下一代的公司

这个全新的市场,正在用一种意想不到的方式,把初创公司的倒闭和 AI 的发展绑在了一起。曾经,一家公司倒闭了,它的内部数据很快就会被删掉,消失在互联网里。但现在,这些数据有了新的生命:它们成了下一代 AI 系统的训练材料。而反过来,这些被训练出来的 AI 系统,未来又会重塑公司的运营、沟通的方式,然后生成新的内部数据,等到这些公司倒闭的时候,又会成为下一批 AI 的训练材料 —— 这就形成了一个奇妙的循环。


目前,这个市场还在早期的发展阶段,但增长的势头已经很明显了。AI 开发者对高质量、基于任务的内部数据的需求还在涨,而硅谷源源不断倒闭的初创公司,也给这个市场提供了几乎用不完的供应。只是,在这场淘金热里,怎么平衡 AI 的发展和员工的隐私,会是接下来所有人都要面对的问题。
用户评论