Physical Intelligence：机器人AI的能力拐点初现？-堆代码网

Physical Intelligence：机器人AI的能力拐点初现？

发布于 2个月前
 273 热度

 0 评论

DuXing
7 粉丝 63 篇博客

堆代码讯在旧金山的机器人创业圈，成立仅两年的 Physical Intelligence（下称 PI）正悄然成为湾区最受瞩目的 AI 新星。当地时间周四，这家初创公司发布了最新研究成果：其全新的 π0.7 模型，已经能指挥机器人完成从未经过专门训练的陌生任务 —— 这一超出预期的能力，甚至让研发团队自己都感到意外。

在 PI 团队看来，π0.7 是朝着行业长期追求的 “通用机器人大脑” 迈出的早期却意义重大的一步：一个能够应对陌生任务、接收自然语言指导、并真正落地执行的机器人智能系统。如果这一发现能够经受住后续的检验，它或许意味着，机器人 AI 正接近大语言模型领域曾经历过的能力拐点 —— 模型的能力增长，开始以超越基础训练数据预测的方式实现复合式提升。

这一切的核心，是论文中提出的 “组合泛化” 能力：将不同情境下学到的零散技能重新组合，解决模型从未遇到过的全新问题。在此之前，机器人训练的标准模式几乎是 “死记硬背”：针对某一项特定任务收集专属数据，训练一个专门的模型，遇到新任务就重复这一整套流程。而 π0.7 的出现，正在打破这一固化的模式。

“一旦模型跨越了那条界线 —— 从只能完成你收集数据所针对的特定任务，转变为能够以全新方式重新组合所学内容 —— 它的能力增长就会超越数据的线性增长。这种更高效的扩展特性，我们在语言、视觉等其他 AI 领域已经见到过。”PI 联合创始人、加州大学伯克利分校机器人 AI 教授谢尔盖・莱文解释道。

论文中最具代表性的演示，来自一个模型在训练中几乎从未接触过的设备：空气炸锅。研发团队梳理后发现，整个庞大的训练数据集中，和空气炸锅相关的内容只有两个零散的片段：一个是某款不同的机器人仅仅推了一下空气炸锅将其关闭，另一个来自开源数据集，记录了一个机器人在人类指示下将塑料瓶放入空气炸锅的过程。

仅凭这少得可怜的信息，再加上模型基于网络数据完成的通用预训练，π0.7 居然整合出了对这一设备工作原理的功能性理解。“很难追踪这些知识究竟来自哪里，也很难预判模型会在哪些地方成功或失败。”PI 研究员、斯坦福大学计算机科学博士生露西・施坦言。最终，在没有任何额外指导的情况下，模型尝试用这台空气炸锅烹饪红薯，结果勉强达到了可接受的水平；而当人类像指导新员工一样，用口头指令一步步引导它完成操作时，机器人顺利完成了整个烹饪流程。

这种可通过自然语言实时引导的能力之所以关键，是因为它意味着机器人可以直接部署到全新的环境中，边执行边优化，无需额外的数据收集，也不用对模型进行重新训练 —— 这正是此前传统机器人系统难以实现的突破。不过，研发团队并没有回避模型的局限性，也始终对成果保持着谨慎的态度。露西・施提到，很多时候任务的失败，问题既不出在机器人，也不在模型本身，而是人类不擅长做 “提示工程”。她举例了早期的空气炸锅实验：最初团队的任务描述方式不够清晰，整个任务的成功率只有 5%；而在花了半小时优化指令的表述后，成功率直接跃升至 95%。

除此之外，目前的 π0.7 还无法根据单个高层级指令，自主完成复杂的多步骤任务。“你不能直接告诉它，‘嘿，去给我烤片面包’，” 莱文打了个比方，“但如果你一步步引导它 ——‘对于这个烤面包机，打开这里，按下那个按钮，这样做’—— 那么它通常能很好地完成。”

另一个行业性的难题在于，目前机器人领域还没有真正标准化的基准测试，这也让外界很难直接验证 PI 团队的成果。因此，团队选择将 π0.7 与自己此前构建的、针对单个任务训练的专门模型进行对比，结果发现，这个通用模型在煮咖啡、叠衣服、组装纸箱等一系列复杂任务上，都达到了与专门模型相当的表现。而最让研发团队感到意外的，是模型展现出的超出预期的能力 —— 毕竟作为研发者，他们本应最清楚训练数据里有什么，也最清楚模型理论上能做什么、不能做什么。

“我的经验一直是，当我深入了解数据内容后，我大致能猜出模型能做什么，我很少感到惊讶。但过去几个月是我第一次真正感到惊讶。”PI 研究科学家阿什温・巴拉克里希纳说，“我随机买了一套齿轮，对机器人说，‘嘿，你能转动这个齿轮吗？’结果它就能做到”。莱文则想起了自己第一次接触 GPT-2 时的场景：当时这个大语言模型生成了一个关于安第斯山脉独角兽的故事，让他无比困惑 ——“它到底从哪里学到秘鲁的独角兽的？这个组合太奇怪了。” 他说，“我认为在机器人领域看到类似的现象真的很特别。”

当然，外界的质疑声也随之而来。有批评者指出，语言模型有整个互联网的海量数据可以学习，而机器人并不具备这样的条件，再巧妙的提示工程也无法完全弥合这一差距。但莱文认为，真正的质疑或许会来自另一个方向。“任何机器人泛化演示都可以被批评的一点是，这些任务有点无聊，” 他说，“机器人又没做后空翻。” 在他看来，很多人习惯了那些精心编排的机器人特技演示，却忽略了泛化能力的真正价值：那些酷炫的特技，本质上还是针对特定动作的专门训练；而泛化能力看起来没那么戏剧化，却能让机器人应对无数日常的、琐碎的真实任务，它的实用价值要大得多。

事实上，PI 的论文本身措辞就非常谨慎，称 π0.7 只是表现出了泛化能力的 “早期迹象” 和新能力的 “初步演示”—— 这些是前沿的研究成果，而非已经可以落地部署的成熟产品。当被问及基于这些发现的系统何时能真正投入商用时，莱文拒绝给出具体的时间表：“我认为有理由保持乐观，它的进展当然比我几年前预期的要快，但我很难回答这个问题。”

而在资本市场上，这家成立仅两年的初创公司已经成为了绝对的明星。截至目前，PI 已经累计融资超过 10 亿美元，最新估值达到 56 亿美元。投资者的热情，很大程度上来自联合创始人拉奇・格鲁姆的背书：他曾是硅谷最受推崇的天使投资人之一，成功投资了 Figma、Notion、Ramp 等一众明星公司，而在他看来，PI 正是他一直在寻找的、能够改变行业的那家公司。

正是这样的背景，让 PI 轻松吸引了大量机构资金，哪怕公司从未向投资者提供过商业化的时间表。甚至有消息称，公司目前正在洽谈新一轮融资，估值将几乎翻倍，达到 110 亿美元，不过团队对此并未置评。对于整个机器人 AI 领域而言，π0.7 的出现，或许只是通用机器人大脑漫长征程里的一小步，但它所展现出的组合泛化能力，以及超出研发者预期的涌现表现，已经让人们看到了机器人领域复刻大语言模型能力拐点的可能性。尽管距离真正的通用机器人落地还有很长的路要走，但这家年轻的初创公司，已经用自己的研究，为整个行业打开了新的想象空间。

 用户评论

IT那些事
 348 成员 |  4711 话题
+我要提问 +随便写写

可能感兴趣的话题

苹果Siri AI落地，走出最聪明的AI突围之路

Rivian首批R2 SUV正式交付，逆势突围美国电动车市场

AI告别规模至上，低成本小模型掀起产业大变局

印度马恒达未来车型将适配Apple Wallet