• Physical Intelligence:机器人AI的能力拐点初现?
  • 发布于 8小时前
  • 13 热度
    0 评论
  • DuXing
  • 7 粉丝 62 篇博客
  •   
堆代码讯 在旧金山的机器人创业圈,成立仅两年的 Physical Intelligence(下称 PI)正悄然成为湾区最受瞩目的 AI 新星。当地时间周四,这家初创公司发布了最新研究成果:其全新的 π0.7 模型,已经能指挥机器人完成从未经过专门训练的陌生任务 —— 这一超出预期的能力,甚至让研发团队自己都感到意外。

在 PI 团队看来,π0.7 是朝着行业长期追求的 “通用机器人大脑” 迈出的早期却意义重大的一步:一个能够应对陌生任务、接收自然语言指导、并真正落地执行的机器人智能系统。如果这一发现能够经受住后续的检验,它或许意味着,机器人 AI 正接近大语言模型领域曾经历过的能力拐点 —— 模型的能力增长,开始以超越基础训练数据预测的方式实现复合式提升。

这一切的核心,是论文中提出的 “组合泛化” 能力:将不同情境下学到的零散技能重新组合,解决模型从未遇到过的全新问题。在此之前,机器人训练的标准模式几乎是 “死记硬背”:针对某一项特定任务收集专属数据,训练一个专门的模型,遇到新任务就重复这一整套流程。而 π0.7 的出现,正在打破这一固化的模式。


“一旦模型跨越了那条界线 —— 从只能完成你收集数据所针对的特定任务,转变为能够以全新方式重新组合所学内容 —— 它的能力增长就会超越数据的线性增长。这种更高效的扩展特性,我们在语言、视觉等其他 AI 领域已经见到过。”PI 联合创始人、加州大学伯克利分校机器人 AI 教授谢尔盖・莱文解释道。

论文中最具代表性的演示,来自一个模型在训练中几乎从未接触过的设备:空气炸锅。研发团队梳理后发现,整个庞大的训练数据集中,和空气炸锅相关的内容只有两个零散的片段:一个是某款不同的机器人仅仅推了一下空气炸锅将其关闭,另一个来自开源数据集,记录了一个机器人在人类指示下将塑料瓶放入空气炸锅的过程。


仅凭这少得可怜的信息,再加上模型基于网络数据完成的通用预训练,π0.7 居然整合出了对这一设备工作原理的功能性理解。“很难追踪这些知识究竟来自哪里,也很难预判模型会在哪些地方成功或失败。”PI 研究员、斯坦福大学计算机科学博士生露西・施坦言。最终,在没有任何额外指导的情况下,模型尝试用这台空气炸锅烹饪红薯,结果勉强达到了可接受的水平;而当人类像指导新员工一样,用口头指令一步步引导它完成操作时,机器人顺利完成了整个烹饪流程。


这种可通过自然语言实时引导的能力之所以关键,是因为它意味着机器人可以直接部署到全新的环境中,边执行边优化,无需额外的数据收集,也不用对模型进行重新训练 —— 这正是此前传统机器人系统难以实现的突破。不过,研发团队并没有回避模型的局限性,也始终对成果保持着谨慎的态度。露西・施提到,很多时候任务的失败,问题既不出在机器人,也不在模型本身,而是人类不擅长做 “提示工程”。她举例了早期的空气炸锅实验:最初团队的任务描述方式不够清晰,整个任务的成功率只有 5%;而在花了半小时优化指令的表述后,成功率直接跃升至 95%。


除此之外,目前的 π0.7 还无法根据单个高层级指令,自主完成复杂的多步骤任务。“你不能直接告诉它,‘嘿,去给我烤片面包’,” 莱文打了个比方,“但如果你一步步引导它 ——‘对于这个烤面包机,打开这里,按下那个按钮,这样做’—— 那么它通常能很好地完成。”


另一个行业性的难题在于,目前机器人领域还没有真正标准化的基准测试,这也让外界很难直接验证 PI 团队的成果。因此,团队选择将 π0.7 与自己此前构建的、针对单个任务训练的专门模型进行对比,结果发现,这个通用模型在煮咖啡、叠衣服、组装纸箱等一系列复杂任务上,都达到了与专门模型相当的表现。而最让研发团队感到意外的,是模型展现出的超出预期的能力 —— 毕竟作为研发者,他们本应最清楚训练数据里有什么,也最清楚模型理论上能做什么、不能做什么。


“我的经验一直是,当我深入了解数据内容后,我大致能猜出模型能做什么,我很少感到惊讶。但过去几个月是我第一次真正感到惊讶。”PI 研究科学家阿什温・巴拉克里希纳说,“我随机买了一套齿轮,对机器人说,‘嘿,你能转动这个齿轮吗?’结果它就能做到”。莱文则想起了自己第一次接触 GPT-2 时的场景:当时这个大语言模型生成了一个关于安第斯山脉独角兽的故事,让他无比困惑 ——“它到底从哪里学到秘鲁的独角兽的?这个组合太奇怪了。” 他说,“我认为在机器人领域看到类似的现象真的很特别。”


当然,外界的质疑声也随之而来。有批评者指出,语言模型有整个互联网的海量数据可以学习,而机器人并不具备这样的条件,再巧妙的提示工程也无法完全弥合这一差距。但莱文认为,真正的质疑或许会来自另一个方向。“任何机器人泛化演示都可以被批评的一点是,这些任务有点无聊,” 他说,“机器人又没做后空翻。” 在他看来,很多人习惯了那些精心编排的机器人特技演示,却忽略了泛化能力的真正价值:那些酷炫的特技,本质上还是针对特定动作的专门训练;而泛化能力看起来没那么戏剧化,却能让机器人应对无数日常的、琐碎的真实任务,它的实用价值要大得多。


事实上,PI 的论文本身措辞就非常谨慎,称 π0.7 只是表现出了泛化能力的 “早期迹象” 和新能力的 “初步演示”—— 这些是前沿的研究成果,而非已经可以落地部署的成熟产品。当被问及基于这些发现的系统何时能真正投入商用时,莱文拒绝给出具体的时间表:“我认为有理由保持乐观,它的进展当然比我几年前预期的要快,但我很难回答这个问题。”


而在资本市场上,这家成立仅两年的初创公司已经成为了绝对的明星。截至目前,PI 已经累计融资超过 10 亿美元,最新估值达到 56 亿美元。投资者的热情,很大程度上来自联合创始人拉奇・格鲁姆的背书:他曾是硅谷最受推崇的天使投资人之一,成功投资了 Figma、Notion、Ramp 等一众明星公司,而在他看来,PI 正是他一直在寻找的、能够改变行业的那家公司。


正是这样的背景,让 PI 轻松吸引了大量机构资金,哪怕公司从未向投资者提供过商业化的时间表。甚至有消息称,公司目前正在洽谈新一轮融资,估值将几乎翻倍,达到 110 亿美元,不过团队对此并未置评。对于整个机器人 AI 领域而言,π0.7 的出现,或许只是通用机器人大脑漫长征程里的一小步,但它所展现出的组合泛化能力,以及超出研发者预期的涌现表现,已经让人们看到了机器人领域复刻大语言模型能力拐点的可能性。尽管距离真正的通用机器人落地还有很长的路要走,但这家年轻的初创公司,已经用自己的研究,为整个行业打开了新的想象空间。
用户评论