• 苹果联合麻省理工提出了通过第一人称视角的视频来训练人形机器人的创想
  • 发布于 1周前
  • 41 热度
    0 评论

苹果近日与麻省理工学院、卡内基梅隆大学、华盛顿大学和加州大学圣地亚哥分校联合发布了一项机器人研究,提出通过第一人称视角的视频来训练人形机器人,并在论文《Humanoid Policy ∼ Human Policy》中披露了具体成果。


核心思路是:人类怎么做,机器人就怎么学。
研究团队使用苹果 Vision Pro 捕捉人类的操作行为,将其转化为机器人可以模仿的数据指令。在这项合作中,研究人员采集了超过 2.5 万段人类操作示范视频和 1500 条机器人执行记录,构建了名为 PH2D 的数据集,并以此训练出一套通用的 AI 控制策略。与传统通过遥操作方式采集机器人训练数据相比,这种以人类视角为核心的「模仿学习」方法显著降低了数据采集成本与时间。

为实现这一方案,研究人员开发了一款运行在 Vision Pro 上的应用,能够利用设备左下角的摄像头采集画面,并结合苹果 ARKit 框架记录用户头部与手部的三维动作轨迹。硬件方面,团队还设计了 3D 打印支架,让 ZED Mini 立体摄像头可以安装到包括 Meta Quest 3 在内的其他主流头显设备上,从而实现更便宜的数据采集方案。


值得一提的是,考虑到人类动作远快于机器人,研究人员在训练过程中将视频播放速度放慢了四倍,使机器人能够「看懂」并模仿而无需额外调整。
用户评论