• 宇树科技开源UnifoLM-WMA-0机器人模型 让机器人有了“预判”的能力
  • 发布于 3小时前
  • 12 热度
    0 评论
宇树科技(Unitree)开源了“世界模型-动作架构”——UnifoLM-WMA-0。

UnifoLM-WMA-0让机器人拥有了“举一反三”和“预判”的能力。机器人不再是一个只会执行代码的铁疙瘩,而是开始拥有了一个能理解世界运转规律的“认知内核”。

宇树官方定义:“UnifoLM-WMA-0 是宇树科技跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计。其核心成分在于一个可以理解机器人与环境交互物理规律的世界模型。”

UnifoLM-WMA-0通过一种叫做“神经物理网络”(Neural-Physics Networks)的技术,去学习并建模真实世界里的那些我们从初中就开始接触的力学规律,比如重力、摩擦力、还有那无处不在的碰撞。这就好比给机器人装上了一个“物理引擎”,它能高精度地预测环境的动态变化,并以此为依据,做出最优的动作决策。

给机器一个能理解世界的“大脑”
要理解UnifoLM-WMA-0,我们先聊两个概念:“世界模型”和“通用机器人”。“世界模型”(World Model)在人工智能领域,指的是一种能模拟环境动态、预测未来的计算框架。你可以把它想象成我们人类大脑里的“认知沙盘”。比如你开车时,你不仅看到了前面的车,你大脑里的“世界模型”还会告诉你,那辆车可能会减速,旁边的行人可能会过马路。你根据这些“预判”来调整自己的驾驶行为。这个“认知沙盘”就是你的世界模型,它让你能预见自己行为的后果,从而做出更聪明的决策。

传统的机器人,像是一个只有导航地图的司机,地图上说这里有个路口,它就准备转弯,但如果路口突然冲出来一个皮球,它可能就懵了,因为“规则”里没写这一条。数据驱动的黑箱模型稍微好一点,它可能见过类似的场景,知道要刹车,但它并不“理解”为什么,它只是记住了“看到球就刹车”这个模式,如果下次冲出来的是个无人机,它可能又不知道怎么办了。

世界模型的出现,就是要从根本上解决这个问题,它让机器人拥有了预测能力,变得更能适应这个充满意外的世界。近年来,无论是在机器人导航、物体操作还是人机协作上,世界模型都展现出了巨大的潜力。UnifoLM-WMA-0正是在这股浪潮之巅诞生的产物。

“通用机器人”(General-Purpose Robot)则是科学家们希望创造出的一种能像人一样,学习和适应各种任务、各种环境的机器人。但现实很骨感,现在的机器人大多还是“专才”,在富士康的流水线上拧螺丝,它可以不知疲倦、精确无误,但你让它到你家厨房里炒个菜,那可能就是一场灾难。

这背后有几个老大难的挑战:首先是环境适应性差,机器人习惯了窗明几净的实验室,一到杂乱无章的真实环境就水土不服;其次是泛化能力有限,训练时学的是抓苹果,换成抓橘子它可能就不会了;最关键的,是物理交互理解弱,机器人缺乏我们与生俱来的物理直觉。你递给它一个鸡蛋,它可能会像抓石头一样一把捏碎,因为它不“懂”什么是脆弱。

UnifoLM-WMA-0的核心创新在于,它用神经物理网络把物理法则给“挑明”了,让机器人能自动学习和模拟现实世界的力学规律,不再是凭感觉猜。同时,它还支持“决策”和“仿真”两种模式,既能辅助机器人临场决策,也能在“梦里”进行高保真演练,自己给自己当陪练。再加上对视觉、触觉、力反馈等多模态信息的融合,让机器人对环境的感知和交互能力大增。

UnifoLM-WMA-0的“内功心法”
UnifoLM-WMA-0的整体架构设计得非常精妙,像一个高效运转的闭环系统:感知-预测-决策-执行。核心是“世界模型”,一边连着决策模块,一边连着仿真引擎,目标是通过深度理解机器人和环境之间的物理互动,实现智能、高效、稳健的动作控制。

世界模型是整个系统的心脏,负责理解和预测物理交互。它吃进去的是两样东西:一是通过摄像头、激光雷达、力传感器等收集到的环境现状信息,二是从机器人过去的动作和环境反馈中总结出的历史经验。然后,它利用像Transformer或LSTM这样的深度学习网络,对环境的动态变化进行建模,预测未来可能发生什么。

决策模块是机器人的总指挥,拿着世界模型给出的“战情预测”,来制定最佳的行动策略。它的工作流程很清晰:接收预测信息,看清未来局势;然后结合当前的任务目标,通过强化学习或者规划算法,反复推演,优化出一套最佳的动作序列;最后,把这套动作转化为机器人能听懂的指令,比如关节转多少度,速度多快等等。

仿真引擎是UnifoLM-WMA-0的一大特色功能,相当于给机器人开了一个“精神时光屋”。它有两个主要作用:一是疯狂“造”数据,通过仿真技术生成海量的训练数据,让模型在虚拟世界里身经百战,极大地提升泛化能力;二是在仿真环境里模拟机器人动作会带来什么影响,为决策模块提供极其逼真的反馈信号,让它在做决定时心里更有底。这个仿真引擎的存在,大大降低了对真实世界数据的依赖,毕竟在现实中让机器人试错,既昂贵又危险,而在虚拟世界里,怎么折腾都行。

当然,要支撑起这个强大的架构,离不开两大关键技术。第一个,也是最亮眼的,就是前面提到的“神经物理网络”。它能通过数据驱动的方式,自动地把重力、摩擦力、碰撞响应这些物理现象给识别出来,并进行建模。它的预测结果是和物理规律保持一致的,这让工程师能更好地理解和调试模型。更重要的是,因为它显式地建模了物理法则,所以就算到了一个全新的环境,只要物理规律不变,它的性能就能保持在很高的水准。

第二个关键技术是“多模态感知融合”。聪明的“大脑”也需要灵敏的“五官”。UnifoLM-WMA-0支持多种传感器信息的输入,视觉信息让它能看懂物体和场景;触觉信息让它能感知接触和滑动;力反馈信息则让它能了解自身的受力状态。这些信息融合在一起,让机器人对环境的理解从“看”的二维层面,升级到了“触摸”和“感受”的三维层面,交互的精度和鲁棒性自然不可同日而语。

是骡子是马,拉出来遛遛
根据宇树官方和一些第三方权威机构的测试数据,UnifoLM-WMA-0的性能表现确实相当能打。

它的动作预测精度,相比传统的黑箱模型提升了大约30%;计算效率优化了20%以上,这保证了它可以进行实时决策,而不是一个反应慢半拍的“理论家”;在动态环境中的任务完成效率,提升了超过25%;并且在从未见过的陌生环境里,依然能保持很高的性能,这说明它的泛化能力很强。

UnifoLM-WMA-0已经成功地在宇树自家的多款明星机器人平台上进行了真机部署。比如在Unitree Z1机械臂上,它能完成像抓取、叠放这种需要精细操作的任务;在Unitree G1人形机器人上,它能实现在复杂环境里的导航和交互;在更高端的Unitree H1人形机器人上,它甚至能展示出高动态的动作和惊人的平衡控制能力。


实际测试显示,搭载了UnifoLM-WMA-0的机器人,能够精准地预测动作的结果,比如按照红、黄、绿的顺序把木块叠起来,把散乱的橡皮和笔整理好,或者将一个黑色的相机稳稳地放进包装盒里。它还能支持长周期的任务,比如一些复杂的多步骤装配或者搬运工作。更重要的是,它能在动态变化的环境中,比如有移动的障碍物或者地形发生改变时,依然保持稳定的性能,这在过去是极难实现的。

这些实际部署的效果,无疑是UnifoLM-WMA-0技术价值最有力的证明。它不仅仅是一个停留在论文和实验室里的概念,而是已经具备了走向现实世界、解决实际问题的强大能力。

开源,共创智能体新时代
UnifoLM-WMA-0的开源是彻底的。项目代码直接托管在GitHub上,所有人都可以下载、使用和修改;完整的训练和推理框架也一并公开,大大降低了开发者上手的门槛;数据接口是开放的,方便研究者接入自己的数据集进行扩展;还有详尽的技术文档和使用指南,生怕你学不会。宇树科技的创始人王兴兴也表达了对开源的看法,他认为“UnifoLM-WMA-0是通用机器人智能的重要探索,开源旨在推动全球技术协作。”单打独斗的时代已经过去,尤其是在具身智能这样复杂而宏大的领域,只有构建一个繁荣的开源生态,吸引全世界最聪明的头脑参与进来,才能最终推动整个行业的跨越式发展。

更高层次的智能或许正在到来。比如,引入多智能体协同机制,让多个机器人能共享同一个世界模型,实现“群体智能”下的联合决策。再比如,对神经物理网络进行轻量化设计,让它能跑在算力有限的边缘设备和低功耗平台上,让智能无处不在。甚至,他们还计划将其与强大的语言模型相结合,实现“指令—物理理解”的推理,未来你可能只需要对机器人说一句“把桌子上的东西收拾干净”,它就能自己理解每个物体的物理属性,并规划出最优的行动方案。

参考资料:
https://unigen-x.github.io/unifolm-world-model-action.github.io
https://github.com/unitreeerobotics/unifolm-world-model-action
https://huggingface.co/collections/unitreerobotics/unifolm-wma-0-68ca23027310c0ca0f34959c
用户评论