DeepMind展示了可自我进化的，多任务AI机器人-RoboCat-duidaima 堆代码

DeepMind展示了可自我进化的，多任务AI机器人-RoboCat

发布于 2个月前
 265 热度

 0 评论

眠里微光
21 粉丝 35 篇博客

6月21日，谷歌旗下的DeepMind展示了可自我进化的，多任务AI机器人——RoboCat。（论文：https://arxiv.org/abs/2306.11706）
据悉，RoboCat的学习速度比目前最先进的模型还要快，仅需要最少100次演示就能完成训练，可通过自我生成的数据进行优化、改进。DeepMind表示，RoboCat对于工业、汽车业、制造业、互联网以及其他多任务领域非常有用，仅需很短的时间就能完成动作训练投入到实际业务中，可大幅度提升生产效率。

RoboCat如何实现自我进化
RoboCat是基于DeepMind发布的多模态大模型Gato开发而成。Gato可以在模拟和物理环境中处理语言、图像和动作。DeepMind将Gato 的架构与大量图像序列和各种机器人手臂动作的训练数据集相结合，解决了数百个不同的任务。

在第一轮训练结束后，DeepMind让 RoboCat 进入“自我进化”训练周期，其中包含一系列以前从未见过的人物。每个新任务的学习都遵循以下五个步骤：
1）使用由人类控制的机械臂，收集100-1000 个新任务或机器人的演示。
2）在新任务/手臂上微调 RoboCat，创建一个衍生代理。
3）衍生代理平均对新任务/手臂进行 10,000 次练习，生成更多训练数据。
4）将演示数据和自生成数据合并到 RoboCat 现有的训练数据集中。
5）在新的训练数据集上，训练新版本的RoboCat。

所有这些训练的结合意味着，最新的RoboCat 将是基于数百万条轨迹的数据集，来自真实和模拟的机械臂，包括自我生成的数据。DeepMind使用四种不同类型的机器人和许多机械臂来收集基于视觉的数据，这些数据代表RoboCat 将被训练执行的任务。

快速学习多种不同机械臂
经过多样化的训练，RoboCat在几个小时内就学会了操作不同的机械臂。虽然RoboCat是在带有双指夹具的手臂上进行训练，但它能够适应带有三指夹具和两倍的可控输入的更复杂的手臂。

RoboCat在观察了短短几个小时内收集到的1000 次人类控制演示后，可以轻松地使用新的机械手臂。通过相同水平的演示，RoboCat可以适应解决结合精度和理解的任务，例如，从碗中取出正确的水果并解决形状匹配的难题，这是更复杂的控制所必需的。

持续自我优化
RoboCat具备良性的训练循环体系：学习的新任务越多，学习更多新任务的能力就越好。在从每个任务的500次演示中学习之后，RoboCat 的初始版本在之前未见过的任务上仅成功了36%。但最新的 RoboCat 经过了更多样化任务的训练，在相同任务上的成功率提高了一倍多。

学习的大幅度改进主要归功于RoboCat持续的自我优化功能，类似于人类在加深特定领域的学习时，如何发展更多样化的技能。RoboCat 独立学习技能和快速自我优化、学习的能力，尤其是当应用于不同的机器人设备时，将有助于为新一代通用机器人铺平道路。

关于DeepMind
DeepMind创立于2010年，总部位于英国伦敦。2014年，DeepMind被谷歌公司以约5亿美元的价格收购，此后成为了谷歌旗下的一部分，专注于AI研究。
DeepMind最知名的项目是AlphaGo，这是一个使用深度学习和强化学习的围棋程序。2016年，AlphaGo在一场五局比赛中以4胜1负的成绩战胜了世界冠军围棋选手李世石，引起了全球的关注。此后，DeepMind又推出了AlphaGo的升级版—AlphaGo Zero和AlphaZero。

 用户评论

ChatGPT技术
 66 成员 |  432 话题
+我要提问 +随便写写

可能感兴趣的话题

Amazon正式发布生成式AI助手——Amazon Q

OpenAI宣布将向所有ChatGPT Plus用户开放“记忆”存储功能

开源Open-Sora大更新：可生成16秒，720P高清视频

AI：RAG技术背后的挑战与突破