Hans Peter Brondmo,曾经 Alphabet 的首席执行官。2016 年时他加入 Google,负责机器人开发。那时最热门的是社交媒体、移动互联网,具身智能像是一个空中楼阁:人人都向往,但实在太遥远。就连 Brondmo 本人,加入时的任务也并不是什么大项目,而是因为 Google 前前后后收购了 9 家机器人公司,他得去安置这些公司的人员和技术。
以下为 Brondmo 的自述,内容编译与删减。
机器人难,难于「登月」
当我加入时,实验室已经孵化出了 Waymo、Google Glass 以及其它听起来像科幻小说的项目,比如飞行能源风车,以及为了给服务不足地区提供互联网,而接入平流层的气球。X 项目与其它硅谷初创公司的区别在于, X 成员被鼓励进行宏大和长远的思考。实际上,一个项目要被认定为一个登月计划,X 有一套判断「公式」。
首先,项目需要证明它所解决的问题影响到数亿甚至数十亿人。其次,必须有一项突破性技术,为我们提供解决问题的新方法。最后,需要有一个激进的商业或产品解决方案,这个方案听起来可能刚好处于疯狂的边缘,但又不至于完全不可行。
很难想象还有谁比阿斯特罗·泰勒更适合管理 X,他的头衔就是字面意义上的「登月计划队长」。在 Google X 的大楼里——一个改造过的三层高的大型百货商店——你永远能看到阿斯特罗穿着他标志性的轮滑鞋。再加上他的马尾辫、永远友善的微笑,当然还有「阿斯特罗」这个名字,你可能会觉得自己进入了 HBO 电视剧《硅谷》。
当阿斯特罗和我第一次坐下来讨论,我们该如何处理谷歌收购的机器人公司时,我们一致认为应该采取行动,但做什么呢?到目前为止,大多数有用的机器人都体型庞大、不够智能且危险,被限制在工厂和仓库里,需要严密监督或者关起来,以保护人们免受伤害。我们如何才能制造出在日常环境中既有帮助,又安全的机器人呢?这需要一种新的方法。
AI 和机器人技术的融合势在必行,我们觉得,迄今为止很多只存在于科幻小说中的东西,即将成为现实。
我的母亲住在挪威奥斯陆,那里有很好的公共医疗保健;护理人员每天会三次到她的公寓帮助她完成一系列任务和家务,主要是与她晚期帕金森病有关的事情。虽然这些护理人员使她能够独自生活在自己的家中,但我母亲希望机器人能帮她,处理那些现在尴尬又无法处理的小事,或者只是时不时为她提供一个可以依靠的手臂。
「你知道机器人学是一个系统性问题,对吧?」杰夫用探询的眼神问我。杰夫·宾厄姆拥有生物工程博士学位,是一个瘦削、认真的家伙。他在农场长大,以几乎无所不知而闻名。
杰夫试图强调的一个重要观点是,机器人是一个非常复杂的系统,其整体性能取决于其最薄弱的环节。比如,如果主管视觉的子系统在直射阳光下难以感知前方的物体,那么当阳光透过窗户时,机器人可能会突然「失明」并停止工作。又或者,如果导航系统不理解楼梯,那么机器人可能会从楼梯上摔下来,伤到自己,可能还会伤及无辜路人。诸如此类,制造一个能够与我们共同生活和工作的机器人是困难的。真的,非常困难。
几十年来,人们一直在尝试编程各种形式的机器人,来执行哪怕只是简单的任务,比如抓取桌上的杯子或打开门,但这些程序最终总是变得极其脆弱,环境稍有变化时就会失败。
一旦你开始仔细思考这一切,你会意识到,除非你把所有东西都锁死,让它们都处于固定的、预设好的位置,而且光线恰到好处且永不改变,否则仅仅是拿起一个绿色苹果,把它放进厨房桌上的玻璃碗里,就几乎成为一个不可能解决的难题——这就是为什么工厂的机器人都被关起来,从照明到它们工作的物品的放置,一切都是可预测的,它们都不必担心会碰到人。
现实世界缺乏可预测性,就像那束阳光。而我们甚至还没有触及真正困难的部分,比如在我们生活和工作的杂乱空间中移动。
如何理解学习型机器人
但显然,你只需要 17 个机器学习专家。至少拉里·佩奇是这么告诉我的,这是他那些经典的、难以理解的见解之一。我试图争辩说,我们不可能仅凭一小群机器学习研究人员,就可以实现构建硬件和软件基础设施。他不以为然地挥了挥手,「你只需要 17 个」。我感到困惑。为什么不是 11 个?或者 23 个?我肯定是漏掉了什么。
比如,如果程序被编写为从桌子上拿起那个苹果,AI 驱动的视觉系统会检测到苹果,然后程序会从列表中选出「类型:苹果」,然后使用控制软件,让机器人去伸手拿它。
我逐渐理解,除非我们最终证明机器人可以学会执行端到端的任务,否则其他都不重要。只有这样,我们才有真正的机会让机器人在混乱和不可预测的现实世界中可靠地执行这些任务,使我们有资格真正成为一个登月计划。这不是关于「17」这个数字,而是关于大突破需要小团队,而不是工程师大军。显然,机器人不仅仅是其 AI 大脑,我们仍然需要设计和构建一个物理机器人。
然而,很明显,一个成功的端到端任务会让我们相信(用登月计划的话来说),我们可以摆脱地球的引力。
这些机械臂全天候运行,不断尝试从一个箱子里拿取物体,比如海绵、乐高积木、小黄鸭或者塑料香蕉。起初,它们被编程为从箱子上方的随机位置,移动爪型抓手到箱子里,关闭抓手,拉起来,然后看看是否抓到了什么。箱子上方有一个摄像头,用来捕捉箱子内的物体、机械臂的动作,以及它是否成功。
我知道,这标志着一个真正的转折点:机械臂并没有被明确地指令用传统启发式方法编程去做出这个动作,它是通过学习获得的。但即便如此——七个机器人花了几个月时间,才学会如何抓取一只小黄鸭?这远远不够。即使是几百个机器人,练习数年,也不足以教会它们执行第一个有用的、现实世界中的任务。于是我们构建了一个基于云的模拟器,并在 2021 年创造了超过 2.4 亿个虚拟机器人实例。
不妨把这个模拟器想象成一个巨大的电子游戏,拥有足够真实的现实物理模型,能模拟物体的重量或表面摩擦力。成千上万的虚拟机器人会使用它们的虚拟摄像头输入和虚拟身体(按照真实机器人建模)来执行任务,比如从桌子上捡起一个杯子。它们会同时运行,反复尝试并失败数百万次,收集数据以训练 AI 算法。一旦机器人在模拟中表现得足够好,这些算法就会被转移到物理机器人中,进行最终的现实世界训练,以便它们能够实现新学到的动作。我总是把这种模拟过程想象成机器人整夜做梦,然后醒来时学到了一些新东西。
当我们第一次醒来发现 ChatGPT 时,它看起来简直像魔法一样。一个由 AI 驱动的系统居然能够写出完整的段落,回答复杂的问题,并且形成持续的对话。但与此同时,我们也明白了它的根本局限性:要实现这一点,需要耗费大量的数据。机器人已经在利用大语言模型来理解指令,并利用视觉模型来理解它们看到的东西,这使得它们在 YouTube 上的展示视频看起来非常精彩。
但要教会机器人自主地与我们共处和工作,则是一个同样庞大的数据问题。尽管有模拟训练和其他方式来生成训练数据,机器人不太可能会某天「醒来」时就具备高度能力,更多地,是依赖于一个能控制整个系统的基础模型。我们仍然不确定,凭借 AI,我们能教机器人执行多复杂的任务。我只是逐渐相信,除开那些非常狭窄、明确的任务之外,想让机器人学会任何事情,可能都需要成千上万,甚至上百万的机器人在现实世界中反复执行任务,收集足够的数据来训练端到端模型。换句话说,不要指望机器人很快会脱离我们的控制,去做一些它们没有被编程做的事情。
这类讨论往往容易演变成宗教般的辩论,而不是基于事实或科学的探讨。有些人非常坚持认为机器人应该长得像人,理由也不无道理:我们设计的生活和工作环境是为了适应人类的,而我们是有腿的,所以,或许机器人也该有腿。
大约 30 分钟后,房间里最资深的工程经理文森特·杜罗开口了。他简单地说:「我想,如果我能到达某地,机器人也应该能够到达。」文森特坐在他的轮椅上。房间顿时安静了下来,争论也就此结束。事实上,机器人的腿在机械和电子上都非常复杂。它们移动速度不快,容易让机器人变得不稳定,与轮子相比,它们的能效也不高。
如今,当我看到一些公司试图制造类人机器人——那些努力模仿人类形态和功能的机器人——我常常思考,这是否是一种想象力的局限。有那么多设计可以探索,能够补充人类的不足,为什么要执着于模仿呢?文森特的话提醒我们,应该优先关注那些最艰巨、最具影响力的问题。在 Everyday Robots,我们试图让机器人的形态尽可能简单,因为机器人越早能够执行现实世界的任务,我们就能越快收集到宝贵的数据。
几分钟后,它捡起了几个空的纸杯、一杯星巴克的透明冰茶杯,还有一张 Kind 能量棒的塑料包装纸。它把这些物品放进了连接在底座上的垃圾盘中,然后转向我,点了点头,接着前往了下一个办公桌。
这个清理桌面的服务代表了一个重要的里程碑:它表明我们在解决机器人难题的未解部分上取得了不错的进展。机器人开始能够可靠地使用 AI 识别出人和物体了!贝恩吉·霍尔森是一位软件工程师,曾是木偶师,领导了这个服务的开发团队。他一直提倡混合方法,不反对端到端的学习任务,但更倾向于「现在就让它们做点有用的事」的态度。
我已经习惯了机器人在周围移动,做着像清理办公桌这样的杂活。偶尔我会看到新来的访客或刚加入团队的工程师,他们脸上会带着惊奇和喜悦的表情,注视着机器人忙碌的身影。从他们的视角,我才意识到这一切是多么新奇。正如我们的设计负责人里斯·纽曼(用他的威尔士口音)在某天看到机器人经过时说的,「这已经变成了常态,是不是有点怪?」
2022 年底,关于「端到端」与「混合方法」的讨论仍旧热烈。彼得和他的团队与我们在 Google Brain 的同事们一直在努力将强化学习、模仿学习以及 Transformer 架构应用于多个机器人任务。他们在展示机器人如何以通用、稳健和有韧性的方式去学习这方面,取得了显著进展。同时,由贝恩吉领导的应用团队正在将 AI 模型与传统编程结合,原型化并构建可以在人类环境中部署的机器人服务。
与此同时,与舞蹈家凯蒂合作的多机器人装置——后来被称为「Project Starling」——改变了我对这些机器的感受。我注意到,人们被这些机器人吸引,感到惊奇、喜悦和好奇。这让我明白了机器人如何在我们中间移动,以及它们发出的声音,会深刻触发人类情感;这将成为我们是否欢迎它们进入日常生活的关键因素之一。
然而,2023 年 1 月,在 OpenAI 发布 ChatGPT 两个月后,谷歌关闭了 Everyday Robots,理由是整体成本问题。尽管的确成本高昂且时间漫长,但所有参与者仍然感到震惊。最终,机器人和少数员工被转移到 Google DeepMind 继续研究。我们要解决的巨大问题是一个全球性的人口变化——人口老龄化、劳动力萎缩、劳动力短缺。而我们的突破性技术——在 2016 年时我们就知道——将是人工智能。激进的解决方案是:完全自主的机器人,可以帮助我们完成日常生活中不断出现的事务。