今天,谷歌发布了一项名为 Agent2Agent(简称 A2A)的 Agent 互操作协议,并且还与包括 Atlassian、Box、Cohere、Intuit、LangChain、MongoDB、Salesforce、SAP、ServiceNow、UKG 和 Workday 在内的 50 多家公司合作,旨在让 Agent2Agent 成为 Agent 之间的通用互操作语言。这个操作,有点让我想起 10 年前 Google 发布 Kubernetes 时的场景。
现在各家公司似乎已经意识到,推出“协议”或标准有助于推动自身业务的发展。因为一旦这种协议被广泛采用,就能为它们构建起一道“护城河”。 想象一下,如果 A2A 成为了代理通信的事实标准——由于它是 Google 发明的,并已融入其业务逻辑中,这将使整个 LLM 生态系统都向 Google 的服务敞开大门(也就是说,LLM 本身并不是最终目标)。届时,微软等公司要么得推出自己的“标准”,要么只能接受 Google 的方案。
那我们最近讨论的 MCP 和 A2A 有什么区别?一句话来说,它们俩是互补的。不是替代关系。模型上下文协议(MCP) 是连接 LLM 和数据、资源和工具的标准。或者说,它正在成为跨不同模型和框架的标准化“函数调用”,可以大大降低了将智能体与工具和数据连接的复杂性。 而 A2A 关注的是另一个问题。A2A 是一个应用层协议,使 Agent 能够以自然的方式协作。它允许 Agent 以 “Agent” 的身份进行交流,而不是作为工具。Google 希望 A2A 能够作为 MCP 的补充被广泛采用,从而推动 Agent 生态系统的发展,并将与社区开放合作来实现这一目标。
看一个例子:
我们想象一家汽车修理厂,它雇佣了使用专用工具(如千斤顶、多用电表和套筒扳手)来诊断和修复问题的修理工。这些工人经常需要处理他们以前从未遇到过的问题。修理过程可能涉及与客户的深入交流、资料查询以及与零件供应商的合作。
现在我们将这些修理厂员工建模为 AI 智能体:MCP 是将这些智能体与其结构化工具连接的协议(例如“将平台升高 2 米”、“将扳手向右转动 4 毫米”)。
A2A 是使终端用户或其他智能体能够与修理厂员工协作的协议(例如 “我的车发出咔哒咔哒的声音”)。A2A 支持持续的双向交流和不断演进的计划以达成目标(例如 “发我一张左轮的照片”、“我注意到有液体在漏,这种情况持续多久了?”)。A2A 还帮助修理厂员工与其他智能体(如零件供应商)协作。

当然,A2A 并不是市场上唯一的互操作协议。前段时间,由 Cisco、LangChain、Galileo、LlamaIndex 和 Glean 等公司推出的 AGNTCY,也意图成为 Agent 通信的标准。还有 LangChain,它作为工具,似乎哪个标准都乐意参与,之前也发布过 Agent Protocol。微软也更新了其 AutoGen 框架,以支持代理互操作。A2A 协议为不同的 Agent 提供了标准化的通信方式,使它们能够像人类团队一样分工合作、实时沟通,并根据用户的设备和界面能力灵活调整交互方式。

根据 Google 的官方介绍,Client Agent 负责制定任务并将其发送出去,而 Remote Agent 则负责执行这些任务,提供正确的信息或采取相应的行动。这种交互包含以下几个关键能力:
1、能力发现
每个 Agent 可以通过一种称为 “Agent Card” 的 JSON 格式文件来公开自己的能力。client agent 可以根据这些信息,识别出最适合执行某项任务的 Remote Agent ,并通过 A2A 协议与其建立通信。
2、任务管理
Agent 之间的通信以 “完成任务” 为核心。任务对象由协议定义,并具有完整的生命周期。任务可以是即时完成的,也可以是需要较长时间处理的。在任务执行过程中,agent 之间可以持续同步状态,确保彼此了解任务的最新进展。任务完成后会生成一个 artifact,例如图像、文本或其他形式的输出。
3、协作
Agent 之间可以互发消息,用于传递上下文信息、用户指令、任务结果等,实现真正的多 Agent 协同工作。
4、用户体验协商
每条消息可以包含多个“内容部分”,每个部分都是一个完整的内容单元,比如一张生成的图片。每个部分都有明确的内容类型,Agent 之间可以就内容的展示格式进行协商,以适配用户界面的能力,比如是否支持 iframe、视频、网页表单等。
下面是 Google 的一个案例。借助 A2A 协作,招聘软件工程师的流程可以大大简化,在一个统一的界面中,招聘经理可以指派自己的 Agent 去寻找符合职位描述、地点和技能要求的候选人。这个 Agent 会与其他专门的 Agent 进行交互,从多个渠道获取潜在候选人。用户收到推荐人选后,可以进一步指示 Agent 安排面试,从而简化整个人才筛选流程。面试结束后,还可以调用另一个 Agent 来执行背景调查。
Google 推出的新 Agent2Agent 协议,是实现 AI Agent 互操作性未来的重要一步。没有任何单一工具能掌握用户或企业大多数工作流程所需的全部数据,因此我们需要 Agent 之间能够相互沟通。Salesforce 将拥有理解 CRM 内部机制的 AI Agent,Workday 将拥有理解人力资源流程的 AI Agent,Notion 则拥有理解内容和文档的 AI Agent,等等。我们很容易想象一个世界,拥有成千上万的工具型 Agent,以及数十亿甚至数万亿个定制化的 Agent,它们是这些工具型 Agent 的延伸。因此,开放性变得至关重要。
完成一个任务的工作流程通常需要来自多个系统的数据——比如一个销售报告可能需要文档和 CRM 数据,或一个人力资源任务可能需要 HR 政策和员工信息——这正是 A2A 发挥作用的地方。这个协议为 AI Agent 提供了一种相互沟通的方式,简化了 Agent 之间的交流。
Agent 的时代要来了吗?兄弟们。