闽公网安备 35020302035485号
堆代码讯 当下的云原生生态,正将 AI 代理视为工程团队的下一个生产力倍增器,全力押注这一赛道。从自动化代码审查到事件自动分类,AI 代理被寄予厚望,希望它能帮工程师卸下繁琐的重复工作,加速软件交付的节奏。但随着企业从概念验证的演示场景,走向生产环境的实际落地,一个共性问题逐渐浮出水面:给 AI 代理开放工具访问权限,并不等于它就能用好这些工具。
第二是无上下文的工具,只会催生幻觉。没有组织知识的 AI 代理,面对问题只能靠猜。你问它 “谁负责这项服务?”,如果没有结构化的服务归属模型,它只能给出一个猜测性的答案 —— 偶尔能蒙对,但更多时候都是错的。你让它去路由一个故障事件,它根本不知道值班安排、升级路径,也不清楚服务的关键性等级,给出的方案自然完全不贴合企业的实际情况。
不妨想一想,一个新入职的工程师,在前 90 天里到底学会了什么:谁负责哪块业务、服务之间的依赖关系是什么、哪些部署是敏感不能乱动的、操作手册要去哪里找、公司里的术语对应到技术上到底是什么意思。这些入职期间学到的隐性知识,恰恰就是 AI 代理所需要的 —— 只不过,这些知识不能再靠茶水间的闲聊、老员工的口口相传传递,而是要变成机器可以读取的结构化数据。
现在行业里已经逐渐形成了共识:我们需要一个上下文层,也有人把它叫做上下文湖、上下文图。这一层,架在原始的工具访问,和 AI 代理的智能行为之间。它会把企业里散落的元数据全部聚合、规范化:服务归属、依赖关系图谱、部署环境、业务关键性评分、团队结构、SLA 要求…… 把整个软件生态里的所有信息,转化成结构化、可查询的统一表示。
你可以把它理解成 AI 代理的 “可信单一事实源”:代理可以通过查询它,得到精确、基于事实的答案,而不是从零散的数据里拼凑组织的上下文,然后赌自己猜对了。
会猜测的 AI 代理,和能确知的 AI 代理,恰恰就是演示原型,和生产可用系统之间的差距。有了上下文层之后,当 AI 代理被要求审查一个代码合并请求时,它可以精准地识别出这个服务的负责人,检查被修改的服务有没有下游依赖,还能标记出如果依赖项正处于关键部署窗口的风险,然后自动把审查请求路由给正确的团队。这整个过程,完全不需要猜测,因为所有的答案都来自结构化的知识库,而不是大语言模型的 “最佳猜测”。
同样的逻辑,也适用于故障响应。拥有上下文的 AI 代理,可以直接查到受影响服务的值班团队,通过依赖关系图谱理解故障的爆炸半径,检索到对应的操作手册,还能用企业自己的术语起草状态更新,而不是用千篇一律的通用模板。这些步骤里的每一步,都是确定的、可审计的,而且完全基于企业真实的组织数据。
对于云原生团队来说,好消息是:构建上下文层需要的这些数据,其实大部分早就已经存在了,只是散落在各个系统里。服务目录、Kubernetes 的标签、CI/CD 的配置、OpsGenie 或者 PagerDuty 的值班表、Jira 的项目元数据、云资源的标签…… 这些系统里,都藏着组织知识的碎片。真正的挑战,是把这些碎片统一成一个连贯、可查询的模型,让 AI 代理可以直接使用。
目前,行业里已经出现了几种可行的落地路径:内部开发者门户,已经从静态的文档站点,演变成了动态的元数据平台,可以作为上下文的统一来源;CNCF 生态里的开放标准和开源项目,也让服务元数据的定义和共享,变得越来越容易;而 MCP 作为代理和工具通信的标准协议,也提供了一个天然的集成点,让上下文可以和工具定义一起,同步注入给 AI 代理。