微软、OpenAI 、谷歌、Meta用AI Agent疯狂搞钱-duidaima 堆代码

微软、OpenAI 、谷歌、Meta用AI Agent疯狂搞钱

发布于 2个月前
 377 热度

 0 评论

爱是蓝色.
0 粉丝 46 篇博客

大模型发展至今早已火成了一个「概念」。不管是学术界还是工业界，都要套上一层LLM的皮，方可彰显自己位于浪潮之巅。但是，搞AI的公司赚到钱了吗？或者说应该怎样赚钱？大家或许容易想到文生图、云服务等，但是微软、OpenAI 、谷歌、Meta等科技大厂，纷纷瞄准了另一个赛道：Agent。相比于千亿参数、万块显卡、为自家冲榜的大模型，或者每秒几百个token的超级芯片集群，再或者栩栩如生、以假乱真的AI视频，Agent似乎显得朴实无华。

但是，对于商业公司来说，与其玩得遍地开花，不如赶紧搞钱才是王道！当泡沫逐渐冷却，不管是投资人还是用户，最终都要关注自己的投入是否能够值回票价。仰望星空固然浪漫，但你得像马老板一样，先把电动车的钱赚了，再去收推特、炸火箭。

抓紧变现
目前，许多企业对当前的大模型并不买账，——归根结底，AI要能给我带来效益才行。虽然这愁坏了微软、OpenAI和谷歌等人工智能供应商，但这也说明了，这里很可能有一片蓝海！于是大家竞相推出新功能，让LLM变得更加有用，尤其是在几乎不需要客户指导的情况下，处理复杂的任务。这就是Agent，让企业能够产生依赖的Agent，让大公司能够继续有动力烧钱的Agent。

大型数据库提供商MongoDB的首席执行官Dev Ittycheria表示，Mongo的员工和客户都在等待更好的功能，然后才会在人工智能上投入巨资，「Agent工作流将是下一个重大突破」。

OpenAI
OpenAI正在悄悄地设计能够接管计算机的Agent，——就像钢铁侠的AI助手「贾维斯」（Jarvis）一样。它可以同时操作不同的应用程序，例如将数据从文件传输到电子表格，或者自动为你制作下一次会议所需的PPT。再比如，让ChatGPT帮你写作业，它会打开浏览器、搜索分析信息、撰写论文，最后使用打印机帮你打印出来。

另外，OpenAI和Meta还在开发另一类Agent，它们可以处理复杂的网络任务，比如创建行程并预订旅行住宿等。

OpenAI的爸爸
据现员工透露，微软正在开发新的Agent来自动执行多种操作，比如根据客户的订单历史记录创建、发送和跟踪客户发票，或者用不同的语言重写应用程序的代码，并验证其是否按预期运行。新的Agent将采用OpenAI的技术，并用于改进微软的Copilot套件。知情人士表示，微软计划在下个月举行的年度Build开发者大会上宣布其中一些功能。

Meta
随着Llama 3的重磅发布，Meta终于重回开源LLM的王座，而新的模型能力也已经被用于Meta的AI助手。不久前，Meta推出了全新的AI系统，小扎称其为「你可以自由使用的最智能的AI助手」，也就是新一代的Agent。Facebook的在线帮助页面显示，如果受到邀请，或者有人在帖子中提出问题，但一小时内没有人回复，Meta AI Agent将加入群组对话（管理员可以将其关闭）。

不过Meta的这个Agent过于自主，没事就进个群聊几句，还不时给大家伙提提建议，导致部分用户感到「困惑」。比如Agent为了跟「妈妈群」中的用户建立联系，便表示自己在纽约市学区，有一个孩子......

谷歌
谷歌的核心人工智能团队DeepMind也在开发能解决复杂任务的AI Agent。目前在谷歌DeepMind工作的Anmol Gulati，曾与他人共同创办了一家名为Adept的初创公司，专门开发使用计算机的Agent。据知情人士透露，Adept公司已经筹集了4亿多美元，将在今年夏天推出自己的Agent。Adept公司首席执行官David Luan表示，Adept公司从零开始构建人工智能，并利用人们在电脑上工作的视频对其进行训练（制作Excel表格等）。

Adept的人工智能模型可以像人一样在电脑上进行操作，比如浏览网页在Redfin上找房子，或者在客户关系管理系统中记录电话。

Agent 到底行不行？
随着Agent也成了一个概念，大公司们有时会扩大并淡化了Agent的定义。比如，有些公司发布的Agent，实际上只是ChatGPT这种对话式聊天机器人的不同版本，但经过训练后可以处理特定任务，它们并不是我们理想中的Agent。另外，虽然一些可用的Agent能够列出需要完成的任务清单，但它们的执行却时好时坏，很容易陷入动作循环。当人们意识到这些Agent没有吹得那么厉害，热潮便逐渐消退。

慢慢来
其实技术的进步嘛，大部分都是循序渐进的，没必要急着肯定或者否定。比如微软，只是将自动化的Agent逐步融入Copilot套件。据一位微软员工透露，今年早些时候，微软云计算和人工智能执行副总裁Scott Guthrie组建了一个新团队，专门为Copilot产品开发Agent功能。比如在面向销售人员的Dynamics应用程序中，主动建议可以采取的多步骤行动。

再比如，可以检测到企业客户尚未完成的大额产品订单，起草发票，并询问企业是否愿意将发票发送给下订单的客户。之后，Agent可以自动跟踪客户的回复和付款情况，并将其记录到公司的系统中。

另外，微软研究部门负责人Peter Lee曾领导探索如何构建更复杂的Agent，不过防止Agent「叛变」，误删用户设备上的文件或执行其他有害操作是个难题。

GitHub Copilot
程序员很可能是第一批体验高级Agent的专业人士，比如GitHub Copilot的代码推荐功能。GitHub首席执行官Thomas Dohmke表示，在未来一年里，GitHub Copilot将做得更多，Agent将能够审查用户提出的问题，给出修复计划，并自动编写和运行代码。

高校出马
除了工业界，学术界也看准了Agent这片蓝海，而主要原因还是Agent能确实地提高LLM的能力，并解决复杂的问题。最近的两项进展可以帮助人工智能提供商，开发出用途更广泛的Agent。第一项进展来自合成数据。UC伯克利计算机科学教授Ion Stoica表示，开发人员在使用LLM生成合成数据方面已经有了长足的进步，而这些数据可以用来训练其他模型。

这对代码生成尤其有帮助，开发人员可以指导模型在一组参数范围内创建并解决问题。Ion Stoica教授是Anyscale和Databricks的联合创始人

第二项进展是在一个名为grounding的领域：建立人工智能模型的过程可以自动验证另一个模型的输出是否有效，例如测试模型生成的代码是否正确地解决了手头的问题。Ion Stoica表示，未来一年，我们将看到模型解决问题和推理的能力大幅提升，如果能够自动验证输出是否有效，那么就可以利用LLM本身来改进输出。

MIT
下面浅浅看一篇今年ICLR的工作：来自MIT和华盛顿大学（University of Washington）的研究人员开发了一个框架，可以根据人类或Agent的计算约束，对非理性或次优行为进行建模。这项技术可以帮助预测Agent的未来行动。

论文地址：https://openreview.net/pdf?id=W3VsHuga3j

——对人类行为进行建模，是构建能够真正帮助人类的Agent的重要一步。在有限理性的标准模型中，次优决策是通过向最优决策添加同方差噪声来模拟的，而不是显式模拟约束推理。在这项工作中，研究人员引入了一个潜在推理预算模型（L-IBM），该模型通过控制迭代推理算法运行时的潜在变量（与目标模型共同推断），显式地对Agent的计算约束进行建模。L-IBM 可以使用来自不同次优参与者群体的数据来学习代理模型。

CMU
另一篇来自CMU、NVIDIA、微软和波士顿大学的论文介绍了AgentKit：一种使用自然语言构建AI Agent的机器学习框架。
论文地址：https://arxiv.org/pdf/2404.11483v1.pdf
Agent设计中一个普遍存在的问题是对复杂编程技术的依赖。

通常情况下，Agent是使用代码密集型方法构建的，需要深入熟悉特定的API，而这种方法可能会扼杀创新和灵活性，限制Agent在专业领域之外的潜在应用。而AgentKit采用基于图的设计，其中每个节点表示由语言提示定义的子任务。这种结构允许直观地将复杂的行为拼凑在一起，从而增强了用户可访问性和系统灵活性。

 用户评论

IT那些事
 318 成员 |  3066 话题
+我要提问 +随便写写

可能感兴趣的话题

谷歌发布首个嵌入模型：MTEB排行榜第一，超过OpenAI

OpenAI收购Windsurf的计划彻底失败

Soham Parekh, 同时为十几家创业公司打工的牛人

微软在Azure AI Foundry中正式上线Deep Research公开预览版