• 微软正式开源了一个专用于浏览器网络任务的Agent——Magentic-UI
  • 发布于 2天前
  • 57 热度
    0 评论
微软在官网开源了一个专用于浏览器网络任务的Agent——Magentic-UI。Magentic-UI是基于微软曾经开源的 Magentic-One基础之上开发而成,并支持人机协同的控制方法来提升智能体的执行效率和准确率。根据GAIA测试数据显示,当配备拥有辅助信息的模拟用户时,Magentic-UI 的任务完成率从自主模式下的30.3%提升至51.9%,准确率提高了71%。此外,Magentic-UI 在执行任务时仅在10%的情况下向模拟用户寻求帮助,且平均每次任务仅需帮助1.1次。

开源地址:https://github.com/microsoft/magentic-ui

Magentic-UI以人为本
Magentic-UI最大亮点之一便是以人类为中心,与传统 Agent 的不同在于其将人类深度融入到任务执行的各个环节,而不是单纯追求完全自动化。传统 Agent 往往以实现任务的自主完成为目标,强调的是机器的独立性和自动化程度,用户可能对 Agent 的具体操作过程和决策依据不够了解,甚至在出现问题时难以及时干预和纠正。

而Magentic-UI 则采用了人机协作的模式,充分考虑了人类在任务执行中的作用和价值,通过与用户紧密协作来完成任务,让用户能够实时掌控 Agent 的行为,并根据需要进行调整和指导。

在规划阶段,Magentic-UI 会与用户进行协同规划,不会直接按照预设的程序或算法来制定任务计划,而是先与用户沟通交流,了解用户的需求和期望,然后生成一个初步的分步计划,并允许用户通过计划编辑器或提供文本反馈的方式直接修改这个计划。用户可以根据自己的经验和对任务的理解,对计划中的步骤进行添加、删除、调整顺序等操作,甚至可以重新撰写某些步骤,以确保计划更符合实际需求。这种协同规划的方式,使得用户能够将自己的专业知识和经验融入到任务计划中,从而提高任务完成的质量和效率。

在任务执行过程中,Magentic-UI也强调与用户的协同执行。它会实时向用户展示自己即将采取的具体行动,比如要点击哪个按钮、输入什么内容、访问哪个网页等,同时也会将观察到的网页信息实时反馈给用户。用户可以随时暂停 Agent 的操作,通过自然语言向 Agent 提供反馈,指出问题、提出建议或进行纠正,甚至可以直接接管浏览器的操作,亲自完成某些步骤,然后再将控制权交还给Agent。这种协同执行的方式,让用户能够及时发现并解决 Agent 在执行过程中可能出现的问题,避免了因 Agent 的错误操作而导致任务失败或产生不良后果。

Magentic-UI还具有独特的“行动保护”机制,即在执行一些可能不可逆的操作之前,会征求用户的许可。这些操作可能包括关闭标签页、点击有副作用的按钮、提交表单等。

用户可以根据自己的判断,决定是否允许Agent执行这些操作,从而避免了因 Agent 的盲目操作而带来的风险。Magentic-UI 还采用了沙盒技术,将浏览器和代码执行器等工具运行在隔离的环境中,进一步确保了操作的安全性,防止了 Agent 可能带来的安全威胁。

Magentic-UI框架简单介绍
当用户向Magentic-UI 提出一个自动化任务请求时,系统首先会接收用户的输入,这可以是简单的文本指令,也可以是附带图像的复杂需求。Magentic-UI 的核心组件协调器,会根据用户的输入,利用其背后的大语言模型(LLM)能力,生成一个初步的分步计划。这个计划详细列出了完成任务所需的各个步骤,包括需要访问的网页、需要执行的操作以及可能需要调用的其他工具。

生成初步计划后,Magentic-UI 并不会直接开始执行,而是进入一个关键的协同规划阶段。在这个阶段,用户可以通过一个直观的计划编辑界面,直接对 Magentic-UI 生成的计划进行修改。用户可以添加、删除或调整计划中的步骤,甚至可以完全重新撰写某些步骤。Magentic-UI会实时反馈用户的修改建议,并根据用户的反馈调整计划。这一过程确保了用户能够将自己的专业知识和期望融入到任务计划中,从而提高任务完成的准确性和效率。

经过用户确认或修改后的计划会被发送到执行阶段。Magentic-UI 的执行过程是高度透明和协作式的。系统会实时向用户展示它即将采取的具体行动,例如,点击按钮、输入搜索词或访问特定网页。同时,Magentic-UI 也会将它在网页上观察到的信息实时反馈给用户。用户可以随时暂停Magentic-UI 的操作,并通过自然语言提供反馈,指出问题或提出建议。如果用户认为某个步骤需要亲自操作,他们甚至可以直接接管浏览器的操作,完成特定步骤后再将控制权交还给 Magentic-UI。

Magentic-UI的另一个重要特性是自我计划学习。在完成任务后,它可以从用户的反馈和任务执行过程中学习并保存分步计划,形成一个计划库。在未来的任务中,当用户输入与之前相似的任务时,Magentic-UI 可以快速检索并调用相应的计划,从而大大提高任务执行的效率。并且,用户可以随时查看和修改保存的计划,根据需要进行调整和优化,以便更好地应对不同的任务场景。

目前,Magentic-UI在Github超4000颗星,并且支持MIT 许可证商用。
用户评论