微软开源浏览器Agent，可实时跟踪、控制智能体，超4000颗星

Magentic-UI目前在Github上超4000颗星，并且支持MIT许可证商用。

摘要

Magentic-UI是微软开源的一个专用于浏览器网络任务的Agent，它是一个以人为本的研究原型界面，由多智能体系统驱动，能够浏览和执行网络操作、生成和执行代码以及生成和分析文件。它基于微软之前开源的Magentic-One系统开发而成，并支持人机协同的控制方法来提升智能体的执行效率和准确率。

Magentic-UI的最大亮点之一是以人类为中心，与传统Agent不同，它将人类深度融入到任务执行的各个环节。在规划阶段，Magentic-UI会与用户进行协同规划，生成初步分步计划后，允许用户通过计划编辑器或文本反馈进行修改；在任务执行过程中，强调与用户的协同执行，实时向用户展示具体行动并反馈网页信息，用户可随时暂停操作、提供反馈或接管操作，还具有“行动保护”机制，确保操作安全。

根据GAIA测试数据，配备拥有辅助信息的模拟用户时，Magentic-UI的任务完成率从自主模式下的30.3%提升至51.9%，准确率提高了71%。此外，Magentic-UI在执行任务时仅在10%的情况下向模拟用户寻求帮助，且平均每次任务仅需帮助1.1次。

当用户向Magentic-UI提出任务请求时，系统接收输入后，核心组件协调器利用大语言模型能力生成初步分步计划，然后进入协同规划阶段，用户可修改计划，确认或修改后的计划进入执行阶段，执行过程高度透明和协作式，用户可实时了解并干预操作。Magentic-UI还具备自我计划学习特性，可从任务执行中学习并保存计划，形成计划库，未来遇到相似任务可快速调用并优化。

微软在官网开源了一个专用于浏览器网络任务的Agent——Magentic-UI。

Magentic-UI是基于微软曾经开源的 Magentic-One基础之上开发而成，并支持人机协同的控制方法来提升智能体的执行效率和准确率。

根据GAIA测试数据显示，当配备拥有辅助信息的模拟用户时，Magentic-UI 的任务完成率从自主模式下的30.3%提升至51.9%，准确率提高了71%。此外，Magentic-UI 在执行任务时仅在10%的情况下向模拟用户寻求帮助，且平均每次任务仅需帮助1.1次。

开源地址：https://github.com/microsoft/magentic-ui

Magentic-UI以人为本

Magentic-UI最大亮点之一便是以人类为中心，与传统 Agent 的不同在于其将人类深度融入到任务执行的各个环节，而不是单纯追求完全自动化。

传统 Agent 往往以实现任务的自主完成为目标，强调的是机器的独立性和自动化程度，用户可能对 Agent 的具体操作过程和决策依据不够了解，甚至在出现问题时难以及时干预和纠正。

而Magentic-UI 则采用了人机协作的模式，充分考虑了人类在任务执行中的作用和价值，通过与用户紧密协作来完成任务，让用户能够实时掌控 Agent 的行为，并根据需要进行调整和指导。

在规划阶段，Magentic-UI 会与用户进行协同规划，不会直接按照预设的程序或算法来制定任务计划，而是先与用户沟通交流，了解用户的需求和期望，然后生成一个初步的分步计划，并允许用户通过计划编辑器或提供文本反馈的方式直接修改这个计划。

用户可以根据自己的经验和对任务的理解，对计划中的步骤进行添加、删除、调整顺序等操作，甚至可以重新撰写某些步骤，以确保计划更符合实际需求。这种协同规划的方式，使得用户能够将自己的专业知识和经验融入到任务计划中，从而提高任务完成的质量和效率。

在任务执行过程中，Magentic-UI也强调与用户的协同执行。它会实时向用户展示自己即将采取的具体行动，比如要点击哪个按钮、输入什么内容、访问哪个网页等，同时也会将观察到的网页信息实时反馈给用户。

用户可以随时暂停 Agent 的操作，通过自然语言向 Agent 提供反馈，指出问题、提出建议或进行纠正，甚至可以直接接管浏览器的操作，亲自完成某些步骤，然后再将控制权交还给Agent。这种协同执行的方式，让用户能够及时发现并解决 Agent 在执行过程中可能出现的问题，避免了因 Agent 的错误操作而导致任务失败或产生不良后果。

Magentic-UI还具有独特的“行动保护”机制，即在执行一些可能不可逆的操作之前，会征求用户的许可。这些操作可能包括关闭标签页、点击有副作用的按钮、提交表单等。

用户可以根据自己的判断，决定是否允许Agent执行这些操作，从而避免了因 Agent 的盲目操作而带来的风险。Magentic-UI 还采用了沙盒技术，将浏览器和代码执行器等工具运行在隔离的环境中，进一步确保了操作的安全性，防止了 Agent 可能带来的安全威胁。

Magentic-UI框架简单介绍

当用户向Magentic-UI 提出一个自动化任务请求时，系统首先会接收用户的输入，这可以是简单的文本指令，也可以是附带图像的复杂需求。Magentic-UI 的核心组件协调器，会根据用户的输入，利用其背后的大语言模型（LLM）能力，生成一个初步的分步计划。这个计划详细列出了完成任务所需的各个步骤，包括需要访问的网页、需要执行的操作以及可能需要调用的其他工具。

生成初步计划后，Magentic-UI 并不会直接开始执行，而是进入一个关键的协同规划阶段。在这个阶段，用户可以通过一个直观的计划编辑界面，直接对 Magentic-UI 生成的计划进行修改。用户可以添加、删除或调整计划中的步骤，甚至可以完全重新撰写某些步骤。