自动化工具 微软又一自动化开源王炸,Selenium 慌了!

狂师 · 2025年07月22日 · 最后由 树叶 回复于 2025年07月22日 · 1771 次阅读

在当今数字化时代,浏览器自动化工具对于开发人员、测试人员以及数据分析师等群体而言,是提高工作效率、实现流程自动化的得力助手。Selenium 作为一款经典的开源浏览器自动化工具,多年来在行业内占据着重要地位,被广泛应用于 Web 应用程序的自动化测试、数据抓取等场景。

然而,今天要给大家带来的是,微软推出了一款名为 Magentic UI 的开源项目,这可是自动化领域的一颗 “王炸” 炸弹!

1、什么是 Magentic UI?

Magentic-UI,是微软推出的一款开源的人机协作网页自动化工具,旨在通过网页浏览器实时协助用户完成复杂的网络任务。它基于微软此前发布的 Magentic-One 多智能体系统和 AutoGen 框架打造,以 MIT 许可证开源。

这个工具不仅可以自动浏览网页、填写表单,还能执行代码、分析文件,关键是整个过程完全透明可控。

这个自动化开源项目核心逻辑主要由 Python 编写,

访问快捷导航平台 (https://kjdaohang.com/),点击最新上架菜单,找到Magentic-UI,点击直达链接,可查看项目源码。

2、核心功能与优势

  • 以人为中心:Magentic UI 的设计理念是模拟人类用户的操作,而不是简单的脚本执行。这意味着它能够更好地处理复杂的交互场景,如动态加载、弹窗处理等。

  • 协作执行,实时交互:在执行过程中,Magentic-UI 会实时向用户播报下一步行动,同时展示所访问网页内容。用户可以随时暂停流程,用手头浏览器亲自验证某一步骤,或通过自然语言反馈纠正智能体的执行路径 。假设在数据收集任务中,智能体提取的数据与用户预期偏差较大,用户可即时介入,直接引导智能体调整筛选条件,确保数据准确性 。

  • 智能操作: 利用 AI 技术,Magentic UI 能够智能识别网页元素,自动完成点击、填写表单等操作,大大减少了人工干预的需要。

  • 学习进化,越用越智能:每次任务完成后,Magentic-UI 能对执行过程进行复盘,将关键步骤提炼为通用计划并妥善保存。用户可以随时查看这些往昔经验,直接套用或按需修改。当下次面对相似任务时,智能体便能基于历史经验迅速启动,大大缩减任务筹备时间。

3、快速上手

首先说一下如何安装,安装过程非常简单,只需几个命令即可完成:

1、创建虚拟环境并激活(需要安装 Python 3.10+):

python3 -m venv .venv
source .venv/bin/activate

# 如果您使用 uv 进行依赖项管理,则可以使用以下命令安装 Magentic-UI:
uv venv --python=3.12 .venv
. .venv/bin/activate

2、安装 Magentic-UI:

pip install magentic-ui 

3、启动服务:

magentic-ui --port8081

第一次运行此命令时,构建 Docker 镜像需要一段时间,你可以去喝杯咖啡什么的。下次运行它时,它会快得多,因为它不必再次构建 Docker。

如果您的端口是 8081,则可以在http://localhost:8081 访问 Magentic-UI 即可使用。

Magentic-UI 需要 Docker 才能运行,如果您使用的是 Windows,则需要 WSL2。建议使用 Mac 或 Linux。

如果您无法设置 Docker,您可以运行有限版本的 Magentic-UI,该版本无法执行代码、导航文件或使用命令在界面中显示浏览器:

magentic-ui --run-without-docker --port 8081

如果您在构建 docker 时遇到问题,请尝试使用以下命令重新构建它们:

magentic-ui --rebuild-docker --port 8081

接下来,就是如何使用了。

需要设置 OpenAI API 密钥,支持 Azure OpenAI 和 Ollama 等多种模型。要使用 Azure 模型或 Ollama,请使用可选依赖项进行安装:

# for Azure
pip install magentic-ui[azure] 
# for Ollama
pip install magentic-ui[ollama]

下面,展示如何与 Magentic-UI 进行分步用户交互:

1、通过对话与 AI 一起制定详细的任务执行步骤。

2、协同任务执行,可以随时中断和引导任务执行,直接通过网页浏览器或对话进行干预。

3、对于关键操作,系统会主动请求用户确认后再执行,支持同时运行多个任务,状态指示器会提醒何时需要输入或任务完成。

写在最后

微软 Magentic-UI 的出现,无疑为浏览器自动化领域注入了新的活力。它凭借创新的人机协作模式、强大的功能以及出色的安全机制,展现出了超越传统工具的潜力。

对于需要频繁进行网页自动化操作的开发者来说,Magentic-UI 确实是个不错的选择。

它的出现给自动化领域提供了更多新的思路,不过这个工具目前毕竟刚出来不久,在生产环境使用需要谨慎考虑。

总的来说,作为一个创新的网页自动化方案,值得试试。

好了,今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
共收到 10 条回复 时间 点赞

对于需要频繁进行网页自动化操作的开发者来说

能够用在真实工作中么?

不用一惊一乍,毕竟已经开源那么久,要炸早就炸了

动不动就炸了,怎么狂狮沦为震惊党了

感觉这个网站很干净,难得的一片净土,但是看到这种"标题",就好像喝柠檬水的时候被果核呛到了

以前还能看看,现在感觉单纯引流

微软目前出了很多自动化,感觉 playwright 是落地最好的。

辣子鸡 回复

是不是有种
桌面底下
忽然弹出【古天乐绿啦】弹窗的感觉

回复内容未通过审核,暂不显示
回复内容未通过审核,暂不显示
回复内容未通过审核,暂不显示
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册