在当今数字化时代,浏览器自动化工具对于开发人员、测试人员以及数据分析师等群体而言,是提高工作效率、实现流程自动化的得力助手。Selenium 作为一款经典的开源浏览器自动化工具,多年来在行业内占据着重要地位,被广泛应用于 Web 应用程序的自动化测试、数据抓取等场景。

然而,今天要给大家带来的是,微软推出了一款名为 Magentic UI 的开源项目,这可是自动化领域的一颗 “王炸” 炸弹!

1、什么是 Magentic UI?

Magentic-UI,是微软推出的一款开源的人机协作网页自动化工具,旨在通过网页浏览器实时协助用户完成复杂的网络任务。它基于微软此前发布的 Magentic-One 多智能体系统和 AutoGen 框架打造,以 MIT 许可证开源。

这个工具不仅可以自动浏览网页、填写表单,还能执行代码、分析文件,关键是整个过程完全透明可控。

这个自动化开源项目核心逻辑主要由 Python 编写,

访问快捷导航平台 (https://kjdaohang.com/),点击最新上架菜单,找到Magentic-UI,点击直达链接,可查看项目源码。

2、核心功能与优势

3、快速上手

首先说一下如何安装,安装过程非常简单,只需几个命令即可完成:

1、创建虚拟环境并激活(需要安装 Python 3.10+):

python3 -m venv .venv
source .venv/bin/activate

# 如果您使用 uv 进行依赖项管理,则可以使用以下命令安装 Magentic-UI:
uv venv --python=3.12 .venv
. .venv/bin/activate

2、安装 Magentic-UI:

pip install magentic-ui 

3、启动服务:

magentic-ui --port8081

第一次运行此命令时,构建 Docker 镜像需要一段时间,你可以去喝杯咖啡什么的。下次运行它时,它会快得多,因为它不必再次构建 Docker。

如果您的端口是 8081,则可以在http://localhost:8081 访问 Magentic-UI 即可使用。

Magentic-UI 需要 Docker 才能运行,如果您使用的是 Windows,则需要 WSL2。建议使用 Mac 或 Linux。

如果您无法设置 Docker,您可以运行有限版本的 Magentic-UI,该版本无法执行代码、导航文件或使用命令在界面中显示浏览器:

magentic-ui --run-without-docker --port 8081

如果您在构建 docker 时遇到问题,请尝试使用以下命令重新构建它们:

magentic-ui --rebuild-docker --port 8081

接下来,就是如何使用了。

需要设置 OpenAI API 密钥,支持 Azure OpenAI 和 Ollama 等多种模型。要使用 Azure 模型或 Ollama,请使用可选依赖项进行安装:

# for Azure
pip install magentic-ui[azure] 
# for Ollama
pip install magentic-ui[ollama]

下面,展示如何与 Magentic-UI 进行分步用户交互:

1、通过对话与 AI 一起制定详细的任务执行步骤。

2、协同任务执行,可以随时中断和引导任务执行,直接通过网页浏览器或对话进行干预。

3、对于关键操作,系统会主动请求用户确认后再执行,支持同时运行多个任务,状态指示器会提醒何时需要输入或任务完成。

写在最后

微软 Magentic-UI 的出现,无疑为浏览器自动化领域注入了新的活力。它凭借创新的人机协作模式、强大的功能以及出色的安全机制,展现出了超越传统工具的潜力。

对于需要频繁进行网页自动化操作的开发者来说,Magentic-UI 确实是个不错的选择。

它的出现给自动化领域提供了更多新的思路,不过这个工具目前毕竟刚出来不久,在生产环境使用需要谨慎考虑。

总的来说,作为一个创新的网页自动化方案,值得试试。

好了,今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!


↙↙↙阅读原文可查看相关链接,并与作者交流