AI测试 Browser-use 操控浏览器？AI+ 自动化实现神奇操作

从零开始学习软件测试相关 · 2025年04月12日 · 2977 次阅读

🚀 Browser-use 操控浏览器？AI+ 自动化实现神奇操作！

🔍 引言：当 AI 学会操作浏览器
在自动化领域，Selenium 等工具需要开发者编写复杂的定位代码。而现在，结合大语言模型（LLM）的智能自动化工具正在崛起——只需一句自然语言指令，AI 就能自动解析并操控浏览器！本文将带你用 20 行 Python 代码实现"AI 指令驱动浏览器"的神奇操作。

🛠️ 环境准备：3 分钟快速配置

1. 安装核心库

pip install langchain-openai browser-use asyncio
注：browser-use为专为浏览器自动化设计的库，支持自然语言指令解析。

2. 获取 DeepSeek API Key

访问 DeepSeek 官网
注册账号并进入控制台
创建 API Key（替换代码中的 sk-xxx）

3. 浏览器配置

推荐使用 Chromium 浏览器

确认可执行文件路径：

MacOS默认路径：/Applications/Chromium.app/Contents/MacOS/Chromium

Windows：修改为C:\...\chrome.exe的绝对路径

📝 代码解析：


from langchain_openai import ChatOpenAI
from browser_use import Agent, Browser
import asyncio


# 配置浏览器实例（核心配置）
browser = Browser(
    config=BrowserConfig(
        chrome_instance_path="YOUR_CHROMIUM_PATH"  # 修改为你的路径
    )
)

async def main():
    agent = Agent(
        task="操作打开浏览器，定位搜索框，输入'langchain'。搜索结果中，点击第一个链接。",  # 自然语言指令
        llm=ChatOpenAI(
            model="deepseek-reasoner",              # 大语言模型
            api_key="sk-你的密钥",                  # 替换为实际API Key
            base_url="https://api.deepseek.com"
        ),
        browser=browser,
        use_vision=False,    # deepseek不支持多模态，关闭才可以使用
        retry_delay=3        # 操作失败后重试间隔
    )
    await agent.run()        # 异步启动任务

asyncio.run(main())          # 运行异步主函数

🌟 关键参数详解

参数	说明
task	自然语言描述的操作流程，支持中文指令
use_vision	启用后结合 OCR 识别页面元素，适合复杂场景
retry_delay	网络延迟时自动重试，提升稳定性
chrome_instance_path	指定浏览器路径，避免驱动不匹配问题

🖥️ 运行效果：AI 如何执行任务？
自动启动浏览器：无需手动打开

智能解析页面：自动识别搜索框位置

精准输入内容：输入"langchain"并回车

点击首条结果：自动定位并点击第一个搜索结果

整个过程无需编写任何定位代码，全部由 AI 解析指令后自主完成！

缺点：访问云端大模型十几秒等待时间，才会进行下一步的操作

持续更新 AI 相关内容

关注微信公众号：从零开始学习软件测试

暫無回覆。

需要登录後方可回應，如果你還沒有帳號按這裡注册。