AI测试 Browser-use 操控浏览器?AI+ 自动化实现神奇操作

从零开始学习软件测试相关 · 9 天前 · 1550 次阅读

🚀 Browser-use 操控浏览器?AI+ 自动化实现神奇操作!

🔍 引言:当 AI 学会操作浏览器
在自动化领域,Selenium 等工具需要开发者编写复杂的定位代码。而现在,结合大语言模型(LLM)的智能自动化工具正在崛起——只需一句自然语言指令,AI 就能自动解析并操控浏览器!本文将带你用 20 行 Python 代码实现"AI 指令驱动浏览器"的神奇操作。

🛠️ 环境准备:3 分钟快速配置

1. 安装核心库

pip install langchain-openai browser-use asyncio
注:browser-use为专为浏览器自动化设计的库,支持自然语言指令解析。

2. 获取 DeepSeek API Key

  • 访问 DeepSeek 官网

  • 注册账号并进入控制台

  • 创建 API Key(替换代码中的 sk-xxx)

3. 浏览器配置

推荐使用 Chromium 浏览器

  • 确认可执行文件路径:
MacOS默认路径:/Applications/Chromium.app/Contents/MacOS/Chromium

Windows:修改为C:\...\chrome.exe的绝对路径
  • 📝 代码解析:

from langchain_openai import ChatOpenAI
from browser_use import Agent, Browser
import asyncio


# 配置浏览器实例(核心配置)
browser = Browser(
    config=BrowserConfig(
        chrome_instance_path="YOUR_CHROMIUM_PATH"  # 修改为你的路径
    )
)

async def main():
    agent = Agent(
        task="操作打开浏览器,定位搜索框,输入'langchain'。搜索结果中,点击第一个链接。",  # 自然语言指令
        llm=ChatOpenAI(
            model="deepseek-reasoner",              # 大语言模型
            api_key="sk-你的密钥",                  # 替换为实际API Key
            base_url="https://api.deepseek.com"
        ),
        browser=browser,
        use_vision=False,    # deepseek不支持多模态,关闭才可以使用
        retry_delay=3        # 操作失败后重试间隔
    )
    await agent.run()        # 异步启动任务

asyncio.run(main())          # 运行异步主函数

🌟 关键参数详解

参数 说明
task 自然语言描述的操作流程,支持中文指令
use_vision 启用后结合 OCR 识别页面元素,适合复杂场景
retry_delay 网络延迟时自动重试,提升稳定性
chrome_instance_path 指定浏览器路径,避免驱动不匹配问题

🖥️ 运行效果:AI 如何执行任务?
自动启动浏览器:无需手动打开

智能解析页面:自动识别搜索框位置

精准输入内容:输入"langchain"并回车

点击首条结果:自动定位并点击第一个搜索结果

整个过程无需编写任何定位代码,全部由 AI 解析指令后自主完成!

缺点:访问云端大模型十几秒等待时间,才会进行下一步的操作

持续更新 AI 相关内容

关注微信公众号:从零开始学习软件测试

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册