🚀 Browser-use 操控浏览器?AI+ 自动化实现神奇操作!
🔍 引言:当 AI 学会操作浏览器
在自动化领域,Selenium 等工具需要开发者编写复杂的定位代码。而现在,结合大语言模型(LLM)的智能自动化工具正在崛起——只需一句自然语言指令,AI 就能自动解析并操控浏览器!本文将带你用 20 行 Python 代码实现"AI 指令驱动浏览器"的神奇操作。
pip install langchain-openai browser-use asyncio
注:browser-use为专为浏览器自动化设计的库,支持自然语言指令解析。
访问 DeepSeek 官网
注册账号并进入控制台
创建 API Key(替换代码中的 sk-xxx)
推荐使用 Chromium 浏览器
MacOS默认路径:/Applications/Chromium.app/Contents/MacOS/Chromium
Windows:修改为C:\...\chrome.exe的绝对路径
from langchain_openai import ChatOpenAI
from browser_use import Agent, Browser
import asyncio
# 配置浏览器实例(核心配置)
browser = Browser(
config=BrowserConfig(
chrome_instance_path="YOUR_CHROMIUM_PATH" # 修改为你的路径
)
)
async def main():
agent = Agent(
task="操作打开浏览器,定位搜索框,输入'langchain'。搜索结果中,点击第一个链接。", # 自然语言指令
llm=ChatOpenAI(
model="deepseek-reasoner", # 大语言模型
api_key="sk-你的密钥", # 替换为实际API Key
base_url="https://api.deepseek.com"
),
browser=browser,
use_vision=False, # deepseek不支持多模态,关闭才可以使用
retry_delay=3 # 操作失败后重试间隔
)
await agent.run() # 异步启动任务
asyncio.run(main()) # 运行异步主函数
🌟 关键参数详解
参数 | 说明 |
---|---|
task | 自然语言描述的操作流程,支持中文指令 |
use_vision | 启用后结合 OCR 识别页面元素,适合复杂场景 |
retry_delay | 网络延迟时自动重试,提升稳定性 |
chrome_instance_path | 指定浏览器路径,避免驱动不匹配问题 |
🖥️ 运行效果:AI 如何执行任务?
自动启动浏览器:无需手动打开
智能解析页面:自动识别搜索框位置
精准输入内容:输入"langchain"并回车
点击首条结果:自动定位并点击第一个搜索结果
整个过程无需编写任何定位代码,全部由 AI 解析指令后自主完成!
缺点:访问云端大模型十几秒等待时间,才会进行下一步的操作
持续更新 AI 相关内容
关注微信公众号:从零开始学习软件测试