AI测试 揭秘 AI 大脑!VisioBot 如何 “思考” 并执行测试任务(下篇)

扬帆自动化测试平台 · February 04, 2026 · 146 hits

揭秘 AI 大脑!VisioBot 如何 “思考” 并执行测试任务(下篇)
在上篇文章中,我们带大家初探了 VisioBot 的强大能力 —— 用自然语言驱动 UI 自动化。
很多读者在后台留言:它看起来很酷,但它到底是怎么工作的?
今天,我们就来扒开 VisioBot 的外衣,看看它的 “大脑” 里究竟装了什么黑科技。

🧠 核心揭秘:三层任务拆分架构
VisioBot 之所以能像人一样 “思考”,归功于其独特的 三层任务拆分架构。这不是简单的 if-else,而是一个完整的 AI Agent 思维链。

第一层:任务规划 (Task Planning)
当你输入 “在 QQ 中给张三发送文件” 时,最顶层的 Agent 会首先进行全局规划。
它会思考:

我现在在哪个 App?如果不在 QQ,需要先启动 QQ。
这是一个多步骤任务,需要先找到人,再发文件。
输出:生成一个宏观的任务流。
第二层:步骤规划 (Step Planning)
进入具体页面后(例如 QQ 首页),第二层 Agent 介入。它会分析当前屏幕:

“我看到了消息列表,但我没看到张三。”
决策:我需要点击搜索框,或者向下滑动寻找。
这一层负责将宏观任务转化为当前页面下的具体意图。
第三层:操作执行 (Action Execution)
这是最底层的 “执行者”。当决策层决定 “点击搜索框” 时,执行层会:

精确计算搜索框的坐标 (x, y)。
调用 ADB 指令执行点击。
验证点击后的屏幕变化,确认操作是否成功。
🛠️ 硬核技术栈:Go + Vue3 + LangChain
为了支撑这套复杂的 AI 逻辑,我们在技术选型上不仅追求 “智能”,更追求 “性能”。

后端(Go 1.23+):
选用 Go 语言是因为其极高的并发处理能力。当同时控制 10 台设备进行 AI 推理时,Go 的协程(Goroutine)机制能确保系统依然丝般顺滑,且资源占用极低。

前端(Vue 3):
现代化的响应式界面。不仅能管理任务,还能通过 WebSocket 实时通过 Web 页面预览手机屏幕,甚至直接在网页上远程操控真机,所见即所得。

AI 编排(LangChain):
作为大模型的 “胶水”,LangChain 帮助我们将 prompt(提示词)工程化,管理上下文记忆,让 VisioBot 不会 “聊着聊着就忘了刚才在干嘛”。

🚀 实战演练:一个真实的决策瞬间
让我们看一个 VisioBot 运行时的日志片段:

[Observation] 当前页面包含文本: "微信", "通讯录", "发现", "我"
[Thought] 用户目标是 “发朋友圈”。当前在主页,我需要先点击 “发现” 标签页。
[Action] Click(text="发现")
...
[Observation] 进入 “发现” 页,看到 “朋友圈” 入口。
[Thought] 找到了,下一步点击 “朋友圈”。
[Action] Click(text="朋友圈")
看到没?它不是在死板地执行坐标点击,而是在实时观察、实时思考。如果页面加载慢了,它会等待;如果弹出了广告,它会尝试关闭。这才是真正的 智能自动化。

🔮 未来已来
VisioBot 目前已经支持了 Android 平台,未来我们将计划:

iOS 支持:让苹果设备也能享受 AI 自动化的红利。
自我进化:通过强化学习,让 Agent 在失败中吸取教训,越用越聪明。
🌟 关注我们,一起探索 AI 测试的边界
UI 自动化测试的革命已经开始,而 VisioBot 只是一个起点。如果你对 AI Agent、自动化测试 或 Go 语言开发 感兴趣,请务必关注我们!

项目信息
自动化测试平台:https://gitee.com/test-instructor/yangfan
AI+UI 自动化工具:https://github.com/lingcetech/VisioBotClient
测试平台 demo:https://demo.yangfan.gd.cn/
账号:admin,密码:123456

👇 长按关注,获取更多硬核干货

后续更新预告:手把手教你数据仓库融合自动化测试,解锁测试提效新范式!
让我们一起,用 AI 解放双手,重塑测试未来!

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up