AI测试【迭代 4】基于视觉模型的 APP 自动化异常诊断中心

Fun_Fox · 2025年04月07日 · 最后由 Fun_Fox 回复于 2025年04月30日 · 9563 次阅读

迭代历史

【迭代 1】基于视觉模型的 APP 自动弹窗检测及关闭
 【迭代 2】基于视觉模型的 APP 自动化任务异常诊断
 【迭代 3】基于视觉模型的 APP 自动化异常诊断中心

本次更新主要新增方案二

增加 WebUI-DEMO 体验

体验步骤

复制.env.sample 为.env
在.env 中填写硅基流动的 key
运行 python api_run.py
运行 python web_ui.py
打开浏览器访问 127.0.0.1:5001

并且进行对比测试

1 个赞

共收到 11 条回复时间点赞

Fun_Fox #1 · 2025年04月07日 Author

xxuntil #8 · 2025年04月08日

web 版有吗

Fun_Fox #7 · 2025年04月08日 Author

对

xxuntil 回复

OK，后面考虑用 gradio 加一个体验测试页面

Fun_Fox #6 · 2025年04月08日 Author

对

xxuntil 回复

再重新拉去一下代码已经增加 WEB 页面版本了

云青 #5 · 2025年04月09日

想问下这里存模版库有什么作用呢，是用来做模版匹配算法用吗（按理说视觉大模型用不到）

Fun_Fox #6 · 2025年04月11日 Author 1 个赞

对

云青回复

减少视觉模型调用的次数
加快二次响应

白话讲，第一次遇到的问题（问大模型），第二次就不用再问了

云青 #7 · 2025年04月20日

对

Fun_Fox 回复

试了几个例子，给大模型输入截图、屏幕分辨率，然后输出坐标都不太准，想问下楼主有碰到这种情况吗
输入：该设备的屏幕宽 1080，高 2340，现在有一个弹窗，我想要取消这个弹窗，请给我取消弹窗的坐标

Fun_Fox #8 · 2025年04月21日 Author 1 个赞

对

云青回复

请看测试的模型，建议使用 32b，测试下来很准

Fun_Fox #9 · 2025年04月21日 Author 1 个赞

或者就使用方案一：依赖于 xml 层次结构

ZW #10 · 2025年04月27日

感谢楼主的无私分享，有个问题想咨询一下，如果是微信小程序，无法获取的页面的 xml，如果还是想使用存储模版的方式，那么在处理图像的时候，要依照什么方式可以标注出页面上的按钮呢？期待你的回复

Fun_Fox #11 · 2025年04月30日 Author

对

ZW 回复

这个事情，之前我也想过，

使用能够理解现实世界的模型：

GPT4o 听说对现实世界的理解以及定位精度很高

2.自己搞模型：

使用过 yolo 屏幕目标检测，我看到过有人用这个给王者荣耀的 hero 标注。实现游戏对战 https://kezhi.tech/86b4b2c0.html
但我更推荐《基于 Transformer 的目标检测之 DETR》https://zhuanlan.zhihu.com/p/387102036 这个技术更新。目前 yolo、还是 detr 我还没时间去尝试，标注的性能还没测试过

Fun_Fox 在【迭代 5】基于视觉模型的 APP 自动化异常诊断中心中提及了此贴 04月30日 12:11

需要登录后方可回复, 如果你还没有账号请点击这里注册。

AI测试 【迭代 4】基于视觉模型的 APP 自动化异常诊断中心

AI测试 【迭代 4】基于视觉模型的 APP 自动化异常诊断中心

迭代历史

本次更新主要新增方案二

增加 WebUI-DEMO 体验

并且进行对比测试

AI测试【迭代 4】基于视觉模型的 APP 自动化异常诊断中心

AI测试【迭代 4】基于视觉模型的 APP 自动化异常诊断中心