AI测试 【迭代 4】基于视觉模型的 APP 自动化异常诊断中心

Fun_Fox · 2025年04月07日 · 最后由 Fun_Fox 回复于 2025年04月30日 · 6446 次阅读

迭代历史

【迭代 1】基于视觉模型的 APP 自动弹窗检测及关闭
【迭代 2】基于视觉模型的 APP 自动化任务异常诊断
【迭代 3】基于视觉模型的 APP 自动化异常诊断中心

本次更新主要新增方案二

增加 WebUI-DEMO 体验

体验步骤

  1. 复制.env.sample 为.env
  2. 在.env 中填写硅基流动的 key
  3. 运行 python api_run.py
  4. 运行 python web_ui.py
  5. 打开浏览器访问 127.0.0.1:5001

并且进行对比测试

共收到 11 条回复 时间 点赞

web 版有吗

xxuntil 回复

OK,后面考虑用 gradio 加一个体验测试页面

xxuntil 回复

再重新拉去一下代码已经增加 WEB 页面版本了

想问下这里存模版库有什么作用呢,是用来做模版匹配算法用吗(按理说视觉大模型用不到)

云青 回复
  1. 减少视觉模型调用的次数
  2. 加快二次响应

白话讲,第一次遇到的问题(问大模型),第二次就不用再问了

Fun_Fox 回复

试了几个例子,给大模型输入截图、屏幕分辨率,然后输出坐标都不太准,想问下楼主有碰到这种情况吗
输入:该设备的屏幕宽 1080,高 2340,现在有一个弹窗,我想要取消这个弹窗,请给我取消弹窗的坐标

云青 回复


请看测试的模型,建议使用 32b,测试下来很准

或者就使用方案一:依赖于 xml 层次结构

感谢楼主的无私分享,有个问题想咨询一下,如果是微信小程序,无法获取的页面的 xml,如果还是想使用存储模版的方式,那么在处理图像的时候,要依照什么方式可以标注出页面上的按钮呢?期待你的回复

ZW 回复

这个事情,之前我也想过,

  1. 使用能够理解现实世界的模型:

GPT4o 听说对现实世界的理解以及定位精度很高

2.自己搞模型:

  • 使用过 yolo 屏幕目标检测,我看到过有人用这个给王者荣耀的 hero 标注。实现游戏对战 https://kezhi.tech/86b4b2c0.html
  • 但我更推荐《基于 Transformer 的目标检测之 DETR》https://zhuanlan.zhihu.com/p/387102036 这个技术更新。目前 yolo、还是 detr 我还没时间去尝试,标注的性能还没测试过
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册