【迭代 1】基于视觉模型的 APP 自动弹窗检测及关闭 【迭代 2】基于视觉模型的 APP 自动化任务异常诊断 【迭代 3】基于视觉模型的 APP 自动化异常诊断中心
体验步骤
web 版有吗
OK,后面考虑用 gradio 加一个体验测试页面
再重新拉去一下代码已经增加 WEB 页面版本了
想问下这里存模版库有什么作用呢,是用来做模版匹配算法用吗(按理说视觉大模型用不到)
白话讲,第一次遇到的问题(问大模型),第二次就不用再问了
试了几个例子,给大模型输入截图、屏幕分辨率,然后输出坐标都不太准,想问下楼主有碰到这种情况吗 输入:该设备的屏幕宽 1080,高 2340,现在有一个弹窗,我想要取消这个弹窗,请给我取消弹窗的坐标
请看测试的模型,建议使用 32b,测试下来很准
或者就使用方案一:依赖于 xml 层次结构
感谢楼主的无私分享,有个问题想咨询一下,如果是微信小程序,无法获取的页面的 xml,如果还是想使用存储模版的方式,那么在处理图像的时候,要依照什么方式可以标注出页面上的按钮呢?期待你的回复
这个事情,之前我也想过,
GPT4o 听说对现实世界的理解以及定位精度很高
2.自己搞模型: