我 review 了一下代码
我后面琢磨一下,怎么优化。
纯视觉的可以研究看一下这个例子
https://github.com/X-PLUG/MobileAgent/blob/main/README_zh.md
在自动化脚本执行失败,大模型介入进行 “诊断”。
解决弹窗,还有一种使用 OCR 的方式,但实现逻辑比较复杂。
大佬,受教了,后面研究一下
嗯,这种尝试过的,给大模型手机分辨率后,让模型返回按钮坐标。
这种对模型的能力要求有些高。之前尝试过,返回的坐标容易不正确。
但可以看一下 mobile_agent 这部分代码,是阿里视觉模型的,没有依赖页面结构