之前的 AI 都是以玩为主,近期接到一个需求。其实就是做 UI 自动化,但是要批量做很多。而且可能会有细微上的不同。像下方的要求啊 D 就给不出直接的结果了,有没有办法能达到这个目标的,这样就能做出相似流程的自愈类脚本了。
omniparser2, uground,这些应该都可以。
dp 本来就不是多模态的大模型,去看看 qwen-vl 之类的视觉大模型吧
airtest 不考虑一下吗?
我用的豆包,识别效果还可以,找专门的多模态能识图的大模型
直接参考 airtest 的这个文章:文字识别技术升级:Airtest 与 PaddleOCR 模型的协作小技巧
https://mp.weixin.qq.com/s/6Y6BeFnoXfz0qKf2P_FaOw
周末回去看看,感谢
驱动是用 airtest,但是在不同包的指定流程下例如 “确认” 会有不同的图片,批量构造主流程脚本想用 AI 去识别和定位,然后修复成对应的数据
一定要用 ai 吗, 开源的 Paddle OCR 了解一下, 直接 flask 启一个客户端开放 web 接口就可以了. 甚至你可以写一个 web 页面来自定义位置 输出
统一回复一下吧,最终的 AI 选择是 qwen-vl-max-latest,千问的图像视频 AI 识别,demo 调试的时候用的 Midscene。所以还需要调试一下 Midscene 使用的 Prompting,然后集成到自己的服务里面,或者直接调用 mcp。这个还需要研究研究。
最终效果就是给出 “确认”,“确定” 等相似词,AI 能在图片上找到符合的相似词,并且返回元素块的位置信息。我只要简单计算得到中心点位置就能用作不同类型游戏的元素位置信息了。批量跑一个晚上能修复大部分不兼容游戏的流程。