之前的 AI 都是以玩为主,近期接到一个需求。其实就是做 UI 自动化,但是要批量做很多。而且可能会有细微上的不同。像下方的要求啊 D 就给不出直接的结果了,有没有办法能达到这个目标的,这样就能做出相似流程的自愈类脚本了。
omniparser2, uground,这些应该都可以。
dp 本来就不是多模态的大模型,去看看 qwen-vl 之类的视觉大模型吧
airtest 不考虑一下吗?
我用的豆包,识别效果还可以,找专门的多模态能识图的大模型
直接参考 airtest 的这个文章:文字识别技术升级:Airtest 与 PaddleOCR 模型的协作小技巧
https://mp.weixin.qq.com/s/6Y6BeFnoXfz0qKf2P_FaOw
周末回去看看,感谢
驱动是用 airtest,但是在不同包的指定流程下例如 “确认” 会有不同的图片,批量构造主流程脚本想用 AI 去识别和定位,然后修复成对应的数据