之前的 AI 都是以玩为主,近期接到一个需求。其实就是做 UI 自动化,但是要批量做很多。而且可能会有细微上的不同。像下方的要求啊 D 就给不出直接的结果了,有没有办法能达到这个目标的,这样就能做出相似流程的自愈类脚本了。
omniparser2, uground,这些应该都可以。
请教下 uground 是啥百度不到
dp 本来就不是多模态的大模型,去看看 qwen-vl 之类的视觉大模型吧
为什么我能搜到
airtest 不考虑一下吗?
我用的豆包,识别效果还可以,找专门的多模态能识图的大模型
直接参考 airtest 的这个文章:文字识别技术升级:Airtest 与 PaddleOCR 模型的协作小技巧 https://mp.weixin.qq.com/s/6Y6BeFnoXfz0qKf2P_FaOw
因为你聪明啊,多给几个关键词?
试试这个 效果还可以 https://huggingface.co/spaces/microsoft/OmniParser
周末回去看看,感谢
驱动是用 airtest,但是在不同包的指定流程下例如 “确认” 会有不同的图片,批量构造主流程脚本想用 AI 去识别和定位,然后修复成对应的数据
感觉需要 gpu 机器才快点。。。要不要太慢了,一个图片 10s 多才解析完