问答 求助一下现在哪家的 AI 能识别图片并且给出对应功能点的位置信息

我不吃香菜 · 2025年04月10日 · 最后由 zhuhui132 回复于 2025年04月11日 · 1989 次阅读

之前的 AI 都是以玩为主,近期接到一个需求。其实就是做 UI 自动化,但是要批量做很多。而且可能会有细微上的不同。像下方的要求啊 D 就给不出直接的结果了,有没有办法能达到这个目标的,这样就能做出相似流程的自愈类脚本了。

共收到 12 条回复 时间 点赞

omniparser2, uground,这些应该都可以。

恒温 回复

请教下 uground 是啥百度不到

dp 本来就不是多模态的大模型,去看看 qwen-vl 之类的视觉大模型吧

IAmTester 回复

为什么我能搜到

airtest 不考虑一下吗?

我用的豆包,识别效果还可以,找专门的多模态能识图的大模型

直接参考 airtest 的这个文章:文字识别技术升级:Airtest 与 PaddleOCR 模型的协作小技巧
https://mp.weixin.qq.com/s/6Y6BeFnoXfz0qKf2P_FaOw

fox 回复

因为你聪明啊,多给几个关键词?

周末回去看看,感谢

xiaoHei 回复

驱动是用 airtest,但是在不同包的指定流程下例如 “确认” 会有不同的图片,批量构造主流程脚本想用 AI 去识别和定位,然后修复成对应的数据

Joo 回复

感觉需要 gpu 机器才快点。。。要不要太慢了,一个图片 10s 多才解析完

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册