问答 求助一下现在哪家的 AI 能识别图片并且给出对应功能点的位置信息

我不吃香菜 · 2025年04月10日 · 最后由 难以怀瑾 回复于 2025年05月09日 · 5070 次阅读

之前的 AI 都是以玩为主,近期接到一个需求。其实就是做 UI 自动化,但是要批量做很多。而且可能会有细微上的不同。像下方的要求啊 D 就给不出直接的结果了,有没有办法能达到这个目标的,这样就能做出相似流程的自愈类脚本了。

共收到 16 条回复 时间 点赞

omniparser2, uground,这些应该都可以。

恒温 回复

请教下 uground 是啥百度不到

dp 本来就不是多模态的大模型,去看看 qwen-vl 之类的视觉大模型吧

IAmTester 回复

为什么我能搜到

airtest 不考虑一下吗?

我用的豆包,识别效果还可以,找专门的多模态能识图的大模型

直接参考 airtest 的这个文章:文字识别技术升级:Airtest 与 PaddleOCR 模型的协作小技巧
https://mp.weixin.qq.com/s/6Y6BeFnoXfz0qKf2P_FaOw

fox 回复

因为你聪明啊,多给几个关键词?

周末回去看看,感谢

xiaoHei 回复

驱动是用 airtest,但是在不同包的指定流程下例如 “确认” 会有不同的图片,批量构造主流程脚本想用 AI 去识别和定位,然后修复成对应的数据

Joo 回复

感觉需要 gpu 机器才快点。。。要不要太慢了,一个图片 10s 多才解析完

一定要用 ai 吗, 开源的 Paddle OCR 了解一下, 直接 flask 启一个客户端开放 web 接口就可以了. 甚至你可以写一个 web 页面来自定义位置 输出

ginger 回复

简单看了一下不太满足我的需求

统一回复一下吧,最终的 AI 选择是 qwen-vl-max-latest,千问的图像视频 AI 识别,demo 调试的时候用的 Midscene。所以还需要调试一下 Midscene 使用的 Prompting,然后集成到自己的服务里面,或者直接调用 mcp。这个还需要研究研究。
最终效果就是给出 “确认”,“确定” 等相似词,AI 能在图片上找到符合的相似词,并且返回元素块的位置信息。我只要简单计算得到中心点位置就能用作不同类型游戏的元素位置信息了。批量跑一个晚上能修复大部分不兼容游戏的流程。

老哥有空分享一下是如何通过 AI 如何做的 UI 自动化吗

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册