问答求助一下现在哪家的 AI 能识别图片并且给出对应功能点的位置信息

我吃香菜了 · 2025年04月10日 · 最后由我吃香菜了回复于 2025年05月20日 · 12089 次阅读

之前的 AI 都是以玩为主，近期接到一个需求。其实就是做 UI 自动化，但是要批量做很多。而且可能会有细微上的不同。像下方的要求啊 D 就给不出直接的结果了，有没有办法能达到这个目标的，这样就能做出相似流程的自愈类脚本了。

共收到 17 条回复时间点赞

恒温 #1 · 2025年04月10日

omniparser2, uground，这些应该都可以。

IAmTester #2 · 2025年04月10日

对

请教下 uground 是啥百度不到

干饭狂人 #3 · 2025年04月10日

dp 本来就不是多模态的大模型，去看看 qwen-vl 之类的视觉大模型吧

fox #4 · 2025年04月11日

对

IAmTester 回复

为什么我能搜到

xiaoHei #5 · 2025年04月11日

airtest 不考虑一下吗？

南柯一梦丶 #6 · 2025年04月11日

我用的豆包，识别效果还可以，找专门的多模态能识图的大模型

wupengfeng #7 · 2025年04月11日

直接参考 airtest 的这个文章：文字识别技术升级：Airtest 与 PaddleOCR 模型的协作小技巧
https://mp.weixin.qq.com/s/6Y6BeFnoXfz0qKf2P_FaOw

IAmTester #8 · 2025年04月11日

对

fox 回复

因为你聪明啊，多给几个关键词？

Joo #9 · 2025年04月11日

试试这个效果还可以
https://huggingface.co/spaces/microsoft/OmniParser

我吃香菜了 #10 · 2025年04月11日 Author

周末回去看看，感谢

我吃香菜了 #11 · 2025年04月11日 Author

对

驱动是用 airtest，但是在不同包的指定流程下例如 “确认” 会有不同的图片，批量构造主流程脚本想用 AI 去识别和定位，然后修复成对应的数据

zhuhui132 #12 · 2025年04月11日

对

Joo 回复

感觉需要 gpu 机器才快点。。。要不要太慢了，一个图片 10s 多才解析完

ginger #13 · 2025年05月08日

一定要用 ai 吗, 开源的 Paddle OCR 了解一下, 直接 flask 启一个客户端开放 web 接口就可以了. 甚至你可以写一个 web 页面来自定义位置输出

我吃香菜了 #14 · 2025年05月09日 Author

对

简单看了一下不太满足我的需求

我吃香菜了 #15 · 2025年05月09日 Author

统一回复一下吧，最终的 AI 选择是 qwen-vl-max-latest，千问的图像视频 AI 识别，demo 调试的时候用的 Midscene。所以还需要调试一下 Midscene 使用的 Prompting，然后集成到自己的服务里面，或者直接调用 mcp。这个还需要研究研究。
最终效果就是给出 “确认”，“确定” 等相似词，AI 能在图片上找到符合的相似词，并且返回元素块的位置信息。我只要简单计算得到中心点位置就能用作不同类型游戏的元素位置信息了。批量跑一个晚上能修复大部分不兼容游戏的流程。

难以怀瑾 #16 · 2025年05月09日

对

我吃香菜了回复

老哥有空分享一下是如何通过 AI 如何做的 UI 自动化吗

我吃香菜了 #17 · 2025年05月20日 Author 1 个赞

对

我又回来啦，AI 试了一圈，我估计是我的 prompt 有点问题，图像识别位置信息差了 10% 左右，结果就是用不了，后面又用试了 PaddleOCR，效果很好，但是因为有些页面是存在相似文字和同名的，还得做一下文字象限区分和处理。但是稳定性确实提高很多

需要登录后方可回复, 如果你还没有账号请点击这里注册。