AI测试 基于视觉模型的 APP 自动弹窗检测及关闭

Fun_Fox · March 14, 2025 · Last by 40岁的测试小学生 replied at March 15, 2025 · 712 hits

SmartDigger 项目

项目简介

SmartDigger 是一个基于 Appium 及视觉大模型的智能移动应用测试工具。它能够自动检测应用界面中的弹窗,并智能处理各种弹窗场景,同时生成详细的元素边界数据报告,为移动应用测试提供高效、智能的解决方案。

功能特性

  • 设备信息获取:自动识别连接的 Android 设备,获取设备名称、分辨率等信息
  • 界面元素分析:实时截取应用界面,智能分析可点击元素及其边界信息
  • 弹窗智能处理:基于视觉大模型识别各类弹窗,自动执行关闭操作
  • 数据报告生成:自动记录元素边界信息,生成详细的 Markdown 格式报告
  • 异常处理机制:内置完善的错误处理机制,确保检测流程的稳定性

环境要求

  • Python 3.8+
  • Appium Server 1.22.0+
  • Android 设备或模拟器(Android 8.0+)
  • 视觉大模型 API 访问权限

运行效果

Case 1

系统

  • 截图标注

  • 运行日志

Case 2

抖音

  • 截图标注

  • 运行日志 ng)

参考

共收到 3 条回复 时间 点赞

先点赞,后评论。👍
个人认为需要处理的弹窗:应该是那种属性取不到的,且像叉号这种类型的弹窗。要能在不依赖页面结构的情况下识别到弹窗的叉号。(看图 2 可以看出应该用到了获取页面结构)

Fun_Fox #2 · March 14, 2025 Author
哲豪 回复

嗯,这种尝试过的,给大模型手机分辨率后,让模型返回按钮坐标。
这种对模型的能力要求有些高。之前尝试过,返回的坐标容易不正确。
但可以看一下 mobile_agent 这部分代码,是阿里视觉模型的,没有依赖页面结构

回复内容未通过审核,暂不显示
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up