AI测试 AUITestAgent:用自然语言写大前端自动化 Case,智能化进行驱动、校验工作

white · 2024年07月15日 · 最后由 hank.huang 回复于 2024年11月22日 · 11315 次阅读

我们团队做了个很有意思的项目,用自然语言写大前端自动化 Case,同时进行驱动、和校验工作,在实验和实际使用的效果都挺不错。目前在我们实际多个业务方向中用起来准确率、稳定性、易用性、可维护性都还不错。

AUITestAgent 首页使用效果视频可在项目首页观看
论文链接

AUITestAgent 是第一个自动化、自然语言驱动的移动应用程序 GUI 测试工具,能够完全自动化整个 GUI 交互和功能验证过程(其他项目,如 AppAgent、MobileAgent 等仅能够通过自然语言进行交互定义、驱动,无法同时进行校验)。它以自然语言编写的测试需求作为输入,生成并执行 UI 交互,并验证 UI 响应是否符合需求中概述的预期。

我们使用两个定制的基准(交互基准和验证基准)评估 AUITestAgent 的性能,包括 8 个广泛使用的商业应用(即美团、小红书、豆瓣、Facebook、Gmail、LinkedIn、Google Play 和 YouTube Music)。为了提供全面的评估,我们将交互任务的难度分为三个级别:简单(L1)、中等(L2)和困难(L3)。对于每个级别,我们构建了十个交互任务,描述均匀分布在英语和中文之间。

我们的实验表明,AUITestAgent 在 L1 级别准确完成 100% 的任务,L2 级别完成 80% 的任务,L3 级别完成 50% 的任务。此外,AUITestAgent 生成的 94% 的交互与通过手动交互的基准结果一致。此外,AUITestAgent 在检测注入的 GUI 功能错误方面达到 90% 的召回率,同时保持较低的误报率,仅为 4.5%。更重要的是,它成功检测到美团中的未知错误,凸显了在复杂商业应用中使用 AUITestAgent 进行 GUI 测试的实际优势。
与其他Agent在驱动领域进行对比
由于没有类似能够进行同时进行校验的项目,与GPT4O多轮对话模型进行校验能力比较

现在这个方向挺火爆的,很多团队在研究和探索落地,希望可以交流交流。

共收到 25 条回复 时间 点赞

请问代码开源了么

YYUY 回复

暂时还没,不过关键的流程和原理已经在论文里写明了,可以参考复现,整体不复杂

测试用例是咋写的? 没找到相关文件

https://github.com/bz-lab/AUITestAgent/blob/main/verification.md
这个是驱动 + 校验的 case 例子集合

我们都已经做成产品要上线了。。

匿名用户 回复

正常😂 ,这方面研究挺火的,大家都在弄

匿名用户 回复

啥产品

匿名用户 回复

挺好的,准确率怎么样?

对于没有文案,只有图标的按钮/控件,能实现点击吗?

white #10 · 2024年07月17日 Author
Michael_Wang 回复

可以的,整体是从多模态来对页面进行的认知,包括文字、图片、页面结构等,不单纯依赖文字

运行速度咋样,毕竟大模型的交互响应是以秒为单位的

white #12 · 2024年07月18日 Author
gaomengsuijia 回复

这个对于基座的要求不是特别高,国内的几个 MLLM 效果都不错,每一步操作大概耗时十几秒到 20 多秒吧

求教:
1、稳定吗?重复执行的质量咋样?
2、UI 的不合理变动,比如控件位置发生偏移、布局改坏,这些人为识别或者图像匹配识别的问题,能拦截吗?

white #14 · 2024年07月19日 Author
mathore 回复

多次执行的准确率可以参考实验结果https://github.com/bz-lab/AUITestAgent/blob/main/interaction_zh.md https://github.com/bz-lab/AUITestAgent/blob/main/evaluation_results/evaluation_zh.md 整体来看还是比较稳定的

UI 的不合理状态可以进行一定程度的检查,但是当前的检查能力没有对这种通识性布局问题进行特化,总体准确率不会特别高,在实际使用的过程中会加入针对各种类型异常的专项检测

white 回复

点个赞,大模型运用落地比较好的样例!以后测试工程师的工作就是训练机器人了~

white #16 · 2024年07月22日 Author
mathore 回复

未来工业化用例生成 + 机器校验 + 人工辅助这套流程,整个 UI 测试的麻烦程度能减少比较多

请问跟 app 相关的知识是怎么维护的

loshu2003 回复

这部分正在开发,主要是针对 app 构建知识地图或者图谱

源码可以分享一下吗

white #20 · 2024年07月30日 Author
Royli 回复

短期内暂无开源计划,可以参考下论文复现

white 回复

看了你们说是用 GPT-4o,但 GPT-4o 不是没开源么

white 回复

能加个微信请教下不?我的微信 lihuazhang2013

恒温 回复

@littlewhite 同求交流,哈哈

white #24 · 2024年11月19日 Author
恒温 回复

刚看到,加了

搞半天我以为你们自己训练的模型,结果是调通用大模型接口,那有啥用啊

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册