AI测试 AUITestAgent：用自然语言写大前端自动化 Case，智能化进行驱动、校验工作

white · 2024年07月15日 · 最后由 zxyhhh 回复于 2025年04月22日 · 17790 次阅读

我们团队做了个很有意思的项目，用自然语言写大前端自动化 Case，同时进行驱动、和校验工作，在实验和实际使用的效果都挺不错。目前在我们实际多个业务方向中用起来准确率、稳定性、易用性、可维护性都还不错。

AUITestAgent 首页：使用效果视频可在项目首页观看
论文链接

AUITestAgent 是第一个自动化、自然语言驱动的移动应用程序 GUI 测试工具，能够完全自动化整个 GUI 交互和功能验证过程（其他项目，如 AppAgent、MobileAgent 等仅能够通过自然语言进行交互定义、驱动，无法同时进行校验）。它以自然语言编写的测试需求作为输入，生成并执行 UI 交互，并验证 UI 响应是否符合需求中概述的预期。

我们使用两个定制的基准（交互基准和验证基准）评估 AUITestAgent 的性能，包括 8 个广泛使用的商业应用（即美团、小红书、豆瓣、Facebook、Gmail、LinkedIn、Google Play 和 YouTube Music）。为了提供全面的评估，我们将交互任务的难度分为三个级别：简单（L1）、中等（L2）和困难（L3）。对于每个级别，我们构建了十个交互任务，描述均匀分布在英语和中文之间。

我们的实验表明，AUITestAgent 在 L1 级别准确完成 100% 的任务，L2 级别完成 80% 的任务，L3 级别完成 50% 的任务。此外，AUITestAgent 生成的 94% 的交互与通过手动交互的基准结果一致。此外，AUITestAgent 在检测注入的 GUI 功能错误方面达到 90% 的召回率，同时保持较低的误报率，仅为 4.5%。更重要的是，它成功检测到美团中的未知错误，凸显了在复杂商业应用中使用 AUITestAgent 进行 GUI 测试的实际优势。
与其他Agent在驱动领域进行对比
由于没有类似能够进行同时进行校验的项目，与GPT4O多轮对话模型进行校验能力比较

现在这个方向挺火爆的，很多团队在研究和探索落地，希望可以交流交流。

「原创声明：保留所有权利，禁止转载」

3 个赞

共收到 35 条回复时间点赞

YYUY #1 · 2024年07月16日

请问代码开源了么

white #2 · 2024年07月16日 Author

对

YYUY 回复

暂时还没，不过关键的流程和原理已经在论文里写明了，可以参考复现，整体不复杂

小黑子-IKUN #3 · 2024年07月16日

测试用例是咋写的？没找到相关文件

white #4 · 2024年07月16日 Author

对

小黑子-IKUN 回复

https://github.com/bz-lab/AUITestAgent/blob/main/verification.md
这个是驱动 + 校验的 case 例子集合

匿名用户 #5 · 2024年07月16日 1 个赞

我们都已经做成产品要上线了。。

white #6 · 2024年07月16日 Author

对

匿名用户回复

正常，这方面研究挺火的，大家都在弄

YYUY #29 · 2024年07月16日

对

匿名用户回复

啥产品

JamesChung #28 · 2024年07月16日

对

匿名用户回复

挺好的，准确率怎么样？

Michael_Wang #27 · 2024年07月17日

对于没有文案，只有图标的按钮/控件，能实现点击吗？

white #26 · 2024年07月17日 Author

对

Michael_Wang 回复

可以的，整体是从多模态来对页面进行的认知，包括文字、图片、页面结构等，不单纯依赖文字

gaomengsuijia #25 · 2024年07月17日

运行速度咋样，毕竟大模型的交互响应是以秒为单位的

white #24 · 2024年07月18日 Author

对

gaomengsuijia 回复

这个对于基座的要求不是特别高，国内的几个 MLLM 效果都不错，每一步操作大概耗时十几秒到 20 多秒吧

mathore #13 · 2024年07月18日

求教：
1、稳定吗？重复执行的质量咋样？
2、UI 的不合理变动，比如控件位置发生偏移、布局改坏，这些人为识别或者图像匹配识别的问题，能拦截吗？

white #14 · 2024年07月19日 Author

对

多次执行的准确率可以参考实验结果https://github.com/bz-lab/AUITestAgent/blob/main/interaction_zh.md https://github.com/bz-lab/AUITestAgent/blob/main/evaluation_results/evaluation_zh.md 整体来看还是比较稳定的

UI 的不合理状态可以进行一定程度的检查，但是当前的检查能力没有对这种通识性布局问题进行特化，总体准确率不会特别高，在实际使用的过程中会加入针对各种类型异常的专项检测

mathore #15 · 2024年07月19日

对

white 回复

点个赞，大模型运用落地比较好的样例！以后测试工程师的工作就是训练机器人了~

white #20 · 2024年07月22日 Author

对

未来工业化用例生成 + 机器校验 + 人工辅助这套流程，整个 UI 测试的麻烦程度能减少比较多

loshu2003 #19 · 2024年07月22日

请问跟 app 相关的知识是怎么维护的

white #18 · 2024年07月23日 Author

对

loshu2003 回复

这部分正在开发，主要是针对 app 构建知识地图或者图谱

Royli #19 · 2024年07月26日

源码可以分享一下吗

white #16 · 2024年07月30日 Author

对

Royli 回复

短期内暂无开源计划，可以参考下论文复现

hank.huang #15 · 2024年10月20日

对

white 回复

看了你们说是用 GPT-4o，但 GPT-4o 不是没开源么

恒温 #14 · 2024年10月23日

对

white 回复

能加个微信请教下不？我的微信 lihuazhang2013

simple #13 · 2024年10月24日

对

@littlewhite 同求交流，哈哈

white #12 · 2024年11月19日 Author

对

刚看到，加了

hank.huang #11 · 2024年11月22日

搞半天我以为你们自己训练的模型，结果是调通用大模型接口，那有啥用啊

stephamie7 #10 · 2025年03月12日

对

匿名用户回复

请问产品目前已推广了吗？可以开放对外采购嘛？

匿名用户 #9 · 2025年03月17日

对

stephamie7 回复

目前在内测阶段可以私我 v 我加你

stephamie7 #28 · 2025年03月25日

对

匿名用户回复

好的老师，vx：a1223696150

ws_cnv · #7 · 2025年04月02日

仅楼主可见

pengwang #30 · 2025年04月12日

@white 看完了论文以及视频，同求加微信交流一下是否可以采购相关的

xionga · #31 · 2025年04月15日

仅楼主可见

xionga #32 · 2025年04月15日

对

匿名用户回复

可以加个微信交流一下产品吗

匿名用户 #33 · 2025年04月18日

对

可以的我加你

xionga #34 · 2025年04月22日

对

匿名用户回复

631199395

zxyhhh #35 · 2025年04月22日

hello，可以微信沟通一下产品吗
18765969196

需要登录后方可回复, 如果你还没有账号请点击这里注册。