我们团队做了个很有意思的项目,用自然语言写大前端自动化 Case,同时进行驱动、和校验工作,在实验和实际使用的效果都挺不错。目前在我们实际多个业务方向中用起来准确率、稳定性、易用性、可维护性都还不错。

AUITestAgent 首页使用效果视频可在项目首页观看
论文链接

AUITestAgent 是第一个自动化、自然语言驱动的移动应用程序 GUI 测试工具,能够完全自动化整个 GUI 交互和功能验证过程(其他项目,如 AppAgent、MobileAgent 等仅能够通过自然语言进行交互定义、驱动,无法同时进行校验)。它以自然语言编写的测试需求作为输入,生成并执行 UI 交互,并验证 UI 响应是否符合需求中概述的预期。

我们使用两个定制的基准(交互基准和验证基准)评估 AUITestAgent 的性能,包括 8 个广泛使用的商业应用(即美团、小红书、豆瓣、Facebook、Gmail、LinkedIn、Google Play 和 YouTube Music)。为了提供全面的评估,我们将交互任务的难度分为三个级别:简单(L1)、中等(L2)和困难(L3)。对于每个级别,我们构建了十个交互任务,描述均匀分布在英语和中文之间。

我们的实验表明,AUITestAgent 在 L1 级别准确完成 100% 的任务,L2 级别完成 80% 的任务,L3 级别完成 50% 的任务。此外,AUITestAgent 生成的 94% 的交互与通过手动交互的基准结果一致。此外,AUITestAgent 在检测注入的 GUI 功能错误方面达到 90% 的召回率,同时保持较低的误报率,仅为 4.5%。更重要的是,它成功检测到美团中的未知错误,凸显了在复杂商业应用中使用 AUITestAgent 进行 GUI 测试的实际优势。
与其他Agent在驱动领域进行对比
由于没有类似能够进行同时进行校验的项目,与GPT4O多轮对话模型进行校验能力比较

现在这个方向挺火爆的,很多团队在研究和探索落地,希望可以交流交流。


↙↙↙阅读原文可查看相关链接,并与作者交流