我们团队做了个很有意思的项目，用自然语言写大前端自动化 Case，同时进行驱动、和校验工作，在实验和实际使用的效果都挺不错。目前在我们实际多个业务方向中用起来准确率、稳定性、易用性、可维护性都还不错。

AUITestAgent 首页：使用效果视频可在项目首页观看
论文链接

AUITestAgent 是第一个自动化、自然语言驱动的移动应用程序 GUI 测试工具，能够完全自动化整个 GUI 交互和功能验证过程（其他项目，如 AppAgent、MobileAgent 等仅能够通过自然语言进行交互定义、驱动，无法同时进行校验）。它以自然语言编写的测试需求作为输入，生成并执行 UI 交互，并验证 UI 响应是否符合需求中概述的预期。

我们使用两个定制的基准（交互基准和验证基准）评估 AUITestAgent 的性能，包括 8 个广泛使用的商业应用（即美团、小红书、豆瓣、Facebook、Gmail、LinkedIn、Google Play 和 YouTube Music）。为了提供全面的评估，我们将交互任务的难度分为三个级别：简单（L1）、中等（L2）和困难（L3）。对于每个级别，我们构建了十个交互任务，描述均匀分布在英语和中文之间。

我们的实验表明，AUITestAgent 在 L1 级别准确完成 100% 的任务，L2 级别完成 80% 的任务，L3 级别完成 50% 的任务。此外，AUITestAgent 生成的 94% 的交互与通过手动交互的基准结果一致。此外，AUITestAgent 在检测注入的 GUI 功能错误方面达到 90% 的召回率，同时保持较低的误报率，仅为 4.5%。更重要的是，它成功检测到美团中的未知错误，凸显了在复杂商业应用中使用 AUITestAgent 进行 GUI 测试的实际优势。
与其他Agent在驱动领域进行对比
由于没有类似能够进行同时进行校验的项目，与GPT4O多轮对话模型进行校验能力比较

现在这个方向挺火爆的，很多团队在研究和探索落地，希望可以交流交流。

↙↙↙阅读原文可查看相关链接，并与作者交流