自动化工具基于大模型的 app 自动遍历工具-GptTraversal

匿名用户 · 2023年12月28日 · 最后由我叫不迷糊回复于 2025年01月20日 · 15308 次阅读

背景

市面上大部分的 monkey 类测试工具，基本是随机或者在策略下随机的遍历逻辑；典型的例如：原始的 monkey、或者 fastbot 这种基于预训练模型 + 策略配置的 monkey；但无论哪一种，都有固定的缺陷。

原始的 monkey，随机性太强，冗余操作太多，遍历度不够
类 fastbot 的策略下遍历，策略的配置成本高，需要定制页面映射的动作，才能完成业务逻辑的翻越，典型的场景，登录，你必须配置登录页面映射的登录动作脚本，你能够遍历时越过登录这个页面。

基于随机和动作冗余以及配置成本之间的关系，我们在想，有没有一种方式，可以以最小的成本，作出最符合人类思维的遍历结果，恰逢年初，gpt 横空出世，因此我们决定用 gpt 来做探索性的尝试。

GptTraversal 介绍

GptTraversal 是一个基于大模型的 app 遍历程序，我们使用大模型代替了传统的代码遍历决策系统，如一些典型算法下的策略：深度优先，广度优先，控件的类型和优先级映射，黑白名单设置等；转而让大模型以一个正常的 “人” 的思维，面对 app 的页面，进行遍历的动作决策。

基本原理

由于是公司内的项目，因此暂时不能开源，可以说下大概的原理。

首先，我们将 app 的页面树，做处理后，交给 gpt，让他判断当前的场景，以及下一步如何操作，并记录下历史的决策，下一步的操作会基于遍历目标和历史决策进行，这一步相当于给 gpt 提供视觉，让 gpt“看见” app（当时还没有 gpt4v）；

其次，我们会内置相应的动作，例如点击、滑动、输入等等，gpt 会从动作库选择一个，进行相关的动作触发，这一步相当于给 gpt 提供了手，可以对 app 进行直接操作；

最后，我们会记录过程的一切数据，包括覆盖率、截图、内存信息等等，作为最终的报告汇总数据；额外的，为了避免 token 溢出问题带来的 ai 步骤的步数限制，导致遍历度不够，我们增加了传统的 monkey 和 ai 步骤的混编，让随机和有序相结合的进行遍历。

基本架构

配置列表

项目目录结构

效果

基本上来说，可以代替之前需要定制动作的节点，例如登录、循环翻页、填写表单等等，完全不需要任何的定制化脚本，gpt 可以自主以正常人的思维进行操作。

缺点：

gpt4 太贵了！太贵了！太贵了！3.5 效果不佳
由于 token 限制，给页面树和历史决策，很明显会遇到 token 溢出的问题，可以通过限制历史决策的记录长度解决，但后果是会降智。

展望

谁也没想到，才过了一年，大模型的进化速度如此之快；目前来说，这个工具的问题，大部分都是大模型当下技术的局限性导致，但我相信，未来一定是全智能化的测试方向，也许最终，我们给到工具的测试指令就是一句话：“这里有个 app，你来测一下”

3 个赞

共收到 14 条回复时间点赞

秦岭 #1 · 2023年12月28日

大模型看来能最先实现遍历测试升级，因为其不需要断言逻辑，少了这一块，突破就在眼前了

孙高飞 #2 · 2023年12月28日

额，这个为啥要匿名啊

匿名用户 #12 · 2023年12月28日 Author

对

孙高飞回复

没有这不是匿名贴。。

孙高飞 #4 · 2023年12月28日

对

匿名用户回复

是啊，这不是显示的匿名用户么

匿名用户 #5 · 2023年12月28日 Author

对

孙高飞回复

那只是昵称。。。

孙高飞 #6 · 2023年12月28日

对

孙高飞回复

兄弟对匿名是不是有啥误解。。。。。。

codt #7 · 2023年12月28日

LZ 有评估过实际效果吗

匿名用户 #8 · 2023年12月28日 Author

对

codt 回复

嗯这个主要是解决卡点场景的人力成本问题，例如：登录脚本、表单填写、有逻辑的流程步骤等等，这块的适用度比较好，不需要像传统的方案一样，一个场景去写一个脚本执行，基本都能够按照用户场景，自主的执行往下的流程；
目前落地不好的地方其实也写了；
第一个，api 的资费问题
第二个，受限于 token 的长度，能够遍历的深度有限

disable #9 · 2023年12月28日

老板们默默地砍掉了所有技术岗位，开心的手舞足蹈
输入以下指令

“我要做一个商城小程序，你来写一下需求”
“商城小程序需求写好了，你来写下代码”
“你来测试下这个商城小程序”
“你来部署下代码”
“你来运营下”

Pactortester #10 · 2023年12月29日

项目地址呢

codt #4 · 2024年01月03日

对

匿名用户回复

想问问还有没有其他的收益啥的，总感觉正文列举的这些场景也挺通用的，不太体现得出来 gpt 的作用，可能多写几个脚本就行，也没太大的维护成本？

匿名用户 #12 · 2024年01月03日 Author

对

codt 回复

你应该只是站在你作为某个 app 产线的测试的角度，这个最大的好处是低成本的复用性；比如说，一个 app 的登录是一个脚本，如果集团内 10 个产线用呢？一个 app 的阻碍性场景假设有 10 个，你就要写 10 个脚本，10 个 app 就是 100 个；你还没算上培训人家写脚本的教育成本；这个基本上就是拿来即用的。

codt #13 · 2024年01月04日

对

匿名用户回复

明白了，，感谢解答

我叫不迷糊 #14 · 2025年01月20日

看了文章还是不太明白要怎么做，期待开源

需要登录后方可回复, 如果你还没有账号请点击这里注册。

自动化工具 基于大模型的 app 自动遍历工具-GptTraversal

自动化工具 基于大模型的 app 自动遍历工具-GptTraversal

背景

GptTraversal 介绍

基本原理

基本架构

配置列表

项目目录结构

效果

展望

自动化工具基于大模型的 app 自动遍历工具-GptTraversal

自动化工具基于大模型的 app 自动遍历工具-GptTraversal