AI测试 你说你会 AI 测试,那你是怎么实现 AI+ 软件测试的呢?(附带 5 层 AI 质量管理体系)

狂师 · 2026年05月09日 · 159 次阅读

前天面试了一个有着五年经验的测试工程师。

简历上写得挺漂亮:熟练使用 AI 生成测试用例,用 AI 实现自动化测试。我心想,这哥们儿应该有点东西,就抛了一个真实的项目问题过去。

没想到,他的回答把我惊呆了。

题目是这样的:

你用 AI 做测试,需求文档是完整的电商订单流程。AI 生成了 120 条测试用例,3000 行 UI 自动化脚本,覆盖了正向下单、支付、退款流程。结果上线后一小时,大量用户反馈无法完成订单支付。

排查发现两个核心问题:

  1. AI 生成的用例漏了订单金额为 0.01 元的边界值支付时网络中断重试这两个关键场景
  2. 自动化脚本只实现了点击操作,没有断言支付成功后订单状态变为待发货,也没有处理支付超时的异常场景,导致测试时没发现问题,上线后直接引发生产故障。

我接着追问了三个问题,每一个都是面试必问

  • 第一,你在审核 AI 生成的订单支付用例时,怎么判断 AI 有没有漏测边界值异常场景?

  • 第二,自动脚本跑通就代表没问题吗?你会具体检查脚本的哪些细节,如何避免没有断言、没有异常处理的情况。

  • 第三,这次故障后,你会怎么优化 AI 测试的流程,保证下次不再出现漏测脚本无效的问题?

没想到,他张口就来:

"我就把 AI 生成的用例大致扫了一遍,看步骤完整、没有明显错误就够了。"

"脚本能跑通就行,没必要查那么细。"

"故障后……下次让 AI 多生成几条用例,再多看两眼就好了。"

听到这里,我心里叹了口气。

兄弟,你这根本不是懂 AI 测试,你就是拿 AI 当甩手掌柜。AI 一天能生成几百条用例、几万行脚本,你粗略扫一眼,能发现藏在细节里的边界漏洞、断言缺失吗?

他不知道该怎么回答了,面试到这里,基本也就结束了。

这道题为什么能筛掉大部分人?

说实话,这类题我面了不下二十几个人,能答到点上的不超过三个。

很多人有个误区:觉得会用 AI 生成几条用例、让 Copilot 写几行 Selenium 脚本,就叫"AI 测试"了。

大家一定要明白一个核心真相,AI 擅长批量生成模板化输出,但永远不懂隐性业务,不懂行业规则,不懂项目历史问题。

AI 最大的隐患不是写不出用例,而是特别容易产出看起来专业,实际全是漏洞的内容。

比如漏掉权限互斥场景、忽略流程依赖关系、边界值只写常规,不写极值、异常场景只做表面覆盖、自动化脚本缺少关键断言、接口测试漏了参数加密和并发场景等。

比如,AI 生成测试内容的常见翻车点:

翻车类型 具体表现 危害等级
边界值漏测 只写常规值,不写极值(如 0.01 元、999999.99 元) 🔴 高
异常场景表面化 写了"网络异常",但没写异常后的状态恢复 🔴 高
权限互斥缺失 没覆盖"同时操作冲突"(如退款 + 退货并发) 🔴 高
断言缺失 脚本只点不验,跑通≠通过 🟠 中
流程依赖断裂 步骤 A 失败后重试,步骤 B 的状态没同步校验 🟠 中
参数安全忽略 接口测试漏了加密、防篡改、并发场景 🟠 中
重复冗余 同一个场景换说法生成多条,浪费执行资源 🟡 低

这也是初级测试和高级测试的核心分水岭:前者只看 AI 产出的 “数量”,后者能看透背后的风险,用系统化方法驾驭 AI。

真正玩转 AI 测试,需要五层质量管控体系

结合我多年的实战经验,以及踩过的 AI 测试坑,我始终认为:想要真正用好 AI 测试,既发挥它的效率优势,又杜绝漏测、错测、无效用例上线,绝不能 “甩手掌柜式” 用 AI,而是要建立一套完整的 AI 测试全流程质量管控体系。

这不是简单的 “让 AI 多生成几条用例、多看两眼”,而是从需求到复盘的全链路把控,每一步都要融入人的专业判断和业务经验。

我把这套体系,分为五个层级,每一层都是面试高频考点,也是实际工作能落地的标准流程。

第一层:业务需求前置拆解,不给 AI 盲目发挥的机会

很多人用 AI 测试最大的误区,就是直接把一份笼统的需求文档丢给 AI,让它自由发挥生成测试用例。

这本身就是最大的风险。

AI 看不懂文字背后的隐性规则,也不知道你们项目过往的高频缺陷点。

比如"支付功能"三个字,AI 理解的就是"输入金额→确认支付→扣款成功"。但它不会知道:

  • 你们的支付通道有金额下限(0.01 元)
  • 网络中断后需要支持 3 次重试,每次间隔 5 秒
  • 支付超时后订单状态要回滚为"待支付",不能卡在"支付中"
  • 同一笔订单不能重复支付(幂等性)

正确的做法是先人工拆解需求,梳理出几大模块:

  1. 核心业务流程(主路径必须 100% 覆盖)
  2. 次要分支流程(异常分支、降级方案)
  3. 隐藏业务规则(风控拦截、金额限制、时间窗口)
  4. 权限角色划分(普通用户/VIP/管理员的不同逻辑)
  5. 边界极值清单(最小值、最大值、空值、超长值)
  6. 异常故障场景(网络中断、服务超时、数据不一致)
  7. 安全风控要求(SQL 注入、越权访问、敏感信息脱敏)

把这几大模块的结构化清单、历史 Bug 案例、业务禁止规则,一起喂给 AI,限定生成范围,限定覆盖维度。让 AI 在你划定的框架内产出,而不是任由它随意编造业务逻辑。

尤其是支付、订单、用户权限、数据隐私、资金流转这类核心模块,

必须提前做场景锁定,强制 AI 全覆盖,绝不让它随意编造业务逻辑。这一步的核心是 “人主导、AI 辅助”,用人工的业务理解弥补 AI 的认知盲区。

第二层:给 AI 产出 “做减法”,筛选有效内容

AI 产出的测试用例,从来不是全部可用的。而是要学会快速分类筛选:

第一类:标准正向用例

  • 常规流程、基础操作
  • AI 基本不会出错,可以直接保留
  • 占比约 60%-70%

第二类:待修改用例

  • 边界值不精准(如写了"输入负数",但没写具体-1 还是-0.01)
  • 异常场景描述模糊(如"网络异常"没定义异常类型)
  • 步骤顺序错乱
  • 这类不用直接删掉,人工微调后就能复用

第三类:直接废弃用例

  • 逻辑前后矛盾(如前置条件说"未登录",步骤里却要求"点击个人中心")
  • 编造不存在的业务功能(AI"幻觉"出来的菜单或按钮)
  • 重复冗余(同一个场景换说法写了 3 遍)
  • 完全脱离实际业务(如电商系统里出现"火箭发射"的测试步骤——别笑,我真见过)
  • 这类必须直接剔除,绝对不能混入测试套件

同时还要检查自动化脚本,看脚本是否只实现了页面操作,缺少结果断言,缺少异常捕获,缺少环境兼容适配,这类脚本跑通也没有任何测试意义,必须整改。

这一步的关键是 “不迷信 AI 产出”,用人工的专业判断筛选出真正有价值的内容,避免无效用例占用测试资源。

第三层:多维度量化校验,不靠感觉,靠数据

判断 AI 测试用例可不可靠,不能凭肉眼感觉,要有量化标准。

  • 首先,核对需求覆盖率,对照需求文档每一个功能点,检查有没有遗漏、未覆盖的模块。

  • 其次,统计反向用例、边界用例、异常用例的占比。正常业务不能只有正向用例,没有反向和异常兜底。然后排查重复用例率、逻辑错误率、高危场景遗漏率。

  • 结合项目历史缺陷库,校验 AI 有没有覆盖过往线上出过的同类 bug

具体供参考:

校验维度 具体做法 合格线
需求覆盖率 对照需求文档逐条映射,看每个功能点有没有对应用例 ≥95%
反向用例占比 反向/异常用例占总用例比例 ≥30%
边界用例数量 每个数值型字段至少 2 个边界值(最小、最大) 100% 覆盖
重复用例率 语义重复的用例占比 ≤10%
逻辑错误率 业务逻辑错误或无法执行的用例占比 ≤5%
高危场景遗漏率 权限/并发/弱网/非法输入/参数篡改等场景 0%
历史缺陷覆盖率 过去 3 个版本的线上 Bug,AI 用例能否覆盖 ≥80%

除此之外,还要重点核对 AI 最容易忽略的高危场景,比如

  • 权限互斥:越权访问、角色切换后的权限残留
  • 并发场景:同一用户多设备登录、秒杀抢购
  • 弱网环境:2G 网络、网络切换、飞行模式
  • 非法输入:SQL 注入、XSS、路径遍历、特殊字符
  • 接口安全:参数加密、签名验证、重放攻击

这些是 AI 最容易忽略,但最容易引发线上故障的点,用数据做校验,才是专业测试的做事方式。

第四层:三级审核,用人工经验兜底,守住核心风险

AI 永远替代不了人的业务经验,核心场景必须层层把关,所以这里,我建议的做法是,建立 “初审 + 复核 + 终审” 的三级审核机制:

  • 初审:用自动化工具批量过滤重复用例、格式错误、逻辑冲突的内容,节省人工时间;
  • 复核:由资深测试工程师负责,逐行校验核心业务的边界、极值、异常流程,尤其是支付、权限这类高危模块,比如核对自动化脚本是否有断言、异常捕获、环境适配逻辑;
  • 终审:由业务负责人或测试总监确认,重点把关隐性需求和特殊业务规则,比如电商订单的 “跨平台退款规则”“节假日支付限额” 等 AI 无法理解的业务细节。

三道关卡层层过滤,能从根本上杜绝 AI 的错漏内容流入执行阶段,这也是规避线上故障的关键。

第五层:复盘沉淀,让 AI 越用越 “懂” 业务,形成闭环

AI 测试不是一次性行为,一定要做长期沉淀优化。

建议在每次项目结束后,记录三类信息

1、AI 翻车案例库

  • 哪类场景 AI 容易漏测?
  • 哪类业务 AI 容易编造规则?
  • 哪类脚本容易出现断言缺失?

2、优质模板库

  • 提示词模板(不同业务类型的标准 Prompt)
  • 用例模板(正向/反向/边界的标准格式)
  • 脚本规范模板(断言、异常处理、日志的代码规范)

3、训练数据集

  • 把历史优质用例、业务规则、负面案例投喂给 AI
  • 让 AI 越来越贴合团队业务,生成内容越来越精准

形成完整闭环

需求拆解 → AI 生成 → 分类筛选 → 量化校验 → 三级审核 → 落地执行 → 复盘沉淀 → 优化提示词 → 下一轮复用

graph TD
    A["需求拆解"] --> B["AI生成"]
    B --> C["分类筛选"]
    C --> D["量化校验"]
    D --> E["三级审核"]
    E --> F["落地执行"]
    F --> G["复盘沉淀"]
    G --> H["优化提示词"]
    H --> I["下一轮复用"]
    I --> A

这才是成熟的 AI 测试工作模式。

为什么有人用 AI 效率翻倍,有人越用越漏测?

说到底,AI 测试的核心不是 “会不会用 AI 写用例、出脚本”,而是 “能不能用人的专业能力约束 AI、校验 AI、优化 AI”,这也是前段时间 AI 圈大火的Harness Engineering所提倡的思想。

很多人觉得 AI 测试 “越用越坑”,本质是把本该自己把控的质量责任甩给了 AI;而真正能把 AI 用出效率的人,是把 AI 当成 “高效的工具”,而非 “甩锅的借口”。

最后想问问大家:你们在工作中用 AI 生成测试用例时,有没有踩过类似的坑?AI 有没有漏过让你后怕的边界场景?欢迎在评论区交流,我尽量每条都回复。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册