发哥 | IntelliQual AI 质量保障平台核心设计者
去年我参与了一个电商中台项目,核心交易模块有 2000+ 业务规则,需求文档 300 多页。测试团队 6 个人,手工编写测试用例花了 3 个月,写了 4000 条用例,结果上线第一周还是漏掉了 30 多个缺陷——不是因为没覆盖到,而是因为有些场景手工根本想不到。
后来我们用 AI 重新跑了同一套需求,3 天生成 8000 条候选用例,经评审筛选后采纳了 4800 条,覆盖了之前漏掉的 26 个缺陷场景。
这不是个例。过去两年,AI 生成测试用例已经从"实验室概念"走向了"一线生产力"。但我也见过很多团队踩坑——要么生成的用例质量太差,要么投入产出不成正比。
这些经验来自我们团队自建的 AI 全流程质量保障平台 IntelliQual。该平台包含四个核心引擎——RPE(需求解析)→ TSE(测试策略)→ UCG(用例生成)→ ATEE(自动化执行),其中 UCG 引擎专门负责 AI 生成测试用例和可执行脚本。构建过程中我们沉淀了以下这套经过实际验证的方法论。
这篇文章,我会把 AI 生成测试用例的方法论、实现路径、最佳实践和坑,一次性说清楚。
在深入细节之前,先理清一个概念:AI 生成测试用例不是只有一种方式。根据输入源和生成策略的不同,可以分为四种模式:
输入:PRD、需求文档、用户故事
输出:功能测试用例、边界测试用例
适用场景:新功能测试、需求评审阶段
核心流程:
需求文档 → AI解析理解 → 提取业务规则 → 生成正向用例
→ 生成逆向用例
→ 生成边界用例
→ 生成异常路径
→ 人工评审 → 采纳/修改/废弃
案例提示词模板:
你是一位资深测试工程师,正在为以下需求编写测试用例。
请根据需求文档,生成覆盖以下维度的测试用例:
1. 正向流程(Happy Path)
2. 逆向流程(异常输入、非法操作)
3. 边界条件(等价类划分、边界值分析)
4. 业务规则组合(多个条件组合覆盖)
需求文档:
[粘贴需求内容]
请按以下格式输出:
| 用例ID | 场景描述 | 前置条件 | 测试步骤 | 预期结果 | 优先级 | 覆盖类型 |
输入:API 文档(Swagger/OpenAPI)、源代码
输出:接口测试用例、单元测试用例
适用场景:接口测试、微服务测试、持续集成
这种模式的准确率最高,因为接口和代码的输入输出是确定的,AI 的"幻觉空间"最小。
实际效果数据:
| 输入源 | 生成速度 | 初始采纳率 | 主要问题 |
|---|---|---|---|
| OpenAPI 文档 | 1000 条/分钟 | 70%-85% | 缺少业务语义组合 |
| 源代码 + 注释 | 500 条/分钟 | 60%-75% | 漏掉跨模块场景 |
| 需求文档 | 200 条/分钟 | 40%-60% | 理解偏差导致质量参差 |
| 用户故事 | 100 条/分钟 | 30%-50% | 需要大量人工修正 |
输入:历史缺陷库、线上事故记录
输出:针对性的回归用例、类似场景用例
适用场景:补充测试覆盖盲区、防止同类缺陷复发
核心思路:AI 分析历史缺陷的模式,识别"哪类场景容易出问题"、"哪类输入容易触发缺陷",然后有针对性地生成补充用例。
历史缺陷 → AI模式分析 → 提取缺陷模式
→ 生成类似场景用例
→ 识别覆盖盲区
→ 生成补充用例
→ 推荐回归优先级
输入:用户行为数据、业务日志、生产流量
输出:基于真实用户场景的测试用例
适用场景:复杂业务系统、高并发场景
这是最进阶的模式。通过分析生产环境的真实用户行为,AI 能发现"测试团队根本想不到的场景"——那些只有真正用户在真实业务中才会触发的组合路径。
不是所有模块都适合用 AI 生成用例。我们总结了一个AI 用例生成价值矩阵:
需求结构化程度
低 ←─────────→ 高
┌─────────────────────┐
高 │ 业务规则引擎 │ 标准API接口 │
│ (高价值,中质量) │ (高价值,高质量) │
业务复杂度 │─────────────────────│
低 │ 简单CRUD │ 纯数据转换 │
│ (低价值,低质量) │ (中价值,高质量) │
└─────────────────────┘
最佳切入场景:
AI 生成用例不是替代人工,而是放大人工的效率。正确的流程是:
┌──────────┐
│ AI生成 │ ← 将需求/接口文档输入AI
│ 候选用例 │
└────┬─────┘
↓
┌──────────┐
│ 人工评审 │ ← 评审维度:准确性、完整性、可行性
│ 筛选采纳 │
└────┬─────┘
↓
┌──────────┐
│ 补充完善 │ ← 人工补充AI遗漏的场景
│ 场景补充 │
└────┬─────┘
↓
┌──────────┐
│ 入库执行 │ ← 纳入测试管理平台
│ 持续迭代 │
└──────────┘
评审标准建议:
| 评审维度 | 标准 | 通过率目标 |
|---|---|---|
| 准确性 | 用例描述和预期结果是否正确 | > 90% |
| 完整性 | 是否覆盖了需求中的关键场景 | > 80% |
| 可行性 | 用例是否可执行、步骤是否清晰 | > 95% |
| 独特性 | 是否覆盖了人工没想到的场景 | > 10%(有这个指标就值了) |
AI 生成用例的质量不是一成不变的。需要建立持续改进机制:
每周统计:采纳率、有效率、漏测率
↓
分析低质量原因:需求不清晰?AI模型问题?场景不适配?
↓
调整策略:优化提示词、切换模式、补充知识库
↓
验证效果:下周期采纳率是否提升
以一个真实的电商订单系统为例,看 AI 生成用例到底能做到什么程度。
系统范围:下单→支付→库存扣减→物流→售后
输入:OpenAPI 文档(23 个接口)+ 业务规则文档(47 条规则)
AI 生成结果:
| 维度 | 手工(6 人·3 周) | AI(1 人·3 天) | 提升 |
|---|---|---|---|
| 生成数量 | 1,200 条 | 3,500 条 | 3x |
| 采纳数量 | 1,200 条 | 2,100 条 | 1.75x |
| 覆盖接口数 | 23/23 | 23/23 | — |
| 覆盖规则组合 | 217 种 | 486 种 | 2.2x |
| 发现漏测场景 | — | 12 个 | 新增 |
关键发现:AI 特别擅长发现"多条件组合"场景——比如"优惠券 + 满减 + 会员折扣叠加"这种组合,手工很容易漏掉,而 AI 会系统性地穷举。
项目侧记:这套流程在 IntelliQual 的 UCG(用例生成引擎)中已跑通。我们配置了 U-1~U-4 四道质量门禁,其中 U-1 要求 P0 需求必须 100% 有测试脚本覆盖,U-3 要求采纳率 ≥ 60%(低于 60% 触发黄牌人工复核,低于 40% 触发红牌停止流水线)。这些门禁机制确保了 AI 生成的用例质量始终在可控范围内。
问题:很多团队期望 AI 一次生成就能直接跑。这是最大的误解。
真相:AI 生成的是"候选用例",不是"最终用例"。人工评审是必不可少的环节。
正确做法:把 AI 当作"实习生"——他给你初稿,你来把关。真正的效率提升在于:AI 完成 80% 的基础工作,你只需要做 20% 的判断和修正。
问题:二话不说,把所有模块都丢给 AI 生成用例。
真相:不同场景的 AI 生成质量差异巨大。简单 CRUD 的用例人工 5 分钟能写完,AI 反而要花 10 分钟审核。
正确做法:先用价值矩阵评估,选高价值场景切入。从 2-3 个模块开始,验证效果后再扩展。
问题:提示词就一句话——"帮我生成测试用例"。
真相:AI 生成用例的质量,90% 取决于提示词的质量。
正确做法:写好提示词本身就是一项技能。下面是一个经过优化的提示词框架:
# 角色设定
你是一位有10年经验的测试架构师,精通等价类划分、边界值分析、判定表、正交实验法等测试设计方法。
# 任务描述
根据以下需求文档,为[模块名称]生成测试用例。
# 输入内容
[粘贴需求/接口文档]
# 输出要求
1. 按模块功能点分组输出
2. 每个用例包含:用例ID、场景描述、前置条件、测试步骤、预期结果、优先级、覆盖类型
3. 覆盖:正向流程、逆向流程、边界条件、业务规则组合
4. 标注每个用例覆盖的是等价类、边界值还是判定表
# 质量要求
- 避免冗余(同一个场景只保留最完整的用例)
- 标注不确定的用例(用[待确认]标记)
- 输出格式为Markdown表格
问题:用上 AI 了,但说不清楚到底提效了多少。
真相:没有度量的优化是盲目的。
正确做法:至少追踪这五个指标:
① 采纳率:AI生成用例中被采纳的比例 → 目标 > 50%
② 有效率:AI用例实际执行通过的比例 → 目标 > 70%
③ 覆盖率提升:相比纯手工,覆盖率增长 → 目标 > 20%
④ 漏测率变化:上线缺陷数是否下降 → 目标下降 > 15%
⑤ 人效:单人每天有效用例产出数 → 目标 2x 提升
目前 AI 生成测试用例还停留在"辅助生成"阶段。但未来 1-2 年,我们可能会看到三个趋势:
从生成到智能设计:AI 不只是生成用例,而是设计测试策略——分析代码变更影响范围、推荐测试深度、自动调整回归策略
多模态输入:不只是文本需求,还有原型图、交互稿、业务流程图——AI 能从视觉设计稿直接识别可测试的场景
闭环自动优化:AI 根据测试执行结果自动分析覆盖率缺口,自动生成补充用例,形成"生成→执行→反馈→优化"闭环
AI 生成测试用例正在从"新玩具"变成"新标配"。但能不能发挥价值,取决于你的落地姿势:
最后一个建议:无论你用哪种 AI 工具,都从最小的闭环开始——选 1 个模块、用 1 种模式、跑 1 周、看效果。先跑通,再放大。
如果对你有帮助,欢迎点赞收藏。有问题评论区交流,有问必回。