发哥 | IntelliQual AI 质量保障平台核心设计者

一、一个真实的案例

去年我参与了一个电商中台项目，核心交易模块有 2000+ 业务规则，需求文档 300 多页。测试团队 6 个人，手工编写测试用例花了 3 个月，写了 4000 条用例，结果上线第一周还是漏掉了 30 多个缺陷——不是因为没覆盖到，而是因为有些场景手工根本想不到。

后来我们用 AI 重新跑了同一套需求，3 天生成 8000 条候选用例，经评审筛选后采纳了 4800 条，覆盖了之前漏掉的 26 个缺陷场景。

这不是个例。过去两年，AI 生成测试用例已经从"实验室概念"走向了"一线生产力"。但我也见过很多团队踩坑——要么生成的用例质量太差，要么投入产出不成正比。

这些经验来自我们团队自建的 AI 全流程质量保障平台 IntelliQual。该平台包含四个核心引擎——RPE（需求解析）→ TSE（测试策略）→ UCG（用例生成）→ ATEE（自动化执行），其中 UCG 引擎专门负责 AI 生成测试用例和可执行脚本。构建过程中我们沉淀了以下这套经过实际验证的方法论。

这篇文章，我会把 AI 生成测试用例的方法论、实现路径、最佳实践和坑，一次性说清楚。

二、AI 生成测试用例的四种模式

在深入细节之前，先理清一个概念：AI 生成测试用例不是只有一种方式。根据输入源和生成策略的不同，可以分为四种模式：

2.1 模式一：基于需求文档生成（最通用）

输入：PRD、需求文档、用户故事
输出：功能测试用例、边界测试用例
适用场景：新功能测试、需求评审阶段

核心流程：

需求文档 → AI解析理解 → 提取业务规则 → 生成正向用例
                                        → 生成逆向用例
                                        → 生成边界用例
                                        → 生成异常路径
              → 人工评审 → 采纳/修改/废弃

案例提示词模板：

你是一位资深测试工程师，正在为以下需求编写测试用例。
请根据需求文档，生成覆盖以下维度的测试用例：
1. 正向流程（Happy Path）
2. 逆向流程（异常输入、非法操作）
3. 边界条件（等价类划分、边界值分析）
4. 业务规则组合（多个条件组合覆盖）

需求文档：
[粘贴需求内容]

请按以下格式输出：
| 用例ID | 场景描述 | 前置条件 | 测试步骤 | 预期结果 | 优先级 | 覆盖类型 |

2.2 模式二：基于接口/代码生成（最精准）

输入：API 文档（Swagger/OpenAPI）、源代码
输出：接口测试用例、单元测试用例
适用场景：接口测试、微服务测试、持续集成

这种模式的准确率最高，因为接口和代码的输入输出是确定的，AI 的"幻觉空间"最小。

实际效果数据：

输入源	生成速度	初始采纳率	主要问题
OpenAPI 文档	1000 条/分钟	70%-85%	缺少业务语义组合
源代码 + 注释	500 条/分钟	60%-75%	漏掉跨模块场景
需求文档	200 条/分钟	40%-60%	理解偏差导致质量参差
用户故事	100 条/分钟	30%-50%	需要大量人工修正

2.3 模式三：基于历史缺陷生成（最补漏）

输入：历史缺陷库、线上事故记录
输出：针对性的回归用例、类似场景用例
适用场景：补充测试覆盖盲区、防止同类缺陷复发

核心思路：AI 分析历史缺陷的模式，识别"哪类场景容易出问题"、"哪类输入容易触发缺陷"，然后有针对性地生成补充用例。

历史缺陷 → AI模式分析 → 提取缺陷模式
                        → 生成类似场景用例
                        → 识别覆盖盲区
                        → 生成补充用例
                        → 推荐回归优先级

2.4 模式四：基于业务画像生成（最进阶）

输入：用户行为数据、业务日志、生产流量
输出：基于真实用户场景的测试用例
适用场景：复杂业务系统、高并发场景

这是最进阶的模式。通过分析生产环境的真实用户行为，AI 能发现"测试团队根本想不到的场景"——那些只有真正用户在真实业务中才会触发的组合路径。

三、落地三步法：从 0 到 1 搭建 AI 用例生成能力

第一步：选对场景（最关键的决策）

不是所有模块都适合用 AI 生成用例。我们总结了一个AI 用例生成价值矩阵：

                 需求结构化程度
                 低 ←─────────→ 高
              ┌─────────────────────┐
           高  │  业务规则引擎      │  标准API接口    │
              │  (高价值，中质量)   │  (高价值，高质量) │
业务复杂度     │─────────────────────│
           低  │  简单CRUD          │  纯数据转换     │
              │  (低价值，低质量)   │  (中价值，高质量) │
              └─────────────────────┘

最佳切入场景：

右上象限第一优先：标准 API 接口 + 高业务复杂度 → 价值最高
左上象限第二优先：业务规则引擎 → 值得做，需要人工修正

第二步：建立人机协作流程

AI 生成用例不是替代人工，而是放大人工的效率。正确的流程是：

┌──────────┐
│  AI生成   │ ← 将需求/接口文档输入AI
│  候选用例  │
└────┬─────┘
     ↓
┌──────────┐
│  人工评审  │ ← 评审维度：准确性、完整性、可行性
│  筛选采纳  │
└────┬─────┘
     ↓
┌──────────┐
│  补充完善  │ ← 人工补充AI遗漏的场景
│  场景补充  │
└────┬─────┘
     ↓
┌──────────┐
│  入库执行  │ ← 纳入测试管理平台
│  持续迭代  │
└──────────┘

评审标准建议：

评审维度	标准	通过率目标
准确性	用例描述和预期结果是否正确	> 90%
完整性	是否覆盖了需求中的关键场景	> 80%
可行性	用例是否可执行、步骤是否清晰	> 95%
独特性	是否覆盖了人工没想到的场景	> 10%（有这个指标就值了）

第三步：建立质量反馈闭环

AI 生成用例的质量不是一成不变的。需要建立持续改进机制：

每周统计：采纳率、有效率、漏测率
  ↓
分析低质量原因：需求不清晰？AI模型问题？场景不适配？
  ↓
调整策略：优化提示词、切换模式、补充知识库
  ↓
验证效果：下周期采纳率是否提升

四、实战案例：一个电商系统的 AI 用例生成

以一个真实的电商订单系统为例，看 AI 生成用例到底能做到什么程度。

系统范围：下单→支付→库存扣减→物流→售后

输入：OpenAPI 文档（23 个接口）+ 业务规则文档（47 条规则）

AI 生成结果：

维度	手工（6 人·3 周）	AI（1 人·3 天）	提升
生成数量	1,200 条	3,500 条	3x
采纳数量	1,200 条	2,100 条	1.75x
覆盖接口数	23/23	23/23	—
覆盖规则组合	217 种	486 种	2.2x
发现漏测场景	—	12 个	新增

关键发现：AI 特别擅长发现"多条件组合"场景——比如"优惠券 + 满减 + 会员折扣叠加"这种组合，手工很容易漏掉，而 AI 会系统性地穷举。

项目侧记：这套流程在 IntelliQual 的 UCG（用例生成引擎）中已跑通。我们配置了 U-1~U-4 四道质量门禁，其中 U-1 要求 P0 需求必须 100% 有测试脚本覆盖，U-3 要求采纳率 ≥ 60%（低于 60% 触发黄牌人工复核，低于 40% 触发红牌停止流水线）。这些门禁机制确保了 AI 生成的用例质量始终在可控范围内。

五、常见失败模式与避坑指南

❌ 失败模式 1：期望一次生成直接可用

问题：很多团队期望 AI 一次生成就能直接跑。这是最大的误解。

真相：AI 生成的是"候选用例"，不是"最终用例"。人工评审是必不可少的环节。

正确做法：把 AI 当作"实习生"——他给你初稿，你来把关。真正的效率提升在于：AI 完成 80% 的基础工作，你只需要做 20% 的判断和修正。

❌ 失败模式 2：不分场景、全量投放

问题：二话不说，把所有模块都丢给 AI 生成用例。

真相：不同场景的 AI 生成质量差异巨大。简单 CRUD 的用例人工 5 分钟能写完，AI 反而要花 10 分钟审核。

正确做法：先用价值矩阵评估，选高价值场景切入。从 2-3 个模块开始，验证效果后再扩展。

❌ 失败模式 3：提示词写得太随意

问题：提示词就一句话——"帮我生成测试用例"。

真相：AI 生成用例的质量，90% 取决于提示词的质量。

正确做法：写好提示词本身就是一项技能。下面是一个经过优化的提示词框架：

# 角色设定
你是一位有10年经验的测试架构师，精通等价类划分、边界值分析、判定表、正交实验法等测试设计方法。

# 任务描述
根据以下需求文档，为[模块名称]生成测试用例。

# 输入内容
[粘贴需求/接口文档]

# 输出要求
1. 按模块功能点分组输出
2. 每个用例包含：用例ID、场景描述、前置条件、测试步骤、预期结果、优先级、覆盖类型
3. 覆盖：正向流程、逆向流程、边界条件、业务规则组合
4. 标注每个用例覆盖的是等价类、边界值还是判定表

# 质量要求
- 避免冗余（同一个场景只保留最完整的用例）
- 标注不确定的用例（用[待确认]标记）
- 输出格式为Markdown表格

❌ 失败模式 4：没有度量，无法判断效果

问题：用上 AI 了，但说不清楚到底提效了多少。

真相：没有度量的优化是盲目的。

正确做法：至少追踪这五个指标：

① 采纳率：AI生成用例中被采纳的比例 → 目标 > 50%
② 有效率：AI用例实际执行通过的比例 → 目标 > 70%
③ 覆盖率提升：相比纯手工，覆盖率增长 → 目标 > 20%
④ 漏测率变化：上线缺陷数是否下降 → 目标下降 > 15%
⑤ 人效：单人每天有效用例产出数 → 目标 2x 提升

六、未来趋势：从生成到智能测试设计

目前 AI 生成测试用例还停留在"辅助生成"阶段。但未来 1-2 年，我们可能会看到三个趋势：

从生成到智能设计：AI 不只是生成用例，而是设计测试策略——分析代码变更影响范围、推荐测试深度、自动调整回归策略
多模态输入：不只是文本需求，还有原型图、交互稿、业务流程图——AI 能从视觉设计稿直接识别可测试的场景
闭环自动优化：AI 根据测试执行结果自动分析覆盖率缺口，自动生成补充用例，形成"生成→执行→反馈→优化"闭环

七、总结

AI 生成测试用例正在从"新玩具"变成"新标配"。但能不能发挥价值，取决于你的落地姿势：

选对模式：需求文档、接口文档、历史缺陷、业务画像——四种模式各有适用场景
选对场景：用价值矩阵判断哪些模块优先，不要全量投放
建立流程：AI 生成 + 人工评审 + 质量反馈，缺一不可
度量驱动：五个核心指标追踪效果，避免盲目上马
提示词是关键：提示词的精细程度直接决定输出质量

最后一个建议：无论你用哪种 AI 工具，都从最小的闭环开始——选 1 个模块、用 1 种模式、跑 1 周、看效果。先跑通，再放大。

如果对你有帮助，欢迎点赞收藏。有问题评论区交流，有问必回。

↙↙↙阅读原文可查看相关链接，并与作者交流