测试基础 AI 生成测试用例实战:从理论到落地的完整路径

Finley · 2026年05月23日 · 最后由 kakaka 回复于 2026年05月28日 · 5173 次阅读

发哥 | IntelliQual AI 质量保障平台核心设计者


一、一个真实的案例

去年我参与了一个电商中台项目,核心交易模块有 2000+ 业务规则,需求文档 300 多页。测试团队 6 个人,手工编写测试用例花了 3 个月,写了 4000 条用例,结果上线第一周还是漏掉了 30 多个缺陷——不是因为没覆盖到,而是因为有些场景手工根本想不到。

后来我们用 AI 重新跑了同一套需求,3 天生成 8000 条候选用例,经评审筛选后采纳了 4800 条,覆盖了之前漏掉的 26 个缺陷场景

这不是个例。过去两年,AI 生成测试用例已经从"实验室概念"走向了"一线生产力"。但我也见过很多团队踩坑——要么生成的用例质量太差,要么投入产出不成正比。

这些经验来自我们团队自建的 AI 全流程质量保障平台 IntelliQual。该平台包含四个核心引擎——RPE(需求解析)→ TSE(测试策略)→ UCG(用例生成)→ ATEE(自动化执行),其中 UCG 引擎专门负责 AI 生成测试用例和可执行脚本。构建过程中我们沉淀了以下这套经过实际验证的方法论。

这篇文章,我会把 AI 生成测试用例的方法论、实现路径、最佳实践和坑,一次性说清楚。


二、AI 生成测试用例的四种模式

在深入细节之前,先理清一个概念:AI 生成测试用例不是只有一种方式。根据输入源和生成策略的不同,可以分为四种模式:

2.1 模式一:基于需求文档生成(最通用)

输入:PRD、需求文档、用户故事
输出:功能测试用例、边界测试用例
适用场景:新功能测试、需求评审阶段

核心流程

需求文档 → AI解析理解 → 提取业务规则 → 生成正向用例
                                        → 生成逆向用例
                                        → 生成边界用例
                                        → 生成异常路径
              → 人工评审 → 采纳/修改/废弃

案例提示词模板

你是一位资深测试工程师,正在为以下需求编写测试用例。
请根据需求文档,生成覆盖以下维度的测试用例:
1. 正向流程(Happy Path)
2. 逆向流程(异常输入、非法操作)
3. 边界条件(等价类划分、边界值分析)
4. 业务规则组合(多个条件组合覆盖)

需求文档:
[粘贴需求内容]

请按以下格式输出:
| 用例ID | 场景描述 | 前置条件 | 测试步骤 | 预期结果 | 优先级 | 覆盖类型 |

2.2 模式二:基于接口/代码生成(最精准)

输入:API 文档(Swagger/OpenAPI)、源代码
输出:接口测试用例、单元测试用例
适用场景:接口测试、微服务测试、持续集成

这种模式的准确率最高,因为接口和代码的输入输出是确定的,AI 的"幻觉空间"最小。

实际效果数据

输入源 生成速度 初始采纳率 主要问题
OpenAPI 文档 1000 条/分钟 70%-85% 缺少业务语义组合
源代码 + 注释 500 条/分钟 60%-75% 漏掉跨模块场景
需求文档 200 条/分钟 40%-60% 理解偏差导致质量参差
用户故事 100 条/分钟 30%-50% 需要大量人工修正

2.3 模式三:基于历史缺陷生成(最补漏)

输入:历史缺陷库、线上事故记录
输出:针对性的回归用例、类似场景用例
适用场景:补充测试覆盖盲区、防止同类缺陷复发

核心思路:AI 分析历史缺陷的模式,识别"哪类场景容易出问题"、"哪类输入容易触发缺陷",然后有针对性地生成补充用例。

历史缺陷 → AI模式分析 → 提取缺陷模式
                        → 生成类似场景用例
                        → 识别覆盖盲区
                        → 生成补充用例
                        → 推荐回归优先级

2.4 模式四:基于业务画像生成(最进阶)

输入:用户行为数据、业务日志、生产流量
输出:基于真实用户场景的测试用例
适用场景:复杂业务系统、高并发场景

这是最进阶的模式。通过分析生产环境的真实用户行为,AI 能发现"测试团队根本想不到的场景"——那些只有真正用户在真实业务中才会触发的组合路径。


三、落地三步法:从 0 到 1 搭建 AI 用例生成能力

第一步:选对场景(最关键的决策)

不是所有模块都适合用 AI 生成用例。我们总结了一个AI 用例生成价值矩阵

                 需求结构化程度
                 低 ←─────────→ 高
              ┌─────────────────────┐
           高  │  业务规则引擎      │  标准API接口    │
              │  (高价值,中质量)   │  (高价值,高质量) │
业务复杂度     │─────────────────────│
           低  │  简单CRUD          │  纯数据转换     │
              │  (低价值,低质量)   │  (中价值,高质量) │
              └─────────────────────┘

最佳切入场景

  • 右上象限第一优先:标准 API 接口 + 高业务复杂度 → 价值最高
  • 左上象限第二优先:业务规则引擎 → 值得做,需要人工修正

第二步:建立人机协作流程

AI 生成用例不是替代人工,而是放大人工的效率。正确的流程是:

┌──────────┐
│  AI生成   │ ← 将需求/接口文档输入AI
│  候选用例  │
└────┬─────┘
     ↓
┌──────────┐
│  人工评审  │ ← 评审维度:准确性、完整性、可行性
│  筛选采纳  │
└────┬─────┘
     ↓
┌──────────┐
│  补充完善  │ ← 人工补充AI遗漏的场景
│  场景补充  │
└────┬─────┘
     ↓
┌──────────┐
│  入库执行  │ ← 纳入测试管理平台
│  持续迭代  │
└──────────┘

评审标准建议

评审维度 标准 通过率目标
准确性 用例描述和预期结果是否正确 > 90%
完整性 是否覆盖了需求中的关键场景 > 80%
可行性 用例是否可执行、步骤是否清晰 > 95%
独特性 是否覆盖了人工没想到的场景 > 10%(有这个指标就值了)

第三步:建立质量反馈闭环

AI 生成用例的质量不是一成不变的。需要建立持续改进机制:

每周统计:采纳率、有效率、漏测率
  ↓
分析低质量原因:需求不清晰?AI模型问题?场景不适配?
  ↓
调整策略:优化提示词、切换模式、补充知识库
  ↓
验证效果:下周期采纳率是否提升

四、实战案例:一个电商系统的 AI 用例生成

以一个真实的电商订单系统为例,看 AI 生成用例到底能做到什么程度。

系统范围:下单→支付→库存扣减→物流→售后

输入:OpenAPI 文档(23 个接口)+ 业务规则文档(47 条规则)

AI 生成结果

维度 手工(6 人·3 周) AI(1 人·3 天) 提升
生成数量 1,200 条 3,500 条 3x
采纳数量 1,200 条 2,100 条 1.75x
覆盖接口数 23/23 23/23
覆盖规则组合 217 种 486 种 2.2x
发现漏测场景 12 个 新增

关键发现:AI 特别擅长发现"多条件组合"场景——比如"优惠券 + 满减 + 会员折扣叠加"这种组合,手工很容易漏掉,而 AI 会系统性地穷举。

项目侧记:这套流程在 IntelliQual 的 UCG(用例生成引擎)中已跑通。我们配置了 U-1~U-4 四道质量门禁,其中 U-1 要求 P0 需求必须 100% 有测试脚本覆盖U-3 要求采纳率 ≥ 60%(低于 60% 触发黄牌人工复核,低于 40% 触发红牌停止流水线)。这些门禁机制确保了 AI 生成的用例质量始终在可控范围内。


五、常见失败模式与避坑指南

❌ 失败模式 1:期望一次生成直接可用

问题:很多团队期望 AI 一次生成就能直接跑。这是最大的误解。

真相:AI 生成的是"候选用例",不是"最终用例"。人工评审是必不可少的环节。

正确做法:把 AI 当作"实习生"——他给你初稿,你来把关。真正的效率提升在于:AI 完成 80% 的基础工作,你只需要做 20% 的判断和修正

❌ 失败模式 2:不分场景、全量投放

问题:二话不说,把所有模块都丢给 AI 生成用例。

真相:不同场景的 AI 生成质量差异巨大。简单 CRUD 的用例人工 5 分钟能写完,AI 反而要花 10 分钟审核。

正确做法:先用价值矩阵评估,选高价值场景切入。从 2-3 个模块开始,验证效果后再扩展。

❌ 失败模式 3:提示词写得太随意

问题:提示词就一句话——"帮我生成测试用例"。

真相:AI 生成用例的质量,90% 取决于提示词的质量。

正确做法:写好提示词本身就是一项技能。下面是一个经过优化的提示词框架:

# 角色设定
你是一位有10年经验的测试架构师,精通等价类划分、边界值分析、判定表、正交实验法等测试设计方法。

# 任务描述
根据以下需求文档,为[模块名称]生成测试用例。

# 输入内容
[粘贴需求/接口文档]

# 输出要求
1. 按模块功能点分组输出
2. 每个用例包含:用例ID、场景描述、前置条件、测试步骤、预期结果、优先级、覆盖类型
3. 覆盖:正向流程、逆向流程、边界条件、业务规则组合
4. 标注每个用例覆盖的是等价类、边界值还是判定表

# 质量要求
- 避免冗余(同一个场景只保留最完整的用例)
- 标注不确定的用例(用[待确认]标记)
- 输出格式为Markdown表格

❌ 失败模式 4:没有度量,无法判断效果

问题:用上 AI 了,但说不清楚到底提效了多少。

真相:没有度量的优化是盲目的。

正确做法:至少追踪这五个指标:

① 采纳率:AI生成用例中被采纳的比例 → 目标 > 50%
② 有效率:AI用例实际执行通过的比例 → 目标 > 70%
③ 覆盖率提升:相比纯手工,覆盖率增长 → 目标 > 20%
④ 漏测率变化:上线缺陷数是否下降 → 目标下降 > 15%
⑤ 人效:单人每天有效用例产出数 → 目标 2x 提升

六、未来趋势:从生成到智能测试设计

目前 AI 生成测试用例还停留在"辅助生成"阶段。但未来 1-2 年,我们可能会看到三个趋势:

  1. 从生成到智能设计:AI 不只是生成用例,而是设计测试策略——分析代码变更影响范围、推荐测试深度、自动调整回归策略

  2. 多模态输入:不只是文本需求,还有原型图、交互稿、业务流程图——AI 能从视觉设计稿直接识别可测试的场景

  3. 闭环自动优化:AI 根据测试执行结果自动分析覆盖率缺口,自动生成补充用例,形成"生成→执行→反馈→优化"闭环


七、总结

AI 生成测试用例正在从"新玩具"变成"新标配"。但能不能发挥价值,取决于你的落地姿势:

  1. 选对模式:需求文档、接口文档、历史缺陷、业务画像——四种模式各有适用场景
  2. 选对场景:用价值矩阵判断哪些模块优先,不要全量投放
  3. 建立流程:AI 生成 + 人工评审 + 质量反馈,缺一不可
  4. 度量驱动:五个核心指标追踪效果,避免盲目上马
  5. 提示词是关键:提示词的精细程度直接决定输出质量

最后一个建议:无论你用哪种 AI 工具,都从最小的闭环开始——选 1 个模块、用 1 种模式、跑 1 周、看效果。先跑通,再放大。


如果对你有帮助,欢迎点赞收藏。有问题评论区交流,有问必回。

共收到 6 条回复 时间 点赞

说实话,以现在 AI 的迭代速度,从头手搓一个平台真的太费时间了,性价比又低。
直接用最新的工具结合最新的技术规范,做个轻量级的,后面又有更好的工具和技术再切换过去不是更好吗

角色设定

你是一位有 10 年经验的测试架构师,精通等价类划分、边界值分析、判定表、正交实验法等测试设计方法。

这个提示词已经是去年的过去式了。感慨一下去年学提示词工程,今年已经完全可以不 care 了,AI coding 的马鞍发展太快了,现在是一个月一个变化的感觉。

大佬,能不能介绍下 ATEE(自动化执行)这部分的逻辑

哪个大模型生成用例质量比较好?有没有比较的列表参考的

SuperYang 回复

后面会出个专题

大佬,针对 2.2 我想问下,假如说后端的代码本身就是错的呢?那这种情况下,AI 生成的用例此时也是不可信的吧

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册