会用 AI 工具和能编排 AI 系统,是两种完全不同的能力,市场对它们的定价差距正在快速拉开。 普华永道 2025 年全球 AI 就业晴雨表显示,需要 AI 技能的岗位平均薪资溢价已达 56%,一年前这个数字是 25%。但这 56% 的溢价不是奖励给会用 ChatGPT 写测试用例的人,而是奖励给那些能设计人机协作工作流、能判断 AI 输出质量、能构建可治理的 AI 测试基础设施的人。
这是 AI 时代三条路径里距离 AI 浪潮本身最近的一条,也是定义最新、争议最多、机会最大的一条。
用 AI 和编排 AI 的本质区别
多数人对 AI 测试工程师 的理解,停留在工具使用层面:用 Copilot 生成测试用例,用 ChatGPT 生成测试数据,用某个 AI 工具做视觉回归。这是 AI 工具的使用者,不是 AI 系统的编排者。
编排者的工作在更高的层次上:谁来设计整套人机协作的工作流?谁来决定 AI 在哪个节点介入、在哪个节点交回人类判断?谁来验证 AI 的输出质量是否可信?谁来设计当 AI 出错时的兜底机制?
这些问题没有 AI 可以自动回答,因为它们本质上是系统设计问题,需要对 AI 能力边界、业务风险和团队工作流做综合判断。
三项核心工作拆解
第一项:提示词工程(Prompt Engineering for Testing)
提示词工程这个词已经被严重低估和误解。很多人以为它是学几个技巧让 AI 给出更好的回答,但在测试场景里,提示词工程是一个系统性的工程工作:设计可复用的提示词模板、建立团队共享的提示词库、追踪提示词版本和效果、持续迭代优化。
在测试场景中,提示词工程有几个关键难点。第一是覆盖率的控制:如何让 AI 生成足够多的边界测试、负面路径和异常场景,而不只是最显而易见的正常流程?这需要在提示词里明确约束测试视角,并在结果里系统性地检验覆盖维度。第二是业务语境的注入:AI 不了解你的产品背景,需要在提示词里把关键的业务约束、用户特征和风险重点显式表达出来,否则它只能生成通用的测试用例,而不是有针对性的风险覆盖。第三是输出格式的规范化:AI 生成的测试用例格式杂乱时,接入测试管理工具的成本会很高,需要在提示词层面设计结构化输出。
ISTQB 在2025年7月29日发布的 CT-GenAI 认证,将提示词工程列为核心考察能力之一,具体覆盖迭代优化、多模态提示(视觉与文本)和幻觉风险管理。这是行业第一次将这类能力纳入标准化认证体系,说明它已经从个人技巧上升为可教授、可评估的专业能力。
第二项:AI 输出质量验证
这是 AI 协作工程师最关键、也最难标准化的工作。AI 生成的测试用例在大多数情况下看起来合理,问题往往藏在细节里:
- 覆盖率虚高:用例数量很多,但集中在正常路径,真正的风险区域没有覆盖
- 业务相关性低:技术上正确,但测的不是当前业务的真实风险
- 逻辑不自洽:用例之间有矛盾,或者前置条件在真实系统里无法满足
- 幻觉引入的错误:测试步骤引用了不存在的 API、不正确的参数格式,或者基于错误的业务假设
建立一个系统性的验证清单,比逐条审查 AI 输出更有效率。核心验证维度包括:覆盖率分布(正常、边界、异常、安全的比例)、业务映射(每条用例是否对应真实用户场景)、可执行性(步骤是否清晰且在当前系统里可操作),以及对 AI 典型错误模式的专项检查。
GitLab 的调查数据在这里是一个清醒的提醒:75% 的关键缺陷最终仍靠人工发现。AI 测试工具覆盖的,主要是可以被规则化描述的正常路径。真正高价值的缺陷,也就是那些需要理解业务语境、用户意图和系统边界的缺陷,依然需要人来识别。这不是 AI 不够聪明,而是这类判断本质上需要经验积累,不是统计预测可以替代的。
第三项:智能体(Agent)编排
AI 代理系统正在从概念走向实际部署,但 Qase.io 的分析给出了一个重要警告:即使是最新的 AI 代理系统,面对复杂企业应用,例如基于角色的访问控制、多步骤工作流、数十个第三方集成,仍然脆弱,需要持续的人类护栏。
AI 协作工程师在这里的工作,是设计这些护栏:人类判断应该在哪个节点介入? 当 AI 代理遇到不确定的场景时,是继续执行还是暂停等待人工确认?当 AI 代理的输出结果不符合预期时,异常处理机制是什么?
一个常见的错误是把 AI 代理当成全自动系统来部署。在当前的技术水平下,AI 代理更适合的角色是高度自动化的执行者加上人类主导的决策者。AI 负责执行大量重复性、规则明确的测试任务,人类负责在关键判断点审查结果、调整策略。这个人机协作的接口设计,是 AI 协作工程师的核心工作之一。
批判性思维:AI 在胡说的直觉
三项核心工作背后,有一个更基础的能力要求:识别 AI 在胡说的直觉。
这种直觉不是天生的,是训练出来的。当你看到一组 AI 生成的测试用例,你需要问自己:这些用例覆盖的是真实风险,还是看起来像真实风险?这些步骤在真实系统里能执行,还是 AI 在描述一个它想象的系统?这个断言条件符合业务逻辑,还是一个看似合理但实际错误的假设?
这种判断能力,来自对被测系统的深度理解,来自对 AI 典型错误模式的熟悉,也来自对质量风险的整体敏感度。它无法被提示词完全替代,是 AI 协作工程师最难被复制的竞争力。
善用 AI 的工程师,和不加验证就接受 AI 输出的工程师,两者之间的差距,不只是工具熟练度的差距,更是批判性思维深度的差距。
市场信号与认证
ISTQB CT-GenAI 认证是目前这个方向最权威的标准化认证。考试覆盖范围包括:提示词工程与迭代优化、多模态提示、LLM 驱动的测试基础设施(RAG、AI Agent)、AI 生成内容质量评估(事实性、偏见、毒性),以及安全与合规护栏设计。认证考试终身有效,通过 iSQI FLEX 在线监考或 Pearson Vue 全球考试中心均可参加。
Gartner 2025 年首届 AI 增强软件测试工具魔力象限的发布,标志着这个市场已经进入主流采购视野。预测到 2028 年,70% 的企业将把 AI 增强测试工具整合到软件工程工具链(2025 年初仅 20%)。这个增速意味着,在接下来三年里,能够驾驭和治理这些工具的人才需求将快速增长。
普华永道的数据还有一个值得关注的细节:AI 暴露程度高的岗位,招聘量增速是其他岗位的 3.5 倍,生产率增速是其他岗位的 4 倍。这不只是薪资的溢价,而是整体机会密度的增加。
这条路适合谁
AI 协作工程师这条路,适合对 AI 技术本身有真实好奇心、同时愿意保持批判性距离的人。如果你喜欢研究 AI 的能力边界,对 AI 在哪里会出错 比 AI 能做什么更感兴趣,愿意在系统层面设计人机协作流程,而不只是优化单个工具的使用效果,这条路是你的方向。
这三条路径共享一个共同的底层,下一篇(也是系列最后一篇)会讲那些工具换了之后仍然不会贬值的东西。