FunTester 如何成为 AI 协作工程师

FunTester · May 14, 2026 · 26 hits

会用 AI 工具和能编排 AI 系统，是两种完全不同的能力，市场对它们的定价差距正在快速拉开。普华永道 2025 年全球 AI 就业晴雨表显示，需要 AI 技能的岗位平均薪资溢价已达 56%，一年前这个数字是 25%。但这 56% 的溢价不是奖励给会用 ChatGPT 写测试用例的人，而是奖励给那些能设计人机协作工作流、能判断 AI 输出质量、能构建可治理的 AI 测试基础设施的人。

这是 AI 时代三条路径里距离 AI 浪潮本身最近的一条，也是定义最新、争议最多、机会最大的一条。

用 AI 和编排 AI 的本质区别

多数人对 AI 测试工程师 的理解，停留在工具使用层面：用 Copilot 生成测试用例，用 ChatGPT 生成测试数据，用某个 AI 工具做视觉回归。这是 AI 工具的使用者，不是 AI 系统的编排者。

编排者的工作在更高的层次上：谁来设计整套人机协作的工作流？谁来决定 AI 在哪个节点介入、在哪个节点交回人类判断？谁来验证 AI 的输出质量是否可信？谁来设计当 AI 出错时的兜底机制？

这些问题没有 AI 可以自动回答，因为它们本质上是系统设计问题，需要对 AI 能力边界、业务风险和团队工作流做综合判断。

三项核心工作拆解

第一项：提示词工程（Prompt Engineering for Testing）

提示词工程这个词已经被严重低估和误解。很多人以为它是学几个技巧让 AI 给出更好的回答，但在测试场景里，提示词工程是一个系统性的工程工作：设计可复用的提示词模板、建立团队共享的提示词库、追踪提示词版本和效果、持续迭代优化。

在测试场景中，提示词工程有几个关键难点。第一是覆盖率的控制：如何让 AI 生成足够多的边界测试、负面路径和异常场景，而不只是最显而易见的正常流程？这需要在提示词里明确约束测试视角，并在结果里系统性地检验覆盖维度。第二是业务语境的注入：AI 不了解你的产品背景，需要在提示词里把关键的业务约束、用户特征和风险重点显式表达出来，否则它只能生成通用的测试用例，而不是有针对性的风险覆盖。第三是输出格式的规范化：AI 生成的测试用例格式杂乱时，接入测试管理工具的成本会很高，需要在提示词层面设计结构化输出。

ISTQB 在2025年7月29日发布的 CT-GenAI 认证，将提示词工程列为核心考察能力之一，具体覆盖迭代优化、多模态提示（视觉与文本）和幻觉风险管理。这是行业第一次将这类能力纳入标准化认证体系，说明它已经从个人技巧上升为可教授、可评估的专业能力。

第二项：AI 输出质量验证

这是 AI 协作工程师最关键、也最难标准化的工作。AI 生成的测试用例在大多数情况下看起来合理，问题往往藏在细节里：

覆盖率虚高：用例数量很多，但集中在正常路径，真正的风险区域没有覆盖
业务相关性低：技术上正确，但测的不是当前业务的真实风险
逻辑不自洽：用例之间有矛盾，或者前置条件在真实系统里无法满足
幻觉引入的错误：测试步骤引用了不存在的 API、不正确的参数格式，或者基于错误的业务假设

建立一个系统性的验证清单，比逐条审查 AI 输出更有效率。核心验证维度包括：覆盖率分布（正常、边界、异常、安全的比例）、业务映射（每条用例是否对应真实用户场景）、可执行性（步骤是否清晰且在当前系统里可操作），以及对 AI 典型错误模式的专项检查。

GitLab 的调查数据在这里是一个清醒的提醒：75% 的关键缺陷最终仍靠人工发现。AI 测试工具覆盖的，主要是可以被规则化描述的正常路径。真正高价值的缺陷，也就是那些需要理解业务语境、用户意图和系统边界的缺陷，依然需要人来识别。这不是 AI 不够聪明，而是这类判断本质上需要经验积累，不是统计预测可以替代的。

第三项：智能体（Agent）编排

AI 代理系统正在从概念走向实际部署，但 Qase.io 的分析给出了一个重要警告：即使是最新的 AI 代理系统，面对复杂企业应用，例如基于角色的访问控制、多步骤工作流、数十个第三方集成，仍然脆弱，需要持续的人类护栏。

AI 协作工程师在这里的工作，是设计这些护栏：人类判断应该在哪个节点介入？当 AI 代理遇到不确定的场景时，是继续执行还是暂停等待人工确认？当 AI 代理的输出结果不符合预期时，异常处理机制是什么？

一个常见的错误是把 AI 代理当成全自动系统来部署。在当前的技术水平下，AI 代理更适合的角色是高度自动化的执行者加上人类主导的决策者。AI 负责执行大量重复性、规则明确的测试任务，人类负责在关键判断点审查结果、调整策略。这个人机协作的接口设计，是 AI 协作工程师的核心工作之一。

批判性思维：AI 在胡说的直觉

三项核心工作背后，有一个更基础的能力要求：识别 AI 在胡说的直觉。

这种直觉不是天生的，是训练出来的。当你看到一组 AI 生成的测试用例，你需要问自己：这些用例覆盖的是真实风险，还是看起来像真实风险？这些步骤在真实系统里能执行，还是 AI 在描述一个它想象的系统？这个断言条件符合业务逻辑，还是一个看似合理但实际错误的假设？

这种判断能力，来自对被测系统的深度理解，来自对 AI 典型错误模式的熟悉，也来自对质量风险的整体敏感度。它无法被提示词完全替代，是 AI 协作工程师最难被复制的竞争力。

善用 AI 的工程师，和不加验证就接受 AI 输出的工程师，两者之间的差距，不只是工具熟练度的差距，更是批判性思维深度的差距。

市场信号与认证

ISTQB CT-GenAI 认证是目前这个方向最权威的标准化认证。考试覆盖范围包括：提示词工程与迭代优化、多模态提示、LLM 驱动的测试基础设施（RAG、AI Agent）、AI 生成内容质量评估（事实性、偏见、毒性），以及安全与合规护栏设计。认证考试终身有效，通过 iSQI FLEX 在线监考或 Pearson Vue 全球考试中心均可参加。

Gartner 2025 年首届 AI 增强软件测试工具魔力象限的发布，标志着这个市场已经进入主流采购视野。预测到 2028 年，70% 的企业将把 AI 增强测试工具整合到软件工程工具链（2025 年初仅 20%）。这个增速意味着，在接下来三年里，能够驾驭和治理这些工具的人才需求将快速增长。

普华永道的数据还有一个值得关注的细节：AI 暴露程度高的岗位，招聘量增速是其他岗位的 3.5 倍，生产率增速是其他岗位的 4 倍。这不只是薪资的溢价，而是整体机会密度的增加。

这条路适合谁

AI 协作工程师这条路，适合对 AI 技术本身有真实好奇心、同时愿意保持批判性距离的人。如果你喜欢研究 AI 的能力边界，对 AI 在哪里会出错比 AI 能做什么更感兴趣，愿意在系统层面设计人机协作流程，而不只是优化单个工具的使用效果，这条路是你的方向。

这三条路径共享一个共同的底层，下一篇（也是系列最后一篇）会讲那些工具换了之后仍然不会贬值的东西。

FunTester 名片｜万粉千文，百无一用

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！

打赏支持

No Reply at the moment.

需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up。

FunTester 如何成为 AI 协作工程师

作者

FunTester

FunTester 如何成为 AI 协作工程师

用 AI 和编排 AI 的本质区别

三项核心工作拆解

批判性思维：AI 在胡说的直觉

市场信号与认证

这条路适合谁

FunTester 名片｜万粉千文，百无一用