专栏文章 AI 时代下测试人员要如何转型

孙高飞 · May 19, 2026 · 583 hits

我们来看一下经常能在网络上看到的话：

某老板：开发已经用 AI 提升了数倍的效率与产出，那测试呢？如果测试在 AI 时代掉队了，那是不是不需要测试了？

下面是我们测试领域的：

某测试人员：我折腾了大半个月的 AI，AI 根本没办法给测试人员提效，它就像个弱智一样。

我相信很多同学都在网络上捡到过上面那两句话，甚至亲身经历过这两句话。因为我就经历过，我本身在国内的顶级大厂。公司对 AI 的重视程度之高，前所未有。为员工分发的 token 数量十分丰厚，就是希望员工能利用 AI，成本的提效。而上面引用的老板的话，就是我们管理了整个部门几万人的大老板所担心的。

实际上，这个担心已经变成了现实。我们业务线上的开发人员，全部都在用 AI 编程，产出效率提升的十分恐怖。所以整个质量部的老板们，也都陷入了焦虑中。他们最怕的，就是业务团队反馈测试人员的效率跟不上节奏。

所以，测试领域的 AI 提效路线，基本上是整个行业板上钉钉的大趋势。如果测试人员想在这个行当里混到第一梯队，那 AI 测试的能力是绕不开的一道坎儿。昨天有个同学加入星球后找我聊天，还说现在的面试都在考核 AI 技能了：

所以，我们回到一开始的那两句话来。第一个我们已经有答案了，AI 测试是大势所趋，非万钧之力不可违抗。那我们来说说第二个，为什么很多测试人员感受到的是 AI 并没有给测试领域带来什么有效的提升？

其实这个问题不仅仅是测试人员会感受到，很多其他角色也会有此感受。这是为什么呢？答案很简单，使用 AI 也是需要学习的，它跟很多人的第一印象是不一样的，很多人想的是把需求扔给 AI，再用一两句话就可以让 AI 干活了。但事实上，如果真这么干了，一些简单的任务还没什么问题。但场景稍微复杂一点，大模型就会开始放飞自我，各种跳步，幻觉，自欺欺人的事情就会出现。这就是为什么很多人会觉得 AI 不是很靠谱。

使用 AI 也是需要学习的，是需要专业知识的，它根本就不是一个傻瓜式的，谁都可以用的东西。

很少有开发人员会抱怨 AI 的能力，是因为开发同学天然就会去学习这些东西，如果大家去看各种开发社区，甚至只要去 B 占上搜一下，就会发现各种 Agent 设计方法论十分流程，很多人在很早的时候就开始讨论 harness，讨论渐进式披露，讨论多 Agent 协同，讨论如何让 Agent 稳定高效的执行一个需要几十个小时的大型的复杂的任务。

而测试领域呢？我很少看到有人讨论这些，反而是很多人在高举反对 AI 的旗帜，妄图对抗大势。即便不反对，也是在发帖各种抱怨。有些时候，我们跟开发同学的差距就在这里。实际上我很喜欢开发人员，他们永远都在拥抱最新的技术，永远都在探索更好的方案。

OK，说了这么多，那测试人员当前应该怎么办？说一些我自己的观点，当前阶段，我们应该跟开发人员一样，去学习如何更高效的运行一个 Agent 任务，如果有关键词，那就是harness 。harness 是目前行业里广泛被认可的，用来保证 Agent 稳定高效运行的方法论。事实上，这个关键词并不重要，重要的是要不停的去学习更好的让 Agent 来辅助工作的方法。然后用在我们的日常工作中。就目前而言，我用 AI 做的事情：

AI 分析需求并生成测试用例。
把测试用例转成接口自动化测试用例
AI 驱动 UI 自动化测试
AI 执行性能测试
AI 执行容灾测试（高可用测试）

以上都各自有相关的 skill，而这些 skill 也都是按照 harness 的原则进行设计。我工作中基本上 90% 的内容，已经交给 AI 来完成。而这些工作量，在没有 AI 之前，大概需要 4 到 5 个人才能完成。

学习如何使用 AI 是测试人员以后的硬通货

当然我提到了这么多次 harness，那 harness 究竟是怎么来的，这里我也介绍下 harness 的发展历史。借由这个发展历史，我们也可以给大家说明一下，为什么不同的人用同一个模型，会有完全不同的效果。

提示词工程 → 上下文工程 → harness 工程

先抛一个现象：同样一个大模型，在不同人手里产出的效果可以差出几个量级。

为什么？我自己总结下来，主要是三个原因：

a. 模型本身有非常广阔的知识，但它不知道在你当前这个具体场景下，应该调用哪一部分知识。
b. 模型同样有知识盲区，尤其是你公司内部的业务、私有 API、历史遗留的奇怪约定，这些它从训练数据里学不到，需要你来补。
c. 哪怕模型知识齐全了，它也不知道在你这个场景下"先做什么、再做什么、最后做什么"——也就是工作流。

于是就有了我们最熟悉的提示词工程（PromptEngineering） ，它要做的事情其实就两件：

补齐缺失的知识和经验 （把场景、约束、术语、示例喂给模型）；
指导模型按什么样的工作流去完成任务 （步骤、顺序、判断点、产出格式）。

下面这张图大致能说明这件事：

图左：模型像一个塞满知识的大球，但它自己也不知道当前该用哪些。
图右：那颗球上其实是有"洞"的，那些洞要靠用户去填。
图下：用户通过提示词，把"该走哪条路"明确告诉模型。

结论很朴素：模型再强，也需要"人"来指导，它的能力才能真正释放出来。

从提示词工程走向上下文工程

提示词工程能解决不少问题，但用着用着会发现新的痛点：

业务场景越来越复杂；
对话轮数越来越多；
每次新开一个会话，都要重新交代一遍背景、规范、目录结构、历史决策……

人会烦的。于是大家又提出了上下文工程（ContextEngineering） ：把每一轮对话里沉淀下来的信息——背景知识、决策、产物、约定——结构化地"记住"，让用户从重复输入中解放出来。

这些上下文是可以被压缩、复制、删除、挑选 的，可以在不同的会话之间流转，也可以在不同的 Agent 之间共享。本质上，它给模型外挂了一份"项目记忆"。

上下文太多，模型反而会"腐化"

但事情没完。当上下文越堆越多之后，新的问题又出现了：

模型开始忘记前面定下的关键规则；
海量信息互相干扰，模型被带偏，给出南辕北辙的答案；
越长的上下文，越容易出现"看起来在认真做，其实早就脱轨"的情况。

这种现象，可以粗暴地称为上下文腐化 。

为了应付这件事，又有了harness 工程 （harness 本意是"马具"）。

harness 的思路非常直白：给模型套一层约束，让它不要那么跳脱，而是必须在规定好的框架和工作流里完成任务。

具体表现可能是：

把一个大任务拆成若干个明确的阶段，每个阶段有固定的输入产物和输出产物；
用多个子 Agent 各司其职，互相之间通过文件而不是口头转述传递信息；
对每一步都设置检查点：不通过就不允许进入下一步；
即使重试，也要在受控的范围内进行，不允许模型自由发挥。

我们这套 AI 驱动的 UI 自动化工程里，用来编写自动化测试用例的那个 skill，本质上就是基于 harness 理念做的。 它把"分析—实现—验证"拆成三个 agent，按状态机推进，产物落在固定目录，失败重试有上限，未经审批不允许改老函数——这些都是 harness 的味道。

回到那个问题

所以，为什么同样的模型，在不同人手里效果差这么多？

有的人希望一两句话就让模型干活，剩下全凭模型自由发挥；
有的人则会认真给模型设计一套严格的工作流、约束和反馈机制。

差距就出在这。

顺带说一句：这篇文章的正文也是 AI 生成的，但大纲是我写的 。这本身就再一次印证了上面的观点——AI 是放大器，输入端的"人"决定了它的产出质量。

以上就是 harness 的由来。

开发都用 AI 提效了，质量风险被放大，测试人员怎么办？

我们再回到这个问题上，现在的情况其实挺微妙的：

开发同学普遍开始用 AI 写代码，单人产出效率被显著放大 ；
但有些开发同学并不懂 harness 那一套，或者用的不是太好，他们用 AI 的方式更接近"提个需求、复制粘贴、能跑就行"；
结果就是：代码产出变多了，但每行代码里潜在的质量风险也变多了 ——逻辑漏洞、边界遗漏、隐蔽的安全问题、莫名其妙的副作用，都比以前更难一眼看出来。

与此同时，老板们的关注点是怎样的？

效率是看得见的：上线快了、需求吞吐量上去了；
质量风险 是看不见的：它要等到线上出问题那一刻才变成数字。并且认为如果测试时间无法被压缩，将是测试人员自身的问题。

这就导致一个尴尬的局面：AI 带来的提效被高估，AI 带来的质量风险被低估，而中间承压的恰恰是测试人员。

那怎么办？焦虑是没用的，唯一的出路是：我们自己也用 AI 把自己的效率拉起来，跟上行业节奏。

我自己的几个落地方向，分享一下：

1. 用 AI 快速沉淀自动化资产

以前很多自动化工程跑不起来，不是因为技术不行，而是人力成本算不过账 ：写一条用例的时间，够手测跑很多遍了，而且写完还要长期维护。产品一变，就要修改很多东西。

而 AI 介入之后，这笔账完全不一样了：

用例生成、定位元素、写断言这些"机械活"，AI 干得又快又稳；
维护成本也被压缩——失败用例可以让 AI 先做一轮归因；
配合 harness 化的 skill（比如我们教程里的那一套），用例质量是可控的，不会越积越烂。

结果就是：以前因成本太高而被砍掉的自动化覆盖面，现在可以重新捡起来。

2. 思维切换到 AI First

这一点是态度问题，不是技术问题。

遇到任何事情，不管自己会不会，先问一句："这件事 AI 能不能帮我先走一遍？"

需求分析：让 AI 先帮你拆解、提问、找疑点；
用例设计：让 AI 先生成一版，你来做减法和补充；
专项测试（性能、安全、兼容性）：让 AI 帮你列检查清单和工具选型；甚至执行让 AI 来运行。
技术方案调研：让 AI 先做信息整合，你来做判断；
文档、周报、总结：这些是 AI 收益最高的场景之一，没必要硬扛。

不一定每次都用得上，但养成"先问 AI"的反射 ，长期下来差距非常明显。

3. 把 AI 当作随身学习入口

测试这个岗位本身就涉及大量横向知识：新业务、新技术栈、新协议、新工具，遇到知识盲区是常态。以前的做法是搜索引擎 + 文档 + 社区，效率不算高。现在的做法是：先让 AI 帮你建立一个 60 分的认知框架 ，然后再去看一手资料补细节。这中间省下来的，是大量"我现在到底该看哪本书、该从哪里入手"的时间成本。

三、写在最后

我个人对未来的判断是这样的：

AI 现在势头很猛，但短期内，绝大多数企业仍然需要大量人工来做测试工作 ，所以也没必要陷入那种"我马上要被替代"的焦虑；
但长期看，行业里能留在第一梯队的人，画像基本都是"特种兵 +AI" ：方向感强、判断准、产出快，AI 是他们的放大器，不是替代品。最终再重申一遍：

以后测试行业能混在第一梯队的人，一定是特种兵 + AI 的组合模式。我们需要持续的去学习如何利用好 AI 的能力。

最后再推销一下自己的星球，后续更多优质的一线大厂测试教程，都在星球中更新：

2 个赞

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！

打赏支持

No Reply at the moment.

需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up。

专栏文章 AI 时代下测试人员要如何转型

专栏文章 AI 时代下测试人员要如何转型

提示词工程 → 上下文工程 → harness 工程

从提示词工程走向上下文工程

上下文太多，模型反而会"腐化"

回到那个问题

*开发都用 AI 提效了，质量风险被放大，测试人员怎么办？ *

1. 用 AI 快速沉淀自动化资产

2. 思维切换到 AI First

3. 把 AI 当作随身学习入口

三、写在最后

开发都用 AI 提效了，质量风险被放大，测试人员怎么办？