测试基础 Skill + MCP 工作中提效落地实战

花菜 · 2026年04月27日 · 最后由 EternalRights 回复于 2026年04月27日 · 813 次阅读

Skill + MCP 工作中提效落地实战

背景

做 QA 的都懂一个痛——自动化测试天天跑,跑了一万个 case,其中有几个偶尔挂掉。结果呢?没人看。没人看跟没跑有啥区别?

但是!让你老老实实去排查一个自动化失败的 case,真的能把人烦死。

以前我的流程长这样:

  • 打开 Jenkins 看构建日志
  • 拎出来失败 case 的 traceID
  • 去看完整调用链
  • 打开 K8s 查各个服务实例状态
  • 翻 Apollo 看配置是不是又有人偷偷改了
  • 查 Redis 看缓存数据对不对
  • 不放心还得翻一下 db
  • 还是定不下来?只能翻源码
  • 定到问题之后,本地改完还得重新部署、跑一遍复现
  • 最后 Jenkins 上重新跑全量

坑次坑次干下来,一个 case 排查完半小时打底,多的能干一上午。

自动化天天跑,如果失败的 case 没人及时看,那跑它干嘛?但是让我一直手动这么查,我自己都烦。

直到我把 AI 塞进这个流程之后,整个世界都变了。

1、先放结论:30 分钟 → 3 分钟

现在我的工作流是这样:

  1. 自动化跑完,看到一个 case 挂了
  2. 把失败的构建链接复制,丢给 Claude Code
  3. 摸一会儿鱼,回来看结论

就这三步。中间我啥都不用干。AI 自己去拉日志、自己看 Apollo、自己查 Redis、自己对比泳道配置、自己总结原因给我。

最骚的是啥?Jenkins 有时候构建要跑半天,AI 会自己说一句"排程 25 分钟后再查",然后它就真的 25 分钟后自己醒来继续查。

第一次看到 Claude Code 自己醒来接着跑的时候,我发群里一句:"真不错啊,他真的自己醒来了"——那种感觉跟你养了个电子员工没区别。

群友直接来一句:"你太猛了,你把测开团队的活都干了,测开团队都干嘛?"

这话我没法接,但是——真的爽

2、三件套:Claude Code + MCP + Skill

这套东西能跑起来,不是靠单点,是靠三个东西咬合。

Claude Code 负责执行

是主脑。接收任务、调工具、拿结果、出结论。它自带的定时唤醒能力是灵魂,让它能自己醒来看 Jenkins。

MCP 负责打通运维能力

这个是关键。光有 Claude Code 没有手脚也是白瞎。MCP 把我们测开组 + 运维组的能力全打包给 AI:

  • 拉 K8s 日志
  • 切泳道环境
  • 读 Apollo 配置
  • 查 Redis 数据
  • Nacos / DB 这种我直接让它用 k8s cli 就能搞

Skill 负责把流程固化

光有 MCP 也不够,AI 不知道该先查啥后查啥。Skill 就是我把"一个 QA 排查失败 case 的最佳实践"写成了一份标准流程,让 AI 照着跑。

这三件套缺一不可。很多人说"我用了 Cursor 没啥感觉"——那是因为你只拿了主脑,没有手脚、没有流程。单靠对话框里聊天玩不出生产力。

3、最重要的不是工具,是业务知识库

先泼个冷水——光接上 MCP 不会直接起飞。我一开始也以为把工具接好,AI 就能自己跑起来,结果 AI 查着查着就懵了:它根本不知道你家的业务长啥样。

我们系统是微服务架构,十几个服务互相调用。AI 一开始看到一个 case 失败,它不知道这个接口背后要调几个服务、先后顺序是啥、哪个服务挂了会影响哪个。

真正的转折点,是我花了不少时间整理业务知识库。

  • 每个微服务是干啥的
  • 服务之间的调用链关系
  • 关键的数据流
  • 每个泳道对应的环境配置

把这份知识库喂给 AI 之后,它就开窍了。现在排查一个 case,它能自己推理出应该去哪个服务拉日志、为什么这个服务的异常可能导致上游那个 case 挂掉。

Skill 的核心逻辑大概是这样:

  1. 看到失败 case,先定位涉及的服务
  2. 去对应泳道拉这几个服务的日志
  3. 看日志关键字,判断是不是配置问题 → 去查 Apollo
  4. 怀疑缓存问题 → 去查 Redis
  5. 怀疑数据问题 → 查 db
  6. 综合所有信息,给出结论和下一步建议

是不是跟我以前手动干的事一模一样?对,就是一模一样。区别是——我现在不用干了

4、顺便打脸一下"AI 无用论"

这段时间各种地方都能看到有人说"AI 写不了生产代码"、"AI 就是玩具"、"我用某某 AI 工具没感觉"。

我就想问——你真的按"工作流"在用 AI 吗?还是只是在对话框里瞎聊?

把 AI 当搜索引擎用,那它确实就是个玩具。
把 AI 当成可以接工具、可以跑流程、可以自己醒来的 Agent 用,那就是生产力。

顺便说一下数据。圈子里传出来的数字——一些在 AI 上投得比较狠的公司(还不是那种头部大厂,是敢 All in 的),光 token 消耗就已经到百万级 RMB 了。

这钱是白花的吗?老板不是傻子。要是没有明确的 ROI,不可能让这个数字一直往上涨。

友商也都在卷。某头部大厂的飞书通知里已经在做"线上反馈自动进来,AI 自动修复"的链路——人只是最后 review 一下合不合并。

这不是未来,这是现在

5、但 AI 也不是万能的,这几个坑我踩过

写到这别以为我要吹爆 AI。实话讲,这套东西也不是一把梭。

坑 1:知识库的质量决定天花板

业务知识库写得糊弄,AI 就真的在那瞎猜。我前面说整理知识库花了不少时间,不是开玩笑——你糊弄它,它就糊弄你。

坑 2:MCP 权限要控好

AI 能读日志没问题,但你让它能改 Apollo、能重启服务?生产环境万万不要。测试泳道随便造,生产环境只读,这是底线。

坑 3:别指望一次对话搞定复杂问题

有些 case 涉及多个服务 + 时序问题,AI 一轮跑下来给的结论可能是错的,得让它继续深挖几轮。Skill 里我专门加了"如果一轮没结论,继续深入查"的逻辑。

坑 4:token 真的烧钱

前面说百万级,那是一整个公司在梭哈。个人用也别乱玩,一天烧几十块是真能做到的。按需用,别什么都扔给 AI。

总结:跟上时代步伐,摒弃古法编程

这篇文章不是要你无脑 All in AI,但是——如果你还在 2026 年坚持"古法排查",一切靠手工、靠经验、靠肉眼,那你真的在浪费生命。

  • 以前 QA 排查一个 case 半小时,现在 3 分钟看结论
  • 以前老板要招 3 个 QA 的活,现在可能 1 个 QA + AI 就能干
  • 以前测开团队的工具只是工具,现在 MCP 让工具变成 AI 的手脚

作为一个 QA,我的真实感受是:不是 AI 要取代 QA,是会用 AI 的 QA 会取代不会用 AI 的 QA。

把工具接上,把流程写下来,把业务知识喂给它。

然后——去摸鱼吧~~



本文首发于个人公众号「梨花菜」, 欢迎在评论区聊聊你的看法或踩坑经历~

共收到 5 条回复 时间 点赞

你们的 AI 落地提效了吗😁

膜拜大佬

        写得太实了,三件套的思路我认同。但我想说一个我们踩的更深的坑——Skill 写得再细,Agent 也不见得照着走。

        我们做 OE 平台用例治理,Skill 里白纸黑字写了"必须查 Apollo 灰度配置"、"必须分析 Trace"、"必须读服务端代码"。结果呢,Agent 拿到一个品类未下发的 case,扫一眼错误码就觉得自己懂了,直接出方案写"更换城市",Apollo 和 Trace 压根没碰。

        后来我们想明白了一件事:自然语言的"必须"对 LLM 来说就是建议,不是约束。它可以遵守,也可以自己判断一句"本场景不适用"就跳过去,而且跳得心安理得。

        后来真正管用的办法,不是写更多"必须"和"禁止",而是换了个思路——在修复档案模板里加了一张"深度分析记录表",每行两个格子:查了什么结果 / 没查是为什么。留空不行,必须填一个。品类问题明显跟灰度相关,它写不出"不适用"的合理理由,就只能老老实实去查 Apollo,把配置项和值填进去。

        说白了,LLM 不怕违规,但它怕文档不完整。你让它交一份有空行的报告,它比你还难受。这比写一百条"禁止跳过"好使。

        有人碰到过类似的情况吗?Agent 工具有却不调,流程写了却不走。

EternalRights 回复

LLM 不遵守指令,这个是必然存在的问题。实现得看你使用的什么模型,我用的 claude code + opus4.7,遵守指令效果非常好。在排问题的时候没有遇到不遵守指令的问题。反而在写代码的时候遇到,那么改怎么解决呢,使用 hooks 触发 lint 来强制检查。这个后续会有分享

花菜 回复

        不完全一致。我们用 claude code + opus4.7 的时候,排错场景指令遵循其实还行,但推理跳步确实碰到了。问题不是模型不听话,是它在决定要不要查 Apollo 之前,脑子里已经判了个"不适用",hooks 根本拦不住这个判断。

        所以我后来没再去加固指令,而是在输出模板里埋了一张表:每行两个格子,查了什么结果 / 没查是为什么,留空不行。它为了把表填完,就自己跑去调 Apollo 把配置项补上了。

        这和 hooks + lint 不是一个层面的事。hooks 更像在管"输出合不合规",但我们踩的坑在"推理过程有没有走"。不是一个问题。两条路不冲突,各管各的。

        你说的 hooks 方案后续分享我等着看。另外好奇问一下,你们有没有试过在 hooks 里校验推理过程?就是不光检查最终输出格式,而是看 Agent 到底有没有实际调过某个工具。这个方向我们还没验证过。

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册