测试基础 Skill + MCP 工作中提效落地实战

花菜 · 2026年04月27日 · 最后由 EternalRights 回复于 2026年04月27日 · 813 次阅读

Skill + MCP 工作中提效落地实战

背景

做 QA 的都懂一个痛——自动化测试天天跑，跑了一万个 case，其中有几个偶尔挂掉。结果呢？没人看。没人看跟没跑有啥区别？

但是！让你老老实实去排查一个自动化失败的 case，真的能把人烦死。

以前我的流程长这样：

打开 Jenkins 看构建日志
拎出来失败 case 的 traceID
去看完整调用链
打开 K8s 查各个服务实例状态
翻 Apollo 看配置是不是又有人偷偷改了
查 Redis 看缓存数据对不对
不放心还得翻一下 db
还是定不下来？只能翻源码
定到问题之后，本地改完还得重新部署、跑一遍复现
最后 Jenkins 上重新跑全量

坑次坑次干下来，一个 case 排查完半小时打底，多的能干一上午。

自动化天天跑，如果失败的 case 没人及时看，那跑它干嘛？但是让我一直手动这么查，我自己都烦。

直到我把 AI 塞进这个流程之后，整个世界都变了。

1、先放结论：30 分钟 → 3 分钟

现在我的工作流是这样：

自动化跑完，看到一个 case 挂了
把失败的构建链接复制，丢给 Claude Code
摸一会儿鱼，回来看结论

就这三步。中间我啥都不用干。AI 自己去拉日志、自己看 Apollo、自己查 Redis、自己对比泳道配置、自己总结原因给我。

最骚的是啥？Jenkins 有时候构建要跑半天，AI 会自己说一句"排程 25 分钟后再查"，然后它就真的 25 分钟后自己醒来继续查。

第一次看到 Claude Code 自己醒来接着跑的时候，我发群里一句："真不错啊，他真的自己醒来了"——那种感觉跟你养了个电子员工没区别。

群友直接来一句："你太猛了，你把测开团队的活都干了，测开团队都干嘛？"

这话我没法接，但是——真的爽。

2、三件套：Claude Code + MCP + Skill

这套东西能跑起来，不是靠单点，是靠三个东西咬合。

Claude Code 负责执行

是主脑。接收任务、调工具、拿结果、出结论。它自带的定时唤醒能力是灵魂，让它能自己醒来看 Jenkins。

MCP 负责打通运维能力

这个是关键。光有 Claude Code 没有手脚也是白瞎。MCP 把我们测开组 + 运维组的能力全打包给 AI：

拉 K8s 日志
切泳道环境
读 Apollo 配置
查 Redis 数据
Nacos / DB 这种我直接让它用 k8s cli 就能搞

Skill 负责把流程固化

光有 MCP 也不够，AI 不知道该先查啥后查啥。Skill 就是我把"一个 QA 排查失败 case 的最佳实践"写成了一份标准流程，让 AI 照着跑。

这三件套缺一不可。很多人说"我用了 Cursor 没啥感觉"——那是因为你只拿了主脑，没有手脚、没有流程。单靠对话框里聊天玩不出生产力。

3、最重要的不是工具，是业务知识库

先泼个冷水——光接上 MCP 不会直接起飞。我一开始也以为把工具接好，AI 就能自己跑起来，结果 AI 查着查着就懵了：它根本不知道你家的业务长啥样。

我们系统是微服务架构，十几个服务互相调用。AI 一开始看到一个 case 失败，它不知道这个接口背后要调几个服务、先后顺序是啥、哪个服务挂了会影响哪个。

真正的转折点，是我花了不少时间整理业务知识库。

每个微服务是干啥的
服务之间的调用链关系
关键的数据流
每个泳道对应的环境配置

把这份知识库喂给 AI 之后，它就开窍了。现在排查一个 case，它能自己推理出应该去哪个服务拉日志、为什么这个服务的异常可能导致上游那个 case 挂掉。

Skill 的核心逻辑大概是这样：

看到失败 case，先定位涉及的服务
去对应泳道拉这几个服务的日志
看日志关键字，判断是不是配置问题 → 去查 Apollo
怀疑缓存问题 → 去查 Redis
怀疑数据问题 → 查 db
综合所有信息，给出结论和下一步建议

是不是跟我以前手动干的事一模一样？对，就是一模一样。区别是——我现在不用干了。

4、顺便打脸一下"AI 无用论"

这段时间各种地方都能看到有人说"AI 写不了生产代码"、"AI 就是玩具"、"我用某某 AI 工具没感觉"。

我就想问——你真的按"工作流"在用 AI 吗？还是只是在对话框里瞎聊？

把 AI 当搜索引擎用，那它确实就是个玩具。
把 AI 当成可以接工具、可以跑流程、可以自己醒来的 Agent 用，那就是生产力。

顺便说一下数据。圈子里传出来的数字——一些在 AI 上投得比较狠的公司（还不是那种头部大厂，是敢 All in 的），光 token 消耗就已经到百万级 RMB 了。

这钱是白花的吗？老板不是傻子。要是没有明确的 ROI，不可能让这个数字一直往上涨。

友商也都在卷。某头部大厂的飞书通知里已经在做"线上反馈自动进来，AI 自动修复"的链路——人只是最后 review 一下合不合并。

这不是未来，这是现在。

5、但 AI 也不是万能的，这几个坑我踩过

写到这别以为我要吹爆 AI。实话讲，这套东西也不是一把梭。

坑 1：知识库的质量决定天花板

业务知识库写得糊弄，AI 就真的在那瞎猜。我前面说整理知识库花了不少时间，不是开玩笑——你糊弄它，它就糊弄你。

坑 2：MCP 权限要控好

AI 能读日志没问题，但你让它能改 Apollo、能重启服务？生产环境万万不要。测试泳道随便造，生产环境只读，这是底线。

坑 3：别指望一次对话搞定复杂问题

有些 case 涉及多个服务 + 时序问题，AI 一轮跑下来给的结论可能是错的，得让它继续深挖几轮。Skill 里我专门加了"如果一轮没结论，继续深入查"的逻辑。

坑 4：token 真的烧钱

前面说百万级，那是一整个公司在梭哈。个人用也别乱玩，一天烧几十块是真能做到的。按需用，别什么都扔给 AI。

总结：跟上时代步伐，摒弃古法编程

这篇文章不是要你无脑 All in AI，但是——如果你还在 2026 年坚持"古法排查"，一切靠手工、靠经验、靠肉眼，那你真的在浪费生命。

以前 QA 排查一个 case 半小时，现在 3 分钟看结论
以前老板要招 3 个 QA 的活，现在可能 1 个 QA + AI 就能干
以前测开团队的工具只是工具，现在 MCP 让工具变成 AI 的手脚

作为一个 QA，我的真实感受是：不是 AI 要取代 QA，是会用 AI 的 QA 会取代不会用 AI 的 QA。

把工具接上，把流程写下来，把业务知识喂给它。

然后——去摸鱼吧~~

本文首发于个人公众号「梨花菜」, 欢迎在评论区聊聊你的看法或踩坑经历~

7 个赞

共收到 5 条回复时间点赞

花菜 #1 · 2026年04月27日 Author

你们的 AI 落地提效了吗

仙道彰 #2 · 2026年04月27日

膜拜大佬

EternalRights #3 · 2026年04月27日

写得太实了，三件套的思路我认同。但我想说一个我们踩的更深的坑——Skill 写得再细，Agent 也不见得照着走。

我们做 OE 平台用例治理，Skill 里白纸黑字写了"必须查 Apollo 灰度配置"、"必须分析 Trace"、"必须读服务端代码"。结果呢，Agent 拿到一个品类未下发的 case，扫一眼错误码就觉得自己懂了，直接出方案写"更换城市"，Apollo 和 Trace 压根没碰。

后来我们想明白了一件事：自然语言的"必须"对 LLM 来说就是建议，不是约束。它可以遵守，也可以自己判断一句"本场景不适用"就跳过去，而且跳得心安理得。

后来真正管用的办法，不是写更多"必须"和"禁止"，而是换了个思路——在修复档案模板里加了一张"深度分析记录表"，每行两个格子：查了什么结果 / 没查是为什么。留空不行，必须填一个。品类问题明显跟灰度相关，它写不出"不适用"的合理理由，就只能老老实实去查 Apollo，把配置项和值填进去。

说白了，LLM 不怕违规，但它怕文档不完整。你让它交一份有空行的报告，它比你还难受。这比写一百条"禁止跳过"好使。

有人碰到过类似的情况吗？Agent 工具有却不调，流程写了却不走。

花菜 #4 · 2026年04月27日 Author

对

EternalRights 回复

LLM 不遵守指令，这个是必然存在的问题。实现得看你使用的什么模型，我用的 claude code + opus4.7，遵守指令效果非常好。在排问题的时候没有遇到不遵守指令的问题。反而在写代码的时候遇到，那么改怎么解决呢，使用 hooks 触发 lint 来强制检查。这个后续会有分享

EternalRights #5 · 2026年04月27日

对

花菜回复

不完全一致。我们用 claude code + opus4.7 的时候，排错场景指令遵循其实还行，但推理跳步确实碰到了。问题不是模型不听话，是它在决定要不要查 Apollo 之前，脑子里已经判了个"不适用"，hooks 根本拦不住这个判断。

所以我后来没再去加固指令，而是在输出模板里埋了一张表：每行两个格子，查了什么结果 / 没查是为什么，留空不行。它为了把表填完，就自己跑去调 Apollo 把配置项补上了。

这和 hooks + lint 不是一个层面的事。hooks 更像在管"输出合不合规"，但我们踩的坑在"推理过程有没有走"。不是一个问题。两条路不冲突，各管各的。

你说的 hooks 方案后续分享我等着看。另外好奇问一下，你们有没有试过在 hooks 里校验推理过程？就是不光检查最终输出格式，而是看 Agent 到底有没有实际调过某个工具。这个方向我们还没验证过。

需要登录后方可回复, 如果你还没有账号请点击这里注册。