Skill + MCP 工作中提效落地实战

背景

做 QA 的都懂一个痛——自动化测试天天跑,跑了一万个 case,其中有几个偶尔挂掉。结果呢?没人看。没人看跟没跑有啥区别?

但是!让你老老实实去排查一个自动化失败的 case,真的能把人烦死。

以前我的流程长这样:

坑次坑次干下来,一个 case 排查完半小时打底,多的能干一上午。

自动化天天跑,如果失败的 case 没人及时看,那跑它干嘛?但是让我一直手动这么查,我自己都烦。

直到我把 AI 塞进这个流程之后,整个世界都变了。

1、先放结论:30 分钟 → 3 分钟

现在我的工作流是这样:

  1. 自动化跑完,看到一个 case 挂了
  2. 把失败的构建链接复制,丢给 Claude Code
  3. 摸一会儿鱼,回来看结论

就这三步。中间我啥都不用干。AI 自己去拉日志、自己看 Apollo、自己查 Redis、自己对比泳道配置、自己总结原因给我。

最骚的是啥?Jenkins 有时候构建要跑半天,AI 会自己说一句"排程 25 分钟后再查",然后它就真的 25 分钟后自己醒来继续查。

第一次看到 Claude Code 自己醒来接着跑的时候,我发群里一句:"真不错啊,他真的自己醒来了"——那种感觉跟你养了个电子员工没区别。

群友直接来一句:"你太猛了,你把测开团队的活都干了,测开团队都干嘛?"

这话我没法接,但是——真的爽

2、三件套:Claude Code + MCP + Skill

这套东西能跑起来,不是靠单点,是靠三个东西咬合。

Claude Code 负责执行

是主脑。接收任务、调工具、拿结果、出结论。它自带的定时唤醒能力是灵魂,让它能自己醒来看 Jenkins。

MCP 负责打通运维能力

这个是关键。光有 Claude Code 没有手脚也是白瞎。MCP 把我们测开组 + 运维组的能力全打包给 AI:

Skill 负责把流程固化

光有 MCP 也不够,AI 不知道该先查啥后查啥。Skill 就是我把"一个 QA 排查失败 case 的最佳实践"写成了一份标准流程,让 AI 照着跑。

这三件套缺一不可。很多人说"我用了 Cursor 没啥感觉"——那是因为你只拿了主脑,没有手脚、没有流程。单靠对话框里聊天玩不出生产力。

3、最重要的不是工具,是业务知识库

先泼个冷水——光接上 MCP 不会直接起飞。我一开始也以为把工具接好,AI 就能自己跑起来,结果 AI 查着查着就懵了:它根本不知道你家的业务长啥样。

我们系统是微服务架构,十几个服务互相调用。AI 一开始看到一个 case 失败,它不知道这个接口背后要调几个服务、先后顺序是啥、哪个服务挂了会影响哪个。

真正的转折点,是我花了不少时间整理业务知识库。

把这份知识库喂给 AI 之后,它就开窍了。现在排查一个 case,它能自己推理出应该去哪个服务拉日志、为什么这个服务的异常可能导致上游那个 case 挂掉。

Skill 的核心逻辑大概是这样:

  1. 看到失败 case,先定位涉及的服务
  2. 去对应泳道拉这几个服务的日志
  3. 看日志关键字,判断是不是配置问题 → 去查 Apollo
  4. 怀疑缓存问题 → 去查 Redis
  5. 怀疑数据问题 → 查 db
  6. 综合所有信息,给出结论和下一步建议

是不是跟我以前手动干的事一模一样?对,就是一模一样。区别是——我现在不用干了

4、顺便打脸一下"AI 无用论"

这段时间各种地方都能看到有人说"AI 写不了生产代码"、"AI 就是玩具"、"我用某某 AI 工具没感觉"。

我就想问——你真的按"工作流"在用 AI 吗?还是只是在对话框里瞎聊?

把 AI 当搜索引擎用,那它确实就是个玩具。
把 AI 当成可以接工具、可以跑流程、可以自己醒来的 Agent 用,那就是生产力。

顺便说一下数据。圈子里传出来的数字——一些在 AI 上投得比较狠的公司(还不是那种头部大厂,是敢 All in 的),光 token 消耗就已经到百万级 RMB 了。

这钱是白花的吗?老板不是傻子。要是没有明确的 ROI,不可能让这个数字一直往上涨。

友商也都在卷。某头部大厂的飞书通知里已经在做"线上反馈自动进来,AI 自动修复"的链路——人只是最后 review 一下合不合并。

这不是未来,这是现在

5、但 AI 也不是万能的,这几个坑我踩过

写到这别以为我要吹爆 AI。实话讲,这套东西也不是一把梭。

坑 1:知识库的质量决定天花板

业务知识库写得糊弄,AI 就真的在那瞎猜。我前面说整理知识库花了不少时间,不是开玩笑——你糊弄它,它就糊弄你。

坑 2:MCP 权限要控好

AI 能读日志没问题,但你让它能改 Apollo、能重启服务?生产环境万万不要。测试泳道随便造,生产环境只读,这是底线。

坑 3:别指望一次对话搞定复杂问题

有些 case 涉及多个服务 + 时序问题,AI 一轮跑下来给的结论可能是错的,得让它继续深挖几轮。Skill 里我专门加了"如果一轮没结论,继续深入查"的逻辑。

坑 4:token 真的烧钱

前面说百万级,那是一整个公司在梭哈。个人用也别乱玩,一天烧几十块是真能做到的。按需用,别什么都扔给 AI。

总结:跟上时代步伐,摒弃古法编程

这篇文章不是要你无脑 All in AI,但是——如果你还在 2026 年坚持"古法排查",一切靠手工、靠经验、靠肉眼,那你真的在浪费生命。

作为一个 QA,我的真实感受是:不是 AI 要取代 QA,是会用 AI 的 QA 会取代不会用 AI 的 QA。

把工具接上,把流程写下来,把业务知识喂给它。

然后——去摸鱼吧~~



本文首发于个人公众号「梨花菜」, 欢迎在评论区聊聊你的看法或踩坑经历~


↙↙↙阅读原文可查看相关链接,并与作者交流