做 QA 的都懂一个痛——自动化测试天天跑,跑了一万个 case,其中有几个偶尔挂掉。结果呢?没人看。没人看跟没跑有啥区别?
但是!让你老老实实去排查一个自动化失败的 case,真的能把人烦死。
以前我的流程长这样:
坑次坑次干下来,一个 case 排查完半小时打底,多的能干一上午。
自动化天天跑,如果失败的 case 没人及时看,那跑它干嘛?但是让我一直手动这么查,我自己都烦。
直到我把 AI 塞进这个流程之后,整个世界都变了。
现在我的工作流是这样:
就这三步。中间我啥都不用干。AI 自己去拉日志、自己看 Apollo、自己查 Redis、自己对比泳道配置、自己总结原因给我。
最骚的是啥?Jenkins 有时候构建要跑半天,AI 会自己说一句"排程 25 分钟后再查",然后它就真的 25 分钟后自己醒来继续查。
第一次看到 Claude Code 自己醒来接着跑的时候,我发群里一句:"真不错啊,他真的自己醒来了"——那种感觉跟你养了个电子员工没区别。
群友直接来一句:"你太猛了,你把测开团队的活都干了,测开团队都干嘛?"
这话我没法接,但是——真的爽。
这套东西能跑起来,不是靠单点,是靠三个东西咬合。
Claude Code 负责执行
是主脑。接收任务、调工具、拿结果、出结论。它自带的定时唤醒能力是灵魂,让它能自己醒来看 Jenkins。
MCP 负责打通运维能力
这个是关键。光有 Claude Code 没有手脚也是白瞎。MCP 把我们测开组 + 运维组的能力全打包给 AI:
Skill 负责把流程固化
光有 MCP 也不够,AI 不知道该先查啥后查啥。Skill 就是我把"一个 QA 排查失败 case 的最佳实践"写成了一份标准流程,让 AI 照着跑。
这三件套缺一不可。很多人说"我用了 Cursor 没啥感觉"——那是因为你只拿了主脑,没有手脚、没有流程。单靠对话框里聊天玩不出生产力。
先泼个冷水——光接上 MCP 不会直接起飞。我一开始也以为把工具接好,AI 就能自己跑起来,结果 AI 查着查着就懵了:它根本不知道你家的业务长啥样。
我们系统是微服务架构,十几个服务互相调用。AI 一开始看到一个 case 失败,它不知道这个接口背后要调几个服务、先后顺序是啥、哪个服务挂了会影响哪个。
真正的转折点,是我花了不少时间整理业务知识库。
把这份知识库喂给 AI 之后,它就开窍了。现在排查一个 case,它能自己推理出应该去哪个服务拉日志、为什么这个服务的异常可能导致上游那个 case 挂掉。
Skill 的核心逻辑大概是这样:
是不是跟我以前手动干的事一模一样?对,就是一模一样。区别是——我现在不用干了。
这段时间各种地方都能看到有人说"AI 写不了生产代码"、"AI 就是玩具"、"我用某某 AI 工具没感觉"。
我就想问——你真的按"工作流"在用 AI 吗?还是只是在对话框里瞎聊?
把 AI 当搜索引擎用,那它确实就是个玩具。
把 AI 当成可以接工具、可以跑流程、可以自己醒来的 Agent 用,那就是生产力。
顺便说一下数据。圈子里传出来的数字——一些在 AI 上投得比较狠的公司(还不是那种头部大厂,是敢 All in 的),光 token 消耗就已经到百万级 RMB 了。
这钱是白花的吗?老板不是傻子。要是没有明确的 ROI,不可能让这个数字一直往上涨。
友商也都在卷。某头部大厂的飞书通知里已经在做"线上反馈自动进来,AI 自动修复"的链路——人只是最后 review 一下合不合并。
这不是未来,这是现在。
写到这别以为我要吹爆 AI。实话讲,这套东西也不是一把梭。
坑 1:知识库的质量决定天花板
业务知识库写得糊弄,AI 就真的在那瞎猜。我前面说整理知识库花了不少时间,不是开玩笑——你糊弄它,它就糊弄你。
坑 2:MCP 权限要控好
AI 能读日志没问题,但你让它能改 Apollo、能重启服务?生产环境万万不要。测试泳道随便造,生产环境只读,这是底线。
坑 3:别指望一次对话搞定复杂问题
有些 case 涉及多个服务 + 时序问题,AI 一轮跑下来给的结论可能是错的,得让它继续深挖几轮。Skill 里我专门加了"如果一轮没结论,继续深入查"的逻辑。
坑 4:token 真的烧钱
前面说百万级,那是一整个公司在梭哈。个人用也别乱玩,一天烧几十块是真能做到的。按需用,别什么都扔给 AI。
这篇文章不是要你无脑 All in AI,但是——如果你还在 2026 年坚持"古法排查",一切靠手工、靠经验、靠肉眼,那你真的在浪费生命。
作为一个 QA,我的真实感受是:不是 AI 要取代 QA,是会用 AI 的 QA 会取代不会用 AI 的 QA。
把工具接上,把流程写下来,把业务知识喂给它。
然后——去摸鱼吧~~
本文首发于个人公众号「梨花菜」, 欢迎在评论区聊聊你的看法或踩坑经历~