AI测试用 AI 来执行测试，测试完还需要人工再检查一遍吗？

树叶 · 2026年04月07日 · 最后由今晚打老虎回复于 2026年04月14日 · 9583 次阅读

以往手搓脚本，执行完只需要看 fail/error 的，那么现在 AI 测试，测试结果为 PASS 的还真不一定是 PASS，此时我们需要人工再 check 一遍吗？
如果需要人工再 check 一遍，那么好像 AI 测试也没能提效多少？反而成为了一种负担

共收到 17 条回复时间点赞

槽神 #1 · 2026年04月07日 1 个赞

用爱不疑，疑爱不用

吹落如雨 #2 · 2026年04月07日

prompt 做好约束，temperature 可以调低点，确保调试通过的部分达到比较稳定的状态再合进仓库，一般来说不会出现大面积假 PASS 的情况

magicyang #3 · 2026年04月07日 6 个赞

如果把 AI 当人来用。
你不得先看看先看看为啥他执行失败，执行失败的原因是什么，失败的例子有没有通用性，用现有的技术和方案是否能够规避。
然后做个分类统计，哪类的可以无脑 AI，哪类的可以优化，哪类的解决不了。
非黑即白的逻辑在这个时代是很难生存的。

奇迹的迹奇 #4 · 2026年04月09日

得 check 一下吧。一般不能保证 AI 生成过程中不产生幻觉。

一代人 #5 · 2026年04月09日 1 个赞

如果出生产事故了可以找 ai 负责不用 check，反之则需要

一代人 #6 · 2026年04月09日 2 个赞

你可以加几个故意失败的反向锚点，看是否能报出来，check 不一定要人工做，可以写一些非常重要场景的硬编码用例，在 ai 测试完成后触发，用反向锚点和硬编码用例兜底
哪怕做了上述兜底，也只能尽量避免，ai+ 测试本身就互斥，不管咋样 ai 必定有幻觉，只能减少不能消除，测试又要完全可控，对需求模棱两可都是大忌，更何况结果不可预见

grily #7 · 2026年04月09日

很好奇想问下你们的 AI 主要能干哪些事情呢我们目前除了生成测试用例还不知道用它来干啥

Jerry li #8 · 2026年04月09日

红绿灯测试： https://mp.weixin.qq.com/s/49Ede9RBLjaVLrxO8JYuVw

magicyang #9 · 2026年04月10日

对

grily 回复

我岗位不是测试。
AI 目前参与的事情：

方案设计，主要是通过对话式 AI，协助确定技术方案是否可行，快速替代搜索引擎，确认可行性。
代码分析，比如喂他两个版本的源码，让他确认差异性，并总结。
单元测试设计，根据代码修改，设计单元测试方案。
测试脚本编写，并自己执行，失败自己去改。
代码补全，不想写的代码，让他自己写自己测。

目前 90% 的代码是 AI 写的，工作中大部分时间是在和 AI 扯皮，指出他哪里错了，你不要给我这么干。虽然有时候还是很蠢，但客观来说已经可以提升效率 N 倍了，更扎心的是，大部分人写的代码，包括我自己其实还不如 AI。。。

GL #9 · 2026年04月10日

对

magicyang 回复

这也算是最常用的了，目前对应真的迷茫如何处理接下来的工作

一代人 #11 · 2026年04月10日

一般都是让 ai 写代码吧，昨天让 ai 写了个新接口的接口测试，边写边改，效率能快不少

威猛的柴可夫 #12 · 2026年04月10日

对

magicyang 回复

现在搞时间序列算法...我是感觉我写的没 ai 给我得好，已经两周不写一行代码了，只做结果 check。。。

magicyang #13 · 2026年04月10日

对

威猛的柴可夫回复

我现在懒到结果 CHECK 都交给 AI 了。尤其是初版。。。真改的时候还需要手测一下。
长文记忆缺失，怎么压缩前文可能还做的不够好。

威猛的柴可夫 #14 · 2026年04月13日

对

magicyang 回复

我感觉 ai 要做到非常完善的压缩前文，上下文，要参考大脑的存储了，比如我们记忆东西，很多东西就是长久灌输，有了外部环境的灌输才知道的，虽然现在参数还没我们大脑神经元突触的数量级那么大，但是我感觉把，真要到这个指数级了。开放云端的 ai 个体互相互补，真就是一个群居社会 ai 的雏形了，真就云上大脑了，想想都贼恐怖，毕竟不知道某个特性的涌现效应的条件是什么，可能突然某一天就触发了这个客观存在的涌现条件了

王稀饭 #3 · 2026年04月13日 1 个赞

【测试结果为 PASS 的还真不一定是 PASS】，你都这么说了，那肯定还是需要人工再 check

【如果需要人工再 check 一遍，那么好像 AI 测试也没能提效多少？反而成为了一种负担】

现在技术行业在疯狂落实 AI 的一切根据无非是 “大家对大模型能力上限有一个极高的预期”，大家是在给未来做铺垫，或者在争未来的主导权，让自己不掉队。
所有的提效都不是一蹴而就的，本身都需要打磨，只是打磨的时间长短问题；选题方向就直接影响了可行性和打磨时长，所以这里的【AI 执行测试】具体是个啥？

zyanycall #13 · 2026年04月13日

你搞错了吧，有确定答案的肯定还是 true 和 false 的断言，这个不用变啊。
不确定答案的，你想说大模型的幻觉吧，这部分都是一般是人工抽检 + 另一个更厉害的大模型做判断（时间长）。另外你得想办法降低大模型的幻觉啊，比如 RAG、长文本、多轮会话下的解决方案，乱答之后的报错机制等。不是来这里吐槽呀。
AI 测试目前是要把手工点点点的完全代码化（AI 效率特别高），让问题尽量的前置/左移比如 CR、单测、接口自动化、UI 自动化、数据库的对账、监控巡检等，然后手搓 agent（agent 测试开发？？）给所有人提效。你说的是断言判断的部分吧，这地方和之前一样就行。

今晚打老虎 #17 · 2026年04月14日 1 个赞

相信 AI，有问题 HR 会通知你的

需要登录后方可回复, 如果你还没有账号请点击这里注册。

AI测试 用 AI 来执行测试，测试完还需要人工再检查一遍吗？

AI测试 用 AI 来执行测试，测试完还需要人工再检查一遍吗？

AI测试用 AI 来执行测试，测试完还需要人工再检查一遍吗？

AI测试用 AI 来执行测试，测试完还需要人工再检查一遍吗？