AI测试 用 AI 来执行测试,测试完还需要人工再检查一遍吗?

树叶 · 2026年04月07日 · 最后由 今晚打老虎 回复于 2026年04月14日 · 8995 次阅读

以往手搓脚本,执行完只需要看 fail/error 的,那么现在 AI 测试,测试结果为 PASS 的还真不一定是 PASS,此时我们需要人工再 check 一遍吗?
如果需要人工再 check 一遍,那么好像 AI 测试也没能提效多少?反而成为了一种负担

共收到 17 条回复 时间 点赞

用爱不疑,疑爱不用😂

prompt 做好约束,temperature 可以调低点,确保调试通过的部分达到比较稳定的状态再合进仓库,一般来说不会出现大面积假 PASS 的情况

得 check 一下吧。一般不能保证 AI 生成过程中不产生幻觉。

如果出生产事故了可以找 ai 负责不用 check,反之则需要

你可以加几个故意失败的反向锚点,看是否能报出来,check 不一定要人工做,可以写一些非常重要场景的硬编码用例,在 ai 测试完成后触发,用反向锚点和硬编码用例兜底
哪怕做了上述兜底,也只能尽量避免,ai+ 测试本身就互斥,不管咋样 ai 必定有幻觉,只能减少不能消除,测试又要完全可控,对需求模棱两可都是大忌,更何况结果不可预见

很好奇 想问下你们的 AI 主要能干哪些事情呢 我们目前除了生成测试用例 还不知道用它来干啥😂

grily 回复

我岗位不是测试。
AI 目前参与的事情:

  1. 方案设计,主要是通过对话式 AI,协助确定技术方案是否可行,快速替代搜索引擎,确认可行性。
  2. 代码分析,比如喂他两个版本的源码,让他确认差异性,并总结。
  3. 单元测试设计,根据代码修改,设计单元测试方案。
  4. 测试脚本编写,并自己执行,失败自己去改。
  5. 代码补全,不想写的代码,让他自己写自己测。

目前 90% 的代码是 AI 写的,工作中大部分时间是在和 AI 扯皮,指出他哪里错了,你不要给我这么干。虽然有时候还是很蠢,但客观来说已经可以提升效率 N 倍了,更扎心的是,大部分人写的代码,包括我自己其实还不如 AI。。。

magicyang 回复

这也算是最常用的了,目前对应真的迷茫如何处理接下来的工作

一般都是让 ai 写代码吧,昨天让 ai 写了个新接口的接口测试,边写边改,效率能快不少

magicyang 回复

现在搞时间序列算法...我是感觉我写的没 ai 给我得好,已经两周不写一行代码了,只做结果 check。。。

我现在懒到结果 CHECK 都交给 AI 了。尤其是初版。。。真改的时候还需要手测一下。
长文记忆缺失,怎么压缩前文可能还做的不够好。

magicyang 回复

我感觉 ai 要做到非常完善的压缩前文,上下文,要参考大脑的存储了,比如我们记忆东西,很多东西就是长久灌输,有了外部环境的灌输才知道的,虽然现在参数还没我们大脑神经元突触的数量级那么大,但是我感觉把,真要到这个指数级了。开放云端的 ai 个体互相互补,真就是一个群居社会 ai 的雏形了,真就云上大脑了,想想都贼恐怖,毕竟不知道某个特性的涌现效应的条件是什么,可能突然某一天就触发了这个客观存在的涌现条件了

【测试结果为 PASS 的还真不一定是 PASS】,你都这么说了,那肯定还是需要人工再 check 😂

【如果需要人工再 check 一遍,那么好像 AI 测试也没能提效多少?反而成为了一种负担】

  1. 现在技术行业在疯狂落实 AI 的一切根据无非是 “大家对大模型能力上限有一个极高的预期”,大家是在给未来做铺垫,或者在争未来的主导权,让自己不掉队。
  2. 所有的提效都不是一蹴而就的,本身都需要打磨,只是打磨的时间长短问题;选题方向就直接影响了可行性和打磨时长,所以这里的【AI 执行测试】具体是个啥?

你搞错了吧,有确定答案的肯定还是 true 和 false 的断言,这个不用变啊。
不确定答案的,你想说大模型的幻觉吧,这部分都是一般是人工抽检 + 另一个更厉害的大模型做判断(时间长)。另外你得想办法降低大模型的幻觉啊,比如 RAG、长文本、多轮会话下的解决方案,乱答之后的报错机制等。不是来这里吐槽呀。
AI 测试目前是要把手工点点点的完全代码化(AI 效率特别高),让问题尽量的前置/左移比如 CR、单测、接口自动化、UI 自动化、数据库的对账、监控巡检等,然后手搓 agent(agent 测试开发??)给所有人提效。你说的是断言判断的部分吧,这地方和之前一样就行。

相信 AI,有问题 HR 会通知你的

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册