以往手搓脚本,执行完只需要看 fail/error 的,那么现在 AI 测试,测试结果为 PASS 的还真不一定是 PASS,此时我们需要人工再 check 一遍吗?
如果需要人工再 check 一遍,那么好像 AI 测试也没能提效多少?反而成为了一种负担
用爱不疑,疑爱不用
prompt 做好约束,temperature 可以调低点,确保调试通过的部分达到比较稳定的状态再合进仓库,一般来说不会出现大面积假 PASS 的情况
如果把 AI 当人来用。
你不得先看看先看看为啥他执行失败,执行失败的原因是什么,失败的例子有没有通用性,用现有的技术和方案是否能够规避。
然后做个分类统计,哪类的可以无脑 AI,哪类的可以优化,哪类的解决不了。
非黑即白的逻辑在这个时代是很难生存的。
得 check 一下吧。一般不能保证 AI 生成过程中不产生幻觉。
如果出生产事故了可以找 ai 负责不用 check,反之则需要
你可以加几个故意失败的反向锚点,看是否能报出来,check 不一定要人工做,可以写一些非常重要场景的硬编码用例,在 ai 测试完成后触发,用反向锚点和硬编码用例兜底
哪怕做了上述兜底,也只能尽量避免,ai+ 测试本身就互斥,不管咋样 ai 必定有幻觉,只能减少不能消除,测试又要完全可控,对需求模棱两可都是大忌,更何况结果不可预见
很好奇 想问下你们的 AI 主要能干哪些事情呢 我们目前除了生成测试用例 还不知道用它来干啥
我岗位不是测试。
AI 目前参与的事情:
目前 90% 的代码是 AI 写的,工作中大部分时间是在和 AI 扯皮,指出他哪里错了,你不要给我这么干。虽然有时候还是很蠢,但客观来说已经可以提升效率 N 倍了,更扎心的是,大部分人写的代码,包括我自己其实还不如 AI。。。
一般都是让 ai 写代码吧,昨天让 ai 写了个新接口的接口测试,边写边改,效率能快不少
我现在懒到结果 CHECK 都交给 AI 了。尤其是初版。。。真改的时候还需要手测一下。
长文记忆缺失,怎么压缩前文可能还做的不够好。
我感觉 ai 要做到非常完善的压缩前文,上下文,要参考大脑的存储了,比如我们记忆东西,很多东西就是长久灌输,有了外部环境的灌输才知道的,虽然现在参数还没我们大脑神经元突触的数量级那么大,但是我感觉把,真要到这个指数级了。开放云端的 ai 个体互相互补,真就是一个群居社会 ai 的雏形了,真就云上大脑了,想想都贼恐怖,毕竟不知道某个特性的涌现效应的条件是什么,可能突然某一天就触发了这个客观存在的涌现条件了
【测试结果为 PASS 的还真不一定是 PASS】,你都这么说了,那肯定还是需要人工再 check
【如果需要人工再 check 一遍,那么好像 AI 测试也没能提效多少?反而成为了一种负担】
你搞错了吧,有确定答案的肯定还是 true 和 false 的断言,这个不用变啊。
不确定答案的,你想说大模型的幻觉吧,这部分都是一般是人工抽检 + 另一个更厉害的大模型做判断(时间长)。另外你得想办法降低大模型的幻觉啊,比如 RAG、长文本、多轮会话下的解决方案,乱答之后的报错机制等。不是来这里吐槽呀。
AI 测试目前是要把手工点点点的完全代码化(AI 效率特别高),让问题尽量的前置/左移比如 CR、单测、接口自动化、UI 自动化、数据库的对账、监控巡检等,然后手搓 agent(agent 测试开发??)给所有人提效。你说的是断言判断的部分吧,这地方和之前一样就行。
相信 AI,有问题 HR 会通知你的