AI测试 大家所在公司在测试领域都有哪些 AI 方面的实践?有哪些已经产生了不错的效果?对于 AI 提效/带来新的保障手段信心如何?

Mr.CHEN · 2024年10月17日 · 最后由 40岁的测试小学生 回复于 2024年11月09日 · 9934 次阅读

先抛砖引玉下,我们团队今年在 AI 方面主要的实践方向、挑战和基本成果如下:
1.功能用例生成
方案:基于产品需求和 prompt 生成功能用例(相关功能已集成到用例管理平台)
困难:
1).需求本身的质量(一句话需求、碎片化需求)
2).PRD 文档形式各异(原型图中标注、简单的截图标注等,需要 QA 人为转换为文本才能生成用例)
效果:
1).相对通用的需求(业务领域相关性弱),用例生成质量尚可
2).整体收益看鉴于需求本身的质量、即便提供了业务知识库的情况,效率和效果也谈不上有提升

2.接口自动化用例生成
方案:基于接口文档 + 接口框架知识库 +prompt 示例
效果:
1)接口文档规范性足够好的话,仿写的效果还是可以的
2)整体收益看,在有大量接口需要生成用例模版的背景下,效率上还是有所提升的
困难:
1.生成的用例数据部分仍需要手工替换(对于业务数据的依赖,这点 AI 似乎无能为力)

3.代码扫描
方案:针对历史线上问题,梳理出研发易犯错的代码问题,形成检查规则(同时会搭配开源扫描工具使用),集成到流水线结合代码 DIFF 和大模型对代码进行 check
效果:
1).成本低,收益还是可以的(目前主要应用在 C++ 项目上)
困难:
1).增量代码往往缺少上下文,会导致出现漏检的情况
2).生成的报告每次需要人工 check 排除干扰

4.测试报告生成
方案:
1).重点让 AI 基于 BUG 数据进行数据分析,给出风险提示和分析结果
效果:
1).由于给 AI 提供的信息有限,生成的结论比较泛,仍需要加入人为的分析结论

5.其它还有 AI 需求分析、需求评审、数据库表设计评审等

共收到 19 条回复 时间 点赞

根据我听完李宏毅《生成式 AI 導論》的课程,我感觉想把现在的生成式 AI 用在测试提效上的人,本质上就是不了解什么是生成式 AI

用不了多久就落灰了,不过折腾了总比不折腾强。

效果就是年底绩效可能会好点

1、安全审核
2、AIGC 评测
3、需求风险评估
4、case 生成
5、智能自动化(客户端、API)
6、智能单测

我是这么理解,分析一件事情 AI 可不可以做,先分析这个事情由哪些组成的吧,打个不恰当的比方,比如买股票,你可以分析走势、资金出入等相关公开的信息,这些都是有机会拿到的数据,把这些数据根据一定的格式丢给特定培训的大模型,做股票分析,甚至给出推荐哪支股票

给 lz 总结下,没啥效果。。。也没练技术。

sir 回复

AI 做不到这个,生成式 AI 就像摇骰子一样,去生成下一个字。准确度根据大模型的参数量,精确度只能通过训练资料的质量 + 大量的人为纠正 + 大量的人为评价答案 去优化。所以在股票领域,根本就不可能通过大模型去分析,因为股票是没规律的,特别是 A 股

AI 写的用例可以帮你做出好看的数据,比如领导 PPT 上 XX% 的用例已经用 AI 编写,反正他们又不看用例质量的。

具体实际效果如人饮水,冷暖自知。叫得越凶的,往往是离一线越远的。

直接通过 AI 查问题...最不错

lz 能否具体点儿,痛点在哪里?你想怎么解决?但是收益不好到底哪些?寥寥几句,没出来怎么回事儿。

你们那功能用例生成使用后提效效果如何?
我们这总体来说写用例方面能提效百分之三四十吧。

具体是怎么提效的? 能衡量出三四十的帮助

大家应该都知道我在 AI 行业里干了很多年了,那猜猜为啥我从来没写过把 AI 应用到测试领域的帖子。。。。。。而且我十分担心哪天我领导脑子一抽跟我们说去研究一下把 AI 落地在测试工作里,那我撞墙的心都有了。 做 AI 这一行的时间越久, 对 AI 落地在测试领域内这件事就越绝望😂

孙高飞 回复

一个好的 AI,是不是得第一步用高质量资料给到模型 (开源的 Llama) 训练找到合适的参数,第二步需要人工去标注大模型生成的答案哪个是正确的,第三步需要大量的用户去判断生成的多个答案哪个是更贴近他们问的场景的。能做到这三步的,基本就是开发一个产品的流程了,单凭测试去做根本不可能

嗯, 你说的其实就是 AI 的基本流程, 数据采集->数据标注->特征工程与模型训练->模型评估。 AI 落地需要采集高质量数据,需要大量的标注人员, 需要机器和 GPU, 这些都是成本,都是钱。 AI 落地在测试领域内不是技术问题,是钱的问题。

举这么一个例子,AI 要落地的标准,假如是要在场景中最低达到 80 分的效果。 那么其实绝大多数的模型可以达到 60 分,我们就随便用个 gpt 或者千问,或者百川,都能把效果堆到 60 分,甚至是 70 分。 但要达到期望的 80 分将要付出巨大的成本,也许有些同学说有 60 分那就先用着呗, 但现实是不起码达到 80 分你是推广不出去的。 就好像无人驾驶这个技术其实是不难的, 很多公司都可以做到让车在很多路况下安全驾驶,但想做到 100% 路况下都能做到安全驾驶, 恐怕目前全世界都没人能给自己的产品打这个包票。而你不做到在 100% 的路况下都能安全驾驶的话, 又有谁敢买你的车。 萝卜快跑说是无人驾驶但也得配安全员在远程监控呢。

编写用例的时间,从感知上就能缩短,
以前一天能写完某个需求版本一半功能的用例,现在一天基本就写完了

magicyang 回复

50% 咋来的?

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册