用 openai 是没得选。知识库大把可以选的,大把可以离线部署商用的。
IMA 还要自己去重和脱敏,成本一点都不低,明显就不是面向商用的。真不如装个 Milvus,离线,同时不用人工去重和脱敏
成本最低,正反馈最快的结论是认真的吗?刚试了下,IMA 除了好安装以外,没 openapi,又要联公网,知识库内容还要上传到他司服务器,被信安发现了工作都不保。
个人用户体验一下还可以,无法想象有对于生产资料的外发限制这么宽松的公司
目前针给稍微复杂点的业务生成一份可行的用例都很难,还是别指望 ai 做深度的漏测评估了。
你问就是 “漏测” 了,保险起见你还是测一下吧,甚至还可能带出来几十个其他 “漏测” 的场景,人是测还是不测呢。
测试覆盖面的广度是用例设计中需要考虑的,如果 A 设计用例,B 完全按照 A 的用例执行用例。后面发现场景覆盖不全导致线上问题,会找设计方 A 还是找牛马 B?
在测试过程中想起来遗漏场景的情况,我理解有两种情况:
单纯从权责的角度上来说,因为用例已经三方 review 过了且严格执行和验证了,指望在用例执行过程发现遗漏场景是不负责任的赌神行为
这个是业界难题了,能解决的人配享太庙
凭感觉哪成,制定好准入准出标准测几轮就知道差哪里了
真不是大佬
目前是用户写手工用例,之后让智能体生成代码用例去执行。
想做好这套依赖完善的基建。基建不完善是搞不定的,至少要支持:
1.实时维护的依赖数据生成器
2.查询接口声明
3.执行后影响的数据查询
4.用例维度的代码覆盖
如果是 langchain 生态,langfuse 必须要用啊!不用 langfuse 无法知道智能体的过程数据。而且 langfuse 本身也提供了评估模块可以提供回放能力。
测的话可以通过接口触发智能体,然后通过 langfuse api 接口查询对应的链路信息。 让大模型评估这次对话是否符合预期,
感谢认可,测试领域的智能探索免不了都要涉及用例生成。这个方向确实也是最好出结果的。简单搭个工作流,针对某个需求特调几天,演示时放个 prd 进去就能出一个像模像样的用例。但非特调的效果只有一线真正背质量风险的 QA 才知道了。
我这边演示也是特调的,但是和老板公开了从生成的狗屁不通到像模像样的特调过程,除了要在提示词加一堆限定,还需要不断调整知识库的分片和需求文档的细节,比把用例直接写给智能体还费劲
时隔几年冒个泡,也是希望大家谨慎入坑用例生成方向。在模型和 rag 有质量的飞跃前,出结果容易出效果难
大佬谈不上哦,个人比较建议后端 qa 做用例执行和验证方向。
只要用例明确,从接口维度是可以走通场景执行 + 验证流程的,且通用性较高,不太受业务复杂度影响。
别的不敢说太多,怕被敲门查水表