我的一些拙见,如果需要测大模型应用,建议学习一些大模型基本知识,可以参考下高飞总的博客:https://testerhome.com/articles/38557
这个可以明确下获取大模型的途径,如果是调用官方接口,那么需要考虑到接口异常后业务侧的展示等,如果是公司内集群部署,需要考虑集群异常和故障自恢复能力。需要对大模型应用入口稳定性关注。底层文档性关注后,那么则对业务尽场景可能测试异常场景。
除了关注产品文档上那一点黑盒的东西
外,还应该关注研发处理提问用户词的逻辑。还有根据词抽取数据(模型数据/私有化数据/向量数据)的正确性(抽取数据是否符合预期)和数据展示安全性(敏感数据/歧视性数据是否能够拒绝回答,和敏感字段的脱敏展示策略)。总的来说,除了大模型本身的能力外,需要重点关注业务层结合模型处理的业务逻辑的处理规则。
听了下,真不错
依靠 Bug 数量衡量?