直接来源于算法本身的业务场景,有什么素材测什么素材。
有针对性地设计测试集,拿目标检测类算法来说,可能考虑目标类别、室内室外、具体场景类型、不同光线、不同天气、安装角度、有无遮挡等,然后考虑上述要素,基于不同要素的组合结合具体的数量,形成具体测试集,对于没有的素材基于具体要求进行模拟,或者 aigc 生成。
方式一素材来源于真实用户场景,素材比较符合用户需求,但是测试集的场景比较单一,不能测出算法的泛化性,方式二能从多维度较合理的进行设计,更能测出算法的泛化性,但是可能模拟的数据与用户实际使用场景存在差异。
设计通过将诸如目标类别、室内室外、具体场景类型、不同光线、不同天气、安装角度等因素已经组合元素的配比在前端输入,自动在已有标注数据中查询满足要求的数据并按照按照需求存放,比如室内场景某目标过暗的测试集
a、当存储的数据较多,标注标签较多的时候,如何在上千万级的数据中找到对应的数据,查询速度是比较大的一个考验,还有数据拉取等问题
b、标签层级较多,当搜索到的数据很多都满足要求时,如何确定优先级
c、用户只指定目标类型,如何自动生成测试集,需要考虑哪些维度
d、标签工程量较大
已经在另外一篇帖子上有介绍,主要是辅助优化测试集:https://testerhome.com/topics/36999
将设计流程和测试集整理工作线上化和测试集评价功能形成完整的测试集管理体系,不知道这样实现可行性和收益是否可观,欢迎各位小伙伴提出宝贵意见~