AI测试也许这有你想知道的人工智能 (AI) 测试 -- 第二篇

凌晨两点半 · 2018年08月26日 · 最后由 tester1.0 回复于 2022年10月21日 · 8067 次阅读

概述

此为人工智能 (AI) 测试第二篇第一篇链接
第一篇主要介绍了人工智能测试、测试什么、测试数据等。第二篇主要介绍测试用例和测试报告。
之后的文章可能具体介绍如何开展各项测试，以及具体项目举例如何测试。（我也不知道能不能坚持有这样输出）

说明：内容都为自己学习，以及项目思考而来，个人认知有限，所说内容不保证专业性及完全正确性。如果有造成误导，还请谅解。

测试用例

人工智能 (AI) 测试或者说是算法测试，个人认为主要做的有三件事。

收集测试数据思考需要什么要的测试数据，测试数据的标注
跑测试数据编写测试脚本批量运行
查看数据结果统计正确和错误的个数，查看错误的数据中是否有共同特征等

而编写测试用例，主要是围绕数据来进行。为更好的设计测试用例，首先需要了解一些项目的情况。这些东西如果在《需求文档》中就有描述是最好的。如果没有需要找算法工程师沟通了解。

测试用例的思考点

项目落地实际使用场景，根据场景思考真实的数据情况，倒推进行测试数据收集
模型的训练数据有多少，训练数据的分布情况，训练数据的标注是否准确
算法的实现方式
选择模型评价指标
评价指标的上线要求
项目的流程，数据流
模型的输入和输出
算法外的业务逻辑

测试用例的执行
运行测试脚本，跑测试数据。
对于一些机器学习的项目的数据，可以通过测试脚本对算法运行的结果和测试数据的标注结果进行对比。
对于图像识别类项目的数据，有些标注无法通过数值来量化，还是需要人工来对比。
对于推荐系统类项目，如多样性测试，可能也无法通过测试脚本来对比，需要人工来查看。

测试结果
通常是统计正确的和错误的数据数，使用评价指标的公式计算得出各指标数值。
同时，需要关注错误的数据，查看是否有共同的特征，再找些这样的数据单独来进行验证，是否带有此特征的数据都会识别数据。