在进行算法模型测试的时候,我们一般是需要通过一些客观指标来反映模型算法的好与坏,对于客观指标的选择来说一般也是有一定的规则,比如说:
对于不同的算法类型,比如说分类模型或者回归模型,对其进行评价一般是要选择不同的指标;
对于一些算法来说,一个指标是不够的,通常需要多个指标联合对其进行评价,或者在不同的测试集上同时进行评价才有意义。
比如说对于人脸识别算法来说,通常是需要同时考虑算法的 FAR(False Accept Rate,表示把不同的人认为是同一个人的概率) 和 FRR(False Reject rate,表示把同一个人的多张图片当成是不同人的概率) 指标。我们的理想是要同时让 FAR 和 FRR 都很低,但在实际情况中,比较难,这时候就需要做一个取舍。一般是在一个固定的 FAR 下,尽可能降低 FRR 的概率。
这里再举一个真人活体检测的例子,对于活体检测,是要将真人识别为真人,纸张、纸张等识别文假体。对于该算法的评判就需要同时在真人测试集和攻击测试集中同时得到低误识率。但是在一般情况下,真人误识率降低通常都会带来攻击误识率的提升;反之亦然。因此就需要在不同的测试集上对算法同时进行评价。
最后一点就是要结合实际的业务场景,选择合适的评价指标。有可能现有的一些评价指标是不满足的,这时候就需要自己进行一些设计或者阅读一些相关的论文,设计一些具有业务特色的评价指标。