高飞大神:
我一直在看你写的机器学习、深度学习相关的讲稿和文章,
在佩服你学习能力强大的同时,我的疑问却并未得到解决——那就是如何测试机器学习相关的算法服务?
似乎你的那些文章更多的是科普性质,却少于讲到具体如何测试。
因为与你们做机器学习平台不同的,更大众的公司运用机器学习的场景一般是:产品部门提出算法需求、算法部门实现算法并提供预测服务给应用层、应用层调用算法服务。
那么如何对这里的算法服务进行测试呢?除了接口的正确性和稳定性,对于算法本身的准确率或其他指标,应如何测试呢?
具体到我们公司,主要做自然语言处理相关的,比如一个需求是:新闻舆情情感分类(正/负/中性)。标注数据是有的,专门有实习生做标注工作,但标注质量并不保证。目前我的测试流程为:
1)首先通过抽查来检查标注质量,这一步需要人工阅读大量的新闻并判断情感正负;
2)标注质量通过,才可作为算法输入;
3)算法实现并自测准确率达到标准后提测,我通过调用其服务获取预测结果并计算准确率召回率等指标,这一步仍然要人工阅读大量的新闻并做判断。
所以感觉测试做的工作更多的是 “人工智能” 中的 “人工” 部分。请问以上我的方法是否有问题呢?有哪里可改进的地方吗?请不吝赐教!谢谢!