一直以来都希望机器学习或者深度学习能够应用到测试领域中,最近刚好在项目中使用了机器学习算法,最终得到的结果还不错。
其实做起来比较简单,项目背景是我们需要做一个分类任务。通过查找一些资料才知道这个任务是由一些国际标准的,不过标准里面的分类很细,有 200 多种。但是对于我们这个项目来说,其实分成 8 类或者 10 类就能满足需求。
刚开始的想法比较朴素,就是从这个国际标准的 200 多个类别中挑出 8 类,这时候问题就来了:
首先就是很费时,200 多个类别看过去,眼睛都看花了;
其次就是不同人挑出来的都是不一样的,太依赖于个人。
然后就想怎么解决这些问题,能够既快又能够有一个统一的标准,后来就想到了聚类算法。
这个问题的本质其实就是把 200 多个类别进行聚合,最终形成只有 8 类或者 10 类。
想到这里,接下来就简单了。选择不同的聚类算法就行了,最终选择了 Kmeans 聚类,这个是一个无监督的聚类算法,同时最终类别的个数也可以随意指定。
通过聚类算法,既解决了效率问题,又统一了标准,一举两得。