导读

可预见的未来数据分析和机器学习将成为工作中必备技能，也许已经在某个项目中讨论怎么调参优化，就像过去讨论如何优雅的写 python、如何避免 C++ 内存泄露一样常见。

一、简单介绍聚类算法

1、聚类的定义

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。

2、聚类的基本思想

给定一个有 N 个对象的数据集，构造数据的 k 个簇，k≤n。满足下列条件：

每一个簇至少包含一个对象；
每一个对象属于且仅属于一个簇；
将满足上述条件的 k 个簇称作一个合理划分。

对于给定的类别数目 k，首先给出初始划分，通过迭代改变样本和簇的隶属关系，使得每一次改进之后的划分方案都较前一次好。

3、相似度/距离计算方法总结

4、K-means 算法

K-means 算法也被称为 k 均值，k 值的选择、距离度量及分类决策是三个基本要素。

假定输入样本为 S=x1,x2,...,xm，则算法步骤为：

选择初始的 k 个类别中心μ1μ2…μk；
对于每个样本 xi，将其标记为距离类别中心最近的类别；
将每个类别中心更新为隶属该类别的所有样本的均值；
重复最后两步，直到类别中心的变化小于某阈值。

中止条件：

迭代次数/簇中心变化率/最小平方误差 MSE(MinimumSquared Error)

5、一个简单的例子

二、项目实战

某专项测试实际业务中，海量样本为同一病毒类型，如何落地为本地能力将是挑战，所有样本都处理工作量大且重复性高，只处理高热样本会落入长尾困境，如果能将 N 个样本通过特征聚类为 K 类，报毒覆盖 K 类则理论会达到覆盖整体的能力，无论效率和产品能力、自动化上都将有收益。

具体的思路如下：

数据清洗：提取相同病毒名的文件
特征提取：提取多维度文件静态特征
聚类：K-means，目标聚类覆盖该类型病毒特征
特征验证：k 个特征对 k 个子编写特征验证通杀性
工具包：NumPy、SkiPy、 Pandas、Skikit-Learn

1、数据清洗

PE 文件结构和样本特征的关系：常用的恶意文件一般都是基于格式分析，从 PE 文件格式分析来提取文件特征符合业务特征。

这里使用本人在 filefuzz 项目里封装的 pe 解析模块来处理，拉取某报毒类型样本 5722 个, 去除坏 PE 后解析出下列参数做为维度参数
NumberOfSections,SizeOfCode,BaseOfData,ImageBase,SizeOfImage,SizeOfHeaders
,IMAGE_DATA_DIRECTORY[16],IMAGE_DIRECTORY_ENTRY_IMPORT