公司属于创业型公司,由于人手关系,我一人负责该系统的测试。本系统是为某大企业而做的安全系统的某个子系统
为期一年的测试大概可以分 3 个阶段:
1:验证系统的分析功能准确程度;(2015 年 4 月至 7 月)
2:对系统分析能力进行性能测试,找出瓶颈口(2015 年 8 月至 11 月)
3:真实的客户现场的问题处理(2015 年 12 月至 2016 年 3 月)
① 蓝盾服务器作用:使用 whireshark 抓取并保存流量数据包,其镜像口与交换机的镜像口相连,经过交换机的流量同时会流向蓝盾服务器。蓝盾服务器每 5 分钟保存一个数据包,当数据包数量达 20 个后,自动删除最旧的数据包,保存最新的数据包,从而保障磁盘容量。
② 流量分析服务器以 FTP 的方式,从蓝盾服务器下载数据包并进行分析。
③ 管理服务器:用户的日常操作都在此进行,包括新增、编辑、删除、查看规则及查看分析的结果。
④ 数据库互为同步:流量分析服务器与管理服务器的数据库为主从同步。
管理服务器为主,流量分析服务器为从:用户在管理服务器对流量规则进行新增后,记录马上同步到流量分析服务器,同理,编辑、删除也会马上同步,流量分析服务器根据其数据库的记录进行分析流量。
流量分析服务器为主,管理服务器为从:流量分析服务器分析得到的结果是保存在其数据库中。当结果写入库中,马上同步到管理服务器,用户就能够马上知道分析结果。
原理:手提电脑代替交换机,其网口连接蓝盾服务器的镜像。
探究在巨大流量的情况下,流量分析系统的分析能力瓶颈口在哪里
是否存在延迟告警,例如 9 点触发的告警,10 点才显示出来
手提电脑需要安装软件 --- 科来
作用:播放流量数据包。
这样手提电脑就代替了交换机,往蓝盾服务器不断发送数据包。
将触发告警规则多的数据包添加到科来的数据包播放器,播放速度调至最高,开始播放。
不断增加播放器的数量,并观察随着流量的增大,流量分析系统的工作情况。
随着流量增大至 7M 每秒时,系统开始越来越不稳定,并产生错误日志;当流量增大至 9M 每秒时,系统已经无法工作。
系统无法工作,是因为流量数据包容量大,分析程序读取时间太久,导致连接失败,从而无法再进行进一步的分析工作。
解决办法:分析程序在读取数据包前,首先使用多线程,将数据包切割成多个 20M 的小数据包,然后逐个按顺序读取并分析这些小数据包。
除此之外,我还让开发不断优化系统的分析能力。
蓝盾服务器每 5 分钟保存一个流量数据包,下图是存放在蓝盾服务器的数据包,流量分析服务器按顺序下载数据包(eg:流量分析系统下载并分析完 16 数据包后,就下载 17 数据包)。
以上图为例,当流量分析系统分析完 09 数据包后,用户将其关闭,关闭后的系统停止工作。
等到一段长时间后,再次启动系统。此时蓝盾服务器已经抓取并成功保存 18 数据包了,但是系统启动后是按照顺序下载 10 数据包。
如果 18 号数据包中存在触发流量规则的访问记录,那么就会造成告警延时,因为流量分析系统要按顺序下载数据包进行分析。
每个保存下来流量数据包的容量与流量是成正比的,如果那段时间流量好大的话,造成告警延时更加严重。
所以我提出建议:当流量分析系统重启后,立即下载蓝盾系统当前最新的数据包。