最近我也赶上了爬虫测试,上线前主要做了以下几个步骤:
1、会要求代码 rebview, 然后自己也会在发布前去瞄一下代码,大致判断下逻辑是否有误。主要是之前检测时候发现一些数据的错误,就养成了这个习惯
2、检测爬虫数据是否有爬回来,以及数据准确性。--这里增加一句,我们要求爬虫不做逻辑计算,保留全部数据,数据筛选计算等在另一个对接系统处理
3、根据各种设定场景,验证爬虫数据是否正常
4、数据入库的验证
上线后,会对线上数据做追踪:
自己去写一些二次验证的脚本,对线上为空或者明显异常的数据,去验证漏抓比率,以及数据准确性等。这一步总觉得二次验证的行为很傻,但是暂时也没想到好的方案,难受