测试之家
通用技术
求解,怎么去比对爬虫的结果?
Topics
QA
招聘
社区学堂
新
开源项目
活动
Wiki
Sign Up
Sign In
通用技术
求解,怎么去比对爬虫的结果?
杜康
·
August 31, 2016
· Last by
gang
replied at
September 11, 2016
· 2266 hits
项目是爬虫性质的,对 n 个站点爬取内容,结果有上万条数据
需要测试对内容的完整性和有没有漏采进行鉴定
怎么去做呢?
共收到
2
条回复
时间
点赞
法布雷加斯
#1
·
September 01, 2016
可以考虑做抽样检查
gang
#2
·
September 11, 2016
感觉有点怪。提几个思路吧
完整性么,通常可以对内容进行 MD5 验证
漏采,这个不好说,因为你没有答案,所以无法判断是否漏采。。。除非已经收集好要采集的内容集合了,才能判断吧。如果是这样 case,主要有个命名规范就可以了,逐个遍历即可。如果不是,只能靠开发把程序写写好,各种 Exception 处理到位 溜~
需要
Sign In
后方可回复, 如果你还没有账号请点击这里
Sign Up
。
杜康
@sogwsc
共收到
2
条回复
有新回复!
点击这里立即载入