测试之家
通用技术
求解,怎么去比对爬虫的结果?
社区
问答
招聘
社区学堂
新
开源项目
活动
Wiki
注册
登录
通用技术
求解,怎么去比对爬虫的结果?
杜康
·
2016年08月31日
· 最后由
gang
回复于
2016年09月11日
· 1940 次阅读
项目是爬虫性质的,对 n 个站点爬取内容,结果有上万条数据
需要测试对内容的完整性和有没有漏采进行鉴定
怎么去做呢?
共收到
2
条回复
时间
点赞
法布雷加斯
#1
·
2016年09月01日
可以考虑做抽样检查
gang
#2
·
2016年09月11日
感觉有点怪。提几个思路吧
完整性么,通常可以对内容进行 MD5 验证
漏采,这个不好说,因为你没有答案,所以无法判断是否漏采。。。除非已经收集好要采集的内容集合了,才能判断吧。如果是这样 case,主要有个命名规范就可以了,逐个遍历即可。如果不是,只能靠开发把程序写写好,各种 Exception 处理到位 溜~
需要
登录
后方可回复, 如果你还没有账号请点击这里
注册
。
杜康
@sogwsc
共收到
2
条回复
有新回复!
点击这里立即载入