通用技术 求解,怎么去比对爬虫的结果?

杜康 · 2016年08月31日 · 最后由 gang 回复于 2016年09月11日 · 1940 次阅读

项目是爬虫性质的,对 n 个站点爬取内容,结果有上万条数据
需要测试对内容的完整性和有没有漏采进行鉴定
怎么去做呢?

共收到 2 条回复 时间 点赞

可以考虑做抽样检查

感觉有点怪。提几个思路吧

  1. 完整性么,通常可以对内容进行 MD5 验证
  2. 漏采,这个不好说,因为你没有答案,所以无法判断是否漏采。。。除非已经收集好要采集的内容集合了,才能判断吧。如果是这样 case,主要有个命名规范就可以了,逐个遍历即可。如果不是,只能靠开发把程序写写好,各种 Exception 处理到位 溜~
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册