bug 描述

bug 解读

http://item.jd.com/1620261229.html
这得多低级的 Bug 啊.
Bug 来源猜测是他们的图书频道都是爬取的第三方网站的, 自己做不可能犯这么低级的错误.
可能以前爬取是 OK 的. 后来其他网站做了修改, 调整了样式. 然后京东的爬虫在解析 html 结构的时候就解析错了.
直接结果就是把人家的 html 也给爬取过来了.

bug 影响范围

用 Google 定位搜索下


发现受影响的范围并不大, 只是少数的商品. 猜测是京东发现过这个问题,然后进行了修复, 但是仍然漏掉了极少数的数据.

京东爬取当当数据的证据

追踪特定的关键词发现了如下有趣的东西
这是有人贴了求助帖子.

这是当当的 html 页面结构. 而当当的就没事, 这似乎表明了 京东爬取了当当 的数据

更多 bug 详情



↙↙↙阅读原文可查看相关链接,并与作者交流