http://item.jd.com/1620261229.html
这得多低级的 Bug 啊.
Bug 来源猜测是他们的图书频道都是爬取的第三方网站的, 自己做不可能犯这么低级的错误.
可能以前爬取是 OK 的. 后来其他网站做了修改, 调整了样式. 然后京东的爬虫在解析 html 结构的时候就解析错了.
直接结果就是把人家的 html 也给爬取过来了.
用 Google 定位搜索下
发现受影响的范围并不大, 只是少数的商品. 猜测是京东发现过这个问题,然后进行了修复, 但是仍然漏掉了极少数的数据.
追踪特定的关键词发现了如下有趣的东西
这是有人贴了求助帖子.
这是当当的 html 页面结构. 而当当的就没事, 这似乎表明了 京东爬取了当当 的数据