如何检查 web 目录中,点击的每个链接都没有问题
写一个爬虫,爬取页面中所有的连接,然后挨个读取就可以了。
这个事情很多公司也都在做。stackoverflow,facebook,twitter,baidu 都做了这个事情。
最好是建立一种长期的机制,收集所有的连接,定期检查连接是否有效即可。
他们都是自己写爬虫去收集连接,然后使用 http 协议去访问。
如果你不会编程的话,可以让大家简单写个工具给你。
我记得迅雷什么的,貌似也有爬取网站下载页面的功能,也可以试试。
如果这些连接都保存在了数据库中,那么就更容易了。就可以不用爬取了。
我下载了个 XENU,就是爬虫的,但是检查的都是外层的链接,不是目录下的每个链接,那还是得把每个链接给存起来跑,不是全部自己爬的吧?
网站里面目录下的每个链接
@seveniruby 就是,开发在瘦身代码,确保他瘦身后,最起码的链接都还是正常的能打开,不用手工一个一个点击,还得等页面打开
@seveniruby 就是验证那一块过不去,不知道怎么弄?
用什么工具?
恩,我先试试,谢谢~
我之前用 watir+httpwatch 将所有的页面都访问一遍,通过 httpwatch 的接口获取 httpwatch 的记录值,可以判断页面中所有的连接是否都 ok。并且 httpwatch 通过的信息很多,还有其他很多信息也比较有价值。
@12楼 这个我试过,但是可能存在死循环的情况吧?
@shuang 这个你页面检查你做的怎么样啦?我现在也在看这个,可以加个好友请教一下么?