前端测试 如何检查web目录中,点击的每个链接都没有问题

彭婷爽 · 2012年11月05日 · 最后由 hello 回复于 2016年02月18日 · 2896 次阅读

如何检查 web 目录中,点击的每个链接都没有问题

共收到 14 条回复 时间 点赞
匿名 #14 · 2012年11月05日

写一个爬虫,爬取页面中所有的连接,然后挨个读取就可以了。
这个事情很多公司也都在做。stackoverflow,facebook,twitter,baidu 都做了这个事情。

最好是建立一种长期的机制,收集所有的连接,定期检查连接是否有效即可。
他们都是自己写爬虫去收集连接,然后使用 http 协议去访问。

如果你不会编程的话,可以让大家简单写个工具给你。
我记得迅雷什么的,貌似也有爬取网站下载页面的功能,也可以试试。

如果这些连接都保存在了数据库中,那么就更容易了。就可以不用爬取了。

我下载了个 XENU,就是爬虫的,但是检查的都是外层的链接,不是目录下的每个链接,那还是得把每个链接给存起来跑,不是全部自己爬的吧?

匿名 #12 · 2012年11月05日

#2 楼 @shuang 你指的是你们自己的连接,还是用户发的连接?

如果是自己的连接,需要通过其他的方式去爬下,爬虫不一定能爬取完成。
这个可以通过工具分析具体目录下的文件。然后挨个通过 web 访问来验证。

对于 rails,php 之类的,可能目录下的文件,跟 web 页面还不对等,需要具体的场景具体的分析了。

网站里面目录下的每个链接

@seveniruby 就是,开发在瘦身代码,确保他瘦身后,最起码的链接都还是正常的能打开,不用手工一个一个点击,还得等页面打开

匿名 #6 · 2012年11月05日

#4 楼 @shuang 用 shell 命令或者 cmd 也可以。先找到所有的文件,然后通过工具访问验证下。

@seveniruby 就是验证那一块过不去,不知道怎么弄?

用什么工具?

匿名 #9 · 2012年11月05日

#7 楼 @shuang 如果是带有验证,这个就麻烦点了。需要自己编程实现。

建议是分成收集连接,验证,和访问三个部分。

连接:使用爬虫,find 命令都可以,总之使用一种可以收集所有连接的方法就可以了。然后保存起来。

验证:使用 curl 工具或者其他的模拟浏览器的工具就可以通过验证。不要使用图形界面的工具。selenium 不合适,htmlunit 或者 phantomjs 都可以。根据你验证的方式不同,可能做法也不同。

访问:跟雁阵一样,只是访问即可。

恩,我先试试,谢谢~

匿名 #4 · 2012年11月14日

#10 楼 @shuang

如何检查 web 目录中,点击的每个链接都没有问题
用 selenium 好实现吗?

尽量不要使用图形界面。
1、curl 工具。直接 shell 编程实现最简单。
2、htmlunit 或者 phantomjs 这个可以得到更多的详细信息
3、使用编程语言直接 get 访问也可以,这个最麻烦

我之前用 watir+httpwatch 将所有的页面都访问一遍,通过 httpwatch 的接口获取 httpwatch 的记录值,可以判断页面中所有的连接是否都 ok。并且 httpwatch 通过的信息很多,还有其他很多信息也比较有价值。

@12楼 这个我试过,但是可能存在死循环的情况吧?

@shuang 这个你页面检查你做的怎么样啦?我现在也在看这个,可以加个好友请教一下么?

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册