测试驿栈-由浅入深学性能 学会用 Jmeter 爬虫获取修仙秘籍!
「原创声明:保留所有权利,禁止转载」
概述
Jmeter 可以实现网络文章的爬虫。将所有文章分类保存到本地文件中,并以文章标题命名
它原理就是对网页提交一个请求,然后把返回的所有值提取出来,利用 for 循环去实现遍历读取。下面来介绍一下如何操作
一级目录获取
首先我们对一个站点发起请求,观察一下返回值可以发现中间有很多大标题,这些大标题都是 href 标签,他们作为超链接可以跳转到下一级子目录
我们用 Xpath 提取器获取全部 href 标签,通过 Foreach 控制器遍历提取到的 href 标签内中文标题,并传给下一个请求,相当于对 1 级目录做了一次点击操作。
紧接着我们就进入了 2 级目录。
二级目录获取
在上一个 for 循环下面再套一个 for 循环,作为 2 级目录遍历。循环触发 url,相当于对所有 2 级目录做了一次点击操作
进入 2 级目录之后,就是所有文章的标题了。
最终文本提取
我们在 2 级 for 循环下面套入最后一层循环,用来遍历获取所有正文并保存到本地
难点在于,需要按照标题的层级关系来创建文件目录,并把超链接之后的文本正确保存到对应的文件目录之中
整体结构
TesterHome 为用户提供「保留所有权利,禁止转载」的选项。
除非获得原作者的单独授权,任何第三方不得转载标注了「原创声明:保留所有权利,禁止转载」的内容,否则均视为侵权。
具体请参见TesterHome 知识产权保护协议。
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!