测试驿栈-由浅入深学性能 学会用 Jmeter 爬虫获取修仙秘籍!

飞天小子的性能课堂 · 2021年10月10日 · 最后由 点点点工程师 回复于 2021年10月13日 · 7007 次阅读

概述

Jmeter 可以实现网络文章的爬虫。将所有文章分类保存到本地文件中,并以文章标题命名
它原理就是对网页提交一个请求,然后把返回的所有值提取出来,利用 for 循环去实现遍历读取。下面来介绍一下如何操作

一级目录获取

首先我们对一个站点发起请求,观察一下返回值可以发现中间有很多大标题,这些大标题都是 href 标签,他们作为超链接可以跳转到下一级子目录


我们用 Xpath 提取器获取全部 href 标签,通过 Foreach 控制器遍历提取到的 href 标签内中文标题,并传给下一个请求,相当于对 1 级目录做了一次点击操作。

紧接着我们就进入了 2 级目录。

二级目录获取

在上一个 for 循环下面再套一个 for 循环,作为 2 级目录遍历。循环触发 url,相当于对所有 2 级目录做了一次点击操作

进入 2 级目录之后,就是所有文章的标题了。

最终文本提取

我们在 2 级 for 循环下面套入最后一层循环,用来遍历获取所有正文并保存到本地

难点在于,需要按照标题的层级关系来创建文件目录,并把超链接之后的文本正确保存到对应的文件目录之中

整体结构




文档都已经上传到飞书知识库,自由阅读

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
共收到 2 条回复 时间 点赞

很棒,脚本可以分享学习下吗

我更关注的是修仙成果😆

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册