概述

Jmeter 可以实现网络文章的爬虫。将所有文章分类保存到本地文件中,并以文章标题命名
它原理就是对网页提交一个请求,然后把返回的所有值提取出来,利用 for 循环去实现遍历读取。下面来介绍一下如何操作

一级目录获取

首先我们对一个站点发起请求,观察一下返回值可以发现中间有很多大标题,这些大标题都是 href 标签,他们作为超链接可以跳转到下一级子目录


我们用 Xpath 提取器获取全部 href 标签,通过 Foreach 控制器遍历提取到的 href 标签内中文标题,并传给下一个请求,相当于对 1 级目录做了一次点击操作。

紧接着我们就进入了 2 级目录。

二级目录获取

在上一个 for 循环下面再套一个 for 循环,作为 2 级目录遍历。循环触发 url,相当于对所有 2 级目录做了一次点击操作

进入 2 级目录之后,就是所有文章的标题了。

最终文本提取

我们在 2 级 for 循环下面套入最后一层循环,用来遍历获取所有正文并保存到本地

难点在于,需要按照标题的层级关系来创建文件目录,并把超链接之后的文本正确保存到对应的文件目录之中

整体结构




文档都已经上传到飞书知识库,自由阅读


↙↙↙阅读原文可查看相关链接,并与作者交流