转转QA 基于无头浏览器的 M 页监控

笑哼 for 转转QA · May 03, 2019 · 1035 hits

作者|胡茜茜

背景介绍

转转目前有大量的H5页面。例如通过魔方后台发布的H5页面,以及在一些特定场景使用的H5页面。但是,单个活动页面少量的数据接口报错无法触发现有的报警系统。当页面出现部分元素404、样式未加载完全时,监控无法感知。以上问题,如果不及时发现并处理、单纯依靠等待用户上报,极大程度上影响用户体验,甚至造成用户流失。
对于这些页面,人工无法实时且全面监控。基于以上,我们开始使用无头浏览器对M页进行实时监控。

技术介绍

项目主要用到的技术有两点:

  • 数据爬取:使用Requests库
  • 监控实现:使用Puppeteer库启动无头浏览器 Requests库 本项目基于Python语言的Requests库进行数据爬取。 Requests 唯一的一个非转基因的 Python HTTP 库, 旨在让 HTTP 服务人类。它是爬虫中常用的HTTP库,下图为官网上的一段警告,可见Requests库使用的方便。 注册库完成后,可以很快速的完成网络请求。常用的GET请求、POST请求、设置Headers、获取结果等。下图为实现一次GET请求。 无头浏览器和Puppeteer库 本项目基于无头浏览器原理,使用Puppeteer库实现监控。 无头浏览器是通过命令行方式,启动一个不带UI界面的浏览器,虽然没有界面,但是所有的访问操作支持一个都没有少,可以拿到访问的资源及访问过程,还可以方便拿到经过Javascript和CSS执行过后的Dom树结构。 Puppeteer库是谷歌团队开发的一套操作Chrome浏览器的Nodejs框架,支持对浏览器的所有操作,支持启动无头浏览器,支持点击界面元素,支持User-Agent的模拟,支持Cookie传入等等。这样,就能满足我们各类测试和监控场景的要求。 下图展示使用puppeteer请求某一链接的过程资源。

项目介绍

实现一次监控步骤:

  • 爬取活动链接、入库
  • 建立定时任务
  • 绑定活动链接
  • 开启任务、触发监控
  • 异常报警

监控类型:

  • 对访问页面时请求的每一个资源返回状态码进行实时监控,当有错误状态码时,触发报警。
  • 对后端返回的数据进行监控,当返回数据状态码错误时,将返回的错误数据取出并报警。
  • 对Dom的分析,当标题为空时触发报警。

及时更新与实时监控:

  • 每天定时爬取魔方后台活动,新建对应任务,更新监控数据源。
  • 每五分钟执行一次任务,全天执行。

同时,还可人工新建数据、填写周期。做到指定监控链接,设置特定的监控周期。
下图为整个项目的大致流程图

实现过程

实现过程基于链接为自动爬取或人工存入而做不同的处理。首先对自动爬取的活动链接做介绍,然后在此基础上介绍人工建立的链接。
获取活动数据源:爬取魔方后台
大致步骤为:

  • 请求魔方后台
  • 获取数据
  • 数据筛选
  • 数据提取
  • 入库

请求魔方后台接口:基于爬虫技术,利用Requests库,定义Headers、Cookie等基本信息,请求魔方后台数据接口。筛选出线上正在使用的活动链接,提取需要数据,将数据入库。至此,获取本次监控数据源就大功告成了。

设置任务
魔方活动的任务设置是在获取数据源成功后自动添加。步骤如下:

  • 清空存放自动爬取链接数据表
  • 获取数据源
  • 自动创建任务
  • 关联活动链接
  • 丰富任务

    • 设置任务开始时间为当前时间
    • 设置结束时间:由于获取数据源为每天更新,设置任务结束时间为24小时后
    • 设置任务状态为执行中
    • 写入自动爬取链接任务标识

开始任务,触发监控
本项目会每5分钟扫描一次任务表,筛选出可执行并在有效期的任务,执行任务,触发监控。

  • 遍历任务表,从任务表取出任务状态为执行中的任务
  • 去除过期的任务:如果任务结束时间小于当前时间,将任务设置为已过期
  • 获取可开始执行的任务:如果任务开始时间大于当前时间,开始执行任务
  • 得到此次将要执行的任务表ID和活动ID
  • 根据自动爬取标识判断活动位于的数据表
  • 根据活动ID取出活动链接,监控页面

监控
项目基于无头浏览器、使用puppeteer库进行监控。目前主要使用的监控类型如下:

  • 监控资源请求过程中返回状态码 错误状态码:4XX、5XX
  • 监控请求数据接口返回 服务端异常:responseCode不为0

下图展示监控到的一CSS资源404错误前后对比。

异常发邮件
当监控到异常时,发送邮件。收件人在加入任务时便已设定好。
1.资源请求状态码错误邮件,如下图:

2.数据接口错误邮件,如下图:

人工添加的活动监控

  • 在人工添加的活动表写入链接
  • 在任务表添加任务,写入开始、结束时间,任务标识
  • 根据任务标识从人工添加的活动表取出数据
  • 如需登录,写入cookies
  • 进行监控

项目发展

本项目实现了对线上M的页实时监控,同时还可配合魔方后台进行回归测试。目前已监控到7个有效BUG,
如下:
1.访问资源404

  • 红包组件CSS资源404
  • 更新秒杀组件CSS资源404
  • 图片资源404 由于网络不稳定或操作异常导致的资源404。从监控数据来看,目前FE已经完全修复此问题,避免了资源请求不稳定的情况。 2.接口服务端异常 -下游异常,导致上游服务异常
  • 活动配置问题,导致查询数据异常
  • 查询下游服务异常 由于Server端实现逻辑错误或异常场景考虑不全面导致的服务端异常,RD已及时修复。

项目后续发展方向

  • 平台化:后续将本系统对接到任务平台,方便管理、增强交互。
  • 任务系统化:任务创建、定义、启动等统一管理。
  • 报告产出:多次请求异常数据、生成报告;以及整个项目的报告产出。
  • 更多的异常覆盖:增加更多异常监控类型。
No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up