作者 | 李龙成

背景

线上前端 node 服务器 cpu 占满，导致访问质检报告报错，需要对线上的质检报告服务进行压力测试，了解最大并发数，以应对访问量的增长。

目的

测试工具

生产厂商/自产	工具	用途	版本
Apache	jmter	产生负载	4.0

压测接口

接口类型	接口地址
前端接口	https://*.com/youpin/next/qcreport
服务端接口	https://*.com/business/api/ypqc/report

压测场景

序号	最大并发数	访问递增方案	最大并发持续时间	观察指标
场景一	100	每秒增加 10 个	10min	响应时间、TPS、事物成功数
场景二	500	每秒增加 10 个	20min	响应时间、TPS、事物成功数
场景三	1000	每秒增加 20 个	20min	响应时间、TPS、事物成功数

支持人员
在服务的保证上，我们分别告知了相关服务的责任人，比如 Nginx、Mysql、ZZRedis 和同台机器上服务的负责人，告知他们我们的压测计划，叫他们留守或者给出应急的处理方案，万一压测的过程中，相关服务挂了，可以快速恢复，防止造成大范围影响。

在做压测的时候，需要对线上的服务器性能进行监控，我主要用 Spotlight 进行监控，由于转转的服务器都是通过堡垒机进行登录的，所以想监控机器需要做免密登录和端口转发，配置方式如下：

这里主要对其中一个前端问题进行分析
场景描述：每秒启动 10 个线程，最多起 100 个，最大并发情况下持续运行 10 分钟
前端接口测试结果：业务吞吐量

前端服务器监控：

前端服务器 cpu 已经到达 100%
后端接口测试结果：业务吞吐量

后端服务器监控：

从整个测试过程看:

问题排查:

分析服务器请求连接数通过 spotlight 我们发现请求连接数达到 6000 多，而我们的 qps 是远远小于 6000，猜测很可能是每次请求都建立了新的链接，连接一直没有及时释放，所以第一个优化点我们就在前端和后端建立连接的时候采用了长连接的形式（建立连接的时候添加 keep-alive 参数），复用连接，较少连接数
查看 nginx log 通过分析 nginx log，我们发现有些接口耗时是比较长的，而 node ssr server 是需要等待这些接口返回数据后才能把计算好的渲染结果返回给用户，跟相关后端同学商量，提升接口质量，同时我们把 timeout 从 5s 改为 1s

结论:

↙↙↙阅读原文可查看相关链接，并与作者交流