问答性能指标波动分析

能吃就多吃点 · 2021年09月29日 · 最后由陈恒捷回复于 2021年10月08日 · 7137 次阅读

问题：

最近需要做一个长时间的压测，大致需求是每 5s 并发 1w 个请求持续 48h，目前是通过 Python locust 分布式实现的。在压测前 15min 左右，locust 收集的 RPS 和 RT 波动较大并且有较多的 504、502 错误产生，后续基本趋于稳定。

locust 启动时孵化率是 200/s，期间我看了下荷载机的 CPU，每个核心的占用基本上不超过 70%
请问下这种情况的原因一般是什么呢？

环境：

后台：golang+MongoDB
服务配置：5*（4C8G）
荷载机配置：16C 32G

共收到 9 条回复时间点赞

小人物 #1 · 2021年09月30日

前面波动的报错具体是什么？还有你的脚本能保证一直稳定的每 5 秒并发一万个请求嘛？先找找自身脚本有没问题，再看报错原因。后续稳定后是都一直请求成功么。还有压力测试时要注意热机，模拟真实场景，不能拿到脚本就开跑。你压测时开始是有请求拥塞的，所以服务器的压力比较大会有波动去处理这些请求，当 TPS 稳定后就会像你后面的一样了，所以这样设计脚本就很有可能出现这种情况。你也可以设定稳定的 QPS 去压测