1.简介

JSF 业务线程池使用 JDK 的线程池技术,缺省情况下采用 Cached 模式(核心线程数 20,最大线程数 200)。此外,还提供了 Fixed 固定线程大小的模式,两种模式均可设置请求队列大小。

本文旨在通过一个简化场景(“单服务应用”)下的负载测试,为 “JSF 业务线程池大小配置” 提供基准测试结果,并形成一些普遍适用的结论。

本文的目标读者包括需要合理配置 JSF 线程大小的压测工程师、开发部署运维工程师以及架构师。本文不涉及 JSF 服务端的其他配置项,也不针对 “复合服务应用” 的合理配置进行探讨。你可以利用本文提供的结论,作为设计压测用例或评估业务线程池大小的基本方法的参考,以便在实践中合理配置 JSF 业务线程池大小。需要注意的是,JSF 业务线程池大小的合理配置应该基于高保真的负载测试结果。

“单服务应用” 指应用仅包含一个提供接口,且接口中仅有一个方法。

“复合服务应用” 则指应用包含多个提供接口或一个接口中含有多个方法。

2.测试用例说明

本次基准测试选取了 USF3.0 权限系统,将其定制化为一个单一的服务提供者,仅对该提供者的一个方法进行了测试,因此可以看作是一个 “单服务应用”。测试中将 CPU 作为基准测试的核心资源,并考虑到 JVM 垃圾收集器的影响,采用了简单的测试数据以保证服务每次调用的一致性,并确保 YGC 具有规律性(即固定调用量会导致一次 30+ms 的 YGC),无 FGC 的影响。

测试用例的设计中,所有依赖的服务资源都无限制,以确保测试过程中服务的可用率达到 100%。我们的关键性能指标是 TP99,即服务响应时长的 99% 必须小于 10ms。

为了测试不同线程池模式下的性能表现,我们使用了 JSF 线程池的 Cached 和 Fixed 两种模式,并针对每种模式进行了多组测试,以得出在满足 TP99<10ms 的前提下,系统最大的负载情况。

测试应用:USF3.0 权限系统 (定制化处理)

测试服务:com.jd.susf.service.api.SusfPermissionService#findUserInfo,根据用户信息从 Redis 中查询一条数据返回的服务。

硬件配置:单台 4C 8G

测试方法:在 Forcebot 系统采用了阶梯发压的方式对 JSF 业务线程池在 Cached 和 Fixed 模式下进行了系统负载测试

拟定 SLA 要求:服务响应时长的 TP99<10ms

注:我们对 USF3.0 权限系统进行了定制,调整了服务提供方的配置数据,仅保留了 com.jd.susf.service.api.SusfPermissionService。

3.测试结果及分析

3.1.cached 线程池的系统负载

图:JSF 默认线程池 (cached, threads=200) 在不同并发用户数 (1-200) 下的系统负载图

并发用户数 TP99 吞吐量 TPS CPU 利用率 (%)
1~23 <8ms 线性增长 线性增长
24 8ms 6553 99.62
25 11ms 6607 99.83
26~79 迅速增长 缓慢增长 99+
80 74ms 6928 99.82
81~199 缓慢增加 缓慢下降 99.82
200 99ms 6230 99.94

小结:默认的 JSF 线程池配置存在很大的风险。系统最大可支持 24 个并发,超过 24 个并发 SLA 就无法满足。

3.2 fixed 线程池 (队列) 的系统负载

图:JSF 固定线程池 (fixed+ 队列) 在不同并发用户数 (1-50) 下的系统负载图

JSF 业务线程数 可支持的最大并发用户数 TP 值 (50/90/99/999) 吞吐量 (TPS) CPU 最大利用率(%)
4 11 7/8/10/18 1531 27.67
8 25 8/8/10/18 3113 46.45
16 50 8/8/10/21 6228 87.97
20 23 3/4/10/15 6409 99.92
24 22 3/4/7/15 6178 99.86
25 22 3/4/6/15 6182 98.83

表:JSF 固定业务线程池 (fixed+ 队列) 在满足 TP99<10ms 的系统最大负载(最大并发用户数)

小结:

① 在 fixed 线程模式下,CPU 的利用率存在使用上限。

② 队列的使用可以有效增加系统对并发量的支持,同时也会带来吞吐量的提升。然而,由于任务在队列中等待,服务的响应时间会出现 “水涨船高” 的现象,存在一定风险。

3.3 fixed 线程池的系统负载

图:JSF 固定线程池 (fixed) 模式下,系统最大并发用户数时的系统负载

JSF 业务线程数 并发用户数 TP99 吞吐量 (TPS) CPU 最大利用率(%)
4 4 5 1063 20.26
8 8 5 2216 36.62
16 16 6 4262 68.56
20 20 5 5550 86.22
24 24 8 6711 99.62
25 25 16 6644 98.77
26 26 19 6744 99.93

小结:综合固定线程池 (fixed) 的性能表现,需要设置一个合理的线程数大小来平衡 CPU 资源的充分利用和满足 SLA 的需求,线程数过小会导致 CPU 资源浪费,线程数过大则无法满足 SLA

4.结论

根据测试结果和数据分析,我们得出以下结论:

综上所述,线程池大小的合理配置需要结合业务需求和系统资源情况进行评估和测试,并预留合理的 buffer 空间,以保证系统稳定运行和满足用户的 SLA。

5.附录

附录一:统计指标及术语说明

并发用户数:同时发起请求的用户数。

TP 值 (50/90/99/999):客户端的 TP 值,单位 ms,数据来源于 Forcebot。

吞吐量 TPS:数据来源于 Forcebot。

CPU 利用率 (%):数据来源于 PFinder。

JSF 业务线程数:JSF 业务线程池的线程数,如:

fixed/cached:JSF 业务线程池的线程池类型,如:

作者:京东物流 刘江波

来源:京东云开发者社区 自猿其说 Tech 转载请注明来源


↙↙↙阅读原文可查看相关链接,并与作者交流