FunTester 当 Java 遇上 GPU，性能测试要补新课了

FunTester · 2026年02月11日 · 最后由 magicyang 回复于 2026年02月24日 · 4284 次阅读

过去十几年，性能测试工程师对 Java 系统的理解，有一个几乎不需要怀疑的前提：算力在 CPU 上。不管你测的是 Web 接口、异步链路还是数据处理任务，最终都会落回到 CPU 使用率、GC 情况、线程状态这些熟悉的指标上。

正因为这个前提足够稳定，性能测试逐渐形成了一套经验模型：CPU 高了就是瓶颈，GC 抖了就是内存问题，TP99 上不去就从锁、线程池、上下文切换里找原因。即便系统引入了 Redis、MQ、ES，本质上也只是 IO 外挂，真正的计算仍然由 CPU 扛着。

但 OpenJDK Babylon + HAT 的 MatMul 文章，第一次明确告诉我们一件事：Java 的计算，不再天然等于 CPU 计算。而且这不是某个团队的实验性方案，而是 JVM 官方项目在认真探索的一条路径。

这件事，对性能测试从业者来说，意味着一个长期依赖的分析前提，正在松动。

HAT-MatMul 值得关注的地方

从技术展示的角度看，这篇文章讲的是如何用 Java 写出能在 GPU 上跑的矩阵乘法，并且性能接近原生 cuBLAS。但如果你是性能测试工程师，矩阵乘法本身并不重要，GPU kernel 的写法也不是重点。

真正值得关注的是：JVM 已经具备了把一段 Java 计算，整体迁移到异构算力上的能力。这意味着某些 Java 方法，在执行时可能不再消耗 CPU 时间，也不会体现在线程栈和 GC 行为中。

举个容易理解的例子：就像你原本在厨房做饭（CPU 计算），现在有些菜可以直接扔进微波炉（GPU 计算）。厨房的燃气表（CPU 监控）显示用量很低，但这不代表没在做饭，只是计算发生的地方变了。

一旦这种能力进入真实业务系统，性能测试面对的就不再是一个透明的黑盒 JVM，而是一个内部算力路径开始分叉的运行时。你看到的 CPU 指标，可能只反映了调度成本，而不是系统的真实负载。

换句话说，系统慢了，但你熟悉的指标却看起来都很健康。

性能测试最危险的状态

在 Java + GPU 的模型下，很容易出现一种让人误判的压测结果：CPU 利用率不高，GC 平稳，线程数正常，但吞吐就是上不去，尾延迟开始抖动。

如果你仍然基于传统经验去分析，大概率会把注意力放在 JVM 参数、锁竞争、网络抖动这些老问题上。而真正的瓶颈，可能已经转移到了 GPU kernel 启动、数据拷贝、GPU 并发度这些你根本没有监控的地方。

这就像医生用听诊器检查心脏，却不知道病人的问题其实在肝脏。工具没问题，但检查的位置错了。

对性能测试来说，最可怕的不是系统性能差，而是你能给出一套逻辑完整、却完全错误的解释。而 Java 的异构计算能力，正是制造这种假安全感的完美土壤。

只要指标体系还停留在 CPU 时代，性能分析就会天然滞后一步。

为什么会出现这种误判

传统的性能测试工具和监控体系，都是围绕 CPU、内存、线程这些资源设计的。但 GPU 计算有自己的特点：

数据搬运开销：CPU 内存和 GPU 内存之间的数据传输，可能成为新的瓶颈
计算粒度影响：GPU 适合大批量并行计算，小任务反而会因为启动开销得不偿失
资源竞争机制：GPU 是共享资源，多个任务同时抢占时，调度策略和 CPU 完全不同

这些特性，在传统的监控指标中完全看不到。

Java + GPU 正在悄悄打破默认共识

长期以来，性能测试有一个潜在共识：CPU 使用率可以近似代表系统算力负载。这个共识在异构计算场景下并不成立，因为 CPU 很可能只是一个调度员。

当计算真正发生在 GPU 上时，CPU 的空闲并不意味着系统还有余量，只能说明它没在干活。而性能测试如果仍然以 CPU 作为主要判断依据，结论本身就已经偏离事实。

与此同时，延迟的构成也开始发生变化。过去我们习惯把 TP99 抖动归因于线程调度、GC 或锁，而在 GPU 参与计算后，延迟往往来自计算粒度、批处理方式和数据搬运成本。

这些延迟不一定拉高平均值，却极容易放大尾延迟，这对性能测试来说，是一个非常不友好的特性。

想象一下这个场景：系统的平均响应时间是 50ms，看起来很稳定。但实际上，90% 的请求在 30ms 内完成（GPU 批量处理），10% 的请求需要等待 200ms（数据搬运和 GPU 排队）。这种分布，用传统的平均值指标根本发现不了。

性能测试工程师需要建立算力路径意识

这并不意味着性能测试工程师要转型做 GPU 编程，更不意味着每个人都要去研究 kernel。真正需要改变的，是分析问题时的第一反应。

未来在 Java 系统中，性能测试首先要回答的问题，不再只是这个接口慢不慢，而是这条链路的计算到底在哪发生。如果你不知道算力落点，后续所有指标解读都会变得模糊。

同时，性能结论也必须开始带条件。在 GPU 参与的系统里，算力是高度共享的，负载变化的不可预测性远高于 CPU。

不说明假设条件的性能结论，可靠性会快速下降。

算力路径意识的三个关键点

识别计算发生的位置：这段代码是在 CPU 上跑，还是在 GPU 上跑，还是混合执行？
理解不同算力的特性：CPU 擅长串行逻辑，GPU 擅长并行计算，各有优劣
关注算力切换的成本：数据在 CPU 和 GPU 之间传输，本身就是开销

建立这种意识后，你会发现很多以前看不懂的性能问题，突然就有了合理的解释。

不太舒服但必须接受

我给一个明确的判断：性能测试正在从接口压测，演进为算力路径验证。

谁还停留在 QPS、RT、CPU 这套单一维度的分析框架里，未来会越来越难解释真实问题。而真正有价值的性能测试工程师，会开始关注系统内部的计算结构，而不仅是外部表现。

HAT-MatMul 这篇文章，短期内可能不会直接影响你的工作内容。但它已经非常清楚地释放了一个信号：Java 的性能模型正在变化，而性能测试不能继续假装没看见。

这个变化不会一夜之间到来，但趋势已经很明确。早一天开始关注，就早一天建立认知优势。

写在最后

你不需要追新技术，也不需要立刻重构压测体系。但至少，当你看到 Babylon、HAT 这样的项目时，要意识到它们正在改变性能问题出现的位置。

性能测试这门手艺，最终拼的不是工具，而是对系统真实运行方式的理解。当算力开始迁移，理解就必须跟上。

就像当年从单机应用到分布式系统的转变一样，性能测试的关注点也在随着技术架构的演进而变化。适应变化，才能保持专业价值。

FunTester 原创精华

1 个赞

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！

打赏支持

共收到 5 条回复时间点赞

槽神 #1 · 2026年02月12日

我以为跑在 GPU 上的不是 C++ 就是 python 呢，还真有人用 java 啊

magicyang #2 · 2026年02月12日

脑子有坑才用 JAVA。。。JNI 是干么的？
不会 C++，就别碰底层。

FunTester #3 · 2026年02月24日 Author

对

槽神回复

确实有人这么搞

FunTester #4 · 2026年02月24日 Author

对

magicyang 回复

有的人就是硬要碰，看记录，社区还挺重视这个功能

magicyang #5 · 2026年02月24日

对

FunTester 回复

很快这块就不会再区分什么 JAVA，C++ 了。
两年之内，直接火焰图 +AI 分析就能解决 90% 的性能问题。
大部分情况下，机器比人代码写的好，还有单测 + 性能优化。
这种不专业的需求，会很快消失。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

FunTester 当 Java 遇上 GPU，性能测试要补新课了

作者

FunTester

FunTester 当 Java 遇上 GPU，性能测试要补新课了

HAT-MatMul 值得关注的地方

性能测试最危险的状态

为什么会出现这种误判

Java + GPU 正在悄悄打破默认共识

性能测试工程师需要建立算力路径意识

算力路径意识的三个关键点

不太舒服但必须接受

写在最后

FunTester 原创精华