原文:http://tech.meituan.com/loading_test.html
美团内部的 RPC 服务大多构建在 Thrift 之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有:
然而,无论采取哪种方法,压测都是一个十分耗时而又繁琐的过程,主要痛点有:
针对上述问题,提供一个简单好用的压测工具是十分有必要的。
在构建压测工具之前,对于一些现有的开源工具进行了调研。现在主流的压测工具主要有以下几个:
JMeter 是一个比较老牌的压测工具,主要针对 HTTP 服务进行打压,该工具在以下方面并不满足美团内部的压测需求:
iago 是一个由 Twitter 开源的压测工具,支持对 HTTP、Thrift 等服务进行压测,其主要问题如下:
除此之外,当时还考察了 Gatling、Grinder、Locust 等一些常见的压测工具,都因为适用场景和美团的需求有些出入而排除了。
综上,针对当前压测工具的一些现状,构建一个简单易用的压测工具还是很有必要的。
针对之前提到的痛点,新的压测工具主要提供以下功能:
简单易用的操作界面(接入压测的时间应该控制在 1 小时以内)
清晰的图表能反映压测应用的各项指标
满足包括 Thrift、HTTP 等服务的压测需求
目标已经明确,怎么实现呢?首先是抽象压测的过程。
一个典型的压测过程如图所示,首先在 init 方法里面,进行一些初始化的工作,比如连接数据库,创建客户端等。接下来,在 run 方法里面发出压测请求,为了保证能够对服务产生足够的压力,这里通常采用多线程并发访问,同时记录每次请求的发起时间和结束时间,这两个时间的简单相减就能够得到每次请求的响应时间,利用该结果就可以计算出 TP90、平均响应时间、最大响应时间等指标,等压测结束后,通过 destroy 方法进行资源回收等工作。
以上过程可以用接口表示,无论是压测 Thrift 服务还是 HTTP 服务,本质上都是这三个方法实现的不同。考虑到压测工具的灵活性和通用性,压测工具可以将这个接口交给打压测试的同学实现,而压测工具则重点实现多线程打压,打压结果的聚合等比较耗时的工作。
interface Runner {
def init(Test app) // 初始化压测
def run(Test app, String log) // 每次打压请求,传入log方便构建请求
def destroy(Test app) // 压测完毕后,回收资源
}
Thrift 服务打压的难点之一就是如何简单地拷贝线上真实流量用来构建打压请求。一些大型的 Thrift 服务数据结构非常复杂,写打压脚本的时候需要很多代码来解析日志,而且容易出错。 因此提供一个简单好用的拷贝流量方法是十分有必要的。
在这里压测工具提供了一个叫 VCR(录像机)的工具来拷贝流量。VCR 能够将线上的请求序列化后写到 Redis 里面。
考虑到用户需要查看具体请求和易用性等需求,最终选取了 JSON 格式作为序列化和反序列化的协议。同时需要部署在生产环境,为了降低对线上服务的影响,这里采取了单线程异步写的方式来拷贝流量。
VCR
应用打压完成后,需要一些指标来评估压测结果,常见的指标有:
最大响应时间
平均响应时间
QPS
TP90
TP50
压测工具采用了 InfluxDB 来完成数据的聚合工作。
以 TP90 为例子,仅需要一行查询就能实现需求。
SELECT PERCENTILE(response_time, 90) FROM test_series GROUP BY time(10s)
架构
整体而言,整个打压过程如下:
Loading Test
实践
拷贝流量
美团内部的服务大多使用 Java 来构建,VCR 以 Maven Package 的方式提供给用户。
对用户来说只需要 2 行代码可以拷贝流量。
为了不影响线上服务,通常选取单台机器进行流量拷贝工作。
public class TestAppRPC implements TestApp.Iface {
private Vcr _vcr = new Vcr("testapp"); // 指定拷贝流量的key
@Override
public TestResponse echo(TestRequest req) throws TException {
_vcr.copy(req); // 拷贝操作
long start = System.currentTimeMillis();
TestResponse response = new TestResponse();
return response;
}
}
一旦流量拷贝完成后,通过 Web 界面,用户能够查看日志的收集情况和单条日志的详情。
vcr
压测工具采用 Groovy 来进行编写。对每个应用来说,只需要实现 runner 接口就可以实现对应用的打压。
interface Runner {
def init(Test app)
def run(Test app, String log)
def destroy(Test app)
}
以 Thrift 服务为例:
class TestServiceRunner implements Runner {
RPCService.Client _client
TTransport _transport;
@Override
def init(Test app) {
def conf = app.config // 读取应用配置
_transport = new TFramedTransport(new TSocket(conf.get("thrift_service_host") as String, conf.get("thrift_service_port") as int))
TProtocol protocol = new TBinaryProtocol(_transport)
_client = new RPCService.Client(protocol)
_transport.open()
}
@Override
def run(Test app, String log) {
TestRequest req = Vcr.deSerialize(log, TestRequest.class) // 将拷贝流量反序列化
_client.echo(req) // 发送请求
}
@Override
def destroy(Test app) {
_transport.close() // 关闭服务
}
}
实现以上接口后,就可以对应用进行打压了。
用户可以通过 Web 界面创建应用,除了必填配置以外,用户可以按照应用灵活配置。
用户可以通过直观的图表来查看应用的各种性能指标。
result
压测工具上线以来,已经接入了 20 多个应用,完成数百次打压实验,现在应用的接入时间仅需要 15~30 分钟。保证了美团服务的稳定和节省了开发同学的时间,使大家告别了以往繁琐冗长的打压测试。
欢迎对这方面有兴趣的同学一起讨论。