WeTest腾讯质量开发平台 日活上百万时,腾讯产品如何提前规避服务器宕机风险?

腾讯WeTest · 2017年05月15日 · 最后由 腾讯WeTest 回复于 2017年05月17日 · 4926 次阅读

原文链接:http://wetest.qq.com/lab/view/310.html
商业转载请联系腾讯 WeTest 获得授权,非商业转载请注明出处。


众所周知,优异的应用性能是良好用户体验的坚实基础,而服务器响应缓慢、卡顿、崩溃的产品,即便设计再精美也无法留住用户的心。

2017年2月28日,百度就和用户们开了一个不大不小的玩笑,从当天的 20 点 54 分到 21 点 24 分左右,百度搜索整整宕机了 30 分钟,众多网友戏言那 30 分钟成为了百度最有存在感的 30 分钟,但是从后来百度的公关文章中,可以看到其提到了 “错过了大家上亿次的搜索请求”,从这个体量来看,这无论如何都是一次很大的影响了。

无独有偶,今日头条也在今年的 1 月出现了宕机现象,系统超过 30 分钟未响应,头条号的编辑后台也无法进入,这些现象,均给用户带来了很大的困扰,而且用户体量越大,影响的波及面就越广,不仅影响用户口碑,也影响产品收入。

如果把产品的月收入平摊到每一分钟的话,大家可以通过 30 分钟,60 分钟,乃至 12 小时,24 小时的停服时间计算具体的损失金额,还要加上因此产生的用户流失以及品牌口碑影响。

某国外知名游戏在上线之初冲击到 iOS 免费榜第二名的时候,因为没有做好应对大量玩家涌入的准备,服务器卡死、宕机,闪退让玩家失望选择离开,下载排名一度下降到 475,通过两个月的服务器优化才挽回局面。

这样的例子有很多,随着重度游戏,重度产品越来越多,产品越来越重视服务器性能的优化。本文将结合腾讯 WeTest 团队为腾讯游戏及产品进行服务器压测的经验,分享一些方法和思路。


一、服务器性能核心指标有哪些

关于服务器压测,有很多指标。为了让大家更容易理解,举个生活中的例子:

你中午去 “海底捞” 吃饭。

我们可以把 “海底捞” 这个饭店看成一个被测系统

你去吃饭,就是对这个被测系统发起请求,对这个系统造成了一定的负载。你带去的人越多,那么这个餐馆就越繁忙,可以说餐馆承受的负载就越大。

你开始点菜。这个时候你隔壁桌的人也开始点菜。那么你们两个对这个系统产生了并发的请求。同时,其他桌有的在吃菜,有的在等菜,这些都是并发进行的事务。一个完整的吃饭事务可以定义成包括:点菜,下单,上菜,买单四个步骤。对于一个 C/S 的系统来说,可以对应于:建立连接,发送请求,接受应答,断开连接。

影响一个餐馆生意好坏的一个重要原因是上菜速度。上菜速度体现在两个方面:

1.一个顾客请求的处理耗时,从下单到上菜中间等待的时间,我们称之为响应时间

2.这个餐馆同时为多名顾客上菜的频率,我们称之为吞吐量

来多少顾客,这是饭店自己无法控制的,但是饭店的上菜速度、餐位多少都会制约客流量。一定有一个峰值客流量,当来的客人超过了这个峰值,那么这些客人就会等位,或者是上菜速度超慢让客人无法容忍。容量测试就是通过工具模拟足够多的顾客来吃饭的事务,希望找到这样一个客流量对饭店产生一定的负载,这个时候饭店既能接待最多的客户同时也能保证最短的等待时间。更多的,还可以对这个酒楼人员配置和餐位设置等进行调优,以期达到一个最理想的资源利用率和效率。

客流量跟进来的客人多少有关,也跟餐馆的接待能力有关。单方面增加来就餐的顾客,遭到投诉的可能性就越大,上错菜的可能性也越大。

性能指标有很多,不可能全都看,那么有哪些核心的指标呢?

1、90% 响应时间

是指所有用户的响应时间由小到大进行排序,第 90% 的响应时间,是用来评估系统容量的重要指标之一。

2、TPS 性能,关注服务器的服务能力。

每秒系统处理事务(通过、失败以及停止)的数量。通过它可以确定系统在任何给定时刻的时间事务负载。

3、支持的最大在线人数。

指同时登录站点的最大人数或者服务器同时接收下载的最大数量。

4、服务器自身压测过程总 CPU、内存等的变化情况。

CPU 利用率是指:CPU 执行非系统空闲进程的时间/CPU 总的执行时间;内存占用率指的是此进程所开销的内存。

5、事务成功率

事务成功率=成功处理的事务/所有事务 *100%,是检测服务器处理事务成功几率的重要指标。

二、市面上有哪些服务器压测方法

为了能够帮助用户更快捷的获得服务器的核心数据,市场产生了诸多各式各样的压测方法,但也存在各式各样的问题:

1、现网数据预估

根据压力测试过程中的部分数据,对未来大量用户访问的情况机型预估。

存在问题:只适合简单的服务器拟合,复杂服务器数据就不太准确。

2、真人压测

通过邀请一定数量的真实用户来玩游戏,从而对服务器达到一个测试效果。

存在问题:暴露出的性能问题有限,封测人数通常还是太少,虽然有几百或者几千用户在玩,但是并发并不够,不足以暴露服务端性能问题;另外不适合调优,真人无法完全重复相同行为,服务器就难以进行回归调优。

3、接口测试

选择一些具有代表性的功能,通过以小见大的方式,来评估整套服务器性能。

存在问题:无法遍历整个服务器的接口,难以避免一些微小的问题。

4、录制回放

通过抓取数据包的方式,来获取游戏时的协议,再把这些捕获的协议重新发送给服务端,通过工具放大协议量级达到性能测试的目的。

存在问题:面对复杂的协议交互,单纯的放大数据包,无法产生足够压力。

5、机器人模拟

通过高还原真实玩家的用户行为,模拟高并发场景,从而得到类似很多人同时游戏的测试效果。

这些方法各有优劣,腾讯内部普遍使用 “机器人模拟” 的方法进行压测,而 “机器人模拟” 的压测方法需要充足的测试时间和很大的人力投入,为此腾讯制定了一个较为通用的测试流程,用以提升压测效率。

三、腾讯内部服务器性能的测试流程介绍

根据腾讯内部游戏和产品的使用需求,腾讯 WeTest 团队首先针对 http 与 https 协议的页面,梳理了一个通用的压测流程。

1、 确定压测场景,比如登录,获取信息列表等

测试人员第一步要做的就是测试方案的确认,主要就是提前模拟实际业务中涉及的场景以及场景中用户的使用行为,通常需要确认这样几点:

1)确认用户的登录状态,用户的登录态是否会不断变化

2)用户登录后的访问路径之间的上下文关系

3)访问路径之间的参数传递关系

2、 测试人员编写测试用例

编写测试用例就是将上述模拟场景具体化的过程,包括确认压测的人数,人数递增逻辑,具体需要压的接口,接口之间的参数传递等。

3、 启动机器人进行测试,渐进增加机器人数量

在确认了测试方案后,这一步就是执行的过程,根据测试方案中预估的压力人数,渐进的增加压力的人数。

4、 记录分析数据及事务处理情况,查看服务器负载的变化以及服务器的当前承载能力。

上一步提到了要渐进增加机器人,那么为什么要渐进增加机器人?因为在服务器并发增加的过程中需要不断监控上文服务器的核心数据,不断挑战服务器处理能力的极限,避免上来就使用一个过高的并发数直接超过了服务器处理能力的极限,从而无法起到性能优化的目的。一般来说,在机器人增加的过程中,CPU 的突然跑满以及响应时间瞬间变长,都可能是服务器产生了瓶颈。因此压测人员需要实时监控压测上升过程中的服务器情况变化,从而定位问题所在。

5、 调整配置,迭代测试,预估服务器的承载能力以及可能存在的性能瓶颈

在发现基本的测试问题后,测试人员需要通过不断的调试来定位问题,然后重新发起压测,知道实现最终的测试目的。

根据这个测试流程,腾讯内部也总结了一些压测产品所需要具备的特点。

1) 简单易上手

产品的业务场景是多变的,但是好的压测产品应该让这个场景配置过程变得简单易用,用户在简单输入需要压测的 URL 即可进行各个接口的测试,大部分测试配置建议提供一个默认值,用户对功能更加了解之后可以自由配置这些参数。

2) 进阶功能完善

除了简单易用之外,也要给用户提供一些进阶的功能,在简单输入 URL 的基础上,可以支持用户自定义变量,从文件读取变量,甚至从其他 URL 的返回值获取变量的值,可以比较真实模拟真实场景,避免请求变量单一。

3) 提供分布式压力机进行压测

由于单机的局限性,压测产品可以使用分布式压测的框架,根据用户配置的机器人数量动态分配多个压测机,极大提升压力上限。

4) 详细的测试数据统计

压测大师会记录测试过程中的多项数据,包括在线人数变化、TPS 变化、响应时间、收发包流量、服务器 CPU 内存状态、压力机硬件负载、测试结果统计等,可以快速定位服务器的容量以及瓶颈。

基于这些需求,腾讯 WeTest 团队开发了专注服务器压测的产品 “压测大师”,简化了压测配置过程,用户可以在线上部署,线上调试,线上查看报告,帮助用户成为最高效的 “压测大师”。

四、测试案例:真实模拟《NOW 直播》活动场景

腾讯 NOW 直播是腾讯目前发展非常迅速的直播应用,在其一场线上活动中,需要对活动的所有接口进行压力测试,提前暴露问题并解决,确保活动的顺利实施。为此,NOW 直播团队选择使用 “压测大师”,对活动进行了一整套场景测试。

“压测大师” 包含 “页面测试”,“URL 测试” 和 “高级模式” 三块功能。

“页面测试” 适用于 HTTP、HTTPS 协议,可对 Web,H5 等页面进行压力测试,主要测试页面静态资源的压力数据,帮助提升官网推广大型运营活动时网站的稳定性;

在 “URL 测试” 中,用户可以设置用户并发增长形式,不同 URL 的上下文参数配置以及服务器监控,实现最多同时 16 个用户场景,实现更多的场景配置;

而 “高级模式” 适用于 HTTPS 及其他协议,包括自定义协议等。支持对游戏,产品协议进行压力测试,用户通过代码配置,可以根据自身需求开启协议压测。

在测试过程中,NOW 直播团队首先梳理了测试思路,一方面通过单接口压测,提前暴露核心模块的问题;另一方面通过多接口的场景设置,尽量模拟真实用户行为,使得压测结果更有说服力。

在测试过程中,《NOW 直播》利用” 压测大师 “的 URL 测试功能,针对 “发消息”“点赞”“拉取公告”“注册”“读取房间信息”“进入房间” 等各个独立行为进行单接口压测,通过设置压测起始人数,每阶段增长人数以及最大人数(见下图),设计接口的压力情况。

“压测大师” URL 测试中的 “人数设置”

另外对于用户不同的访问行为,《NOW 直播》对 “注册 - 房间信息 - 进房” 进行了多场景的压测(见下图),通过 GET 请求,读取一个用户的 “登录态”,通过功能接口随机产生不同行为逻辑的机器人,模拟真实的 QQ 用户;然后通过 POST 请求依次执行具体的业务行为,最后通过 URL 测试中的 “上下文配置”,选择调用不同的功能接口,从而发现功能之间产生的逻辑问题。

“压测大师” URL 测试中的 “上下文设置”

经过几天紧张的测试,NOW 直播活动的各个场景数据都得到了大大的提升,其中 “用户进入房间” 场景的响应时间减少了近一半;“用户发送消息” 与 “点赞” 场景的 TPS 提升四倍,为活动的稳定开展提供了坚实的保障。


无论是游戏还是产品,腾讯经历过无数次服务器的考验,面对这些考验,腾讯也渐渐总结出了一套通用的应用性能管理解决方案,让用户能够在游戏上线之前基于真实业务场景和用户行为进行压力测试,发现服务器端的性能瓶颈,并进行针对性的性能调优。以上内容也是根据腾讯产品无数次的压测总结下来的一些经验,腾讯 WeTest 团队也希望通过 “压测大师 “这类产品,不断简化服务器压测的过程,提升压测人员的工作效率。

功能目前免费对外开放中,欢迎大家的体验!
体验地址:http://wetest.qq.com/gaps/

如果对使用当中有任何疑问,欢迎联系腾讯 WeTest 企业 qq:800024531

共收到 4 条回复 时间 点赞

好文啊,大家不要因为这是机构的文章就排斥呀。wetest 的文章还是很有好货的。

Mark

—— 来自 TesterHome 官方 安卓客户端

对场景压测比较敢兴趣,有几个疑问想作者回答一下:
前提:比如我有一个场景有 step1,step2,step3
1.压测执行时,对于一个 vuser 是串行执行 step1->step2->step3 还是执行这些步骤是随机的,如果是串行的,是怎么保证顺序;
2.场景压测的结果统计维度是什么?是分别列出 step1,step2,step3 的性能结果?

胡刚 回复

1.一个场景中的事务的执行顺序是通过用户配置该场景中上下文的顺序决定的
2.报告统计有总有分。既可以看到整体的平均 TPS、响应时间、流量、错误、收发包率等数据,也可以看到每个事务单独的相关数据。报告中还提供服务器、压力机监测的相关内容。为您提供详细、多维度的报告。

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册