引言

在最新的手游市场占有率统计中,腾讯游戏稳稳占据一半江山,目前仍以每月一到两款的速度推出新品,在如此复杂多变、响应要求极高的市场环境下,能持续推出高质量产品并保持高效迭代更新,不得不让人感慨腾讯游戏研发及运营能力的强大。我们都知道,任何一个产品出厂前都应该有个合格的标签,用来证明产品质量要求达标,那么作为游戏上线前的质检员,腾讯游戏质量管理部门是如何快速、有效地完成游戏产品质量检测的呢?

通过本文你将会了解到,腾讯游戏上线前需要做一系列的测试,涵盖前后台性能、安全防护、网络适配、机型兼容、功能完整性等,这些工作往往都是提前三个月就开始介入,多线并行,最大程度的将游戏质量风险降到最低。相传,在腾讯游戏测试工程师中间流传着这么一句话,“不把主程逼疯的测试不是一个好产品”,玩笑归玩笑,但也反应出腾讯游戏测试对于质量要求的苛刻程度。今天我们就来爆爆他们把主程逼疯的那些事儿。

一. 服务器性能测试

之所以将这个测试放在第一位,是因为腾讯游戏的用户数量一般都是远远超过其它公司的,有微信和手机 QQ 两大平台的导量,游戏刚开服用户是像潮水一样涌入,这个时候非常考验游戏服务器的数据处理、容错及稳定运行的能力。而这几个关键问题的保障,便是通过这项专门的测试工作来完成的。

游戏玩家虽然看不到服务器的处理能力,吞吐量等,但他们能真实地感受到各种服务器性能问题,例如:“游戏怎么进不去了”, “通关结算为啥一直转菊花”, “竞技场为啥一直匹配不到对手” 等等。这些问题会大大降低玩家游戏的热情,加剧用户流失率。

除此之外,如果线上大部分机器都在低负荷的运行,玩家感受没问题了,但是机器资源却严重被浪费。服务器性能测试就是为了保障玩家流畅游戏的同时,又能够最大化地利用服务器资源,是游戏上线前必不可少一个环节。

那么,如何做服务器性能测试呢?

简单来说,服务器性能测试就是利用创建虚拟机器人玩家,模拟多用户的并发场景,对服务器产生压力,暴露服务器性能瓶颈和风险。

具体测试流程可划分为 7 个方面

1. 需求分析:明确需要测试的性能场景及性能基线

2. 分析服务架构,找出架构薄弱点


图 1.1 服务器架构图

3. 构建测试模型:分析服务器架构,协议交互,及收集的测试数据,构建测试模型


图 1.2 构建游戏业务模型

4. 分析数据及协议交互,使用特定算法构建压力模型,利用 tcpdump 等工具捕获数据包,并进行分析


图 1.3 服务器协议交互数据

5. 编码实现:分析协议包,在腾讯自研性能框架下,灵活实现业务逻辑


图 1.4 利用腾讯自研性能工具,只需实现数据包的组装及解析及游戏业务逻辑

6. 执行压测,观察数据:设置好性能基线后,执行对应游戏场景进行测试,观察机器人性能数据、服务器 CPU、内存、磁盘 IO、网卡负载等核心指数。




图 1.5 服务器性能测试数据

7. 回归调优: 分析性能瓶颈, 待开发修复后,重新回归测试,直到满足性能基线。

举两个案例来说明腾讯游戏的测试方法。

案例一: 服务器容量太低,无法承载设计目标在线人数

某游戏容量测试时,5000 机器人在线游戏,服务器性能不足,优化前业务逻辑服务器 CPU 最大达到 100%,事务响应缓慢,客户端操作延时高


图 1.6 服务器 CPU 性能测试图(优化前)

通过数据分析,性能瓶颈定位,系协议解析的反序列函数效率极低,因此对此函数的算法进行了优化,优化后服务器性能提升 200%+。


图 1.7 服务器 CPU 性能测试图(优化后)

案例二:游戏功能事务成功率符合要求对应优化

某游戏在性能测试过程中发现, 10000 人同时游戏,部分机器出现战斗结算失败的问题。


图 1.8 游戏战斗结算失败

玩家在通过登入校验后,服务器会下发一个 Session,后续所有协议都会带上 Session,高并发下,服务器处理 Cache 置换逻辑异常,导致用户 Session 记录失败,于是出现部分机器结算时,由于 Session 校验失败导致结算失败。

二. 游戏客户端 (APK & IPA) 性能测试

客户端性能在游戏中是影响游戏表现的决定性因素,是玩家可以直接感知到的。一款好的游戏是否能在大众的设备上流畅运行,是否能给不同的玩家相同的畅快体验,都是决定游戏成败的关键。

一般情况下,一款游戏都会在 Android 和 iOS 平台上同时发布,有些游戏在 iOS 系统上运行时流畅度非常高,用户体验和操作都很好,但换到 Android 设备时候表现却是非常不好,卡顿,机器发热,耗电快等,尤其是在不同用户的手机硬件不一样的情况下,需要尽可能多的满足在低端机器上的游戏体验。因此,在打造一个精品游戏的过程中,游戏的客户端性能测试不容小觑。

那么再来说说如何做客户端性能测试。

游戏启动后会占用手机系统的 CPU 和内存,在玩的过程中会消耗一定的流量和耗电量,客户端性能测试就是在游戏发布前,对游戏的这些性能数据进行采集,并分析以上各个检测项是否存在性能瓶颈。

要定位客户端的性能瓶颈,需在游戏的过程中对游戏的 CPU、内存、流量、耗电量和 FPS 等信息进行采集。Android 平台详细采集指标主要由以下几部分组成:
FPS 帧率:应用程序每秒钟显示的帧数
CPU 占用率:应用程序占用的 CPU 资源情况
内存:应用程序存放到系统内存中占用情况,目前主要采集 PSS
显存:应用程序存放到显卡存储区域的资源数据占用情况,目前主要采集 VBO
GPU 占用率:应用程序占用 GPU 资源情况
其中,手游特有指标还包含:
流量:单位时间内通过网络端口传输的数据总量
电量:单位时间内应用程序消耗的电荷数量

目前针对游戏的客户端进行性能测试,很多移动测试云平台为开发者提供了便利条件。拿腾讯自己的 WeTest 云平台来说,用户只需要上传一个 apk 包,在云端的手机上进行正常游戏操作就可以采集到游戏的 CPU、内存、流量、耗电量和 FPS 这些信息,极大地简化了手游的客户端性能数据的采集,在开发精品手游的过程中助开发者一臂之力!

测试方法:

在 WeTest 云平台上,用户可以选择性能测试,提交一个 APK 后,正常进行游戏并标记各个游戏场景,在远程性能测试结束后,会生成类似如下的测试报告,分分钟帮助开发定位性能瓶颈。


图 2.1 客户端性能测试报告图

实际案例:

用 WeTest 云端性能测试的高配手机对某动作类手游核心玩法的客户端性能测试发现了如下问题:

内存使用情况:


图 2.2 客户端性能测试内存图

游戏所占内存峰值达到 500M 左右,而根据当时腾讯游戏用户机型分布情况而确定的客户端性能标准,高配机型是不能超过 450M。多这 50M 意味着将会有大量的玩家不能有很好的游戏体验,因此这个指标必须经过优化才可以上线。为此项目团队花费一周多时间裁减非核心资源精度,保证这个数值在安全范围内,以牺牲可控范围内的画质来达到游戏流畅的目的,以便获得更好的游戏操作体验。

另外再看一款项目,通过获取游戏 FPS 情况,如下图:


图 2.3 客户端性能测试 FPS 图

大多数情况下的这款游戏的 FPS 都集中在 27fps 左右,个别情况甚至只有 10 以内的帧数,而按实际情况,游戏最低需要达到平均 30fps 左右的数值,且上下浮动不超过 5fps,即需要保证在 25-35fps 之间才能获得比较好的流畅度。通过定位关键节点数据和场景的对应关系,发现在某个特殊时间会加载一个无效的空白动画资源并且反复重绘,导致游戏 fps 上不去,删除掉这个资源及调用的代码,fps 稳稳上到了 32 帧。

三. 移动设备兼容适配测试

恐怕很难说清楚市场上到底有多少款手机,Android 系统自由而野蛮的生长带来了无穷的生命力,同时也给开发者带来了无尽的痛苦,几乎每一个开发者都会被 Android 手机的兼容适配深深的烦扰着,腾讯游戏自然也不会例外。

那么腾讯游戏又是如何解决这个问题的呢?

总结起来一句话,在尽可能多的机型上进行游戏的安装、运行和数据监控,听起来并没有什么大的不同,但真正不同的,是怎么做这个事情。

腾讯游戏一方面通过 WeTest 云测平台进行发布前的适配兼容测试,另一方面发布后还要时刻关注用户机器的 Crash 上报情况。在 WeTest 平台,我们会选择游戏用户的 Top 机型进行测试,只需要上传 APK,然后等着收报告即可,在整个平台数百部手机上的安装包分发,测试都是自动完成的,绝大多数的场景并不需要人参与其中,非常高效便捷。

在 WeTest 平台提供两种兼容适配服务,Android 标准兼容测试,以及 Android 深度兼容测试,下面说说这两者的区别:

1. Android 标准兼容测试

标准兼容测试提供游戏的安装,拉起,模拟登录 (集成了腾讯的 MSDK),随机 Monkey 点击,卸载,并自动定时截图,自动检测黑屏、自动记录崩溃、ANR,并且在出现这种情况后自动上报当时的日志记录,这个测试不光游戏可以使用,常规的应用类 APP 也可以使用。

2. Android 深度兼容测试

深度兼容测试是针对游戏做的一个更深层次的兼容适配测试,可以从引擎层面获取到游戏元素,真正深入到游戏内部的场景中进行测试,除了记录标准测试测试里面的各项数据外,还能够支持脚本定制逻辑、引擎层面数值统计、函数热点记录等各种深层次的信息,并且还有专门的人力来整理数据,提供最专业最有用的报告给开发团队。

两者中深度兼容测试是笔者极力推崇的兼容测试模式,我们从中可以得到非常多的信息,随便跑一次深度兼容测试,选了 37 部机器,结果如下图所示:


图 3.1 深度兼容测试的总体结果图

在华为 P9 上出现了什么问题,是什么错误信息,性能指标如何,深度兼容测试一共测试了一个小时多,深入到了游戏里面,有上百张截图,可以一键通过图片去重来过滤掉干扰信息,快速的定位到有问题的场景,非常方便。

我们可以看到在所选择的 37 台机器中,都分别出现了什么问题,问题分类是什么,原因及堆栈信息都会有上报,基本上就可以直接拿来查问题修复。而点击进入具体的某一部机器,再查看,会有更多的详细数据,如下图:

除了专业而丰富的信息,腾讯游戏测试对于兼容适配测试的机型选择同样是慎之又慎,用数据说话。在腾讯游戏测试质量部门有专门的团队每天针对腾讯游戏用户的机型做数据挖掘,每天在近 2 亿条记录中提取出来用户使用的手机的型号并做各种汇总,为腾讯游戏应该运行在什么样的设备上提供数据依据,也最终用于指导兼容适配的设备选择,下图为最新腾讯游戏设备排名前 20 名的数据:


图 3.3 游戏用户热门机型排名(来自腾讯大数据系统)

以及更详细的显卡芯片的分布统计:


图 3.4 显卡芯片的市场排名图

通过以上多张数据表我们能够明确感觉到腾讯游戏测试在手机兼容适配测试这一问题上的严谨和专业度,不管是设备选择,还是性能数据获取,以及针对游戏引擎而做的深度兼容技术,都表现出了极强的可靠性。而生于游戏,精于游戏的 WeTest 测试平台将这一强力的质量保证解决方案共享给业界,是每个游戏开发者的福音。

四. 腾讯游戏的安全测试

在鼓励玩家交易的 PC 时代,重大的安全漏洞可以毁掉一个游戏。到了手游时代,玩家的数量呈几何数增长,交易系统也在逐步开放,但受限于网络状况和流量考虑,与服务器的交互较少,导致安全问题尤为突出,安全漏洞一旦被某些"玩家"利用很容易会导致游戏内数值系统的平衡性很快消失,造成重大影响。因此游戏上线前必须经过严格的客户端安全测试,确保放到外网去以后,出现外挂需要尽量高的门槛。

腾讯游戏在上线前,先进行一整套内部的漏洞搜索和外挂攻击模拟,在一定时间内尽可能多地挖掘出游戏中的安全漏洞,对漏洞的原因进行深度分析,然后提供修改方法建议。配合腾讯安全中心提供的各类组件和接口,为游戏穿上一层牢固的护甲,使其难以被攻破。如果线上还是出现了外挂,也可以做到准确定位并分析原因,第一时间提出解决方案。

常用的作弊手段有内存修改,配置表修改,hook 游戏动态修改等。针对这些作弊方法,我们做手游安全测试常用的工具及其主要作用如下:


图 4.1 手游安全测试常用工具

使用这些工具,我们设计了一整套的测试方案,有以下几个部分。

1. 游戏安装包检查

检查安装包内重要配置信息和代码是否加密,代码是否混淆,敏感信息有没有泄露的可能,修改后的安装包能否安装并正常游戏,主要使用开源工具 apktool,dex2jar,baksmali 等,这些工作也是 Android 平台上用于逆向分析的初步工具。

2. 游戏运行时内存修改

这个测试方案主要用各种主流修改器,如烧饼修改器,八门神器等在内存中搜索敏感数值,尝试修改以达到获益目的,如下某个游戏中的内存修改测试:


图 4.2 游戏内存修改测试

3. 代码逆向分析

针对游戏引擎的不同,使用 Ollydbg、IDA、ILSpy 等对客户端进行逆向破解,获取其逻辑代码进行分析、修改。这项工作要求测试工程师有相当好的逆向技术,用外挂作者的思维方式考虑问题,以彼之道,还施彼身,封堵可能被利用的程序漏洞。


图 4.3 游戏代码逆向分析

4. hook 游戏进程

hook 的目的是为了进行动态修改以达到获益目的,可以用 IDA 先调试分析、然后使用 Vulminner、SR 安全雷达等自研安全测试工具或者自己编写的注入代码进行 hook,这些优秀的内部工具也将逐步在 WeTest 平台上发布对外。下图是自研的一款 hook 测试工具。


图 4.4 腾讯自研的手游 hook 测试工具

5. 网络协议包构造攻击

手游的 C/S 交互都是通过网络数据包进行的,腾讯游戏安全测试工程师会模拟非法游戏逻辑包、异常逻辑数据包及重发核心数据逻辑包等方式进行网络协议的攻击,以检查服务器对于非法数据的处理能力,以及是否存在逻辑漏洞等。


图 4.5 网络协议包构造工具

下面举个实际项目发现的安全缺陷的例子,来说明基本的测试方法。


图 4.6 某塔防游戏安全漏洞示意图

上图是一个塔防游戏中发现的安全漏洞,敌方战斗单元沿着路线前进,游戏的目标是消灭所有敌方战斗单元。由于流量和网络考虑,游戏过程中客户端和服务器不会有交互,只有在一局游戏结束后,客户端把战斗结果以及某些相关数据上报给服务器,服务器进行结算。

而这些上报数据中没有 AI 行进路线,所以针对这一漏洞,对 AI 的前进函数进行 hook 并修改,使其止步不前,这就使得敌方只出现在出口且永远不会移动,极易消灭,大大降低了游戏的难度。所以,这个缺陷的修复方法就是在战斗结束时,增加敌方行进路线进行分析,发现速度或者地点异常则判定结算失败。

除此之外,还有一些增强安全防护以及防外挂的手段,比如:进行代码混淆,加壳保护,安装包进行签名校验,核心游戏逻辑的用户行为与核心数据在服务器校验,log 文件中避免输出敏感信息等等。

五. 腾讯游戏的网络适应性测试

手机移动时代,网络制式繁多,2g/3g/4g/wifi , 各种制式之间网速差异巨大,连接稳定性也不尽相同。在这样复杂的网络环境下,断线、卡死、闪退、数据不同步等都成为手游最常见的问题。为了让游戏拥有强大的网络环境适应能力,网络适应性测试成为了精品手游测试过程中不可或缺的一个环节,然而网络适应性测试却远没有我们想象的简单。

弱信号的网络适应性测试中最难的部分就是网络环境的模拟,我们不可能让我们的测试人员常年分布在地铁、商场、高铁等现实网络环境中,我们也不可能准备一堆电话卡,2g、3g、4g、wifi 来回切换,我们只能在办公室尽量模拟最接近现实的弱信号网络环境。

在传统的网络测试中,大多采用模拟软件对传输的数据包进行处理,从而模拟不同的网络条件。对于移动互联网而言,将移动通信网络看作是黑盒模块,网络信号不强的影响仍然可以归结为网络中的丢包率、误码率、延迟等特性,只是在网络带宽,网络间切换等特性上会有所差异。我们通过分析不同网络制式的特性、各运营商提供的数据,以及现场真实采集的数据,制定了各种弱网络的模型来模拟 2g/3g/4g 在各种现实环境下的特性,模型的参数包括:延迟、断线频率、丢包率、上下行带宽等。而且我们将这套高仿真模拟的网络环境集成到了 WeTest 平台,从此,在不同的网络环境下切换,不再需要实地测试,也不再需要繁琐的配置,就只需要轻松地点一下鼠标。

如下图所示,WeTest 网络适应性测试平台提供了 5 种常用的典型的网络环境:1. 正常 wifi 、2. 3G 高延迟网络、3. 3G 请求回应超时、4. 2G E 网高速移动、5. 2G E 网低速移动。


图 5.1 典型弱网络环境

如果以上预设的网络环境还无法满足要求,没有关系,自定义网络场景可以自行设置网络参数,想要多弱就有多弱。


图 5.2 自定义网络场景

在这套网络测试环境下,就能快速发现定位网络适应性不佳的而导致的缺陷,以下是一些实际项目网络测试发现的缺陷:


图 5.3 游戏中的弱网络卡死

上图所示 bug 为一款游戏在战斗过程中进入弱网环境导致的界面卡死,缺陷原因是客户端在战斗过程中需要跟服务器同步关卡数据,但是在网络连接层面没有做断线重连机制,客户端发出请求后会一直等待服务器响应,如果服务器没有响应就会一直卡死在数据同步界面。


图 5.4 游戏中的弱网络无法结算

上图所示 bug 为一款游戏在结算过程中进入弱网状态,无法结算,虽然游戏做了断线重连机制,在连接超时后提示玩家需要重新连接,但是重新连接后的逻辑处理不正确,没有!
正确返回结算界面,而是出现了登录界面,造成的界面错乱。

六. 结语

以上内容是腾讯游戏除传统功能测试之外的所进行的各项专业而深入的灰白盒层面测试工作,部分环节的难度已经远超过了开发本身,真正的让产品在技术层面上保证最佳品质,为腾讯游戏高品质保驾护航。随着这些专业的技术方案逐步通过 WeTest 平台对外开放,我们有极大的理由相信这会对行业内游戏品质的提升产生非常大的推动作用。


↙↙↙阅读原文可查看相关链接,并与作者交流