少飞 闫旭 文文等 美团技术团队 | 作者

随着美团到家业务的发展,系统复杂度也在持续增长。测试用例数量近两年增长约一倍,单端数量超过 1 万 2 千条,而研发人员的工作从大部分时间在开发,转变成一半时间在开发、一半时间在模拟环境和自测。因此,引入自动化测试就显得十分有必要,本文介绍了美团外卖在自动化测试方向做的一些探索和实践,希望对从事相关领域工作的同学能够带来一些启发或帮助。

1. 项目背景

美团外卖的业务场景比较多元化,除了外卖自身的业务,还作为平台承接了闪购、团好货、医药、跑腿等其他业务。除此之外,在全链路动态化的大基调下,外卖各个页面的技术形态也变得越来越复杂,除了 Native 代码,还包括 Mach(外卖自研动态化框架)、React Native、美团小程序、H5 等,不同技术栈的底层技术实现不同,渲染机制不同,进而对测试方式要求也有所不同,这也在无形中增加了测试的难度。下图汇总了美团多业务、多技术、多 App 的一些典型场景。

图 1 多业务、多技术栈、多 App
在产品交付上线的过程中,测试的占比也是非常大的,甚至大于总时长的 30%。如下图所示,整个测试包括了冒烟测试、新功能测试、二轮回归测试、三轮测试。然而,现在需求测试绝大部分还是采用非自动化的方式,这就使得人力成本变得非常之高。

图 2 外卖迭代模型
另一方面,相比于 2018 年,2022 年的测试用例数量增长近 3 倍,已经超过 1 万 2 千条(如下图所示)。同时,外卖的业务是 “三端复用”,除了外卖 App,还需要集成到美团 App 和大众点评 App 上,这样一来,测试工作量就翻了 3 倍,业务测试压力之大可想而知。如果按照当前的增长趋势持续下去,要保障外卖业务的稳定,就必须持续不断地投入大量的人力成本,所以引入能够支持外卖 “多业务场景”、“多 App 复用”、“多技术栈” 特点的自动化测试工具来提升人效和质量,势在必行。

图 3 近几年用例增长变化

2. 项目目标

为了解决外卖面临的测试困境,我们尝试去探索一种零学习成本、低维护、高可用的自动化测试方案,能够支持外卖复杂多变的测试场景,它必须同时满足下面几点要求:

可以看出,以上这些自动化测试工具/平台对于数据记录,环境模拟、维护成本、跨 App 复用等方面,都是有所欠缺的。所以无论是哪种方案,在易用性、维护成本、稳定性、可扩展性以及最终的测试效果上,都无法满足我们对自动化测试的需求。我们并不是为了自动化而自动化,而是要解决实际的提效问题。
那么,怎样才能确定一个自动化工具/平台的可用性,并长期落地去使用自动化,带着上述提到的较高门槛的上手成本、操作繁琐的环境模拟、差强人意的测试成功率、定位模糊的测试缺陷、难以维护的用例脚本等几大重要痛点,本文我们将介绍美团外卖自研的测试平台——AlphaTest,都具备哪些能力以及是如何解决这些问题。

4. 实践和探索

一个自动化测试工具/平台能不能用起来,取决于他的上手成本和稳定性,即使工具的测试稳定性做的再好,使用的门槛高也会让人望而生却,反之亦然。所以 AlphaTest 平台为了上手简单,降低使用成本,采用了基于录制回放的方式进行设计,并且弥补了常规录制回放无法编辑的痛点,同时在手势操作的基础上增加了数据录制。整合美团系 App 的特性增加了环境模拟、跨 App 支持、混合技术栈的支持等能力,在使用简单的同时,也保障了用例的可维护性、测试的准确性等。

4.1 问题和挑战

注:这里我们将生成的自动化脚本统称为指令,将平台生成的用例统称自动化用例,将录制回放变成可视化的脚本指令,让用例变的易懂、易维护。
录制回放本身是一连串的操作数据的集合,是连续性的、不可拆分,因此几乎不具备可编辑性,这也就导致了用例维护成本极高。AlphaTest 虽然同样基于录制回放的方式生成自动化用例,但是我们将每一步的操作都具化成结构化的指令数据,并提供可视化指令编辑器,以支持查看编辑。
这些可视化的指令,完全通过录制自动生成,也不依赖于任何脚本语言。通过可视化用例指令编辑器,不仅为用例提供了编辑的可能性,同时大大地提高了用例的可阅读性,每一条测试用例在测试过程中每一步都做了什么、当时的界面是什么样的、都有哪些断言校验点,是显而易见的,不会存在像传统图文描述的测试用例那样,出现理解偏差。指令生成演示,手机录制与平台远端录制双模式支持:

图 4 指令编辑器

图 5 手机录制演示

图 6 平台远端录制演示

4.2 前置条件准备

一键环境模拟,解决操作繁琐的用例执行前的环境准备。

进行一个用例的测试之前,往往需要做大量的准备工作,比如切换 API 环境,定位到某个地点,登录指定账户等。这些需要准备的环境条件我们统称为前置条件。我们知道,前置条件的准备操作通常都不是一两个步骤就可以完成的,比如账号登录/切换:我们需要进入登录页,填写手机号 + 密码/验证码,点击登录等一系列动作来完成这个过程,非常繁琐,并且每次测试我们都需要准备,重复性高。因此,我们给 AlphaTest 设计了独立的前置条件模块,将用例拆成了两个部分:前置条件 + 操作步骤。

图 7 前置条件
与其它测试框架不同的是,AlphaTest 采用了 SDK 集成,但对业务无侵入的方式,因此可以通过编写白盒代码来实现前置条件的自动配置,只需要在平台添加需要的指令,下发到 SDK 后,即可根据相关指令完成前置条件的自动配置,不再需要重复进行相关的操作。并且这些前置条件支持复用,也不需要每次进行用例准备时的重复配置。AlphaTest 的前置条件,不仅有着基于美团内部服务及底层 Hook 的默认实现,也提供了 API 支持业务方自定义实现,比如实现不同的账号体系。

4.3 用例录制与回放的数据一致性

影响用例执行的不仅是代码,还有数据。

很多时候,自动化用例无法正常执行完成,可能是因为 App 回放时的本地数据及网络数据与录制时的不一致,从而导致用例执行流程的阻塞或 App 界面展示的不同。这也是大多数自动化测试工具/平台测试通过率不高的主要因素,因此要保证测试成功率,我们需要控制变量,排除由数据产生的影响。

图 8 数据一致性
App 运行依赖的数据,有两部分——本地数据和网络数据:

本地数据是 App 在运行期间产生的缓存数据或持久化的存储数据。为了让用例在录制回放时都能够保持一致的本地数据环境,我们在录制和回放前都对 App 的本地数据进行了清理操作,这样用例在录制和回放的过程中,都可以保持一致的 App 初始化环境。
网络数据是驱动 App 交互呈现的基石,各种策略和 API 升级都会影响网络数据的响应,因此我们将用例录制过程中产生的网络数据也进行了录制,并将网络数据和对应的操作指令进行了关联和绑定,确定了数据产生的事件源。排除数据影响后,我们的自动化测试的成功率就取决于自动化操作的准确性了,这就回到了常见自动化框架范畴。

4.4 用例录制与回放的操作一致性

目标定位的准确性与手势定位的精准性。

UI 自动化测试的本质就是代替人去自动的做一步步的操作(点击、长按、输入、滑动等)。录制与回放过程的操作能否一致,是否精准,直接影响测试的成功率,决定了工具/平台的可用性。

图 9 图像识别示意图

大多数情况下,这些都可以很好地进行工作,但是对于一些多响应控件重叠的情况,可能会产生预想不到的操作误差。为了解决这样的问题,我们把控件定位与坐标定位进行了结合:基于纯坐标的定位是一种定位精准度非常高的定位方式,但是稳定性非常差,只有在屏幕分辨率完全一致且回放页面控件位置完全一致的情况下,才具备足够的可靠性,但这往往是不现实的,对测试环境机器量要求过高。

基于控件的定位,又存在着精准度不够的问题。使用坐标定位,如果定位区域足够小的话,那么受屏幕尺寸的影响就会越小,只需要确定在小范围内的相对位置即可。而基于控件目标的定位,恰恰可以把目标区域缩小到一个指定区域,我们刚好可以将二者结合起来,同时解决定位精准度和稳定性的问题。

对于复杂手势的支持,我们同样可以采用微分的方式,将一个复杂手势拆成多个简单手势的组成,比如我们可以将一个滑动操作的定位拆成两个部分:起始位置和终止位置,而这两个位置的定位,就变成了两个普通的单点手势操作定位了,可以通过上面提到的一个目标控件 + 相对坐标的形式进行定位。核心思想都是将基于屏幕坐标点的定位操作,缩小的目标控件的区域范围内,以达到不受设备分辨率的影响,实现操作行为一致的效果。

图 10 手势识别示意图

4.5 可溯源的自动化测试

测试全流程记录,问题溯源一键即达。

测试的目的是保证 App 运行的稳定,测试过程中出现 Bug 导致测试未通过时,需要溯源问题原因,发生的场景,乃至具体的执行步骤。这也是大多自动化测试工具/平台所欠缺的,即使发现了问题,排查工作也很困难;这个问题在手工测试的时候,更为严重,往往因为很多缺陷无法复现而难以定位。

AlphaTest 的自动化用例最小执行单元是操作指令,我们将测试过程的每一条指令的执行状况和过程中的界面快照进行了记录,并在指令执行失败时,对异常原因进行了初步分析。然后将整个用例的执行组合成了一份完整的测试报告,可快速溯源问题步骤。除此之外,我们还增加大量的日志上报,并将整个用例测试过程进行了视频录制,来进一步帮助疑难问题的排查。真正做到了用例回放测试可溯源。

图 11 回放报告 - 图文详情

4.6 用例的维护

自动化用例需要持续地投入人力来维护么?架构升级,页面重构,用例需要全部重新录制么?

因自动化工具/平台众多,阻碍长期落地使用的一大问题是用例维护成本高,很多工具/平台让我们即便是使用上了自动化,但还需要持续投入人力维护用例的更新,最终的提效收益微乎其微。对于用例更新维护,我们可以梳理划分成三个场景:

需求发生重大变更,整体的业务执行流程及相关的校验点都需要进行大量的调整。对于这种情况,无论是何种自动化测试工具/平台,都是需要正常进行用例变更重录以适应新的需求。
需求发生略微变更,业务流程基本一致,需要调整的校验点、操作以及数据或不影响整体流程的步骤。对于此场景,AlphaTest 通过指令编辑器与操作录制,支持指令增删改以及数据和场景的还原,帮助用户快速的进行用例调整,而无需重新录制用例。例如:修改网络数据字段、视图变更路径、断言替换目标等。

图 14 指令编辑
和业务需求不同,我们的技术实现也会发生迭代。随着 App 技术架构不断的演进,经常会面临着架构升级,页面重构甚至技术栈变迁等这样的技术升级。这些变动需要覆盖大量的测试用例,其中大量的自动化用例又可能会因为变动而导致失效,需要重新录制。为此,AlphaTest 设计一套利用相近分辨率机器进行用例自动修正的功能:利用图像 + 坐标进行二次识别定位,元素定位成功并校验通过后,生成新的 ViewPath,更新对应的用例指令,对用例进行自动修复,修复后可在任意回放。

图 15 自修复能力

4.7 跨 App 回放用例

同一份代码运行在不同的 App 上,是否需要重新编写多份用例?

美团系的一些业务可能会复用在多个 App 上。比如外卖有独立 App,但同时也要复用到美团和点评 App 上,这些功能,几乎共用一份代码,而测试人员却不得不对每个 App 上的业务功能都进行测试,维护多份用例。由于业务本身实现是一致的,那我们可以通过适配不同 App 之间的差异,来让一个业务 Case 可以横跨多个 App 回放,这便可以将成本缩减好几倍,这些差异主要体现在:

4.8 埋点的录制回放

除了功能测试,我们在日常开发和测试的工作中,还会面临另外一个比较重要的问题就是埋点测试。因此,我们在自动化的基础上扩展出埋点自动化测试。埋点自动化测试的核心思想是,通过对比录制时期和回放时期的埋点上报时机和上报参数进行判断。为了保证埋点自动化测试的稳定性,我们主要采用以下的障机制:

图 16 埋点自动化测试示意图
字段规则配置:埋点自定义参数千姿百态,甚至有些字段每次代码执行都不一致,如果进行完全匹配结果注定是失败的,所以我们在 AlphaTest 平台提供了埋点字段规则配置功能,通过人为设置的方式来避免埋点自定义参数校验失败。App 重启进入录制状态时,用户就可以操作 App,平台会记录用户的操作行为,当产生相应的埋点日志的时候会将日志信息打印在日志区域(如下图 17 所示),在该过程中也会对埋点日志进行一定的校验。重点将操作时机、埋点日志一并保存到服务端。

图 17 埋点上报数据控制台打印
埋点时机校验:针对时机校验,程序并不支持埋点曝光的"1px 曝光","下拉刷新曝光","页面切换曝光","切前后台曝光"这些规则,主要的原因是每一个业务方在对埋点曝光的规则都是不一致的,而且该规则的实现会极大耦合业务代码。在针对时机校验我们目前只支持:

[1] 点击埋点上报时机校验,程序通过事件监听和埋点类型信息来判断点击埋点上报的时机是否是在点击的操作下产生的,如果不是则报错。

[2] 埋点重复上报校验,针对一般情况下用户一次操作不会产生两个相同的埋点上报,所以程序会校验某个事件下发生的所有埋点日志进行一一校验,检测是否具有 2 个或多个埋点日志完全一致,如有发生则会上报错误。

结果校验:回放完成后,我们会对比录制和回放时的埋点数据,根据配置好的字段规则校验埋点上报是否符合预期。
图片
图 18 埋点校验流程图

5. 测试流程

AlphaTest 的核心测试流程始终聚焦在用例的录制与回放环节,整个流程涉及到自动化任务触发、回放集群调度、断言服务、消息推送等核心模块。

以 UI 自动化和埋点自动化的流程为例,AlphaTest 以业务团队为基本单元,可以和各团队的测试用例进行关联,定时同步状态。同时利用需求评审线上化做为基础,将自动化用例和研发流程中的 PR、集成打包、二轮回归等节点相结合,定时触发自动化用例并将结果报告推送给相关负责人。

图 19 建设自动化测试流程闭环

录制用例:

[1] 首先在 AlphaTest 平台选择要录制的测试用例,打开待测试 App 进行扫码即可进入用例待录制状态,此时可以设置用例需要的前置条件(账号信息、Mock 数据、定位信息等),之后点击开始按钮后,手机便会自动重启,开始录制。
[2] 用户按照测试用例步骤,正常操作手机,AlphaTest 会将用户的操作行为全部记录下来,并自动生成语义化的描述语言显示在 AlphaTest 平台上,与此同时产生的网络数据、埋点数据等校验信息也会一并存储下来。
[3] 在录制的过程中可以快捷的打开断言模式,将页面上想要校验的元素进行文本提取/截图等操作记录下来,用于后续回放过程中对相同元素进行校验。
[4] 测试步骤全都执行完毕后,点击保存按钮即可生成本条自动化用例。

用例回放:

[1] 扫描对应自动化用例的二维码即可进行回放,回放过程中会将用户录制的行为、网络数据进行一比一还原,并且辅助有全过程视频录像,用于后续问题排查和溯源。
[2] 回放过程中碰到断言事件时,会将断言的元素进行文本提取/截图,上传至 AlphaTest 平台。回放完成后,会将回放时候的断言截图和录制时的断言截图进行图像对比,作为整个测试结果的一项。
[3] 回放过程中的埋点数据也会一并记录下来,并和录制时候的埋点数据和上报时机进行对比,自动提取出其中的差异项。
[4] 回放完成后,会生成完整的测试报告并将结果通过 OA 推送至相关人员。

回放计划:二轮回归测试中,回放用例数量多达几百条,为了做到全流程的自动化,我们提供了回放计划的概念,可以将多个自动化用例进行编组管理,每一组就是一个回放计划。触发一个计划的回放即可自动触发计划内的所有自动化用例。整个计划都执行完成后,会通知到指定的计划负责人或群组。

5.1 自动化任务触发

在整个外卖 C 端敏捷迭代的流程中,打包平台主要承接了业务需求发起到需求交付的流程,作为 AlphaTest 的上游平台,可以提供打包信息并触发自动化用例回放任务。以下简单展示 AlphaTest 与敏捷协同平台的交互流程:

图 20 AlphaTest 与敏捷协同平台交互流程图
5.2 回放集群调度
整个测试过程真正的解放双手,才能算的上是自动化。因此,我们着手搭建了自己的自动化机器集群,可以 24 小时不间断的执行测试任务。为了保证任务回放能够顺利完成,我们在不同阶段增加了相应的保活策略。在极大程度上提高了任务执行完毕的成功率。

图 21 机器集群

5.3 断言服务

用例断言是整个自动化用例验证的核心步骤,我们的断言服务依据用例的实际情形可以分别进行文字与图像的断言。其中图像断言服务依托于自建的图像对比算法服务,可以高效进行录制回放断言图像的对比,图像对比准确率可以达到 99% 以上。

录制阶段:

[1] 录制时增加断言决策信息的自动采集。
[2] 和正常流程一样,提取区域的截图信息。
[3] 如果是文本组件,则提取文本内容,如果是图片组件,则提取图片二进制编码或图片 URL,同时提取区域内的布局信息。

回放阶段:

[1] 回放时,提取和录制时一致的内容(文本信息、图片编码、区域截图、布局信息)。
[2] 将回放时的断言信息上传至 AlphaTest 平台。
[3] AlphaTest 平台对断言结果进行校验,首先是基于模型的图像对比,如果判定为一致,则直接标记结果。
[4] 如果判定为不一致、则匹配 “断言失败数据集”,如果能够匹配上,则标记结果。如果匹配不上,则需要人工选择匹配类型。
[5] 匹配类型为 “文本校验”、“根据图片信息校验”、“人工校验”。如果前两项判定为一致,则直接标记结果。如果 “人工校验” 的结果为确实两张图不一致,则直接标记结果,结束。
[6] 如果 “人工校验” 结果为一致,既上述所有判定都不准确,则需要人工对两张图中判定错误的原因进行分类(具体类型待定),同时将断言存储到失败数据集。
[7] 模型自动训练,当数据集超过一定的阈值、通过定时触发、或者手动触发的方式,触发模型自动训练,训练完成后自动部署到 AlphaTest 平台,不断迭代。

图像服务:图像对比模型采用基于度量学习的对比算法,将图像对的一致性判别转换为图像语义的相似度量问题。度量学习(Metric Learning),也称距离度量学习(Distance Metric Learning,DML)属于机器学习的一种。其本质就是相似度的学习,也可以认为距离学习。因为在一定条件下,相似度和距离可以相互转换。比如在空间坐标的两条向量,既可以用余弦相似度的大小,也可以使用欧式距离的远近来衡量相似程度。度量学习的网络采用经典的 Siamese 结构,使用基于 resnext50 的主干网络提取图像的高级语义特征,后接 spplayer 完成多尺度特征融合,融合后的特征输出作为表达图像语义的特征向量,使用 ContrastiveLoss 进行度量学习。

图 22 训练过程
[1] 预训练过程:resnext50 网络是使用 ImageNet 的预训练模型。
[2] 数据增强:为增加数据的丰富性、提高网络的泛化性能,数据增强的方式主要包括:图像右下部分的随机剪切和添加黑色蒙层(相应改变图像对的标签)。这种数据增强符合控键截图实际情况,不会造成数据分布的改变。
[3] 对比损失:对比损失函数采用 ContrastiveLoss,它是一种在欧式空间的 pair based loss,其作用是减少一致图像对距离,保证不一致图像对的距离大于 margin,其中 margin=2。

图 23 训练过程
[4] 相似度量:相似度量也是采用计算图像对特征向量的欧式距离的方法,并归一化到区间 [0, 1],作为输出的图像对相似度。

5.4 消息推送

消息推送作为回放流程的最终环节,我们依赖于美团内部自建的消息队列服务与 OA SDK 消息推送能力,可以进行测试报告的实时推送。在此之上,还可以针对不同团队的推送诉求,做消息模板的定制化。

6. 落地与实践

外卖 C 端主要承担了用户在 App 端点餐、下单、配送的所有核心流程,场景繁多、业务复杂,这也给测试人员的版本测试带来了诸多挑战,其中最核心也最耗费人力的便是二轮回归测试环节。目前,C 端采用的双周敏捷迭代的开发方式,每个迭代周期给测试人员用来进行二轮核心流程回归的时间为三天,为此 C 端测试团队投入了许多人力资源,但即便如此,仍难以覆盖全部流程;而 AlphaTest 的设计初衷也正是为解决此问题——UI 测试流程全覆盖及自动化验证。

6.1 业务共建

经过多轮的使用与磨合之后,这种模式被证明是行之有效的,在整个 C 端二轮用例的转化过程中,测试人员主要负责了用例的录制与迭代流程,研发人员则主要负责版本回放数据的统计及问题用例的发现与解决。

未来,我们会朝着 “智能化” 和 “精准化” 两个方向探索,覆盖更多测试场景的同时,更进一步提升测试人效。

6.2 实践效果

  1. 参考资料

[1] https://appium.io
[2] http://docs.seleniumhq.org/projects/webdriver
[3] http://airtest.netease.com/index.html
[4] https://github.com/alipay/SoloPi


↙↙↙阅读原文可查看相关链接,并与作者交流