大促作为 JD 一年两度的盛事,质量备战是不可或缺的重要环节。每逢大促都是一次大型的联合战役,在这种战役中,不仅有各种 “海陆空” 技术争奇斗艳,还会让我们的技术视野变得更宽阔,让我们协同变得更默契,所谓以战养兵。测试团队作为质量备战团队,沉淀了 “常态化”、“精细化”、“一体化” 的三化备战策略,希望与君共勉,共保大促!
测试联合架构师把大促备战事项进行分类、分级划分,将部分备战工作纳入常态化,通过双周会形式推进系统架构治理,提前消除隐患,使其安全稳固,资源高效。
为了提高资源的利用效率,产研测联合成立治理专项。全面分析产品流量状况和机器资源利用率,持续推进低价值产品的关停并转,释放机器资源。通过推进与完善 ServerLess 部署,使其核心应用具备快速扩缩容能力, 实现资源动态调整。基于流量的关停并转和全面覆盖的弹性伸缩,为大促备战低碳化打下了坚实基础。
在构建需求节奏控制、系统质量备战、资源共享配置的平衡关系上,测试团队应充分发挥资源池优势,通过使用公司统一的平台工具实现精细化质量备战,确保资源利用的合理化,专项备战的差异化,演练场景的多样化,巡检事项的自动化,从而提升系统/产品质量和备战效率。
1.以 APP 端为例的大促版本质量保障,我们采取以下措施保障和流程管控:基于大促版本重新梳理及联合评审核心场景用例,在集成测试阶段,功能核心场景全面回归覆盖,页面加载性能优化和 Crash 稳定性治理等。并在灰度发版之前,进行运营配置 DoubleCheck 和众测。同时,进行代码集成管控和组件 Diff,专项保障 APP 版本合规性和预审,以确保大促版本的交付质量和提审通过率。
2.以 H5 为例的活动类专项保障,我们采取了小流量剧本演练/功能巡检/兜底/众测、页面加载性能、验签加固/反爬防刷安全等质量保障措施,结合页面监控(异常、微信封禁等)、权益预警(活动有效期、优惠券库存余额)等。防止活动权益出现套刷现象,影响正常用户权益领取,提升用户体验。
限流、降级和混沌演练是保障系统稳定性和可靠性的重要措施,可有效防护系统流量超限、提高系统鲁棒性。测试团队联合研发进行 0/1 级应用的多场景的混沌/降级演练和网关/JSF 接口的限流配置相互 Check,确保限流配置合理,预案演练全面且执行到位。为预案的可视化、自动化及效率提升,测试团队联合泰山团队实现 “预案大屏"和"预案执行触达" ,使其预案全部收敛至平台,实现预案自动降级,可视化感知 。
联合防护和高效协同至关重要,通过上下游或跨团队的联防联控、资源联合重保、监控的实时共享,确保各环节之间的协同畅通,问题及时响应。
备战的成功依赖于多个系统和团队的支持,因此确保各环节之间的协同畅通,及时响应问题至关重要。为此,我们集中备战,测试主导并梳理产运研上下游接口人,建立沟通群,产研测业务 BP,确保关键节点的及时沟通和配置修改的双重检查。通过打通用户反馈渠道和舆情预警,并与客服建立应急预案,能够及时应对用户反馈和突发情况。
此外,为了降低大促期间的风险,我们严格执行集团的《系统上线封板新要求》,以控制需求对线上系统的影响,并通过架构师委员会评审进行双重保障。
在每次大促前,测试团队牵头,组织产研测与中间件团队联合对 J 资源集群的重保工作。基于系统峰值流量及可能存在潜在风险,双方进行交流并给出相关的诉求和建议,进而反哺到团队的工程实践,确保资源得到充分保障,消除潜在风险。
泰山作为内部系统监控利器,提供较为丰富的监控能力,我们可以通过雷达、全域、数据任务看板等构建出监控大屏,确保异常可及时感知。同时,营销类业务的权益监控仍然重要,测试联合架构师孵化权益监控系统,如:活动有效期、个人权益超发漏发、优惠券的库存等实时预警和告警,保障系统的可用性。
最后,大促备战是一项复杂而重要的任务,需要各部门之间密切协作和高效执行。同时,备战须提前规划和部署,实现常态化备战,避免临时抱佛脚。预祝 618 大卖,系统稳如磐石!!!
作者:京东零售 李英亮
来源:京东云开发者社区