问答对于 Android 系统 APP 上线后产生崩溃，大家有什么好的预防思路么？

王锦涛 · 2025年06月09日 · 最后由 youbixingguang 回复于 2025年06月13日 · 11939 次阅读

小菜鸡一枚，最近几次版本上线后，线上监控崩溃率老是很高，然后就要经历痛苦得换包过程，各位大佬有没有好的思路，可以在上线前做一些预防得措施

1 个赞

共收到 22 条回复时间点赞

林夕 #1 · 2025年06月09日

上线前打个测试包先进行测试

Joo #2 · 2025年06月09日

通过云测平台提前进行大规模批量的稳定性测试，提前发现问题

Jerry li #3 · 2025年06月09日

如果奔溃是功能性产生的，可以考虑跑个 monkey 测试之类的，多覆盖一些随机的操作
如果奔溃是跟设备兼容性相关的，检查一下兼容性的测试策略，还有找云测平台跑一下不同的设备。
做好奔溃日志收集，定期检查分析，找出可能存在的问题。

三个L #4 · 2025年06月09日

测试前跑一下 fastboot，可以多跑一下机型

像雾像雨又像风 #5 · 2025年06月10日

如果是功能导致的话上线前回归用例整理好多留些时间做好上线前回归

YLM #6 · 2025年06月10日

没有灰度吗？灰度完之后看下崩溃率，崩溃率高了就让研发排查修复，继续灰度，崩溃率达标在上线。

王锦涛 #7 · 2025年06月11日 Author

对

林夕回复

上线前有做这个操作得，但是测试环境没有那么大用户量，很难发现问题

王锦涛 #8 · 2025年06月11日 Author

对

Joo 回复

有考虑得，但是出于成本考虑（降本增效），应该不会采用这种方案

王锦涛 #9 · 2025年06月11日 Author

对

Jerry li 回复

大部分时候都是由于开发新功能，开发那边影响面没有评估全，影响到其他老功能了；那些老功能不是常用得，所以也不在回归用例里面，有时候是在灰度得时候线上监控就发现了，有时候是全量才发现；后面也复盘过，崩溃出现得位置都很随机，如果都放回归用例里面，感觉没必要；monkey 也跑过，实施下来，没有太多作用；云测平台出于成本考虑，暂时不会考虑

Jerry li #10 · 2025年06月12日

对

王锦涛回复

如果是新功能影响到的老功能，说明你们的回归测试策略不完整。
有没有必要都放到回归测试里面，是基于风险去评估的，很明显你们现在的情况就是需要加上。

陈恒捷 #11 · 2025年06月12日 1 个赞

想问下，所以崩溃率大概是多高？百分之多少？

老功能不常用，所以没回归，但灰度或全量时用户会遇到，而且遇到得还不少导致你们崩溃率高。“不常用” 和 “崩溃率高” 两个有点矛盾。

王锦涛 #12 · 2025年06月13日 Author

对

Jerry li 回复

目前是没有去做精准测试得，所有影响面全考经验评估；回归测试主要是对当前版本新增得功能及影响面 + 历史重要功能回归；基于最近几次出现崩溃得点，很多功能都是几年没动得功能且功能非重要功能，出现位置很随机，把这些加入回归，感觉意义不大；

小小小测试 #13 · 2025年06月13日

你的分析是什么，说了一个问题，然后让我们大家猜想贴合你的情况？提供的信息也太少了，给不了什么建议

王锦涛 #14 · 2025年06月13日 Author

对

陈恒捷回复

第一点：为了保证用户体验，部门内部定的是崩溃率达到万五，就要考虑换包了；
第二点：是我表述的有问题，不能说不常用，只是没有归到回归点里面；所以我们回归的时候都不会点到，但实际用户还是会用的

lc0118 #15 · 2025年06月13日

笨办法，每次出现的位置都加入回归里，也加不了多少吧，只增加回归崩溃的场景工作量也不多，这是必要的对于崩溃来说；而且出现那么多次总有个原因吧，既然能影响到其他老功能说明这块代码有关联性或者通用了，那每次开发就应该找全影响点提供给测试覆盖，或者可能的范围也行啊。

Jerry li #16 · 2025年06月13日

对

王锦涛回复

这其实是你们的策略制定的出发点是什么，如果说纯粹从技术角度来看，没问题；
但是从质量管理的角度来看，已经有客户会在实际使用的时候遇到这种奔溃的问题，而且从你的描述来看，不是随机的小概率事件，而是某些功能你们选择性地不去回归，没有发现问题。

liumomo #17 · 2025年06月13日

既然能统计到崩溃率应该是有接入第三方或者公司自己有日志回收的。回收的信息里面都是有具体的报错的，按照占比高低着重分析出现的问题是什么。
根据过往的经验（多年前，不确定现在是否适用），最多的应该是空指针，其次是数组越界，再次是 OOM。
首先最简单的，OOM 可以通过 adb 调用具体的页面类重复加载对比数据看出来是否有；
然后数组越界比空指针好处理一点，测试的时候自己 mock 数据多测试一下边界值；
最后空指针这个跟接口数据有关系的直接可以 mock，还有一些是页面之间的数据流转与依赖导致的本质上也是可以通过自己控制接口数据返回有效降低的。以上是技术方法。
非技术方法：分析开发人员的特性，针对开发人员设防进行针对性的测试。大部分的这种崩溃实际上都是个别开发人员代码习惯不好导致的。