可靠性是软件一个重要的质量属性，它关注的是软件功能持续的可用性，以及出现故障之后是否能够容错，是否能快速的恢复使用。

可靠性六条基本准则

1、故障应在第一时间被检测和感知；

2、能避免的故障都不应该发生；

3、不可避免或无法预测的故障，需进行容错；

4、已发生故障，需在最短时间内得到恢复；

5、对象状态和生命期都应该是完备的，闭合的；

6、资源必须合理和均衡地使用；

应用作为直接提供用户服务，与用户交互最多的环节，其可靠性对用户体验的影响巨大，甚至会高于系统对用户造成的影响。

可靠性故障的现象及根因

应用不响应（ANR）

(1) 应用将耗时操作或者同步调用放在 UI 线程，广播接收器里处理；

(2) 应用资源异常，如内存，文件，线程等的滥用、泄露；

(3) 消息、通知过载，忙不过来；

(4) 获取系统资源阻塞，比如访问文件系统，数据库，网络，CPU 等；

应用启动不起来，界面卡住冻屏，黑屏，白屏

(1) 应用启动阶段必现闪退；

(2) 应用在启动阶段做了特殊的耗时、阻塞动作；

(3) 应用事件处理 bug，例如：应用接收事件但不做任何响应；

(4) 应用资源异常，获取系统资源阻塞；

(5) 应用窗口状态异常，或者使用定制的显示绘制接口导致；

应用闪退或者频繁闪退

(1) 低级编码错误，多线程并发错误，app 质量不合格；

(2) 异常处理不闭合，不完备；

(3) 版本兼容性问题，硬件兼容性问题；

Android 应用故障案例分享

一、应用资源异常

1、某输入法软件为了保证应用能常驻内存不被系统清理，在应用进程退出时，高频率注册 1 秒的定时器，定时器到时候，立即拉起该应用及关联应用。如果系统反复清理该应用，该应用会反复自启动，导致系统卡顿很严重。

2、某应用反复注册了 800+ 个应用权限管理的 AppOps Listener，在执行 callback 的时候直接导致 system_server 进程的 global reference table overflow，系统重启。

3、某著名社交软件收到消息通知之前，需要获取通话状态。如果该应用短时间内收到通知消息特别多，直接会将 system_server 的 binder 线程全部占满，导致其他应用和服务无法与 system_server 通信，直接导致系统重启。

二、应用的特殊行为

1、某社交软件在自身升级后的首次启动过程中，长时间进入 dex2oat 优化过程，应用界面显示黑屏。按 back 键无效，只能手杀，大量用户反馈手机黑屏死机。

2、某著名社交软件收到消息通知之前，需要获取通话状态。如果该应用短时间内收到通知消息特别多，直接会将 system_server 的 binder 线程全部占满，导致其他应用和服务无法与 system_server 通信，直接导致系统重启。

3、某应用注册加速度传感器以及近距离传感器监听的逻辑：若两个传感器的注册有任何一个失败或者被拒，则会进行无限重试，直到两者全成功，该逻辑会导致距离传感器被反复执行注册，致使 system_server 的 fd 数量急速增加，超过 1024，导致 system_server 进程崩溃，系统重启。

三、兼容性问题

1、Google 版本升级导致。应用升级 N 版本之后，应用频繁闪退，功能缺失，应用无法使用，清除数据和缓存也无效，系统负载高，用户退机。

2、某应用推送最新版本异常。应用升级之后，用户无法使用。

3、ROM 升级之后，导致应用无法使用。ROM 升级之后，该应用读取电话薄失败，应用频繁 Crash，导致手机电话过程中无法挂断。

可靠性设计的一般准则

一、业务功能的可靠性设计

1、合理分配执行任务：哪些放在前台？哪些放在后台？

2、仔细设计任务同步&并发：采用同步还是异步？多任务并发？

3、任务负载的均衡：多个业务执行流有序执行；

4、对象生命周期的闭合；

5、良好的用户交互和提示：别让用户以为应用 crash

二、应用数据源可靠性设计

1、应用核心的数据/文件应有备份和容错设计

2、来自外部输入设备的数据，应用应能判别数据的合法性，例如被破坏的数据源，非法的外部数据/命令

3、向外发起的服务请求，要有超时和有限重试设计，外部扰动不导致应用卡死

4、外部发起的攻击性请求，例如通知，广播，要有防护设计

三、应用的资源可靠性设计

1、分配的资源必须在确定的地方释放；

2、使用资源必须有明确的上界，如内存，磁盘，文件，线程。

四、优秀的编码能力

优秀的编码能力是应用可靠性设计的基础；

五、完备的测试故障用例

事先考虑到应用内部、外部可能发生的故障，将故障的集合定义出来，针对性的设计故障用例。

↙↙↙阅读原文可查看相关链接，并与作者交流