可靠性是软件一个重要的质量属性,它关注的是软件功能持续的可用性,以及出现故障之后是否能够容错,是否能快速的恢复使用。
1、故障应在第一时间被检测和感知;
2、能避免的故障都不应该发生;
3、不可避免或无法预测的故障,需进行容错;
4、已发生故障,需在最短时间内得到恢复;
5、对象状态和生命期都应该是完备的,闭合的;
6、资源必须合理和均衡地使用;
应用作为直接提供用户服务,与用户交互最多的环节,其可靠性对用户体验的影响巨大,甚至会高于系统对用户造成的影响。
(1) 应用将耗时操作或者同步调用放在 UI 线程,广播接收器里处理;
(2) 应用资源异常,如内存,文件,线程等的滥用、泄露;
(3) 消息、通知过载,忙不过来;
(4) 获取系统资源阻塞,比如访问文件系统,数据库,网络,CPU 等;
(1) 应用启动阶段必现闪退;
(2) 应用在启动阶段做了特殊的耗时、阻塞动作;
(3) 应用事件处理 bug,例如:应用接收事件但不做任何响应;
(4) 应用资源异常,获取系统资源阻塞;
(5) 应用窗口状态异常,或者使用定制的显示绘制接口导致;
(1) 低级编码错误,多线程并发错误,app 质量不合格;
(2) 异常处理不闭合,不完备;
(3) 版本兼容性问题,硬件兼容性问题;
1、某输入法软件为了保证应用能常驻内存不被系统清理,在应用进程退出时,高频率注册 1 秒的定时器,定时器到时候,立即拉起该应用及关联应用。如果系统反复清理该应用,该应用会反复自启动,导致系统卡顿很严重。
2、某应用反复注册了 800+ 个应用权限管理的 AppOps Listener,在执行 callback 的时候直接导致 system_server 进程的 global reference table overflow,系统重启。
3、某著名社交软件收到消息通知之前,需要获取通话状态。如果该应用短时间内收到通知消息特别多,直接会将 system_server 的 binder 线程全部占满,导致其他应用和服务无法与 system_server 通信,直接导致系统重启。
1、某社交软件在自身升级后的首次启动过程中,长时间进入 dex2oat 优化过程,应用界面显示黑屏。按 back 键无效,只能手杀,大量用户反馈手机黑屏死机。
2、某著名社交软件收到消息通知之前,需要获取通话状态。如果该应用短时间内收到通知消息特别多,直接会将 system_server 的 binder 线程全部占满,导致其他应用和服务无法与 system_server 通信,直接导致系统重启。
3、某应用注册加速度传感器以及近距离传感器监听的逻辑:若两个传感器的注册有任何一个失败或者被拒,则会进行无限重试,直到两者全成功,该逻辑会导致距离传感器被反复执行注册,致使 system_server 的 fd 数量急速增加,超过 1024,导致 system_server 进程崩溃,系统重启。
1、Google 版本升级导致。应用升级 N 版本之后,应用频繁闪退,功能缺失,应用无法使用,清除数据和缓存也无效,系统负载高,用户退机。
2、某应用推送最新版本异常。应用升级之后,用户无法使用。
3、ROM 升级之后,导致应用无法使用。ROM 升级之后,该应用读取电话薄失败,应用频繁 Crash,导致手机电话过程中无法挂断。
1、合理分配执行任务:哪些放在前台?哪些放在后台?
2、仔细设计任务同步&并发:采用同步还是异步?多任务并发?
3、任务负载的均衡:多个业务执行流有序执行;
4、对象生命周期的闭合;
5、良好的用户交互和提示:别让用户以为应用 crash
1、应用核心的数据/文件应有备份和容错设计
2、来自外部输入设备的数据,应用应能判别数据的合法性,例如被破坏的数据源,非法的外部数据/命令
3、向外发起的服务请求,要有超时和有限重试设计,外部扰动不导致应用卡死
4、外部发起的攻击性请求,例如通知,广播,要有防护设计
1、分配的资源必须在确定的地方释放;
2、使用资源必须有明确的上界,如内存,磁盘,文件,线程。
优秀的编码能力是应用可靠性设计的基础;
事先考虑到应用内部、外部可能发生的故障,将故障的集合定义出来,针对性的设计故障用例。