我们有很多故障或线上问题都来自于人工操作或配置类错误,这都是人工差错防御范围,从哪些角度来分析,可以避免这类事故的发生呢从而提升项目质量呢?
分级发布 + 流水线检测 + 线上监控
技术范畴的防范,楼上已经很精辟了。
稍微补充一个点,除了系统发布相关配置外,还有不少故障来自于运营/产品在后台不合理配置造成,这类问题有些时候通过技术手段很难防范(很可能发现问题时已经造成一定损失了)。鉴于运营产品人员流动性比较大,且后台系统有一定复杂度,让大家都熟悉系统成本很高,所以我们这边的做法是:配置调整流程里,加多一个 QA 把关环节。
重大活动调整配置,运营/产品在预发环境配置完毕后,提交给 QA 进行二次检查确认,确认后再到线上配置。