故障专题

程序员不能被同一原因的故障坑两次”——程序员的自我修养

<!-- /wp:column -->

移动互联网时代,业务场景多元、玩法多样瞬时流量高,系统的复杂度也越来越高。一次故障就是一次考试。不管你是研发、测试、运维,或其他 “工种”,只要你身处 IT 行业,「故障」怕都是大家避之唯恐不及却无法绕开的一个梦魇和话题。

本次「TakinTalks」技术分享会:将会通过互联网典型故障事件出发,剖析故障成因,介绍治理实践经验和技术演进,并为如何做好故障复盘提供一定的参考,帮助大家可以更从容淡定、有章可循地做好系统稳定性建设。

嘉宾与分享主题

@ 武安闯 -bilibili·在线 SRE 负责人

B 站基础架构部在线业务 SRE 负责人。2016 年加入 B 站,深度参与 B 站微服务拆分、云原生改造、高可用建设、SRE 转型和稳定性体系落地等项目。当前主要关注 B 站在线业务的 SRE 稳定性体系建设和推广,对 SRE 的实践有深入的探索与思考。

《B 站” 713 事故 “后的多活容灾建设优化》

介绍常见的故障类型和解决方案(追加:B 站大型活动中的踩坑实践分享),及 B 站的多活基架能力优化和多活切量预案平台建设。

SRE 工程师、研发、架构师等


@ 李道兵 -奈雪的茶·技术中心高级总监

李道兵,奈雪的茶技术中心高级总监。先后在金山、盛大云、七牛云、京东云等公司工作。曾任盛大云资深研究员,七牛云 SVP 兼首席架构师、京东云高级总监。现主要关注连锁经营和供应链的产业互联网领域。

《事故报告与事故复盘:不要浪费掉任何一次危机》

每次事故,都会有事故报告和事故复盘的过程,如果不明晰这些流程的目的,那么这些流程就会流于形式,也丧失了通过事故来改进系统的机会,沦为简单的头疼医头,脚疼医脚的境地。

本次分享,将从实际工作经历出发,结合具体案例,向大家阐述我自己对事故报告、事故复盘的看法。

适合人群: 

主办方_ TakinTalks

「TakinTalks」是联合业界专家共同发起的稳定性技术交流平台,面向技术管理者与一线技术专家,定期探讨行业前沿技术,分享最佳实战经验。让技术知识的传播没有界限。

合作伙伴_ bilibili 技术

哔哩哔哩技术公众号会囊括 B 站技术相关的硬核分享,也有技术团队的招聘信息,你想看的技术内容都在这里。

合作媒体:

报名活动,超多福利奖品大放送

<!-- /wp:column -->


↙↙↙阅读原文可查看相关链接,并与作者交流