“维基百科” 是这样定义事件管理(Event Management)的,事件管理是项目管理在大型活动创新和发展中的应用,如节日、会议、庆典、婚礼、聚会、音乐会、集会等。这里面包含了品牌研究、目标受众确定、活动概念设计,以及活动实际发生前的技术协调。
如果我们把这个概念投射到 IT 领域,事件管理就是为了实现某个特定的业务诉求,将事务状态变化信息与人员响应进行联动的一系列过程。
事件管理的目标是检测并记录这些事务状态的变更,以便获得对业务风险和商业机会的完全可见性。例如:用户登录,转账失败,业务系统版本升级,数据备份,服务器维护完成,这些都是团队需要跟踪的变更。尽管这些变更并不直接反映服务质量的下降,但它们可能会暗示存在影响用户体验的潜在风险。因此,全面的收集事件信息,确定响应优先级,并采取相应的措施,就变得非常关键。
随着商业模式和 IT 支撑环境复杂性的增加,团队需要管理的事件规模也呈指数级增长,但管理事件的人员数量却没有得到增加。现在,许多团队每天都在和成千上万甚至数百万事件打交道,受限于资源投入,几乎不可能有效地将高价值信息与噪音从海量事件中分离出来,以洞察风险和机会。
而这正是事件管理解决方案的核心能力所在。事件管理平台通过集成能力对接和汇聚事件,过滤噪音,识别风险,并通知适当人员进行相应的操作。随着企业数字化转型的加速和 IT 交付风险的增高,通过集成化的事件管理平台提升事件和关联行动间的处理效率,比以往任何时候都更加重要。
事件相关概念的定义
在深入事件管理这个话题之前,我们需要对三个概念进行简要的剖析,以便后续更准确的理解事件管理的含义和价值。
这三个概念分别是 Event(事件),Alert(告警)和 Incident(事件集)。其中,事件和告警比较容易理解和区分,但是 Event 和 Incident 在中文语境中通常都被翻译为事件,容易造成混淆,为了对二者加以区分,我们将 Event 称作事件,Incident 称作事件集。下面是这三个名词的具体定义和说明:
为什么事件管理如此重要
虽然我们的企业准备了非常详尽的业务连续性保障计划和应急预案,但是业务环境复杂度的不断攀升和行业竞争的进一步加剧,对业务风险和商业机会的应对效率也提出了更高的要求。收集更加全面的信息,运用智能化的手段,帮助团队实时评估风险和收益,提升反应速度和准确性,就变得至关重要。事件管理平台运用事件流处理和人工智能技术将这一过程自动化,充分挖掘海量事件中的核心高价值信息,并将风险和机会与人员进行关联,运用现代化的通讯和协作工具,提供更加便捷、全面、准确的事件评估和响应。
事件管理的价值还包括:
事件管理的核心能力
事件是对事务状态的客观描述,有效的事件管理计划和战略是一个跨场景、端到端的处理流程,能够降低或消除风险带来的影响,挖掘和拓展新的商业机会,提升团队的响应速度,并优化产出结果。
事件管理包括以下三个方面能力:
典型的事件管理流程
1.事件接入
事件和告警由特定的工具检测生成,并集成到统一的处理平台。
2.事件处理
针对不同事件源产生的事件,通过数据格式化,自定义数据提取和数据内容丰富进行数据治理,并将重复和冗余的噪音剔除,再通过规则或算法生成反映业务问题的事件集。
3.事件分派
根据事件集的特征,将通知在第一时间动态路由到个人、组、协作团队,并通过流程化管理确保事件信息和人员间无缝衔接。
4.事件响应
事件处理人员根据自身的条件,在 PC 端、移动端、协作工具中对事件进行认领、指派、协同、转发、关闭等操作。
5.事件解决
在问题解决后,将处理过程记录到事件解决方案中,沉淀知识以指导后续类似场景的处理。
事件管理的应用场景