devops [AIOps] - What Is AIOps? -- 引子

rocl · 2018年01月15日 · 最后由 ruanjiancaipu 回复于 2018年09月12日 · 3024 次阅读

根据 Gartner 的数据, it 运营人员 (it 部门) 在未来几年内将发生重大变化。这种变化是由对传统 it 管理技术和方法失望所驱动的, 即企业 it 运营团队认为无法应对数字业务转换。Gartner 预测, 我们将看到当前 it 操作流程的重大变化, 以及我们如何管理 it 生态系统的重组。而这些变化的关键是一个新的平台, Gartner 称之为 AIOps。
在接下来的几个帖子中, 我将回顾 AIOps, 以及它将如何影响我们在不久的将来。今天, 我将讨论 AIOps 是什么, 以及是什么推动了它的发展。

数字化改造与 AIOps 之路

了解数字转换如何产生 Gartner 的 AIOps 平台是很重要的。数字转换包括云采用、快速变化和新技术的实施。它还需要将重点转移到应用程序和开发人员, 提高创新和部署的速度, 以及购置新的数字 users–machine 代理、物联网设备、应用程序接口 (api) 等.-过去, 组织不需要服务。所有这些新技术和使用者都将传统的性能和服务管理策略和工具拉到了崩溃的地步。

Gartner 使用名称 AIOps 来描述处理这些数字转换问题所需的 IT 操作范式转换。

什么是 AIOps?

AIOps 代表运维操作的人工智能 (Artificial Intelligence for IT Operations)。它指的是多层次的技术平台, 通过使用分析和机器学习来自动化和增强 it 操作, 以分析从各种 it 操作工具和设备中收集的大数据, 以便自动发现和对实时问题的响应。

Gartner 解释了 AIOps 平台如何使用图 1 中的图来工作。AIOps 有两个主要组成部分: 大数据和机器学习。它需要远离孤立的 it 数据, 以便将观测数据 (如在监控系统和作业日志中发现的信息) 与数据平台中的接洽数据 (通常在票证、事件和事件记录中) 一起进行聚合。AIOps 然后实现了一个全面的分析和机器学习 (ML) 战略的组合 IT 数据。所期望的结果是持续的洞察力, 使用自动化产生持续的改进和修复。AIOps 可以被看作是对核心 IT 功能的持续集成和部署 (CI/CD)。

AIOps 连接三个不同的 IT 方向 - 服务管理、性能管理和自动化 - 来实现其持续改进的目标。AIOps 在一个游戏计划中被认可, 在我们的新的加速的 IT 环境中, 必须有一个新的方法, 由大数据和机器学习的进步所保证。

什么是驱动 AIOps?

AIOps 是一个足够新的 it 平台, 它甚至没有自己的维基百科页面..。AIOps 是 Gartner IT 运营分析 (ITOA) 下一步的演进。它在影响 it 运营的几个趋势和需求中不断增长, 其中包括:

  • IT 运营的困难在于手动管理其基础结构。在这里使用术语基础结构变得不恰当, 因为现代 it 环境包括托管云、非托管云、第三方服务、SaaS 集成、移动等。传统的管理复杂性的方法在动态的、弹性的环境中是行不通的。通过手动跟踪和管理这一复杂性, 人类的监督不再是可能的。目前的 it 操作技术已经超出了手工管理的范围, 而且在未来的几年里它只会变得更糟。 The amount of data that IT Ops needs to retain is exponentially increasing. Performance monitoring is generating exponentially larger numbers of events and alerts. Service ticket volumes experience step function increases with the introduction of IOT devices, APIs, mobile applications and digital or machine users. Again, it is simply becoming too complex for manual reporting and analysis.
  • IT 运营需要保留的数据量呈指数级增长。性能监视正在生成大量的事件和警报。服务票正在经历步骤功能随着大量设备、api、移动应用程序和数字或计算机用户的引入而增加。再次, 它变得过于复杂, 手动报告和分析。
  • 必须以不断增长的速度响应基础结构问题。当组织将业务数字化时, 它就变成了业务。技术的消费化改变了所有行业的用户期望。对 IT 事件的反应–不论是实时或立即感知的, 特别是当问题影响用户体验时。
  • 更多的计算能力正在移动到网络的边缘。云基础结构和第三方服务的易用性可以使业务线 (LOB) 功能建立自己的 IT 解决方案和应用程序。控制和预算已经从核心转移到了边缘。更多的计算能力 (可以利用的) 正在从外部核心中添加。
  • 开发者有更多的权力和影响力, 但问责制仍然是 IT 的核心。正如我在关于应用中心基础结构的帖子中谈到的, DevOps 和敏捷正在迫使程序员在应用程序级别上承担更多的监控责任, 但是对 IT 生态系统的总体健康以及应用程序之间的交互、服务和基础结构仍然是 IT 核心的领域。IT Ops 正在承担更多的责任, 就像他们的网络越来越复杂一样。

AIOps 的元素

AIOps 认为, IT Ops 旧的操作方式不会在上面的列表定义的新的世界中起作用。与 gartner 将 IT 运营管理 (ITOM) 和应用程序性能管理 (APM) 定义为象限市场一样, gartner 也可能为 AIOps 市场建立一个幻方象限。
AIOps 平台由以下元素组成, 如图 2 所示:

  • 广泛多样的 it 数据源, 从当前的孤立工具和 it 学科 (如事件、度量、日志、工作数据、票证、监视等)。
  • 一个大数据平台聚合为历史分析和实时反应和洞察力的 IT 数据。
  • 计算 (计算) 和分析, 使系统能够从现有的 IT 数据中生成新的数据和元数据。计算和分析也消除噪音, 识别模式或趋势, 隔离可能的原因, 揭露潜在的问题, 并实现其他 IT 特定的目标。
  • 利用 IT 领域专业知识的算法, 根据组织的数据和预期结果, 合理、高效地应用计算和分析。
  • 无监督的机器学习, 可以自动改变或创建新的算法, 基于输出的算法分析和新的数据引入系统。
  • 可视化, 它以一种易耗的方式提供对 IT 运营的洞察力和建议, 以促进理解和行动。
  • 自动化, 它使用分析和机器学习产生的结果自动创建和应用响应或改进已识别的问题。

如上所述, AIOps 平台应包括性能管理、服务管理、自动化和过程改进等 IT 学科, 以及监控、服务台、容量管理、云计算、SaaS, 机动性, 很多等等。
需要指出的是, 尽管 AIOps 代表了对 it 行动的彻底背离, 但它不是分析和机器学习的根本应用。当股票经纪从手工交易转向机器交易时, 也采用了类似的 ML 方法。分析和 ML 用于社交媒体, 如谷歌地图, Waze, 和 Yelp, 以及在网上市场如亚马逊和 eBay 的应用。这些技术在实时响应动态变化条件和用户自定义的环境中得到了可靠和广泛的应用。
IT 操作人员已经缓慢地适应 AIOps 的环境, 因为出于需要, 我们的工作总是更加保守。这是 it 部门的工作, 以确保指示灯继续亮起, 并为组织应用程序所使用的基础结构提供稳定性。然而, 由于上述趋势, 越来越多的 IT 运营商店 (特别是企业) 将需要在不久的将来实施 AIOps 战略和技术。

国内 AIOps 落地实践

宜信 | AIOps 的核心技术之一:任务机器人如何在金融运维 / 运营中落地

百度 | 基于日志 trace 的智能故障定位系统

阿里 | 机器学习在大规模服务器治理复杂场景的实践

百度 AIOps 实践——单机房故障自愈

其它相关文章
Concerns and Challenges of IT Leaders Considering AIOps Platforms
What AIOps Products and Vendors Should You be Looking at?
Reduce MTTR: Machine Learning to the Rescue
Announcing TrueSight 11
AIOps and the New IT Skill Sets
AIOps pdf 分享

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
共收到 4 条回复 时间 点赞

我擦,AI 要席卷啊

收藏下,万一逆袭了,回头看看

厉害了,我们产品前端还在平台 SRE+ 各个 team 的 push master 落地阶段,最多达到 3 的级别,API 的发布算 4 吧。

仅楼主可见
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册