AIOps权威指南

post thumb
翻译
by 社区翻译团队/ on 02 May 2019

AIOps权威指南

本文的英文原文是来自于SweetCode的《The Definitive Guide to AIOps》,这篇白皮书由CA公司赞助发布。社区组织翻译。

AIOps是当前非常火热的一个话题,它和DevOps也有着紧密的关系。模仿Google关于SRE与DevOps关系的一个比喻,我们可以认为:AIOps是实现DevOps的一个类。

刘征、曾云龙、董沙莎、谢波、隋悦豪、朱宝、原驰、周一行; by 翻译团队成员 排名顺序为翻译工作章节分工顺序

可是AIOps到底是什么?不同的人有着不同的理解和定义。本文是一篇逻辑条理清晰,而且通俗易懂的文章。中国DevOps社区的AIOps翻译团队协作翻译了本文。

front

本文的翻译发发布仅用了6天时间,如果发现质量欠佳的地方,请通过Github向我们反馈。Github地址:https://github.com/martinliu/aiops (英文原版也在此可以下载)请在Github上向我们提交pr或者issue。最近github也非常火,相信github的账号最近也很普及。言归正传,本github项目的目标是汇聚任何你也认为非常好的技术文章和网址资源。请大家与我们协作共创。

AIOps权威指南:概述

在硬件和软件系统发展的更加高效、复杂和有效的同时,它们也在变得越来越复杂。例如,当虚拟机替代了裸机时,虚拟化给IT团队带来的是:新一层的必须规划以及管理的复杂度。近年来向微服务和容器转型的趋势,也同样导致了应用程序组件数量的激增,以及编排所有这些组件所带来的挑战。

传统上,IT Ops团队的能力对于处理如此日益增加的复杂性会显得捉襟见肘。雇用更多员工成了最直接的对策,但这并不是一个成本效益较好的解决方案,也无法支持大规模的扩张。

虽然,自动化工具对处理复杂性有一定帮助,但是传统的自动化工具依赖于人为配置、部署和管理,因此,自动化工具去简化日益复杂的IT环境的能力也是有限的。

用AIOps应对复杂性

近年来,IT运营人工智能(AIOps)已成为了应对IT系统与日俱增的复杂性的很好的解决方案。 AIOps基于大数据、数据分析和机器学习来提供洞察力,并为现代基础设施和软件所需的管理任务提供更高水平的自动化(不依赖于人类操作员)。

因此,AIOps具有巨大的价值。展望未来,AIOps将在IT团队提高效率方面发挥关键作用。它还会使应用复杂的下一代技术成为可能,而且那些技术是传统解决方案无法实现的。

简而言之,失去AIOps的帮助,未来的企业将无法生存。如果您的企业尚未开始尝试基于AIOps的解决方案,那么现在就是评估、规划和实施它的时候了,AIOps工具应该对推动业务价值的交付大有裨益。

本指南旨在为向AIOps迁移的人提供参考。它定义了AIOps,还分析了AIOps在当前IT行业里的现状。它还识别并解释了是哪些核心组件在驱动AIOps,以及以AIOps驱动的主要用例。

第一章:AIOps是什么?

AIOps的定义

AIOps即利用机器学习、大数据和自动决策来完成IT任务。AIOps可以自动化那些需要人为进行大量手工干预的传统操作流程。AIOps是“基于算法的IT运营”或“基于人工智能的IT运营”的缩写,于2016年进入IT词典,当时是Gartner创造了这一术语,目的是探究怎样通过数据分析来为IT Ops团队带来新的效率提升。

AIOps是创新么?

数据分析和机器学习在企业中的应用已经普及了很多年了–它并没有与AIOps一起出现。早在AIOps概念的出现之前,IT运营或IT Ops也作为一门独立的学科存在着。

然而,AIOps的创新之处在于:它将基于数据驱动的洞察和IT运营结合在了一起。以前,数据分析主要是应用在提供业务洞察方面,而不是帮助IT运营团队完成工作。在某种程度上,数据和机器学习在IT Ops中发挥作用的情况,还主要局限于基础的安全和基础设施监控工具这些场景里。利用自动化工具能帮助IT Ops团队提高工作效率,但这些工具通常无法根据数据制定复杂的自动化决策,并且还要依赖更大量的人工配置才能使用。

IT Ops团队使用AIOps来改变这种情况,AIOps可以通过收集和分析数据来制定更高级的决策,并且执行自动化操作的工具。它代表了一种将数据分析集成到IT Ops中的,更精细、更复杂的方法。此外,它还可以帮助传统IT运营管理员过渡到站点可靠性工程师(SRE)角色,并支持符合业务需求的可规模化的工作流。

AIOps的现状

虽然没有关于当前AIOps采用率的精确数据,但是Gartner在2017年预测“全球25%的企业将在2019年战略性地实施AIOps平台来支持两个或多个主要IT运营职能”。此外,TechValidate最近研究发现97%的受访IT组织一致认为:实施具备可操作洞察力的AIOps解决方案有助于改善自动化,并增强整体IT运营部门的效能。

AIOps已经被一些企业们提前采用了,只是大多数企业部署AIOps平台还需要一段的时间。

目前阻碍AIOps应用的主要障碍包括:企业对AIOps的态度是否是真正的愿意迎接创新,又或仅仅是炒作而缺乏恒心。但这种怀疑可能会随着越来越多的企业采用AIOps而消失,因为AIOps的价值在变得更加清晰。在2018年NewVantage Partners调查中发现,有97.2%的高管正在投资建设或启动大数据和人工智能计划。

企业在采集高质量数据方面的信心较低(再加上对如何更好地实施能够提供广泛、长期有价值的AIOps解决方案的不确定性)也阻碍了一些组织应用AIOps。然而,通过充分的研究和规划还是可以克服这些挑战的。

AIOps的构成

想要有效的实施AIOps,首先要确定使AIOps成为可能的核心组件有哪些,并评估您的企业能有效实施这些组件的能力。

AIOps的主要组成部分包括:

  • 数据收集:收集数据是开始AIOps的第一步。成功的AIOps和大数据技术会使用不同的来源收集数据,根据需要转换和聚合数据,有效备份和保留数据,并持续有效的维护数据质量,为数据分析和机器学习提供动力。
  • 数据分析:一旦数据被适当地收集和转换,就会执行统计分析,以便从数据中得出见解。
  • 机器学习:机器学习是利用从数据分析中得到的见解来做出自动决策的过程。机器学习是通过算法实现的,这些算法允许软件自动对数据所表达的信息自动地做出反应。
  • 人工智能(AI):这里的AI指的是更广泛的自动化决策的范畴,机器学习是其中的一个组成部分。

我们下面将在讨论AIOps使用案例和实践的背景下探索每个组件。

AIOps的用例

通过使用数据收集、数据分析和机器学习相结合的完整AIOps解决方案,IT Ops团队可以支持以下几个关键使用场景:

  • 异常检测。也许AIOps最基本的使用案例就是检测数据中的异常,然后根据需要对它们做出反应。
  • 原因分析。AIOps还可帮助IT Ops团队自动执行根本原因分析,从而快速解决问题。
  • 预测。AIOps可以让工具能对未来进行自动预测,例如用户流量在特定的时间点可能会怎样的变化,然后做出相应的反应。
  • 报警管理。AIOps在帮助IT Ops团队应对他们必须处理的大量警报,以支持正常的运营方面发挥着越来越重要的作用。
  • 智能修复。AIOps通过自动化工具驱动闭环的故障修复,而不依赖于运维人员。

以下章节将会通过详细解释它们涉及的内容,以及取得了怎样成功效果方面,深入探讨这些用例。

第二章:数据收集和规范化

数据是构成了AIOps的基础。因此,实施有效的数据收集和规范化的过程是创建AIOps赋能解决方案至关重要的第一步。

数据收集是指将数据从数据源(通常具有多样性)移动到可以进行处理和分析的后台。

数据规范化是为数据分析作准备的过程。规范化涉及将数据从一种格式转换为另一种格式,从而和数据分析工具保持兼容。经常还需要集成不同的数据集,以便可可以在一个统一的数据后天中进行高效的分析。

为了高效地执行数据收集和规范化,组织应牢记以下挑战和最佳实践。

数据源的异构和多样性

在大多数情况下,为AIOps平台提供支持的数据源,并不是都“诞生”在某个位置,或是某一种格式。这些数据来自于多种不同的格式,并分布在多个位置。

例如,您的企业为AIOps收集的某些数据,可能来自以纯文本格式的Web服务器日志。同时,您可能还会从存储在压缩文件里的操作系统日志中收集其他数据,并且需要先解压缩后才能进行分析。从不同类型的数据库收集数据时会出现类似的挑战。例如,MySQL数据库中的数据通常与所谓NoSQL数据库中的数据格式不同。时间序列数据集也会对数据收集带来挑战,因为在进行分析之前,需要将不同时间收集的数据进行标准化处理。

数据源和格式的多样性带来了两种不同的挑战:

  • **组织必须能够从多个位置收集和汇聚数据。**执行此任务所需的工作量和复杂程度将取决于您拥有多少数据源,以及它们的分布范围。在大多数情况下,数据收集需要在各种系统上运行代理,这些代理可以收集它们生成的数据并将其发送到中央位置,然后进行后台存储和处理。
  • **通过将数据转换为与分析工具兼容的格式来规范化数据。**规范化不一定需要将所有数据转换为相同的数据格式。但是,通常至少需要执行一些数据集转换,以及利用Apache Hive,HBase和Elasticsearch等大数据工具提供的接口,将传统数据库中的数据与Hadoop等大数据分析工具进行集成。
实时数据操作

在规划和实施AIOps解决方案时,努力实现实时数据收集和规范化非常重要。实时数据操作意味着您可以在数据产生的同时快速收集和分析数据,从而获得实时的,接近于实时的洞察力。

对于大多数AIOps用例,实时数据处理至关重要。如果您的目标是使用AIOps来探测哪些可能的安全漏洞异常,例如,一旦发生了违规行为,就立即能识别到,将比在攻击者已经开始利用您的数据和基础设施之后才发现问题,具有更大的业务价值。同样,当您使用AIOps进行软件或基础设施问题的根因分析时,您希望能够尽快找到问题的根源,以便在影响最终用户之前解决问题。在这两个用例中,在收集和规范话AIOps流程所需要的数据时,即使只有几分钟的延迟,也可能对实现业务业务目标的能力带来巨大影响。

实现实时的数据收集和标准化就需要彻底的自动化这些流程。帮助您收集数据的代理和进行转换的工具,以及读取数据并进行分析的工具,必须都能够在没有人工辅助的情况下运行。否则,如果您将依靠管理员手动收集数据或执行数据转换,这就无法获得实时洞察的能力。

数据保留和备份

尽管实时数据处理是AIOps的重要组成部分,但在AIOps过程完成后维持数据可用也很有价值。您可能出于合规性原因,需要保留一段时间的数据,即使不是这样,能够对数据进行回顾性分析也是有用的。

这就是为什么您的AIOps计划应该包含对数据保留时间的评估,即您的业务对于收集和规范化后的数据,要求保留多长时间,以及如何备份数据以防止意外中断。虽然数据保留和备份策略根据业务需求而有很大差异,但决定最适合于您的组织的策略,通常要基于如下两个因素来分析:

  • 恢复点目标或RPO RPO是您的企业可以承受的永久损失的数据量,而不会产生严重后果。如果您有高RPO需求,则必须常态化地、例行地备份数据。
  • 恢复时间目标或RTO RTO是指您的企业在中断后可以等待数据再次可用的时间。高RTO要求需要配套备份流程,以能够快速恢复数据,还需要进行恢复时间的周期测试,以确保能够实现恢复目标。

为了降低数据存储和备份成本,企业可以利用公共云提供商提供的打折数据存储服务。这些服务通常被称为“冷存储”,提供低成本的数据存储,需要注意的是,数据访问通常会有一些延迟。对于不再用于AIOps的数据,这类延迟通常是可接受的。

开放性

在为AIOps准备数据收集和规范化解决方案时,需要考虑的最后一个关键因素是基于闭源还是基于开源解决方案的问题。

通常,选择开源解决方案比采用专有的闭源工具更好。后者可能导致锁定并限制您的企业未来修改AIOps工具集和流程的能力。

因此,采用开源数据收集和规范化工具是最佳实践。开源工具包括:

  • Apache Kafka
  • Apache Hive
  • Apache HBase
  • CloverETL
  • KETL
  • Rsyslog
  • Logstash
  • Elasticsearch

请记住,许多专有数据收集和规范化工具都是基于开源解决方案构建的。一些此类平台比其他平台更“开放”并与第三方工具兼容。如果您考虑采用数据收集和规范化的商用工具,请评估其与第三方工具集成的适配程度,以避免被锁定而限制未来的拓展。同样,在考虑开源解决方案时,请务必评估关于配置和维护工具所需的工作量,是否于使用开源方案所节省的成本相匹配。

第三章:检测

异常检测以定位问题并了解基础架构和应用程序中的趋势是AIOps的一个关键用例。检测可以让工具探测出异常行为(例如某个服务器响应速度比平时慢,或受黑客攻击而出现异常的网络行为)并作出相应的反馈。

异常是什么?

异常是相对于正常运行状态下的某个数据点或时间点所发生的情况。换句话说,它是个异常值。

动态基线

虽然理解异常的概念很容易,但在很多情况下,在现代软件环境中进行异常检测,对于AIOps而言还是特别具有挑战性。因为在许多情况下,并没有通用的方法去制定合理的触发条件。例如对于在整个环境中的网络流量、内存和存储空间消耗而言,它们的波动还是会很大的。那么活跃用户量或应用程序实例也是如此。

在这些情况下进行有效监测需要AIOps能采用足够智能的工具来设置动态基线。动态基线允许工具确认特定情况下(例如一天中的时段和应用程序的注册用户数)正常活动的范围,然后检测与动态基线不匹配的数据或事件。

单变量与多变量异常

异常除了可以用动态基线探测外,AIOps检测用例需要考虑的另一个重要因素是单变量和多变量异常检测之间的差异。 单变量异常检测侧重于基于单个度量或数据点识别异常值。例如,当磁盘存储空间超过正常阈值时,单变量异常可能会生成报警。 相反,多变量异常基于一系列不同的变量来检测异常值。在基本的多变量检测方案中,采用了AIOps的工具可能同时分析磁盘使用情况、内存使用情况和网络流量,并评估整体行为是否出现异常。在这种情况下,个别的磁盘使用超量可能不会触发警报,但如果磁盘的高使用量与内存异常消耗和网络流量一致,则该工具可能会探测出存在异常的现象。这是一个简单的多变量检测示例。在更复杂的情况下,多变量检测方法依靠神经网络来模拟各种指标之间的交互,并根据它们交互的结果做出决策。

因此,多变量异常检测可以提供更深入,更全面的理解能力。但是,多变量检测也是更难有效的应用,因为它需要确定出可以用于同时关联分析的多个度量指标,并建立能准确解释它们的算法。多变量检测的扩展也更难,因为随着引入更多标准变量,复杂性也会增加。 在大多数情况下,结合单变量和多变量检测方法的AIOps解决方案会提供最佳结果。单变量检测对于基本的报警和监控非常有用,而多变量方法可以为更复杂的自动化决策提供支持。

AIOps解决方案的另一个关键功能是隐藏算法的复杂性。它应该根据被分析的数据类型自动选择正确的算法。

检测模型的可扩展性

是指为AIOps提供驱动力的检测流程应该是可扩展的,面向未来的,而不是仅仅为满足于某一组有限的需求而设计地。

可扩展检测策略的特征如下:

  • 能够添加新指标,或修改检测模型中各种指标所提供的权重。
  • 能够将新数据源和新技术添加到检测模型中。
  • 支持持续适应的动态基线技术,因为行为变得更加细致和复杂。

这在实践中意味着检测模型开始通常很小,但随着时间的推移会增加规模和复杂性。首先,您的AIOps策略可能主要由单变量检测模型和一些基本的多变量方法驱动。他们可能会关注简单的指标,如内存和磁盘使用情况。但是,随着时间的推移,您可能希望通过引用当前热门技术所收集的指标来建立更复杂的多变量模型(例如容器的启动时间或无服务器功能的执行时间),这会使您的技术更加复杂。

第四章: 因果分析

AIOps的另一个关键用例是因果分析。这指的是通过追踪导致一个问题的所有来源因素, 从而帮助解决问题本身的工作。

因果分析的挑战

随着软件环境变得越来越复杂, 并且不同组件之间的依赖关系越来越难以在表面上进行关联, 因此,AIOps驱动的因果分析变得越来越重要。

考虑以下场景, 例如有一个由前端组件以及后端数据库组成的 web 应用程序系统, 将该应用程序系统通过容器的方式,作为一组微服务进行部署。如果 IT 运营团队注意到 web 服务器已开始响应缓慢了, 这时若没有基于数据的自动化工具的帮助, 找出问题的根本原因可能会是相当困难的。这个问题有可能是由于网络瓶颈引起的。有可能是磁盘故障或数据库配置的问题导致的。又或许是容器编排器无法在多个容器实例之间正确地转发应用程序负载。甚至问题的根源有可能是应用程序代码本身。

一个 IT 运营团队可以通过部署自动分析数据的 AIOps 工具, 来定位问题的可能原因, 而不是去手工的调查引发问题的每一种潜在的可能性。AIOps 工具可以通过分析网络连接模式、容器统计信息、应用程序分析器和数据库日志等信息, 快速地使问题可视化。AIOps 工具还提供端到端的可视化, 使 IT 运营团队能够找到他们自己或许从没意识到的问题。

因果分析的数据采集与情景化

您的因果分析成效仅与您所收集到的数据等效。您还要决定应该执行哪些类型的因果分析, 然后确保您正在收集的、标准化的数据是正确无误的, 并且能够支持得了你要进行的分析。

收集上下文信息和判断那些数据与您正在分析的问题是否相关也很重要。这包括了:过去类似问题所发生的频率和原因, 以及其他系统是否也遇到过类似的问题等。这样的上下文信息可以帮助您解释问题的范围和意义, 并对其进行合理的优先度排序处理。

处理多种原因

有时, 导致问题的原因可能是多方面的。例如:在上面的 web 应用程序示例中, 网络带宽瓶颈和磁盘 I/O 问题都可能会导致应用程序的响应速度变慢。因此, 你的因果分析策略和结果,应该被设计成能够处理“必须要解决多种原因才能解决问题”的情况。

原因也可以有多层。这里再次以Web应用程序举例,缓慢的响应时间可能是由于负载均衡的故障引起的,而负载均衡又是由于容器编排器缺少内存资源引起的。在这种情况下,解决了第一层原因(负载均衡器的问题)还不能解决根本问题。

在这样的情况下,由于故障是多种原因导致的,图形建模有助于在解决问题时从各种表现原因中定位出根本原因。

挖掘下钻

除了帮助您确定问题的原因之外,AIOps工具还应提供深度调查问题的能力,以便深入研究问题。例如,如果Web应用程序出现了故障,并且您确定原因是网络带宽的拥塞,您可能希望能够向下钻取,并确定到底是那种类型的网络流量(例如来自特定区域AZ的流量)与这个应用程序的瓶颈问题有关。

诸如此类的洞察力还可以帮助您的IT Ops团队优化系统,使他们能够更好地应对问题的再次发生。通过这种方式,在AIOps的帮助下进行因果分析不仅有助于实时解决问题,还有助于通过防止问题再次发生,从而帮助IT Ops团队试试持续改进。

第5章:预测和趋势识别

AIOps还可以帮助IT Ops团队预测未来的走向,并确定趋势,从而进行持续不断的改进。

要了解预测和趋势识别的价值,请考虑以下用例。

容量预测分析

对于大多数IT Ops团队来说,正确地调整基础架构是一个持续的挑战。如果组织不能给应用程序提供足够的计算、存储和其他资源,那么就会发生性能问题。另一方面,如果供给超量的的资源,则会导致低下的成本效率,组织需要因此而支付、配置和维护过剩的基础设施。

通过帮助IT运营团队预测其随着时间的推移而增长的基础设施的需求,容量预测分析可以很好地应对这一挑战。他们甚至可以触发周期性的资源配额调整。例如:电商网站在每年的特定时段会遇到业务高峰,容量预测分析可以使电商网站在此时段扩容更多的IT资源,同时在其他时段实施缩容来节省成本。

应用性能预警

除软件测试外,AIOps可以在应用程序部署之前发挥作用,帮助优化应用程序性能。例如,分析并预判应用程序对特定事件会做出怎样的响应。比如DDoS攻击产生了网络流量的突增,这时触发预警信息,IT运维团队可以更有效地为该类事件做好准备。

IT运维团队效能

预测和趋势识别可以帮助IT运维团队提升自身的能力。例如:在某个时间窗口内如何响应事件?哪类问题导致了最多的事件?通过分析数据来识别趋势,AIOps可以回答这些问题,以便IT运维团队知道在哪里投入更多资源。

第六章:智能修复与自动化

AIOps不仅可以帮助IT运维团队识别问题和故障定位,还可以加快故障的修复过程。

快速修复场景

快速修复场景的重要性很容易理解。在日常业务运营中,超过半数的用户会放弃一个加载时间超过3秒的网站,并且页面加载时间延迟1秒,就会导致销售额减少7%。业务部门无法接受由于网站可用性或性能导致的问题,需要快速进行修复。在实时采集和分析的数据的同时,采用AIOps可以迅速深入问题,帮助IT运维团队跟踪问题的原因并提供建议补救措施,以便尽快恢复业务。

利用历史数据进行修复

AIOps还可以帮助IT运维团队解释与过去问题相关的历史数据,以便在发生类似事件时建议解决方案,从而加快事件解决速度。在没有AIOps的情况下,通过大量日志和其他数据进行解析以识别两个事件之间的相似性,并确定对第一个事件起作用的解决方案是否也可以有效地解决第二个事件,这种方式是不可行的。然而,支持AIOps的解决方案可以基于历史数据提供快速洞察,以帮助应对这一挑战。

自动化恢复方案

AIOps工具甚至可以在识别问题后采取自动操作来解决问题。例如,他们可以自动阻止一台主机或关闭端口来阻止安全威胁,或者如果确定现有实例不足以满足需求,则可以启动应用程序的其他实例。

自动化恢复方案实际并不是在所有情况下都实用;有时,事件的最终恢复方案不得不手动实施,即使AIOps可以提供有助于定位恢复方案的参考依据。然而,随着机器学习算法变得越来越复杂,AIOps工具可以自动解决的问题将会增加,从而实现更快,更无缝的事件恢复方案。

第七章:压制噪音-管理告警

虽然AIOps能够比IT运维团队使用手动工具实现基础架构和软件更广泛,更快速的可视化,但也会产生信息过载的风险。如果AIOps工具部署或管理不当,它们会生成非常多的告警,以至于IT运维工程师会不堪重负并开始忽略通知。这个问题,通常被称为告警疲劳,将会降低基于AIOps的监控和分析的价值。

避免告警疲劳并成功管理告警需要以下几种最佳实践:

  • 避免手工告警阈值。 基于固定阈值而手动配置的触发告警在当今的动态环境中是不起作用的。手动配置告警不仅需要相当长的时间,而且还会导致误报,因为在某个时刻可接受的磁盘,网络或其他资源消耗可能会在下一时刻与环境一起发生变化。为了替代人工配置告警阈值,AIOps工具可以自动设置阈值。它们还可以利用动态基线(如上所述)来配置告警何时触发。
  • 可操作的告警。 告警应该附带有助于IT运维团队响应问题的信息,而不仅仅是表明问题已经发生。也就是说提供上下文信息将会帮助工程师更彻底地了解问题。可操作的告警还可以包括基于数据的恢复方案的建议,供工程师考虑。
  • 避免冗余告警。 通常情况下单个根本原因的问题会触发多个告警。例如,数据库故障可能会影响多个应用程序并导致每个应用程序发出告警。在这种场景下,多个告警会分散IT运维团队的注意力,而不是帮助它快速解决事件。AIOps工具不应生成冗余告警,而应智能地将多个问题映射、聚焦到单个根本原因,并生成一个告警,以帮助工程师快速解决该问题。

第八章:AIOps和数据分析的未来

除了提高企业对AIOps解决方案的采用率之外,AIOps的未来还有哪些内容?以下趋势可能会成为AIOps领域的重要组成部分,因为它将在未来几年继续发展。

支持日益动态的环境

如上所述,AIOps的部分吸引力在于,它使IT运维团队能够更有效地处理高度动态的基础架构和软件环境,例如物联网设备,容器和无服务平台。

展望未来,可能会出现更新的技术,为IT运维团队必须支持的部署模型引入更多活力。虽然这些技术的确切性还有待观察,但可以肯定的是,AIOps将成为管理它们的关键推动因素。

识别图形模式

我们已经在上面指出了图形建模如何帮助理解特别复杂的因果关系。

虽然一些AIOps工具已经在一定程度上利用了图形模式识别,但预计图形建模的作用在未来会越来越重要。随着AIOps工具处理的数据量和复杂性的增长,图形模型将有助于它们提供更高层次的洞察力。

遗传算法

随着AIOps的发展,在AIOps应用程序中,遗传算法的使用可能会显着增加。遗传算法是指通过使用数据和机器学习,自动优化自身来改进的软件逻辑。例如,当AIOps算法反复处理某种类型的问题时,它将自动学习哪些解决方案最有效,并训练自己在未来做到那些。

遗传算法是AIOps工具实现持续改进能力的重要组成部分。它们不仅可以通过IT Ops工程师减少手动工作来更快地解决问题,而且还可以使AIOps工具本身随着时间的推移变得更快,更准确和更有效,而无需手动更新。

CA的AIOps解决方案

自几年前推出以来,CA Technologies一直处于AIOps生态系统的最前沿,并将随着AIOps的发展继续保持领先地位。

AIOps功能由CA通过其Digital Experience Insights平台提供,并且包含CA的APM和API监控解决方案的基本部分功能。 CA最近还推出了数字运营智能,这是一种支持AIOps的解决方案,可提供跨域上下文智能,帮助IT运营团队制定更明智,更快的决策,以增强用户体验并提高IT服务质量和性能。它基于开放,功能强大的引擎,通过摄取和分析各种数据集(包括指标,拓扑,文本和日志数据),为用户提供全面的见解。机器学习驱动的分析,以及开箱即用的可视化和关联性,有助于提供卓越的用户体验并提供显著的运营效率。

详细了解CA如何在您的AIOps之旅中为您提供指导。

关于CA Technologies

CA Technologies帮助客户在未来成功,未来从服装到能源的每种商业都在被软件改写。‌从计划到开发到管理到安全,CA公司建立的软件,可以为应用经济中的企业提供转型的燃料。在他们的IT战略的中心使用CA公司的软件,组织能够使用改变我们生活方式的技术,从数据中心到移动设备。‌我们的软件和解决方案帮助我们的客户在新的应用经济中茁壮成长,我们交付部署监控和保证他们的应用和基础设施安全的方法。

关于Sweetcode.io

Sweetcode.io是由Fixate IO所有和管理的网站。‌它的目标很简单:给技术人员一个共享他们的知识和用高价值的从业者制作的技术内容影响市场的地方Sweetcode承诺发布巧妙设计的内容,支持成熟的开发人员的成长,同时为刚刚开始他们的事业的人作为平台提供服务。‌网站上的所有的内容是从业者制作的,Sweetcode致力于从不知名的开发者获取内容,以给他们一个共享他们的知识的地方。

Tags: