当前位置:首页 > 新闻中心 >新闻详情

系统运行风险防范-告警管理【必示说第八期】

发布时间:2023-04-14 11:08:00

上期【必示说:第七期】IT系统变更风险防范回顾:70%以上的运维事故是由变更引起的,目前变更问题发现主要靠人工检查和经验判断的方式经常出现错查漏查的情况,必示科技变更风险感知平台通过人机协同的方式帮助运维人员减少90%的变更验证时间,并有效发现60-80%的变更风险隐患。除了变更风险感之外,告警管理作为IT运维系统建设的重要功能,也是企业智能运维系统建设首先要考虑的问题之一,如何实现在告警发生时可以实现全生命周期的集中管控?如何实现告警的“关键告警一屏清”、“故障排查有方向”、“告警治理有保障”等运维目标?【必示说】第八期,我们来聊一聊告警管理在系统运行风险防范中的作用。


随着数字化程度越来越高、系统规模越来越大、组件监控粒度越来越细、监控数据量越来越大,以及新技术和新组件的不断引入。企业IT运维人员为了快速发现和处理平台故障,往往需要使用多个监控平台满足不同场景的监控需求,而不同的监控平台互相独立形成监控“孤岛”,运维管理人员经常需要在多个平台查看和处理告警,事前发现、事中处理、事后审计都很难统计所有告警信息。总之,告警管理是运维过程中不可或缺且耗时耗力的工作。

而传统告警管理平台,多数仅聚焦于告警的集中管控,缺乏对告警的分析及结论推荐。在告警风暴发生时,大规模告警发生时种种问题使相关人员工作难度加大,也易引发告警噪声大、无效告警,导致告警处理不及时等诸多问题。

所以,具有全流程的告警数据运营体系、告警发生时迅速甄别显示告警紧急程度、减少无效告警、真实显示准确告警,且具有优化告警规则调整升级能力的告警管理产品被迫切需要---必示智能事件管理平台应运而生。

必示智能事件管理平台  

必示智能事件管理平台(AlertSeer)是必示智能运维产品矩阵中,实现“事件发生即发现”功能的智能运维产品,在实现告警全生命周期集中管控的基础上,结合先进的告警分析算法,实现“关键告警一屏清”、“故障排查有方向”、“告警治理有保障”等运维目标。

统一管理所有IT事件,实现“一屏清”:
通过统一窗口监视所有监控工具的告警信息,提升告警易读性和可视性,通过“一块屏”全面掌握IT运行状态。

提升告警有效性,达到“低干扰”:
提升告警质量,降低无效告警数量,降低人均接收告警消息数量,让运维人员更有针对性地处理“真”运维故障。

告警风暴中迅速找出可疑线索,避免“瞎忙活”:
帮助运维人员快速识别告警风暴中的关键告警信息,提升应对告警风暴能力,减少“忙中出错”几率。

必示科技通过百余家的以金融头部企业为代表性的客户服务经验,在产品落地部署过程中,以价值对应告警统一管理、智能告警发现、智能事件分析、告警策略优化和告警风暴定位五个典型场景需求为导向,以及不断复盘中不断迭代必示智能事件管理平台,具有以下三个亮点模块。


价值一:智能监控

为了从源头上减少告警数量,提升告警发生时告警发现和处理效率,必示智能事件管理平台中智能监控模块,通过无监督学习算法,支持数十万级指标实时检测。

通过有别于传统的静态阈值监控方式,必示AIOps可通过智能检测实现动态阈值调整,通过曲线特征自动提取和选择、聚类算法使用、基于深度生成模型的无监督异常检测、自动敏感度调整等技术创新,使故障发现准确率95%以上,平均故障发现时间下降至5分钟内,最快可达30秒。同时在监控过程中无需调参数、无需标注,提升运维效率。


价值二:智能摘要分析

为了帮助运维人员在故障发现时,尤其是告警风暴时提升故障排查和处置效率,实现分钟级的故障定界,必示智能事件管理平台通过摘要分析模块的告警摘要分析汇总、问题组件定位、可疑应用定位、全局告警时序图等能力,实现多维度多视角的告警分析报告。


价值三:智能告警大屏

在大规模故障发生时,通过针对重要业务,构建告警智能分析大屏,实现从告警风暴识别、告警路径分析到可疑应用推荐的全栈能力。而在重保场景下对告警数据进行实时智能分析,从而保障业务的健康度和业务连续性。



 案例:某大型城商行智能运维项目


客户业务挑战

解决方案概述

统一运维事件处理平台:整合各监控工具的告警事件,进行集中化管理与处理,上线系统工具间关联影响分析等场景功能,提高运维问题处理效率。

统一运维数据展示平台:性能数据收集、汇总、计算和存储,通过统一的分析和展示工具,对数据进行实时分析,同时支持大屏仪表盘等应用场景。

智能化运维分析平台:引入业务指标异常检测、机器指标定位等智能算法模块,将监控数据与业务性能数据相结合,搭建统一的、智能化的运维分析平台。



客户收益

简:多种数据告警源集中管理,实现告警数据标准化,与CMDB联动完成告警丰富,实 现告警数据的可读性和易读性,提升运维人员的运维效率。

全:实现所有IT事件的“一屏清”,对整个数据中心运行状态“了然于胸”。

少:告警数量成倍减少,实现“真告警”,“少告警”,系统筛选出“必须处理”的故障,避免无效告警的干扰,分散注意力。

高:告警的分布,特征和可疑点心中有数,获得告警分析的初步线索,突出一线运维价值。

快:实现业务故障数据早分析、早发现、早预警、早定位,确保业务的连续性。




TOP

010-82362970