案例解读| 从集中告警平台发展趋势看城商行如何落地数字化转型(二)

news/2024/4/29 9:17:57/文章来源:https://blog.csdn.net/qq_37641528/article/details/129378703

上期我们以具体案例入手,分享了集中告警平台到底应该与集中监控平台解耦还是紧绑定等问题。这一期依旧从具体案例切入,跟大家一起探索下告警与服务台的对接过程,以及这个过程中可能产生的问题。

上期内容,一键回顾不迷路→案例解读| 从集中告警平台发展趋势看城商行如何落地数字化转型(一)

一、案例背景

某股份制城市商业银行数据中心,在英国《银行家》杂志发布的“全球银行1000强”排名中,按一级资本排名前100名。

为更好地完成企业数字化转型,深耕数字化、智慧化变革,进一步提升告警管理及治理的能力,以统一的业务视角来观测分析,建设智能集中告警平台,基于自动开单策略配置、机器学习能力、关联流程信息及配置数据,期望目标完成数据中心告警的自动开单。

二、项目现状

数据中心在现有管理体制下,告警的诸多问题在沟通时经常被提到。

  • 现状扫描

实际生产中,告警数据源10+套;

每日告警量5000+;

每日开单量500+;

目前对于告警的开单是基于人工的判断,开单效率较低,并伴随有一定的延迟性。

三、项目优化目标

是希望在行内原有系统的基础上,借助智能化的注入,将原有手工操作的繁琐工作,逐步替换成系统自动完成的工作,以提高生产效率。

四、项目实施流程概要

五、项目重点实战——告警服务台联动

(1)日常挑战

1.告警实时关注:当告警产生时,ECC监控人员作为第一处理人接收,面临着诸多 挑战

2.值守挑战

根据该告警的描述信息,手动向工单系统发起开单,并指派给相应的值班人员进行后续处理。

监控人员必须24小时不间断的盯着屏幕,告警产生后就按SLA响应,并判断是否需要向服务台开相关的事件单。

(2)开单经验主义

1.开单挑战:

每天的告警量在5000+

所有监控人员(6人),大约每天平均需要处理200+条/小时的告警。

根据告警等级,是否会自动恢复等条件,人为判断告警是否要开单,最终导致告警开单延迟、漏开单,实际有效开单率为10%

(3)通知遗漏

1.漏单挑战:

对于一些较为严重的告警,还需要立即打电话告知相关人员及时处理。

由于告警量大,人工操作难免会有操作不当或告警遗漏开单的情况,对于这类数据无法追踪。

行方希望逐渐优化改善这一状况,利用自动化的方式选择性替换原有的手工模式,引进擎创告警辨析中心来构建平台优化和改造。

(4)实战解析

1.告警实时关注:通过擎创的告警辨析中心构建多维度,多层次的保障来完成复杂多变的自动开单模型,部分模型大致包括以下几种

  • 灵活压缩模型:灵活多源压缩策略,将数据质量高的告警和数据质量低的 告警分而治之,对质量稍差,字段缺失的告警用相似算法进行有效压缩,进一 步减少后续告警的开单量。

  • 自动归属模型:部分告警根据历史告警参考和数据源管理组织架构进行自动归属分派。

  • 同源合并模型:压缩后的同源性质告警,在同时段触发的,会进行同源合并开单,进一步减少告警的开单量。

  • 关联升级模型:告警业务属性关联或告警复合可能性产生共振的,会触发关联升级模型构建更加有针对性的自动开单。

2.双向自动闭环

在对接了用户的工单系统后,告警辨析中心将告警基于行方的实际需要配置,自动向工单系统提交工单,实现了告警的自动开单。

行方运维人员在工单系统对告警进行处置并关闭后,告警辨析中心会同步工单系统关联告警状态实现同步更新,完成告警处置的整个闭环。

3.可审计可追溯

告警辨析中心基于引擎的所有开单都会生成相应记录,方便行方后续跟踪、报表统计与复盘分析。

4.增强实时通知

从人工外呼通知,强化为可定义的自动外呼,大幅提高了时效。

增加可定义的短信通知方式,实现了告警通知的多渠道全自动处理流程。

六、案例阶段成果

通过新告警平台的建设,预先对告警进行数据的标准化,进而通过压缩对告警进一步降噪,再通过自动化引擎将指定的告警向ITSM系统自动开单,基本达到了开单自动化的预期目标。

  • 预投产+运行数月后的数据

1.预投产:

每日接入原始告警5000+,压缩后的每日告警1800+,每日自动开单量900+

基于告警开单尽可能不漏的基础上配置的相应策略的原则下,虽然告警的每日开单量从500+(手工)上升到了900+(自动),开单已不需要人工处理,做到了自动化流转。

2.优化阶段:

运行2周-1月时间以及通过对开单策略的调整后,每日开单量又进一步降低到300+,与原来手工开单的500+相比,开单量降低了将近40%

现阶段自动开单率已经达到95%(除了少量告警仍需要人工干预),原先6人的监控工作量被释放,使得运维人员可以更加关注问题的处置和复盘。

七、案例总结

告警平台的复杂度是非常高,因此真正要做到100%自动化开单确实有相当的路要走,项目实际迄今也只能完成95%左右的自动化开单。但项目中采用了从前置压缩到后置关联,从单维度到多层次,结合组织架构和处置归属进行了模型化的尝试,对于告警服务台自动化联动的探索还是有相当的参考意义。


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

更多运维思路与案例持续更新中,敬请期待

随手点关注,更新不迷路~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_267628.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

angular技术(持续更新)

css类绑定[class.color-blue]"isBlue()" 如果isBlue()返回为true 这里使用color-blue的class样式style样式绑定[style.background-color]"canclick ? blue: red" 组件与模块模块的元数据*declarations: 用于指定属于这个模块的视图类(View Cla…

YOLOV5中添加CBAM模块详解——原理+代码

目录一、前言二、CAM1. CAM计算过程2. 代码实现3. 流程图三、SAM1. SAM计算过程2. 代码实现3. 流程图四、YOLOv5中添加CBAM模块参考文章一、前言 由于卷积操作通过融合通道和空间信息来提取特征(通过NNNNNN的卷积核与原特征图相乘,融合空间信息&#xff…

代码随想录-51-110.平衡二叉树

目录前言题目1.求高度和深度的区别节点的高度节点的深度2. 本题思路分析:3. 算法实现4. pop函数的算法复杂度5. 算法坑点前言 在本科毕设结束后,我开始刷卡哥的“代码随想录”,每天一节。自己的总结笔记均会放在“算法刷题-代码随想录”该专…

学习笔记:基于SpringBoot的牛客网社区项目实现(二)之Spring MVC入门

1.1 函数的返回值为空,因为可以使用response对象向浏览器返回数据。声明了request对象和response对象,dispatcherservlet自动将这两个对象传入 RequestMapping("/http")public void http(HttpServletRequest request, HttpServletResponse re…

不会吧,难道真的有程序员不知道怎么接单赚钱吗?

随着大环境逐渐转好,跳槽、新工作、兼职等等机会都浮出水面。抛开跳槽、新工作不谈,今天就专门来说说程序员接单赚钱有哪些靠谱的平台。 首先分享一波关于接私活有哪些注意事项,给大家提个醒,避免盲目入坑。 一、程序员接单须知…

深度学习知识点全面总结_深度学习总结

深度学习知识点全面总结_深度学习总结 神经网络与深度学习结构(图片选自《神经网络与深度学习》一邱锡鹏) 目录 常见的分类算法 一、深度学习概念 1.深度学习定义 2.深度学习应用 3.深度学习主要术语 二、神经网络基础 1. 神经网络组成 感知机 多层感知机 3.前向传播…

复位和时钟控制(RCC)

目录 复位 系统复位 电源复位 备份区复位 时钟控制 什么是时钟? 时钟来源 二级时钟源: 如何使用CubeMX配置时钟 复位 系统复位 当发生以下任一事件时,产生一个系统复位:1. NRST引脚上的低电平(外部复位) 2. 窗口看门狗计数终止(WWD…

项目实战典型案例27——单表的更新接口有9个之多

单表的更新接口有9个之多一:背景介绍环境准备引入pom依赖配置数据库连接mybatis配置文件Mybatis的配置类编写通用的更新语句可以覆盖的更新接口暂时无法覆盖的接口测试四:总结五:升华一:背景介绍 本篇博客是对项目开发中出现的单…

197.Spark(四):Spark 案例实操,MVC方式代码编程

一、Spark 案例实操 1.数据准备 电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付 样例类: 2. Top10 热门品类 先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。 我们有多种写法,越往后性能越…

k8s学习之路 | k8s 工作负载 ReplicaSet

文章目录1. ReplicaSet 基础概念1.1 RS 是什么?1.2 RS 工作原理1.3 什么时候使用 RS1.4 RS 示例1.5 非模板 Pod 的获得1.6 编写 RS1.7 使用 RS1.8 RS 替代方案2. ReplicaSet 与 ReplicationController2.1 关于 RS、RC2.2 两者的选择器区别2.3 总结1. ReplicaSet 基础…

yii2项目使用frp https2http插件问题

yii2内网项目,使用frp进行内网穿透,使用 https2http插件把内网服务器http流量转成https,会存在一个问题:当使用 $this->redirect(...) 或 $this->goHome() (其实用的也是前者)等重定向时,…

物联网毕设 -- 智能厨房监测系统(改)

前言 在家庭生活中,厨房是必不可少的,所以厨房的安全问题关乎着我们大家的生命,所以提出智能厨房监测系统,目的就是为我们减少不必要的安全问题 ⚠️⚠️(本文章仅提供思路和实现方法,并不包含代码&#x…

javaWeb在线考试系统

一、项目简介 本项目是一套javaWeb在线考试系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse 确保…

DBeaver连接mysql、oracle数据库

1. DBeaver连接mysql 1) 下载DBeaver https://dbeaver.io/download/,并安装 2) 新建数据库连接 3)选择mysql驱动程序 4)填写连接设置内容 5)点击 “编辑驱动设置”,并填写相关信息 6)选择本地…

厦大纪老师chatgpt相关讲座3.7

在线更新数据,迭代学习训练,进而提高模型性能。 比较明显的是API部分,这一步学习的就是intruction,实现人机写作的复杂系统工程 数据充足,维基类似于百度百科 transformer结构更有优势,预测下一个字,模型越…

优思学院|盘点,精益生产25个工具!【必需收藏】

精益生产方法需要一种全面的方法才能有效实施。精益这个概念是每个接触产品供应链的人都要实践的,无论是在计划方面还是在分析方面。 精益生产工具有助于持续改进生产效率和产品或服务质量。精益工具是要减少 Muda (浪费),从生产过…

6.4 深度负反馈放大电路放大倍数的分析

实用的放大电路中多引入深度负反馈,因此分析负反馈放大电路的重点是从电路中分离出反馈网络,并求出反馈系数 F˙\pmb{\dot F}F˙。 一、深度负反馈的实质 在负反馈放大电路的一般表达式中,若 ∣1A˙F˙∣>>1|1\dot A\dot F|>>1…

FPGA使用GTX实现SFP光纤收发SDI视频 全网首创略显高端 提供工程源码和技术支持

目录1、前言2、设计思路和框架3、vivado工程详解4、上板调试验证并演示5、福利:工程代码的获取1、前言 FPGA实现SDI视频编解码目前有两种方案: 一是使用专用编解码芯片,比如典型的接收器GS2971,发送器GS2972,优点是简…

MCM 箱模型建模方法及大气 O3 来源解析实用干货

OBM 箱模型可用于模拟光化学污染的发生、演变过程,研究臭氧的生成机制和进行敏感性分析,探讨前体物的排放对光化学污染的影响。箱模型通常由化学机理、物理过程、初始条件、输入和输出模块构成,化学机理是其核心部分。MCM (Master Chemical M…

机器学习中的数学——精确率与召回率

在Yolov5训练完之后会有很多图片,它们的具体含义是什么呢? 通过这篇博客,你将清晰的明白什么是精确率、召回率。这个专栏名为白话机器学习中数学学习笔记,主要是用来分享一下我在 机器学习中的学习笔记及一些感悟,也希…