产品新说 | 指标异常?怎么做能更好配合业务变化(一)

news/2024/4/25 9:45:47/文章来源:https://blog.csdn.net/qq_37641528/article/details/129127668

背景: 企业业务运营的平稳,常常要依靠智能运维在后方保驾护航。熟悉运维的肯定都知道,在智能运维中有一环是通过监控指标来判断系统、云、业务应用、网络设备等运行的是否健康,以便及时排障维稳后台。在指标异常检测中,其阈值设定的合理性决定了故障发现的效率。当下,传统的维护模式过分依赖规则,而纯算法的模式又有门槛高、场景受限等问题。

一、算法与传统规则的融合

在擎创看来,指标监控要想实现实时适应动态业务的变化,且能精准发现并解决故障的效果,则需要在指标监测体系中将算法和传统规则相结合,动静并举才能轻松解决运维过程中的顽疾。擎创夏洛克指标解析中心独创以算法调节算法的能力,实现自动调参、自动匹配模型、自动优化阈值、智能告警等功能,助力客户高效完成智能运维工作,赋予业务运营更好的支撑。

在指标异常检测方面深入探索,我们通过总结落地案例总结出了以下六个实践要素。

1.选对算法

2.确定异常方向

3.考虑不同时段的检测差异

4.优化模型参数

5.优化告警阈值

6.长期关注数据质量

这期我们将通过几个故事场景对前面3点进行分享

使用人员:张三( 某企业应用运维人员 / 平台(云)运维人员 / 基础设施运维人员 )

实践重点:选对算法、确定异常方向、考虑不同时段的检测差异

使用产品:擎创夏洛克指标解析中心

落地场景一: · 选对算法 ·

(涵盖周期性算法 / 非周期性算法 / 综合特征算法)

近日,超级网银要上架一个全新的业务,张三在设定指标检测算法的时候,通过指标解析中心测算业务模型,依据结果得到业务波动呈现固定的规律性,系统自动选择周期性算法进行后续指标监测。在业务运行期间,如果出现了异常问题,在监测图表中很容易体现,运维人员能够快速找到故障根源并进行排障。

企业IT运维会随着业务变化而随时变动,每一项业务都有自己所属的模型,擎创指标解析中心产品能够根据传统规则、经验对业务进行模型测算,判断业务规律是周期性、非周期性还是二者兼具,并以此结果智能选择相应检测算法,使之高度契合,更易定障排障。

落地场景二: · 确定异常方向 ·

(上基带 / 下基带 / both)

业务运行平稳的状态下,指标检测到的业务指标往往也比较平稳,仍以超级网银为例,张三当值的这天,突然出现大量用户延迟高的反馈,指标解析中心在此之前就选用了符合上基带监测模型的算法,因此快速且精准发现了问题,张三迅速联系同事进行处理,将业务影响降到了最低。

所以说业务指标检测具有一定的方向性,比如延迟一类的异常,只需要上基带模型检测算法;业务成交量的异常,只需要下基带模型检测算法;而例如交易量指标则可能适合两者并用的方式。

落地场景三:

①· 考虑不同时段的检测差异 ·

(设定运维日历 )

张三在使用指标解析中心的时候,根据业务的某些特性从中挑选出两类特别事件:重复事件(比如双休日/下班时间)、单次事件(比如变更),将这两种事件设定在产品的运维日历中,只要在此时段内,系统会自动选择合适的算法进行监测或不监测,避免误告漏告。

另外,指标解析中心的运维日历能够作为单独模块进行服务,通过自建的“自定义”日历作为外部应用的支撑。简而言之,就是可以帮助其他平台、工具的使用提供时间、事件规划,将格式形式统一。

②· 不同时段匹配不同的算法策略 ·

(匹配运维日历)

上面提到设定运维日历,将不同的特殊运维时段及影响范围,统一维护在行事历中,那么到了特殊时段又是如何运作呢?请看下图。

张三在节假日前后看到,指标解析中心通过对日历的匹配,为当前时段设定了独立的拟合算法,节后又恢复了往常的模型,这期间出现的告警数量明显减少,告警准确度提高20%。

同样,系统在面对某一次业务变更的时候进行了算法的调整,变更后重置历史并重新开始训练。这样既贴合了实际业务的变化,也能避免无效学习,使得变更后的检测工作能更精准地判断异常与否。

关于指标异常检测的分享本期就到这儿了,下期我们将接着分享余下的三点,感兴趣的可以先关注收藏,下期我们精彩继续~


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

更多运维思路与案例持续更新中,敬请期待

随手点关注,更新不迷路

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_72325.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

读书笔记//来自公众号(2)

非常喜欢阅读同行的文章,彷佛进行一场隔空交流。大家都是数据分析师,有许多共鸣;了解数据分析在不同行业的应用,往往很有收获。 这位朋友在零售行业、工业物联网、汽车互联网、2G电商等做个数据分析,有10多工作经验。…

opencv在windows下环境搭建遇到问题

文章目录debug模式下执行到cv::imshow()报内存异常qt配置opencv环境出现的问题debug模式下执行到cv::imshow()报内存异常 原因是:在添加静态库的时候opencv_world460.lib和opencv_world460d.lib都导入了。 在debug模式下只能导入opencv_world460d.lib动态库&#xf…

OpenGL 渲染管线与显卡可执行程序

渲染管线的六个步骤 OpenGL 渲染管线的六个步骤,从指定几何图元到帧缓冲区写入像素,图像就被 OpenGL 引擎一步步地渲染到屏幕(FBO)上去了。 指定几何对象 OpenGL 引擎会根据开发者的指令去绘制几何图元。OpenGL(ES&…

IMX6ULL学习笔记(17)——工程管理

一、简介 之前我们把所有源码文件放在一个文件夹下。 这样做存在两个主要问题,第一,代码存放混乱不易阅读。第二,程序可移植性差。如果工程源文件达到几十、甚至数百个的时候,这样一股脑全部放到根目录下就会使工程显得混乱不堪。…

[JavaEE系列] 详解面试中HTTP协议HTTPS协议

文章目录HTTP不安全HTTPS中的加密算法对称加密非对称加密混合加密HTTPS中的摘要算法HTTPS中的数字证书SSL /TLS握手TCP建立连接(三次握手)三次握手中常见的面试题:TCP断开连接(四次挥手)四次挥手中常见的面试题&#x…

前端页面开发模块组织结构

模块组织 任何超过 1000 行的 CSS 代码,你都曾经历过这样的体验: 这个 class 到底是什么意思呢?这个 class 在哪里被使用呢?如果我创建一个 xxoo class,会造成冲突吗?Reasonable System for CSS Stylesheet Structure 的目标就是解决以上问题,它不是一个框架,而是通过…

2.5|1.3 操作系统与嵌入式操作系统概述

CPU是计算机系统的心脏,操作系统是计算机系统的大脑。半个世纪以来操作系统这门软件科学吸引了世界上一大群最热情、最有智慧的杰出人材,集中了人类现代创造性思维活动的精髓。操作系统是软件世界的万花筒、世博会,是软件王国中的一顶璀璨的皇…

十二、Django表单

表单 在之前的案例中,每次我们需要提交表单数据的时候。我们都需要去手动编辑html表单,根据不同的字段,字段名,进行编码。做了很多重复的部分,所以django提供了一个专门用来处理表单的类,django.forms.For…

代码随想录算法训练营第六天 |哈希表理论基础、242.有效的字母异位词、349. 两个数组的交集 、202. 快乐数、 1. 两数之和

打卡第六天,补昨天的卡 今日任务 哈希表理论基础242.有效的字母异位词349.两个数组的交集202.快乐数1.两数之和 哈希表理论基础 哈希表是根据关键码的值而直接进行访问的数据结构。 哈希表能解决什么问题呢? 一般哈希表都是用来快速判断一个元素是否出现集合里。 …

Tr0ll1靶机训练

信息收集 主机探测 端口扫描 21,22,80端口开放通过浏览器访问并进行指纹识别,并没没有发现什么有用信息 测试 观察发现21端口开放(ftp)尝试进行匿名登录发现其中存在一个流量文件将其下载 并将文件用wirwshark打开,追踪其TCP流(…

BEV感知:DETR3D

3D检测:DETR3D前言MethodImage Feature Extracting2D-to-3D Feature TransformationLoss实验结果前言 在这篇paper,作者提出了一个更优雅的2D与3D之间转换的算法在自动驾驶领域,它不依赖于深度信息的预测,这个框架被称之为DETR3D…

【C进阶】数据的存储

文章目录:star:1. 数据类型:star:2. 整形在内存中的存储2.1 存储规则2.2 存储模式2.3 验证大小端模式:star:3. 数据范围3.1 整形溢出3.2 数据范围的求解3.3 练习:star:4. 浮点型在内存中的存储4.1 浮点数的存储规则4.2 练习5. :star::star:总结(思维导图)⭐️1. 数据类型 在了…

Android - 代码生成远程依赖库(阿里云)

一、注册 没有注册过阿里云且没有实名认证的点这里:阿里云官网 二、查看库 阿里云制品仓库Packages (注:如果没有创建企业或个人使用,按照提示,选个人使用) 三、选择类型 选择其中一个(两…

传统巨头生“变”,中国毫米波雷达市场战火再升级

进入2023年,中国车载毫米波雷达市场战火明显升级。 一方面,愈演愈烈的份额抢夺战不仅仅存在于几大传统巨头之间,也快速转移到与国产供应商之间;随着部分外资巨头的本土化战略深入落地,同时对国产供应商造成了压力。 …

ur3+robotiq ft sensor+robotiq 2f 140配置gazebo仿真环境

ur3robotiq ft sensorrobotiq 2f 140配置gazebo仿真环境 搭建环境: ubuntu: 20.04 ros: Nonetic sensor: robotiq_ft300 gripper: robotiq_2f_140_gripper UR: UR3 通过上一篇博客配置好ur3、力传感器和robotiq夹爪的rviz仿真环境后,现在来配置一下对…

MySQL数据库————MVCC

MySQL的脏读、幻读、不可重复读 脏读 现在有两个事务在操作table表,事务B修改了id2的name字段为李老四,但是没有提交,事务A查询id2的数据,得到name为李老四;事务B发生回滚,id2的数据的name又变回李四&…

性能测试知多少?怎样开展性能测试

看到好多新手,在性能需求模糊的情况下,随便找一个性能测试工具,然后就开始进行性能测试了,在这种情况下得到的性能测试结果很难体现系统真实的能力,或者可能与系统真实的性能相距甚远。 与功能测试相比,性能…

【Spring Boot 原理分析】- 自动配置

【Spring Boot 原理分析】- 自动配置 Condition 注解 Condition 是 Spring 4.0 增加的条件判断功能,通过这个功能可以实现选择的创建 Bean 操作 👑 我们在使用 Spring 的时候,只需导入某个依赖的坐标,就可以直接通过 Autwired 注…

堆,堆构建,堆排序,PriorityQueue和TopN问题

零. 前言 堆作为一种重要的数据结构,在面笔试中经常出现,排序问题中,堆排序作为一种重要的排序算法经常被问道,大顶堆小顶堆的应用经常出现,经典的问题TopN问题也是堆的重要应用,因此,了解并掌握…

Mac - Spotlight(聚焦)

文章目录一、Mac 中 Spotlight 的使用1、调用/打开 Spotlight2、执行搜索3、Spotlight 设置二、Mac 上的 Spotlight 开发1、关于 Spotlight2、使用 NSMetadataQuery 搜索示例三、mds 和 fsevents四、命令行访问 Spotlight五、Core Spotlight Framework六、Spotlight 插件相关资…