OOM的俩种情况---主动kill/被动kill

news/2024/4/27 7:12:46/文章来源:https://blog.csdn.net/Samooyou/article/details/129257221

出现OOM, 有两种处理方式：1. 主动Kill; 2. 被动Kill

例：HBase Region Server OOM定位问题复盘

现象

在HBase资源隔离项目中，对测试集群进行压测时，发现region server会出现崩溃的情况，单机请求量从>200到~50每秒都有可能出现。

当压测的同时，进行在rsgroup间转移server或者table时出现概率更高。

Region server死掉后，webUI上可见许多Region in Transition错误，重启region server及master后才能恢复。

经查，在CM的日志页没有任何日志，只显示unknown error。

登上物理机，查看region server的日志也没有发现。

系统日志(/var/log/messages)也看不到可能的OOM日志。

根本原因

最终发现还是因为OOM被干掉了，因为5台机器中有3台region server的heap size只设置了50M（后加入的两台是32G）

在/tmp下面生成了转储文件

改大到32G后，再进行压测没有出现崩溃问题了。

如何更好地发现？

之前因为没有日志，所以感觉无从下手，后来找到/tmp下的hprof文件才发现配置的问题。

进程崩溃，没有日志 –> 可以怀疑出现了OOM。

出现OOM, 有两种处理方式：1. 主动Kill; 2. 被动Kill

(1) 主动Kill

比如这次的场景就是，启动region server时告诉JVM内存限制是50M, 超过50M就主动kill掉。

这种情况不是系统kill, 是JVM的操作，所以不会记录到系统日志(/var/log/messages)中。

这种情况是会产生下面的日志的：

但是比较坑的是，上述日志不是出现在RegionServer的日志文件里，而是在out文件里。

又因为region server会自动拉起，CM页面上的out内容被新的进程冲掉，所以无法在CM上看到这些内容。

CDH把这些日志藏在这个路径里，很难找到：

/var/run/cloudera-scm-agent/process/*-hbase-REGIONSERVER/logs/stdout.log

其中的*为一个数字，不是挂掉的进程PID, 可以根据目录的时间戳和崩溃时间对应下。

(2) 被动Kill

如果是被系统杀掉，发生的场景会是RegionServer没有OOM，但是操作系统内存不够用了，于是OS会选择kill一些进程。

看/var/log/messages, 会发现如下日志：

kernel: Out of memory: Kill process 38551 (java) score 501 or sacrifice child

kernel: Killed process 38551, UID 483, (java) total-vm:17538500kB, anon-rss:16420056kB, file-rss:28kB

kernel: java invoked oom-killer: gfp_mask=0x201da, order=0, oom_adj=0, oom_score_adj=0

上述日志表明：RegionServer进程(38551)被kill了。

注意：total-vm:17538500kB, anon-rss:16420056kB应该是它占用的内存，而不是已经使用的内存。

如果没有搞清楚这个区别，你可能会以为RegionServer已经超过max-heap-size了，那么kill就应该变成主动了。

如何避免？

测试前检查核心配置

不能因为之前在用就掉以轻心。

总结

因为内存资源配置原因，导致hbase集群压测时出现崩溃异常，并且看不到有效日志。本文总结了OOM出现后的排查手段，以及避免方法。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_75229.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【Git使用教程】从入门到学废

【Git使用教程】从入门到学废

文章目录1. 基础git流程图常用命令基本配置快捷指令解决GitBash乱码获取本地仓库基础操作指令查看修改的状态（status）添加工作区到暂存区(add)提交暂存区到本地仓库(commit)查看提交日志(log)版本回退添加文件至忽略列表总结2. 分支查看本地分支创建本地…

阅读更多...

程序员多赚20k的接私活必备网站

程序员多赚20k的接私活必备网站

为什么都是程序员，就有人能多赚20k？那是因为副业搞得那么溜啊！ 今天分享一些程序员搞钱必备的接私活网站，让更多程序员们在工作之余能有另外一份收入。 1.程序员客栈：http://proginn.com 专为程序员服务的软件外包对…

阅读更多...

超级品牌符号怎么设计？大咖有方法

超级品牌符号怎么设计？大咖有方法

怎么设计超级LOGO图标？有方法！ LOGO设计大趋势：卡通化、拟人化抽象符号已经泛滥但卡通形象也已经泛滥趣讲大白话：设计容易出名难【安志强趣讲信息科技89期】 ******************************* 别以为设计一个卡通就牛X闪闪比…

阅读更多...

React Native使用echart——wrn-echarts

React Native使用echart——wrn-echarts

这里写自定义目录标题前言Tips详细使用过程如下1、开发环境搭建2、准备RN工程3、build App包4、安装相关依赖5、试用Skia模式6、试用Svg模式7、封装Chart组件8、多个图表使用总结前言平时写图表相关需求，用得最多的图表库就是echarts。echarts在web端的表现已经相…

阅读更多...

机器学习：基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测

机器学习：基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测

机器学习：基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测作者：AOAIYI 作者简介：Python领域新星作者、多项比赛获奖者：AOAIYI首页 😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞…

阅读更多...

毕业设计基于51单片机环境监测设计光照 PM2.5粉尘温湿度 2.4G无线通信

毕业设计基于51单片机环境监测设计光照 PM2.5粉尘温湿度 2.4G无线通信

基于51单片机环境监测设计光照 PM2.5粉尘温湿度 2.4G无线通信1、项目简介1.1 系统构成1.2 系统功能2、部分电路设计2.1 STC89C52单片机核心系统电路设计2.2 dht11温湿度检测电路设计2.3 NRF24L01无线通信电路设计3、部分代码展示3.1 NRF24L01初始化3.2 NRF24L01的SPI写时序3.…

阅读更多...

【数据库】数据库基本概念和类型

【数据库】数据库基本概念和类型

一、数据库基本概念 1、数据所谓数据（Data）是指对客观事物进行描述并可以鉴别的符号，这些符号是可识别的、抽象的。它不仅仅指狭义上的数字，而是有多种表现形式：字母、文字、文本、图形、音频、视频等。现在…

阅读更多...

STM32开发（16）----CubeMX配置DMA

STM32开发（16）----CubeMX配置DMA

CubeMX配置DMA前言一、什么是DMA？二、实验过程1.CubeMX配置2.代码实现3.实验结果总结前言本章介绍使用STM32CubeMX对DMA进行配置的方法，DMA的原理、概念和特点，配置各个步骤的功能，并通过串口DMA传输实验方式验证。一、什么是…

阅读更多...

【学习笔记汇总】Github Note

【学习笔记汇总】Github Note

本科毕业设计 Internet of Things environmental monitoring system based on STM32 STM32系列单片机工程模板【STM32F103_Libary】基于STM32F103开发板的工程模板 ST7735屏幕【STM32F103Template】基于STM32F103开发板的工程模板 ILI9341屏幕【STM32F103_LibaryFinalVersio…

阅读更多...

服务拆分及远程调用

服务拆分及远程调用

目录服务拆分服务拆分注意事项服务间调用步骤一：注册RestTemplate 步骤二：修改业务层代码总结： 提供者和消费者思考服务调用关系服务拆分服务拆分注意事项单一职责：不同微服务，不要重复开发相同业…

阅读更多...

电压放大器和电流放大器的区别是什么意思

电压放大器和电流放大器的区别是什么意思

在日常电子实验测试中，很多电子工程师都会使用到电压放大器和电流放大器，但是很多新手工程师却无法区分两者的区别，下面就让安泰电子来为我们讲解电压放大器和电流放大器的区别是什么意思。一、电压放大器介绍： 电压放大器是一种…

阅读更多...

2023王道考研数据结构笔记第一章绪论

2023王道考研数据结构笔记第一章绪论

第一章绪论 1.1 数据结构的基本概念 1.数据：数据是信息的载体，是描述客观事物属性的数、字符以及所有能输入到计算机中并被程序识别和处理的符号的集合。 2.数据元素：数据元素是数据的基本单位，通常作为一个整体进行考虑和处理…

阅读更多...

【MySQL】数据库中锁和事务的相关知识点

【MySQL】数据库中锁和事务的相关知识点

1.事务的四大特点原子性：事务中的所有操作要么都成功，要么都失败。所有的操作是一个不可分割的单位。一致性：一致性指的是事务执行前后，数据从一个合法性状态转移到另一个合法性状态。这个状态和业务有关，是自己定义…

阅读更多...

Editor工具开发实用篇：EditorGUI/EditorGUILayout的区别和EditorGUILayout的方法介绍

Editor工具开发实用篇：EditorGUI/EditorGUILayout的区别和EditorGUILayout的方法介绍

目录一：EditorGUI和EditorGUILayout区别二：EditorGUILayout 1.EditorGUILayout.BeginFadeGroup(float value); 2.EditorGUILayout.BeginHorizontal EditorGUILayout.BeginVertical 3.EditorGUILayout.BeginScrollView 4.EditorGUILayout.BeginT…

阅读更多...

sql-labs-Less1

sql-labs-Less1

靶场搭建好了，访问题目路径 http://127.0.0.1/sqli-labs-master/Less-1/ 我最开始在做sql-labs靶场的时候很迷茫，不知道最后到底要得到些什么，而现在我很清楚，sql注入可以获取数据库中的信息，而获取信息就是我们的目标…

阅读更多...

概念+示例+横向对比+难点解析征服八大react hooks

概念+示例+横向对比+难点解析征服八大react hooks

8大hooks概念、使用场景前言对不同阶段的react开发者会有不同的效果，最终目的是能够对8大react hooks，完全理解，游刃有余。对比useState和useReducer，什么时候使用useMemo和useCallback，useEffect的参数… … use…

阅读更多...

文献阅读笔记 # 面向大规模多版本软件系统的代码克隆检测加速技术

文献阅读笔记 # 面向大规模多版本软件系统的代码克隆检测加速技术

面向大规模多版本软件系统的代码克隆检测加速技术，方维康吴毅坚赵文耘，《计算机应用与软件》复旦大学软件学院、复旦大学上海市数据科学重点实验室2022 April 面向大规模多版本软件系统的代码克隆检测加速技术摘要很多代码克隆检测方法主要针对软…

阅读更多...

【博学谷学习记录】超强总结，用心分享丨人工智能多场景实战常用英文缩写概念总结

【博学谷学习记录】超强总结，用心分享丨人工智能多场景实战常用英文缩写概念总结

目录PV(Page View)UV(Unique Visitor)CPM(Cost Per Mille)CPC(Cost Per Click)CPA(Cost Per Action)CPI(Cost Per Install)ACU(Average concurrent users)PCU(Peak concurrent users)ARPU(Average Revenue Per User)ARPPU(Average Revenue Per Paying User)LTV(Life Time Value…

阅读更多...

Linux命令之lz4命令

Linux命令之lz4命令

一、lz4命令简介 LZ4是一种压缩格式，特点是压缩/解压缩速度超快(压缩率不如gzip)，如果你特别在意压缩速度，或者当前环境的CPU资源紧缺，可以考虑这种格式。lz4是一种非常快速的无损压缩算法，基于字节对齐LZ77系列压缩方…

阅读更多...

西电计算机通信与网络（计网）简答题计算题核心考点汇总（期末真题+核心考点）

西电计算机通信与网络（计网）简答题计算题核心考点汇总（期末真题+核心考点）

文章目录前言一、简答计算题真题概览二、网桥，交换机和路由器三、ARQ协议四、曼彻斯特编码和差分曼彻斯特编码五、CRC六、ARP协议七、LAN相关协议计算前言主要针对西安电子科技大学《计算机通信与网络》的核心考点进行汇总，包含总共26章的核心简答。【…

阅读更多...

推荐文章

最新文章