hive开启自动转化common join和map join 带来的问题

news/2024/4/29 1:26:08/文章来源:https://blog.csdn.net/qq_41018861/article/details/126949529

背景:

我们采用的hive版本是3.1.2属于较新版本,此版本下hive本身默认开启map join

相关配置

hive默认开启map join,涉及的配置如下:

hive.auto.convert.join=true

错误分析

错误发生在我们使用曝光转化明细宽表和素材维表进行join时,由于两个表都非常大,我们本意是让他进行common join即可,但是在运行程序时出现了报错:

Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

在这里插入图片描述
我们发现任务一直在加载hashtable,最终内存不足从而导致报错。

map join原理

MapJoin是指在Map 端进行join,其原理是broadcast join,即把小表作为一个完整的驱动表来进行join操作。通常情况下,要连接的各个表里面的数据会分布在不同的Map中进行处理。即同一个Key对应的Value可能存在不同的Map中。这样就必须等到 Reduce中去连接。要使MapJoin能够顺利进行,那就必须满足这样的条件:除了一份表的数据分布在不同的Map中外,其他连接的表的数据必须在每个Map中有完整的拷贝。Map Join会把小表全部读入内存中,在Map阶段直接拿另外一个表的数据和内存中表数据做匹配 (这时可以使用Distributed Cache将小表分发到各个节点上,以供Mapper加载使用),由于在map时进行了join操作,省去了reduce运行的效率也会高很多。详见笔者之前文章hive sql数据倾斜——大表join小表如何使用map join。

当机器内存不足时,无法在Map端进行join,即会报错。

解决办法:

仅供参考

方法一:关闭hive配置,手动开启mapjoin

  • 在hive-site.xml配置,配置完即可生效
<property><name>hive.auto.convert.join</name><value>false</value>//true修改为false<description>Enables the optimization about converting common join into mapjoin</description>
</property>
  • 在使用map join时对小表手动开启,开启方法可以参考总结好的博客:hive sql数据倾斜——大表join小表如何使用map join

方法二:针对任务在调度时选择是否开启join,同时对多阶段进行手动控制

  • 使用hive --hiveconf 配置参数为false
hive.auto.convert.join=false
  • 具体代码具体分析即可

解决后效果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_12209.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Bunifu UI WinForms 6.0.1 Crack

现代强大的设计元素 无论您是设计简单的 UI 还是需要高级用户界面和用户体验控件和组件&#xff0c;Bunifu 框架都配备了实现任何现代设计所需的一切。 用户界面和用户体验 您可以设计的内容没有限制 画廊 通过 Bunifu Rating 从您的应用中获取反馈 画廊 使用 Bunifu 面板…

【初学者入门C语言】之while、do-while、break及continue语句(五)

个人主页&#xff1a;天寒雨落的博客_CSDN博客-python,c,安装教程领域博主 &#x1f4ac; 刷题网站&#xff1a;一款立志于C语言的题库网站蓝桥杯ACM训练系统 - C语言网 (dotcpp.com) 特别标注&#xff1a;该博主将长期更新c语言内容&#xff0c;初学c语言的友友们&#xff0…

javascript: 复制对象时的深拷贝及浅拷贝(chrome 105.0.5195.125)

一,js代码<html> <head><meta charset="utf-8"/><title>测试</title> </head> <body><button onclick="assign()">无效:变量直接赋值</button><br/><br/><br/><button oncli…

Android 资源文件存放位置 Drawable 与 Mipmap 区别

Drawable Drawable 文件夹存储 bitmap 文件(png, jpeg, gif)、9-patch 文件 和 xml 文件&#xff0c;这些文件用于描述包含多种状态 (normal, pressed, focused) 的可绘制形状或可绘制对象。 android 的 drawable 文件一共可以有&#xff1a; drawable-ldpi (低密度) drawable-…

如何根治 Script Error.

作者&#xff1a;卢峰&#xff08;清锐&#xff09; 本文简要介绍了 Script Error 问题的来龙去脉&#xff0c;但也不局限于 Script Error&#xff0c;对于通用的系统性问题&#xff0c;应该找到系统性解决方案&#xff0c;进而治标治本。 Script Error 原因与当前解法 受浏览…

第一个spring项目

第一个spring项目 1、maven依赖导入 <dependency><groupId>org.springframework</groupId><artifactId>spring-webmvc</artifactId><version>5.3.22</version> </dependency> <dependency><groupId>junit</gro…

计算机毕设源码网站基于SpringBoot的阳光线上交友系统

&#x1f345;文末获取联系&#x1f345; 目录 一、项目介绍 二、开题报告 三、截图 四、源码获取 一、项目介绍 基于SpringBoot的阳光线上交友系统-计算机毕设java毕业设计项目源码-可定制-IT实战课堂_哔哩哔哩_bilibili项目资料网址: http://www.itszkt.com毕业设计…

Python 内存管理的工作原理你了解吗?

Python 为开发者提供了许多便利&#xff0c;其中最大的便利之一是其几乎无忧的内存管理。开发者无需手动为 Python 中的对象和数据结构分配、跟踪和释放内存。运行时会为你完成所有这些工作&#xff0c;因此你可以专注于解决实际问题&#xff0c;而不是争论机器级细节。 尽管如…

唯杰地图之前端CAD图GIS数据访问权限配置

前言 数字经济时代,数据要素的价值日益凸显,与之相应的,数据安全问题也越来越受到重视。唯杰地图 VJMAP为CAD图或自定义地图格式WebGIS可视化显示开发提供的一站式解决方案,支持的格式如常用的AutoCAD的DWG格式文件、GeoJSON等常用GIS文件格式,它使用WebGL矢量图块和栅格瓦…

一文清晰讲明白DDD(领域驱动设计)的知识点

什么是DDD DDD&#xff08;领域驱动设计&#xff09;是一种处理高度复杂领域的设计思想&#xff0c;是一种架构设计方法论&#xff0c;是一种设计模式。以高内聚低耦合为目的&#xff0c;把一个复杂的软件应用系统中各个部分进行一个很好的拆解和封装&#xff0c;对软件系统进…

运算放大器积分电路上并联的电阻什么作用

学过模电的同学对运放积分电路应该都不会陌生&#xff0c;基本电路如下图中所示 积分电路主要是用来进行波形变换&#xff0c;放大电路失调的消除&#xff0c;以及反馈控制中的积分补偿。 常用积分电路将方波变幻成三角波&#xff0c;或者正弦波变成余弦波&#xff0c;今天我们…

拍照识别花草软件有哪些?识别植物花草的软件哪个准?

不知道有没有小伙伴和我一样&#xff0c;好奇心比较旺盛&#xff0c;遇到问题都喜欢打破砂锅问到底。就连平时在路上遇到一些好看的花花草草时&#xff0c;我都想知道它是什么。但是花草这些就比较特殊&#xff0c;想了解它的身份&#xff0c;光靠描述可行不通。借助识别工具来…

UEC++ 代理/委托

代理&#xff1a; 代理可以帮助我们解决一对一或是一对多的任务分配工作。主要可以帮助我们解决通知问题。我们可以通过代理完成调用某一个对象的一个函数&#xff0c;而不直接持有该对象的任何指针。代理就是为你跑腿送信的&#xff0c;你可以不用关心给送信的目标人具体是谁…

异步线程使用Request存在问题

概述 如果我们将request传递到异步线程中使用&#xff0c;可能获取不到参数&#xff0c;并且会导致后续的请求&#xff0c;使用到这个线程也会出问题。 原因就是request对象会被重复使用。 源码分析 1、获取参数 先看一个非常重要的方法&#xff0c;getParameter 方法调用第…

计算机毕业设计之java+javaweb的美容院管理系统

计算机毕业设计之javajavaweb的美容院管理系统 项目介绍 系统权限按管理员、用户、医生和美容师这四类涉及用户。 (a) 管理员&#xff1a;进入系统可以实现主页、个人中心、用户管理、医生管理、美容师管理、项目部门管理、项目类型管理、产品分类管理、产品信息管理、医美项目…

JavaEE:进程调度的基本过程

目录 进程是什么? 操作系统对进程的调度 2.1 PCB中的信息 2.2 进程的调度是如何进行的呢? 并行: 并发: 总结: 进程是什么? 如果想了解进程调度的基本过程,我们首先要了解的是进程是什么? 咱们可以在任务管理器中看到 这一切跑起来的程序就是进程! 操作系统对进程的调…

22.this指针

1.this指针工作原理 我们知道,c++的数据和操作也是分开存储,并且每一个非内联成员函数(non-inline member function)只会诞生一份函数实例,也就是说多个同类型的对象会共用一块代码那么问题是:这一块代码是如何区分那个对象调用自己的呢?c++通过提供特殊的对象指针,this…

Python面向对象笔记

一、面向对象 (一)基本概念 (1)面向对象编程 —— Object Oriented Programming 简写 OOP (2)面向对象三大特性封装 根据 职责 将 属性 和 方法 封装 到一个抽象的 类 中定义类的准则封装 是面向对象编程的一大特点 面向对象编程的 第一步 —— 将 属性 和 方法 封装 到一…

王道-考研-数据结构-线索二叉树

线索二叉树的构造 常用的是中序线索二叉树。 寻找前驱结点:若左指针为线索,则其指向结点为前驱结点。 若左指针为左孩子,则其左子树的最右侧结点为前驱结点。寻找后继结点:若右指针为线索,则其指向结点为后继结点。 若右指针为右孩子,则其右子树的最左侧结点为后继结点。…

Vue支持多文件上传 前端+后端 (详细介绍)

前端vue后端java支持多文件上传效果图Vue部分后台部分效果图 可以上传多个文件 Vue部分 <template><div><el-form-item label"案例名称" prop"caseName"><el-input v-model"formObj.caseName" placeholder"请输入案…