Hive查询语句

news/2024/5/18 20:53:59/文章来源:https://blog.csdn.net/weixin_43652205/article/details/130066146

目录

1.1 基础语法

1.2 基本查询(Select…From)

1.2.1 数据准备

1.2.2 全表和特定列查询

1.2.3 列别名

1.2.4 Limit语句

1.2.5 Where语句

1.2.6 关系运算函数

1.2.7 逻辑运算函数

1.3 分组

1.3.1 Group By语句

1.3.2 Having语句

1.4 Join语句

1.4.1 等值Join

1.4.2 表的别名

1.4.3 内连接

1.4.4 左外连接

1.4.5 右外连接

1.4.6 满外连接

1.4.7 多表连接

1.4.8 笛卡尔集

1.4.9 联合(union & union all)

1.5 排序

1.5.1 全局排序(Order By)

1.5.2 每个Reduce内部排序(Sort By)

1.5.3 分区(Distribute By)

1.5.4 分区排序(Cluster By)


1.1 基础语法

1官网地址

LanguageManual Select - Apache Hive - Apache Software Foundation

2)查询语句语法:

SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference       -- 从什么表查[WHERE where_condition]   -- 过滤[GROUP BY col_list]        -- 分组查询[HAVING col_list]          -- 分组后过滤[ORDER BY col_list]        -- 排序[CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list]][LIMIT number]                -- 限制输出的行数

1.2 基本查询(Select…From)

1.2.1 数据准备

(0)原始数据

①在/opt/module/hive/datas/路径上创建dept.txt文件,并赋值如下内容:

部门编号 部门名称 部门位置id

10 行政部 170020 财务部 180030 教学部 190040 销售部 1700

②在/opt/module/hive/datas/路径上创建emp.txt文件,并赋值如下内容:

员工编号 姓名 岗位    薪资  部门

7369   张三   研发   800.00 307499   李四   财务   1600.00   207521   王五   行政   1250.00   107566   赵六   销售   2975.00   407654   侯七   研发   1250.00   307698   马八   研发   2850.00   307782   金九   \N 2450.0 307788   银十   行政   3000.00   107839   小芳   销售   5000.00   407844   小明   销售   1500.00   407876   小李   行政   1100.00   107900   小元   讲师   950.00 307902   小海   行政   3000.00   107934   小红明 讲师   1300.00   30

(1)创建部门表

create table if not exists dept(deptno int,    -- 部门编号dname string,  -- 部门名称loc int        -- 部门位置
)
row format delimited fields terminated by '\t';

(2)创建员工表

create table if not exists emp(empno int,      -- 员工编号ename string,   -- 员工姓名job string,     -- 员工岗位(大数据工程师、前端工程师、java工程师)sal double,     -- 员工薪资deptno int      -- 部门编号
)
row format delimited fields terminated by '\t';

(3)导入数据

load data local inpath '/opt/module/hive/datas/dept.txt' into table dept;load data local inpath '/opt/module/hive/datas/emp.txt' into table emp;

1.2.2 全表和特定列查询

1全表查询

select * from emp;

2选择特定列查询

select empno, ename from emp;

注意:

(1)SQL 语言大小写不敏感。

(2)SQL 可以写在一行或者多行。

(3)关键字不能被缩写也不能分行。

(4)各子句一般要分行写。

(5)使用缩进提高语句的可读性。

1.2.3 列别名

1)重命名一个列

2)便于计算

3)紧跟列名,也可以在列名和别名之间加入关键字‘AS

4)案例实操

查询名称和部门。

selectename AS name,deptno dn
from emp;

1.2.4 Limit语句

典型的查询会返回多行数据。limit子句用于限制返回的行数。

select * from emp limit 5;select * from emp limit 2,3; -- 表示从第2行开始,向下抓取3行

1.2.5 Where语句

1使用where子句将不满足条件的行过滤掉

2)where子句紧随from子句

3)案例实操

查询出薪水大于1000的所有员工。

select * from emp where sal > 1000;

注意:where子句中不能使用字段别名。

1.2.6 关系运算函数

1)基本语法

如下操作符主要用于wherehaving语句中。

操作符

支持的数据类型

描述

A=B

基本数据类型

如果A等于B则返回true,反之返回false

A<=>B

基本数据类型

如果A和B都为null或者都不为null,则返回true,如果只有一边为null,返回false

A<>B, A!=B

基本数据类型

A或者B为null则返回null;如果A不等于B,则返回true,反之返回false

A<B

基本数据类型

A或者B为null,则返回null;如果A小于B,则返回true,反之返回false

A<=B

基本数据类型

A或者B为null,则返回null;如果A小于等于B,则返回true,反之返回false

A>B

基本数据类型

A或者B为null,则返回null;如果A大于B,则返回true,反之返回false

A>=B

基本数据类型

A或者B为null,则返回null;如果A大于等于B,则返回true,反之返回false

A [not] between B and C

基本数据类型

如果A,B或者C任一为null,则结果为null。如果A的值大于等于B而且小于或等于C,则结果为true,反之为false。如果使用not关键字则可达到相反的效果。

A is null

所有数据类型

如果A等于null,则返回true,反之返回false

A is not null

所有数据类型

如果A不等于null,则返回true,反之返回false

in(数值1,数值2)

所有数据类型

使用 in运算显示列表中的值

A [not] like B

string 类型

B是一个SQL下的简单正则表达式,也叫通配符模式,如果A与其匹配的话,则返回true;反之返回false。B的表达式说明如下:‘x%’表示A必须以字母‘x’开头,‘%x’表示A必须以字母‘x’结尾,而‘%x%’表示A包含有字母‘x’,可以位于开头,结尾或者字符串中间。如果使用not关键字则可达到相反的效果。

A rlike B, A regexp B

string 类型

B是基于java的正则表达式,如果A与其匹配,则返回true;反之返回false。匹配使用的是JDK中的正则表达式接口实现的,因为正则也依据其中的规则。例如,正则表达式必须和整个字符串A相匹配,而不是只需与其字符串匹配。

1.2.7 逻辑运算函数

1)基本语法(and/or/not

操作符

含义

and

逻辑并

or

逻辑或

not

逻辑否

2)案例实操

1)语法

count(*),表示统计所有行数,包含null值;

count(某列),表示该列一共有多少行,不包含null值;

max(),求最大值,不包含null,除非所有值都是null;

min(),求最小值,不包含null,除非所有值都是null;

sum(),求和,不包含null。

avg(),求平均值,不包含null。

2)案例实操

1.3 分组

1.3.1 Group By语句

Group By语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。

1)案例实操:

(1)计算emp表每个部门的平均工资。

selectt.deptno,avg(t.sal) avg_sal
from emp t
group by t.deptno;

hive sql执行过程:

(2)计算emp每个部门中每个岗位的最高薪水。

selectt.deptno,t.job,max(t.sal) max_sal
from emp t
group by t.deptno, t.job;

hive sql执行过程:

 

1.3.2 Having语句

1havingwhere不同点

(1)where后面不能写分组聚合函数,而having后面可以使用分组聚合函数。

(2)having只用于group by分组统计语句。

2)案例实操

(1)求每个部门的平均薪水大于2000的部门

①求每个部门的平均工资。

selectdeptno,avg(sal)
from emp
group by deptno;

hive sql执行过程:

 

②求每个部门的平均薪水大于2000的部门。

selectdeptno,avg(sal) avg_sal
from emp
group by deptno 
having avg_sal > 2000;

hive sql执行过程:

 

1.4 Join语句

1.4.1 等值Join

Hive支持通常的sql join语句,但是只支持等值连接,不支持非等值连接。

1)案例实操

(1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称。

selecte.empno,e.ename,d.dname
from emp e
join dept d
on e.deptno = d.deptno;

hive sql执行过程:

 

1.4.2 表的别名

1)好处

(1)使用别名可以简化查询。

(2)区分字段的来源。

2)案例实操

合并员工表和部门表。

selecte.*,d.*
from emp e
join dept d
on e.deptno = d.deptno;

1.4.3 内连接

内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

selecte.empno,e.ename,d.deptno
from emp e
join dept d
on e.deptno = d.deptno;

1.4.4 左外连接

左外连接:join操作符左边表中符合where子句的所有记录将会被返回。

selecte.empno,e.ename,d.deptno
from emp e
left join dept d
on e.deptno = d.deptno;

1.4.5 右外连接

右外连接:join操作符右边表中符合where子句的所有记录将会被返回。

selecte.empno,e.ename,d.deptno
from emp e
right join dept d
on e.deptno = d.deptno;

1.4.6 满外连接

满外连接:将会返回所有表中符合where语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用null值替代。

selecte.empno,e.ename,d.deptno
from emp e
full join dept d
on e.deptno = d.deptno;

1.4.7 多表连接

注意:连接n个表,至少需要n-1个连接条件。例如:连接三个表,至少需要两个连接条件。

数据准备,在/opt/module/hive/datas/下:vim location.txt

部门位置id  部门位置

1700   北京1800   上海1900   深圳

1创建位置表

create table if not exists location(loc int,           -- 部门位置idloc_name string   -- 部门位置
)
row format delimited fields terminated by '\t';

2导入数据

load data local inpath '/opt/module/hive/datas/location.txt' into table location;

3多表连接查询

selecte.ename,d.dname,l.loc_name
from emp e
join dept d
on d.deptno = e.deptno
join location l
on d.loc = l.loc;

大多数情况下,Hive会对每对join连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。

注意:为什么不是表d和表l先进行连接操作呢?这是因为Hive总是按照从左到右的顺序执行的。

1.4.8 笛卡尔集

1)笛卡尔集会在下面条件下产生

(1)省略连接条件

(2)连接条件无效

(3)所有表中的所有行互相连接

2)案例实操

selectempno,dname
from emp, dept;

hive sql执行过程:

 

1.4.9 联合(union & union all)

1union&union all上下拼接

union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。union去重,union all不去重。

union和union all在上下拼接sql结果时有两个要求:

(1)两个sql的结果,列的个数必须相同

(2)两个sql的结果,上下所对应列的类型必须一致

2案例实操

将员工表30部门的员工信息和40部门的员工信息,利用union进行拼接显示。

select*
from emp
where deptno=30
union
select*
from emp
where deptno=40;

1.5 排序

1.5.1 全局排序(Order By)

Order By:全局排序,只有一个Reduce。

1使用Order By子句排序

asc(ascend):升序(默认)

desc(descend):降序

2Order By子句在select语句的结尾

3)基础案例实操

(1)查询员工信息按工资升序排列

select*
from emp
order by sal;

hive sql执行过程:

 

(2)查询员工信息按工资降序排列

select*
from emp
order by sal desc;

4)按照别名排序案例实操

按照员工薪水的2倍排序。

selectename,sal * 2 twosal
from emp
order by twosal;

hive sql执行过程:

 

5)多个列排序案例实操

按照部门和工资升序排序。

selectename,deptno,sal
from emp
order by deptno, sal;

hive sql执行过程:

 

1.5.2 每个Reduce内部排序(Sort By)

Sort By:对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用Sort by

Sort by为每个reduce产生一个排序文件。每个Reduce内部进行排序,对全局结果集来说不是排序。

1)设置reduce个数

set mapreduce.job.reduces=3;

2)查看设置reduce个数

 set mapreduce.job.reduces;

3)根据部门编号降序查看员工信息

select*
from emp
sort by deptno desc;

hive sql执行过程:

 

4)将查询结果导入到文件中(按照部门编号降序排序)

insert overwrite local directory '/opt/module/hive/datas/sortby-result'select * from emp sort by deptno desc;

1.5.3 分区(Distribute By)

Distribute By:在有些情况下,我们需要控制某个特定行应该到哪个Reducer,通常是为了进行后续的聚集操作。distribute by子句可以做这件事。distribute by类似MapReduce中partition(自定义分区),进行分区,结合sort by使用。

对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。

1)案例实操:

(1)先按照部门编号分区,再按照员工编号薪资排序

set mapreduce.job.reduces=3;insert overwrite local directory
'/opt/module/hive/datas/distribute-result'
select*
from emp
distribute by deptno
sort by sal desc;

注意

  • distribute by的分区规则是根据分区字段的hash码与reduce的个数进行相除后,余数相同的分到一个区。
  • Hive要求distribute by语句要写在sort by语句之前。
  • 演示完以后mapreduce.job.reduces的值要设置回-1,否则下面分区or分桶表load跑MapReduce的时候会报错。

hive sql执行过程:

 

1.5.4 分区排序(Cluster By)

当distribute by和sort by字段相同时,可以使用cluster by方式。

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序,不能指定排序规则为asc或者desc。

(1)以下两种写法等价

select*
from emp
cluster by deptno;select*
from emp
distribute by deptno
sort by deptno;

注意按照部门编号分区,不一定就是固定死的数值,可以是20号和30号部门分到一个分区里面去。

hive sql执行过程:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_284827.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【云原生】Dockerfile制作WordPress镜像,实现compose编排部署

文章目录&#x1f479; 关于作者前言环境准备目录结构dockerfile制作镜像yum 脚本Dockerfile-mariadb 镜像Dockerfile-service 镜像docker compose 编排提升✊ 最后&#x1f479; 关于作者 大家好&#xff0c;我是秋意临。 &#x1f608; CSDN作者主页 &#x1f60e; 博客主页…

BGP联邦实验

实验目的&#xff1a; 实验拓扑&#xff1a; IP地址规划&#xff1a; AS2内部&#xff1a; 172.16.0.0/16 172.16.0.0/24---P2P网络 172.16.1.0/24----MA网络 172.16.1.0/29 172.16.1.8/29 172.16.1.16/29 172.16.1.24/29 172.16.1.32/29 172.16.1.40/29 172.16.2.0/24--…

NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka消费者处理器_来消费kafka数据---大数据之Nifi工作笔记0037

首先我们先看一下kafka消费者流程,可以看到,我们需要创建一个consumeKafka_0_10 因为我们用的kafka的版本是0_10的对吧,要用对应版本的,消费者,然后,再用一个logattribute处理器,消费的 数据我们放到这个处理器里面进行查看 然后再就是需要配置consumekafka_0_10的,这个消费者…

数据结构入门(C语言版)栈和队列之队列的介绍及实现

队列队列的概念队列的实现过程队列的结构体与接口函数的定义队列的接口实现①初始化队列(QueueInit)②队尾入队列(QueuePush)③队头出队列(QueuePop)④队头元素(QueueFront)⑤队尾元素(QueueBack)⑥有效元素个数(QueueSize)⑦检测队列是否为空(QueueEmpty)⑧销毁队列(QueueDest…

《Java8实战》第4章 引入流

集合是 Java 中使用最多的 API。 4.1 流是什么 流是 Java API 的新成员&#xff0c;它允许你以声明性方式处理数据集合&#xff08;通过查询语句来表达&#xff0c;而不是临时编写一个实现&#xff09;。可以看作是遍历数据集的高级迭代器&#xff0c;而且还可以并行的处理。…

Java中创建线程的方式以及线程池创建的方式、推荐使用ThreadPoolExecutor以及示例

场景 Java中创建线程的方式有三种 1、通过继承Thread类来创建线程 定义一个线程类使其继承Thread类&#xff0c;并重写其中的run方法&#xff0c;run方法内部就是线程要完成的任务&#xff0c; 因此run方法也被称为执行体&#xff0c;使用start方法来启动线程。 2、通过实…

Object方法

系列文章目录 前端系列文章——传送门 JavaScript系列文章——传送门 文章目录系列文章目录对象方法一、Object原型方法1、hasOwnProperty2、isPrototypeOf3、propertyIsEnumerable4、toString5、其他二、Object方法1、assign2、create3、defineProperties4、defineProperty5、…

基于C#编程建立Vector数据类型及对应处理方法

以C#为例&#xff0c;讲解如何建立一个类&#xff0c;这其中需要考虑需要什么样的数据&#xff08;成员&#xff09;&#xff0c;什么样的属性以及方法&#xff0c;以及提供给外部程序调用&#xff0c;最后考虑怎么样去实现这样的算法。例如对于一个向量Vector&#xff08;类&a…

【深度学习】rnn是什么?循环神经网络是什么?RNN前向传播。

文章目录循环神经网络1.循环神经网络原理2.使用Numpy实现RNN层的前向传播3.RNN存在的问题4.小结循环神经网络 通常卷积神经网络 适合处理图像问题&#xff0c;然而通常适合处理自然语言的网络是循环神经网络。rnn是所有基本网络&#xff0c;就像cnn 是很多复杂网络的基本原型。…

leedcode刷题(3)

各位朋友们大家好&#xff0c;今天是我leedcode刷题系列的第三篇&#xff0c;废话不多说&#xff0c;直接进入主题。 文章目录分割链表题目要求用例输入提示做题思路c语言代码实现Java代码实现相交链表题目要求用例输入提示做题思路c语言实现代码Java代码实现分割链表 leedcod…

《 LeetCode 热题 HOT 100》——无重复字符的最长子串

本期给大家带来的是 LeetCode 热题 HOT 100 第三题关于 无重复字符的最长子串 的讲解。首先&#xff0c;我们还是先从题目入手进行分析思考&#xff01;&#xff01;&#xff01; 题目如下 &#xff1a;&#x1f447; 给定一个字符串 s &#xff0c;请你找出其中不含有重复字符…

改进蚁狮优化算法

目录 ​1 主要内容 2 部分程序 3 程序结果 4 程序链接 ​1 主要内容 该程序方法复现《改进蚁狮算法的无线传感器网络覆盖优化》两种改进算法模型&#xff0c;即原始ALO算法的基础上添加了两种改进策略&#xff1a; - 改进1&#xff1a;将原先的间断性边界收缩因子变为连…

【Android开发经验】-- 如何实现RecyclerView子项的点击事件?

目录 实例 实现思路 实现代码 进一步需求&#xff1a;数据库存储 实例 假设现在需要完成一个以下需求的任务&#xff0c;下面两个图左边是点击前未完成&#xff0c;右边是点击后已完成&#xff0c;如何实现点击图标切换另一个图标&#xff1f;&#xff08;矩形框中的内容是…

医药产品经理渠道资源获取的方法有哪些?

收集渠道信息是医药产品经理非常重要的工作之一&#xff0c;以下是一些可行的方法&#xff1a; 与销售人员和客户服务团队交流 销售人员和客户服务团队是企业与患者、医生和医院进行联系的主要渠道。他们可以提供很多有关市场需求和竞争对手情况的信息。产品经理可以通过与销…

机械臂动力学参数辨识学习笔记

1、为什么需要动力学参数辨识&#xff1f; 图1 电机三环控制图 通常情况下&#xff0c;标准的工业控制器通过机械臂内部的PID进行调节控制机械臂的运动&#xff0c;即用PID输出力矩&#xff0c;涉及到经典的图一所示的电机三环控制&#xff08;位置环、速度环、电流环&#xff…

用机器学习sklearn+opencv-python过古诗文网4位数字+字母混合验证码

目录 获取验证码图片 用opencv-python处理图片 制作训练数据集 训练模型 识别验证码 编写古诗文网的登录爬虫代码 总结与提高 源码下载 在本节我们将使用sklearn和opencv-python这两个库过掉古诗文网的4位数字字母混合验证码&#xff0c;验证码风格如下所示。 验证码获…

DM的学习心得和知识总结(三)|DM数据库DBMS_WORKLOAD_REPOSITORY 包及其性能分析工具AWR

目录结构 注&#xff1a;提前言明 本文借鉴了以下博主、书籍或网站的内容&#xff0c;其列表如下&#xff1a; 1、达梦数据库产品及解决方案&#xff0c;点击前往 2、达梦技术文档&#xff0c;点击前往 3、武汉达梦数据库有限公司 官网首页&#xff0c;点击前往 1、本文内容全部…

【软考备战·希赛网每日一练】2023年4月10日

文章目录一、今日成绩二、错题总结第一题第二题三、知识查缺题目及解析来源&#xff1a;2023年04月10日软件设计师每日一练 一、今日成绩 二、错题总结 第一题 解析&#xff1a; 本题属于专业英语&#xff0c;大体了解意思即可。 题目大意&#xff1a; 第二题 解析&#xff1a…

ORACLE创建表空间、用户、授权和Navicat创建序列和触发器及解决ORA-00942、ORA-01219错误

问题描述&#xff1a;因为每次Oracle删除数据库的时候磁盘文件还没删除&#xff0c;然后自己手动停止Oracle&#xff0c;删除磁盘里的.DBF文件导致数据库重启后无法连接。 cmd sqlplus sys as sysdba执行alter database open;查看你报错的数据文件&#xff08;就是你停止Orac…

ESP32 分区表

ESP32 分区表 1. 分区表概述 ESP32 针对 flash 进行划分&#xff0c;划分为不同的区域用作不同的功能&#xff0c;并在flash的 0x8000 位置处烧写了一张分区表用来描述分区信息。 分区表可以根据自己的需要进行配置&#xff0c;每一个分区都有其特定的作用&#xff0c;可根据…