pypark hive 开启动态分区_网站PV分析（Hive）

news/2024/5/17 12:42:09/文章来源:https://blog.csdn.net/weixin_39593718/article/details/110301084

之前我们做过《java mapreduce实现网站PV分析》，这次我们可以用hive分析一些需求指标

提出需求：统计分析24小时各个时段的pv和uv

分析：

(1) pv统计总的浏览量 count(url)

(2) uv统计去重 count(distinct guid)

(3) 获取时间字段，日期和小时(分区表)

最终结果预期

接下来注意每个阶段：采集阶段，清洗阶段，分析阶段。

准备数据，查看数据字典了解数据的结构和意义(此处省略了数据和数据字典的展示)，可以认为此时数据已经采集完成了(采集阶段)，一般由采集人员将数据交由到我们手上。

登录beeline客户端

启动服务端：bin/hiveserver2 &

启动客户端

bin/beeline -u jdbc:hive2://mastercdh:10000 -n root -p password

根据数据字典，创建数据表

创建数据库

创建数据表

create table track_log_source(

id string,

url string,

referer string,

keyword string,

type string,

guid string,

pageId string,

moduleId string,

linkId string,

attachedInfo string,

sessionId string,

trackerU string,

trackerType string,

ip string,

trackerSrc string,

cookie string,

orderCode string,

trackTime string,

endUserId string,

firstLink string,

sessionViewNo string,

productId string,

curMerchantId string,

provinceId string,

cityId string,

fee string,

edmActivity string,

edmEmail string,

edmJobId string,

ieVersion string,

platform string,

internalKeyword string,

resultSum string,

currentPage string,

linkPosition string,

buttonPosition string

)row format delimited fields terminated by '';

准备数据

将准备好的数据导入

load data local inpath '/data/test/data1' into table track_log_source;

load data local inpath '/data/test/data2' into table track_log_source;

再查看下

采集完成后，需要对数据进行清洗，比如之前做过的《mapreduce实现数据去重》

根据之前的分析，我们创建表，将我们需要的字段提取出来

create table track_log_qingxi(

id string,

url string,

guid string,

date string,

hour string

)row format delimited fields terminated by '';

插入数据

insert into table track_log_qingxi select id,url,guid,substring(trackTime,9,2) date,substring(trackTime,12,2) hour from track_log_source;

分区表：根据时间字段进行分区

create table track_log_part1(

id string,

url string,

guid string

)partitioned by(date string,hour string)

row format delimited fields terminated by '';

插入数据

insert into table track_log_part1 partition(date='20150828',hour='18') select id,url,guid from track_log_qingxi where date='28' and hour='18';

insert into table track_log_part1 partition(date='20150828',hour='19') select id,url,guid from track_log_qingxi where date='28' and hour='19';

这样写的话，每次都需要填写条件，非常的不方便

我们来看一个概念：动态分区

首先在hive的配置文件hive-site.xml中，有两个属性

表示是否启用动态分区(这个是默认开启的)

hive.exec.dynamic.partition

true

使用动态分区，需要设置成非严格模式

hive.exec.dynamic.partition.mode

strict

我们用命令更改，不直接配置了

set hive.exec.dynamic.partition.mode=nonstrict;

那我们重新创建分区表

create table track_log_part2(

id string,

url string,

guid string

)partitioned by(date string,hour string)

row format delimited fields terminated by '';

重新插入(这个地方利用动态分区的特性)

insert into table track_log_part2 partition(date,hour) select * from track_log_qingxi;

查看数据发现自动帮我们分开了，这样如果是多个时间的话也会自动完成

数据分析

PV查看

select date,hour,count(url) pv from track_log_part2 group by date,hour;

UV分析

select date,hour,count(distinct guid) uv from track_log_part2 group by date,hour;

最终结果导入最终结果表中

create table result as select date,hour,count(url) pv,count(distinct guid) uv from track_log_part2 group by date,hour;

数据导出

将最终的结果保存在mysql中

在mysql中创建表

create table track_pv_uv_save(

date varchar(30),

hour varchar(30),

pv varchar(30),

uv varchar(30),

primary key (date,hour)

);

sqoop方式(hive-mysql)

bin/sqoop export

--connect jdbc:mysql://mastercdh:3306/track_log_mysql

--username root

--password password

--table track_pv_uv_save

--export-dir /user/hive/warehouse/exp_track_log.db/result

-m 1

--input-fields-terminated-by '001'

在mysql中查看

我们可以将数据下载到本地

bin/hdfs dfs -get /user/hive/warehouse/exp_track_log.db/result/000000_0 /data/test

查看下数据

查看下数据是没有问题的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_818099.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

pypark hive 开启动态分区_网站PV分析（Hive）

相关文章

利用huffman编码对文本文件进行压缩与解压_宝塔面板LNMP开启Brotli压缩，可提高网站加载速度...

js修改json文件_静态网站生成器之React框架Gatsby (三）连接json数据源

小虾视频网站广告屏蔽器 V 5.0

当前网站设计风格的发展趋势!

网站地图（sitemap）在线生成

在线地图制作网站

百度、熊掌号、移动专区网站主动推送，网页实时监控解决方案

网页内容监控 - 怎么才能做到网站内容实时推送百度？

java https 导入证书_如何把Https网站中的安全证书导入到java中的cacerts证书库

java linux u盘_创建启动U盘或移动硬盘 - 基于Fedora 14搭建高效稳定的Java开发环境_Linux教程_Linux公社-Linux系统门户网站...

安卓ios混合开发技术_app分析有多少种？app开发技术分析的4种方法 | 免费SEO诊断咨询...

discuz修改用户uid_[建站教程]Discuz数据库迁移的详细步骤

百度排名批量查询_企业网站核心关键词排名消失，什么原因？

兄弟连java网站_IT兄弟连 Java Web教程 URI、URL

计算机原理WR是什么,8086的引线-微计算机原理-电子发烧友网站

为什么我php总聘不上,我的phpweb建站经验：[7]招聘、反馈设置

wordpress 最强免插件纯代码sitemap.xml网站地图制作

VC2005从开发MFC ActiveX ocx控件到发布到.net网站的全部过程

html5用语义元素做旅游网站,HTML5: HTML5 语义元素

超人气网站集合，快来pick你中意的吧！