Hive(27):分析网站uvpv等多指标综合案例

news/2024/5/20 7:39:51/文章来源:https://blog.csdn.net/u010886217/article/details/84036096

一、实现功能

1.分析网站日志,获得日期,uv,pv,登录人数,游客人数,平均访问时长,二跳率,独立ip数等关键信息。

其中:
登录:userid有值,会员,有账号登录
游客:userid无值,非登录人员
平均访问时长:在网页停留时间
二跳率:在一次会话中,同一个session点击的页面大于等于2的会话就是二跳(判断同一个session有多条记录的几率是多少)
独立ip数:统计ip去重

2.日志数据集

yhd_source.id   yhd_source.url  yhd_source.referer      yhd_source.keyword      yhd_source.type yhd_source.guidyhd_source.pageid        yhd_source.moduleid     yhd_source.linkid       yhd_source.attachedinfo yhd_source.sessionid    yhd_source.trackeru     yhd_source.trackertype  yhd_source.ip   yhd_source.trackersrc   yhd_source.cookie       yhd_source.ordercode    yhd_source.tracktime    yhd_source.enduserid    yhd_source.firstlink    yhd_source.sessionviewno        yhd_source.productid    yhd_source.curmerchantid        yhd_source.provinceid   yhd_source.cityid       yhd_source.fee  yhd_source.edmactivity  yhd_source.edmemail     yhd_source.edmjobid     yhd_source.ieversion    yhd_source.platform     yhd_source.internalkeyword      yhd_source.resultsum    yhd_source.currentpage  yhd_source.linkposition yhd_source.buttonposition       yhd_source.date
121508281810000000      http://www.yhd.com/?union_ref=7&cp=0                    3       PR4E9HWE38DMN4Z6HUG667SCJNZXMHSPJRER                                    VFA5QRQ1N4UJNS9P6MH6HPA76SXZ737P        10977119545            124.65.159.122           unionKey:10977119545            2015-08-28 18:10:00     50116447        http://image.yihaodianimg.com/virtual-web_static/virtual_yhd_iframe_index_widthscreen.html?randid=2015828       6              1000                                     Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0      Win32                                    lunbo_tab_3     2015082818
121508281810000001      http://my.yhd.com/order/finishOrder.do?orderCode=5435446505152  http://buy.yhd.com/checkoutV3/index.do          3       YJ25S3QAVPAS31PHSB3HFGZ1E5AYMKX9XUTX                                    6W26QM41DM6HHND3R4FP42YYXXE1NKGA                        222.73.202.251                          2015-08-28 18:10:00    85133152 http://www.haosou.com/s?src=new_isearch&q=1%E5%8F%B7%E5%BA%97   25      0                       1      Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36    Win32  MY_ORDERCOMPLETION_EDITADDRESS   2015082818
121508281810000002      http://list.yhd.com/p/c5072-b-a-s1-v0-p1-price-d0-pid-pt1086211-pl1171565-m0-k?tp=44.1086211.0.0.0.Kxnn54p-11-FFJKr     http://list.yhd.com/p/pt1086211-pl1171565?tp=44.1086211.1508.0.1.Kxnmyye-11-FFJKr               3       JRBWWU6ECXN15Q2Z5QT4TETNHKY7QHE3Y8B3            44.1086211.0.0.0.Kxnn54p-11-FFJKr      5Z5JZMYUGK9TP3QWHDDTU6G5T6PHEQRZ 4734            111.193.165.158         msessionid:DW6SB2FGG84ZZ2WD77DAZHFBXNV8D5776RQ4,uname:gaochentongxue,unionKey:4734,websiteId:A100215249         2015-08-28 18:10:00     116262550      http://www.yhd.com/?tracker_u=1624169&t=1440753050503    107                     2       1000                   Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36    Win32  107      1       search_navi_cat_4               2015082818

二、数据处理

1.数据采集加载到hive

create database yhd;create table yhd_source(
id              string,
url             string,
referer         string,
keyword         string,
type            string,
guid            string,
pageId          string,
moduleId        string,
linkId          string,
attachedInfo    string,
sessionId       string,
trackerU        string,
trackerType     string,
ip              string,
trackerSrc      string,
cookie          string,
orderCode       string,
trackTime       string,
endUserId       string,
firstLink       string,
sessionViewNo   string,
productId       string,
curMerchantId   string,
provinceId      string,
cityId          string,
fee             string,
edmActivity     string,
edmEmail        string,
edmJobId        string,
ieVersion       string,
platform        string,
internalKeyword string,
resultSum       string,
currentPage     string,
linkPosition    string,
buttonPosition  string
)partitioned by (date string)
row format delimited fields terminated by "\t";load data local inpath '/opt/datas/2015082818' into table yhd_source partition(date ='2015082818');

2.数据清洗

创建会话信息表:
create table session_info(
session_id string ,
guid string ,
trackerU string ,
landing_url string ,
landing_url_ref string ,
user_id string ,
pv string ,
stay_time string ,
min_trackTime string ,
ip string ,
provinceId string 
)
partitioned by (date string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;

3.创建两张临时表作为中间表

(1)两张临时表的结构关系

 

(2)创建第一张临时表:算出group才能得到的某些数值

create table session_tmp as
select 
sessionId session_id,
max(guid)  guid,
max(endUserId) user_id,
count(distinct url) pv,
(unix_timestamp(max(trackTime))-unix_timestamp(min(trackTime))) stay_time,
min(trackTime) min_trackTime,
max(ip) ip,
max(provinceId) provinceId
from yhd_source where date = '2015082818'
group by sessionId;

(3)创建第二张临时表

  备注:只是取关键字段,不需要任何处理。

create table track_tmp as
select 
sessionId session_id,
trackTime trackTime,
url landing_url,
trackerU trackerU,
referer landing_url_ref
from yhd_source where date='2015082818';

(4)两张临时表进行join

insert overwrite table session_info partition(date='2015082818')
select
a.session_id,
a.guid,
b.trackerU,
b.landing_url,
b.landing_url_ref,
a.user_id,
a.pv,
a.stay_time,
a.min_trackTime,
a.ip,
a.provinceId
from session_tmp a join track_tmp b
on a.session_id=b.session_id and a.min_trackTime=b.trackTime;

4.数据分析:结果表 

create table result2 as
select
date date,
sum(pv) PV,
count(distinct guid) UV,
count(distinct case when length(user_id)!=0  then user_id else null end) login_user,
count(distinct case when length(user_id)=0 then guid else null end) visitor,
avg(stay_time) avg_time,
count(case when pv>=2 then session_id else null end)/count(session_id) second_jump,
count(distinct ip) IP
from session_info where date='2015082818'
group by date;

结果

日期	      uv	    pv	    登录人数	  游客人数    平均访问时长	          二跳率	           独立ip数
2015082818	 23928	  37843.0	11411	      12367	       50.10636239012983	0.26695427788081605	     19174

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_734476.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(转)程序员实用工具网站

【原文地址:https://blog.csdn.net/m0_38106923/article/details/100130354】 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/m0_3810…

Loadrunner12 - WebTours网站使用录制回放时错误(2)——Session自动关联问题

当你发现你录制回放完成webTours后loadrunner12提示你脚本通过,但实际webTours中并没有发生任何实际的变化时,那可能就是session关联的问题了。 首先,我们重新录制,录制完成后,LR自动扫描可能存在的关联,LR…

宝塔自动备份网站到FTP空间

上次分享了宝塔自动备份网站到阿里云oss中,但是阿里云的oss是要收存储费用的,而且我非常在意的一点就是这样会把阿里云的API密码明文存储在面板后台,感觉这样也不太好,就一直在想其他的自动备份方案,正好前几天腾讯云活…

经营10多年的科技网站月光博客每月可以赚多少钱?[图]

2019独角兽企业重金招聘Python工程师标准>>> 经营10多年的科技网站月光博客每月可以赚多少钱? 相信你也想知道这个问题吧,我反正是充满了好奇。月光博客是十多年前就已经崛起的一个优秀博客,主打科技主题,曾经引得很多…

JSP——实现简单的计数器(统计访问网站的次数)

1.index.jsp文件 <% page language"java" import"java.util.*" pageEncoding"UTF-8"%> <html> <body> <%! int i0; //成员变量 %> <% i; //Java程序片 %&g…

简洁精美的企业单页门户网站(纯静态模板)

为什么80%的码农都做不了架构师&#xff1f;>>> <!DOCTYPE html> <html lang"en" class"no-js"> <!-- BEGIN HEAD --> <head> <meta charset"utf-8"/> <title>钦州日之新科技有限公司</titl…

在官方网站获得JMeter工具的步骤

首先我们了解一下JMeter是什么&#xff0c;以下是百度百科对于JMeter的解释说明。 Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试&#xff0c;它最初被设计用于Web应用测试&#xff0c;但后来扩展到其他测试领域。 它可以用于测试静态和动态资…

做SEO需要掌握哪些核心技术

每一个像我咨询SEO培训的学员都问同一个问题&#xff0c;做SEO需要掌握哪些技术&#xff0c;SEO分为专职SEO跟兼职SEO&#xff0c;无技术也能做SEO&#xff0c;我认为掌握更多的技术是提高SEO的基本。做SEO优化不像做数学加减法&#xff0c;更像是文章写作&#xff0c;没有固定…

nginx 1.18 没有sbin文件夹_提升网站安全性隐藏nginx信息

一般使用nginx的web网站&#xff0c;访问网站时&#xff0c;可以从请求头中看到使用了nginx以及nginx的版本号。暴露这些信息将给网站带来一定的风险&#xff0c;因此安装nginx时最好把这些信息隐藏。隐藏nginx 版本号与WEB服务器信息如果未安装nginx&#xff0c;先去官网下载压…

新手前端练手网站_影视后期新手大礼包

点击上方蓝色字关注我们~为什么很多人学习影视后期学不下去&#xff1f;为什么很多人学习影视后期不知道是为了什么&#xff1f;无论是工作需要&#xff0c;或者兴趣爱好&#xff0c;又或者转行设计。还在迷茫的你&#xff0c;请认真看完下面的视频&#xff0c;会对你有十分大的…

什么叫基于web的网站_什么叫响应式网站?响应式网站的好处

响应式网站又叫自适应网站(三站合一网站)是一项新技术&#xff0c;那么什么是响应式的网站呢&#xff1f;响应式web设计(responsive web design)的理念是&#xff1a;集中创建页面的图片排版大小&#xff0c;可以智能地根据用户行为以及使用的设备环境(系统平台、手机屏幕尺寸、…

如何在页面上加个日历_想知道网站是如何工作的么?

上网是大多数人的第二天性。我们每天搜寻无数个网站查询信息&#xff0c;但是你是否静下心来思考过什么是网站&#xff0c;它是如何工作的&#xff1f;为了回答这些问题(以及更多其他问题)&#xff0c;我们开始了一个新系列&#xff1a;我们将在这个月的每个星期都发布一篇新文…

wamp修改php,wampserver改变默认网站目录的办法

开发过php项目的都知道&#xff0c;大多数都会用到wampserver&#xff0c;接下来小编为大家分享下wampserver改变默认网站目录的方法。需要修改的文件有以下三个&#xff1a;apache2的配置文件 httpd.conf 和 Wampserver的 配置文件wampmanager.ini和wampmanager.tpl其中httpd.…

linux查看服务器网络延迟,查看实时网速 - 远程操作Linux网络设置_服务器应用_Linux公社-Linux系统门户网站...

工具一&#xff1a;slurm安装sudo apt-get install slurm (Ubuntu系统)查看网速命令slurm -i eth0 (etho为网卡名)工具二&#xff1a;nloadubuntu的安装可以使用apt进行&#xff0c;其他系统安装过程如下wget http://www.roland-riegel.de/nload/nload-0.7.2.tar.gztar zxvf …

zabbix免客户端监控网站URL

1.我们需要在zabbix服务器端(这台服务器需要能正常上网)同时安装zabbix-agent客户端&#xff0c;使其正常监控zabbix服务器 2.创建web监测 点击web监测 创建web监测 3.配置异常报警&#xff0c;在添加里找到类似的值和对应的刚才添加的网站&#xff0c;后面那个参数一般选择200…

搜索关键词分析——以个人博客网站为例

背景 我做了一个个人博客网站&#xff0c;希望能够记录自己的学习&#xff0c;工作和成长笔记。同时为更多有相同需求的人提供帮助和支持。那么用户应该怎么来找到我这个博客网站呢&#xff1f;通过什么关键词能够快速找到这个博客网站呢&#xff1f; 接下来本文就来探讨一下关…

大型网站技术架构(三)架构核心要素

2019独角兽企业重金招聘Python工程师标准>>> 所谓架构&#xff0c;一种通俗的说法就是“最高层次的规划&#xff0c;难以改变的决定”&#xff0c;这些规划和决定奠定了事物未来发展的方向和最终的蓝图。 而软件架构即“有关软件整体结构与组件的抽象描述&#xff0…

[转]Stimator:评估您的网站/博客的价值

转自&#xff1a;http://blog.bingo929.com/index.php 今天发现一个好看的网站&#xff0c;发现一篇有意思的文章“Stimator:评估您的网站/博客的价值”。试着测了一下自己的博克&#xff0c;居然值这么多美元&#xff0c;没想到。 试一试您的地址&#xff1a;Stimator

细数十大“.NET研究”免费构建ASP.NET网站必备工具

最近使用ASP.NET为公司构建了一个简单的公共网站(该网站的地址&#xff1a;http://superexpert.com/。在这个过程中&#xff0c;我们使用了数量很多的免费工具&#xff0c;如果把构建ASP.NET网站的必备工具总结一下&#xff0c;将会是一件十分有趣的事情。这些工具既支持ASP.NE…

[转]从LiveJournal后台发展看大规模网站性能优化方法

从LiveJournal后台发展看大规模网站性能优化方法 作者&#xff1a;于敦德 2006-3-16来源&#xff1a;http://www.example.net.cn/archives/2006/03/olivejournaloio.html 一、LiveJournal发展历程 LiveJournal是99年始于校园中的项目&#xff0c;几个人出于爱好做了这样一个…