Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析

news/2024/5/23 22:24:26/文章来源:https://blog.csdn.net/whb123andy/article/details/76060546

网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html

网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html

网站日志分析项目案例(三)统计分析:当前页面

一、借助Hive进行统计

1.1 准备工作:建立分区表

HIVE

  为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)

hive>CREATE EXTERNAL TABLE techbbs(ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/project/techbbs/cleaned';

  建立了分区表之后,就需要增加一个分区,增加分区的语句如下:(这里主要针对20150425这一天的日志进行分区)

hive>ALTER TABLE techbbs ADD PARTITION(logdate='2015_04_25') LOCATION '/project/techbbs/cleaned/2015_04_25';  

  有关分区表的详细介绍此处不再赘述,如有不明白之处可以参考本笔记系列之17-Hive框架学习一文。

1.2 使用HQL统计关键指标

  (1)关键指标之一:PV量

  页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。这里,我们只需要统计日志中的记录个数即可,HQL代码如下:

hive>CREATE TABLE techbbs_pv_2015_04_25 AS SELECT COUNT(1) AS PV FROM techbbs WHERE logdate='2015_04_25';

  

  (2)关键指标之二:注册用户数

  该论坛的用户注册页面为member.php,而当用户点击注册时请求的又是member.php?mod=register的url。因此,这里我们只需要统计出日志中访问的URL是member.php?mod=register的即可,HQL代码如下:

hive>CREATE TABLE techbbs_reguser_2015_04_25 AS SELECT COUNT(1) AS REGUSER FROM techbbs WHERE logdate='2015_04_25' AND INSTR(url,'member.php?mod=register')>0;  

  

  (3)关键指标之三:独立IP数

  一天之内,访问网站的不同独立 IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。因此,这里我们只需要统计日志中处理的独立IP数即可,在SQL中我们可以通过DISTINCT关键字,在HQL中也是通过这个关键字:

hive>CREATE TABLE techbbs_ip_2015_04_25 AS SELECT COUNT(DISTINCT ip) AS IP FROM techbbs WHERE logdate='2015_04_25';

 

  

  (4)关键指标之四:跳出用户数

  只浏览了一个页面便离开了网站的访问次数,即只浏览了一个页面便不再访问的访问次数。这里,我们可以通过用户的IP进行分组,如果分组后的记录数只有一条,那么即为跳出用户。将这些用户的数量相加,就得出了跳出用户数,HQL代码如下:

hive>CREATE TABLE techbbs_jumper_2015_04_25 AS SELECT COUNT(1) AS jumper FROM (SELECT COUNT(ip) AS times FROM techbbs WHERE logdate='2015_04_25' GROUP BY ip HAVING times=1) e;

  

PS:跳出率是指只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总。这里,我们可以将这里得出的跳出用户数/PV数即可得到跳出率。

  (5)将所有关键指标放入一张汇总表中以便于通过Sqoop导出到MySQL

  为了方便通过Sqoop统一导出到MySQL,这里我们借助一张汇总表将刚刚统计到的结果整合起来,通过表连接结合,HQL代码如下:

hive>CREATE TABLE techbbs_2015_04_25 AS SELECT '2015_04_25', a.pv, b.reguser, c.ip, d.jumper FROM techbbs_pv_2015_04_25 a JOIN techbbs_reguser_2015_04_25 b ON 1=1 JOIN techbbs_ip_2015_04_25 c ON 1=1 JOIN techbbs_jumper_2015_04_25 d ON 1=1;

  

二、使用Sqoop导入到MySQL

2.1 准备工作:在MySQL中创建结果汇总表

  (1)Step1:创建一个新数据库:techbbs

mysql> create database techbbs;
Query OK, 1 row affected (0.00 sec)

  (2)Step2:创建一张新数据表:techbbs_logs_stat

mysql> create table techbbs_logs_stat(
-> logdate varchar(10) primary key,
-> pv int,
-> reguser int,
-> ip int,
-> jumper int);
Query OK, 0 rows affected (0.01 sec)

2.2 导入操作:通过export命令

  (1)Step1:编写导出命令

sqoop export --connect jdbc:mysql://hadoop-master:3306/techbbs --username root --password admin --table techbbs_logs_stat --fields-terminated-by '\001' --export-dir '/hive/techbbs_2015_04_25'

  这里的--export-dir是指定的hive目录下的汇总表所在位置,我这里是/hive/techbbs_2015_04_25。

  (2)Step2:查看导出结果

  

三、改写Linux定时任务

  刚刚我们已经借助Hive进行了关键指标的统计分析,并且借助Sqoop导出到了MySQL,后续可以借助JSP或者ASP.NET开发指标浏览界面供决策者进行浏览分析。但是刚刚这些操作都是我们自己手工操作的,我们需要实现自动化的统计分析并导出,于是我们改写前一篇中提到的定时任务脚本文件。

3.1 加入分区、统计与导出操作

  重写techbbs_core.sh文件,内容如下,step4~step8为新增内容:

复制代码
#!/bin/sh......#step4.alter hive table and then add partition
hive -e "ALTER TABLE techbbs ADD PARTITION(logdate='${yesterday}') LOCATION '/project/techbbs/cleaned/${yesterday}';"
#step5.create hive table everyday
hive -e "CREATE TABLE hmbbs_pv_${yesterday} AS SELECT COUNT(1) AS PV FROM hmbbs WHERE logdate='${yesterday}';"
hive -e "CREATE TABLE hmbbs_reguser_${yesterday} AS SELECT COUNT(1) AS REGUSER FROM hmbbs WHERE logdate='${yesterday}' AND INSTR(url,'member.php?mod=register')>0;"
hive -e "CREATE TABLE hmbbs_ip_${yesterday} AS SELECT COUNT(DISTINCT ip) AS IP FROM hmbbs WHERE logdate='${yesterday}';"
hive -e "CREATE TABLE hmbbs_jumper_${yesterday} AS SELECT COUNT(1) AS jumper FROM (SELECT COUNT(ip) AS times FROM hmbbs WHERE logdate='${yesterday}' GROUP BY ip HAVING times=1) e;"
hive -e "CREATE TABLE hmbbs_${yesterday} AS SELECT '${yesterday}', a.pv, b.reguser, c.ip, d.jumper FROM hmbbs_pv_${yesterday} a JOIN hmbbs_reguser_${yesterday} b ON 1=1 JOIN hmbbs_ip_${yesterday} c ON 1=1 JOIN hmbbs_jumper_${yesterday} d ON 1=1;"
#step6.delete hive tables
hive -e "drop table hmbbs_pv_${yesterday};"
hive -e "drop table hmbbs_reguser_${yesterday};"
hive -e "drop table hmbbs_ip_${yesterday};"
hive -e "drop table hmbbs_jumper_${yesterday};"
#step7.export to mysql
sqoop export --connect jdbc:mysql://hadoop-master:3306/techbbs --username root --password admin --table techbbs_logs_stat --fields-terminated-by '\001' --export-dir '/hive/hmbbs_${yesterday}'
#step8.delete hive table
hive -e "drop table techbbs_${yesterday};"
复制代码

3.2 分离日期获取操作

  (1)改写techbbs_core.sh脚本文件:

#!/bin/sh#step1.get yesterday format string
#yesterday=`date --date='1 days ago' +%Y_%m_%d`
yesterday=$1

  这里将日期字符串作为参数传入,将该步骤转移到了其他脚本文件中;

  (2)新增techbbs_daily.sh脚本文件:

#!/bin/shyesterday=`date --date='1 days ago' +%Y_%m_%d`
hmbbs_core.sh $yesterday

  这里获取日期并作为参数传递给techbbs_core.sh文件;

  (3)改写crontab定时任务配置:crontab -e

* 1 * * * /usr/local/files/apache_logs/techbbs_daily.sh

  这里每天凌晨1点自动执行的就变为techbbs_daily.sh脚本文件了;从此,我们只需定期查看mysql数据库中的汇总结果表进行浏览即可;

3.3 初始化任务操作

  当一个网站已经生成了很多天的日志,而我们的日志分析系统却一直没上线,一直等到了某天才上线。这时,我们需要写一个初始化脚本任务,来对之前的每天的日志进行统计分析与导出结果。这里,我们新增一个techbbs_init.sh脚本文件,内容如下:

复制代码
#!/bin/sh#step1.create external table in hive
hive -e "CREATE EXTERNAL TABLE techbbs(ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/project/techbbs/cleaned';"#step2.compute the days between start date and end date
s1=`date --date="$1"  +%s`
s2=`date +%s`
s3=$((($s2-$s1)/3600/24))#step3.excute techbbs_core.sh $3 times
for ((i=$s3; i>0; i--))
dologdate=`date --date="$i days ago" +%Y_%m_%d`techbbs_core.sh $logdate
done
复制代码

四、小结

  通过三部分的介绍,该网站的日志分析工作基本完成,当然还有很多没有完成的东西,但是大体上的思路已经明了,后续的工作只需要在此基础上稍加分析即可完成。当然,我们还可以通过JSP或ASP.NET读取MySQL或HBase中的分析结果表来开发关键指标查询系统,供网站运营决策者进行查看和分析。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_898082.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何从0到1搭建站内搜索?

** 一、为什么要做站内搜索 ** 对于一个单独的内容站来说,搜索其实不算是用户的常用功能,因为在绝大部分情况下,用户会更加偏向于询问他人,也就是传说中的伸手党。当无法从他人获取自己想要的内容时,用户才会倾向于去…

大型网站框架的演变

之前也有一些介绍大型网站架构演变的文章,例如LiveJournal的、ebay的,都是非常值得参考的,不过感觉他们讲的更多的是每次演变 的结果,而没有很详细的讲为什么需要做这样的演变,再加上近来感觉有不少同学都很难明白为什…

10个学习Android开发的网站推荐

1. Android Developers 作为一个Android开发者,官网的资料当然不可错过,从设计,培训,指南,文档,都不应该错过,在以后的学习过程中慢慢理解体会。 2. Android Guides - CodePath CodePath是国外一…

网站前端性能优化之javascript和css

之前看过Yahoo团队写的一篇关于网站性能优化的文章,文章是2010年左右写的,虽然有点老,但是很多方面还是很有借鉴意义的。关于css的性能优化,他提到了如下几点: CSS性能优化 1、把样式表置于顶部 现把样式表放到文档…

腾讯云轻量级服务器宝塔快速部署网站

1:首先我们可以登录腾讯云的官网。购买一个轻量级的服务器,这个服务器是很便宜的。第一次购买。 购买成功以后,我们会收到短信,短信会提示你已经购买成功。我们这个时候可以进入到控制台。 到了自己的控制台以后,我们要…

腾讯云服务器快速创建一个表白网站。简单可操作。

接上一篇博客,有了一个自己购买腾讯云服务器的基础,然后部署宝塔。这个时候我们就可以使用它来部署网站了。这是一个程序员表白网站。 我们先使用Xshell连接自己的服务器。好长时间忘记了登录密码用户名。我们输入bt default 这个时候我们先登入到了自己…

用Ruby on Rails做的网站

用Ruby on Rails做的网站 Basecamp Backpack Campfire Writeboard Ta-Da List Odeo 43 Things Pluggd good Yakima Herald-Republic Newspaper The Web 2.0 Show Shower in a Box Time Tracking on Rails Cardplayer.com Penny Arcade Pitchfork Media In…

关于.net 网站大文件上传

文件上传网上的例子有很多, 但在上传超过4M的时候就会因超时效,这是.net默认上传为4M的原故 我在上传的时候就遇到了这样的问题,开始以为是上传的方法不对,后来就不断的去找一些打好包的上传组件,比如什么思归啊,什么的. 其实组件上传大多也差不多,大文件还是与网络状态有很…

推荐中国最好的手机网站

手机网站,手机大全|手机论坛|手机亚商城www.shoujiya.com为您提供的服务包括:手机最新报价、手机铃声、手机品牌、手机图片、手机查询、手机导购、手机评测。诺基亚手机报价、索爱手机报价、三星手机报价、摩托罗拉手机报价、多普达手机报价|JAVA手机游戏下载|手机评…

javaJsoup爬取网站文章生成文件保存在本地

javaJsoup爬取网站文章生成文件保存在本地 前言: ​ 导入jar包,这是目标链接https://www.iyiou.com/kcjiedu/1.html,它是有分页的,所以根据分页网址的变化生成分页对应的网址,爬取下载内容到本地磁盘 maven&#xf…

ctfhub web 信息泄露 备份文件下载 网站源码

用脚本爆破,这个脚本其实可以改改作为批量访问子域名的脚本 访问返回状态码为200的网址,下载压缩包网页源码备份 Flag会在哪呢,直接访问.txt文件就得到 这题还有一个办法就是 后面都是一样的了

建站必备SEO工具和网站分析工具

Seo是一种廉价的推广手法,做的好能在短时间内给你带来不错的流量。正如我在上篇文章中说的只有通过网站分析才能够了解自己的一些不足,分析方法很多。从中我也介绍了谷歌的Google Analytics流量统计工具。做seo自然也有很多好的工具,不过很多…

window10本地电脑使用Apache Bench简称(ab)工具进行web端网站测试

使用Apache Bench工具进行网站压力测试 下载我们需要的测试工具(ab)到你的电脑中apache bench工具下载地址 将下好的压缩包放在你的任意磁盘中,并解压出压缩包里的,我是解压缩到了D盘中 使用window10命令行工具打开ab测试工具 第…

通过vjudge刷Uva的题目(解决Uva网站打开慢的问题)

最近在跟着算法竞赛入门经典刷题,发现Uva网站打开超级慢,进个主页面都需要好几秒。后来发现可以通过vjudge网站刷Uva的题目,很是方便,在这mark一下,顺便做一下推荐。 vjudge网址:https://vjudge.net&#…

10个免费的PHP脚本资源下载网站推荐

当你试图管理站点内容,PHP是个很有效的工具,它可以被使用在不同的应用上,比如数据库,比如广告管理,内容组织等等。 下面的免费的PHP脚本资源,可以帮助你的网站为访问者提供更佳的动态体验。 Free-Php.net P…

曾经在鸭子网站的留言

晓波 发表于2004-10-6 7:59:16 第132楼 标题:   发表留言: 鸭子,淮阴小聚,更添离别愁苦,见到兄弟,心中万千喜乐,奈何你离开竟早,我也回家。离别之时,难舍难依。…

您与这个网站的连接不安全?网上的办法看不懂?教你用python轻松解决

相信有很多小伙伴在写爬虫或者调用API时,遇到过这样的问题: 然后请求返回的结果是这样的: 这时候不管怎么修改header,问题都无法得到解决。 这是什么原因呢? 是因为该网站采用了https协议却没有SSL证书或者该证书过期…

A股十大股东持股数据查询网站的数据库设计

前几天有个朋友问我阿里巴巴投资了哪些A股,当时我只知道有一家叫分众传媒的公司,对,就是做电梯广告的那个。因为我之前在看这公司的十大股东研究数据时看到其中有阿里巴巴投资。但关于阿里在A股的投资我也只知道这一家,还有没有其…

Mysql在大型网站的应用架构演变

写在最前: 本文主要描述在网站的不同的并发访问量级下,Mysql架构的演变 可扩展性 架构的可扩展性往往和并发是息息相关,没有并发的增长,也就没有必要做高可扩展性的架构,这里对可扩展性进行简单介绍一下,常用的扩展手段…

大型分布式网站架构技术总结

本次分享大纲如下 大型网站的特点大型网站架构目标大型网站架构模式高性能架构高可用架构可伸缩架构可扩展架构安全架构敏捷架构大型架构举例 一、大型网站的特点 用户多,分布广泛大流量,高并发海量数据,服务高可用安全环境恶劣,…