Hadoop离线_网站流量日志数据分析系统_概述

news/2024/5/9 5:46:14/文章来源:https://blog.csdn.net/weixin_44449054/article/details/113823910

流量日志数据分析系统

          • 1.点击流数据模型
          • 2.网站流量模型分析
          • 3.流量常见分析角度和指标分类
          • 4.流量日志分析网站整体架构模块


1.点击流数据模型

1.1点击流概念:
点击流(Click Stream)是指用户在网站上持续访问的轨迹。这个概念更注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程。点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。网站是由多个网页(Page)构成,当用户在访问多个网页时,网页与网页之间是靠 Referrers 参数来标识上级网页来源。由此,可以确定网页被依次访问的顺序,当然也可以通过时间来标识访问的次序。其次,用户对网站的每次访问,可视作是一次会话(Session),在网站日志中将会用不同的 Sessionid 来唯一标识每次会话。如果把 Page 视为“点”的话,那么我们可以很容易的把Session描绘成一条“线”,也就是用户的点击流数据轨迹曲线。
在这里插入图片描述

1.2 点击流模型生成
点击流数据在具体操作上是由散点状的点击日志数据梳理所得。点击数据在数据建模时存在两张模型表 Pageviews 和 visits,例如:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.网站流量模型分析

流量分析整体来说是一个内涵非常丰富的体系,整体过程是一个金字塔结构:
在这里插入图片描述


2.1 网站流量分析模型举例
(1) 网站流量质量分析(流量分析)
流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入。
在这里插入图片描述

X 轴代表量,指网站获得的访问量。Y 轴代质,指可以促进网站目标的事件次数(比如商品浏览、注册、购买等行为)。圆圈大小表示获得流量的成本。BD 流量是指商务拓展流量。一般指的是互联网经过运营或者竞价排名等方式,从外部拉来的流量。比如电商网站在百度上花钱来竞价排名,产生的流量就BD 流量的一部分。

(2) 网站流量多维度细分(流量分析)
细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。
在这里插入图片描述

(3) 网站内容及导航分析(内容分析)
对于所有网站来说,页面都可以被划分为三个类别:导航页、功能页、内容页
导航页的目的是引导访问者找到信息,功能页的目的是帮助访问者完成特定任务,内容页的目的是向访问者展示信息并帮助访问者进行 决策。首页和列表页都是典型的导航页;站内搜索页面、注册表单页面和购物车页面都是典型的功能页,而产品详情页、新闻和文章页都是典型的内容页。比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:
在这里插入图片描述

第一个问题:访问者从导航页(首页)还没有看到内容页面之前就从导航页离开网站,需要分析导航页造成访问者中途离开的原因
第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明需要分析内容页的最初设计,并考虑中内容页提供交叉的信息推荐。

(4) 网站转化以及漏斗分析(转化分析)
所谓转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(比如商品成交);而漏斗模型则是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述;对于转化渠道,主要进行两部分的分析:
阻力的流失
在这里插入图片描述
迷失
在这里插入图片描述

3.流量常见分析角度和指标分类

指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。 比如我们经常说的流量就是一个网站指标,它是用来衡量网站获得的访问量。在进行流量分析之前,我们先来了解一些常见的指标。

(1) 骨灰级指标
IP: 1 天之内,访问网站的不重复 IP 数。一天内相同 IP 地址多次访问网站只被计算 1 次。曾经 IP 指标可以用来表示用户访问身份,目前则更多的用来获取访问者的地理位置信息。
PageView 浏览量: 即通常说的 PV 值,用户每打开 1 个网站页面,记录 1 个PV。用户多次打开同一页面 PV 累计多次。通俗解释就是页面被加载的总次数。
Unique PageView :1 天之内,访问网站的不重复用户数(以浏览器 cookie 为依据),一天内同一访客多次访问网站只被计算 1 次。

(2) 基础级指标
访问次数: 访客从进入网站到离开网站的一系列活动记为一次访问,也称会话(session),1 次访问(会话)可能包含多个 PV。
网站停留时间: 访问者在网站上花费的时间。
页面停留时间: 访问者在某个特定页面或某组网页上所花费的时间。

(3) 复合级指标
人均浏览页数: 平均每个独立访客产生的 PV。人均浏览页数=浏览次数/独立访客。体现网站对访客的吸引程度。
跳出率: 指某一范围内单页访问次数或访问者与总访问次数的百分比。其中跳出指单页访问或访问者的次数,即在一次访问中访问者进入网站后只访问了一个页面就离开的数量。
退出率: 指某一范围内退出的访问者与综合访问量的百分比。其中退出指访问者离开网站的次数,通常是基于某个范围的。

有了上述这些指标之后,就能结合业务进行各种不同角度的分类分析,主要是以下几大方面:
基础分析(PV,IP,UV)
趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。
对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。
当前在线:提供当前时刻站点上的访客量,以及最近 15 分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。
访问明细:提供最近 7 日的访客访问记录,可按每个 PV 或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。
在这里插入图片描述

(4)来源分析
来源分类: 提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。
搜索引擎: 提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。
搜索词: 提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化 SEO(搜索引擎优化)方案及 SEM(搜索引擎营销)提词方案提供详细依据。最近 7 日的访客搜索记录,可按每个 PV 或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。
来路域名: 提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。
来路页面: 提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。
来源升降榜: 提供开通统计后任意两日的 TOP10000 搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。
在这里插入图片描述

(5) 受访分析
受访域名: 提供访客对网站中各个域名的访问情况。 一般情况下,网站不同域名提供的产品、内容各有差异,通过此功能用户可以了解不同内容的受欢迎程度以及网站运营成效。
==受访页面:==提供访客对网站中各个页面的访问情况。 站内入口页面为访客进入网站时浏览的第一个页面,如果入口页面的跳出率较高则需要关注并优化;站内出口页面为访客访问网站的最后一个页面,对于离开率较高的页面需要关注并优化。
受访升降榜: 提供开通统计后任意两日的 TOP10000 受访页面的浏览情况对比,并按照变化的剧烈程度提供排行榜。 可通过此功能验证经过改版的页面是否有流量提升或哪些页面有巨大流量波动,从而及时排查相应问题。
热点图: 记录访客在页面上的鼠标点击行为,通过颜色区分不同区域的点击热度;支持将一组页面设置为"关注范围",并可按来路细分点击热度。 通过访客在页面上的点击量统计,可以了解页面设计是否合理、广告位的安排能否获取更多佣金等。
用户视点: 提供受访页面对页面上链接的其他站内页面的输出流量,并通过输出流量的高低绘制热度图,与热点图不同的是,所有记录都是实际打开了下一页面产生了浏览次数(PV)的数据,而不仅仅是拥有鼠标点击行为。
访问轨迹: 提供观察焦点页面的上下游页面,了解访客从哪些途径进入页面,又流向了哪里。 通过上游页面列表比较出不同流量引入渠道的效果;通过下游页面列表了解用户的浏览习惯,哪些页面元素、内容更吸引访客点击。
在这里插入图片描述

(6)访客分析
地区运营商: 提供各地区访客、各网络运营商访客的访问情况分布。 地方网站、下载站等与地域性、网络链路等结合较为紧密的网站,可以参考此功能数据,合理优化推广运营方案。
终端详情: 提供网站访客所使用的浏览终端的配置情况。 参考此数据进行网页设计、开发,可更好地提高网站兼容性,以达到良好的用户交互体验。
==新老访客:==当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯,针对不同访客优化网站,例如为制作新手导航提供数据支持等。
忠诚度: 从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度,因此该功能在网站内容更新及用户体验方面提供了重要参考。
活跃度: 从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃程度。 由于提升网站内容的质量与数量可以获得更高的活跃度,因此该功能是网站内容分析的关键指标之一。
在这里插入图片描述

(6)转化路径分析
转化定义:
访客在您的网站完成了某项您期望的活动,记为一次转化,如注册、下载、购买。
目标示例:
·获得用户目标:在线注册、创建账号等。
·咨询目标:咨询、留言、电话等。
·互动目标:视频播放、加入购物车、分享等。
·收入目标:在线订单、付款等。
路径分析:
根据设置的特定路线,监测某一流程的完成转化情况,算出每步的转换率和流失率数据,
如注册流程,购买流程等。
转化类型:
页面:
在这里插入图片描述

事件
在这里插入图片描述

4.流量日志分析网站整体架构模块

1.数据处理流程
网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤:
(1) 数据采集
数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web 服
务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使
用 Flume 等工具把数据采集到指定位置的这个过程叫做数据采集。
关于具体含义要结合语境具体分析,明白语境中具体含义即可。

(2) 数据采集
通过 mapreduce 程序对采集到的原始日志数据进行预处理,比如清洗,格式
整理,滤除脏数据等,并且梳理成点击流模型数据。

(3) 数据入库
将预处理之后的数据导入到 HIVE 仓库中相应的库和表中。

(4) 数据分析
项目的核心内容,即根据需求开发 ETL 分析语句,得出各种统计结果。

(5) 数据展现
将分析所得数据进行数据可视化,一般通过图表进行展示。

2.系统的架构
在这里插入图片描述

相对于传统的 BI 数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统 BI 完全不同:
数据采集: 定制开发采集程序,或使用开源框架 Flume
数据预处理: 定制开发 mapreduce 程序运行于 hadoop 集群
数据仓库技术: 基于 hadoop 之上的 Hive
数据导出: 基于 hadoop 的 sqoop 数据导入导出工具
数据可视化: 定制开发 web 程序(echarts)
整个过程的流程调度: hadoop 生态圈中的 azkaban 工具

在这里插入图片描述

其中,需要强调的是:
系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块。

3.数据展现
数据展现的目的是将分析所得的数据进行可视化,以便运营决策人员能更方便地获取数据,更快更简单地理解数据。市面上有许多开源的数据可视化软件、工具。比如 Echarts.
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_823755.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hadoop离线_网站流量日志数据分析系统_数据的预处理

标题1.主要目的2.实现方式3.开发一个MapReduce程序WeblogPreProcess4.点击流模型PageViews表5.点击流模型visit信息表1.主要目的 数据清洗 —— 过滤“不合规”数据,清洗无意义的数据 2.实现方式 首先经过flume采集后的数据会有十个字段,每个字段都会…

Hadoop离线_网站流量日志数据分析系统_数据入库

数据入库ETL1.数据仓库设计2.本项目中数据仓库的设计3.创建 ODS 层数据表4.导入 ODS 层数据5.生成 ODS 层明细宽表1.数据仓库设计 1.1维度建模概述 维度建模 (dimensional modeling) 是专门用于分析型数据库、数据仓库、数据集市建模(数据集市可以理解为是一种&quo…

如何在网页上显示其他网站的数据_如何从亚马逊抓取产品数据?

“为什么我们需要抓取亚马逊的数据?”,也许这是您可能会问的第一个问题。亚马逊是美国最大的电子商务公司,拥有世界上种类最多的产品。将产品数据抓取下来有很多有价值的用途。以下是为您列举的一些企业利用产品数据的好处:与竞争…

flash按钮点击无反应_久等了!赫鲸建站更炫的按钮样式及功能来了

听说有小伙伴想要更炫酷的网站展示效果?赶快来试试新的带悬停动效的按钮样式吧!下滑解锁更多功能更新咨询哦~按钮模块更新样式与功能使用场景电脑网站;按钮模块功能说明1. 新增多种带悬停动效按钮样式,让按钮更具吸引力。2. 支持更…

好用的图片压缩网站

1、https://tinypng.com/ 完全免费 - - || 压缩图片 PNG、JPG 推荐指数 ★★★★ 可批量操作,单次最多支持20张图片。 ​ 2、https://www.imagerecycle.com/ 完全免费 - - || 压缩PNG、JPG、GIF、PDF 推荐指数 ★★★★ 支持网站文件资源url直接压缩&…

医药工业相关网站

医药工业相关网站 中国医药工业信息中心网 中国医药工业信息中心 江苏恒瑞 恒瑞医药 正大天晴 正大天晴药业集团股份有限公司_正大天晴药业集团股份有限公司 豪森药业 抗肿瘤,精神类药物_江苏豪森药业集团有限公司 江苏康缘 康缘集团_江苏康缘集团有限责任公司_康缘集…

chrome header 获取_使用Chrome插件来补充一些写作网站没有Markdown的坑

场景技术者写文章,基本少不了Markdown了,但是很多自媒体平台(大而全那种),往往都是坑爹的富文本编辑器(还很多是魔改UEditor,人家官方三年没更新了喂)。小白学逻辑,内行看门道。类似这种:这是很麻烦的一件事…

qq申诉网站无法接到服务器,为什么我qq申诉不成功 - 卡饭网

qq申诉成功后怎么办qq申诉成功后怎么办 qq申诉成功后怎么办 1.在QQ申诉中,我们采用的方法有两种,一种是邮箱,一种是手机.邮箱申诉方式就会有一个链接发到你的邮箱,你进去点击打开就行.这里主要是讲手机接收的方式进行申诉,申诉成功后会收到下面的短信; 2.打开短信中的网址,输…

护卫神异地备份系统怎么传服务器,护卫神异地备份系统(网站异地备份工具)V2.8.2 官方版...

护卫神异地备份系统(网站异地备份工具)是一款非常优秀好用的专业网站异地备份软件。护卫神异地备份系统功能全面,操作简单,支持上传和下载模式,可以全自动备份重要数据,让网站数据更安全。可以实时或者定时帮助用户把数据传到远程…

中小公司网站架构

基于阿里云平台,部署中小型网站架构,如下图 转载于:https://www.cnblogs.com/xuegqcto/p/7519859.html

rfq在计算机那种代表什么,阿里网站专业术语中rfq是什么意思

阿里国际站rfq是客户主动发布的采购需求。买家主动发布采购需求,供应商自主选择挑选合适的买家进行报价。随着平台规则更新,以及平台对于RFQ这一块资源的重视度越来高,RFQ的使用不仅影响平台的RFQ资源的奖励额度,同时直接影响到店…

销售易 服务器错误的是什么,急,打开“深圳市市场监督管理局网站”出现服务器错误,请问是我电脑问题还是该网站问题,如何解决?谢谢...

急,打开“深圳市市场监督管理局网站”出现服务器错误,请问是我电脑问题还是该网站问题,如何解决?谢谢0zhuwq8862014.06.04浏览147次分享举报“/OutSide.WebUI”应用程序中的服务器错误。 ---------------------------------------…

squid正反向代理-加快网站访问速度

配置squid代理服务器加快网站访问速度 一:squid服务概述 Squid cache(简称为Squid)是一个流行的自由软件(GNU通用公共许可证)的代理服务器和Web缓存服务器。Squid有广泛的用途,从作为网页服务器的前置cache…

JavaScript练习网站收集

在学习的过程中会发现很多知识点如果不在工作中运用或者手写带验证的话,很容易忘记。任何技能的掌握都是需要不断练习的。在此收集一些自己遇到的JavaScript练习的网站。 codewars 国外的一个练习网站,有JavaScript,也有Python,每…

更改浏览器网站图标与标头(普通网站和el-admin)

还记得第一次更改图标和标头,还是学习htmlcss写作品(静态网页)的时候。 1.简单静态网页 只需要一个title标签和link引入。 注意:这种引入图标的写法,仅对当前页面生效 2.el-admin修改 先找到public文件夹下的inde…

常见负面SEO方法,你应该知道的事?

由于百度算法的不断调整,并且开始严厉打击作弊行为,一些搜索引擎优化公司面临竞争对手的压力,经常采用一些不正当的手法。 入侵竞争对手的网站,并采用一些非常规的手段,使得让你的网站看起来,变的有一些不一…

第32篇 网站试题生成word下载时bug解决

问题描述:英语科下载word时,选的题型有:完形填空和词汇运用两种,但下载出来题的序号排序混乱。 1 完形填空序号混乱解决 网站上生成的如下: 而我生成的word如下: 原因在于:正则表达式出了问题…

(转)3个常用基于Linux系统命令行WEB网站浏览工具(w3m/Links/Lynx)

一般我们常用的浏览器肯定是基于可视化界面的图文结合的浏览界面效果,比如FireFox、Chrome、Opera等等,但是有些时候折腾和项目 的需要,在Linux环境中需要查看某个页面的文字字符,我们需要简单的浏览网页页面,但是也不…

Docker启动nginx容器--搭建网站

1.下载nginx镜像 docker pull nginx 2.启动nginx镜像 docker run -d --name nginx01 -p 80:80 -v /data/nginx/www:/usr/share/nginx/html -v /data/nginx/log:/var/log/nginx nginx -d 后台运行方式-name 给容器起别名-p 宿主机和容器端口映射 3.进入到容器中 docker e…

K8S集群使用Ingress实现网站入口动静分离实践

今年3月份在公司的内部k8s培训会上,和研发同事详细探讨了应用部署容器化部署的几个问题,问题简要如下: 1、java应用容器化部署首先通过自动化部署工具编译出全量的war包,将war包直接编译到docker镜像后推送到私用仓库并版本化控制…