pHP分析网站日志,通过用数据挖掘技术来分析Web网站日志?

news/2024/5/20 13:00:55/文章来源:https://blog.csdn.net/weixin_30575517/article/details/116283196

Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。

1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯,并且同时为用户提供有针对性的电子商务活动和个性化的信息服务,应用信息推拉技术构建智能化Web站点。

2、以分析Web站点性能为目标,主要从统计学的角度,对日志数据项进行粗略的统计分析,得到用户频繁访问页、单位时间的访问数、访问数量随时间分布图等。现有的绝大多数的Web日志分析工具都属于此类。

3、以理解用户意图为目标,主要是通过与用户交互的过程收集用户的信息,Web服务器根据这些信息对用户请求的页面进行裁剪,为用户返回定制的页面,其目的就是提高用户的满意度和提供个性化的服务。

收集方式

网站分析数据主要有三种收集方式:Web日志、JavaScript标记和包嗅探器。

1. Web日志

web日志处理流程:

ec0beafd41985c0884579e47f0d91bcf.png

从上图可以看出网站分析数据的收集从网站访问者输入URL向网站服务器发出http请求就开始了。网站服务器接收到请求后会在自己的Log文件中追加一条记录,记录内容包括:远程主机名(或者是IP地址)、登录名、登录全名、发请求的日期、发请求的时间、请求的详细(包括请求的方法、地址、协议)、请求返回的状态、请求文档的大小。随后网站服务器将页面返回到访问者的浏览器内得以展现。

2. JavaScript标记

JavaScript标记处理流程:

4ea45dc129b84d46b6904a8feccfef38.png

上图所示JavaScript标记同Web日志收集数据一样,从网站访问者发出http请求开始。不同的是,JavaScript标记返回给访问者的网页代码中会包含一段特殊的JavaScript代码,当页面展示的同时这段代码也得以执行。这段代码会从访问者的Cookie中取得详细信息(访问时间、浏览器信息、工具厂商赋予当前访问者的userID等)并发送到工具商的数据收集服务器。数据收集服务器对收集到的数据处理后存入数据库中。网站经营人员通过访问分析报表系统查看这些数据。

3. 包嗅探器

通过包嗅探器收集分析的流程:

36c0804fd354bb0b8f604a558efe69a9.png

上图可以看出网站访问者发出的请求到达网站服务器之前,会先经过包嗅探器,然后包嗅探器才会将请求发送到网站服务器。包嗅探器收集到的数据经过工具厂商的处理服务器后存入数据库。随后网站经营人员就可以通过分析报表系统看到这些数据。

web日志挖掘过程

整体流程参考下图:

bf25df0131db18ecfb07e7292fe86052.png

1、数据预处理阶段根据挖掘的目的,对原始Web日志文件中的数据进行提取、分解、合并、最后转换为用户会话文件。该阶段是Web访问信息挖掘最关键的阶段,数据预处理包括:关于用户访问信息的预处理、关于内容和结构的预处理。

2、会话识别阶段该阶段本是属于数据预处理阶段中的一部分,这里将其划分成单独的一个阶段,是因为把用户会话文件划分成的一组组用户会话序列将直接用于挖掘算法,它的精准度直接决定了挖掘结果的好坏,是挖掘过程中最重要的阶段。

3、模式发现阶段模式发现是运用各种方法和技术从Web日志数据中挖掘和发现用户使用Web的各种潜在的规律和模式。模式发现使用的算法和方法不仅仅来自数据挖掘领域,还包括机器学习、统计学和模式识别等其他专业领域。

模式发现的主要技术有:统计分析(statistical analysis)、关联规则(association rules)、聚类(clustering)、归类(classification)、序列模式(sequential patterns)、依赖关系(dependency)。

(1)统计分析(statistical analysis):常用的统计技术有:贝叶斯定理、预测回归、对数回归、对数-线性回归等。可用来分析网页的访问频率,网页的访问时间、访问路径。可用于系统性能分析、发现安全漏洞、为网站修改、市场决策提供支持。

(2)关联规则(association rules):关联规则是最基本的挖掘技术,同时也是WUM最常用的方法。在WUM中常常用在被访问的网页中,这有利于优化网站组织、网站设计者、网站内容管理者和市场分析,通过市场分析可以知道哪些商品被频繁购买,哪些顾客是潜在顾客。

(3)聚类(clustering):聚类技术是在海量数据中寻找彼此相似对象组,这些数据基于距离函数求出对象组之间的相似度。在WUM中可以把具有相似模式的用户分成组,可以用于电子商务中市场分片和为用户提供个性化服务。

(4)归类(classification):归类技术主要用途是将用户资料归入某一特定类中,它与机器学习关系很紧密。可以用的技术有:决策树(decision tree)、K-最近邻居、Naïve Bayesian classifiers、支持向量机(support vector machines)。

(5)序列模式(sequential patterns):给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。

(6)依赖关系(dependency):一个依赖关系存在于两个元素之间,如果一个元素A的值可以推出另一个元素B的值,则B依赖于A。

4、模式分析阶段模式分析是Web使用挖掘最后一步,主要目的是过滤模式发现阶段产生的规则和模式,去除那些无用的模式,并把发现的模式通过一定的方法直观的表现出来。由于Web使用挖掘在大多数情况下属于无偏向学习,有可能挖掘出所有的模式和规则,所以不能排除其中有些模式是常识性的,普通的或最终用户不感兴趣的,故必须采用模式分析的方法使得挖掘出来的规则和知识具有可读性和最终可理解性。常见的模式分析方法有图形和可视化技术、数据库查询机制、数理统计和可用性分析等。

收集数据包括

收集的数据主要包括:

全局UUID、访问日期、访问时间、生成日志项的服务器的IP地址、客户端试图执行的操作、客户端访问的服务器资源、客户端尝试执行的查询、客户端连接到的端口号、访问服务器的已验证用户名称、发送服务器资源请求的客户端IP地址、客户端使用的操作系统、浏览器等信息、操作的状态码(200等)、子状态、用Windows@使用的术语表示的操作的状态、点击次数。

用户识别

对于网站的运营者来说,如何能够高效精确的识别用户非常关键,这会对网站运营带来极大的帮助,如定向推荐等。

用户识别方法如下:

1c78a7aaf3a74f8ccd9a5917c6739cc7.png

使用HDFS存储

数据收集到服务器之后,根据数据量可以考虑将数据存储在hadoop的HDFS中。

在现在的企业中,一般情况下都是多台服务器生成日志,日志包括nginx生成的,也包括在程序中使用log4j生成的自定义格式的。

通常的架构如下图:

08b1543b04185ccd4fc987465d43af2a.png

使用mapreduce分析nginx日志

nginx默认的日志格式如下:

222.68.172.190 - - [18/Sep/2013:06:49:57 +0000] "GET /images/my.jpg HTTP/1.1" 200 19939

"http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"

remote_addr: 记录客户端的ip地址, 222.68.172.190

remote_user: 记录客户端用户名称, –

time_local: 记录访问时间与时区, [18/Sep/2013:06:49:57 +0000]

request: 记录请求的url与http协议, “GET /images/my.jpg HTTP/1.1″

status: 记录请求状态,成功是200, 200

body_bytes_sent: 记录发送给客户端文件主体内容大小, 19939

http_referer: 用来记录从那个页面链接访问过来的, “http://www.angularjs.cn/A00n”

http_user_agent: 记录客户浏览器的相关信息, “Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36″

可以直接使用mapreduce来进行日志分析:

58eae436aacbcff0ecc02ac82c1891bc.png

在hadoop中计算后定时导入到关系型数据库中进行展现。

也可以使用hive来代替mapreduce进行分析。

总结

web日志收集是每个互联网企业必须要处理的过程,当收集上来数据,并且通过适当的数据挖掘之后,会对整体网站的运营能力及网站的优化带来质的提升,真正的做到数据化分析和数据化运营。

(责任编辑:最模板)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_742316.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何进行web端安全性测试_如何使用LoadRunner进行Web网站性能测试?

loadrunner压力测试原理本质就是在loadrunner上模拟多个用户同时按固定行为访问web站点。其中固定行为在loadrunner中是通过录制脚本定义的,多个用户同时访问的策略是在loadrunner的场景中定义的loadrunner压测思路通过loadrunner进行压力测试web应用的主要思路分两…

一个好用的在线微信二维码设计网站

帮一个朋友设计他的微信公众号二维码,本来打算用ps画图,想到之前公众号配图有在线网站,简单方便,类似于这类的工具应该会有很多,在百度上查找体验了一下,终于找到了一款可以快速设计文章末尾二维码的在线网…

计算机找不到was服务器,win7系统搭建网站提示计算机“.”上没有找到wAs服务的图文步骤?...

win7系统搭建网站提示计算机“.”上没有找到wAs服务的图文步骤??在win7系统中,很多用户都会在电脑中使用iis搭建网站,然而在安装完iis,添加了网站之后,网站图标上有一个红叉,单击右键,启动,会…

seo2 php什么意思,url对seo最友好的是

对于静态网站来说,一定程度上来说url可以是每个页面唯一的"身份标志",对于搜索引擎优化(SEO)来说网站url设置是否合理,页影响着最终的效果,达到事半功倍的效果,今天我根据以往经验来说什么样网站url对于百度…

表格标题浮动html,HTML和CSS 入门系列(二):文字、表单、表格、浮动、定位、框架布局、SEO...

一、文字1.1 属性1.2 字体样式:font-family1.3 字体大小:font-size1.4 字体粗细:font-weight1.5 字体风格:font-style1.6 行高:line-height二、表单点击文字自动关联:三、表格四、浮动4.1 清除浮动.d-paren…

php用sublimetext写网站,sublime text3 phpfmt插件使用

sublime text3 phpfmt插件使用通过包安装管理器安装phpfmt插件.在sublime界面按快捷键 ctrlshiftP选择并选择: Install Package等待片刻输入并选择 phpfmt配置 (Windows)打开并编辑配置文件 ( %AppData%\Sublime Text\Packages\phpfmt\phpfmt.sublime-settings )(建议编辑插件的…

Nginx详解反向代理、负载均衡、LNMP架构上线动态网站

转载于:https://www.cnblogs.com/WIU1905/p/11100752.html

更换服务器对SEO不修改内容,六个步骤搞定更换网站服务器对SEO没影响的方法

谢谢非你不爱的文章投稿近期又许多网站站长盆友发帖子资询说要拆换网址的网络服务器了,可是怕操作失误造成 网址被K,由于早已有许多的网站站长盆友来意见反馈,说自身由于换了IP造成 网址被K了。那麼今日百度搜索百度站长工具新手夏令营论坛版…

java分页sql语句_「sql分页」sql语句 实现分页 - seo实验室

sql分页sql语句 实现分页/*分页思想:比如你要每页获取10条记录,当你显示第5页的记录时,也就是选取第40条至50条的记录.首先应该从所有的记录集中选取50条记录,同时进行倒序,再从中选10条,就完成工作了。下面是一个具体…

花瓣网服务器维护一个月,花瓣网维护网站推荐-只需要这一个网站就够了

推荐一款非常实用的设计师导航,可以说是自己目前用过最好用的设计师导航。里面精选推荐了大量优秀网站,包含高清图库、灵感创意、素材资源、摄影美图、教程文章、设计工具、绘画涂鸦、设计社区、字体下载、图标下载、前端学习、等等众多精选优质站点。目…

常州网站服务器_常州专业网站seo优化推广

网站seol31b10优化推广专业常州,SEO排名,它是指搜索引擎优化关键词排名。而影响到seo排名的因素有很多,比如说域名注册的时间,服务器的空间速度和稳定性,或者像是网站整体的结构,网站的内容等等都是影响了s…

ue怎样显示页面标签_网站各页面该如何布局关键词优化提升排名?

在网站优化中,最值得关注的一个事情就是关键词的布局,因为关键词的布局直接影响着网站的排名。那么怎样布局关键词才能提高页面和关键词的相关性,并提高网站排名呢?下面一起来看看。一、利用HTML标签布局关键词众所周知&#xff0…

直链下载Windows和office安装包,这个网站值得收藏

前面分享了一个下载Windows和office官方安装包的网站:我告诉你! 这个网站是通过磁力链接下载的,所以有时候会发现某些磁力链接下载非常慢。本期分享一个直链下载Windows和office官方安装包的网站。 网站名称:TechBench官方网址&am…

白捡的网站

contents:壁纸:软件:收藏夹:图片,视频素材:Pixabay:设计百宝箱:seeseed:优设导航:编程导航:HiPPTer:淘声网:熊猫搜书&…

快速搭建一个个人博客网站_Halo

搭建个人博客网站一、云服务器1.购买一个云服务器2.注册域名3.备案4.配置云服务器环境二、部署halo项目1.更新yum2.创建一个用户3.下载配置文件:4.运行Halo三、开启启动1.切换root用户2.下载 Halo 官方的 halo.service 模板一、云服务器 1.购买一个云服务器 2.注册…

Python爬虫学习(四)爬取图片素材网站素材

效果 目标网站 图片网站 目标接口: # GET 请求 https://www.logosc.cn/api/so/get?page0&pageSize20&keywords&categorylocal&isNeedTranslateundefined通过分析,我们可以知道应该可以修改page和pageSize参数来控制获取的图片。 导入…

微信小程序SEO优化

今年一月份上线的小程序,经过近一年的沉淀发酵,现在也进入了快速发展期。 在未来肯定会有越来越多的小程序诞生,小程序多了就需要搜索,那么如何让自己的小程序在众多的小程序中脱颖而出,这就需要小程序SEO优化。小编在…

支付宝手机网站支付java_java支付宝开发-02-手机网站支付

一、基础部分1.手机网站支付产品介绍1.1 阅读官方介绍: 手机网站支付产品介绍1.2 看完官方的介绍之后,可以做出如下总结:通过接入此接口,能让商家接入支付宝的支付功能。具体支付流程如下:(1)若用户已安装支付宝客户端…

企业网站制作代码_企业网站制作成什么样才符合趋势?

点击上方关注我们吧企业网站制作成什么样才符合趋势? 每个想找网站制作公司制作网站的企业,都想着做个符合发展趋势的网站。那么,什么样的企业网站才符合未来发展的趋势呢?或者说企业网站制作的未来趋势都有哪些呢?我们…

Django网站开发 01.Web网站与前端HTML标签

浏览器交互流程 1.快速开发网站 在Pycharm控制台输入: pip install flask 新建一个web.py,编写一个基础网站: web.py from flask import Flaskapp Flask(__name__)app.route("/show/info") def index():return "666"i…