网站统计中的数据收集原理及实现[转]

news/2024/5/21 14:26:42/文章来源:https://blog.csdn.net/iteye_1364/article/details/82440075

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理,并一步一步实际搭建一个实际的数据收集系统。

数据收集原理分析

简单来说,网站统计分析工具需要收集到用户浏览目标网站的行为(如打开某网页、点击某按钮、将商品加入购物车等)及行为附加数据(如某下单行为产生的订单金额等)。早期的网站统计往往只收集一种用户行为:页面的打开。而后用户在页面中的行为均无法收集。这种收集策略能满足基本的流量分析、来源分析、内容分析及访客属性等常用分析视角,但是,随着ajax技术的广泛使用及电子商务网站对于电子商务目标的统计分析的需求越来越强烈,这种传统的收集策略已经显得力不能及。

后来,Google在其产品谷歌分析中创新性的引入了可定制的数据收集脚本,用户通过谷歌分析定义好的可扩展接口,只需编写少量的javascript代码就可以实现自定义事件和自定义指标的跟踪和分析。目前百度统计、搜狗分析等产品均照搬了谷歌分析的模式。

其实说起来两种数据收集模式的基本原理和流程是一致的,只是后一种通过javascript收集到了更多的信息。下面看一下现在各种网站统计工具的数据收集基本原理。

首先通过一幅图总体看一下数据收集的基本流程。

1

图1. 网站统计数据收集基本流程

首先,用户的行为会触发浏览器对被统计页面的一个http请求,这里姑且先认为行为就是打开网页。当网页被打开,页面中的埋点javascript片段会被执行,用过相关工具的朋友应该知道,一般网站统计工具都会要求用户在网页中加入一小段javascript代码,这个代码片段一般会动态创建一个script标签,并将src指向一个单独的js文件,此时这个单独的js文件(图1中绿色节点)会被浏览器请求到并执行,这个js往往就是真正的数据收集脚本。数据收集完成后,js会请求一个后端的数据收集脚本(图1中的backend),这个脚本一般是一个伪装成图片的动态脚本程序,可能由php、python或其它服务端语言编写,js会将收集到的数据通过http参数的方式传递给后端脚本,后端脚本解析参数并按固定格式记录到访问日志,同时可能会在http响应中给客户端种植一些用于追踪的cookie。

上面是一个数据收集的大概流程,下面以谷歌分析为例,对每一个阶段进行一个相对详细的分析。

若要使用谷歌分析(以下简称GA),需要在页面中插入一段它提供的javascript片段,这个片段往往被称为埋点代码。下面是我的博客中所放置的谷歌分析埋点代码截图:

2

图2. 谷歌分析埋点代码

其中_gaq是GA的的全局数组,用于放置各种配置,其中每一条配置的格式为:

1_gaq.push([‘Action’, ‘param1’, ‘param2’,..]);

Action指定配置动作,后面是相关的参数列表。GA给的默认埋点代码会给出两条预置配置,_setAccount用于设置网站标识ID,这个标识ID是在注册GA时分配的。_trackPageview告诉GA跟踪一次页面访问。更多配置请参考:https://developers.google.com/analytics/devguides/collection/gajs/。实际上,这个_gaq是被当做一个FIFO队列来用的,配置代码不必出现在埋点代码之前,具体请参考上述链接的说明。

就本文来说,_gaq的机制不是重点,重点是后面匿名函数的代码,这才是埋点代码真正要做的。这段代码的主要目的就是引入一个外部的js文件(ga.js),方式是通过document.createElement方法创建一个script并根据协议(http或https)将src指向对应的ga.js,最后将这个element插入页面的dom树上。

注意ga.async = true的意思是异步调用外部js文件,即不阻塞浏览器的解析,待外部js下载完成后异步执行。这个属性是HTML5新引入的。

数据收集脚本(ga.js)被请求后会被执行,这个脚本一般要做如下几件事:

1、通过浏览器内置javascript对象收集信息,如页面title(通过document.title)、referrer(上一跳url,通过document.referrer)、用户显示器分辨率(通过windows.screen)、cookie信息(通过document.cookie)等等一些信息。

2、解析_gaq收集配置信息。这里面可能会包括用户自定义的事件跟踪、业务数据(如电子商务网站的商品编号等)等。

3、将上面两步收集的数据按预定义格式解析并拼接。

4、请求一个后端脚本,将信息放在http request参数中携带给后端脚本。

这里唯一的问题是步骤4,javascript请求后端脚本常用的方法是ajax,但是ajax是不能跨域请求的。这里ga.js在被统计网站的域内执行,而后端脚本在另外的域(GA的后端统计脚本是http://upload.chinaz.com/2012/1102/1351822048937.gif),ajax行不通。一种通用的方法是js脚本创建一个Image对象,将Image对象的src属性指向后端脚本并携带参数,此时即实现了跨域请求后端。这也是后端脚本为什么通常伪装成gif文件的原因。通过http抓包可以看到ga.js对__utm.gif的请求:

image

图3. 后端脚本请求的http包

可以看到ga.js在请求__utm.gif时带了很多信息,例如utmsr=1280×1024是屏幕分辨率,utmac=UA-35712773-1是_gaq中解析出的我的GA标识ID等等。

值得注意的是,__utm.gif未必只会在埋点代码执行时被请求,如果用_trackEvent配置了事件跟踪,则在事件发生时也会请求这个脚本。

由于ga.js经过了压缩和混淆,可读性很差,我们就不分析了,具体后面实现阶段我会实现一个功能类似的脚本。

GA的__utm.gif是一个伪装成gif的脚本。这种后端脚本一般要完成以下几件事情:

1、解析http请求参数的到信息。

2、从服务器(WebServer)中获取一些客户端无法获取的信息,如访客ip等。

3、将信息按格式写入log。

5、生成一副1×1的空gif图片作为响应内容并将响应头的Content-type设为image/gif。

5、在响应头中通过Set-cookie设置一些需要的cookie信息。

之所以要设置cookie是因为如果要跟踪唯一访客,通常做法是如果在请求时发现客户端没有指定的跟踪cookie,则根据规则生成一个全局唯一的cookie并种植给用户,否则Set-cookie中放置获取到的跟踪cookie以保持同一用户cookie不变(见图4)。

image

图4. 通过cookie跟踪唯一用户的原理

这种做法虽然不是完美的(例如用户清掉cookie或更换浏览器会被认为是两个用户),但是是目前被广泛使用的手段。注意,如果没有跨站跟踪同一用户的需求,可以通过js将cookie种植在被统计站点的域下(GA是这么做的),如果要全网统一定位,则通过后端脚本种植在服务端域下(我们待会的实现会这么做)。

注:相关网站建设技巧阅读请移步到建站教程频道。

系统的设计实现

根据上述原理,我自己搭建了一个访问日志收集系统。总体来说,搭建这个系统要做如下的事:

image

图5. 访问数据收集系统工作分解

下面详述每一步的实现。我将这个系统叫做MyAnalytics。

为了简单起见,我不打算实现GA的完整数据收集模型,而是收集以下信息。

埋点代码我将借鉴GA的模式,但是目前不会将配置对象作为一个FIFO队列用。一个埋点代码的模板如下:

这里我启用了二级域名analytics.codinglabs.org,统计脚本的名称为ma.js。当然这里有一点小问题,因为我并没有https的服务器,所以如果一个https站点部署了代码会有问题,不过这里我们先忽略吧。

我写了一个不是很完善但能完成基本工作的统计脚本ma.js:

(function () {

var params = {};

//Document对象数据

if(document) {

params.domain = document.domain || ‘’;

params.url = document.URL || ‘’;

params.title = document.title || ‘’;

params.referrer = document.referrer || ‘’;

}

//Window对象数据

if(window && window.screen) {

params.sh = window.screen.height || 0;

params.sw = window.screen.width || 0;

params.cd = window.screen.colorDepth || 0;

}

//navigator对象数据

if(navigator) {

params.lang = navigator.language || ‘’;

}

//解析_maq配置

if(_maq) {

for(var i in _maq) {

switch(_maq[i][0]) {

case ‘_setAccount’:

params.account = _maq[i][1];

break;

default:

break;

}

}

}

//拼接参数串

var args = ‘’;

for(var i in params) {

if(args != ‘’) {

args += ‘&’;

}

args += i + ‘=’ + encodeURIComponent(params[i]);

}

//通过Image对象请求后端脚本

var img = new Image(1, 1);

img.src = ‘http://upload.chinaz.com//?’ + args;

})();

整个脚本放在匿名函数里,确保不会污染全局环境。功能在原理一节已经说明,不再赘述。其中1.gif是后端脚本。

日志采用每行一条记录的方式,采用不可见字符^A(ascii码0×01,Linux下可通过ctrl + v ctrl + a输入,下文均用“^A”表示不可见字符0×01),具体格式如下:

时间^AIP^A域名^AURL^A页面标题^AReferrer^A分辨率高^A分辨率宽^A颜色深度^A语言^A客户端信息^A用户标识^A网站标识

为了简单和效率考虑,我打算直接使用nginx的access_log做日志收集,不过有个问题就是nginx配置本身的逻辑表达能力有限,所以我选用了OpenResty做这个事情。OpenResty是一个基于Nginx扩展出的高性能应用开发平台,内部集成了诸多有用的模块,其中的核心是通过ngx_lua模块集成了Lua,从而在nginx配置文件中可以通过Lua来表述业务。关于这个平台我这里不做过多介绍,感兴趣的同学可以参考其官方网站http://openresty.org/,或者这里有其作者章亦春(agentzh)做的一个非常有爱的介绍OpenResty的slide:http://agentzh.org/misc/slides/ngx-openresty-ecosystem/,关于ngx_lua可以参考:https://github.com/chaoslawful/lua-nginx-module。

注:相关网站建设技巧阅读请移步到建站教程频道。

首先,需要在nginx的配置文件中定义日志格式:

log_format tick “$msec^A$remote_addr^A$u_domain^A$u_url^A$u_title^A$u_referrer^A$u_sh^A$u_sw^A$u_cd

^A$u_lang^A$http_user_agent^A$u_utrace^A$u_account”;

注意这里以u_开头的是我们待会会自己定义的变量,其它的是nginx内置变量。

然后是核心的两个location:

location /1.gif {

#伪装成gif文件

default_type image/gif;

#本身关闭access_log,通过subrequest记录log

access_log off;

access_by_lua “

-- 用户跟踪cookie名为__utrace

local uid = ngx.var.cookie___utrace

if not uid then

-- 如果没有则生成一个跟踪cookie,算法为md5(时间戳+IP+客户端信息)

uid = ngx.md5(ngx.now() 。. ngx.var.remote_addr 。. ngx.var.http_user_agent)

end

ngx.header[‘Set-Cookie’] = {‘__utrace=’ 。. uid 。. ‘; path=/’}

if ngx.var.arg_domain then

-- 通过subrequest到/i-log记录日志,将参数和用户跟踪cookie带过去

ngx.location.capture(‘/i-log?’ 。. ngx.var.args 。. ‘&utrace=’ 。. uid)

end

”;

#此请求不缓存

add_header Expires “Fri, 01 Jan 1980 00:00:00 GMT”;

add_header Pragma “no-cache”;

add_header Cache-Control “no-cache, max-age=0, must-revalidate”;

#返回一个1×1的空gif图片

empty_gif;

}

location /i-log {

#内部location,不允许外部直接访问

internal;

#设置变量,注意需要unescape

set_unescape_uri $u_domain $arg_domain;

set_unescape_uri $u_url $arg_url;

set_unescape_uri $u_title $arg_title;

set_unescape_uri $u_referrer $arg_referrer;

set_unescape_uri $u_sh $arg_sh;

set_unescape_uri $u_sw $arg_sw;

set_unescape_uri $u_cd $arg_cd;

set_unescape_uri $u_lang $arg_lang;

set_unescape_uri $u_utrace $arg_utrace;

set_unescape_uri $u_account $arg_account;

#打开日志

log_subrequest on;

#记录日志到ma.log,实际应用中最好加buffer,格式为tick

access_log /path/to/logs/directory/ma.log tick;

#输出空字符串

echo ‘’;

}

要完全解释这段脚本的每一个细节有点超出本文的范围,而且用到了诸多第三方ngxin模块(全都包含在OpenResty中了),重点的地方我都用注释标出来了,可以不用完全理解每一行的意义,只要大约知道这个配置完成了我们在原理一节提到的后端逻辑就可以了。

真正的日志收集系统访问日志会非常多,时间一长文件变得很大,而且日志放在一个文件不便于管理。所以通常要按时间段将日志切分,例如每天或每小时切分一个日志。我这里为了效果明显,每一小时切分一个日志。我是通过crontab定时调用一个shell脚本实现的,shell脚本如下:

_prefix=“/path/to/nginx”

time=`date +%Y%m%d%H`

mv ${_prefix}/logs/ma.log ${_prefix}/logs/ma/ma-${time}.log

kill -USR1 `cat ${_prefix}/logs/nginx.pid`

这个脚本将ma.log移动到指定文件夹并重命名为ma-{yyyymmddhh}.log,然后向nginx发送USR1信号令其重新打开日志文件。

然后再/etc/crontab里加入一行:

59 * * * * root /path/to/directory/rotatelog.sh

在每个小时的59分启动这个脚本进行日志轮转操作。

下面可以测试这个系统是否能正常运行了。我昨天就在我的博客中埋了相关的点,通过http抓包可以看到ma.js和1.gif已经被正确请求:

image

图6. http包分析ma.js和1.gif的请求

同时可以看一下1.gif的请求参数:

image

图7. 1.gif的请求参数

相关信息确实也放在了请求参数中。

然后我tail打开日志文件,然后刷新一下页面,因为没有设access log buffer, 我立即得到了一条新日志:

1351060731.360^A0.0.0.0^Awww.codinglabs.org^Ahttp://www.codinglabs.org/^ACodingLabs^A^A1024^A1280^A24^Azh-CN^AMozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4^A4d612be64366768d32e623d594e82678^AU-1-1

注意实际上原日志中的^A是不可见的,这里我用可见的^A替换为方便阅读,另外IP由于涉及隐私我替换为了0.0.0.0。

看一眼日志轮转目录,由于我之前已经埋了点,所以已经生成了很多轮转文件:

image

图8. 轮转日志

关于分析

通过上面的分析和开发可以大致理解一个网站统计的日志收集系统是如何工作的。有了这些日志,就可以进行后续的分析了。本文只注重日志收集,所以不会写太多关于分析的东西。

注意,原始日志最好尽量多的保留信息而不要做过多过滤和处理。例如上面的MyAnalytics保留了毫秒级时间戳而不是格式化后的时间,时间的格式化是后面的系统做的事而不是日志收集系统的责任。后面的系统根据原始日志可以分析出很多东西,例如通过IP库可以定位访问者的地域、user agent中可以得到访问者的操作系统、浏览器等信息,再结合复杂的分析模型,就可以做流量、来源、访客、地域、路径等分析了。当然,一般不会直接对原始日志分析,而是会将其清洗格式化后转存到其它地方,如MySQL或HBase中再做分析。

分析部分的工作有很多开源的基础设施可以使用,例如实时分析可以使用Storm,而离线分析可以使用Hadoop。当然,在日志比较小的情况下,也可以通过shell命令做一些简单的分析,例如,下面三条命令可以分别得出我的博客在今天上午8点到9点的访问量(PV),访客数(UV)和独立IP数(IP):

awk -F^A ‘{print $1}’ ma-2012102409.log | wc -l

awk -F^A ‘{print $12}’ ma-2012102409.log | uniq | wc -l

awk -F^A ‘{print $2}’ ma-2012102409.log | uniq | wc -l

其它好玩的东西朋友们可以慢慢挖掘。

文章来源:ucdchina.com,转载请注明出处。

注:相关网站建设技巧阅读请移步到建站教程频道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_887107.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记录一次网站信息收集的实战

本人的博客地址:www.landq.cn 大概半个月前做了第一次的信息收集,当时还不是很熟练,但是我也把当时是的过程写了博客记录下来了,后来积累了一些这方面的知识,觉得自己之前做的太垃圾了,就直接把那篇博客删了…

十三个鲜为人知的大数据学习网站

数据分析重要性 越来越多的管理者意识到数据分析对经济发展、企业运营的重要意义 现在,得大数据者得天下 我总结的数据分析五步走: 1、锁定分析目标,梳理思路,叫纸上谈兵; 2、把杂乱的数据整理出图表报表,用…

优化网站性能必备的6种架构方案,你知道吗?

一个成熟的大型网站(如淘宝、天猫、腾讯等)的系统架构并不是一开始设计时就具备完整的高性能、高可用、高伸缩等特性的,它是随着用户量的增加,业务功能的扩展逐渐演变完善的,在这个过程中,开发模式、技术架…

使用dtree制作一个简单的网站导航(后台管理)

目录 效果展示(轻喷) dtree简介 涉及技术 目录结构 各个文件详情 index.html top.html left.html main.html cpright.html dtree下载地址 GitHub地址 效果展示(轻喷) dtree简介 dtree是一个由JavaScript编写成的简单的…

Mysql在大型网站的应用架构演变

写在最前: 本文主要描述在网站的不同的并发访问量级下,Mysql架构的演变 可扩展性 架构的可扩展性往往和并发是息息相关,没有并发的增长,也就没有必要做高可扩展性的架构,这里对可扩展性进行简单介绍一下,常用的扩展手段…

ASP.net构建大型网站

记得很多朋友问过我如何构建一个大型的.net网站.这里值得讨论的问题是----多大 ,公司曾经需要我给他们做一个每天有1000万人次访问的门户网站.而我却一直都没有开始动手做...原因很简单,,做一个这样的网站,经费少于300万是不够的.因此需求分析和启动资金成为了规划开始的关键. …

能帮你找到网页设计灵感的16个网站

几天前我发了篇《创意灵感哪里寻》的文章,历数了一些我寻找设计灵感时经常访问的网站。在文章的最后,我给大家扔了个问题:“你会到什么网站找设计灵感呢?”。那下面呢,就是一些看官推荐的网站。有些我没听过&#xff0…

谈谈网站静态化(转)

写在前头 静态化是解决减轻网站压力,提高网站访问速度的常用方案,但在强调交互的We2.0 时代,对静态化提出了更高的要求,静态不仅要能静,还要能动,下面我通过一个项目,谈谈网站静态化后的架构设计方案,同时和大家探讨一下,在开源产品大行其道,言架构必称MemberCache, Nginx,的时…

说说大型高并发高负载网站的系统架构(更新)【转】

我在CERNET做过拨号接入平台的搭建,而后在Yahoo&3721从事过搜索引擎前端开发,又在MOP处理过大型社区猫扑大杂烩的架构升级等工作,同时自己接触和开发过不少大中型网站的模块,因此在大型网站应对高负载和并发的解决方案上有一些…

最新在线商店(电子商务网站)设计欣赏

最新在线商店(电子商务网站)设计欣赏 最新在线商店(电子商务网站)设计欣赏,国外最新的电子商务网站设计潮流。 发表于:2009-09-07 11:08 分类:首页 > 视觉设计 > 配色/构图 > , 标签: 页面设计商店 Madsen Cycles Dripping In Fat C…

如何突破网站对selenium的屏蔽

本文原创作者:鲲之鹏(http://www.site-digger.com)本文原始链接:http://www.site-digger.com/html/articles/20180821/653.html使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案,它通吃各种数据加载…

16个小众却很实用的网站(程序员 向)

https://zhuanlan.zhihu.com/p/23005451 3个月以前在知乎上回答一个问题 【有哪些能集实用,装逼于一身的冷门网站?】得到很多小伙伴的喜爱,一直到现在都还陆陆续续收到大家的赞,谢谢大家。 于是,我就想,现在…

简单爬取京东网站

简单爬取京东网站的图片 正则表达式为京东图片的地址

AST对抗某网站的Js抽取型混淆

因为网站比较敏感, 所以具体网站就不说了, 直接说逻辑部分 为了降低数据提取的错误率, 所以使用了python的slimit库对js代码进行提取处理 对网站源码的JavaScript进行分析后, 发现在其中一个script标签内的js代码是利用抽取混淆的, 并用flashvars开头的变量存储 首先用python…

KNN算法学习-实现海伦约会网站与手写体识别实验

文章目录 前言一、实验介绍二:实验过程:1.数据准备2.分析数据3.归一化数值4.测试算法5.使用算法 三、实验:实现手写识别系统sklearn数据集 总结 前言 一、K-近邻算法是什么? 简而言之,k-近邻算法就是采用测量不同特征…

(网页加载慢)浏览器访问网站时发现建立连接( Initial connection)时巨慢,需要 20 多 s的追查

今天公司网站上线,结果首页的访问速度出奇的卡。chrome里查了下网站的加载速度 Initial connection 什么鬼,竟然20多秒 其实测试时就已经发现这个问题了,一直以为是发布后网站(IIS)第一次加载特别慢的原因,…

【python网络爬虫与NLP系列】一、利用scrapy+redis实现新闻网站增量爬取

写在前头:为了督促自己完成2018上半年的个人小任务,决定在平台上记录和分享完成的过程和心得。时间有限,但尽量详细具体吧。 简述一下整个系列的任务:(1)精选几个自己感兴趣的外文网站;&#x…

SEO入门知识篇

SEO(Search Engine Optimization):通过已知的搜索引擎算法,优化网站的内部和外部网站,使网站满足搜索引擎的索引排名需求,提高搜索引擎中的关键字排名,从而为网站带来精确的用户,获得…

网站SEO不得不关注的四大问题

原博主链接:https://blog.csdn.net/cc321001   相信各位参与过网站建设的小伙伴都知道,网站优化中的SEO方法是比较稳定和有效的。不过对于刚开始接触SEO工作的小白站长来说,特别是利用网站模板快速建站的小白站长,总会遇到多多少…

企业网站建设的核心点和优化策略

摘要 企业网站建设的核心优化策略主要在于架构设计,而架构设计又包含了js代码优化、flash的减少、框架优化、图形优化等等,比如说静态或者伪静态页面更适合企业站点的优化。 越来越多的公司在创建网站时缺乏创新精神,而公司网站却表现平平。…