开源网站分析软件Piwik的数据库表结构

news/2024/5/9 23:10:17/文章来源:https://yanghuaiyuan.blog.csdn.net/article/details/12854515

文章引用:【http://www.biaodianfu.com/piwik-database-schema.html】

Piwik是一套基于Php+MySQL技术构建,能够与Google Analytics相媲美的开源网站访问统计系统,前身是phpMyVisites。Piwik可以给你详细的统计信息,比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等,并且采用了大量的AJAX/Flash技术,使得在操作上更加便易。此外,它还采用了插件扩展及开放API架构,可以让开发人员根据自已的实际需求创建更多的功能。

Piwik的数据库结构图


上图(点击可查看大图)Piwik的数据库结构按照简洁、效率和模块化进行设计。其数据库包含以下部分

  • Statistics logger(统计记录)
  • Users & Permissions(用户和权限)
  • Site(网站)
  • Archived data(存档数据)
  • Debug / Info log(调试/信息记录)
  • SQL query profiling(SQL查询分析)

Statistics logger

统计记录部分包含统计到的用户访问日志,这些数据一些来自于Javascript的标记,一些包逊于Cookie,一些有PHP获取。每个单独的访问者在Cookie中标记了一个唯一的visitor_idcookie。在数据库表log_visit中记录了用户的每一次“visit”。例如一个访问者在一天内访问网站两次(中间相隔30分钟),log_visit中就会有两条该用户的记录。

在一次访问中,一个访问者至少会浏览一个页面,我们称每浏览一个页面为一个“action”,每个action都会被定义一个名称(”homepage”, “/blog/hello-world”)和类型(一个定义行为种类的整数)。所有的单独“action”都被储存在表log_action

每个用户新的action都被记录到表log_link_visit_action中,其中包含了idactionidvisit。同时这个表还包含idaction_ref 和time_spent_ref_action 字段,用来记录用户的上一次action。当我们请求第二个页面,程序将从cookie中读取上一个页面的idaction ,并作为action_ref保存,并记录中间的时间time_spent_ref_action.使用这个技术是因为我们不需要去更新上一条记录的时间:我们只需要记录当前上层页面的信息。

Users & Permissions

一个用户被定义为loginpasswordemail 和一个用于请求API的token_auth。对于一个网站一个用户会有不同的access级别(浏览、管理、没有权限或是超级管理员。

Site

一个网站被定义为idsite和 main_urlmain_url 是用来指向 site_url,所以它可以有很多的url

Archived data

存档在piwik中是一段时间的数据聚合。它是由日志处理后得到的有具体含义的数据。

archive_* 表中的每行数据包含一个网站给定的日期/时间段的数据。例如,提条记录idsite = 3的这个网站在2008年2月7日的这周访问网站用户的国家列表。

Piwik的存档中总共有两种不同的数据类型的表:float和blob

  • archive_numeric_* 表是用来储存数值的。改字段值value使用的是FLOAT类型,即他可以保存整型和浮点数。比如储存给定时间点网站的访问者数。
  • archive_blob_* 表用来储存出数字以外的其他任何数据。BLOB是二进制数据类型,可以用来任何数据,比如字符串、字符串转化的序列数组、序列化的对象等。例如用来储存用户在一定时间段内所有的关键词。

事实上两个表都有相同的结构,除了value 字段的类型不同。他们同时包含以下字段:

  • idarchive 用来定义单独的存档。对于一个特殊的网站在一个特殊的时期内(特定的日期)会是相同的idarchive. 换句话说如果(idsite,period,date1,date2)相同,则idarchive 相同且为主键。
  • name 是用来记录值value 的描述。例如你想储存不同关键词的数量,比较恰当的name 可以是’Referers_distinctKeywords’
  • idsite 是记录所属的网站
  • date1 和 date2 使记录的起始日期和结束日期,如果记录的是一天的数据则date1 = date2.
  • period 用来定义周期的类型有: day / week / month / year.
  • ts_archived 是存档创建的时间戳。这个对确认存档是否还是有效很很大的帮助。比如今天的存档将会有效1小时或1分钟,这个取决于cache lifetime value的值。
  • value 包含name描述的数据

存档表里的每条记录都是由存档处理类进行自动处理的,其中存档处理有多个类:记录管理的是Piwik_ArchiveProcessing_Record_Manager,数值记录的Piwik_ArchiveProcessing_Record_Numeric,
blob记录的是Piwik_ArchiveProcessing_Record_Blob和字符串blob记录的Piwik_ArchiveProcessing_Record_Blob_Array。

存档的逻辑可以在Piwik_ArchiveProcessing类中找到,按日存档可以从Piwik_ArchiveProcessing_Day类中找到,按时间点的存档可以从Piwik_ArchiveProcessing_Period类中找到。需要注意的是大多数实时处理的存档都是通过插件来执行特殊的事件。

加载存档(或加载处理中的存档)是使用Piwik_Archive类完成的。

从性能上考虑,表按月划分。这就意味着每个月新标就会创建,所以数据会被有规律的划分。如果值使用一张表来储存所有数据,它将变的非常的巨大且查询起来非常的缓慢。数据表划分由Piwik_TablePartitioning类进行处理,按月划分的由Piwik_TablePartitioning_Monthly类完成。

我们使用不同的表结构(FLOAT 和 BLOB),因为它可以非常快速的查询整型/浮点数值。SQL查询会因为数据表非常的轻量(light)而非常的快(并且archive_numeric_* 的每行有固定的长度)。比如我们可以快速的查询最近30天的访客数。

Debug / Info log

logger_errorlogger_messagelogger_api_call 和 logger_exception 是用来记录各种各样信息的。

  • logger_error 是用来记录错误信息。message 中包含line, php file errfilebacktrace。等。
  • logger_message 是用来记录所有的调试和系统信息的。
  • logger_api_call 是用来记录所有的API请求的。他会记录所有的请求参数(parameter_values)和返回的值(returned_value)、执行时间(execution_time)和请求地址的IP地址(caller_ip)等。这个信息又来使API请求更加的具体,当返回的值(returned_value)不正确的时候用于调试,监测API接口 的使用情况等。
  • logger_exception 是用来记录所有的异常的。

而整体的逻辑控制是由Piwik_Log来完成的。

SQL query profiling

表log_profiling是用来储存SQL查询的概要信息的。

其他

注意:所有的时间戳都是由PHP生成的,而不是使用Mysql自带的NOW(), CURRENT_DATE()等函数。这是用来确保系统使用不同时间的服务器上的MySQL正常的运行。程序不是基于MySQL服务器的时间的。

未来的改进与优化

整个系统目前还存在很多性能改进的空间。比如,我们可以从以下几个方面进行改进。

  • 按日期划分log_* 表(和archive_* 采用相同的处理方式)
  • 审核大数据量下存档数据的SQL查询。
  • 审核所有的索引策略。
  • 为了避免大量的jions连接(log_visitlog_link_visit_action),我们可以通过复制(idsitevisit_server_date)字段使数据表非规范化。

如需了解更多的Piwik的原理和逻辑,请持续关注标点符。

参考文章:http://piwik.org/docs/plugins/database-schema/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_791432.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用最新 solr4.10 快速开发团购网站等垂直搜索网站

说明: solr 是一个非常完善的开源项目,非常优秀,他不紧紧是做个索引这么简单,而是可以做成一个垂直的网站,比如团购网站,快速搭建页面。而且solr带了一个非常优秀的管理后台。可以查看管理,导入…

发现一个国外的学习网站

一个国外的学习网站 udacity.com 优达学成。 免费课程 https://cn.udacity.com/courses/all 全部的课程 里面有不少有意思的课程。 课程是英文的带中文翻译。 还有一个机器学习的课程,感觉好高大上啊。 总结 使用上有点不太方便。 本地化做的还不是很…

javascript ,从mozilla 官方网站学习语法,非常不错

本文的原文连接是: https://blog.csdn.net/freewebsys/article/details/81153733 博主地址是:http://blog.csdn.net/freewebsys 1,关于mozilla 开发者 https://developer.mozilla.org/zh-CN/ 还有这么一个开发者中心呢,上面搜索写JavaScri…

pagespeed insights 上线了,可以通过web进行网站性能分析了

地址: https://developers.google.cn/speed/pagespeed/insights/ 分析下csdn网站: 功能挺多的,还不错。 可以进行参考,然后优化。提高访问速度。

中国大学MOOC(慕课) 一个不错的学习网站

https://www.icourse163.org/category/all 中国大学MOOC是由网易与高教社携手推出的在线教育平台,承接教育部国家精品开放课程任务,向大众提供中国知名高校的MOOC课程。在这里,每一个有意愿提升自己的人都可以免费获得更优质的高等教育。 央…

flutter(4):在linux 下安装flutter 环境,sdk,Android Studio ,从中文镜像网站下载,速度快,安装插件,调整bios使用x86镜像,写个hello world。

目录前言1,关于 flutter2,使用3,启动5,学习视频6,总结前言 相关arduino 全部分类: https://blog.csdn.net/freewebsys/category_8957746.html 本文的原文连接是: https://blog.csdn.net/freewebsys/articl…

图片切换onmouseover 事件

http://www.w3school.com.cn/htmldom/event_onmouseover.asp 定义和用法 onmouseover 时间会在鼠标指针移动到指定的对象上时发生。 语法 οnmοuseοver"SomeJavaScriptCode" 参数描述SomeJavaScriptCode必需。规定该事件发生时执行的 JavaScript。支持该事件的 HTM…

kotlin学习(2):android开发股票APP开发。先上github交友网站进行搜索,参考相关开源项目。然后进行二次开发、修改,不从零进行项目开发。

目录前言1,关于股票APP2,使用下载代码运行3,总结前言 本文的原文连接是: https://blog.csdn.net/freewebsys/article/details/108718819 未经博主允许不得转载。 博主地址是:http://blog.csdn.net/freewebsys 1,关于…

手机网站按住放大图片_动辄上千的手机稳定器值不值?魔爪手机稳定器mini mx 499不香么...

现在什么最火?当然是小视频vlog了。随着抖音等短视频App的火爆,短视频就风靡全球了。录制短视频也从兴趣爱好演变成了多种职业形式,不仅能够满足个人记录还能够带来经济收益。那么怎样才能像vlog创作者一样录制高质量的短视频资源呢&#xff…

2018洛奇英雄传永恒最新服务器,洛奇英雄传:永恒官方网站-这一次让经典成为永恒...

《洛奇英雄传:永恒》公会篝火玩法介绍2017年05月16日公会是洛英手游的特色系统,在洛英手游中,公会玩法众多,既有着公会饮酒,公会篝火等休闲玩法,还有着斗争之塔,征战英雄等公会副本战斗&#xf…

摄影分享网站之导航栏

一. 图片展示 二.内容构成 该导航栏由一个大div标签里面包裹三个小div,分别用来放置logo,和搜索框加按钮,最后一个放置导航链接 ,链接里实现下拉菜单。 1.logo logo部分比较简单,把图片放入设定好大小的div中,使用flo…

python编程游戏用什么软件好,推荐4个 Python 的编程游戏网站

简说Python号主老表,自学,分享Python,SQL零基础入门、数据分析、数据挖掘、机器学习优质文章以及学习经验。135篇原创内容公众号↑↑↑关注后"星标"简说Python人人都可以简单入门Python、爬虫、数据分析简说Python推荐本文内容来源…

java线程睡眠的方法_「thread.sleep」Java Thread之Sleep()使用方法总结 - seo实验室

thread.sleep一、API简介Thread.sleep()是Thread类的一个静态方法,使当前线程休眠,进入阻塞状态(暂停执行),如果线程在睡眠状态被中断,将会抛出IterruptedException中断异常。。主要方法如下:【a】sleep(long millis) …

计算机科学与技术导论 网站,计算机科学与技术导论

????张小峰、贾世祥、柳婵娟、邹海林编著的《计算机科学与技术导论》以启迪科学思想、培育创新精神为目标,以知识为起点,以知识发现、发展和应用为主线,构建 计算机科学技术导论 课程的内容体系。包括理论产生、研究的动因、思想方法和理…

服务器错误信息暴露URL,访问网站提示An error occurred on the server when processing the URL的解决方法...

大家看到这个信息不要怕,这个就说明了你的iis7或iis7.5的下的网站有错误。只要找到具体的信息就可以了,跟iis6下的经典提示错误一样的。解决方法:An error occurred on the server when processing the URL. Please contact the system administrator在W…

html网站首页代码_如何在百度站长工具平台上进行“网站验证”

作为一名站长,在网站搭建以后,如果想要使用百度站长工具了解网站的相关数据,这时需要先到百度站长工具平台上验证您的网站。站长平台推荐站长添加主站(您网站的链接也许会使用www和非www两种网址,建议添加用户能够真实访问到的网址…

mysql 网页版管理工具_WP菜鸟建站25:怎样安装和打开phpMyAdmin数据库管理工具?...

wordpress程序是由PHP语言开发而的一个动态网站程序,所以,它拥有自己的mysql数据库。我们的wordpress网站的前端页面所展示的文字和图片信息,都是从这个mysql数据库中调用出来的。一般情况下,作为wordpress站长的我们,…

randint函数_静态网站利用云函数 SCF + API 网关访问自定义后端接口

本文介绍使用全静态页面的网站如何利用腾讯云的 SCFAPI 服务实现简单的后端接口,并提供了一个 Python 出题器的实例演示。相关服务介绍:云函数(Serverless Cloud Function,SCF)是腾讯云为企业和开发者们提供的无服务器执行环境,帮…

html 字加白色透明,如何给网站背景加一个白色的透明文字

如何给网站背景加一个白色的透明文字如何给网站背景加一个白色的透明文字,如果对你有帮助就看看吧。那么如何给网站背景添加呢?其实也很简单,只需要一些代码即可实现,这个代码呢也是站长在其他地方发现的,就感觉还不错就拿过来用…

基于SSM的模板项目运动网站(附源码链接)

基于SSM的体适能运动协会 基于SSM的体适能运动协会项目属于SSM的一个综合实例项目,很多类似的项目都可在上面进行扩展。整个项目包括前台与后台,它不仅包括前台资源的展示,也包含了后台数据的实时更新等。此项目适用于毕设也适用于地方机构网…