02.网站点击流数据分析项目_模块开发_数据采集

news/2024/5/9 6:20:48/文章来源:https://blog.csdn.net/weixin_34342207/article/details/94640530

3 模块开发——数据采集

3.1 需求

  数据采集的需求广义上来说分为两大部分。

  1)是在页面采集用户的访问行为,具体开发工作:

    1、开发页面埋点js,采集用户访问行为

    2、后台接受页面js请求记录日志

  此部分工作也可以归属为“数据源”,其开发工作通常由web开发团队负责

  2)是从web服务器上汇聚日志到HDFS,是数据分析系统的数据采集,此部分工作由数据分析平台建设团队负责,

具体的技术实现有很多方式:

    Shell脚本:优点:轻量级,开发简单;缺点:对日志采集过程中的容错处理不便控制

    Java采集程序:优点:可对采集过程实现精细控制;缺点:开发工作量大

    Flume日志采集框架:成熟的开源日志采集系统,且本身就是hadoop生态体系中的一员,与hadoop体系中的

各种框架组件具有天生的亲和力,可扩展性强

 3.2 Flume日志采集系统搭建:

  1、数据源信息:本项目分析的数据用服务器所生成的流量日志:/data/flumedata/access.log

  2、数据内容样例:

58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 
"http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0" 字段解析: 1、访客ip地址: 58.215.204.118 2、访客用户信息: - - 3、请求时间:[18/Sep/2013:06:51:35 +0000] 4、请求方式:GET 5、请求的url:/wp-includes/js/jquery/jquery.js?ver=1.10.2 6、请求所用协议:HTTP/1.1 7、响应码:304 8、返回的数据流量:0 9、访客的来源url:http://blog.fens.me/nodejs-socketio-chat/ 10、访客所用浏览器:Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0

   3、Flume采集实现:配置采集方案:

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1# Describe/configure the source
#a1.sources.r1.type = exec
#a1.sources.r1.command = tail -F /home/hadoop/log/test.log   用tail命令获取数据,下沉到hdfs
#a1.sources.r1.channels = c1
# Describe/configure the source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /data/flumedata   采集目录到HDFS
a1.sources.r1.fileHeader = false# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = /fensiweblog/events/%y-%m-%d/
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
#指定下沉文件按30分钟滚动
a1.sinks.k1.hdfs.rollInterval = 30
a1.sinks.k1.hdfs.rollSize = 1024
#指定下沉文件按1000000条数滚动
a1.sinks.k1.hdfs.rollCount = 10000
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的文件类型,默认是Sequencefile,可用DataStream,则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

   如果向目录/data/flumedata中放入文件,就会将文件下沉到HDFS中;

   启动Flume的Agent: bin/flume-ng agent -c conf -f conf/fensi.conf -n a1 -Dflume.root.logger=INFO,console

   

  

 

注意:启动命令中的 -n 参数要给配置文件中配置的agent名称

 

转载于:https://www.cnblogs.com/yaboya/p/9329361.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_762042.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分享一些好用的网站

前言 这两年收藏了不少网站,特地整理一下,把一些大家都可能用得上的分享出来,希望能对你有用。 考虑到有一些网站大多数人都知道,所以我就不列出来了。 我把这些网站分为了几大类: 工具类素材类社区类工具类 1、start.…

[导入][转]利用压缩网页来提升网站浏览速度

本文主要介绍如何通过对页面进行压缩从而节省网站的带宽以及提升用户的访问速度。网站的访问速度是由多个因素所共同决定的,这些因素例如应用程序的响应速度、网络带宽、服务器性能、与客户端之间的网络传输速度等等。其中最重要的一个因素是应用程序本身的响应速度…

测试一个网站的最大并发量并发数并发用户

这个其实没有固定的算法,必须根据压测的目标特点进行估算。举例子来说明:是一天的访问量,那么我们需要知道哪几个时间段访问人数最多。例如有10小时访问密集区,我们可以估算每小时1000用户,峰值*2或者3,也就…

selenium实战 登录后前三项菜单作业分享(白月黑羽网站selenium自动化学习)

作业地址:http://www.python3.vip/tut/auto/selenium/02/#%E8%A1%A5%E5%85%85%E7%BB%83%E4%B9%A0 from selenium import webdriver# 创建 Webwd 实例对象,指明使用chrome浏览器驱动 wd webdriver.Chrome(rD:\tools-work\chromedriver_win32\chromedriv…

selenium实战 登录后菜单作业分享(白月黑羽网站selenium自动化学习)

我的作业提示:请输入用户名和请输入密码 都成功,但是登录失败3个全部错误,我找不到原因,如果有好的办法请留言,谢谢大家。 from selenium import webdriver# 创建 Webwd 实例对象,指明使用chrome浏览器驱动…

selenium实战 登录后菜单添加,查看新增数据是不是第一条数据 (UI-0103)分享(白月黑羽网站selenium自动化学习)

from selenium import webdriver import time # 创建 Webwd 实例对象,指明使用chrome浏览器驱动 wd webdriver.Chrome(rD:\tools-work\chromedriver_win32\chromedriver.exe)wd.implicitly_wait(5)#等待时间 一定要写 # Webwd 实例对象的get方法 可以让浏览器打开…

selenium实战 登录后菜单添加,查看新增数据是不是第一条数据 (UI-0105)分享(白月黑羽网站selenium自动化学习)

from selenium import webdriver import time # 创建 Webwd 实例对象,指明使用chrome浏览器驱动 wd webdriver.Chrome(rD:\tools-work\chromedriver_win32\chromedriver.exe)wd.implicitly_wait(5)#等待时间 一定要写 # Webwd 实例对象的get方法 可以让浏览器打开…

selenium实战 登录后跳转到外部网站,再从外部网站跳转回来 (UI-0106)分享(白月黑羽网站selenium自动化学习)

from selenium import webdriver import time # 创建 Webwd 实例对象,指明使用chrome浏览器驱动 wd webdriver.Chrome(rD:\tools-work\chromedriver_win32\chromedriver.exe)wd.implicitly_wait(5)#等待时间 一定要写 # 登录 wd.get(http://127.0.0.1:8047/mgr/si…

selenium实战 登录后跳转到外部网站,添加多个数据 (UI-0107)分享(白月黑羽网站selenium自动化学习)

from selenium import webdriver from selenium.webdriver.support.ui import Select import time # 创建 Webwd 实例对象,指明使用chrome浏览器驱动 wd webdriver.Chrome(rD:\tools-work\chromedriver_win32\chromedriver.exe)wd.implicitly_wait(5)#等待时间 一…

selenium实战 登录后跳转到外部网站,删除所有订单,添加多个数据 (UI-0108)分享(白月黑羽网站selenium自动化学习)

from selenium import webdriver from selenium.webdriver.support.ui import Select import time # 创建 Webwd 实例对象,指明使用chrome浏览器驱动 wd webdriver.Chrome(rD:\tools-work\chromedriver_win32\chromedriver.exe)wd.implicitly_wait(5)#等待时间 一…

selenium实战 登录后菜单添加,对比菜单前三项是不是相应内容 (UI-0101)分享(白月黑羽网站selenium自动化学习)

from selenium import webdriver import time # 创建 WebDriver 实例对象,指明使用chrome浏览器驱动 wd webdriver.Chrome(rD:\tools-work\chromedriver_win32\chromedriver.exe)wd.implicitly_wait(5)#等待时间 一定要写 # WebDriver 实例对象的get方法 可以让浏览…

利用pagespeed插件优化网站css层叠样式文件

"不务正业"的google最近发布了pagespeed插件和apache 2专有的mod_pagespeed页面优化模块;pagespeed插件目前仅有firefox版的,该插件要求预安装有Firebug页面debugger插件,你可以通过Tools->Add-ons->Get Add-ons菜单添加Fire…

网站建设技术方案_即墨【网站建设方案】公司

即墨【网站建设方案】公司,星环信息技术,我们期待与大家携手并进,共同创造更美好的未来。2005年11月1日发布的《成都市推进中央一般公共资源公共服务均等化工作方案》为规范各地及县、市级公共资源平台使用情况,落实自治区实施细则…

地址栏与搜索内容不符的乱码_一文解读影响网站在百度搜索排名的因素有哪些?...

网站在搜索引擎的排名直接决定了网站的流量,在国内,百度搜索引擎的流量占有率80%。所以对于优化人员来讲,seo优化主要是针对百度搜索引擎的优化。在百度往网站排名突然下降的情况下,你需要考虑的是你做了什么还是什么都没做了。今…

40款不容错过的个人摄影设计作品集网站

日期:2012-11-7 来源:GBin1.com 如果你不仅仅是网站设计师同时也是摄影师爱好者的话,那么拍摄高水准的摄影作品绝对可以为你的工作带来更大的帮助!你可以将这些照片处理后放到你设计的网站上,绝对是件了不起的作品。当…

无法访问网站故障案例分析报告 科来

某单位部分网段无法访问网站故障案例分析报告故障描述故障环境某单位客户端要访问服务器端,会先经过核心交换机,然后由核心交换机传到多业务交换机,多业务交换机与防火墙相连,经过防火墙后再经过加速器和加密机传,通过…

某网站的编程挑战题目 Java版本的 strToInt

为什么80%的码农都做不了架构师?>>> 题目详情 输入一个表示整数的字符串,把该字符串转换成整数并输出,例如输入字符串"345",则输出整数345。 请完成函数StrToInt,实现字符串转换成整数的功能。…

使用 ApacheBench 做网站压力测试

2019独角兽企业重金招聘Python工程师标准>>> ab的全称是ApacheBench,是 Apache 附带的一个小工具,专门用于 HTTP Server 的benchmark testing,可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试&#xff0…

7月国内网站流量统计:新浪和凤凰网竞争较大

IDC评述网(idcps.com)07月31日报道:跟据中国互联网协会-中国网站排名最新数据显示,截至2013年7月28日,国内网站独立访问量排名前五的仍旧是:百度、腾讯网、淘宝网、新浪网和凤凰网,如下图。如图所示,在7月份…

【笔记】网站加密认证

一、背景 (1)简介 当用户上网时,为了保证用户和服务器之间的信息传输不会泄漏,会对传输过程进行加密,防止泄密。 其流程如下: 1、当网站设置加密后会拥有证书,公钥锁,私钥。 2、当用户访问某个服务器&…