第4章用户行为数据采集模块

4.1 数据通道

Untitled

4.2 环境准备

4.2.1 集群所有进程查看脚本

1）在/home/atguigu/bin目录下创建脚本xcall

[atguigu@hadoop102 bin]$ vim xcall

2）在脚本中编写如下内容

#! /bin/bashfor i in hadoop102 hadoop103 hadoop104
doecho --------- $i ----------ssh $i "$*"
done

3）修改脚本执行权限

[atguigu@hadoop102 bin]$ chmod 777 xcall

4）启动脚本

[atguigu@hadoop102 bin]$ xcall jps

4.2.2 Hadoop安装

1）安装步骤

详见：尚硅谷大数据技术之Hadoop（入门）

（1）集群规划

	hadoop102	hadoop103	hadoop104
HDFS	NameNode DataNode	DataNode	DataNode SecondaryNameNode
YARN	NodeManager	Resourcemanager NodeManager	NodeManager

注意：尽量使用离线方式安装

2）项目经验

（1）项目经验之HDFS存储多目录

①生产环境服务器磁盘情况

Untitled

②在hdfs-site.xml文件中配置多目录，注意新挂载磁盘的访问权限问题

HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定，其默认值为file://${hadoop.tmp.dir}/dfs/data，若服务器有多个磁盘，必须对该参数进行修改。如服务器磁盘如上图所示，则该参数应修改为如下的值。

<property><name>dfs.datanode.data.dir</name><value>file:///dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4</value>
</property>

注意：因为每台服务器节点的磁盘情况不同，所以这个配置配完之后，不需要分发

（2）项目经验之集群数据均衡

①节点间数据均衡

开启数据均衡命令：

start-balancer.sh -threshold 10

对于参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。

停止数据均衡命令

stop-balancer.sh

注意：于HDFS需要启动单独的Rebalance Server来执行Rebalance操作，所以尽量不要在NameNode上执行start-balancer.sh，而是找一台比较空闲的机器。

②磁盘间数据均衡

生成均衡计划（我们只有一块磁盘，不会生成计划）

hdfs diskbalancer -plan hadoop103

执行均衡计划

hdfs diskbalancer -execute hadoop103.plan.json

查看当前均衡任务的执行情况

hdfs diskbalancer -query hadoop103

取消均衡任务

hdfs diskbalancer -cancel hadoop103.plan.json

（3）项目经验之Hadoop参数调优

①HDFS参数调优hdfs-site.xml

The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.
NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
对于大集群或者有大量客户端的集群来说，通常需要增大参数dfs.namenode.handler.count的默认值10。
<property><name>dfs.namenode.handler.count</name><value>10</value>
</property>

dfs.namenode.handler.count=20×〖log〗_e^(Cluster Size)，比如集群规模为8台时，此参数设置为41。可通过简单的python代码计算该值，代码如下。

[atguigu@hadoop102 ~]$ python
Python 2.7.5 (default, Apr 11 2018, 07:36:10) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-28)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import math
>>> print int(20*math.log(8))
41
>>> quit()

②YARN参数调优yarn-site.xml

情景描述：总共7台机器，每天几亿条数据，数据源->Flume->Kafka->HDFS->Hive

面临问题：数据统计主要用HiveSQL，没有数据倾斜，小文件已经做了合并处理，开启的JVM重用，而且IO没有阻塞，内存用了不到50%。但是还是跑的非常慢，而且数据量洪峰过来时，整个集群都会宕掉。基于这种情况有没有优化方案。

解决办法：

内存利用率不够。这个一般是Yarn的2个配置造成的，单个任务可以申请的最大内存大小，和Hadoop单个节点可用内存大小。调节这两个参数能提高系统内存的利用率。

（a）yarn.nodemanager.resource.memory-mb

表示该节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。

（b）yarn.scheduler.maximum-allocation-mb

单个任务可申请的最多物理内存量，默认是8192（MB）。

4.2.3 Zookeeper安装

1）安装步骤

详见：尚硅谷大数据技术之Zookeeper

4.2.4 Kafka安装

1）安装步骤

详见：尚硅谷大数据技术之Kafka

4.2.5 Flume安装

按照采集通道规划，需在hadoop102，hadoop103，hadoop104三台节点分别部署一个Flume。可参照以下步骤先在hadoop102安装，然后再进行分发。

1）安装步骤

详见：尚硅谷大数据技术之Flume

2）分发Flume

[atguigu@hadoop102 ~]$ xsync /opt/module/flume/

3）项目经验

（1）堆内存调整

Flume堆内存通常设置为4G或更高，配置方式如下：

修改/opt/module/flume/conf/flume-env.sh文件，配置如下参数**（虚拟机环境暂不配置）**

export JAVA_OPTS="-Xms4096m -Xmx4096m -Dcom.sun.management.jmxremote"

注：

-Xms表示JVM Heap(堆内存)最小尺寸，初始分配；

-Xmx 表示JVM Heap(堆内存)最大允许的尺寸，按需分配。

4.3 日志采集Flume

4.3.1 日志采集Flume配置概述

按照规划，需要采集的用户行为日志文件分布在hadoop102，hadoop103两台日志服务器，故需要在hadoop102，hadoop103两台节点配置日志采集Flume。日志采集Flume需要采集日志文件内容，并对日志格式（JSON）进行校验，然后将校验通过的日志发送到Kafka。

此处可选择TaildirSource和KafkaChannel，并配置日志校验拦截器。

选择TailDirSource和KafkaChannel的原因如下：

1）TailDirSource

TailDirSource相比ExecSource、SpoolingDirectorySource的优势

TailDirSource：断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置，实现断点续传。

ExecSource可以实时搜集数据，但是在Flume不运行或者Shell命令出错的情况下，数据将会丢失。

SpoolingDirectorySource监控目录，支持断点续传。

2）KafkaChannel

采用Kafka Channel，省去了Sink，提高了效率。

日志采集Flume关键配置如下：

Untitled

4.3.2 日志采集Flume配置实操

1）创建Flume配置文件

在hadoop102节点的Flume的job目录下创建file_to_kafka.conf

[atguigu@hadoop102 flume]$ mkdir job
[atguigu@hadoop102 flume]$ vim job/file_to_kafka.conf

2）配置文件内容如下

#定义组件
a1.sources = r1
a1.channels = c1#配置source
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.*
a1.sources.r1.positionFile = /opt/module/flume/taildir_position.json
a1.sources.r1.interceptors =  i1
a1.sources.r1.interceptors.i1.type = com.atguigu.gmall.flume.interceptor.ETLInterceptor$Builder#配置channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092
a1.channels.c1.kafka.topic = topic_log
a1.channels.c1.parseAsFlumeEvent = false#组装 
a1.sources.r1.channels = c1

3）编写Flume拦截器

（1）创建Maven工程flume-interceptor

（2）创建包：com.atguigu.gmall.flume.interceptor

（3）在pom.xml文件中添加如下配置

<dependencies><dependency><groupId>org.apache.flume</groupId><artifactId>flume-ng-core</artifactId><version>1.9.0</version><scope>provided</scope></dependency><dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.62</version></dependency>
</dependencies><build><plugins><plugin><artifactId>maven-compiler-plugin</artifactId><version>2.3.2</version><configuration><source>1.8</source><target>1.8</target></configuration></plugin><plugin><artifactId>maven-assembly-plugin</artifactId><configuration><descriptorRefs><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs></configuration><executions><execution><id>make-assembly</id><phase>package</phase><goals><goal>single</goal></goals></execution></executions></plugin></plugins>
</build>

（4）在com.atguigu.gmall.flume.utils包下创建JSONUtil类

package com.atguigu.gmall.flume.utils;import com.alibaba.fastjson.JSONObject;
import com.alibaba.fastjson.JSONException;public class JSONUtil {
/*
* 通过异常判断是否是json字符串
* 是：返回true  不是：返回false
* */public static boolean isJSONValidate(String log){try {JSONObject.parseObject(log);return true;}catch (JSONException e){return false;}}
}

（5）在com.atguigu.gmall.flume.interceptor包下创建ETLInterceptor类

package com.atguigu.gmall.flume.interceptor;import com.atguigu.gmall.flume.utils.JSONUtil;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;import java.nio.charset.StandardCharsets;
import java.util.Iterator;
import java.util.List;public class ETLInterceptor implements Interceptor {@Overridepublic void initialize() {}@Overridepublic Event intercept(Event event) {//1、获取body当中的数据并转成字符串byte[] body = event.getBody();String log = new String(body, StandardCharsets.UTF_8);//2、判断字符串是否是一个合法的json，是：返回当前event；不是：返回nullif (JSONUtil.isJSONValidate(log)) {return event;} else {return null;}}@Overridepublic List<Event> intercept(List<Event> list) {Iterator<Event> iterator = list.iterator();while (iterator.hasNext()){Event next = iterator.next();if(intercept(next)==null){iterator.remove();}}return list;}public static class Builder implements Interceptor.Builder{@Overridepublic Interceptor build() {return new ETLInterceptor();}@Overridepublic void configure(Context context) {}}@Overridepublic void close() {}
}

（6）打包

Untitled

（7）需要先将打好的包放入到hadoop102的/opt/module/flume/lib文件夹下面。

4.3.3 日志采集Flume测试

1）启动Zookeeper、Kafka集群

2）启动hadoop102的日志采集Flume

[atguigu@hadoop102 flume]$ bin/flume-ng agent -n a1 -c conf/ -f job/file_to_kafka.conf -Dflume.root.logger=info,console

3）启动一个Kafka的Console-Consumer

[atguigu@hadoop102 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic topic_log

4）生成模拟数据

[atguigu@hadoop102 ~]$ lg.sh

5）观察Kafka消费者是否能消费到数据

4.3.4 日志采集Flume启停脚本

1）分发日志采集Flume配置文件和拦截器

若上述测试通过，需将hadoop102节点的Flume的配置文件和拦截器jar包，向另一台日志服务器发送一份。

[atguigu@hadoop102 flume]$ scp -r job hadoop103:/opt/module/flume/
[atguigu@hadoop102 flume]$ scp lib/flume-interceptor-1.0-SNAPSHOT-jar-with-dependencies.jar hadoop103:/opt/module/flume/lib/

2）方便起见，此处编写一个日志采集Flume进程的启停脚本

在hadoop102节点的/home/atguigu/bin目录下创建脚本f1.sh

[atguigu@hadoop102 bin]$ vim f1.sh

在脚本中填写如下内容

#!/bin/bashcase $1 in
"start"){for i in hadoop102 hadoop103doecho " --------启动 $i 采集flume-------"ssh $i "nohup /opt/module/flume/bin/flume-ng agent -n a1 -c /opt/module/flume/conf/ -f /opt/module/flume/job/file_to_kafka.conf >/dev/null 2>&1 &"done
};; 
"stop"){for i in hadoop102 hadoop103doecho " --------停止 $i 采集flume-------"ssh $i "ps -ef | grep file_to_kafka | grep -v grep |awk  '{print \$2}' | xargs -n1 kill -9 "done};;
esac

3）增加脚本执行权限

[atguigu@hadoop102 bin]$ chmod 777 f1.sh

4）f1启动

[atguigu@hadoop102 module]$ f1.sh start

5）f2停止

[atguigu@hadoop102 module]$ f1.sh stop

大数据项目实战之数据仓库：用户行为采集平台——第4章用户行为数据采集模块

第4章用户行为数据采集模块

4.1 数据通道

4.2 环境准备

4.2.1 集群所有进程查看脚本

4.2.2 Hadoop安装

4.2.3 Zookeeper安装

4.2.4 Kafka安装

4.2.5 Flume安装

4.3 日志采集Flume

4.3.1 日志采集Flume配置概述

4.3.2 日志采集Flume配置实操

4.3.3 日志采集Flume测试

4.3.4 日志采集Flume启停脚本

相关文章

WireShark如何抓包，各种协议（HTTP、ARP、ICMP）的过滤或分析，用WireShark实现TCP三次握手和四次挥手

apt-get通过代理更新系统

maven将jar文件上传至本地仓库及私服

S3C2440移植Linux4.19.275内核以及过程中遇到的问题

云舟案例︱视频孪生技术赋能城市安全综合管理场景，提升城市数智化水平

28个案例问题分析---06---没有复用思想的接口和sql--mybatis，spring

【数据分析师求职面试指南】实战技能部分

支持向量回归删除异常值Python

聚势合力，电巢与SDIA协会“战略合作签约仪式”圆满落成

Vue(10-20)

使用vue脚手架创建vue项目

HTTPS加密流程

【UE4 RTS游戏】05-自定义日期和时间

mac安装vue脚手架失败及解决方法

如何利用海外主机服务提高网站速度？

一个小故障：vTaskGenericNotifyGiveFromISR卡死的解决

postgres源码解析52 磁盘管理器--1

Spring Cloud Gateway学习

Buuctf [GUET-CTF2019]number_game 题解

React解决样式冲突问题的方法

大数据项目实战之数据仓库：用户行为采集平台——第4章 用户行为数据采集模块

第4章 用户行为数据采集模块

4.1 数据通道

4.2 环境准备

4.2.1 集群所有进程查看脚本

4.2.2 Hadoop安装

4.2.3 Zookeeper安装

4.2.4 Kafka安装

4.2.5 Flume安装

4.3 日志采集Flume

4.3.1 日志采集Flume配置概述

4.3.2 日志采集Flume配置实操

4.3.3 日志采集Flume测试

4.3.4 日志采集Flume启停脚本

相关文章

大数据项目实战之数据仓库：用户行为采集平台——第4章用户行为数据采集模块

第4章用户行为数据采集模块