项目实现：电商网站日志分析平台（三：etl数据清洗）

news/2024/5/16 5:11:12/文章来源:https://blog.csdn.net/weixin_57821489/article/details/121944765

本篇为第三篇，剩余请移步主页查看
本篇需要eclipse

三．Etl数据清洗

（1）在eclipse连接Hadoop，通过xshell进行连接，并进行Hadoop可视化
在这里插入图片描述
（2）在eclipse创建Etl mapreduce项目

（3）在eclipse进行编写NginxEtlMapper 和NginxETLDiver这两个类

NginxEtlMapper类代码：

package ETL;import java.io.IOException;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class nginxetlmapper extends Mapper<LongWritable,Text,Text,NullWritable>{private Text outputKey = new Text();
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{String[] words = value.toString().split("");String path = words[6];outputKey.set(path);context.write(outputKey,NullWritable.get());}
}

NginxETLDiver类的代码：

import java.io.IOException;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class NginxEtlDriver {public static void main(String[] args) {if(args.length<2) {System.out.println("请输入正确的参数");return;}String day = args[0];String hour = args[1];Configuration conf = new Configuration();try {Job job = Job .getInstance(conf);job.setJobName("nginx-etl");job.setJarByClass(NginxEtlDriver.class);job.setMapperClass(NginxEtlMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(NullWritable.class);job.setNumReduceTasks(0);Path inputPath = new Path("/web/log/" + day + "/" + hour);FileInputFormat.addInputPath(job, inputPath);Path outputPath = new Path("/web/log/etl/" + day + "/" + hour);FileSystem.get(conf).delete(outputPath,true);FileOutputFormat.setOutputPath(job, outputPath);job.waitForCompletion(true);}catch(IOException e) {e.printStackTrace();}catch(InterruptedException e) {e.printStackTrace();}catch (ClassNotFoundException e) {e.printStackTrace();}}
}