hadoop至MapReduce-004

news/2024/5/9 10:53:22/文章来源:https://blog.csdn.net/yangguangniubi/article/details/127506624

MapReduce定义

MapReduce是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件组合成一个完整的分布式运算程序,并发运行在hadoop集群上

MapReduce的优缺点

优点

  1. 易于编程:用户只关心业务逻辑代码
  2. 扩展性:可以动态增加服务器,解决计算资源不足问题
  3. 高容错性:任何一台挂掉,可以将任务转移到其他节点
  4. 适合海量数据的计算(TB/PB级别)

缺点

  1. 不擅长实时计算
  2. 不擅长流式计算
  3. 不擅长DAG有向无环图计算

编写一个MapReduce程序

pom

<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.3</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency></dependencies>

Map


import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*** @ClassName WordCountMapper* @Description TODO* @Date 2022/10/25 9:39* @Version 1.0* KEYIN, 输入偏移量作为key* VALUEIN,内容作为value* KEYOUT, 值作为key* VALUEOUT 次数作为value,每次都是1*/
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {private Text outK = new Text();private IntWritable outV = new IntWritable(1);@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String line = value.toString();String[] words = line.split(" ");for (String word : words) {outK.set(word);context.write(outK,outV);}}
}

reducer


import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/*** @ClassName WordCountReducer* @Description TODO* @Date 2022/10/25 9:40* @Version 1.0* KEYIN,  text* VALUEIN,* KEYOUT,* VALUEOUT*/
public class WordCountReducer extends Reducer<Text, IntWritable,Text,IntWritable> {private IntWritable outV = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {int count = 0;for (IntWritable value : values) {count+=value.get();}outV.set(count);context.write(key,outV);}
}

driver


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;/*** @ClassName WordCountDriver* @Description TODO* @Date 2022/10/25 9:40* @Version 1.0*/
public class WordCountDriver {public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {//1 获取jobConfiguration configuration = new Configuration();Job job = Job.getInstance(configuration);//2 设置jar包路径job.setJarByClass(WordCountDriver.class);//3 关联mapper的reducerjob.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReducer.class);//4 设置map输出的kv类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);//5 设置最终输出的kv类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);//6 设置输入和输出路径FileInputFormat.setInputPaths(job, new Path("D:\\centos\\hadinput"));FileOutputFormat.setOutputPath(job, new Path("D:\\centos\\hadout"));//7 踢几脚jobboolean result = job.waitForCompletion(true);System.exit(result ? 0 : 1);}
}

会报错,因为本地hadoop环境变量没配置,这里我使用的是3.1.3版本,因此需要下载hadoop3.1.3,

配置完成之后打开cmd

 然后找到两个配置文件放入hadoop的bin目录下

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_218384.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

webpack 异步import生成代码解析

文章目录原文件内容文件目录打包前打包后入口文件生成代码生成的一些辅助方法__webpack_require__.m__webpack_require__.d__webpack_require__.o__webpack_require__.u__webpack_require__.g__webpack_require__.r导入文件通用方法__webpack_require__异步文件引入获取下载文件…

AntDB-M设计之CheckPoint

1.引 言 数据库服务能力提升是一项系统性的工程&#xff0c;在不同的应用场景下&#xff0c;用户对于数据库各项能力的关注点也不同&#xff0c;如&#xff1a;读写延迟、吞吐量、扩展性、可靠性、可用性等等。国内不少数据库系统通过系统架构优化、硬件设备升级等方式&…

教程:使用Jmeter对带token的接口进行压测

最近在研究并发&#xff0c;用到了Jmeter对接口进行压力测试&#xff0c;记录下使用过程 一. 配置/bin下的Jmeter.properties&#xff0c;打开以下两项配置&#xff0c;一个是默认的编码&#xff0c;一个是默认的语言 二. 打开jmeter.bat运行&#xff0c;新建线程组&#xff0…

qt学习笔记6:ui实例 登录窗口布局

首先从ui布局界面去进行大致布局&#xff0c; 可以先把默认的一些移除掉&#xff0c;变成一个大的空窗口 用户窗口&#xff0c;一般都得有一个用户名和密码&#xff08;用label&#xff09;输入用Line edit&#xff0c; 再来俩按钮pushButton&#xff0c; 但仅仅这样是没有意义…

kafka学习(四):生产者发送消息的分区策略

Kafka为了增加系统的伸缩性(Scalability)&#xff0c;引入了分区(Partitioning)的概念。 Kafka 中的分区机制指的是将每个主题划分成多个分区&#xff08;Partition&#xff09;&#xff0c;每个分区是一组有序的消息日志。主题下的每条消息只会保存在某一个分区中&#xff0c;…

python 基于PHP在线音乐网站

随着时代的发展,人们的生活水平越来越高,相对应的对精神世界的追求也越来越多,而音乐一直以来一直是人们追求美好生活的象征,它不仅可以陶冶人们的情操还可以美化人们的灵魂,音乐也一直是千百年来人们不断追求的一个精神文明的产物,为了能够让更多的人找到自己喜欢的音乐,我开发…

1.3.1操作系统的运行机制和体系结构

文章目录运行机制两种指令两种状态两种程序操作系统内核内核在计算机的系统中的层次结构内核的功能时钟管理&#xff08;基本功能&#xff09;中断机制&#xff08;基本功能&#xff09;原语&#xff08;基本功能&#xff09;对资源的进行管理的功能运行机制 两种指令 指令和…

python基于PHP旅游网站的设计与开发

在经济高速发展的现在,人们的工作越来越繁重,生活节奏越来越快,生活工作压力也越来越大。反而留给自己休息,享受旅游生活的时间越来越少,缺少对周边旅游信息的了解,无法与兴趣一致的户外旅友进行交流。这则会导致人们会花更多的时间去寻找旅游地点,并进行路线规划,花费的时间在…

彻底理解闭包实现原理

前言 闭包对于一个长期写 Java 的开发者来说估计鲜有耳闻,我在写 Python 和 Go 之前也是没怎么了解,光这名字感觉就有点"神秘莫测",这篇文章的主要目的就是从编译器的角度来分析闭包,彻底搞懂闭包的实现原理。 函数一等公民 一门语言在实现闭包之前首先要具有的特…

工程项目部质量管理体系的控制要点分析

质量管理是施工企业风险控制的重要组成部分。本文从有序的生产过程控制&#xff0c;提高企业质量意识出发&#xff0c;结合贯彻ISO9001标准及50430规范的企业贯标工作&#xff0c;分阶段研究和分析施工企业工程项目部质量管理体系的控制要点。 质量是企业的生命线&#xff0c;…

Android实战——单元测试从吹水到实践

目录1.单元测试到底需要不需要了&#xff1f;开发时间紧张&#xff0c;不需要做单元测试了吧&#xff1f;开发经验丰富&#xff0c;不需要做单元测试了吧&#xff1f;或许存在一种”自动化“的测试&#xff0c;就不需要做单元测试了吧&#xff1f;2.单元测试的好处单元测试可以…

【附源码】计算机毕业设计SSM校园拍卖平台

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

React 状态管理器,我是这样选的

前言 我们的前端团队在一直深度使用 React &#xff0c;从最早的 CRA &#xff0c;到后来切换到 umijs &#xff0c;从 1.x、2.x、3.x 再到现在的 4.x&#xff0c;其中有一点不变的&#xff0c;就是我们一直在使用基于 react-redux 思想的 dva 作为状态管理工具。 在状态共享这…

(附源码)计算机毕业设计SSM跨移动平台的新闻阅读应用

&#xff08;附源码&#xff09;计算机毕业设计SSM跨移动平台的新闻阅读应用 项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目…

DM-DM DBLINK使用配置

简单介绍 DM-DM DBLINK支持3种连接方式创建&#xff0c;分别是&#xff1a;dmmal、dpi、odbc。 其中dpi、odbc属于第三方接口&#xff0c;dmmal属于原生接口。dpi类型dblink为新版本新添加支持&#xff0c;以前版本中不支持。 环境说明 &#xff08;1&#xff09;数据库版本…

2023届C/C++软件开发工程师校招面试常问知识点复盘Part 7

目录46、C类的成员变量初始化顺序及拓展47、强制转换类型操作符号48、const 成员函数–常成员函数与常量对象49、volatile关键字50、赫夫曼树51、前缀树46、C类的成员变量初始化顺序及拓展 注意&#xff1a; 1、const成员或者引用必须在成员变量初始化列表中初始化&#xff0c;…

git的基础指令操作

git的下载地址&#xff1a;https://git-scm.com/download 安装好git后 在桌面上右键即可以看到两个git的快捷方式。 需要先对git进行基本的配置&#xff0c;即需要配置用户名和用户邮箱 1. 打开Git Bash 2. 设置用户信息 git confifig --global user.name “zqy” git confi…

权限项目 1_搭建环境

硅谷通用权限系统&#xff1a;搭建环境 一、项目介绍 1、介绍 权限管理是所有后台系统都会涉及的一个重要组成部分&#xff0c;而权限管理的核心流程是相似的&#xff0c;如果每个后台单独开发一套权限管理系统&#xff0c;就是重复造轮子&#xff0c;是人力的极大浪费&…

第 1 章之:二叉树特性

声明&#xff1a;文章为博主原创&#xff0c;转载请联系博主。文章若有错误和疏漏之处&#xff0c;还望大家不吝赐教&#xff01; 第一章&#xff1a;数据结构与算法基础--------------------------- 本章重点内容为&#xff1…

基于麻雀算法二维oust图像分割算法研究附matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …