大数据开发 hadoop集群1. 概论

news/2024/7/27 8:55:19/文章来源:https://blog.csdn.net/m0_73983707/article/details/136485208

我不惧怕风暴,

因为我在学习如何驾驶风帆

                    ——《小妇人》

                        —— 24.3.10

一、大数据的概念

大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化信息资产

大数据主要解决,海量数据的采集、存储和分析计算问题

按顺序给出数据存储单位:bit、Byte、 KB、MB、GB、TB、PB、EB、ZB、YB、 BB、NB、DB。
1Byte =8bit 1K=1024Byte 1MB=1024K
1G=1024M 1T=1024G    lP=1024T

二、大数据的特点

1.Voiume(大量)

截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据率大约是5EB,当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB(1EB=1024TB)量级

2.Velocity(高速)

这是大数据区分于传统数据特征的最显著特征,根据IDC的“数字宇宙”的报告,预计到2025年,全球数据使用量将达到163ZB,在如此海量的数据面前,处理数据的效率就是企业的生命

3.Variety(多样)

这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

4.Value(低价值密度)

价值密度的高低与数据总量的大小成反比

快速对有价值数据“提纯”成为目前大数据背景下待解决的难题

三、大数据应用场景

抖音:推荐喜欢的视频

电商站内广告推荐:给用户推荐可能喜欢的商品

零售:分析用户消费习惯,位用户购买商品提供方便,从而提升商品销量,经典案例:纸尿布+啤酒

物流仓储:京东物流,上午下单下午送达,下午下单次日上午送达

保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。

金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。

房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼卖给更合适的人。

人工智能 + 5G + 物联网 + 虚拟与现实

四、大数据发展前景

1.党的十九大推出“推动互联网、大数据、人工智能和实体经济深度融合”

2.2020年初,中央推出34万亿“新基建”投资计划

3.下一个风口:5G时代发展

2020年是5G的元年,国家在大力铺设5G设备,2021年就是5G手机应用的开始,也是大数据要爆发的1年。5G带来的是每秒钟10g的数据,会给每家公司都带来海量的数据。那么传统的Java工具根本解决不了海量数据的存储。就更不用说海量数据的计算了。如果你对5G的感触不够深,可以回忆一下3G和4G的区别,3G时只能打电话、发短信,当时还觉得很好,觉得3G不错。但是4G来了后,不家很少打电话和发短信了,都改为语音、视频、带直播、网上购物等生活方式,带火了淘宝、京东、美团、字节跳动等企业。没有跟上节奏的百度,有点摇摇欲坠

4.人才紧缺、竞争压力小

五、大数据部门内组织结构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1006450.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[JAVAEE]—进程和多线程的认识

文章目录 什么是线程什么是进程进程的组成什么是pcb 进程概括线程线程与进程的关系线程的特点 创建线程创建线程方法创建线程的第二种方法对比 其他的方式匿名内部类创建线程匿名内部类创建Runable的子类lambda表达式创建一个线程 多线程的优势 什么是线程 什么是进程 首先想…

Mysql锁与MVCC

文章目录 Mysql锁的类型锁使用MVCC快照读和当前读读视图【Read View】串行化的解决 exlpain字段解析ACID的原理日志引擎整合SpringBoot博客记录 Mysql锁的类型 MySQL中有哪些锁: 乐观锁(Optimistic Locking):假设并发操作时不会发…

【PyTorch】进阶学习:BCEWithLogitsLoss在多标签分类任务中的正确使用---logits与标签形状指南

【PyTorch】进阶学习:BCEWithLogitsLoss在多标签分类任务中的正确使用—logits与标签形状指南 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTo…

(黑马出品_高级篇_03)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

(黑马出品_高级篇_03)SpringCloudRabbitMQDockerRedis搜索分布式 微服务技术——多级缓存 今日目标1.什么是多级缓存2.JVM进程缓存2.1.导入案例2.1.1.安装MySQL2.1.1.1.准备目录2.1.1.2.运行命令2.1.1.3.修改配置 2.1.1.4.…

Redis-自动过期

1 EXPIRE、PEXPIRE:设置生存时间 用户可以通过执行EXPIRE命令或者PEXPIRE命令为键设置一个生存时间(Time To Live, TTL):键的生存时间在设置之后就会随着时间的流逝而不断地减少,当一个键的生存时间被消耗殆尽时&#…

新IDEA电脑环境设置

1.设置UTF-8 2.Maven 3.JRE选对

Java EE之wait和notify

一.多线程的执行顺序 由于多个线程执行是抢占式执行,就会导致顺序不同,同时就会导致出现问题,就比如俩个线程同时对同一个变量进行修改,我们难以预知执行顺序。 但在实际开发中,我们希望代码按一定的逻辑顺序执行&am…

Vite为什么比Webpack快

本文作者为 360 奇舞团前端开发工程师 一.引言 Vite和Webpack作为两个主流的前端构建工具,在近年来备受关注。它们的出现使得前端开发变得更加高效和便捷。然而,随着前端项目规模的不断增大和复杂度的提升,构建工具的性能优化也成为了开发者关…

四川宏博蓬达法律咨询有限公司:法律服务的行业翘楚

在当今社会,法律服务已经成为人们生活中不可或缺的一部分。随着法律意识的提高,选择一家专业、可靠的法律咨询公司显得尤为重要。四川宏博蓬达法律咨询有限公司,作为业内的佼佼者,以其卓越的服务质量和广泛的业务范围,…

基于遗传算法GA的机器人栅格地图最短路径规划,可以自定义地图及起始点(提供MATLAB代码)

一、原理介绍 遗传算法是一种基于生物进化原理的优化算法,常用于求解复杂问题。在机器人栅格地图最短路径规划中,遗传算法可以用来寻找最优路径。 遗传算法的求解过程包括以下几个步骤: 1. 初始化种群:随机生成一组初始解&…

STM32 利用FlashDB库实现在线扇区数据管理不丢失

STM32 利用FlashDB库实现在线扇区数据管理不丢失 📍FalshDB地址:https://gitee.com/Armink/FlashDB ✨STM32没有片内EEPROM这样的存储区,虽然有备份寄存器,仅可以实现对少量数据的频繁存储,但是依赖备份电源(BAT引脚&a…

vs2022的下载及安装教程(Visual Studio 2022)

vs简介 Visual Studio在团队项目开发中使用非常多且功能强大,支持开发人员编写跨平台的应用程序;Microsoft Visual C 2022正式版(VC2022运行库),具有程序框架自动生成,灵活方便的类管理,强大的代码编写等功能,可提供编…

RabbitMQ - 06 - Topic交换机

目录 控制台创建队列与交换机 编写消费者方法 编写生产者测试方法 结果 Topic交换机与Direct交换机基本一致 可参考 这篇帖子 http://t.csdnimg.cn/AuvoK topic交换机与Direct交换机的区别是 Topic交换机接收的消息RoutingKey必须是多个单词,以 . 分割 Topic交…

前端 - 笔记 - JavaScript - WebAPI【DOM + 事件类型 + Date+ 节点操作 + window + 本地存储 + 正则表达式】

前言 Web API:是一套操作 网页内容(DOM) 与 浏览器窗口(BOM) 的 对象; API:就是一些预定义好的方法,这些方法可以实现特定的功能,开发人员可以直接使用;Web …

2.案例、鼠标时间类型、事件对象参数

案例 注册事件 <!-- //disabled默认情况用户不能点击 --><input type"button" value"我已阅读用户协议(5)" disabled><script>// 分析&#xff1a;// 1.修改标签中的文字内容// 2.定时器// 3.修改标签的disabled属性// 4.清除定时器// …

ElasticSearch 学习(docker,传统方式安装、安装遇到的问题解决,)

目录 简介 什么是ElasticSearch 安装 传统方式安装 开启远程访问 Docker方式安装 Kibana 简介 安装 传统方式安装 Docker方式安装 compose方式安装 简介 什么是ElasticSearch ElasticSearch 简称 ES &#xff0c;是基于Apache Lucene构建的开源搜索引擎&#xff0c…

Parade Series - WebRTC ( < 300 ms Low Latency ) T.B.D

Parade Series - FFMPEG (Stable X64) 延时测试秒表计时器 ini/config.ini [system] homeserver storestore\nvr.db versionV20240312001 verbosefalse [monitor] listrtsp00,rtsp01,rtsp02 timeout30000 [rtsp00] typelocal deviceSurface Camera Front schemartsp ip127…

图像处理与图像分析—图像统计特性的计算(纯C语言实现灰度值显示)

根据输入的灰度图像&#xff0c;分别计算图像的均值、方差等统计特征&#xff0c;并计算图像的直方图特征并以图形方式显示图像的直方图&#xff08;用C或C语言实现&#xff09;。 学习将会依据教材图像处理与图像分析基础&#xff08;C/C&#xff09;版内容展开 在上个笔记中&…

HTTP/2的三大改进:头部压缩、多路复用和服务器推送

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

Midjourney绘图欣赏系列【人物篇】(一)

Midjourney介绍 Midjourney 是生成式人工智能的一个很好的例子&#xff0c;它根据文本提示创建图像。它与 Dall-E 和 Stable Diffusion 一起成为最流行的 AI 艺术创作工具之一。与竞争对手不同&#xff0c;Midjourney 是自筹资金且闭源的&#xff0c;因此确切了解其幕后内容尚不…