新的趋势:From Big to Small and Wide data

news/2024/5/15 1:00:57/文章来源:https://blog.csdn.net/zcypaicom/article/details/128015845

新的趋势:From Big to Small and Wide data

所以,在这个时候,作为率先提出要做 MySQL 开源 HTAP 数据库的 StoneDB,想要稍微冷静一下。

不是说我们不做 HTAP 了,而是有了一个新的思路。这个思路,也同样来自于咱们的老朋友、好伙伴,大家都巴不得上他们报告的权威机构 ——Gartner。

Gartner 在去年发布的《Gartner 2021 十大数据和分析趋势》报告里,特别提到了一个重要的趋势:。From Big to Small and Wide data

据 Gartner 预测,到 2025 年 70% 的组织会把重点从 “大” 数据转向 “小” 数据和 “宽” 数据,为分析提供更多的场景,使人工智能(AI)减少对数据量的需求(原文是 making artificial intelligence (AI) less data hungry)。

当然,这个趋势的调研结论是有背景的,那就是突如其来的新冠疫情。面对新冠,很多数据几乎是一夜式爆发式变化增长,导致了基于大量历史数据的机器学习和人工智能模型变得不那么可靠,随着智能决策变得更加复杂和严格,数据和分析领导者应选择能够更加有效利用现有数据的分析技术。

如何更加有效利用数据分析?那就是我们讲的用 “小” 而 “宽” 的数据取代 “大” 数据来解决问题。小数据 —— 顾名思义,指的是能够使用所需数据量较少,但仍能提供实用洞见的数据模型。宽数据 —— 可以理解为多模数据,即使用宽数据分析各种小而多样化的非结构化和结构化数据源并发挥它们的协同效果,从而增强情景态势感知(contextual awareness,情境感知)和决策。

下面就来详细讲解一下 Small Data 和 Wide Data 的定义。

Small data 概念

小数据的方法是指使用相对较少的数据,但仍能提供有见解的分析技术。其中包括了有针对性地使用数据要求比较低的模型,比如一些时间序列分析的技术,而不是用一刀切的方式去使用数据量要求较高的深度学习技术。

通俗地来讲,使用 AI 或者 ML 技术,往往需要大量的数据源作为分析的训练模型,但并不是数据量越多越好,特别是那些过时的历史数据,对分析毫无意义,如果可以及时地找到一些比较精准的小数据进行分析,往往能获得更有价值的效果。总之,小数据侧重于应用分析技术,在小量的、单独的数据集中寻找有用的信息。

Wide data 概念

宽数据允许分析师检查和组合各种大小、非结构化和结构化数据。具体来说,宽而广泛的数据就是将各种来源的不同数据源捆绑在一起,以进行有意义的分析。

基于宽数据的数据分析技术围绕着结构化和非结构化数据的分析和协同,而不管数据集是否直接相关。宽数据最大的特征是可以提取或识别异构数据集之间的联系。

Small and Wide data 结合的作用

Gartner 知名研究副总裁 Rita Sallam 表示:“使用‘小’而‘宽’的数据能够提供强大的分析和 AI,同时降低企业机构对大型数据集的依赖性。企业机构可以使用‘宽’数据获得更丰富、更完整的态势感知或 360 度视图,这将使企业机构能够使用分析技术做出更好的决策。”

Gartner 高级研究总监孙鑫表示:“随着企业逐渐认识到大数据作为分析和人工智能关键推动者的局限性,被称为小数据和宽数据的方法正在慢慢涌现,小数据的方法抛开了对于大型单体数据的依赖,实现了对于小型、大型、结构化、非结构化的数据源的分析和协同。”

同时,据 Gartner 预测,到 2025 年,超过 85% 的技术供应商,将在人工智能解决方案当中加入让数据变得更丰富的方法和模型训练技术,以提高模型的弹性和敏捷性,而在 2020 年,这样做的供应商只有不到 5%。 由此可见,小数据和宽数据的市场增量巨大。

Small and Wide data 核心场景

说了这么多 “小” 数据和 “宽” 数据,这两个到一块儿究竟能落地到什么应用场景上?

从一个具体的场景为例,现在电商以及社交媒体都在做一个实时推荐的业务场景,而实时推荐的标准流程是首先通过大数据系统对客户的购买历史进行分析,要关注客户购买产品的生命周期,客户与企业之间的交互历史;同时要去通过各种渠道去了解,目前客户正在什么环境,听到了什么? 正在浏览什么信息?结合各种数据进行分析,最后产生 Top10 的产品推荐,然后通过 App 或者其他手段推送给客户。

在这个过程中,需要收集的数据非常庞大,包括各种结构化数据,例如历史订单,客户个人信息等,另外客户的上网日志,网页浏览历史,客户的位置信息, 行动轨迹,这些数据的体量都非常大,而一旦涉及到千万乃至上亿的用户,同时上万种产品的场景下,这个数据量就是天文数字,而等待所有这些数据都收集完整并进行 AI 建模预测,则很可能是 1-2 天之后的事情了。

所以,为了尽可能快地对客户当前状况进行反馈,并推出相应的推荐方案,必须把数据链条缩短:首先通过在生产系统端,贴合用户的购买历史和行为,对整个场景进行约束,从海量数据分析,变成小数据量的分析,把推荐产品从几万,缩小到几十的范围,这个时候,就是从大数据到 “小” 数据的过程。然后在此基础之上,通过补足其他渠道的信息,包括图像、声音、浏览日志等等,对几十的范围进行进一步的精准化定位。这个时候,则体现了 “宽” 数据的价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_225336.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【亲测】网址引导页管理系统

介绍: 易航网址引导系统-网址引导页管理系统去授权版一款极其优雅的易航网址引导页管理系统, 如果有问题可以跟我反馈,共同进步。祝各位道友一路飞升,顶峰相见!内置12套模板和防墙插件。 项目亮点: 1、…

Redis基础命令(String类型)Value为JSON

目录 String类型(存储的值为JSON形式) 问题: 解决办法: 示例: 实际操作: 总结: String类型(存储的值为JSON形式) 问题: Redis没有类似MySql中的表的概…

2022年戈登·贝尔奖授予等离子体加速器突破研究

ACM 总裁Cherri Pancake(图片来源:网络) 11月17日,在达拉斯举行的SC22颁奖典礼上,ACM将2022年戈登贝尔奖(Gordon Bell Prize)授予了一组研究人员,他们利用四台超级计算机&#xff08…

【Flink】基本转换算子使用之fliter、flatMap,键控流转换算子和分布式转换算子

文章目录一 Flink DataStream API1 基本转换算子的使用(1)flitera 使用匿名类实现b 使用外部类函数实现b 使用flatMap实现(2)flatMapa 使用匿名类实现b 使用匿名函数实现2 键控流转换算子(1) keyBy&#xf…

中国互联网众筹行业

近些年,中国互联网发展迅速,众筹这种起源于美国的新型互联网金融模式更是一直处于风口浪尖。在“大众创业、万众创新”的背景下,这种低门槛的融资模式也深受欢迎,加上阿里、京东、苏宁三大电商的巨头的相继入场,更令这…

IMS各网元的主要功能

文章目录用户注册时: 手机发出一个注册消息到他所在的拜访地的P。 比如,他是山西太原的用户,他这时候到了北京,那么这个时候,他要注册到IMS网络里面的话,这个P-CSCF就是北京的P-CSCF,这个北京的…

CAS号:376364-38-4,rCRAMP (rat)

rCRAMP (rat) 是一种大鼠组织蛋白酶相关的抗菌肽,有助于大鼠脑肽/蛋白质提取物的抗菌活性。rCRAMP (rat) 是大鼠中枢神经系统先天免疫系统的关键参与者。rCRAMP (rat) is the rat cathelin-related antimicrobial peptide. rCRAMP (rat) contributes to the antibac…

Kotlin 开发Android app(十一):Android控件RecyclerView

Android 中的控件非常的丰富,我们会陆陆续续的进行介绍,从第九节开始,关于Kotlin 的语法特性就差不多结束,后面如果有发现需要说明的语法,再进行相关的补充。 在Android的控件中,RecyclerView算是一个大控…

从 Uber 数据泄露事件我们可以学到什么?

Uber 数据泄露始于一名黑客从暗网市场购买属于一名 Uber 员工的被盗凭证。最初尝试使用这些凭据连接到 Uber 的网络失败,因为该帐户受 MFA 保护。为了克服这一安全障碍,黑客通过 What’s App 联系了 Uber 员工,并假装是 Uber 的安全人员&…

OA系统,有效提升企业办公效率落实执行力

企业管理的成功将最终取决于企业的执行情况,只要有良好的经营管理,管理系统,一个好的领导者,充分调动员工的积极性,将能最大限度的管理执行力。 OA协同办公系统提供了工作流和协同工作互补结合。工作流程严格规定了工作…

大数据面试题(四):Yarn核心高频面试题

文章目录 Yarn核心高频面试题 一、简述Hadoop1与Hadoop2的架构异同 二、为什么会产生yarn,它解决了什么问题,有什么优势? 三、HDFS的数据压缩算法?及每种算法的应用场景? 1、gzip压缩 2、Bzip2压缩 3、Lzo压缩 …

为什么 NGINX 的 reload 不是热加载?

作者:刘维 这段时间在 Reddit 看到一个讨论,为什么 NGINX 不支持热加载?乍看之下很反常识,作为世界第一大 Web 服务器,不支持热加载?难道大家都在使用的 nginx -s reload 命令都用错了? 带着这个…

数据治理系列:数仓建模之数仓主题与主题域

背景: 数据仓库之父 Bill Inmon 将数据仓库描述为一个面向主题的、集成的、稳定的、反应历史变化的数据集合,用于支持管理者的决策过程。 从上面的引言里面,我们其实可以知道主题在数仓建设里面绝对是很重要的一环,这的确是的。…

【计算机网络】HTTP/HTTPS协议基础知识汇总

目录 1.URL: 2.HTTP协议: 2.1抓包工具(这里用fiddler): 2.2请求和响应的格式: 2.3方法的介绍: 2.4请求报头(header): 2.5状态码: 2.6响应…

antd——使用a-tree组件实现 检索+自动展开+自定义增删改查功能——技能提升

之前写后台管理系统时,遇到一个下面的需求,下面是最终完成的效果图。 实现的功能有: 1. 下拉 选择不同的类型——就是一个普通的select组件,下面并不做介绍 2. 通过关键字可以进行tree树形结构的筛选,然后将筛选后的…

Python_数据容器_元组tuple

一、元组tuple定义 为什么需要元组 列表是可以修改的,如果想要传递的信息不被篡改,列表就不适合了 元组和列表一样,都是可以封装多个不同类型的元素在内 最大的不同点在于: 元祖一旦定义完成,就不可修改 所以&am…

LabVIEW使用Desktop Execution Trace工具包

LabVIEW使用Desktop Execution Trace工具包 可以使用桌面执行跟踪工具包来调试和优化大型LabVIEW应用程序,包括具有多个循环的应用程序、客户端-服务器架构、动态加载VI等。该工具包从本地或远程计算机桌面上运行的应用程序捕获执行事件,并在表窗格中显…

聊一聊如何截获 C# 程序产生的日志

一:背景 1.讲故事 前段时间分析了一个dump,一顿操作之后,我希望用外力来阻止程序内部对某一个com组件的调用,对,就是想借助外力实现,如果用 windbg 的话,可以说非常轻松,但现实情况…

48种数据分析可视化图表

可视化对于数据分析师来说可能不是最重要的,重要的是你分析或挖掘出来的结果是否有效。在这基础之上就需要通过可视化恰当完整的表达见解。这里又有区别了:实用性和美观性哪个更重要?要我说实用性是第一位的,能用一个元素表达最好…

MySQL数据库:2、MySQL的下载与安装、基本使用、系统服务制作

一、MySQL简介 ​ MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。 二、安装与下载 1、下载流程 1、访问官方(www.mysql.com&#xf…