数据中台数据分析过程梳理

news/2024/4/19 8:23:02/文章来源:https://blog.csdn.net/aeaiesb/article/details/127101005

在当今社会中,随着企业的快速发展,相关业务系统的建设也会越来越多,新的业务模式、新的IT架构、多云环境的出现等等。而一些问题就逐渐暴露了出来:企业之间的IT无法做到互通、新模式生产数据与旧数据无法互通、企业IT架构错综复杂,底层数据互通更加困难。而这个时候,就需要一个平台来解决这些企业痛点,通过平台整合分散在各个孤岛中的数据,快速形成数据服务能力,为企业的精英提供数据支撑,而这种平台我们称之为数据中台。

我们公司的数据中台是基于公司的三款核心产品DAP、MDM和ESB组成的解决方案,主要实现基于数据治理分析的中台建设,通过MDM将企业内部的基础数据标准化、规范化、整合化后,由DAP进行数仓建设以及最终的数据分析的可视化展现,ESB通过数据集成完成整个数据中台的主数据分发和数仓的数据汇聚。 

1总体介绍 

数据中台主要帮助企业进行全链路业务、全生命周期的数据管理,基于建立在数据仓库和数据平台之上,通过数据清洗导入、数据同步/分发、数据处理、分析等技术,对企业内外部海量数据进行采集、存储、计算、加工、分析等,从而为企业的业务决策提供数据方面的参考,用数据为公司业务、营销、管理赋能。 

1.1方案介绍 

数据中台主要是打通企业的数据环节,实现全生命周期的数据管理,通过数据中台建设数据管理体系,实现各个业务系统数据的有效整合,通过基础数据治理保证底层基础数据的一致性,基于业务指标进行前端的动态展现,结合数据指标的多维度穿透,实现以不同形式、不同维度的分析展现。分析业务指标的同时也是对企业业务的梳理,发现业务中存在的问题,实现企业业务升级与转型,保证领导层能实时把控企业业务的发展,了解业务痛点,改进业务管理方式,实现业务与数据的相互支撑,从而为企业的高层决策提供数据支持。 

1.2集成架构 

数据中台在通常情况下只对数据进行消费,所以在数据分析或数据治理过程中,业务数据及相关主数据都会从其它业务系统中抽取,通过企业数据总线对业务数据及基础数据进行数据的加工或数据同步,在数据分析过程中由主数据作为标准的数据分析维度,业务数据与主数据加工汇总后作为分析模型的数据分析指标最终进行数据的展现。 

1.数据中台中每类主题需要分析的业务数据,都会有对应的来源系统作为数据源头; 

2.通过提供从库或直接获取数据表的访问权限,通过ESB进行数据抽取将需要分析的数据同步至ODS中; 

3.将统一的标准主数据(组织、人员等)进行基础数据的治理,进行主数据的建模、主数据的清洗等,将这些数据下发至下游系统中; 

4.主数据中的数据作为数据分析的维表同步至数仓中; 

5.最终维表、ODS表通过汇总、分析、计算等实现数据整合,以及最终的图形化展现。 

1.3数据架构 

数据中台进行主数据管理,在数据分析过程中通过抽取源头系统的业务数据与主数据系统中的维度数据,通过数据总线对数据进行加工汇总,通过业务系统→ODS,ODS→数据仓库,数据仓库加工汇总后对业务指标整合分析最终进行可视化展现: 

1.由业务系统提供业务数据,ESB通过数据集成、业务系统接口调用或者DAP通过读取源库等方式,将源头系统的业务数据抽取到ODS中,其中MDM主数据平台提供基础数据,业务系统提供业务数据; 

2.ODS中的基础数据、业务数据,通过ESB的聚合流程按照类别汇聚到数仓的维表或事实表中; 

3.维表与事实表中的数据根据业务主题、业务指标,再次进行加工汇总,形成数仓中的汇总事实表; 

4.DAP的分析模型根据汇总数据进行整合计算; 

5.结合分析模型整合计算的数据与DAP预置的展现组件,形成直观的图形、图表展现,最终配置成各类展现看板、报表等,完成可视化效果的最终呈现。 

2总体规划 

数据中台在进行数据分析前,首先要打通企业的基础数据管控,解决企业之间的信息孤岛,保证企业各个业务系统之间的基础数据统一。通过打通企业系统之间的信息孤岛,保障各个业务系统之间的基础数据统一,在后续进行业务数据采集时保障维度的统一,也为数据的总结分析打下重要的基础。 

2.1基础数据统一 

为什么说企业在做数据分析的过程首先就要做到基础数据统一呢?首先在主数据没有治理、业务系统没能有效集成,数仓建设、数据服务体系没有成功搭建的情况下,上大数据平台、数据湖项目要么是厂商收智商税、要么是客户缴学费。 

在上面也提到了,各个业务系统之间随着企业的迅速发展是存在信息孤岛的情况,只有做到企业的基础数据统一,保障各个业务系统之间最基础的数据统一,才能首先保障业务系统之间的对接。 

1.比如一家企业的工程建筑系统和档案系统进行集成,他们之间的共性就是对应的项目办之间是相同的,而如果没有做好基础数据统一,那么两个系统之间的项目办可能名称、编码等都不一致,集成起来非常困难,并且如果后续进行数仓建设,两个系统之间没有统一的基础信息,就会导致数仓构建非常困难,无法做到统一的分析维度。所以数据中台的基础数据建设首先就是要保障各个业务系统之间的基础数据统一。 

2.其次便是基础数据统一的第二个作用,分析维度的统一。将企业的各个业务数据采集后进行分析,首先就是要保障一个分析维度。基础数据统一就会保证业务数据在采集时他们之间的维度就会统一,而这时,将主数据中存储的基础数据作为DAP中的维度数据,大大减少了后续数仓建设对于数据的筛选和映射的工作。 

2.2业务数据采集 

前文解释了企业数据分析过程首先是进行基础数据的统一,在基础数据建设完毕后,在进行业务数据的采集。而在一个企业中,业务数据是可以划分为多个主题进行建设。针对不同分析主题采集不同的业务数据,但是在这个过程中会出现不同类型的数据情况。 

1.在业务数据采集之前,我们会进行主数据的下发,保障各个业务系统的基础数据统一,之后再采集业务系统中的业务数据,结合我们的ESB可进行多种的数据采集方式,如接口对接,定时拉取等保障数据的采集。业务数据存储到我们的数仓中后可根据之前建设好的统一的基础数据作为分析的维度。 

2.在业务数据采集时,也会存在业务系统提供的数据是他们系统已经分析好的数据,或者他们的数据相对独立,与企业的基础数据无任何关联,针对这种业务数据,首先就要与业务系统明确每条获取的数据的唯一字段或如何通过多个字段构成的唯一字段信息,将这些数据提取出来作为分析时的维度,并基于这些维度数据和业务数据进行数仓构建和后续的数据分析。 

2.3数据统计分析 

可以分析的数据一共可以分为三类。 

1.首先就是企业产生业务价值的业务数据,如工程建筑行业的公路建设情况、物料的采集费用等,将这些数据,在进行基础数据的统一后,基于基础数据作为分析的维度,将业务数据进行汇总加工,最终进行可视化的分析展现。通过聚合几个业务系统之间的数据进行结合分析,例如想要了解施工过程中产生的档案数量,档案类型,施工的哪一个阶段产生了哪些档案等; 

2.其次是将基础数据进行归纳分析,基础数据如人员、组织等,人员的主数据中包含了性别、年龄、种族等,组织包含了组织类型、来源地等,这些作为基础数据中的参考数据,可在基础数据与业务系统集成的过程中,我们获取到这些基础数据,并基于基础数据参考数据作为分析维度进行数据分析。例如人员的性别比例、年龄分布、名族等; 

3.最后是针对业务系统提供的已经计算好的业务数据,这种数据首先我们可以原封不动地进行展现,这种情况是将数据存储在我们数据中台,也可以根据时间维度、父节点的组织等,例如几家子公司都提供了相同的数据,我们可以基于组织维度比对子公司的收入情况等。通过我们数据中台对这些数据在进行汇总计算最终实现客户的需求。 

3基础数据统一 

基础数据的统一是企业构建数据中台的重中之重,那么如何构建企业基础数据的统一就要从几个方面入手:首先就是明确数据的集成方式、对接接口等;其次进行数据的对接,包括源头系统的数据同步、下游系统的数据下发;最后是将基础数据作为一个分析维度落实到数仓中。 

3.1明确范围 

其实在数据中台的建设过程中,基础数据是为了后续的数据分析服务的,在明确需要分析的业务主题、业务指标后,通过这些主题和指标梳理出业务数据中的基础数据,例如人事主题需要将组织、人员的数据进行规划统一,所有业务系统都会与客商挂钩等。 

但是在项目实施的过程中,数据中台首先要做的就是将企业的基础数据统一起来,所以针对基础数据的范围明确我放在了业务数据前来说明。 

基础数据的范围一般围绕不同的主题展开讨论,在讨论的过程中企业提出哪些不在分析时会用到的数据可作为基础数据由数据中台来管理,数据中台在管理的过程中统一了企业的基础数据信息,在后续扩展其他主题或分析指标时,这些基础数据也可作为数据分析过程中的标准维度。 

3.2制定标准 

制定基础数据的标准就是规定每类主数据的集成方式,并建立一套标准的数据字典。 

针对数据字典的制定过程如下: 

首先由我们与源头系统对接源头系统所能提供的所有数据字典、明确源头系统与我们进行数据集成时的模式:触发、推送、定时拉取等。其次源头系统的数据字典后并不会全部纳入我们的数据字典中,所以我们会将源头提供的数据字典进行整理和归纳,在整理的过程中将一些业务类的字段、无用的字段筛选出来并做出相应的标记。 

数据字典在整理时需要明确能够作为唯一校验的字段,例如组织人员的编码,客商的统一社会信用代码、银行账户等,针对前者我们需要定义相应的编码规则作为唯一值。 

在数据数据字典的过程中,针对字段属性:字段名称、字段命名、字段类型、字段长度、参考数据关联等需要进行明确。 

基础数据既然要做到统一,那么一定会有下游系统进行接收,我们将整理好的字段信息交付至需要对接的下游系统,由他们进行勾选他们所需要的字段。并在后续的沟通过程中需要明确下游系统与我们的数据集成方式。 

3.3数据集成 

集成之前首先要与源头系统明确数据的集成方式: 

1.由源头系统提供数据的视图,由数据中台定时拉取,但是这种方式需要明确视图的时间戳字段以及视图的调用频率。 

2.由源头系统提供数据查询接口,并由数据中台进行定时的调用,这种方式也需要提供时间戳的入参以及调用频率。 

3.由源头系统调用数据中台的同步接口,将变更数据同步至数据中台中。这种方式保证了数据的及时性。 

数据中台提供标准的数据分发接口,下游系统可根据标准接口规范进行流程开发,保证数据的接收,在数据处理完毕后业务系统需要调用回写日志接口将本次的分发情况反馈至数据中台。 

如果下游系统无法扩展代码,但是依旧想要对接数据中台的话,经客户同意后,数据中台的ESB可进行分发代理。由下游系统提供数据下发的方式,本次分发的数据可通过ESB进行分发处理。 

4业务数据采集 

在进行业务数据的采集时,不同业务系统提供的业务数据方式是不同的,在进行数据采集前需要明确数据的采集方式,其次采集的数据分为了业务系统日常运行过程中产生的业务数据、一些企业已经分析好的指标数据。 

4.1明确指标 

业务数据在采集之前,需要去了解企业的业务情况,了解企业的工作内容,工作范围,对企业进行业务梳理,在梳理过程中针对不同种的业务情况划分不同的主题,例如人员信息、每日考勤的人事主题,旅游景区的门票销售,客流情况的旅游主题,财务营收的财务主题等等。 

将主题划分明确后针对不同主题有针对性、有目的性地与客户沟通每类主题下所涵盖的指标、这些指标都来自于哪些业务系统等。在指标的沟通明确过程中在逐步了解指标的采集方式、计算方式等。 

4.2采集方式 

业务数据的采集方式通常分为了三种: 

1.由源头系统提供视图或从库的查询权限,由数据中台定时进行拉取; 

2.由业务系统提供数据接口,数据中台定时进行接口的拉取,通过数据映射录入到数据中台中; 

3.数据中台提供接收接口,由源头系统定时进行推送。 

4.3计算聚合 

一般情况下在采集业务数据时,为了明确数据确权的情况,在第一步我们不会对数据进行任何的加工处理直接将数据录入进数据中台。之后数据中台会根据实际的数仓构建以及数据分析的需求将业务数据进行表字段的筛选,然后进行数据的聚合汇总。在数据汇总的过程中,数据中台可将构建好的业务数据作为分析维度纳入到数仓中,并为后续的数据分析做维度支撑。 

但是也存在采集的数据与主数据无任何关系并且提供的数据全部是结果类的指标数据。一般这种情况都是通过接口进行数据的提供,通过业务系统提供的接口出参以及我们的请求参数确定接收表的表字段和唯一值。通过ESB定时调用数据接口并进行相应的字段映射最终写入到数据中台。针对这种数据我们一般直接落实,或通过时间、其他基础数据等维度进行更加细粒度的计算聚合。 

5数据统计分析 

数据中台建设首先需要分析主题、指标,通过了解企业的业务情况,建立相应的业务主题,根据不同业务主题与企业的日常运行所产生的数据去梳理需要分析的指标,通过指标确认要建设哪些主数据、采集哪些业务数据,再确认数据源头、采集方式,而在整个过程中分析是数据中台建设的开始,也是最重要的一步工作。 

5.1基础数据分析 

基础数据也可以进行相应的分析,在基础数据构建的过程中会有部分字段作为枚举类数据,也就是基础数据中的基础数据,如人员主数据中性别分为了男和女,那么男和女就可以作为一个分析的维度进行分析,展示出企业的男女比例,或者将入职时间作为分析维度,将企业每个月的入职人数进行展现。 

5.2业务数据分析 

业务数据就是将企业各个业务系统所产生业务价值的数据整合至数据中台,数据中台在建设基础数据后,通过采集各个业务系统之间的业务数据,可以将这些基础数据作为几个系统之间业务数据的关联关系。在数仓构建的过程中将业务数据与基础数据相互结合进行数据分析。 

5.3指标数据分析 

如果源头系统直接提供计算好的指标,一般他们都会提供相应的数据接口,我们可以在接口的调用过程中梳理出接口的唯一值,与源头系统沟通获取对应的基础数据并对基础数据进行整合,在后续进行数据分析的过程中,通过整理的基础数据作为分析的维度。 

6总结归纳 

数据中台的构建离不开企业的大力支持、离不开其他业务系统的积极配合,只有领导都认可数据中台,明白中台的价值,才能为后续中台的实施打下坚实的基础。 

6.1方案模式 

数据中台方案中最重要的功能就是数仓建设,所以无论是在与客户进行蓝图方案的确认或后续项目的实施都是需要围绕数仓建设为主去进行。并且我们数据中台可能对于我们公司自己来说是DAP+MDM+ESB的三款产品解决方案,但是对于客户来说这个解决方案其实就是一个产品,上述的三个部分不过是这款产品的三个模块。 

6.2数据处理 

数据中台的重点不仅是进行管理,还要创建对应的标准,而数据中台中的数据都是从企业中抽取的,无论数据清洗、基础数据和业务数据的管理都是离不开集成的,我们数据中台作为一个中间系统,需要做到打通上游系统数据,并将获取的数据提供至其他业务系统。数据中台对于这些数据只是进行数据的落地存储和数据管理分析,可以说数据管理与数据集成是密不可分的。 

6.3市场价值 

对于现如今的大多数企业,都堆积了大量的历史数据,这些历史数据存在极大的挖掘价值,通过对这些数据进行加工、汇总、分析、展现等步骤可以使企业的管理决策者不必依靠他们的直觉做出判断,一切以展现出来的数据为准,数据中台可以很好的实现此类需求。 

数据中台的建设是一个持续的、动态的过程,数据中台面向的也不仅仅是领导层和决策层,真正能将数据中台运用起来是需要靠项目团队与企业之间相互配合,做到所有用户都能用、都会用、都想用。只有了解到每个用户对数据中台的需求痛点,有针对性的去解决这些问题,让客户认可数据中台的价值,才能真正帮助企业实现数字化转型。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_206655.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CH376的串口模式操作U盘(读、写、txt文件、csv文件)

文中介绍的可能有一些繁琐,因为也是想解释的更清楚一些,但是小弟希望大家能认真看完。 市面上关于ch376串口的知识介绍不多,可以说基本没有,博主当时也废了一些力气,在此希望给大家一些帮助,认真看完绝对会…

【QT项目】简易五子棋游戏(人机对战)— 完整源码

文章目录前言一、游戏实现效果二、需求分析三、解决方案四、核心步骤1.插入棋盘图2.双方落子3.输赢判定4.重新开始五、完整源码1.main.cpp2.chessboard.h3.chessboard.cpp总结前言 本篇,我们将使用QT实现一个人机对战的简易五子棋游戏,适合QT零基础和初学…

直线生成以及pcl直线拟合

目录写在前面codecompile&runresult参考写在前面 1、本文内容 pcl直线拟合,生成带噪声的直线并进行直线拟合的demo 2、平台 windows, pcl1.10.0 3、转载请注明出处: https://blog.csdn.net/qq_41102371/article/details/127147223 code line_seg…

国庆节日头像框小程序源码带流量主广告

国庆头像小程序最新可用源码,自己把图片链接换下,直接使用小程序开发工具修改即可!,需要添加合法域名,教程我都放文档里了,类目选择信息查询。 需要源码的找我!

(附源码)计算机毕业设计SSM本科培训班学员信息管理系统

毕设帮助,指导,本源码分享,调试部署(见文末) 3.3 系统功能分析 本科培训班学员信息管理系统主要包括两大功能模块,即管理员功能模块和学员模块。 (1)管理员模块:系统中的核心用户是系统管理员&a…

postgresql源码学习(44)—— 守护进程Postmaster与服务进程Postgres

一、 Postmaster与Postgres进程的关系 pg使用的是多进程架构,众多进程之中,最为重要的就是在前一节main函数中出现的Postmaster与Postgres进程。 守护进程Postmaster:负责PG的启动和关闭;监听和接收客户端连接请求,为…

宋宇-课堂对话领域研究热点与 前沿趋势探究

好家伙。。。 看这种论文容易自闭,,,怎么能写这么好呢。。。 下次看看博士的论文吧还是。。 定义 课堂对话( classroom dialogue /discourse) 是师生间或者生生间围绕教育教 学目标的实现所形成的良性的交流活动。[1&#xff3d…

大一作业HTML电影网页作业(HTML+CSS)

🌩️ 精彩专栏推荐👇🏻👇🏻👇🏻 💂 作者主页: 【进入主页—🚀获取更多源码】 🎓 web前端期末大作业: 【📚HTML5网页期末作业 (1000套…

[leetcode]450.删除二叉树搜索树的节点

一.题目描述 给定一个二叉搜索树的根节点 root 和一个值 key,删除二叉搜索树中的 key 对应的节点,并保证二叉搜索树的性质不变。返回二叉搜索树(有可能被更新)的根节点的引用。 一般来说,删除节点可分为两个步骤&…

ES6--》读懂JS中—Class类

目录 Class类 初识class class中getter和setter设置 表达式方式书写 静态属性与静态方法 私有属性和私有方法 class继承 静态属性和方法继承 私有属性和方法继承 class显示原型与隐式原型关系 Class类 ES6提供了更接近传统语言的写法,引入了Class(类)这个…

脚本学习:1

今天所学的就俩个案例。 1.用脚本实现,鼠标移动到我的淘宝显示菜单&#xff0c;移除菜单隐藏 基本思路通过display来控制 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>脚本示例</title>&l…

03 NLP-神经网络基础常识复习3-梯度的推导和反向传播的实现

计算图的介绍结束了&#xff0c;下面我们来实现一些实用的层。这里&#xff0c;我们将实现Sigmoid层、全连接层,Affine层和Softmax with Loss层。 1.Sigmoid层 sigmoid函数由 表示&#xff0c; sigmoid函数的导数由下式表示 Sigmoid层的计算图可以绘制成如下图。这里&#x…

PWM实验(控制蜂鸣器,风扇,马达)

cortex-A7核实现PWM对蜂鸣器&#xff0c;风扇&#xff0c;马达的控制 1.PWM概念 PWM为一种对模拟信号电平进行数字编码的方法&#xff0c;通过高分辨率计数器的使用&#xff0c;方波的占空比被调制用来对一个具体模拟信号的电平进行编码。 A7核的芯片有控制PWM的脉冲宽度调制定…

【设计模式】-创建型模式-第2章第4讲-【原型模式】

目录 1、原型模式&#xff08;Prototype Pattern&#xff09;概念 2、浅拷贝与深拷贝 2.1、概念 2.2、Java 中的深浅拷贝 浅拷贝&#xff1a; 深拷贝&#xff1a; 实例 浅拷贝 深拷贝的两种实现方式 方式一 方式二 3、原型模式的优缺点 4、 结尾 1、原型模式&#…

带你一步步分析webpack是如何执行打包产物的

引入关系如图所示&#xff1a; 圈出来文件d是异步导入的文件。 wepback版本如图所示&#xff1a; 执行打包命令&#xff0c;产物如下图&#xff1a; 会生成两个js文件&#xff0c;一个是入口文件打包的testxx.js&#xff0c;还有一个是异步文件d生成的src_d_js.js。 打包后的…

CSS学习298~355(品优购+Web服务器)

1 品优购项目规划 1.1 网站制作流程 我们主要做前台页面设计 1.2 品优购项目整体介绍 项目名称: 品优购项目描述:品优购是一个电商网站,我们要完成PC端首页、列表页、注册页面的制作 1.3 品优购项目的学习目的 电商类网站比较综合,里面需要大量的布局技术,包括布局方式、…

数据结构-复杂度(深入学习版+Java版)

文章目录一、复杂度经典例子分析1、计算时间复杂度分析题1&#xff1a;O(NM)&#xff0c;循环题2&#xff1a;O(N^2)&#xff0c;冒泡排序题3&#xff1a;O(logN)&#xff0c;二分查找题4&#xff1a;O(N)&#xff0c;阶乘递归题5&#xff1a;O(2^N)&#xff0c;斐波那契递归(满…

ffmpeg、ffplay、ffprobe 常用命令详解(音视频必备)

前言&#xff1a; &#x1f604;作者简介&#xff1a;小曾同学.com,小伙伴们也可以叫我小曾&#xff0c;一个致力于测试开发的博主⛽️ 如果文章知识点有错误的地方&#xff0c;还请大家指正&#xff0c;让我们一起学习&#xff0c;一起进步。&#x1f60a; 座右铭&#xff1a;…

回溯算法 - 二叉树中和为某一值的路径 字符串的排列

目录 1.二叉树中和为某一值的路径 1.1 题目描述 1.2 回溯算法的一般步骤 1.3 解题思路 1.4 代码实现 2. 字符串的排列 2.1 题目描述 2.2 解题思路 2.3 代码实现 1.二叉树中和为某一值的路径 1.1 题目描述 输入一颗二叉树的根节点root和一个整数expectNumber&#xff…

华为模拟器ensp学习笔记

CSDN话题挑战赛第2期 参赛话题&#xff1a;学习笔记 目录前言1️⃣如何注册eNSP设备?2️⃣如何通过SecureCRT登录eNSP模拟设备&#xff1f;结语前言 记录华为模拟器使用中遇到的问题 1️⃣如何注册eNSP设备? 如何注册eNSP设备 重新注册AR、WLAN设备&#xff1a; 启动AR时&…