如何成为一名数据工程师:完整的路线图

news/2024/4/29 17:23:12/文章来源:https://www.cnblogs.com/amboke/p/16656707.html

如何成为一名数据工程师:完整的路线图

关于如何学习数据工程的完整路线图。

Photo by 这是工程RAEng on 不飞溅

什么是数据工程?

数据工程是设计和构建用于大规模收集、存储和分析数据的系统的实践。组织可以收集大量数据,但为了确保数据在到达数据科学家和分析师时处于高度可用的状态,他们需要合适的人员和合适的技术,数据工程师在这里采取行动。这些是您在处理数据时可能执行的一些常见任务

  1. 获取符合业务需求的数据集
  2. 开发算法以将数据转换为有用的、可操作的信息
  3. 构建、测试和维护数据库管道架构
  4. 与管理层合作以了解公司目标
  5. 创建新的数据验证方法和数据分析工具
  6. 确保遵守数据治理和安全策略

必须学习的大量工具和主题不应让初学者感到负担过重。有各种学习阶段,因此作为新手,您应该只专注于掌握要领。随着时间和经验的积累,您会感到轻松自在,并准备好进入高级主题。

基础知识

  1. **数据库概念:
    ** 关系数据库、约束、键、触发器、规范化
    课程推荐: 关系数据库设计
  2. **Python 编程
    ** 基本语法、处理文件、连接到数据库、构建基本 API、处理结构化(数据库和表)和非结构化(XML、JSON 等)数据。
    课程推荐:
    一个。 Youtube 上的 Python 课程
    湾。 2022 年完成 Python 训练营,从零到 Python 中的英雄
  3. **SQL
    ** 基本数据提取、连接表、键、约束、窗口函数、聚合函数等。
    课程推荐:
    一个。 Youtube 上的 SQL 课程
    湾。 完整的 SQL 训练营 2022:从零到英雄
  4. **数据仓库和数据建模
    ** 基本数据仓库概念、数据仓库数据建模、星雪花模式、事实和维度表等。
    课程推荐:
    一个。 Youtube 上的数据仓库课程
    湾。 数据仓库——终极指南
  5. **云基础知识
    ** 云中的弹性、可扩展性、存储和计算、云中的数据堆栈。
    课程推荐:
    一个。 Youtube 上的云基础课程
    湾。 终极 AWS 认证解决方案架构师助理 2022
  6. **Hadoop 生态系统和 Spark
    ** Hadoop、MapReduce、为什么要引入 spark、Spark 基础知识。
    课程推荐:
    一个。 Youtube 上的 PySpark 课程
    湾。 Youtube 上的 Hadoop 课程
    C。 使用 Apache Spark 和 Python 驯服大数据——动手吧!

高级主题

  1. **工作流管理和调度程序
    ** 这是现代数据堆栈中非常重要的组件。在 AirFlow(最受欢迎和市场领导者)或其他任何东西(Luigi,Prefect)之间进行选择
    课程推荐:
    一个。 Youtube 上的气流课程
    湾。 Apache Airflow 的完整实践介绍
  2. **数据流
    ** 数据流通过数以千计的数据源近乎实时地将数据连续发送到目的地
    课程推荐:
    一个。 Youtube 上的 Apache Kafka 课程
    湾。 Apache Kafka 系列 — 为初学者学习 Apache Kafka v3
  3. **云数据仓库
    ** 红移、雪花、BigQuery
    课程推荐:
    一个。 Youtube 上的 AWS Redshift 课程
    湾。 终极 AWS 认证解决方案架构师助理 SAA-C03
    C。 雪花——完整的大师班(2022 年版)
  4. **数据湖
    ** 课程推荐:
    一个。 Youtube 上的 Azure 数据湖课程
    湾。 Youtube 上的 AWS 数据湖课程
    C。 在 AWS 和 Azure 上使用 Databricks 进行数据工程

好有

  1. **仪表板工具
    ** Power BI、Tableau 或 Looker
    课程推荐:
    一个。 Youtube 上的 Power BI 课程
    湾。 适用于商业智能的 Microsoft Power BI Desktop
    C。 Youtube 上的 Tableau 课程
    d。 Tableau 2022 AZ:数据科学实践 Tableau 培训
    e. Youtube 上的 Looker 课程
    F。 Looker 和 LookML——初学者的完整课程
  2. **码头工人
    ** Docker 有助于避免与基础设施相关的复杂性。这有助于独立且轻松地设置数据环境。
    课程推荐:
    一个。 Youtube 上的 Docker 课程
    湾。 Docker & Kubernetes:实用指南【2022版】

结论

对于我们作为数据工程师的日常工作来说,这些能力中的每一个可能都不是必需的。然而,根据功能,您可能经常需要其中的一项或多项。
掌握其中的大部分内容需要一些时间。每天都在学习新事物。复合学习将保证您随着时间的推移而提高。没有捷径可走,因此不要相信那些说您可以在几周或几个月内成为数据工程师的人。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/14412/34590501

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_5573.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql备份还原

一、环境配置 操作系统版本:Rocky Linux release 8.6 (Green Obsidian) 系统内核:Linux mysql 4.18.0-372.9.1.el8.x86_64 #1 SMP Tue May 10 14:48:47 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux mysql版本:mysql-server-8.0.26-1.module+el8.4.0+652+6de068a7.x86_64 二、安…

大模型系统和应用——Transformer预训练语言模型

引言 最近在公众号中了解到了刘知远团队退出的视频课程《大模型交叉研讨课》,看了目录觉得不错,因此拜读一下。 观看地址: https://www.bilibili.com/video/BV1UG411p7zv 目录: 自然语言处理&大模型基础神经网络基础Transf…

实现一个简单的 ctrl+ f 搜索

前言 浏览器可以通过ctrl f 来实现,这个功能真的很不错,但是如何实现类似的功能呢?想了很久,感觉可以基于文本选中来实现 复制时的效果是这样的 搜索时的效果 是不是除了颜色不一样,其他都一样呢 文本选中样式设…

F1C100S rt-smart 内核移植(二)

前言 本篇的内容进入了rt-smart内核的C语言世界,因此会同时涉及到较多的.c文件,需要读者对rt-smart内核有基本的认识,至少需要大致了解内核的文件结构。 在上一章节中,我们从启动汇编start_gcc.S进入了内核入口rtthread_startup,该内核入口函数位于./kernel/src/component…

linux 增加swap分区容量 --文件方式

背景:用笔记本做openstack测试时,由于需要同时开启多台虚拟机且每台内存要求8G以上,笔记本硬件已无法满足,故通过增加swap的方式处理操作 一、查看扩容前swap分区容量free -h 二、扩容 由于原来系统有3.9G,所以增加4.1G即可 1、创建swap扩容文件cd /tmp dd if=/dev/zero o…

【web-渗透测试方法】(15.6)测试基于输入的漏洞

目录 一、测试基于输入的漏洞 1.1、模糊测试所有清求参数 1.2、测试SQL注入 1.3、测试XSS和其他响应注入 确定反射型请求参数 测试反射型XSS 测试HTTP消息头注入 测试任意重定向 测试存储型攻击 1.4、测试OS命令注入 1.5、测试路径遍历 1.6、测试脚本注入 1.7、测…

windows系统 python3.6(Anaconda3)安装对应版本 torch、torchvision

一、官网下载 .whl 文件 https://download.pytorch.org/whl/torch_stable.html二、使用pip命令安装 打开你的anaconda,选择对应虚拟环境终端,进入刚才下载 .whl 文件的目录下,输入以下命令: install 后面的就是你的文件名,出现successful就是成功了。 pip install torch-1…

VUE3实战一之项目搭建

VUE3实战一之项目搭建1. 项目初始化1.1. 环境要求1.2. 创建VUE项目-基于vite1.3. 项目初始化2. 项目配置2.1. 基本配置修改iconTitle配置jsconfig.json2.2. 项目目录结构划分删除自带的项目按照常用的目录划分2.3. css样式重置reset.csscommon.cssindex.css3. 路由配置3.1. rou…

Pycharm生成allure报告报错--allure不是内部或外部命令,也不是可运行的程序 或批处理文件

问题: allure报错:‘allure’ 不是内部或外部命令,也不是可运行的程序 或批处理文件截图: 解决方法: 1.安装JDK(版本1.8+),配置环境变量 此处不展示过程,成功的后进入cmd java-version验证 2.下载Allure 下载网址: https://repo.maven.apache.org/mav…

20201330马榕辰第一,二章学习笔记

第一章:一.知识点归纳: 第一章前半部分重在介绍课程和书本的基本情况,包括Unix / Linux的历史,其各种发行版,我了解到了一些基本情况。 后半部分主要是 Linux的使用,Linux的启动过程,Unix/Linux文件系统组织、文件类型和常用的Unix/Linux命令,Linux系统的一些系统管理…

20201306吴龙灿学习笔记

一、知识点归纳: 第一章:引言 主要内容: 第一章是本书的引子,因为本书意在让我们学会Unix以及Linux相关只是,在高级语言的基础上进一步学习创造编程平台的基本语言,让我们学会硬件设备怎么样跟我们所熟知的软件设备取得联系。第一章讲述了我们如何利用本书学好系统编程,…

第二章 操作系统基本原理(操作系统知识)

一:操作系统概述 二:进程管理 PV操作与信号量的处理相关,P表示通过的意思,V表示释放的意思。 三:存储管理四:文件管理五:作业管理六:设备管理

opencv入门四

目录鼠标操作与响应图像像素归一化类型转换图像放缩插值鼠标操作与响应 static void on_draw(int event, int x, int y, int flags, void* userobj) {Mat image *(Mat*)userobj;if (event EVENT_LBUTTONDOWN) {//鼠标点击时 sp.x x;sp.y y;std::cout << "star…

预科知识1-MarkDown语法

MarkDown语法的基本操作markdown 标题 方法:#(几个)+空格+内容 三级标题 四级标题 字体 方法:加粗(2个星号 内容 2个星号) 斜体(1个星号 内容 1个星号) 加粗斜体(3个星号 内容 3个星号) 删除线(2个波浪 内容 2个波浪) hello world hello world …

在线教育项目【前端路由和Ajax实现分析与后端连接分析】

目录 1&#xff0c;前端路由实现分析 1.1&#xff1a;入口文件中调用路由 1.2&#xff1a;定义路由模块 1.3&#xff1a;编写路由模块文件 1.3.1&#xff1a;配置一个或者多个子路由 1.3.2&#xff1a;编写教师路由对应的文件 2&#xff0c;后端接口分析&#xff08;与后…

查询数字的最邻近

这道题目要用二分+桶排的方式解决 函数: l~r找v c:靠左/右(‘l’/‘r’) 靠左和靠右用STL函数二分就行,这里讲一下思路,二分出最靠左/右的v值(but二维,在but[v][0~len]区间二分)再判断是否在区间内在区间内输出but[v][a](a为二分的答案)否则输出-1。 最后再考虑一下需要…

注解Annotation

注解是一种引用数据类型,重点掌握Deprecated(表示已过时),Override(表示重写)。 元注解是用来标注注解类型的注解如Target(用来标注注解可以出现在哪些位置)、Retention(用来标注最终保存到哪里)。 package com.javastudy.example13;import java.lang.annotation.Ann…

计算机毕业设计php+vue基于微信小程序的员工宿舍报修系统

项目介绍 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#xff0c;各行各业相继进入信息管理时…

神奇的卡尔曼滤波,目标追踪的福音

前言 卡尔曼滤波算法由匈牙利数学家Kalman提出&#xff0c;主要基于线性系统提出。这里我们将其用于汽车跟踪&#xff0c;并对其基本原理进行介绍。 神奇的卡尔曼滤波&#xff0c;目标追踪的福音 1. 背景知识 1.1 时间序列模型 1.2. 滤波 1.3. 线性动态系统 2. 卡尔曼滤波…

python生成PDF报告

如何使用Python制作pdf文档&#xff1f; PDF报告生成软件开发&#xff08;学习记录&#xff09; Python生成图文并茂的PDF报告 官方用户手册 字体下载注册问题 在windows找到字体文件&#xff1a;C:\Windows\Fonts 在你的python环境引入字体 D:\devementtool\Anaconda3-202…