Power BI 数据处理介绍(数据初始调整、合并列及查看数据结构)

news/2024/4/25 14:18:41/文章来源:https://blog.csdn.net/WHYbeHERE/article/details/129075550

本系列的文章:

  • 安装流程和示例介绍:

    • 《Power BI windows下载安装流程)》
    • 《Power BI 11个必学官方示例数据案例(附下载链接)》
  • 数据导入阶段介绍:

    • 《Power BI 数据导入(SQL Server、MySQL、网页数据)》
    • 《Power BI 存储模式介绍(导入、DirectQuery、双))》
    • 《Power BI 常见数据导入错误(查询超时、找不到文件、数据类型错误、找不到表格)》

目录

  • 前言
  • Power Query
    • 打开Power Query
    • Power Query 编辑器
  • 一、初始数据调整
    • 1. 转换
      • 1)“将第一行用作标题”
      • 2) 替换值
      • 3. 数据类型转换
    • 2. 管理列
      • 1)选择所需的列(选择列)
      • 2)查找列(转到列)
  • 二、合并列
    • 1)快速合并列
    • 2)自定义格式合并列(添加列)
  • 三、查看数据结构

前言

从这篇文章起,将开始介绍Power BI数据清洗阶段的功能。本文总结了常用的基础数据调整技巧,包括初始的数据调整转换、合并及查看数据分布。

Power Query

Power BI的数据处理都是在Power Query 编辑器里面完成的。

打开Power Query

进入Power Query有两种途径:

  • 第一种是在导入数据时,通过导航器里的“转换数据”进入。 (此时如果点击”加载“就会直接加载数据,不进入Power Query)
    在这里插入图片描述

  • 第二种是直接点击主页的“转换数据”进入
    在这里插入图片描述

Power Query 编辑器

  • 自动记录调整步骤:(见下图中右下角)在 Power Query 编辑器中工作时,数据调整的所有步骤都会被记录下来。 随后,每次查询连接到数据源时,它会自动根据记录的步骤调整,相当于数据清洗调整的自动化程序。在这里插入图片描述

一、初始数据调整

基础的数据调整功能键都在“主页”页签下,包括列管理、行管理、转换(数据类型、替换值等)、排序、组合:合并查询、追加查询。
在这里插入图片描述

1. 转换

1)“将第一行用作标题”

如下图所示,导入数据后,标题行被识别成了第一行,而标题的列名是空白。
在这里插入图片描述

直接点击“转换”中的“将第一行用作标题” 进行处理。
在这里插入图片描述

2) 替换值

在“要查找的值”中填写需要替换的值,如果是Null值可以填Null, 然后在下面“替换为”的框中填写需要替换的数值。
在这里插入图片描述

3. 数据类型转换

选中需要查看的列,数据类型就会自动显示该列的数据类型。 如下图中,选中的Units Sold 的数据类型是小数。
在这里插入图片描述
方法一: 通过转换功能区中的“数据类型”进行修改。
在这里插入图片描述
方法二:点击列名旁边的数据类型图示。
在这里插入图片描述

2. 管理列

如下图所示,“管理列” 功能选项在“主页”页签下面,可以筛选、删除和查看列数据。
在这里插入图片描述

1)选择所需的列(选择列)

当数据中包含大量无用的信息时,将无用的数据列剔除,只保留需要的数据,可以简化数据模型,提高工作效率。

  • 只需要将需要的列挑选上,其他没被选中的列就会从数据中删除掉。
    在这里插入图片描述

2)查找列(转到列)

当数据量大的时候,尤其是表格中包含许多列,这是手动去查找就很麻烦,可以直接使用“转到列”功能。

  • 点击“转到列”选项,会显示表格中所有列名, 选择对应的列名(图中选择“Gross Sales”),点击“确认”, 就会跳转到选择的列。
    在这里插入图片描述

二、合并列

这里介绍了两种比较方便的合并列方式,快速合并示例中的列。 前者适合需要直接合并的情况,后者适合需要特殊处理的情况。

1)快速合并列

  1. 选择需要合并的列:按住Ctrl选择需要合并的列,右键打开菜单,点击“合并列”
    在这里插入图片描述
  2. 设置分隔符和列名:选择连接的分隔符是“空格”,新的合并列名字为“Country-Segment"
    在这里插入图片描述
  3. 结果展示:选中的两列已经合并了,并且中间用空格分隔开来。
    在这里插入图片描述
    PS:同样,按住Ctrl可以同时选择多列,一起批量处理,比如删除、复制等等。

2)自定义格式合并列(添加列)

根据原来的数据添加列,使用到的是“添加列”中 “示例中的列"功能。这个功能的优点是:1)提供了常用的数据合并方法;2)适合用于处理时间数据
在这里插入图片描述

  • 如下图所示,点击“示例中的列”后,双击最右边“列1”里任意空白单元格,就会显示下拉选项,展示了可选则的示例内容。
    在这里插入图片描述
  • 手动输入需要合并的列的样式, 比如需要合并Month和Year,手动输入后“2014-January”,系统就会自动展示其他行的合并结果。在这里插入图片描述
  • 也可以使用公式创建一个新列,比如根据提示内容中的转换公式。
    ![[Pasted image 20221219154211.png]]

三、查看数据结构

导入数据之后,第一步就是要检查数据的情况,比如总数、空值等统计信息和值的分布情况。

查看数据结构

  • 进入Power Query编辑器后,点击“视图”页签,在“数据预览”中,选择需要显示的信息选择框。
    在这里插入图片描述

查看列具体信息分布

  • 点击其中一列,在下方就会出现这一列的统计信息及值分布。
  • 下面图中选择了"国家(Country)" 一列。下半页窗口显示了5个国家名字,并且每个国家的值分布相同。 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_72174.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++(42)-FSM-有限状态机

1.FSM 是什么? 一种用来进行对象行为建模的工具,用于描述对象在生命周期内所经历的状态序列,以及如何响应来自外界的各种事件。2.FSM 组成:状态、事件、动作3.FSM类型: 3.1Moore: 输出:当前状态有关…

mysql -学习总结

mysql 详解1、mysql特点2、事务2.1 事务的四大特性 – ACID2.2 并发事务问题2.3 事务的四大隔离级别2.4 事务隔离级别操作sql2.5 事务原理 – LBCC MVCC2.4.1 行的隐藏列2.4.2 ReadView2.4.3 MVCC在四种隔离级别下的区别2.5 undo log、binlog、redo log2.5.1 Undo log2.5.2 bin…

2023年2月22日PMP®项目管理认证课程正式开课

PMP认证是Project Management Institute在全球范围内推出的针对评价个人项目管理知识能力的资格认证体系。国内众多企业已把PMP认证定为项目经理人必须取得的重要资质。 PMP认证是Project Management Institute在全球范围内推出的针对评价个人项目管理知识能力的资格认证体系。…

安装MQTT Server遇到报错“cannot verify mosquitto.org‘s certificate”,该如何解决?

MQTT是基于发布/订阅的轻量级即时通讯协议,很适合用于低带宽、不稳定的网络中进行远程传感器和控制设备通讯等操作中。在我们的软件研发中,也经常使用MQTT协议进行消息通信等。今天来和大家分享一些关于在安装MQTT Server中遇到的疑难问题及解决思路。当…

文献综述怎么写?有哪些准备工作和内容要求

文献综述的撰写是提高研究生论文写作能力的重要途径,是研究生在撰写学术论文和学位论文中必须要涉及的内容,是不可或缺的,写好一篇好的文献综述是存在诸多困难和挑战的,需要掌握一定的技巧和方法。 一、文献综述的写作目的 文献综…

mysql常用且易混淆函数整理

DATE_FORMAT(date,format) 函数中format的格式如下: 类型转化函数 为了进行数据类型转化,MySQL提供了CAST()函数,它可以把一个值转化为指定的数据类型。类型有:BINARY,CHAR,DATE,TIME,DATETIME,SIGNED,UNSIGNED 示例&a…

Python|每日一练|数组|回溯|栈|树|双指针|单选记录:N 皇后|二叉树的前序遍历|四数之和

1、N 皇后(数组,回溯) n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上,并且使皇后彼此之间不能相互攻击。 给你一个整数 n ,返回所有不同的 n 皇后问题 的解决方案。 每一种解法包含一个不同的 n 皇后问题 …

操作系统真相还原_第6章:完善内核

文章目录6.1 函数调用约定简介6.2 汇编语言和C语言混合编程汇编调用CC调用汇编6.3 实现打印函数流程程序编译并写入硬盘执行6.4 内联汇编简介汇编语言AT&T语法基本内联汇编扩展内联汇编6.1 函数调用约定简介 调用约定: calling conventions 调用函数时的一套约…

「mysql是怎样运行的」第5章 盛放记录的大盒子---InnoDB数据页结构

「mysql是怎样运行的」第五章 盛放记录的大盒子—InnoDB数据页结构 文章目录「mysql是怎样运行的」第五章 盛放记录的大盒子---InnoDB数据页结构[toc]一、不同类型的页介绍二、数据页结构的快速浏览三、记录在页中的存储记录头信息的秘密四、Page Directory(页目录)五、Page He…

在ONLYOFFICE中借助ChatGPT一键创建招聘启事的内容

大家好,相信和多人都在生活中或工作中看到过招聘启示,或多或少都会有些了解。今天教大家在ONLYOFFICE中怎样通过chetGPT创建一份满意的招聘启示,下面是我用chatgpt制作的一份招聘信息,请大家看一下。 ONLYOFFICE ONLYOFFICE文档是…

(HP)新手引导使用react-shepherd

1,官方参数文档:https://shepherdjs.dev/docs/tutorial-02-usage.html 2,基本代码 import { ShepherdTour } from react-shepherd; import ./index.less; // 自己的样式文件,用来修改样式 import ./shepherd.less; // 将shephe…

C++性能白皮书

最近看完了《C性能白皮书》,这本书列出了一些性能优化的思路,不过只是一些指引,没有讲具体细节,我整理出了其中的关键点分享给大家: 硬件篇 作为一个程序员,想要性能优化,最好要了解些硬件&…

为什么redis的zset用跳跃表而不用b+ tree?

这两天有小伙伴问我一个问题,为什么redis的zset用跳跃表,不用b tree? 我先不说结论,我先说下 跳跃表 和Btree 。 跳跃表 在之前的 《redis源码阅读-zset》 中,已经详解了zset的使用跳跃表的源码,今天借用…

hadoop3.*集群搭建,小白必看

hadoop广义上讲是一个大数据生态圈,接受大量处理、处理大量数据的一个全套的框架!hadoop3.x版本以后,主要有三大模块,HDFS、YARN、mapReduce这三大核心组成!什么是HDFS?分布式文件系统,hadoop集群的功能类…

数值方法笔记4:插值、近似和拟合

1. 插值1.1 插值的一些概念1.1.1 插值的定义1.1.2 插值的存在性1.1.3 插值的误差分析1.2 拉格朗日插值(Lagrange Interpolation)1.2.1 拉格朗日插值误差分析1.3 Newton多项式插值1.3.1 Newton多项式插值误差分析1.4 Chebyshev多项式确定插值点1.4.1 Chebyshev多项式性质1.5 有理…

内存映射(1)

内存映射 将磁盘文件中的数据映射到内存,用户通过修改内存就能修改磁盘文件 相关的系统调用: void *mmap() 功能:将一个文件或设备的数据映射到内存中 参数: void *addr : NULL 由内核指定length : 要映射的数据长度,…

JUC并发编程——进程与线程

目录一、进程和线程的概念1.1 进程1.2 线程1.3 进程与线程对比二、并行和并发的概念三、线程基本应用3.1 多线程应用——异步调用一、进程和线程的概念 1.1 进程 ● 程序由指令和数据组成,但这些指令要运行,数据要读写,就必须将指令加载至 …

【Mysql系列】Mysql之ACID实现原理

ACID 原子性 事务不可分割,要么全部执行,要么都不执行。原理是使用undo log。undo log,当事务对数据库进行修改的时候,会生成对应的undo log。 持久性 事务提交后,对于数据库的改变是永久性的。实现原理通过redo l…

超详细解读!数据库表分区技术全攻略

更多内容可以关注微信公众号:老程序员刘飞 分区的定义 分区是一种数据库优化技术,它可以将大表按照一定的规则分成多个小表,从而提高查询和维护的效率。在分区的过程中,数据库会将数据按照分区规则分配到不同的分区中&#xff0…

排序算法-java实现

文章目录冒泡排序选择排序插入排序快速排序希尔排序冒泡排序 原理: 依次比较两个相邻的元素,如果它们顺序错误就把它们交换过来。 时间复杂度: 若文件的初始状态是正序的,一趟扫描即可完成排序。所需的关键字比较次数C和记录移…