数据挖掘|数据预处理|基于Python的数据标准化方法

news/2024/4/28 22:25:40/文章来源:https://blog.csdn.net/benxuu/article/details/137025635

基于Python的数据标准化方法

    • 1. z-score方法
    • 2. 极差标准化方法
    • 3. 最大绝对值标准化方法

在数据分析之前,通常需要先将数据标准化(Standardization),利用标准化后的数据进行数据分析,以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。

1. z-score方法

Z-score方法是基于原始数据的均值和标准差来进行数据标准化的,处理后的数据均值为0,方差为1,符合标准正态分布,且无量纲。其主要目的是将不同量级的数据统一化为同一个量级,用计算出的z-score值衡量,保证了数据间具有可比性。常用形式为: x n o r m a l i z a t i o n = x − μ σ x_{normalization} = \frac{x-\mu}{\sigma} xnormalization=σxμ

其中 x x x表示原始数据, μ \mu μ表示原始数据的平均值, σ \sigma σ表示原始数据的标准差, x n o r m a l i z a t i o n x_{normalization} xnormalization表示标准化后的数据。数据标准化的方法有自定义和 S t a n d a r S c a l e r ( ) StandarScaler() StandarScaler()等方法。
以下使用sklearn模块中的方法StandardScaler()来实现数据标准化,需要调用sklearn包。

#自定义数据标准化示例
def my_scale(data):mean= sum(data)/len(data)  #求均值#求方差variance=( sum([(i-mean)**2 for i in data]))/len(data)#按照公式标准化normal = [(i - mean)/(variance)**0.5 for i in data] return normal
import numpy as np
X = np.array([[2.,-1.,2.],[2.,0.,0.],[0.,1.,-2.]])
scale=my_scale(X)
xs=np.array(scale)
print("标准化前的数据:\n",X)
print("标准化后的数据:\n",xs)
标准化前的数据:[[ 2. -1.  2.][ 2.  0.  0.][ 0.  1. -2.]]
标准化后的数据:[[ 0.70710678 -1.22474487  1.22474487][ 0.70710678  0.          0.        ][-1.41421356  1.22474487 -1.22474487]]
#StandarScaler()方法数据标准化示例。
import numpy as np
from sklearn import preprocessing
X = np.array([[2.,-1.,2.],[ 2.,0.,0.],[0.,1.,-2.]])
#求得训练集X的均值,方差,最大值,最小值等固有属性
scaler = preprocessing.StandardScaler().fit(X) 
#在fit的基础上,进行标准化,降维,归一化等操作
xs=scaler.transform(X) 
print("标准化前的数据:\n",X)
print("标准化后的数据:\n",xs)
标准化前的数据:[[ 2. -1.  2.][ 2.  0.  0.][ 0.  1. -2.]]
标准化后的数据:[[ 0.70710678 -1.22474487  1.22474487][ 0.70710678  0.          0.        ][-1.41421356  1.22474487 -1.22474487]]

2. 极差标准化方法

极差标准化也称为区间缩放法或称0-1标准化,它是对原始数据所做的一种线性变换,将原始数据映射到[0,1]区间。常用形式为:
y i j = x i j − m i n { x i j } m a x { x i j } − m i n { x i j } y_{ij}=\frac{x_{ij}-min\{x_{ij}\}}{max\{x_{ij}\}-min\{x_{ij}\}} yij=max{xij}min{xij}xijmin{xij}
其中 m i n { x i j } min\{x_{ij}\} min{xij} m a x { x i j } max\{x_{ij}\} max{xij}指的是和 x i j x_{ij} xij同一数据集的最小值和最大值。极差标准化的方法有自定义和 MaxMinScaler() 等方法.

#极差标准化自定义方法示例。
def my_scale(data):data = (data-data.min())/(data.max()-data.min())return data
import numpy as np
X = np.array([[2.,-1.,2.],[ 2.,0.,0.],[0.,1.,-2.]])
xs=my_scale(X)
print("标准化前的数据:\n",X)
print("标准化后的数据:\n",xs)
标准化前的数据:[[ 2. -1.  2.][ 2.  0.  0.][ 0.  1. -2.]]
标准化后的数据:[[1.   0.25 1.  ][1.   0.5  0.5 ][0.5  0.75 0.  ]]
# MinMaxScaler()方法数据标准化示例。
import numpy as np
from sklearn import preprocessing
X = np.array([[2.,-1.,2.],[ 2.,0.,0.],[0.,1.,-2.]])
minmaxsacler = preprocessing.MinMaxScaler()
minmaxsacler.fit(X)
xs=minmaxsacler.transform(X) 
print("标准化前的数据:\n",X)
print("标准化后的数据:\n",xs)
标准化前的数据:[[ 2. -1.  2.][ 2.  0.  0.][ 0.  1. -2.]]
标准化后的数据:[[1.  0.  1. ][1.  0.5 0.5][0.  1.  0. ]]

3. 最大绝对值标准化方法

最大绝对值标准化方法是 x i j x_{ij} xij除以其最大的绝对值,也就是将原始数据映射到[-1,1]区间内。常用形式为:
y i j = x i j m a x { ∣ x i j ∣ } y_{ij}=\frac{x_{ij}}{max\{|x_{ij}|\}} yij=max{xij}xij

# 使用MaxAbsScaler()方法进行数据标准化示例。
import numpy as np
from sklearn import preprocessing
X1 = np.array([[2.,-1.,2.],[ 2.,0.,0.],[0.,1.,-2.]])
abssacler = preprocessing.MaxAbsScaler()
abssacler.fit(X1)
xs=abssacler.transform(X) 
print("标准化前的数据:\n",X)
print("标准化后的数据:\n",xs)
标准化前的数据:[[ 2. -1.  2.][ 2.  0.  0.][ 0.  1. -2.]]
标准化后的数据:[[ 1. -1.  1.][ 1.  0.  0.][ 0.  1. -1.]]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1027441.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一分钟开服 《幻兽帕鲁》游戏专属服务器by京东云主机

使用京东云服务器搭建幻兽帕鲁Palworld游戏联机服务器教程,非常简单,京东云推出幻兽帕鲁镜像系统,镜像直接选择幻兽帕鲁镜像即可一键自动部署,不需要手动操作,真正的新手0基础部署幻兽帕鲁,阿腾云atengyun.…

OSCP靶场--pyLoader

OSCP靶场–pyLoader 考点(信息收集CVE-2023-0297) 1.nmap扫描 ┌──(root㉿kali)-[~/Desktop] └─# nmap -Pn -sC -sV 192.168.178.26 --min-rate 2500 Starting Nmap 7.92 ( https://nmap.org ) at 2024-03-28 09:14 EDT Nmap scan report for 192.168.178.26 Host is up…

基于Python的电商特产数据可视化分析与推荐系统

温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目简介 利用网络爬虫技术从某东采集某城市的特产价格、销量、评论等数据,经过数据清洗后存入数据库,并实现特产销售、市场占有率、价格区间等多维度的可视化统计分析,并…

关于使用vscode搭建c/c++编程环境

目录 关于使用vscode搭建c/c编程环境一、前言二、安装 IDE 二、安装TDM-GCC安装三、安装C/C环境四、编写代码并进行编译 关于使用vscode搭建c/c编程环境 一、前言 一直觉得vscode是生产强有力的生产工具,基于此,做一篇学习笔记进行记录。 二、安装 ID…

Prometheus +Grafana +node_exporter可视化监控Linux虚机

1、介绍 待补充 2、架构图 待补充 Prometheus :主要是负责存储、抓取、聚合、查询方面。 node_exporter :主要是负责采集物理机、中间件的信息。 3、搭建过程 配置要求:1台主服务器 n台从服务器 (被监控的linux虚机&am…

WPF自定义Panel:让拖拽变得更简单

在 WPF 应用程序中,拖放操作是实现用户交互的重要组成部分。通过拖放操作,用户可以轻松地将数据从一个位置移动到另一个位置,或者将控件从一个容器移动到另一个容器。然而,WPF 中默认的拖放操作可能并不是那么好用。为了解决这个问…

uniApp使用XR-Frame创建3D场景(7)加入点击交互

上篇文章讲述了如何将XR-Frame作为子组件集成到uniApp中使用 这篇我们讲解如何与场景中的模型交互&#xff08;点击识别&#xff09; 先看源码 <xr-scene render-system"alpha:true" bind:ready"handleReady"><xr-node><xr-mesh id"…

【已修复】iPhone13 Pro 长焦相机水印(黑斑)修复 洗水印

iPhone13 Pro 长焦相机水印&#xff08;黑斑&#xff09;修复 洗水印 问题描述 iPhone13 Pro 后摄3倍相机有黑色斑点&#xff08;水印&#xff09;&#xff0c;如图所示&#xff0c; 后摄相机布局如图所示&#xff0c; 修复过程 拆机过程有风险&#xff0c;没有把握最好不要…

MySQL学习笔记------函数

目录 函数 字符串函数 数值函数 函数 指一段可以直接被另一段程序调用的程序或代码 字符串函数 MySQL中内置了很多字符串函数&#xff0c;常用如下&#xff1a;select 函数 concat(s1,s2,s3,...,sn) 字符串拼接&#xff0c;将s1,s2,...,sn拼接成一个字符串 #字符串拼…

C/C++语言学习路线: 嵌入式开发、底层软件、操作系统方向(持续更新)

初级&#xff1a;用好手上的锤子 1 【感性】认识 C 系编程语言开发调试过程 1.1 视频教程点到为止 1.2 炫技视频看看就行 1.3 编程游戏不玩也罢 有些游戏的主题任务就是编程&#xff0c;游戏和实际应用环境有一定差异&#xff08;工具、操作流程&#xff09;&#xff0c;在…

火车头通过关键词采集文章的原理

随着互联网信息的爆炸式增长&#xff0c;网站管理员和内容创作者需要不断更新和发布新的文章&#xff0c;以吸引更多的用户和提升网站的排名。而火车头作为一款智能文章采集工具&#xff0c;在这一过程中发挥着重要作用。本文将探讨火车头如何通过关键词采集文章&#xff0c;以…

康耐视visionpro-CogCaliperTool工具详细说明

CogCaliperTool功能说明: 卡尺工具,用于测量距离 CogCaliperTool操作说明: ①.打开工具栏,双击或点击鼠标拖拽添加CogCaliperTool ②.添加输入图像,右键“链接到”或以连线拖拽的方式选择相应输入源 ③.拖动屏幕上的矩形框到需要测量的位置。卡尺的搜索框角度与边缘不平…

React系列之合成事件与事件处理机制

文章目录 React事件处理机制原生事件的事件机制事件代理&#xff08;事件委托&#xff09; 合成事件使用合成事件目的合成事件原生事件区别事件池 原生事件和React事件的执行顺序e.stopPropagation() React17事件机制的修改 React事件处理机制 react 事件机制基本理解&#xf…

有效的数独-java

题目描述: 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 &#xff0c;验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。&#xff08;请参考示例图&#…

什么是RISC-V?开源 ISA 如何重塑未来的处理器设计

RISC-V代表了处理器架构的范式转变&#xff0c;特点是其开源模型简化了设计理念并促进了全球community-driven的开发。RISC-V导致了处理器技术发展前进方式的重大转变&#xff0c;提供了一个不受传统复杂性阻碍的全新视角。 RISC-V起源于加州大学伯克利分校的学术起点&#xff…

RabbitMQ 实验消费原始队列消息, 拒绝(reject)投递死信交换机过程

如果你想通过 RabbitMQ 的死信队列功能实现消费者拒绝消息投递到死信交换机的行为&#xff0c;你可以按照以下步骤操作&#xff1a; 创建原始队列&#xff0c;并将其绑定到一个交换机上&#xff1a; export RABBITMQ_SERVER127.0.0.1 export RABBITMQ_PORT5672 export RAB…

uniApp使用XR-Frame创建3D场景(6)播放模型动画

上篇文章讲述了如何将XR-Frame作为子组件集成到uniApp中使用 这篇我们讲解播放模型动画 先看源码 <xr-scene render-system"alpha:true" bind:ready"handleReady"> <xr-node visible"{{sec6}}"><xr-light type"ambient&qu…

Mac 装 虚拟机 vmware、centos7等

vmware&#xff1a; https://www.vmware.com/products/fusion.html centos7 清华镜像&#xff1a; 暂时没有官方的 m1 arm架构镜像 centos7 链接: https://pan.baidu.com/s/1oZw1cLyl6Uo3lAD2_FqfEw?pwdzjt4 提取码: zjt4 复制这段内容后打开百度网盘手机App&#xff0c;操…

ida调试技巧-通过修改zf寄存器的值绕过简单反调试

参考本篇->OllyDbg笔记-对标志寄存器中ZF的理解&#xff08;逆向方面&#xff09;_零标志位zf怎么判断-CSDN博客 不想看也没关系&#xff0c;蒟蒻博主概述一下&#xff0c;总之&#xff0c;在机器执行汇编指令时&#xff0c;标志&#xff08;flag&#xff09;寄存器中的一个…

(4)(4.3) Kogger Sonar

文章目录 前言 1 推荐硬件 2 配置回声探测仪模块 3 连接ArduPilot硬件 4 参数说明 前言 KOGGER 声纳(KOGGER Sonar)是一款结构紧凑、成本低廉的水下回声测深仪模块&#xff0c;带有 UART 接口&#xff0c;电源电压为 5-14v。 1 推荐硬件 CP210x USB->UART 转换器和安装…