【数据预处理】基于Pandas的数据预处理技术【california_housing加州房价数据集】_后9个任务

news/2024/5/4 6:56:50/文章来源:https://blog.csdn.net/weixin_52908342/article/details/128439472

文章目录

  • 一.需求分析
  • 二.需求解决
    • 2.1 对第一个特征(收入中位数)排序后画散点图
    • 2.2 对第一个特征(收入中位数)画分位数图并分析
    • 2.3 【选做】对所有特征画分位数图并进行分析
    • 2.4 使用线性回归方法拟合第一个特征(收入中位数)
    • 2.5 【选做】使用局部回归(Loess)曲线(用一条曲线拟合散点图)方法拟合第一个特征(收入中位数)数据
    • 2.6 对第一个特征(收入中位数)按平均房间数分两段画分位数-分位数图并分析
    • 2.7 画直方图,查看各个特征的分布和数据倾斜情况
    • 2.8 【选做】对所有特征画直方图,查看数据的分布和数据倾斜情况
    • 2.9 寻找所有特征之间的相关性并找出相关性大于 0.7 的特征对,做特征规约
    • 2.10 总结

一.需求分析

前七个任务的解决方案,请查看上篇文章:

image-20221225235650468

本文主题:基于Pandas的数据预处理技术

本次任务共分为16个任务,将其分为前七个任务和后9个任务,本文探讨其后9个任务。

本文的源代码下载链接:

基于Pandas的数据预处理技术-源代码-机器学习文档类资源-CSDN文库

https://download.csdn.net/download/weixin_52908342/87337635

本次实验内容:

  1. 对第一个特征(收入中位数)排序后画散点图

  2. 对第一个特征(收入中位数)画分位数图并分析

  3. 【选做】对所有特征画分位数图并进行分析

  4. 使用散点图、使用线性回归方法拟合第一个特征(收入中位数)并分析

  5. 【选做】使用局部回归(Loess)曲线(用一条曲线拟合散点图)方法拟合第一个特征(收入中位数)数据

  6. 对第一个特征(收入中位数)画分位数-分位数图并分析

  7. 对第一个特征(收入中位数)画直方图,查看数据的分布和数据倾斜情况

  8. 【选做】对所有特征画直方图,查看数据的分布和数据倾斜情况

  9. 寻找所有特征之间的相关性并找出相关性大于 0.7 的特征对,做特征规约

二.需求解决

2.1 对第一个特征(收入中位数)排序后画散点图

对第一个特征(收入中位数)数据排序,画散点图,画x,y坐标轴标签

x_sorted=np.sort(df.iloc[:,0].values)
plt.scatter([i for i in range(X.shape[0])],x_sorted)
plt.xlabel('Count')
plt.ylabel('sorted'+housing['feature_names'][0])
plt.show()

运行结果如下

img

2.2 对第一个特征(收入中位数)画分位数图并分析

对第一个特征(收入中位数)画分位数图并分析:

对第一个特征(收入中位数)数据排序,画散点图,画中位数点,画x,y坐标轴标签

x_sorted=np.sort(df.iloc[:,0].values)
plt.scatter([i for i in range (X.shape[0])],x_sorted)
plt.scatter([round(X.shape[0]/4),round(X.shape[0]/2),round(X.shape[0]*3/4)],[np.quantile(x_sorted,0.25),np.quantile(x_sorted,0.5),                                                                            np.quantile(x_sorted,0.75)],color='red')
plt.xlabel('Count')
plt.ylabel('sorted'+housing['feature_names'][0])
plt.show()

运行结果如下:

img

2.3 【选做】对所有特征画分位数图并进行分析

【选做】对所有特征画分位数图并进行分析解决方案如下:

人均收入(MedInc)、房龄(HouseAge)、房间数(AveRooms)、卧室数(AveBedrooms)、小区人口数(Population)、

房屋居住人数(AveOccup)、小区经度(Longitude)、小区纬度(Latitude)

import matplotlib.pyplot as plt
plt.figure(figsize=(12,12))
for i in range(8):plt.subplot(4, 2, i+1)# 对第一个特征(收入中位数)数据排序x_sorted=np.sort(df.iloc[:,i].values)# 画散点图plt.scatter([i for i in range (X.shape[0])],x_sorted)# 画中位数点plt.scatter([round(X.shape[0]/4),round(X.shape[0]/2),round(X.shape[0]*3/4)],[np.quantile(x_sorted,0.25),np.quantile(x_sorted,0.5),np.quantile(x_sorted,0.75)],color='red')# 画x,y坐标轴标签plt.xlabel('Count')plt.ylabel('sorted'+housing['feature_names'][0])
plt.show()

运行结果如下:

img

上图可以看到:8个特征的分位数图。

2.4 使用线性回归方法拟合第一个特征(收入中位数)

使用线性回归方法拟合第一个特征(收入中位数)解决方案如下:

准备数据:

X_list=[i for i in range(X.shape[0])]

转换为np.array一维向量

X_array=np.array(X_list)

转换为矩阵

X_reshape=X_array.reshape(X.shape[0],1)

对第一个特征(收入中位数)排序

x_sorted=np.sort(df.iloc[:,0].values)

线性回归

from sklearn import linear_model
linear=linear_model.LinearRegression()

进行线性回归拟合

linear.fit(X_reshape,x_sorted)

对训练结果做拟合度评分

print("training score:",linear.score(X_reshape,x_sorted))

画散点图

plt.scatter(X_list,x_sorted)

使用sklearn线性回归的predict函数计算预测值

y_predict=linear.predict(X_reshape)

画线性回归算法拟合的直线

plt.plot(X_reshape,y_predict,color='red')
plt.show()

运行结果如下:

img

2.5 【选做】使用局部回归(Loess)曲线(用一条曲线拟合散点图)方法拟合第一个特征(收入中位数)数据

指定默认字体:解决plot不能显示中文问题,解决保存图像是负号’-'显示为方块的问题

pl.rcParams['font.sans-serif'] = ['STZhongsong']     
pl.rcParams['axes.unicode_minus'] = False           

一般来说,两个变量之间的关系非常微妙,仅用线性和曲线参数方程来描述是不够的,因此此时需要非参数回归。非参数方法和参数方法的区别在于,在分析之前预测是否存在一些限制。例如,如果我们认为特征和响应变量之间存在线性关系,我们可以使用线性方程拟合。我们只需要找到方程的系数,这是一种参数化方法,例如前面提到的线性回归和多项式回归。如果我们直接从数据中进行分析,这是一种非参数方法。因为没有限制,所以无论曲线关系如何复杂,用非参数方法拟合的曲线都能更好地描述变量之间的关系。
黄土(局部加权区域)是一种非参数的局部回归分析方法。它主要将样本划分为小单元,对区间中的样本进行多项式拟合,并重复此过程以获得不同区间中的加权回归曲线。最后,将这些回归曲线的中心连接在一起,形成一条完整的回归曲线。具体流程如下:

  • 确定拟合点的数量和位置
  • 以拟合点为中心确定k个最近点
  • 通过权重函数计算k个点的权重
  • 加权线性回归多项式拟合(一次或二次)
  • 对所有拟合点重复上述步骤
import math
import numpy as np
import statsmodels.api as sm
lowess = sm.nonparametric.lowess
import pylab as pl# 准备数据
X_list=[i for i in range(X.shape[0])]
# 转换为np.array一维向量
X_array=np.array(X_list)
# 转换为矩阵
X_reshape=X_array.reshape(X.shape[0],1)
# 对第一个特征(收入中位数)排序
x_sorted=np.sort(df.iloc[:,0].values)yest = lowess(X_list,x_sorted, frac=0.01)[:,0]
print(yest)
# print(java1.sort)
pl.clf()
# plt.scatter(X_list,x_sorted)
plt.scatter(X_list,x_sorted,c="red", marker='o')
pl.plot(X_list, yest, label='y pred')
plt.xlabel('Count')
plt.ylabel('收入中位数')
# plt.legend(loc=1)
pl.legend()
plt.show()

运行结果如下:

img

img

2.6 对第一个特征(收入中位数)按平均房间数分两段画分位数-分位数图并分析

对第一个特征按AveRooms平均房间数的平均值划分为两段,画分位数-分位数图:

import numpy as np
import matplotlib.pyplot as plt
plt.figure(figsize=(5,5))

对所有特征按AveRooms平均房间数的平均值划分为两段

df_new1=df[df['AveRooms']<=df['AveRooms'].mean()]
df_new2=df[df['AveRooms']>df['AveRooms'].mean()]

按照划分的两段对第一个特征排序

part1=np.sort(df_new1.iloc[:,0].values)[:df_new2['AveRooms'].count()]
part2=np.sort(df_new2.iloc[:,0].values)[:df_new2['AveRooms'].count()]

设置坐标轴刻度区间一致,画45°线

plt.xlim(part2[0],part2[-1])
plt.ylim(part2[0],part2[-1])
plt.plot([part2[0],part2[-1]],[part2[0],part2[-1]])

画分位数-分位数图

plt.scatter(part1,part2)
plt.scatter([np.quantile(part1,0.25),np.quantile(part1,0.5),np.quantile(part1,0.75)],      [np.quantile(part2,0.25),np.quantile(part2,0.5),np.quantile(part2,0.75)],color='red')
plt.show()

运行截图如下:

img

2.7 画直方图,查看各个特征的分布和数据倾斜情况

画直方图,查看各个特征的分布和数据倾斜情况。这个需求十分简单:

绘制特征1的直方图

plt.hist(X[:,0],edgecolor='k')
plt.show()

运行结果如图:

img

2.8 【选做】对所有特征画直方图,查看数据的分布和数据倾斜情况

【选做】对所有特征画直方图,查看数据的分布和数据倾斜情况,需求解决方案如下:

人均收入(MedInc)、房龄(HouseAge)、房间数(AveRooms)、卧室数(AveBedrooms)、小区人口数(Population)、

房屋居住人数(AveOccup)、小区经度(Longitude)、小区纬度(Latitude)

import matplotlib.pyplot as plt
plt.figure(figsize=(12,12))
for i in range(8):plt.subplot(4, 2, i+1)plt.hist(X[:,i],edgecolor='k')plt.xlabel('Count')plt.ylabel('sorted'+housing['feature_names'][0])
plt.show()

运行结果如下:

img

2.9 寻找所有特征之间的相关性并找出相关性大于 0.7 的特征对,做特征规约

寻找所有特征之间的相关性并找出相关性大于 0.7 的特征对,做特征规约,需求解决方案如下:

for column in df.columns:correlations_data=df.corr()[column].sort_values()print('%s:'%column)for key in correlations_data.keys():if key!=column and abs(correlations_data[key])>=0.7:print("      %s:" %key,correlations_data[key])

运行截图如下:

img

2.10 总结

本次实验收获非常的大,学习到了检测是否有空值,对数据集做中心化度量,对数据集做离散化度量,包括散点图,分位数图、分位数-分位数图、包括题目要求的所有选做题目,包括局部回归的理解和使用等等,都有了较深刻的理解和运用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_240093.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言进阶】指针练习题

写在前面 这是指有关指针的小题 正文 练习一 int main() {int a[5][5];int (*p)[4];pa;printf("%p,%d", &p[4][2]-&a[4][2], &p[4][2]-&a[4][2] );return 0; } 解析&#xff1a; a[4][2]为如图粉色部分&#xff0c;p[4][2]为如图蓝色部分。a的…

Java项目:springboot药品管理系统

作者主页&#xff1a;源码空间站2022 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 本项目属于前后端分离的项目&#xff0c;分为两个角色药品管理员和取药处人员 药品管理员&#xff1a; 登录、退出、药品信息录入、药厂信息录入…

买不到的数目(蓝桥杯C/C++A组真题详解)

题目详细&#xff1a; 题目思路&#xff1a; 对于这个题有一个定理 如果 a,b 均是正整数且互质&#xff0c;那么由 axby&#xff0c;x≥0&#xff0c;y≥0 不能凑出的最大数是 &#xff1a; a*b-a-b 具体的证明过程这里就不赘述 感兴趣的同学可以自行查找 这里就提供一种思…

RabbitMQ 第二天 高级 7 RabbitMQ 高级特性 7.2 Consumer Ack

RabbitMQ 【黑马程序员RabbitMQ全套教程&#xff0c;rabbitmq消息中间件到实战】 文章目录RabbitMQ第二天 高级7 RabbitMQ 高级特性7.2 Consumer Ack7.2.1 Consumer Ack7.2.2 Consumer Ack 小结7.2.3 消息可靠性总结第二天 高级 7 RabbitMQ 高级特性 7.2 Consumer Ack 7.2.…

C#语言实例源码系列-伪装文件

专栏分享点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册 &#x1f449;关于作者 众所周知&#xff0c;人生是一个漫长的流程&#xff0c;不断克服困难&#xff0c;不断反思前进的过程。在这个过程中…

matlab神经网络求解最优化,matlab神经网络训练数据

1、神经网络的准确率是怎么计算的&#xff1f; 其实神经网络的准确率的标准是自己定义的。 我把你的例子赋予某种意义讲解&#xff1a; 1&#xff0c;期望输出[1 0 0 1]&#xff0c;每个元素代表一个属性是否存在。像着4个元素分别表示&#xff1a;是否肺炎&#xff0c;是否肝…

你可能不知道的DOM断点调试技巧

前言 作为一个前端&#xff0c;DOM断点应该是我们非常熟悉的&#xff0c;也是我们日常工作中经常要用到的一种调试技巧&#xff1b;但是下面这些DOM断点调试技巧你可能不知道&#xff0c;且听我一一道来。 监听元素 有这样一种场景&#xff0c;当DOM中某个元素移除或者元素属…

数据结构---图

&#xff08;一&#xff09; 相关知识点 图&#xff08;graph&#xff09;&#xff1a;图是由顶点的有穷非空集合和顶点之间边的集合组成&#xff0c;通常表示为&#xff1a;G(V,E)&#xff0c;其中&#xff0c;G表示一个图&#xff0c;V是图G中的顶点的集合&#xff0c;E是图G…

从模型到服务——iDesktopX处理自动化工具实现BIM模型到三维服务发布

目录前言一、 处理自动化模型二、 算子参数设置1、 使用迭代数据集打开导出后的BIM模型2、 移除重复点、重复面和重复子对象3、 模型生成缓存4、 三维切片缓存发布5、 执行结果前言 BIM模型在SuperMap实际使用的业务流程中常常需要在桌面产品中生成缓存&#xff0c;然后通过iS…

QT多窗口编程与文件IO编程

目录 一、消息对话框 QMessageBox&#xff08;掌握&#xff09; 二、常用窗口类&#xff08;掌握&#xff09; 三、主窗口类 QMainWindow&#xff08;重点&#xff09; 四、parent参数&#xff08;掌握&#xff09; 五、窗口传参 5.1 成员函数/构造函数 5.2 信号槽传参 六、事件…

Android开发进阶——binder通讯学习

什么是binder 通常意义下&#xff0c;binder指的是一种通信机制对Server端来说&#xff0c;Binder指的是Binder本地对象&#xff0c;对于Client端来说&#xff0c;Binder指的是Binder代理对象对于传输过程而言&#xff0c;binder是可以跨进程传输的对象 Binder的基本原理 Bi…

MySQL 管理

文章目录启动及关闭 MySQL 服务器MySQL 用户设置/etc/my.cnf 文件配置管理MySQL的命令启动及关闭 MySQL 服务器 首先&#xff0c;我们需要通过以下命令来检查MySQL服务器是否启动&#xff1a; ps -ef | grep mysqld如果MySql已经启动&#xff0c;以上命令将输出mysql进程列表…

node.js+uni计算机毕设项目基于微信小程序的美甲预约系统(程序+小程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置&#xff1a; Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分离等…

Docker安装Zookeeper教程(超详细)

生命无罪&#xff0c;健康万岁&#xff0c;我是laity。 我曾七次鄙视自己的灵魂&#xff1a; 第一次&#xff0c;当它本可进取时&#xff0c;却故作谦卑&#xff1b; 第二次&#xff0c;当它在空虚时&#xff0c;用爱欲来填充&#xff1b; 第三次&#xff0c;在困难和容易之…

【Linux】进程间通信之共享内存

目录&#x1f308;前言&#x1f338;1、System V共享内存&#x1f361;1.1、概念&#x1f362;1.2、原理&#x1f33a;2、共享内存相关函数和指令&#x1f361;2.1、shmget函数&#xff08;创建&#xff09;&#x1f362;2.2、shmctl函数&#xff08;控制&#xff09;&#x1f…

【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里?

相关博客 【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里&#xff1f; 【自然语言处理】【ChatGPT系列】Chain of Thought&#xff1a;从大模型中引导出推理能力 【自然语言处理】【ChatGPT系列】InstructGPT&#xff1a;遵循人类反馈指令来训练语言模型 【自然语言处理…

基于HTML5 技术的开放自动化HMI

人机交互接口&#xff08;HMI&#xff09;是自动化系统中不可或缺的一部分。传统的做法是提供一个HMI 显示屏&#xff0c;并且通过组态软件来配置显示屏的功能&#xff0c;通过modbus 或者以太网与PLC 连接。 现在&#xff0c;事情变得复杂了许多&#xff0c;用户不仅需要通过专…

linux共享内存的使用

共享内存可以由多个程序同时访问的内存&#xff0c;能够避免进程间通信过程中的冗余数据拷贝&#xff0c;是IPC中最快的一种,特别适合用来作大块数据的传输。共享内存可以映射到不同的进程空间&#xff0c;这些进程间的数据传递就不再涉及内核。这个过程其实是把同一块物理内存…

FMOC-PEG-COOH,FMOC-PEG-acid,芴甲氧羰基-聚乙二醇-羧基试剂供应

英文名称&#xff1a;FMOC-PEG-COOH&#xff0c;FMOC-PEG-acid 中文名称&#xff1a;芴甲氧羰基-聚乙二醇-羧基 蛋白质、肽和其他材料通过氨基酸或其他酸活性化学组&#xff0c;增加溶解度和稳定性&#xff0c;降低免疫原性&#xff1b;药物修饰或缓释药物研发&#xff0c;新…

ARM_SMMU_下

SMMU驱动代码分析 本文主要分析linux kernel中SMMUv3的代码(drivers/iommu/arm-smmu-v3.c) linux kernel版本是linux 5.7, 体系结构是aarch64 SMMU的作用是把CPU提交给设备的VA地址&#xff0c;直接作为设备发出的地址&#xff0c;变成正确的物理地址&#xff0c;访问到物理内…