(决策树中的)信息熵和样本分类的信息熵计算源代码

news/2024/5/6 10:18:09/文章来源:https://blog.csdn.net/qq_40506723/article/details/127156554

目录

一、信息熵

① 基本概念

② 计算公式

二、决策树中的信息熵

三、计算数据集样本分类的香农熵的源代码


说明:由于对这部分的知识有所遗忘,因此翻阅资料进行温习,写下本文。

需要注意的是,在本文中,所有中括号里边的内容,纯属个人理解,望读者包涵。


一、信息熵

① 基本概念

用来衡量一个随机变量出现的期望值【一个决策由很多随机向量共同决定,这些随机向量就是人决定每一件事中考虑的各个因素】。一个变量的信息熵越大,那么它蕴含的情况就越多【即这个因素还和其他许多因素关联,越早处理这个因素越好决断,否则最后处理,照样会让你头疼,因为你已经把其他因素决断完了,当考虑到这个因素时,又不得不重新考虑其他因素,这样大概率会导致你决断上的失误】,也就是需要更多的信息才能完全确定它。

香农这样认为:信息就是对不确定性得消除,一般而言,当某种信息出现更高概率时,表明它被传播得更广泛,或者说被引用的程度更高。

香农第一次提出信息熵的概念,所以信息熵和香农熵的表达一毛一样...


② 计算公式

对于多分类问题,延申一下得出公式了。在如下的决策树中,还可以用某类特征的数据的长度/总数据的长度代表发生的概率,即频率代表概率,p 这个概念具体场景下含义不同,可以灵活使用。

注意:本文提到的一个特征或一个分类也可以叫做一个随机变量(收入),这个随机变量可以有不同的取值(高低);一个随机变量通俗来说,就是决策一个事物需要考虑的一个因素。


二、决策树中的信息熵

在决策树中,信息熵不仅能用来度量类别的不确定性,还可以用来度量包含不同特征的数据样本与类别的不确定性。某个特征列向量的信息熵越大,则该向量的不确定性就越大【这里就很好理解了,特征列向量就是我们提到的影响人考虑的决策的各个因素】,也就是其混乱程度越大,越应该优先考虑从该特征向量入手进行划分【我的理解,因为构造决策树的关键是在于分裂属性,其中,分裂属性就是在某个节点(节点是所有数据在此处的分类依据,这个依据就是某一特征)按照某一特征的不同划分(流到这里的数据集根据节点上的特征进行划分,如年龄特征,继而裂变为各个子集,如青年集、中年集和老年集,这些集合流向下一个特征节点,反复按这个逻辑进行)构造不同的分支,它的目标是让各个裂变子集尽可能的纯(属于同一类,比如今中午都决定买海鲜吃的人群,或都不买海鲜吃的人群),也就是属于同一类,因此,最先划分信息熵大的特征向量做出决策的效率更高】。

举个例子:如果预测某客户中午买不买海鲜吃,[年龄] 这个变量蕴含的情况就特别多(当然实际多不多,得靠计算信息熵计算),年龄分为青年、中年、老年,某个年龄段的人吃不吃或许要看收入的高低,每个收入的人群或许要看是否是学生,学生中又要看性别来决策,太多信息了。如果直接按 [收入] 这个变量划分,可能就会好一点。信息熵就是为我们选取决策树中最适合最先划分的特征。


三、计算数据集样本分类的香农熵的源代码

说明:

1、求解各个分类特征的信息熵,比如收入,它分为高和低,但收入高的不是全都吃海鲜的,收入低的不是全不吃海鲜的,在编码上更加复杂,我将在下篇文章中详述。

2、以下源码和注解为原创,如有不当或疑惑之处,可在评论区留言告知。


源代码:

from numpy import *# 本文源码只求样本分类的信息熵,仅为了说明信息熵的求解方法
# 对于如何求解各个类别特征的信息熵和如何构造决策树,将在后续文章详述def calculate_xns(dataset, n):"""计算给定数据集的香农熵(信息熵):param dataset:数据集:param n:数据集的第n个特征,默认取-1,即数据集中每个样本的标签:return:数据集的香农熵"""xns = 0.0  # 香农熵num = len(dataset)  # 样本集的总数,用于计算分类标签出现的概率# 1、将数据集样本标签的特征值(分类值)放入列表all_labels = [c[n] for c in dataset]  # c[-1]:即取数据集中的每条数据的标签:吃或不吃# print(all_labels)  # 得到 [吃,吃,不吃,不吃,不吃,不吃] 的结果# 2、按标签的种类进行统计,吃这一类2个;不吃这一类4个every_label = {}  # 以词典形式存储每个类别(键)及个数(值), 如{吃:2,不吃:4}for item in set(all_labels):  # 对每个类别计数,并放入词典, 其中set(all_labels) = [吃,不吃]every_label[item] = all_labels.count(item)# 计算样本标签的香农熵,即数据集的香农熵for item2 in every_label:prob = every_label[item2] / num  # 每个特征值出现的概率xns -= prob * log2(prob)  # xns是全局变量,这样就可以计算关于决策的要考虑的某个随机变量(如收入特征)的香农熵return xns# 问题描述:如何求解数据集样本分类的信息熵?# 如下列是已知的统计数据(如果有大数据更好):
# 第一列特征是学生(Yes:是,No:不是)
# 第二列特征是性别(Yes:男,No:女)
# 第三列特征是收入(Yes:高,No:低)
# 第四列是每个样本最终的分类标签(吃海鲜或不吃海鲜)data = [['Yes', 'Yes', 'Yes', "吃"],['No', 'No', 'Yes', "吃"],['No', 'Yes', 'No', "不吃"],['No', 'No', 'No', "不吃"],['No', 'Yes', 'No', "不吃"],['No', 'No', 'No', "不吃"]]# 打印数据集样本分类的信息熵
print("数据集样本分类的信息熵%s" % (calculate_xns(data, -1)))  # 0.9182958340544896

运行结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_18335.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WPF 控件专题 ContentControl 控件详解

1、ContentControl 介绍 ContentControl 表示包含一段任意类型内容的控件;也叫作内容控件。只包含一个子元素。 ************************************************************************************************************** 2、常用属性介绍 FontFamily&a…

《代码随想录》一刷记录之回溯算法

文章目录前言第9章:回溯法回溯算法理论基础什么是回溯算法回溯法的性能回溯法可以解决的问题理解回溯法回溯法模板组合问题回溯算法剪枝优化组合总和(一)回溯算法剪枝优化电话号码的字母组合回溯算法组合总和(二)回溯算法剪枝优化组合总和&am…

flask数字图像处理系统开发全流程记录(基于OpenCV)

目录一、环境安装1.1 安装虚拟环境1.2 安装Flask二、搭建flask项目框架2.1 创建一个简单项目2.2 渲染html页面2.3 使用Bootstrap美化页面2.4 前后端逻辑交互2.4.1 前端实现2.4.2 后端实现三、部署3.1 Waitress工业级部署3.2 项目打包一、环境安装 1.1 安装虚拟环境 虚拟环境是…

以太网交换机(计算机网络)

目录 一、以太网交换机与网桥 二、交换机与集线器 三、交换式以太网 四、以太网交换机的要点 一、以太网交换机与网桥 1、交换式集线器又称为以太网交换机(switch)或二层交换 机(表明此交换机工作在数据链路层),或直接简称 为交换机。 2…

2022/10/4——基于stm32mp157a的A7核按键中断实验

分析电路图可知三个按键对应的管脚为:KEY1----->PF9 KEY2----->PF7 KEY3----->PF8 本次实验采用延时函数来解决按键按下时的电平抖动问题 功能分析如下 如上图所示 1.需要分析GPIOF章节:设置引脚为输入模式 2.需要分析EXTI章节&#xff1…

人工智能算法一无监督学习(Kmeas聚类)

简介 在前面介绍的线性回归还有逻辑回归它们都是知道x,y然后开始训练模型,这也就是有监督学习的情况,还有如果只是知道x不知道y的情况那么这种就是无监督学习。 描述 需求引入,如果有一千万用户,我们要对用户进行分类。这里由于…

Pytorch深度学习笔记之三(构建一个完整的神经网络)

本篇笔记是基于一个印度人写的《Pytorch深度学习》一书的第二章,主要用来描述一个麻雀虽小五脏俱全的完整的神经网络,包含了建模、训练等。原书的代码基于较老版本的Pytorch,有多处编译不过,笔者都做了调整,并在文末给…

几种常见的概率分布表

参考:《概率论与数理统计 第四版》

Jenkins+Maven+Gitlab+Tomcat 自动化构建打包、部署

一、环境需求 本帖针对的是Linux环境,Windows或其他系统也可借鉴。具体只讲述Jenkins配置以及整个流程的实现。 1.JDK(或JRE)及Java环境变量配置,我用的是JDK1.8。 2.Jenkins 持续集成和持续交付项目。 3.现有项目及gitlab&#…

Redis实战 - 03 RedisTemplate 的 hash 结构

文章目录1. put(H var1, HK var2, HV var3)2. get(H var1, Object var2)3. entries(H key)4. keys(H key)5. values(H key)6. hasKey(H key, Object var2)7. size(H key)8. putAll(H key, Map<? extends HK, ? extends HV> map)1. put(H var1, HK var2, HV var3) 新增…

机器学习之验证曲线绘制-调参可视化-sklearn

验证曲线是什么&#xff1f; 验证曲线和学习曲线的区别是&#xff0c;横轴为某个超参数的一系列值&#xff0c;由此来看不同参数设置下模型的准确率(评价标准)&#xff0c;而不是不同训练集大小下的准确率。 从验证曲线上可以看到随着超参数设置的改变&#xff0c;模型可能从…

Java Web 12.1 Filter 12.1.2 Filter 快速入门

Java Web 【黑马程序员新版JavaWeb基础教程&#xff0c;Java web从入门到企业实战完整版】 12 Filter & Listener & Ajax 文章目录Java Web12 Filter & Listener & Ajax12.1 Filter12.1.2 Filter 快速入门12.1 Filter 12.1.2 Filter 快速入门 【开发步骤】…

论如何参与一个开源项目(上)

写在前面的一些话 说起开源项目&#xff0c;好像人人都懂&#xff1a;不过就是一群人一起写了些东西&#xff0c;并且这些东西是公开的&#xff0c;大家都能看。但要细说&#xff0c;可能大多数的开发者都说不出个所以然&#xff0c;甚至不知道怎么提issue。 所以我就想写这样…

这,这,是个神人,我喜欢

国庆的第三天&#xff0c;跟一个好友聊天&#xff0c;他本来是准备回老家的&#xff0c;但是因为疫情搁浅在原地了。上来就直接给我搞一个有难度的代码如果没有人跟你说这个是输出helloworld的&#xff0c;鬼知道这个代码。然后&#xff0c;我就说我想对他进行一个采访&#xf…

QX-A51智能小车实现-物联网应用系统设计项目开发

目录介绍说明展示介绍 STC89C52系列单片机是STC推出的新一代高速/低功耗/超强抗干扰/超低价的单片机&#xff0c;指令代码完全兼容传统8051单片机&#xff0c;12时钟每机器周期和6时钟每机器周期可以任意选择 QX-A51智能小车原理图 QX-A51智能小车配置 硬件组成&#xff1a;电…

QT模型索引使用QModelIndex

QT模型索引使用QModelIndex QModelIndex有三个要素&#xff1a;行row 列column 父节点索引parent 但是注意我们并不能定义一个QModelIndex QModelIndex的构造函数QModelIndex()的功能是创建一个新的空的QModelIndex QModelIdex()是一个空索引&#xff0c;它其实可以代表任意mo…

数据库-MySQL基础(9)-多表关系

目录 概述 1、一对多 2、多对多 3、一对一 多表查询概述 多表查询分类 1、连接查询 2、子查询 概述 项目开发中&#xff0c;在进行数据库表结构关系设计时&#xff0c;会根据业务需求及业务模块之间的关系&#xff0c;分析设计表结构&#xff0c;由于业务之间相互关联…

5、android 数据存储(2)(数据库SQLite:SQLiteDatabase)

1、数据库管理器SQLiteDatabase SQLiteDatabase是SQLite的数据库管理类&#xff0c;它提供了若干操作数据表的API&#xff0c;常用的方法有3类&#xff1a; 1. 管理类&#xff0c;用于数据库层面的操作。 openDatabase&#xff1a;打开指定路径的数据库。 isOpen&#xff1a…

机器学习之学习曲线绘制Python-skleran

学习曲线作用&#xff1a; 学习曲线是什么&#xff1f;简单来说&#xff0c;就是用学习曲线(learning curve)来判断模型状态&#xff1a;过拟合还是欠拟合。 学习曲线定义&#xff1a; 学习曲线是根据不同训练集大小&#xff0c;模型在训练集和验证集上的得分变化曲线。 学…

虚拟机搭建Redis 远程密码可访问,并且后台运行

1、关闭系统防火墙 操作指令备注查看防火墙状态systemctl status firewalld / firewall-cmd --state暂时关闭防火墙systemctl stop firewalld永久关闭防火墙(禁用开机自启)systemctl disable firewalld下次启动,才生效暂时开启防火墙systemctl start firewalld永久开启防火墙(…