二分类混淆矩阵结构_「混淆矩阵」4.4.2分类模型评判指标(一) - 混淆矩阵(Confusion Matrix) - seo实验室...

news/2024/5/20 23:53:59/文章来源:https://blog.csdn.net/weixin_39762666/article/details/113551652

混淆矩阵

简介

混淆矩阵是ROC曲线绘制的基础,同时它也是衡量分类型模型准确度中最基本,最直观,计算最简单的方法。

一句话解释版本:

混淆矩阵就是分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来。这个表就是混淆矩阵。

数据分析与挖掘体系位置

混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(logistic regression)、线性判别分析(Linear Discriminant Analysis)等方法。

在分类型模型评判的指标中,常见的方法有如下三种:

混淆矩阵(也称误差矩阵,Confusion Matrix)

ROC曲线

AUC面积

本篇主要介绍第一种方法,即混淆矩阵,也称误差矩阵。

此方法在整个数据分析与挖掘体系中的位置如下图所示。

ce484ee501dfc3e8b80d64a37ac7cf2a.png

混淆矩阵的定义

混淆矩阵(Confusion Matrix),它的本质远没有它的名字听上去那么拉风。矩阵,可以理解为就是一张表格,混淆矩阵其实就是一张表格而已。

以分类模型中最简单的二分类为例,对于这种问题,我们的模型最终需要判断样本的结果是0还是1,或者说是positive还是negative。

我们通过样本的采集,能够直接知道真实情况下,哪些数据结果是positive,哪些结果是negative。同时,我们通过用样本数据跑出分类型模型的结果,也可以知道模型认为这些数据哪些是positive,哪些是negative。

因此,我们就能得到这样四个基础指标,我称他们是一级指标(最底层的):

真实值是positive,模型认为是positive的数量(True Positive=TP)

真实值是positive,模型认为是negative的数量(False Negative=FN):这就是统计学上的第一类错误(Type I ERROR)

真实值是negative,模型认为是positive的数量(False Positive=FP):这就是统计学上的第二类错误(Type II Error)

真实值是negative,模型认为是negative的数量(True Negative=TN)

将这四个指标一起呈现在表格中,就能得到如下这样一个矩阵,我们称它为混淆矩阵(Confusion Matrix):

45e18cad24970ec7b297ccec424fe61b.png

混淆矩阵的指标

预测性分类模型,肯定是希望越准越好。那么,对应到混淆矩阵中,那肯定是希望TP与TN的数量大,而FP与FN的数量小。所以当我们得到了模型的混淆矩阵后,就需要去看有多少观测值在第二、四象限对应的位置,这里的数值越多越好;反之,在第一、三四象限对应位置出现的观测值肯定是越少越好。

二级指标

但是,混淆矩阵里面统计的是个数,有时候面对大量的数据,光凭算个数,很难衡量模型的优劣。因此混淆矩阵在基本的统计结果上又延伸了如下4个指标,我称他们是二级指标(通过最底层指标加减乘除得到的):

准确率(Accuracy)—— 针对整个模型

精确率(Precision)

灵敏度(sensitivity):就是召回率(Recall)

特异度(Specificity)

我用表格的方式将这四种指标的定义、计算、理解进行了汇总:

4e68a45b3da4859b2a6617ab0eb32795.png

通过上面的四个二级指标,可以将混淆矩阵中数量的结果转化为0-1之间的比率。便于进行标准化的衡量。

在这四个指标的基础上在进行拓展,会产令另外一个三级指标

三级指标

这个指标叫做F1 Score。他的计算公式是:

8b4bd36bd6d5e0adfbf02908bede1722.png

其中,P代表Precision,R代表Recall。

F1-Score指标综合了Precision与Recall的产出的结果。F1-Score的取值范围从0到1的,1代表模型的输出最好,0代表模型的输出结果最差。

混淆矩阵的实例

当分类问题是二分问题是,混淆矩阵可以用上面的方法计算。当分类的结果多于两种的时候,混淆矩阵同时适用。

一下面的混淆矩阵为例,我们的模型目的是为了预测样本是什么动物,这是我们的结果:

8c27d1d539c4a63e80de6e8753e93765.png

通过混淆矩阵,我们可以得到如下结论:

Accuracy

在总共66个动物中,我们一共预测对了10 + 15 + 20=45个样本,所以准确率(Accuracy)=45/66 = 68.2%。

以猫为例,我们可以将上面的图合并为二分问题:

b816d6806b71084f6bf0172a4dd681c3.png

Precision

所以,以猫为例,模型的结果告诉我们,66只动物里有13只是猫,但是其实这13只猫只有10只预测对了。模型认为是猫的13只动物里,有1条狗,两只猪。所以,Precision(猫)= 10/13 = 76.9%

Recall

以猫为例,在总共18只真猫中,我们的模型认为里面只有10只是猫,剩下的3只是狗,5只都是猪。这5只八成是橘猫,能理解。所以,Recall(猫)= 10/18 = 55.6%

Specificity

以猫为例,在总共48只不是猫的动物中,模型认为有45只不是猫。所以,Specificity(猫)= 45/48 = 93.8%。

虽然在45只动物里,模型依然认为错判了6只狗与4只猫,但是从猫的角度而言,模型的判断是没有错的。

(这里是参见了Wikipedia,Confusion Matrix的解释,https://en.wikipedia.org/wiki/Confusion_matrix)

F1-Score

通过公式,可以计算出,对猫而言,F1-Score=(2 * 0.769 *  0.556)/( 0.769 +  0.556) = 64.54%

同样,我们也可以分别计算猪与狗各自的二级指标与三级指标值。

ROC曲线在R中的实现

library(ISLR)

cor(Smarket[,-9])

attach(Smarket)

# logistic Model

model_LR

family = binomial,

data = Smarket)

# Make prediction

prob_LR

prob_LR

# create a vector of class predictions based on wether the predicted probability of a market increase is greater than or less than 0.5

pred_LR

pred_LR[prob_LR > 0.5] = 'Up'

# Confusion Matrix

table(pred_LR, Direction)

相关阅读

混淆矩阵

概念

当说到召回率的时候就说到了混淆矩阵。

再回顾一下召回率吧,案例中有100个正例,猜中(预测对)了59个,我们就说召回率

https://blog.csdn.net/wowotuo/article/details/38262057

混淆矩阵是数据科学、数据分析和机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_726540.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

请在贵网站的根目录下部署一个文件_利用基于Python的Pelican打造一个自己的个人纯静态网站...

原文转载自「刘悦的技术博客」https://v3u.cn/a_id_100其实呢这么多年以来我一直建议每个有技术追求的开发者都要有写技术博客记笔记的良好习惯,一来可以积累知识,二来可以帮助别人,三来可以把开发中遇到的问题记录用来自省,第四可…

与虫子尾交3d动画网站_三维动画多少钱一秒?

一大清早,有位迪粉就在网站上咨询小迪:你们3d动画多少钱?我要普通一点的做宣传用就可以了,做3-5分钟就可以了。……这样的描述,臣妾办不到给你精准报价啊,亲。这里小迪就要和大家聊聊关于3d动画制作方面的收…

利用python爬取_如何利用Python抓取静态网站及其内部资源

原标题:如何利用Python抓取静态网站及其内部资源 来源: Mask 链接: https://segmentfault.com/a/1190000015880780 遇到的需求 前段时间需要快速做个静态展示页面,要求是响应式和较美观。由于时间较短,自己动手写的话也…

有哪些网站是django开发的_网站开发需要哪些技术人员,长春网络公司告诉您

网站开发是基于B/S(IE浏览器)的网页开发,一般具有交互性。它是由若干个页面组成的有联系的集合。并且他作为一个行业的web开发,自从web开发商业化以来,它一直处于一个增长的状态。那么开发一个网站需要用到的专业人员有哪些,以及他…

华为手机丢失定位网站_EMUI这个功能可以帮你找回丢失的手机

一部手机走天下的时代,出门可以不带钱包,尤其假日出行,非常方便,但是如果忘记带手机那你绝对要陷入焦虑中了,更可怕的事在于手机丢失或者被盗,那绝不亚于一场灾难。问题是,当手机丢失我们就只能…

php控制led灯,PHP响应式LED灯具节能灯汽车灯网站整站源码(自适应手机移动端) dedecms内核...

【温馨提示】源码包解压密码:www.youhutong.com资源描述PHP响应式LED灯具节能灯汽车灯网站整站源码(自适应手机移动端) dedecms内核模板介绍:织梦最新内核开发的模板,该模板属于企业通用、HTML5响应式、二极管、灯具、矿灯类企业使用&#xf…

网站首页实战教程html,Python实战课程1-1练习:创建一个网页

最近在网易课堂上学习python的一个实战课程,正好简书也是我喜欢的一个平台,不妨在这里提交作业分享心得。第一个小练习是做一个简单的网页,最终呈现的效果如下:下面开始吧!1.创建html文件将homework文件夹下载到本地&a…

tplogincn服务器无响应,tplogin.cn网站打不开怎么办?

问:设置tplink路由器时,tplogin.cn网站进不去,无法对路由器进行设置,请问如何解决?答:tplogin.cn是tplink路由器的管理页面地址(登录地址),正常情况下,电脑/手机连接tplin路由器后&a…

附录5-SEO优化

SEO(Search Engine Optimization)搜索引擎优化,可以利用搜索引擎的规则提高网站再搜索引擎内的自然排名 我们现在用搜索引擎搜索1 此时 晋江文学城 的排名就要比 百度汉语 的排名高 不过这个应该不是自然排名 在前端中使用TDK三个标签进行SEO优化 T title 标题D …

几个常用的免费高清无版权图片网站

https://www.pexels.com https://pixabay.com https://www.ssyer.com/home https://unsplash.com https://stocksnap.io https://magdeleine.co https://visualhunt.com

网站⭐Windows下,将xampp升级为https

文章目录 🟥 将SSL文件放置到服务器中🟧 修改httpd.conf文件1️⃣ 去除如下的#2️⃣ 替换 Directory 中的内容3️⃣ 添加字段🟨 修改httpd-ssl.conf文件🟩 重启 apache🟥 将SSL文件放置到服务器中 在C:\SOFT\xampp\apache\conf(找到你的目录)文件夹下新建文件夹:…

python模拟登录网站_python模拟登录http basic authentication网站

当访问需要认证的网站时会提示输入正确的用户和密码如果密码错误会返回401的状态码401 Authorization Required 通过python脚本模拟登录#!/usr/bin/python #-*-coding:utf-8-*- import urllib2 #登录的用户名和密码 username "root" password "redhat" u…

tomcat网站根目录在哪里_学习织梦网站必需会的一件事:织梦网站数据备份

学习织梦网站必需会的一件事:织梦网站数据备份任务:宝塔面板织梦网站备份织梦CMS程序运行环境:PHPMySQL所以无论是备份还是还原,都涉及2个部分,一个是web文件的备份,一个是数据库的备份。做好数据备份是站长…

1. Jenkins 学习——传统网站部署流程

传统网站部署的流程 传统的网站部署,大家在运维过程中,网站部署是运维的工作之一,网站部署的流程大致分为: 需求分析—原型设计—开发代码—提交测试—内网部署—确认上线—备份数据—外网更新-最终测试,如果发现外网…

2. Jenkins 学习——目前主流网站部署的流程

目前主流网站部署的流程 目前主流网站部署方法,通过Hudson/Jenkins工具平台实现全自动部署测试,是一个可扩展的持续集成引擎,是一个开源软件项目,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。Jenkins非…

php 开启phalocn 扩展_宝塔BT面板+wordpress如何开启Memcached缓存,让网站飞起来

宝塔BT面板wordpress如何开启Memcached缓存,让网站飞起来,主要减少查询,提升网站访问速度,降低卡顿的风险,减轻服务器压力今天有个朋友让我给他安装调试Memcached,也是一个wordpress站点,之前因…

java动漫网站开题报告_基于Java的动漫网站的设计与实现(JSP,SQL)

基于Java的动漫网站的设计与实现(JSP,SQL)(任务书,开题报告,外文翻译,毕业论文15000字,程序代码,SQLserver数据库,答辩PPT)摘 要随着科技的迅速发展,计算机技术已应用到社会的各个领域。随着计算机技术和通信技术的迅速发展,网络的规模也逐渐增大&#…

php刷网站关键词排名,刷百度快速排名 提升百度网站关键词快速排名上首页-环企优站...

静态URL是什么:URL的定义,是指网页地址或者网页 链接。一般通过URL中是否带有“?”、“ ”“”“php” 9;asp ;等字符来分辩 ,换句话说就是不带有任何 参数的URL,就是静态URL。 静态URL在搜索 引擎上有一定的好处。可 以更加方便…

php网站上传后打不开了,phpcms上传服务器后,后台打不开怎么办

phpcms上传服务器后怎么打不开后台?如果有报错信息,一般情况是需要改配置文件的。操作步骤如下:1、把网站打包通过FTP上传到服务器,服务器解压。2、数据库导出在导入服务器数据库。注意编码格式。3、网站程序解压完成修改配置文件…

爬取某网站景区列表并保存为csv文件

爬取某网站景区列表并保存为csv文件 网址:http://www.halehuo.com/jingqu.html 经过查看可以发现,该景区页面没有分页,不停的往下拉,页面会进行刷新显示后面的景区信息 通过使用浏览器调试器,发现该网站使用的是post请求,使用ajax传输数据 请求参数: 响应数据: 经过以上分析,…