【22-23 春学期】人工智能基础--AI作业2-监督学习

news/2024/5/20 4:45:33/文章来源:https://blog.csdn.net/pakerder/article/details/130379509

【22-23 春学期】AI作业2-监督学习_HBU_David的博客-CSDN博客

用自己的语言,解释以下概念

1 结构风险最小化

2 正则化

3 线性回归

4 逻辑斯蒂回归

5 Sigmoid 与 SoftMax 函数

6 决策树

7 信息熵 条件熵 信息增益

8 线性判别分析 LDA

9 概率近似正确 PAC

10 自适应提升AdaBoost

结构风险最小化

  • 为了防止由数据量、噪声或模型本身造成的过拟合问题,往往需要对模型本身进行限制,使其不要过度地经验风险最小化,因此在经验风险之上再引入正则化项(或惩罚项),以此来平衡经验最小化和模型复杂度。

正则化

  • 正则化是一种为了防止过拟合和提高模型泛化能力的方法,它通过对模型参数的约束来避免模型复杂度过高,在损失函数中加入一个正则项,如 L1 正则或 L2 正则,来惩罚模型参数的大小。

补:L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓惩罚是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。

线性回归

  • 刻画目标变量与一个或者多个变量之间关系的模型就是回归模型,如果这种关系是线性的,这个模型就称为线性回归模型。对原数据进行一系列数据拟合,并尽可能构造一条可以拟合数据的数学模型,根据这个模型,输入测试数据进而预测数据的结果

逻辑斯蒂回归(对数几率回归)

  • logistic 回归分析实质是一种分类,它是研究因变量为二项分类或多项分类结果与某些影响因素之间关系的一种多重回归分析方法。同线性回归一样通过对一系列数据拟合模型,来预测未来某一数据的走向,但是不同的时逻辑斯蒂回归则是建立模型将数据分为不同的类别,然后预测某个数据的类别
  • logistic回归是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域(概率问题)。

Sigmoid & SoftMax 函数

  • S 型函数(英语:sigmoid function,或称乙状函数)是一种函数,因其函数图像形状像字母S得名。其形状曲线至少有2个焦点,也叫“二焦点曲线函数”。S型函数是有界、可微的实函数,在实数范围内均有取值,且导数恒为非负,有且只有一个拐点。
  • 建立在 Sigmoid 函数基础上的逻辑斯蒂回归只能解决二分类问题。因此将其推广为了即多项逻辑斯蒂回归(muti-nominal logistic model,也即 softmax 函数)用于处理多分类问题,便可以得到 softmax 回归。

决策树

  • 机器学习中的决策树是一种基于树形结构的分类或回归算法,它通过对数据集进行递归划分,根据不同属性的取值来生成决策规则。决策树的优点是易于理解和解释,并且可以处理缺失值、离散值和连续值等多种类型的数据。决策树的缺点是可能产生过拟合、不稳定和偏向性等问题。

信息熵 条件熵 信息增益

  1. 信息熵:信息熵时度量样本集合纯度的最常用的一种指标,它衡量了信息不确定性的量化,反映信息的复杂程度和随机性(即信息的混乱程度,类比物理学中的熵)。信息熵越大,表示信息的不确定性与混乱程度越高。信息熵越小,表示信息的不确定性与混乱程度也就越低。
  2. 条件熵: 条件熵是一种衡量在已知一个随机变量的情况下,另一随机变量不确定性的量化指标,它反映了两个随机变量之间的依赖关系。条件熵越大,表示两个随机变量之间的相关性越低,也就需要更多的信息来描述另一个随机变量。条件熵越小,表示两个随机变量之间的相关性越高,也就需要更少的信息来描述另一个随机变量。
  3. 信息增益:信息增益是一种衡量在已知一个特征或条件时,目标变量的不确定性减少程度(减少程度)的量化指标,反映了一个特征或条件对于目标变量的区分能力。信息增益越大,表示一个特征或条件对于目标变量的影响越大,也就更利于分类或决策。信息增益越小,表示一个特征或条件对于目标变量的影响越小,也就更不利于分类或决策。

线性判别分析 LDA

  • 线性判别分析LDA(Linear Discriminant Analysis)又称为Fisher线性判别分析(fisher Discriminant Analysis,FDA),是一种基于监督学习的降维技术,也就是说它的数据集的每个样本都是有类别输出的,这点与PCA(无监督学习)不同。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用。
  • LDA的思想是:最大化类间均值,最小化类内方差。意思就是将数据投影在低维度上,并且投影后同类别别数据的投影点尽可能的接近不同类别数据的投影点的中心点尽可能的

概率近似正确 PAC

  • 概率近似正确(Poably Approixmately Correct)是用来刻画机器学习中的可学习性问题。 PAC研究的问题包括:
  1. 如何知道学习所得的假设(hypothesis)是正确的、
  2. 为了接近真实假设所需要的训练数据是多少
  3. 假设空间的复杂度符合衡量以及如何选择假设空间。
  4. PAC的基本思想是,给定一个概念类(从输入空间到输出空间的映射集合),一个学习算法可以从有限的训练样本中找到一个近似于真实概念的假设,且这个假设以高于某个阈值的概率满足某个误差界。

自适应提升 AdaBoost

  1. 强可学习(strongly learnable):指学习模型可以以较高的学习精度对绝大多数样本完成识别任务;
  2. 弱可学习(weakly learnable):指学习模型仅能完成若干部分的样本识别和分类。
  3. AdaBoost:自适应提升 AdaBoost是一种集成学习的方法,它通过迭代地训练一系列的弱分类器,并根据每个弱分类器的误差率给予不同的权重,最后将它们组合成一个强分类器。AdaBoost可以处理分类和回归问题,具有很好的泛化能力和抗噪声能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_103976.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新:机器学习在生态、环境经济学中的实践技术应用及论文写作

查看原文>>>最新:机器学习在生态、环境经济学中的实践技术应用及论文写作 目录 专题一、理论基础与软件介绍 专题二、数据的获取与整理 专题三、常用评价方法与相关软件详细教学(案例详解) 专题四、写作要点与案例的讲解 近年来…

新手必看:蓝牙耳机什么牌子的好用?2023年蓝牙耳机排名

上班通勤、健身运动、游戏娱乐都离不开蓝牙耳机,蓝牙耳机市场这几年逐渐饱和,涌现了大量的品牌,蓝牙耳机什么牌子的好用成为热议话题,新手们在挑选时会参考排行榜,小编接下来将盘点2023年蓝牙耳机排名。 ●JEET Air 2蓝…

01 背包 (二维 )

首先是我对背包问题的理解: 有一个背包可以放下 n kg,有一些物品,价值和重量一一对应,问题是,需要怎样才能使背包中的价值最大? 不同的规则对应不同的背包问题 01背包:每一个物品只能被放入一次…

gl-opendrive插件(车俩3D仿真模拟自动驾驶)

简介 本插件基于免费opendrive开源插件、Threejs和Webgl三维技术、vue前端框架,blender开源建模工具等进行二次开发。该插件由本人独立开发以及负责,目前处于demo阶段,功能还需待完善,由于开发仓促代码还需优化。 因此&#xff…

el-input-number 输入框添加单位

需求 使用 element-ui 的 InputNumber 控件,实现金额填写,需要在数字后面添加一个单位:元 实现效果 代码部分 <template><el-dialogclass="morendialog":title="(formData.id ? 修改 : 新增) + title":visi

webhub123 设计师好用的笔刷纹理网站收录​

整理了一些可以免费下载的好用的笔刷和纹理资源网站&#xff0c;收录到 webhub123 设计师好用的笔刷纹理网站收录​http://www.webhub123.com/#/home/detail?projectHashid31645930&ownerUserid21336964 收录效果如下&#xff0c;每个网站显示为一张图片&#xff0c;点击…

[ZJCTF 2019]EasyHeap-patchlibc-调试

1,三连 主要功能&#xff1a; 1、malloc申请chunk 2、修改chunk内容 3、free chunk 4、exit 堆题多看一个libc信息&#xff1a; 2,IDA分析 2.1、malloc申请chunk heaparray[i]&#xff1a;存放 chunk 的地址。read_input(heaparray[i], size)&#xff1a;向 chunk 写入 s…

TryHackMe-Mnemonic(boot2root)

Mnemonic I hope you have fun. 端口扫描 循例nmap FTP枚举 尝试anonymous Web枚举 进80 gobuster扫 对着webmasters再扫一下 对着backups继续扫 下载zip文件&#xff0c;发现有密码 zip2john john直接爆 查看note.txt, 给出了ftpuser hydra直接爆ftp 进到ftp 用wget下载所…

【数据库】事务的隔离级别以及实现原理

文章目录 前言一、事务什么是事务&#xff1f;事务的四大特性分别是 二、事务并发存在的问题脏读可重复读不可重复读幻读 三、以MYSQL数据库来分析四种隔离级别第一种隔离级别&#xff1a;Read uncommitted(读未提交)第二种隔离级别&#xff1a;Read committed(读提交)第三种隔…

原生小程序如何使用pdf.js实现查看pdf,以及关键词检索高亮

1.下载pdf.js库文件 前往 pdf.js 的 官网 下载库文件&#xff0c;下哪个版本都可以&#xff0c;后者适用于旧版浏览器&#xff0c;所以我下载的是后者 下载完成后&#xff0c;因为微信小程序打包的限制&#xff0c;我将库文件放到项目的后台系统了&#xff0c;在h5端处理会比在…

为什么企业要做大规模敏捷?

背景 软件工程里一个重要的指标就是“可用的软件”&#xff0c;敏捷宣言里也同样告诉我们“工作的软件高于详尽的文档”&#xff0c;那“可用的软件”、“工作的软件”意味着什么呢&#xff1f;在我的理解里&#xff0c;可以经历用户 “千锤百炼”的软件就是一个“可用的软件”…

Linux系统上C程序的编译与调试

gcc分布编译链接&#xff1a; 预处理&#xff08;Pre-Processing&#xff09;编译&#xff08;Compiling&#xff09;汇编&#xff08;Assembling&#xff09;链接&#xff08;Linking&#xff09; gcc -E hello.c -o hello.i #预处理 gcc -S hello.i -o hello.s #编译 gcc -c…

Android App 架构 面试专题,你可能会被问到的 20 个问题

iveData 是否已经被弃用? 没有被弃用。在可以预见的未来也没有废弃的计划。 LiveData 可以使用简单的方式获取一个易于观察、状态安全的对象。虽然其缺少一些丰富的操作符&#xff0c;但是对于一些简单的 UI 业务场景已经足够。 Flow 有 LiveData 相同的功能&#xff0c;其…

Hadoop2.x集群搭建(centos7、VMware、finalshell)

第一章 Hadoop集群安装 1.1 集群规划 集群规划规划操作系统Mac、Windows虚拟软件Parallels Desktop(Mac)、VMWare(Windows)虚拟机主机名: c1, IP地址: 192.168.10.101主机名: c2, IP地址: 192.168.10.102主机名: c3, IP地址: 192.168.10.103软件包上传路径/root/softwares软件…

一维卷积与一维平均池化的时间复杂度

看Pytorch官方文档就懂了: 1维卷积 1维平均池化 参考资料 Conv1d — PyTorch 2.0 documentation AvgPool1d — PyTorch 2.0 documentation

【软件测试面试】面试技巧,让面试官记住的自我介绍,疯狂收割offer.....

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 在讨论如何自我介…

python基于轻量级YOLOv5的生猪检测+状态识别分析系统

在我之前的一篇文章中有过生猪检测盒状态识别相关的项目实践&#xff0c;如下&#xff1a; 《Python基于yolov4实现生猪检测及状态识》 感兴趣的话可以自行移步阅读&#xff0c;这里主要是基于同样的技术思想&#xff0c;将原始体积较大的yolov4模型做无缝替换&#xff0c;使…

大数据之入门开发流程介绍

目录&#xff1a; 1、大数据的开发大致流程2、技术导图 1、大数据的开发大致流程 1.1 数据收集 大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署&#xff0c;所以数据的采集需要在多台服务器上进行&#xff0c;且采集过程不能影响正常业务的…

Tpflow V7.0.2 PHP 工作流引擎新版发布

欢迎使用 Tpflow V7.0.1 工作流引擎 TpFlow 工作流引擎是一套规范化的流程管理系统&#xff0c;基于业务而驱动系统生命力的一套引擎。彻底释放整个信息管理系统的的活力&#xff0c;让系统更具可用性&#xff0c;智能应用型&#xff0c;便捷设计性。Tpflow 团队致力于打造中国…

ArcGIS Pro、R、INVEST等多技术融合下生态系统服务权衡与协同动态分析

第一章、生态系统服务讲解 1.生态系统服务概念和基本理论 ​ 2.生态系统服务评估方法与模型讲解 ​ ​ 3.生态系统服务权衡与协同研究方法与意义 ​ 4.文献可视化分析 ​ ​ 第二章、平台基础 一、ArcGIS Pro介绍1. ArcGIS Pro简介2. ArcGIS Pro基础3. ArcGIS Pro数据预处理4…