Machine Learning机器学习之统计分析

news/2024/4/28 7:36:02/文章来源:https://blog.csdn.net/a910247/article/details/137127814

目录

前言

机器学习之统计分析

统计学的主要目标包括:

统计学核心概念:

统计基础:

 训练误差:

常见的损失函数:

正则化和交叉验证


博主介绍:✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神,答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战,深受全网粉丝喜爱与支持✌有需要可以联系作者我哦!

🍅文末三连哦🍅

👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟

前言

机器学习是一种人工智能(AI)的分支领域,其目标是通过从数据中学习规律和模式,让计算机系统能够从经验中改善和自我完善。简单来说,机器学习是一种让计算机从数据中学习如何完成任务的方法,而无需明确地编程规则。通常情况下,机器学习算法会分析大量的数据,识别数据中的模式和趋势,并利用这些模式和趋势进行预测或决策。机器学习的关键在于自动化地从数据中发现规律和模式,并利用这些知识来解决新的问题或做出预测。

机器学习基本方法通常可以分为以下几类:

  1. 监督学习(Supervised Learning)

    • 在监督学习中,我们有一个带有标签的训练数据集,其中每个样本都有一个对应的标签(或目标)。算法的任务是学习输入特征与输出标签之间的关系,以便对未知数据进行预测。常见的监督学习任务包括回归和分类。
    • 常见的监督学习算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机等。
  2. 无监督学习(Unsupervised Learning)

    • 在无监督学习中,训练数据没有标签或目标变量。算法的任务是从数据中发现模式、结构或关系,或者进行数据的降维、聚类等操作。
    • 常见的无监督学习算法包括聚类、降维、关联规则挖掘等。例如,K均值聚类、主成分分析(PCA)、关联规则挖掘等。
  3. 半监督学习(Semi-Supervised Learning)

    • 半监督学习是介于监督学习和无监督学习之间的学习范式,它结合了带标签数据和不带标签数据进行建模。通常情况下,带标签的数据较少,而不带标签的数据较多。
    • 半监督学习的目标是利用不带标签的数据来提高模型的性能和泛化能力。常见的方法包括基于图的方法、生成模型和自监督学习等。
  4. 增强学习(Reinforcement Learning)

    • 在增强学习中,智能体通过与环境的交互来学习如何在给定的环境中采取行动以获得最大的累积奖励。与监督学习不同,增强学习中的训练数据通常是通过试错的方式收集的。
    • 增强学习常用于解决需要长期决策和策略优化的问题,如游戏、机器人控制、自动驾驶等。

机器学习之统计分析

统计学是一门研究如何收集、分析、解释和展示数据的学科。它是一种用于从数据中提取信息、进行推断和做出决策的方法论。统计学涉及到许多不同的技术和方法,可以应用于各种领域,包括科学、工程、医学、社会科学、经济学等。

统计学的主要目标包括:

  • 描述数据:统计学可以帮助我们了解数据的特征和分布,包括中心趋势、离散程度、分布形状等。
  • 推断和预测:统计学可以通过样本数据对总体进行推断,并利用统计模型进行预测和假设检验。
  • 决策支持:统计学可以帮助我们在面对不确定性和风险时做出最佳决策,包括风险评估、优化问题等。
  • 模型拟合:统计学可以帮助我们建立数学模型来解释数据的生成过程,并对模型进行拟合和评估。

统计学核心概念

  • 总体和样本

    • 总体是研究对象的全体,而样本是从总体中抽取的部分数据。统计学通常通过对样本数据的分析来推断总体的特征和性质。
  • 描述统计

    • 描述统计是对数据进行总结和展示的方法,包括中心趋势(均值、中位数、众数)、离散程度(方差、标准差、范围)、分布形状(偏度、峰度)等。
  • 概率论

    • 概率论是研究随机现象规律性的数学理论。它涉及到事件的概率、随机变量、概率分布、期望和方差等概念,是统计学的理论基础之一。
  • 统计推断

    • 统计推断是利用样本数据对总体进行推断的方法,包括参数估计和假设检验。参数估计是通过样本数据估计总体参数的值,假设检验是根据样本数据对总体参数进行假设检验,以判断假设是否成立。
  • 回归分析

    • 回归分析是研究变量之间关系的统计方法,它用于预测因变量(响应变量)与自变量(解释变量)之间的关系。常见的回归分析包括线性回归、多项式回归、逻辑回归等。
  • 方差分析

    • 方差分析是用于比较两个或多个总体均值是否相等的统计方法。它将总体方差分解为组内方差和组间方差,从而判断不同组之间的均值差异是否显著。
  • 贝叶斯统计

    • 贝叶斯统计是一种基于贝叶斯定理的统计学方法,它通过先验概率和样本数据来更新对参数的估计,从而得到后验概率分布。
  • 时间序列分析

    • 时间序列分析是研究时间序列数据的统计方法,包括趋势分析、季节性分析、周期性分析和相关性分析等,常用于预测和趋势分析。

统计基础:

输入空间和输出空间

  -输入空间 X是指可能输入的所有特征值的集合。在监督学习中,输入空间表示了所有可能的输入特征组合。

   -输出空间 Y  是指可能输出的所有标签或类别的集合。在分类问题中,输出空间表示了所有可能的类别。

联合概率分布
   -联合概率分布P(X, Y)是多个随机变量 X 和 Y 同时取值的概率分布。它描述了输入和输出之间的联合分布关系。
   - 在监督学习中,我们希望学习到的模型能够逼近或拟合真实的联合概率分布,以便对新的输入样本进行预测或分类。

超参数
   - 超参数是机器学习算法中用于控制模型学习过程的参数,它不是通过训练数据学习得到的,而是在训练之前设定的。
   - 例如,在神经网络中,超参数包括学习率、隐藏层节点数、迭代次数等。这些超参数需要手动调整,以优化模型的性能和泛化能力。

损失函数和风险函数
   - 损失函数L(y, \hat{y})用于衡量模型预测结果\hat{y}与真实标签  y 之间的差异。它是一个关于预测值和真实值的函数。
   - 风险函数(或损失函数的期望)是对损失函数在整个样本空间上的期望值的度量,通常用于评估模型的性能和泛化能力。
   - 在监督学习中,我们的目标是最小化风险函数,即使模型在未见过的数据上也能做出准确的预测或分类。

 训练误差:

训练误差是机器学习模型在训练集上的表现误差,它是模型在训练过程中根据训练数据计算得出的。训练误差通常用于评估模型在训练数据上的拟合程度,即模型对训练数据的拟合程度。

训练误差可以通过损失函数来度量损失函数衡量了模型的预测结果与真实标签之间的差异。在监督学习中,训练误差通常是损失函数在训练集上的平均值或总和。

训练误差的大小通常与模型的复杂度和拟合能力有关。如果模型过于简单,可能无法很好地拟合训练数据,导致较高的训练误差;如果模型过于复杂,可能会出现过拟合现象,导致训练误差很低,但在未见过的数据上表现不佳。在模型训练过程中,通常会根据训练误差来调整模型的参数或超参数,以优化模型的性能和泛化能力。然而,需要注意的是,训练误差不一定能够准确地反映模型在未见过的数据上的表现,因此还需要使用验证集或交叉验证来评估模型的泛化能力。

常见的损失函数:

1. 均方误差(MSE):
 均方误差是预测值与真实值之间差异的平方的平均值。在回归问题中经常使用。均方误差公式:


\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

其中,n是样本数量,y_i是第 i个样本的真实值,\hat{y}_i是模型对第i个样本的预测值。

2. 交叉熵(Cross Entropy):
交叉熵是用于度量两个概率分布之间差异的指标,通常用于分类问题中。对于二分类问题,交叉熵的公式为二分类交叉熵:


\text{Binary Cross Entropy} = -\frac{1}{n} \sum_{i=1}^{n} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]


 其中,n 是样本数量,y_i是第 i 个样本的真实标签(0 或 1),\hat{y}_i是模型对第i个样本的预测概率。

正则化和交叉验证

1. 正则化(Regularization):
   - 正则化是通过在模型的损失函数中添加额外的惩罚项来减少模型的复杂度,防止过拟合。正则化项通常是模型参数的 L1 范数(Lasso 正则化)或 L2 范数(Ridge 正则化)。
   - 正则化的目标是在最小化损失函数的同时,使模型的参数保持较小的值,从而避免模型过于复杂。这有助于提高模型在未见过的数据上的泛化能力。
   - 例如,在线性回归中,正则化的损失函数可以表示为损失函数和正则化项之和:\text{Loss} = \text{MSE} + \lambda \cdot \text{Regularization Term}其中,\lambda是正则化参数,控制正则化项对总损失的影响程度。

2. 交叉验证(Cross Validation):
   - 交叉验证是一种用于评估模型性能和选择超参数的技术。它通过将数据集划分为训练集和验证集,并多次重复训练和验证过程来评估模型的泛化能力。
   - 常见的交叉验证方法包括 K 折交叉验证和留一交叉验证。在 K 折交叉验证中,数据集被划分为 K 个子集,每次使用其中的 K-1 个子集进行训练,剩余的一个子集进行验证。
   - 交叉验证可以帮助我们更准确地评估模型的性能,减少因样本划分不合理而引入的偏差。它还可以帮助选择模型的超参数,如正则化参数。

综上所述,正则化和交叉验证都是常用的提高机器学习模型泛化能力的技术。正则化通过控制模型的复杂度来减少过拟合,而交叉验证则通过对模型的性能进行多次评估来减少评估误差,选择最优的模型和超参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1027232.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络工程师之路由交换技术篇

网络工程师之路由交换技术篇 路由交换之技术篇ARPICMPBPDUIPv6IP编址MAC其他技术点参考 以下均为个人笔记,摘录到csdn做备份 路由交换之技术篇 ARP Operation Code指定了ARP报文的类型, 包括ARP request 和ARP reply;取值为1或者2 &#x…

uniapp输入框事件(防抖)

一、描述 在输入框输入内容或者说输入关键词的时候,往往都要进行做防抖处理。如果不做防抖,你输入什么,动态绑定的数据就会保持一致。这样不好吗,同步获取。有个业务场景,如果是搜索框,你每次一个字符&…

Java中读取html文件转成String,展示在浏览器

这里写目录标题 第一章1.1&#xff09;pom中引入依赖和html文件示例1.2&#xff09;使用hutool工具包读取html文件转为string1.3&#xff09;页面显示 第一章 1.1&#xff09;pom中引入依赖和html文件示例 引入hutool工具包依赖 <dependency><groupId>cn.hutool&…

【Linux】 gcc(linux下的编译器)程序的编译和链接详解

目录 前言&#xff1a;快速认识gcc 1. 程序的翻译环境和执行环境 2.编译和链接 2.1翻译环境 2.2编译环境 1. 预处理 gcc -E指令 test.c&#xff08;源文件&#xff09; -o test.i&#xff08;生成在一个文件中&#xff0c;可以自己指定&#xff09; 预处理完成之后就停下来&am…

贪心算法--最大数

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 本题链接https://leetcode.cn/problems/largest-number/description/ class Solution { public:bool static compare(int a, int b){return (to_string(a) to_string(b)) > (to_string(b) to_string(a));}bool operato…

MySQL创建表:练习题

练习题&#xff1a; 创建一个名为"students"的数据库&#xff0c;并切换到该数据库。 在"students"数据库中创建一个名为"grades"的表&#xff0c;包含以下字段&#xff1a; id: 整数类型 name: 字符串类型&#xff0c;学生姓名 subject: 字符串…

最小可行产品需要最小可行架构——可持续架构(三)

前言 最小可行产品&#xff08;MVP&#xff09;的概念可以帮助团队专注于尽快交付他们认为对客户最有价值的东西&#xff0c;以便在投入大量时间和资源之前迅速、廉价地评估产品的市场规模。MVP不仅需要考虑产品的市场可行性&#xff0c;还需要考虑其技术可行性&#xff0c;以…

计算机专业学习单片机有什么意义吗?

玩单片机跟玩计算机区别还是很大的, 单片机有众多的种类,每一种又可能有很多个系列.可以说单片机就是为了专款专用而生的.这样来达到产品成本的降低,这就是现在身边的很多的电子产品价格一降再降的原因之一.在开始前我有一些资料&#xff0c;是我根据网友给的问题精心整理了一…

安装paddle detection心得

一、安装PaddlePaddle conda create -n mypaddle python3.8 conda activate mypaddle python -m pip install paddlepaddle-gpu2.6.0 -i https://mirror.baidu.com/pypi/simple 请确保您的PaddlePaddle安装成功并且版本不低于需求版本。使用以下命令进行验证。 这是CUDA1…

SpringBoot项目启动成功,但是调用接口直接报NOT FOUND 404

问题描述 SpringBoot项目启动成功&#xff0c;但是调用接口直接报NOT FOUND 404 解决办法 启动类中ComponentScan(basePackages {“com.afclab”})中的扫包路径和项目路径不一样&#xff0c;导致扫不到Controller等组件&#xff0c;修改成和项目路径一样就可以解决&#xf…

8、鸿蒙学习-HAR

HAR&#xff08;Harmony Archive&#xff09;是静态共享包&#xff0c;可以包含代码、C库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。HAR不同于HAP&#xff0c;不能独立安装运行在设备上。只能作为应用模块的依赖项被引用。 一、创建…

206基于matlab的无人机航迹规划(UAV track plannin)

基于matlab的无人机航迹规划(UAV track plannin&#xff09;。输入输出参数包括 横滚、俯仰、航向角&#xff08;单位&#xff1a;度&#xff09;&#xff1b;横滚速率、俯仰速率、航向角速率&#xff08;单位&#xff1a;度/秒&#xff09;&#xff1b;飞机运动速度——X右翼、…

小美的平衡矩阵(前缀和例题)

2024美团秋招&#xff0c;被这一题给难住了 美团校招笔试真题_Java工程师、C工程师_牛客网 题目&#xff1a; 解答&#xff1a; 这道题的关键点就是要计算出以某一点为矩阵右下角时&#xff0c;1的个数 我一开始是想着遍历&#xff0c;以某一点为起点&#xff08;矩阵左上角&a…

Github万星项目lobe-chat,连接GPT4GPTs,平替chatgpt-plus

简介 Lobe Chat - 一个开源、高性能的聊天机器人框架&#xff0c;支持语音合成、多模态和可扩展的函数调用插件系统。支持一键免费部署您的私人 ChatGPT/LLM Web 应用程序。 项目地址&#xff1a; GitHub - lobehub/lobe-chat: &#x1f92f; Lobe Chat - an open-source, mo…

稀碎从零算法笔记Day32-LeetCode:每日温度

算是引出“单调栈”这种数据结构&#xff0c;后面会用这个思想处理下接雨水问题 前言&#xff1a;单调栈模式匹配——题目中提到“求第一个最大/最小的元素” 题型&#xff1a;栈、单调栈、数组 链接&#xff1a;739. 每日温度 - 力扣&#xff08;LeetCode&#xff09; 来源…

Eclipse+Java+Swing实现斗地主游戏

一. 视频演示效果 java斗地主源码演示 ​ 二.项目结构 代码十分简洁&#xff0c;只有简单的7个类&#xff0c;实现了人机对战 素材为若干的gif图片 三.项目实现 启动类为Main类&#xff0c;继承之JFrame&#xff0c;JFrame 是 Java Swing 库中的一个类&#xff0c;用于创建窗…

深度学习500问——Chapter05: 卷积神经网络(CNN)(1)

文章目录 5.1 卷积神经网络的组成层 5.1.1 输入层 5.1.2 卷积层 5.1.3 激活层 5.1.4 池化层 5.1.5 全连接层 5.2 卷积在图像中有什么直观作用 5.3 卷积层有哪些基本参数 5.4 卷积核有什么类型 5.5 二维卷积与三维卷积有什么区别 卷积神经网络是一种用来处理局部和整体相关性的计…

Unity图集编辑器

图集编辑器 欢迎使用图集编辑器新的改变编辑器图片 欢迎使用图集编辑器 Unity图集操作很是费劲 无法批量删除和添加图集中的图片 新的改变 自己写了一个图集编辑器 客&#xff1a; 支持批量删除 左键点击图片代表选中 右键点击图标定位到资产支持批量添加 选中图片拖拽到编…

基于Spring boot + Vue协同过滤算法的电影推荐系统

末尾获取源码作者介绍&#xff1a;大家好&#xff0c;我是墨韵&#xff0c;本人4年开发经验&#xff0c;专注定制项目开发 更多项目&#xff1a;CSDN主页YAML墨韵 学如逆水行舟&#xff0c;不进则退。学习如赶路&#xff0c;不能慢一步。 目录 一、项目简介 二、开发技术与环…

iOS开发进阶(十一):ViewController 控制器详解

文章目录 一、前言二、UIViewController三、UINavigationController四、UITabBarController五、UIPageViewController六、拓展阅读 一、前言 iOS 界面开发最重要的首属ViewController和View&#xff0c;ViewController是View的控制器&#xff0c;也就是一般的页面&#xff0c;…