数据科学的统计学知识笔记

news/2024/4/29 12:39:33/文章来源:https://blog.csdn.net/weixin_44343319/article/details/127272592

1.描述统计

1.数字特征(描述统计)

  1. 集中趋势
    1. 众数
    2. 中位数
    3. 四分位数
    4. 平均数:样本平均数(xˉ\bar{x}xˉ)与总体平均数(μ\muμ
  2. 离中趋势(离散趋势)
  3. 异众比率:非众数组的频数占总频数的比例,用于衡量众数的代表性
  4. 四分位差:上四分位数与下四分位数之差,用于衡量中位数的代表性
  5. 方差和标准差:总体方差σ2\sigma^2σ2(总体标准差σ\sigmaσ)或样本方差s2s^2s2(样本标准差sss)(注意样本方差计算时除以n-1)
    • 标准化值:zi=xi−xˉsz_i = \frac{x_i - \bar{x}}{s}zi=sxixˉ
    • 经验法则:对称分布时3σ\sigmaσ 原则
    • 切比雪夫不等式
  6. 离散系数(变异系数):标准差算数平均数\frac{\text{标准差}}{算数平均数}算数平均数标准差

2.推断统计

推断统计学:通过从总体中抽取样本构造适当的统计量,由样本性质推断关于总体的性质。统计量是从样本中得出的一些代表性的数字(依赖于总体分布的未知参数不属于统计量,比如期望和方差),是推断统计的基础。

2.1抽样分布

抽样分布是指统计量的分布,从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。

  1. 卡方分布:随机变量X1,X2,⋯,XniidX_1,X_2,\cdots,X_n iidX1,X2,,XniidXi∼N(0,1)X_i \sim N(0,1)XiN(0,1),则Z=∑i=1nXi2∼χ2(n)Z= \sum\limits_{i=1}^n X_i^2 \sim \chi^2(n)Z=i=1nXi2χ2(n)
    • 应用:
      • 参数估计:由样本方差推断总体方差:总体均值μ\muμ未知,对σ2\sigma^2σ2区间估计,T=(n−1)S2σ2∼χ2(n−1)T = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)T=σ2(n1)S2χ2(n1)
      • χ2\chi^2χ2拟合检验法:用来检验总体是否具有某一个指定的分布或属于某一个分布族(因为有时不能知道总体服从什么类型的分布)
  2. t分布:随机变量X∼N(0,1),Y∼χ2(n),X与Y独立X \sim N(0,1), Y \sim \chi^2(n), \text{X与Y独立}XN(0,1),Yχ2(n),XY独立,则Z=XYn∼t(n)Z = \frac{X}{\sqrt{\frac{Y}{n}}} \sim t(n)Z=nYXt(n)
    • 应用:t检验
      • 参数估计:小样本下,由样本平均数推断总体平均数,总体方差σ2\sigma^2σ2未知,对μ\muμ区间估计,T=Xˉ−μSn∼t(n−1)T= \frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}} \sim t(n-1)T=nSXˉμt(n1)
      • 两个正态总体均值差μ1−μ2\mu_1-\mu_2μ1μ2的置信区间(两正态总体方差未知)
      • 回归系数的显著性检验
  3. F分布:随机变量X∼χ2(m),Y∼χ2(n),X与Y独立X\sim \chi^2(m),Y\sim \chi^2(n),X与Y独立Xχ2(m),Yχ2(n),XY独立,则Z=X/mY/n∼F(m,n)Z = \frac{X/m}{Y/n} \sim F(m,n)Z=Y/nX/mF(m,n)
    • 应用:
      • 方差齐性检验:两个正态总体方差比σ12σ22\frac{\sigma_1^2}{\sigma_2^2}σ22σ12的置信区间(两正态总体均值未知)
      • 线性回归方程整体的显著性检验:判断线性关系是否显著
        在这里插入图片描述
        在这里插入图片描述

2.2 参数估计

  1. 点估计:用样本统计量的某个取值直接作为总体参数的估计值
  2. 区间估计:根据一定的正确度与精确度(置信水平=1−α1-\alpha1α)的要求,构造出适当的区间(置信区间),作为总体分布的未知参数或参数的函数的真值所在范围的估计。

在这里插入图片描述

2.3 假设检验

在总体的分布函数完全未知或只知其形式、但不知其参数的情况下,为了推断总体的某些未知特征,提出某些关于总体的假设,根据样本对提出的假设做出接受还是拒绝的决策。

  1. 区间估计和假设检验之间的关系:

    区间估计:(θ‾,θˉ)是θ的一个置信水平为1−α的置信区间,Θ是θ取值范围,∀θ∈Θ,P(θ‾<θ<θˉ)≥1−α(\underline{\theta},\bar{\theta})是\theta的一个置信水平为1-\alpha的置信区间,\Theta是\theta取值范围,\forall \theta \in \Theta,P(\underline{\theta}<\theta<\bar{\theta}) \ge 1-\alpha(θ,θˉ)θ的一个置信水平为1α的置信区间,Θθ取值范围,θΘP(θ<θ<θˉ)1α

    双边检验:显著性水平为α\alphaαH0:θ=θ0,H1:θ≠θ0H_0:\theta=\theta_0, H_1:\theta \neq \theta_0H0:θ=θ0,H1:θ=θ0,有P((θ≤θ‾)∪(θ≥θˉ))=αP{((\theta \le \underline\theta) \cup (\theta \ge \bar{\theta}))}=\alphaP((θθ)(θθˉ))=α,即拒绝域为(θ≤θ‾)∪(θ≥θˉ)(\theta \le \underline\theta) \cup (\theta \ge \bar{\theta})(θθ)(θθˉ)

  2. 非参数检验:总体分布未知(因此不涉及总体分布的参数),检验能力较弱

    • 卡方检验:分析列联表中行变量和列变量是否互相独立

3. 基本分析方法

  1. 相关分析:相关分析最全总结

    1. 相关系数(或皮尔逊相关系数):用于Numerical Data,比如x和y
      • 相关系数的显著性检验(t检验)
    2. 卡方检验:用于Nominal Data,比如二乘二列联表分析是否吸烟和性别的关系
  2. 回归分析:先进行相关分析确定变量存在相关性,然后使用回归分析确定数据关系的具体形式

    • 种类:一元回归,多元回归,线性回归,非线性回归
    • 判定系数:衡量了回归直线对观测数据的拟合优度
      R=SSRSST=∑i=1n(yi^−yˉ)2∑i=1n(yi−yˉ)2R=\frac{SSR}{SST}=\frac{\sum\limits_{i=1}^n (\hat{y_i} - \bar{y})^2}{\sum\limits_{i=1}^n (y_i - \bar{y})^2}R=SSTSSR=i=1n(yiyˉ)2i=1n(yi^yˉ)2
    • 线性回归方程整体的显著性检验(F检验):判断线性关系是否显著
    • 回归系数的显著性检验(t检验)
  3. 方差分析:分析类型自变量(定类数据)X和数值型因变量(定量数据)Y之间的关系,比如电脑品牌和销量的关系,通过检验各总体的均值是否相等来判断X和Y是否有显著影响

    • 数学描述为:检验s个总体N(μ1,σ2),⋯,N(μs,σ2)的均值是否相等,即检验假设H0:μ1=μ2=⋯μs,H1:μ1,μ2,⋯,μs不全相等,并做出未知参数μ1,μ2,⋯,μs,σ2的估计检验s个总体N(\mu_1,\sigma^2),\cdots,N(\mu_s,\sigma^2)的均值是否相等,即检验假设H_0:\mu_1=\mu_2=\cdots\mu_s,H_1:\mu_1,\mu_2,\cdots,\mu_s不全相等,并做出未知参数\mu_1,\mu_2,\cdots,\mu_s,\sigma^2的估计检验s个总体N(μ1,σ2),,N(μs,σ2)的均值是否相等,即检验假设H0:μ1=μ2=μs,H1:μ1,μ2,,μs不全相等,并做出未知参数μ1,μ2,,μs,σ2的估计

    • 基本思想是采用方差对比随机误差和系统误差的方法检验均值是否相等

  4. 分类分析:机器学习分类、回归相关算法

  5. 聚类分析:机器学习聚类算法

  6. 时间序列分析

  7. 关联规则分析

4.参考

统计学学习笔记重点总结

概率论与数理统计-CoffeeCat

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_21966.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

scratch加法出题器 电子学会图形化编程scratch等级考试三级真题和答案解析2022年9月

目录 scratch加法出题器 一、题目要求 1、准备工作 2、功能实现 二、案例分析 <

『LeetCode|每日一题』---->二叉搜索树中第K小的元素

目录 1.每日一句 2.作者简介 3.二叉搜索树简介 『LeetCode|每日一题』二叉搜索树中第K小的元素 1.每日一题 4.解题思路 4.1 思路分析 4.2 核心代码 4.3 完整代码 4.4 运行结果 1.每日一句 因为时间永远分岔&#xff0c;通往无数的未来 2.作者简介 &#x1f3e1;个人主页&…

如何着手写一篇医学综述?

各位医学研究生&#xff0c;研0的时候是不是导师都已经把综述布置下来作为你的第一份作业呀&#xff1f;对于医学生们来说&#xff0c;不管你是本科就已经开始接触科研还是研究生开始才接触科研&#xff0c;反正在你开始阅读文献的时候开始一篇综述总是逃不过的。鉴于有综述任务…

Sql Server CDC配置

概述 CDC&#xff08;Change Data Capture&#xff09;&#xff0c;即数据变更抓取&#xff0c;通过为源端数据源开启CDC&#xff0c;ROMA Connect可实现数据源的实时数据同步以及数据表的物理删除同步。 本章节主要介绍如何为SQL Server数据库开启CDC功能。 前提条件 SQL S…

算力是新一代的“石油”,我们该如何利用好它?

我们处在一个数字世界&#xff0c;计算能力成为科技进步和经济发展的底座&#xff0c;也正在改变我们的生产方式和生活方式。未来&#xff0c;几万台、几十万台甚至几亿台服务器&#xff0c;如果都能够基于一个操作系统进实时调度&#xff0c;将带来巨大的算力提升。我们这一代…

【Linux高效小trick】快速查看Linux进程的开始和运行时间

写在前面 前面介绍了&#xff0c;怎么杀死Linux的僵尸进程&#xff0c;为GPU释放更多的内存&#xff0c;做想做的事&#xff0c;文章链接如下&#xff1a; 【Linux高效小trick】Linux下杀死僵尸进程&#xff0c;释放GPU内存&#xff0c;让代码全速运行~ 今天再来具体说下&…

Jetpack 之 ViewModel

Jetpack 系列第三篇&#xff0c;这次回顾 ViewModel&#xff0c;ViewModel 作为 MVVM 架构中的 VM 层&#xff0c;具有自己的生命周期&#xff0c;且生命周期贯穿整个 Activity 或 Fragment&#xff0c;相较于之前 MVP 的 Presenter&#xff0c;它的存活时间更长&#xff0c;所…

商用图片素材,高清无水印

今天给大家分享8个免费、商用图片素材网站&#xff0c;全部高清无水印&#xff0c;轻松应对各种场景。1、菜鸟图库 https://www.sucai999.com/pic.html?vNTYwNDUx菜鸟图库是一个综合性素材网站&#xff0c;这里面有很多设计、图片、视频、音频等素材&#xff0c;图片素材全部都…

vscode 提示 vetur can‘t find `tsconfig.json`的解决办法

VSCode&#xff08;全称&#xff1a;Visual Studio Code&#xff09;是一款由微软开发且跨平台的免费源代码编辑器。该软件支持语法高亮、代码自动补全&#xff08;又称 IntelliSense&#xff09;、代码重构、查看定义功能&#xff0c;并且内置了命令行工具和 Git 版本控制系统…

SEO作弊有哪些手段,网站采用SEO作弊会带来哪些惩罚

在做网站SEO优化过程中&#xff0c;有的人为了快速提高网站排名&#xff0c;采用了各种各样的方法。有的甚至采用SEO作弊的手段来优化网站&#xff0c;短期内提升了网站的排名。但是&#xff0c;我们要知道&#xff0c;做SEO优化欲速则不达&#xff0c;SEO作弊会给网站带来一定…

部署CentOS可视化界面GUI-之腾讯云服务器

目录 一、购买云服务器实例 二、配置安全组、设置管理员密码 三、远程登录 四、安装CentOS可视化界面GUI 4.1、系统GUI配置 4.2、系统GUI配置 一、购买云服务器实例 二、配置安全组、设置管理员密码 三、远程登录 用其控制台下webShell&#xff0c;或VNC模式&#xff0…

《MySQL实战45讲》——学习笔记08 “一致性视图、可重复读实现“

这篇文章讲的比较分散&#xff0c;这里做一个梳理&#xff0c;先将简单的概念如"事务的启动时机"、"视图"、"秒级创建快照"拎出来解释&#xff0c;然后通过文章中的几个例子说明"一致性读"和"当前读"&#xff1b; 08 | …

AspectJ in action

Discovering AOP This chapter covers ■ Understanding crosscutting concerns ■ Modularizing crosscutting concerns using AOP ■ Understanding AOP languages Reflect back on your last project, and compare it with a project you worked on a few years back. Wha…

一文带你快速鉴别CookieSession

文章目录会话跟踪技术1、相关基础概念2、Cookie2.1 Cookie的基本使用2.1.1 发送Cookie2.1.2 获取Cookie2.2 Cookie原理2.3 Cookie存活时间2.4 Cookie存储中文3、Session3.1 Session的基本使用3.2 Session原理3.3 Session的钝化和活化3.4 Session的存活时间总结会话跟踪技术 1、…

SSl证书协议作用

SSl证书协议作用 随着移动互联网时代的飞速发展&#xff0c;似乎每周都能看到很多关于数据泄露的新闻&#xff0c;而且报道还在不断涌现。在统计的100款app中&#xff0c;有多达91款app收集了过多的用户个人信息。 为了改善这一现象&#xff0c;网络空间管理局联合发布了《认定…

TRC丨艾美捷TRC 2-氨基-2-甲基丙酰胺说明书

艾美捷TRC 2-氨基-2-甲基丙酰胺化学性质&#xff1a; 目录号A010210 化学名称2-氨基-2-甲基丙酰胺 CAS 编号16252-90-7 分子式C₄H₁₀N2O 外貌白色固体 熔点>250C&#xff08;分解&#xff09; 分子量102.14 溶解度甲醇&#xff08;少量&#xff09; 类别建筑模块…

听说2022金九银十变成铜九铁十了......

往年的金九银十&#xff0c;今年被戏称为“铜九铁十”。知名的大厂HR们都在不断的裁员&#xff0c;能被保住不被裁掉可能就万事大吉了&#xff0c;赛道越来越窄&#xff0c;都在预测未来计算机行业是不是下一个土木工程&#xff1f; 我也算是软件测试岗位的老鸟了&#xff0c;…

计算机网络03之可靠传输

1. 停止等待协议 1.概述 发送方每次只能发送一个数据包&#xff0c;确认方每次只能发送一个确认。发送方收到重复的确认会丢弃&#xff08;接收方已经接收&#xff09;&#xff0c;接收方收到重复的数据&#xff0c;会把数据丢弃&#xff0c;但是会发送确认&#xff08;防止上…

DETR:End-to-End Object Detection with Transformers

论文地址&#xff1a;https://arxiv.org/abs/2005.12872 代码地址&#xff1a;https://github.com/facebookresearch/detr 在看完Transformer之后&#xff0c;将会开始看视觉类的Transformer应用。本篇论文出自ECCV20&#xff0c;是关于目标检测的论文。DETR&#xff0c;即Det…

pyinstaller打包多个python程序

以下两个python文件 get_file_message_main.py为执行文件&#xff0c;继承了get_file_message.py中的类 打开终端cmd 切换到桌面 cd desktop切换到指定路径 cd python打包pyi-makespec pyi-makespec get_file_message_main.py生成get_file_message_main.spec文件 .spec文…