PAC学习框架

news/2024/4/20 12:43:10/文章来源:https://blog.csdn.net/RSstudent/article/details/129236959

PAC学习框架

defination 2.1 泛化误差

给定假设和目标概念h∈H,c∈Ch\in H, c \in ChH,cC,潜在分布DDDhhh的泛化误差为
R(h)=Px∼D[h(x)≠c(x)]=Ex∼D[1h(x)≠c(x)]R(h)=P_{x\sim D}[h(x)\ne c(x)] = E_{x\sim D}[1_{h(x)\ne c(x)}] R(h)=PxD[h(x)=c(x)]=ExD[1h(x)=c(x)]
由于DDDccc均未知,因此R(h)R(h)R(h)无法直接得到。

defination 2.2 经验误差

给定h∈H,c∈Ch\in H, c \in ChH,cC,样本集S=(x1,⋯,xn)S=(x_1, \cdots, x_n)S=(x1,,xn),经验误差或者经验风险定义为
R(h)^=1M∑i=1m1h(xi)≠c(xi)\hat{R(h)}=\frac{1}{M}\sum_{i=1}^m1_{h(x_i)\ne c(x_i)} R(h)^=M1i=1m1h(xi)=c(xi)
注意到泛化误差是经验误差的期望
KaTeX parse error: Expected 'EOF', got '&' at position 12: {aligned} &̲E[\hat{R}(h)]=E… {aligned}
defination 2.3 PAC-learning

算法AAA,样本规模mmm,分布DDD,概念c∈Cc\in CcC,对于∀ϵ>0,∀δ>0\forall \epsilon>0, \forall \delta>0ϵ>0,δ>0,若
PS∼Dm[R(hs)≤ϵ]≥1−δP_{S\sim D^m}[R(h_s)\le \epsilon] \ge1-\delta PSDm[R(hs)ϵ]1δ
算法AAA称为一个PAC-learning algorithm。

Theorem2.1 Learning Bound, Finite Hypothese, consistent case

HHH有限,是X→Y\mathcal{X}\rightarrow \mathcal{Y}XY的函数组成的集合。AAA为学习算法,根据i.i.d.i.i.d.i.i.d.样本集SSS返回一个一致的假设hsh_shs,使得R^(hs)=0\hat{R}(h_s)=0R^(hs)=0,对于∀ϵ,δ>0\forall\epsilon, \delta>0ϵ,δ>0,不等式
PS∼Dm[R(hs)≤ϵ]≥1−δP_{S\sim D^m}[R(h_s)\le \epsilon] \ge1-\delta PSDm[R(hs)ϵ]1δ
成立的条件是
m≥1ϵ(log∣H∣+log1δ)m\ge\frac{1}{\epsilon}(log|H|+log\frac{1}{\delta}) mϵ1(logH+logδ1)
也可以得到如下的泛化界:
R(hs)≤1m(log∣H∣+log1δ)R(h_s)\le\frac{1}{m}(log|H|+log\frac{1}{\delta}) R(hs)m1(logH+logδ1)
证明:通过一个一致收敛界,表达存在一个一致假设使得泛化误差大于ϵ\epsilonϵ的概率,然后用1减,得到任意一致假设泛化误差小于ϵ\epsilonϵ的概率。
P[∃h∈H,R^(h)=0∩R(h)>ϵ]=P[(R^(h1)=0∩R(h1)>ϵ)∪⋯∪(R^(hn)=0∩R(hn)>ϵ)]≤∑h∈HP(R^(h)=0∩R(h)>ϵ)≤∣H∣P(R^(h)=0∣R(h)>ϵ)≤∣H∣(1−ϵ)m≤∣H∣e−ϵm\begin{aligned} & P[\exist h\in H, \hat{R}(h)=0 \cap R(h)>\epsilon]\\ & =P[(\hat{R}(h_1)=0\cap R(h_1)>\epsilon)\cup\cdots\cup(\hat{R}(h_n)=0\cap R(h_n)>\epsilon)]\\ &\le\sum_{h\in H}P(\hat{R}(h)=0\cap R(h)>\epsilon)\\ &\le |H|P(\hat{R}(h)=0|R(h)>\epsilon)\\ &\le|H|(1-\epsilon)^m\\ &\le|H|e^{-\epsilon m} \end{aligned} P[hH,R^(h)=0R(h)>ϵ]=P[(R^(h1)=0R(h1)>ϵ)(R^(hn)=0R(hn)>ϵ)]hHP(R^(h)=0R(h)>ϵ)HP(R^(h)=0∣R(h)>ϵ)H(1ϵ)mHeϵm

δ=∣H∣e−ϵmlogδ=log∣H∣−ϵmm=1−ϵ(log∣H∣−logδ)m=1ϵ(log1∣H∣+log1δ)\delta = |H|e^{-\epsilon m}\\ log\delta=log|H|-\epsilon m\\ m=\frac{1}{-\epsilon}(log|H|-log\delta)\\ m=\frac{1}{\epsilon}(log\frac{1}{|H|}+log\frac{1}{\delta}) δ=Heϵmlogδ=logHϵmm=ϵ1(logHlogδ)m=ϵ1(logH1+logδ1)
这是样本复杂度界,进而有如下的泛化界
R(hs)≤1m(log∣H∣+log1δ)R(h_s)\le\frac{1}{m}(log|H|+log\frac{1}{\delta}) R(hs)m1(logH+logδ1)
C. 1 Generalization Bound for fixed hypothese

利用Hoeffding不等式可以得到
P[∣R^(h)−R(h)∣≥ϵ]≤2e−2mϵ22e−2mϵ2=δϵ=12mlog(2/δ)\begin{aligned} &P[|\hat{R}(h)-R(h)|\ge \epsilon] \le 2e^{-2m\epsilon^2}\\ &2e^{-2m\epsilon^2}=\delta\\ &\epsilon = \sqrt{\frac{1}{2m}log(2/\delta)} \end{aligned} P[R^(h)R(h)ϵ]2e2mϵ22e2mϵ2=δϵ=2m1log(2/δ)

R^(h)−R(h)≥−12mlog(δ/2)R(h)≤R^(h)+12mlog(δ/2)\hat{R}(h)-R(h)\ge-\sqrt{\frac{1}{2m}log(\delta/2)}\\ R(h)\le\hat{R}(h)+\frac{1}{2m}log(\delta/2) R^(h)R(h)2m1log(δ/2)R(h)R^(h)+2m1log(δ/2)

Theorem 2.2 Leanring Bound finite Hypothese set, inconsistant

HHH为有限假设集,对于∀δ>0\forall \delta >0δ>0,至少以1−δ1-\delta1δ的概率有下式成立
∀h∈H,R(h)≤R^(h)+log∣H∣+log(2ϵ)2m\forall h \in H,R(h)\le\hat{R}(h)+\sqrt{\frac{log|H|+log(\frac{2}{\epsilon})}{2m}} hH,R(h)R^(h)+2mlogH+log(ϵ2)
证明:
P[∃h∈H,∣R^(h)−R(h)∣≥ϵ]=P[∣R^(h1)−R(h1)∣≥ϵ∪⋯∪∣R^(hn)−R(hn)∣≥ϵ]≤∑h∈HP[∣R^(h)−R(h)∣≥ϵ]≤2∣H∣e−2mϵ2\begin{aligned} &P[\exist h\in H,|\hat{R}(h)-R(h)|\ge\epsilon]\\ &=P[|\hat{R}(h_1)-R(h_1)|\ge\epsilon \cup\cdots \cup|\hat{R}(h_n)-R(h_n)|\ge\epsilon]\\ &\le\sum_{h\in H}P[|\hat{R}(h)-R(h)|\ge\epsilon]\\ &\le2|H|e^{-2m\epsilon^2} \end{aligned} P[hH,R^(h)R(h)ϵ]=P[R^(h1)R(h1)ϵR^(hn)R(hn)ϵ]hHP[R^(h)R(h)ϵ]2∣He2mϵ2

2∣H∣e−2mϵ2=δϵ=logδ2∣H∣−2m2|H|e^{-2m\epsilon^2}=\delta\\ \epsilon=\sqrt{\frac{log\frac{\delta}{2|H|}}{-2m}} 2∣He2mϵ2=δϵ=2mlog2∣Hδ

这表明,泛化误差的上界是由经验误差和和复杂度项决定的。在类似经验误差的情况下, 有必要减小模型的复杂度,这是奥卡姆剃刀原则。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_74783.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

达梦数据库(DM8)集成使用 Geotools(27.2)

达梦数据库(DM8)集成使用 Geotools(27.2)系统环境版本达梦 8 集成 Geotools 环境安装达梦8,请参照项目 pom.xml 添加 geotools 配置项目 pom.xml 添加达梦数据库驱动包Geotools 使用示例Geotools 连接数据库Geotools 空…

CLion Remote Debug CrossCompile

CLion远程Docker调试ROS(交叉编译)的设置步骤 准备一个好用的docker,运行起来(Docker Image一定可以跑cuda和图形界面的,否则启动不了CLion,可以不用浪费时间看本教程了) 在docker镜像中配置好ssh和rsync,…

测量 R 代码运行时间的 5 种方法

简介 平常在撰写论文时,会需要比较算法之间的计算时间。本篇文章给出几种测量 R 代码运行时间的方法。本文是小编学习过程中的笔记,主要参考博客1,2。 1. 使用 Sys.time() 小编通常使用 Sys.time() 函数来计算时间。首先记录当前运行时刻&…

数据结构与算法之Huffman tree(赫夫曼树 / 霍夫曼树 / 哈夫曼树 / 最优二叉树)

目录赫夫曼树概述定义构造赫夫曼树步骤代码实现赫夫曼树概述 HuffmanTree因为翻译不同所以有其他的名字:赫夫曼树、霍夫曼树、哈夫曼树 赫夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点…

如何在logback.xml中自定义动态属性

原文地址:http://blog.jboost.cn/trick-logback-prop.html 当使用logback来记录Web应用的日志时,我们通过在logback.xml中配置appender来指定日志输出格式及输出文件路径,这在一台主机或一个文件系统上部署单个实例没有问题,但是…

超店有数分享:2023还有哪些tiktok数据值得关注?

目前,tiktok是全球增长最迅猛的社交媒体软件之一。很多商家瞄准了tiktok的变现转化潜力,纷纷入局tiktok电商赛道。在入局这个赛道之前,我们需要了解一些tiktok的相关数据,这样才能更好的了解大局,及时调整自己的业务情…

Python 简单可变、复杂可变、简单不可变、复杂不可变类型的copy、deepcopy的行为

copy模块:copy:浅拷贝deepcopy:深拷贝简单可变类型、复杂可变的copy()、deepcopy():简单不可变、复杂不可变类型的copy()、deepcopy():结论:对于简单类型的可变类型copy是深拷贝,改变了该拷贝变…

TIA博途Wincc中自定义配方画面的具体方法示例

TIA博途Wincc中自定义配方画面的具体方法示例 前面和大家分享了通过TIA博途自带的配方视图组态配方功能的具体方法,具体内容可参考以下链接中的内容: TIA PORTAL wincc中配方recipe组态及配方视图的使用方法 但是,使用配方视图的时候感觉不是很方便,同时一部分使用人员也感…

机房运维6大隐患,你中了几个?

随着医院的看诊预约、缴费、打印报告等众多业务转至线上进行,对医院的网络及数据处理能力提出越来越高的要求,那么,机房的稳定、安全运行是医院网络信息系统的关键因素。 机房运维6大隐患 01.电源电力系统不稳定,网络设备运转遭到…

C/C++语法练习之顺序结构篇

名人说: 如果你问一个善于溜冰的人怎样获得成功时, 他会告诉你:“跌倒了,爬起来”,这就是成功。——牛顿 专栏:牛客刷题 顺序结构篇〇、知识引入一、内容1004-学姐的“Helloworld”1005-乘法表1019-hellowo…

TCP粘包|拆包和解决方案

1 产生原因TCP是面向连接的,面向流的,提供高可靠性服务。收发两端(客户端和服务端)都要有一一成对的socket,因此,发送端为了将多个发给接收端的包,更有效的发给对方,使用了优化算法&…

【算法题】最大矩形面积,单调栈解法

力扣:84. 柱状图中最大的矩形 给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 题意很简单,翻译一下就是:求该图中…

预训练BERT

与PTB数据集相比,WikiText-2数据集保留了原来的标点符号、大小写和数字,并且比PTB数据集大了两倍多。 我们可以任意访问从WikiText-2语料库中的一对句子生成的预训练(遮蔽语言模型和下一句预测)样本。 原始的BERT有两个版本&…

BI的作用,体现在企业的哪些方面

对市场异常敏感的商业世界自然不会放过获取数字经济的机会,以国企和央企为首的众多企业开始进行数字化转型,通过信息化建设,部署商业智能BI来完成转型工作。 为什么会出现BI 有一点可能出乎很多人意料,虽然 BI 是因为信息化、数…

智能家居项目(六)之摄像头模块

目录 一、树莓派mipg-streamer实现监控功能调试 1、实现基本思路 2、安装摄像头模块 2.1、在安装sudo apt-get install libv4l-dev 的命令时报错 3、开启摄像头 以下内容是针对树莓派是stretch版本的修改办法: 一、树莓派mipg-streamer实现监控功能调试 1、…

spring boot maven打包jar包太大,怎么办?这个方法解决你的烦恼

在springboot maven项目中,有两种打包方式,一种是war包,一种是jar,今天我们讲一下jar的打包方式。但是在jar包打包只要我们发现,我们的项目jar太大了,每次上传到服务器的时候非常的慢,接下来我们…

大数据处理各组件概念及作用

一、数据采集: 1.1 Flume集群:数据采集工具,如写脚本将不同源端的数据采集后进行数据存储,或推送至Kafka等; 1.2 FTP集群:文件传输工具; 1.3 Kafka集群:消息队列,未避免…

高压放大器在应力波法套筒灌浆密实度检测研究中的应用

实验名称:高压放大器在应力波法套筒灌浆密实度检测研究中的应用研究方向:无损检测测试目的:钢筋套筒灌浆连接技术被广泛应用于装配式建筑节点连接中,但灌浆不密实将导致节点失效的风险。因此,施工中对套筒灌浆的密实度…

Spark 分析计算连续三周登录的用户数

前言:本文用到了窗口函数 range between,可以参考这篇博客进行了解——窗口函数rows between 、range between的使用 创建数据环境 在 MySQL 中创建数据测试表 log_data: create table if not exists log_data( log_id varchar(200) comm…

代码随想录【Day27】| 39. 组合总和、40. 组合总和 II、131. 分割回文串

39. 组合总和 题目链接 题目描述: 给定一个无重复元素的数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的数字可以无限制重复被选取。 说明: 所有数字(包括 tar…