周志华《Machine Learning》学习拓展知识--经验风险与结构风险

2019/7/21 19:03:22 人评论 次浏览 分类:学习教程

在前面几章的笔记中,都出现了“正则化”这个看似神秘的东西,具体包括:(1)线性模型的最小二乘法中出现非满秩或正定矩阵的情形,从而引入正则化解决了求逆矩阵的难题;(2)BP神经网络为了避免过拟合而引入的正则项;(3)“软间隔”支持向量机在优化目标中添加的正则项或惩罚项。下面将主要围绕这三个方面来阐述经验风险与结构风险。

风险函数度量的是平均意义下模型训练的好坏。在模型学习的过程中,对于监督学习,通常使用带有真实标记的数据来学习出模型的参数,使得该模型对于训练数据尽可能地都预测正确。但是模型每一次预测值可能与真实标记相同,也可能不一致,一般我们采用损失函数来度量模型预测错误的程度,常用的损失函数有以下几种:

(引自李航教授的《统计学习方法》) 
 

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°


模型关于训练数据的平均损失称为“经验风险”,经验风险度量的是模型与训练数据的契合程度,即模型的优劣程度。如下所示:

è¿éåå¾çæè¿°

但单纯地优化经验风险容易导致过拟合,因此引入了“结构风险”,结构风险度量的是模型的某些性质,例如模型的复杂度或惩罚项等。如下所示:

è¿éåå¾çæè¿°

其中λ是一个系数,将经验风险与结构风险二者进行折中,这就是上面提到的“正则化”问题,通过引入正则项有效地降低了过拟合的风险,这样监督学习问题就变成了经验风险或结构风险最小的最优化问题。下面将围绕三个实际的例子来进行讨论。

(1)最小二乘法引入正则化
在多元线性回归中,对w进行参数估计时,出现了一个限定条件,即X’X为满秩矩阵或正定矩阵。如下所示:

è¿éåå¾çæè¿°

在现实问题中,由于数据的多样性和不确定性,难免会出现列相关的情形,为了避免这个问题,从而引入了正则化。

引入正则化后,虽然对系数的估计是有偏的,但结果却更加稳定。这一问题又称为“岭回归”,岭回归实质上就是带有二范数惩罚项的最小二乘法。

(2)神经网络引入正则化
由于神经网络模型强大的表示能力,BP神经网络经常遭遇过拟合,解决过拟合策略中的其中一种就是引入正则化,在经验风险后加上一个表示模型复杂程度的惩罚项,从而将优化目标从“经验风险”变为“结构风险”,如下所示:

(3)SVM引入正则化
在“软间隔”支持向量机中,在引入松弛变量后,在优化目标函数后添加了一个惩罚项,使得不满足约束的样本点尽可能少。这便是将“经验风险”转化为“结构风险”,因此软间隔SVM可以理解为最优化+损失最小。

 

相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?
    -->