在本文中,我们会用概率的观点来看待机器学习模型,用简单的例子帮助大家理解判别式模型和生成式模型的区别。通过思考曲线拟合的问题,发现习以为常的损失函数和正则化项背后有着深刻的意义
01、快速理解判别式模型和生成式模型
从概率的角度来理解数据有着两个不同的角度,假设我们有5个数据点,每个数据都只有一个特征x和一个目标值y:
一种是条件概率的角度,它描述了目标值相对于数据的特征出现的概率,我们表示为:
这两种角度分别代表了两种不同的建模方法,条件概率是将数据特征与目标值直接联系在一起,对于每一个特征我们只需要计算P(y|x),我们将这样的模型叫作判别式模型(Discriminative Model),可以看到如果是利用判别式模型去预测新的数据x=0,它会给出y=0。联合概率是综合考虑了整个样本空间,对于每一个特征我们需要计算P(y,x),我们将这样的模型叫作生成式模型(Generative Model),如果去预测新的数据x&