应用领域
监督学习和无监督学习
- 监督学习
- - 回归问题
  - 分类问题
  - 无穷的处理
- 无监督学习
- - 概念
  - 聚类算法
  - 鸡尾酒会算法
模型描述
代价函数
- 代价函数是什么
- 简化代价函数进行可视化理解
- 完整代数函数图像（高线图表示）
- 梯度下降算法
- - 过程
  - 梯度函数表达式
  - 梯度下降函数的更新规则
  - 线性回归的梯度下降
  - - 线性回归函数的代价函数

机器学习是人工智能发展出来的一个领域：计算机程序从经验E中学习，解决某一任务T进行某一性能度量P，通过P测定在T上的表现因经验E而提高

应用领域

数据挖掘
- 收集网络点击数据或者说点击流数据，进而更好理解用户并更好地为用户服务
医疗记录
- 将医疗记录转化为医疗知识，就能更好理解疾病
计算生物学
- 因为自动化，生物学家收集了关于基因序列DNA序列等的大量数据，让我们更好理解人类基因组
我们无法手动编写的程序
- 自动驾驶的直升
- 手动识别：例如跨国邮寄，将信封上的文字识别出来，然后自动给你的信规划路线
- 自然语言处理或计算机视觉：AI中理解图像的领域
私人定制
- 例如使用亚马逊的时候，它会推荐电影、产品或者音乐给你。这就是学习算法
理解人类的学习过程和大脑

监督学习和无监督学习

监督学习：我们教计算机做某件事情
无监督学习：让计算机自己学习做某件事情

监督学习

我们给算法一个数据集，其中包含了正确答案，而算法的目的就是给出更多的正确答案

回归问题

如下图，房价预测问题，给出一个房屋面积及其卖出价格的数据集，这些值都是离散的，然后机器学习的目的是通过这些数据模拟出拟合曲线，可能是一次函数也可能是二次函数，由离散的数值设法得出连续值的属性，成为回归，这类型的问题也称为回归问题
在这里插入图片描述

回归：回归是我们的目标，是预测一个连续值输出

分类问题

分类的目的是预测离散值的输出，例如癌症检测，横轴表示肿瘤的大小，纵轴表示是否是恶性肿瘤，0表示不是，1表示是，该实例中离散值只有两个，相对而言比较少，这是一个分类问题，也就是设法预测出离散值的输出，这里就是设法去预测是否是恶性肿瘤
在这里插入图片描述
分类问题中也可以使用其他符号进行标记，使得数据可以线性处理，如下圆表示无肿瘤并且落在某个位置就表示相应的大小，叉继续表示恶性肿瘤，位置同样有相同的作用

分类：分类的目的是预测离散值的输出

无穷的处理

如上述肿瘤问题中，只有两个特征，实际上学习问题可能存在，无穷的特征、无穷多的属性，如果进行线性存储，那么就会使得计算机内存溢出，这个时候就涉及到“向量机”，他允许计算机处理无穷多的特征

支持向量机：允许计算机处理无穷多的特征

无监督学习

在监督学习中的每一个样本已知所谓的正确答案。如上述的肿瘤实例中，我们知道每个人对应是否是良性或者是恶性的肿瘤

概念

无监督算法就是只给算法一堆数据，并没有告诉算法这对数据类型是什么，甚至有那些类型都不知道，然后在其中找到某种数据结构

聚类算法

算法只是被告知这里有一个数据集，不知道数据点究竟是什么等等，然后在其中找到某种数据结构，将数据分成两个不同的簇，这就是聚类算法

聚类算法有许多应用领域

组织计算机集群：它被用来组织大型的计算机集群，也就是大型计算机集群，并试图找出哪些机器趋向于协同工作，如果你把这些机器放在起，那么这些机器就能高效率地工作
社交网络分析：如果得知你email最频繁的联系人之类，判断哪些人认识
市场细分中应用：将公司的客户向不同的细分市场中进行销售
天文数据分析：星系形成理论的形成

鸡尾酒会算法

在鸡尾酒会上，有不同的说话，例如有两个人说话，并且有两个麦克风，因为距离各自的人不同，所以录音的大小不同，鸡尾酒算法就是从该混合的录音中分离出具体的声音

模型描述

在监督学习中，我们有一个数据集，它被称为训练集。例如房屋相关的训练集中，以房屋面积为横坐标，对应的价格作为纵坐标。m为训练样本的数量，例如数据有47行，那么m=47也就是47组数组。x为输入的特征值，y为输出的记录，对于该案例中，x就是房屋面积，y就是对应的价格。

(x,y)是一组数组， $x^{i}， y^{i})$
在这里插入图片描述
如下算法，首先是以训练集作为输入，然后经过学习算法，得到h，也就是假设函数，该函数用来进行预测的函数，可以向假设函数添加一个输入然后得到一个输出，因而当我们设计一个学习算法时，下一个需要做的是怎么表示这个假设函数
在这里插入图片描述

其中假设函数可以是以下形式（可以有其他更复杂的形式，例如其他的非线性函数，现在就线性回归进行示例），并且引入相关的属于θ0和θ1，类似θi这样的参数成为模型参数，该表达式是线性回归相对应的表达式
在这里插入图片描述

如下图，这种模型称为线性回归，准确来说是一元线性回归，另一个名字是单变量线性回归

h函数可以是如下函数模型，也就是y关于x的线性函数，也可以是其他的非线性函数
在这里插入图片描述

代价函数

代价函数是什么

解决的问题是：如何把最有可能的直线与我们的数据相拟合，相对于上述的j假设函数的形式中，就是确定θ0和θ1，进而确定h函数

对于h函数而言，θ0和θ1的不同造就不同的代价函数
在这里插入图片描述

对于模型参数的确定，θ0和θ1的确定是在训练集中给出训练集中的x值，θ0和θ1,使得x最接近y

基于上述，我们给出标准的定义，在线性回归中，我们要解决的是一个最小化问题，我们要写出关于θ0和θ1的最小化，也就是通过这些模型参数以及输入的特征值x，使得h(x)与实际的值y的差值尽量小

实际最小化是对于整个训练集而言的，对于 $h(x{i})$ 表示的是第i组训练数据，使得整体数据的最小化，也就是所有的组的特征输入经过预测函数输出后的值 $h(x{i})$ 与实际的 $y{i}$ 最小化，这个时候就可以使用到平方差，如下图，当平方产差最小的时候，整体最小化，也就能确定对应的模型参数

这里通常使用1/(2m)，然后使得整体最小

如下述，这就是一个代价函数，有时候也称为平方误差代价函数
在这里插入图片描述

简化代价函数进行可视化理解

对于代价函数的理解可以通过将假设函数设置为如下的简化形式，方便可视化理解

图中的红色的差，是实际的调研的数据。现在可以进行调整θ1的值进行查找θ1使得代价函数最小

如下图，当θ1=1且θ0=0时，可以得到代价函数的值是1
在这里插入图片描述

当θ0=0，θ1=0.5等于其他值的时候
在这里插入图片描述
θ0=0，不断调整θ1的值，最终得到下述曲线，可以看到当θ1=1的时候，代价函数最小，并且值为0，符合实际

完整代数函数图像（高线图表示）

在这里插入图片描述
如下是3D图像

如下为高线图，其中右边代数函数的高线图中，每个椭圆形上的点（如下标记出的是三个点）的代数函数值相等

高线图中，每个圆圈相当于上述3D图的每一圈从上向下投影到θ0和θ1的平面上，因而每个椭圆上的点是相等的。因而这个椭圆圈的中心是对应的最小的代数函数值
在这里插入图片描述

梯度下降算法

一种能够自动寻找使得代价函数最小的θ0和θ1的算法,，他不仅被用在线性回归上，还被广泛应用于机器学习的众多领域，梯度下降算法可以解决更为一般的问题

过程

梯度下降算法可以表示一般问题，但是本次学习中，简便起见，仅设置θ0和θ1，也就是对应的单变量线性回归

开始的时候设置θ0=0，θ1=0（也可以初始化其他值）
然后不断改变θ0和θ1，使得代价函数的值不断变小，直到我们找到代价函数的最小值

如下图，在选定了一个起始点后，根据梯度下降算法，得到如下路径，在最底部收敛，也就是局部的最优解
在这里插入图片描述
当起始位置偏移后，会使得路径可能收敛在其他的点上，也就是可能是其他的最优解的值

梯度函数表达式

梯度函数算法定义，如下图公式，该公式会不断重复执行，直到局部收敛，也就是一路走到从某个位置开始的最底部的地方，也就是代数函数的值最小的时候

在计算机中:=表示赋值，而a=b表示的是真假判定
下述中α是被称为学习速率的数字，用来控制梯度下降时，它控制我们以多大的幅度更新这个参数θj 。
α太大可能会越过最低点，进而导致无法收敛或发散

使用梯度算法的一个细节：对于上述的更新方程，需要同时更新θ0和θ1，具体的原因是在实际算法中，θ0更新为θ0减去某项，θ1更新为θ1减去某项。对于上述的例子中，因为当代数函数的值是，可以看到左边是θj，其中j=0或者是j=1，也就是θ0和θ1更新的值是取决于右边的计算的值，该过程重复迭代，直到局部收敛
在这里插入图片描述
如下图，是错误的做法，没有做到同步更新，因为首先更新θ0的时候，下一步计算temp1的时候就会使用到新的θ0，这样就是不对的

梯度下降函数的更新规则

对于梯度算法的算法方程，α右边部分是一个导数项，因为代数函数是一个平方差，那么他的值就是非负的，并且学习速率α只能是正数，

在这里插入图片描述

当θj与代数函数的坐标中是正斜率，如下图右边，这个时候θj就会不断减少，从而实现梯度下降
在这里插入图片描述
而当当θj与代数函数的坐标中是负斜率，如下图左边，这个时候θj就会不断增大，从而实现梯度下降

当代数函数的值是0的时候代数函数的值为最小值，这个时候θ0和θ1不变，根据这个条件可以判断这种情况下，达到最低点