文章目录
- 聚类分析
- K-means算法
- K-中心算法
- DBSCAN算法
聚类分析
K-means算法
- 算法简要步骤
- 随机选取K个样本点(不一定来自样本数据)作为初始的质心
- 第一次迭代,将所有样本分配到这K个类中
- 对每个样本计算其到两个聚类中心的欧式距离(一般)将其分配到距离最近中心所在簇中
- 重新计算聚类中心,将其更新为该簇所有点的平均值。
- 计算本次迭代的准则函数JcJ_cJc为新的簇中心的每个属性与簇中所有点属性距离平方的累加
- 重复2步骤的1、2、3步,直到聚类中心不再变化或者达到最大迭代次数或者JcJ_cJc足够小
K-中心算法
算法简要步骤
-
随机选取K个中心点,通过距离(一般选用曼氏距离)划分样本
-
计算中心点被非中心点代替的总代价
Cjih=djmin−dj−>原中心点C_{jih} = d_{jmin} - d_{j->原中心点}Cjih=djmin−dj−>原中心点:Cjih代表Oi被Oh代替,Oj被重新分配的代价,djmin代表Oi被Oh代替后Oj到所有中心的最小值,dj−>原中心点代表Oj到原来中心点的距离C_{jih}代表O_i被O_h代替,O_j被重新分配的代价,d_{jmin}代表O_i被O_h代替后O_j到所有中心的最小值,d_{j->原中心点}代表O_j到原来中心点的距离Cjih代表Oi被Oh代替,Oj被重新分配的代价,djmin代表Oi被Oh代替后Oj到所有中心的最小值,dj−>原中心点代表Oj到原来中心点的距离
TCih=∑j=1ACjih,TCih是Oi被Oh替代后的总代价TC_{ih} = \displaystyle\sum_{j = 1}^{A}C_{jih},TC_{ih}是O_i被O_h替代后的总代价TCih=j=1∑ACjih,TCih是Oi被Oh替代后的总代价
-
选取一个最小代价,使Oh替代OiO_h替代O_iOh替代Oi
-
重复2,3步骤,直到代价不再减少为止
DBSCAN算法
-
相关概念
- 邻域:对于任意给定样本x和距离ε\varepsilonε,x的邻域是指导样本x的距离不超过ε\varepsilonε的样本集合
- 核心对象:若样本x的ε\varepsilonε邻域内至少包含特定数目(MinPts)的样本,则x是一个核心对象
- 密度直达:若样本b在a的ε\varepsilonε邻域内,且a是核心对象,则称样本b由样本a密度直达
- 密度可达:对于样本a、b,如果存在样例p1,p2,...,pnp_1,p_2,...,p_np1,p2,...,pn,其中,p1=a,pn=bp_1 = a,p_n= bp1=a,pn=b,且序列中每一个样本都与它前一个样本密度直达,则称样本a与b密度可达
- 密度相连:对于样本a和b,若存在样本k是的a与k密度可达,且k与b密度可达,则a与b密度相连
-
相关算法