机器学习——聚类(K-Means)

news/2024/5/18 19:54:13/文章来源:https://www.cnblogs.com/amboke/p/16710771.html

机器学习——聚类(K-Means)

那是什么 无监督学习——聚类

聚类是基于相似对象将一组对象分组为类/类别的过程。聚类是一部分 无监督学习 .这种方法通常用于确定业务决策,特别是在基于来自集群的数据预测来预测正确的业务策略时。聚类还可用于异常检测、客户细分和改善客户服务 监督学习。

例如,客户细分,在一个企业中,有成千上万的客户,公司希望保持有生产力的客户数量(可以显着提高客户满意度)。 收入 公司)以及改进 收入 公司,可以采取的战略旨在提供 交易 相同的客户或准备 交易 根据每个客户的规格。这就是集群作为确定这些战略决策的“工具”或“指南”的地方。

另一个例子,用于增加 监督学习 .每个具有 10 万条记录的集群都有一个逻辑回归。如果训练模型是基于每个分段而不是一次训练 10 万条记录的训练模型,分类会更有效。

聚类算法包括:

  • 平面算法 (通常以 随机(部分)分区 ,例如 K-Means 聚类

  • 分层算法 (berbentuk 自下而上、凝聚式、自上而下)

Ilustrasi proses dari Unsupervised Learning

K-Means 聚类和业务目标

K-Means 聚类是一个基于数据分组的过程 距离 .每个集群中都会有 质心 (中点)。接近中点的数据将是 分配 在那个集群中。

  • K-Means 聚类的工作原理

  1. 有数据,确定K个(簇)的个数,比如我们选择3个簇,我们就确定点在哪里 质心 她。
  2. 将计算欧几里得距离(在质心和其他 [数据值] 点之间)。
  3. 距离 接近 质心 , 将分配给其中一个 质心 最近的
  4. 会不断迭代,直到所有数据值都 分配 到现有的集群。
  5. 一个数据肯定会进入一个集群,它不能进入​​两个或更多集群
  6. 重复步骤 2-5,直到“饱和点”。

一种方法 欧几里德距离(距离度量):

评估集群质量

  1. 惯性(肘法)

(使用折线图说明)如何确定K的个数是根据第一次“故障”后,数据的折线图会更平坦。 K的最佳数量是在肘点(骨折点)。如何确定 肘法 基于 惯性值 .数量越少 惯性值 而且越多簇的数量也会越来越多,但必须知道'故障'点/弯头点。这种方法的困难在于有时原始形状与“肘部”可视化不相似。因此,使用了另一种方法,即 剪影分数。

2. 剪影评分法

这种方法比肘部方法具有更清晰的聚类范围。数字越高 剪影分数 会好起来的。这意味着可以对每个集群进行评分(一个集群有一个分数,两个集群有一个分数,等等)。最佳集群将基于 最高轮廓分数 从现有范围 . 这种方法实际上要确定的平均值 簇内距离 和最小均值 集群间距离 (集群中点之间的距离尽可能小,但集群中一个点与另一点之间的距离足够远)。

使用 Python 构建 K-Means(Google 协作)

https://bit.ly/hands-on_clustering

动手 在这种情况下,将向来自商城客户的数据提供与以下相关的资料:年龄、性别、年收入和消费分数。从这些数据中,将首先搜索和识别描述性统计数据以查看 独特的价值。 接下来,将分析如何 对绘图 从数据中确定相关矩阵。在可以识别和解释相关矩阵之后,我们将看到哪些变量是线性相关的。然后,将分析如何 肘法剪影分数 来识别簇号。从这个分析中,我们将得到适合的并且可以用来做出业务决策的集群的类型和数量。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38212/35572013

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_10740.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

食品行业中的 AI 和 ML 用例

食品行业中的 AI 和 ML 用例人工智能和机器学习为每个行业的进步铺平了道路。这些技术的使用帮助他们优化和自动化流程,降低成本和时间要求,减少人为错误的可能性。让我们了解采用基于 AI 和 ML 的技术如何使食品行业受益。Photo by 阿诺塞诺纳 on 不飞溅 由农民和各种企业…

持续集成持续交付

目录 一、Git工具 二、git安装 三、git使用 三、gitlab代码仓库 四、jenkins持续集成 五、Jenkins自动构建docker镜像,并上传至harbor仓库 六、Jenkins连接docker构建主机 七、jenkins结合ansible 一、Git工具 git简介 1).Git特点: • 速度 • 简…

PHP在线教育平台源码 网课小程序源码

在线教育知识付费平台 网课小程序源码 教育直播网校小程序源码 开发环境:PHP MYSQL 源码包含:PC小程序公众号 H5 需要绑定对接公众号 本套源码程序适合做视频图文结合的知识付费平台。带分销功能,多种分销方式自由设置(可快速积…

通关GO语言22 网络编程:Go 语言如何通过 RPC 实现跨平台服务?

在上一讲中,我为你讲解了 RESTful API 的规范以及实现,并且留了两个作业,它们分别是删除和修改用户,现在我为你讲解这两个作业。 删除一个用户比较简单,它的 API 格式和获取一个用户一样,但是 HTTP 方法换…

二、JumpServer堡垒机管理员手册

JumpServer是一款非常简单好用的开源堡垒机,本文根据实际生产案例编辑的管理员手册,列出了JumpServer常用功能。JumpServer可以很好的保护公司内部服务器,并满足等保2.0安全需求。 目录 一、堡垒机用户创建 二、创建特权用户 三、创建普通…

金字塔思维

背景 1、大脑偏爱有规律的信息 2、把问题想全,同时可以深入 1 方法: 1.1 识别纵向信息逻辑: 被动接受了大量杂乱信息,通过金字塔思维识别信息的逻辑关系 1.2 横向分类:信息归类整理 穷尽所有要素、对要素进行分类…

docker、docker-compose部署oracle,plsql连接远程oracle

一、docker部署oracle 1. 下载镜像并启动容器 # 拉取阿里oracle_11g的镜像 docker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g # 创建容器并启动 docker run -d -p 1521:1521 --name oracle11g registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g 2.…

我们该如何运营Facebook账号呢?

社交媒体带来的流量转化是巨大的,这也就是为什么跨境电商卖家会转战到社媒的原因了。我们经常会发现一个帖子突然就火了,那么这个帖子的相关产品都得到了极大的推广,其曝光率也是难以想象的,那么由此带来的转化也常常令人欣喜若狂…

间主任的烦恼① | 基于BOM的配套检查,保障生产不断线

王部长:(桌上电话铃声响起,王部长接完电话后说,)“小智,我们装配车间的张主任,这打电话来,又在说配套缺件问题。这周就要启动装配了,现在领料发现还有20种零件没有库存。…

CentOS系统磁盘的分区格式化和挂载操作

一、磁盘分区和格式化 lsblk命令查看挂载硬盘的情况,一下情况表示为分卷,需要先分卷,再格式化,然后再进行挂载。 分卷命令:fdisk /dev/vdb 输入n 输入p和1,直接回车 最后输入w保存。 格式化磁盘&#x…

USB摄像头驱动分析

1.构造一个usb_driver 2.设置 probe:2.1.分配video_device:video_device_alloc2.2 设置.fops.ioctl_ops (里面需要设置11项)如果要用内核提供 的缓冲区操作函数,还需要构造一个videobuf_queue_ops2.3.注册: video_register_device id_table:表示支持哪些…

基于单片机的指纹密码锁系统

目录 第1章 概述............................................................................................................ 6 1.1 指纹识别技术的发展................................................................................... 6 1.2 指纹识别原理......…

mirai登陆失败反复验证码或提示登录存在安全风险的解决方法

对于没有服务器的同学,可以进入官网领取免费1个月的轻量云服务器:云产品免费试用;需要选购的进:轻量应用服务器专场;不清楚怎么操作的可以看教程:腾讯云产品免费试用教程 转载请注明出处:小锋学…

Word控件Spire.Doc 【页面设置】教程(4) 如何在文档中插入分节符

在 Microsoft Word 中,您可以通过在所需位置插入分节符轻松地将文档拆分为多个部分,从而允许您对这些部分应用不同的格式或布局选项。如果您需要执行以下任何任务,Microsoft Word 中的分节符可能是天赐之物: 为文档的每个部分使用…

MySQL高级:(二)存储引擎

笔记来源:MySQL数据库教程天花板,mysql安装到mysql高级,强!硬! 文章目录2.1 存储引擎基本概念2.2 InnoDB:具备外键支持功能的事务存储引擎2.3 MyISAM:主要的非事务处理存储引擎2.3 Archive&…

Cannot get a STRING value from a NUMERIC cell poi异常解决;easy-poi;jeecg-boot-poi

Cannot get a STRING value from a NUMERIC cell poi异常解决;easy-poi;jeecg-boot-poi 出现原因: 在集成jeecg-boot框架开发之后 使用jeecg-boot-auto-poi (封装的easy-poi)导入数据时 因为excel中有函数表达式出现的错误 导入的代码 而在源码中CellValueServer这一个类,在…

如何用dos命令关闭端口

1、首先以管理员并且cmd,打开dos对话窗口 2、通过:netstat -aon|findstr 8080 找到PID码3、通过:taskkill /f /pid 35552 PID码,终止进程4、到这也就终止完成啦,是不是很简单呢?

2021 ICPC Southeastern Europe Regional Contest(更新至五题)

2021 ICPC Southeastern Europe Regional Contest A题签到 A. King of String Comparison 题意:给两个字符串,找出有多少对(l,r),满足在l到r区间内,s1的子串字典序小于s2的子串字典序。 思路…

手写 Vuex4.x 核心(Vuex源码实现)

通过 vuex 实现 TodoList : 我们先做一个小的 TodoList 的案例,应用 vuex 来实现,然后逻辑跑通之后再在此的基础上我们一点点手写自己的 vuex ,进而实现和原来一样的效果。 采用 vite 创建项目: yarn create vite v…

【算法】背包问题应用

01 背包 AcWing 423. 采药 代价&#xff1a; 采药时间 T 价值&#xff1a; w 0 - 1背包问题 #include <bits/stdc.h> using namespace std;const int N 1010;int n, m;int f[N];int main() {cin >> m >> n;for (int i 1; i < n; i ) {int v, w;cin &…