【数据挖掘】1、综述:背景、数据的特征、数据挖掘的六大应用方向、有趣的案例

news/2024/4/25 17:06:59/文章来源:https://blog.csdn.net/jiaoyangwm/article/details/129219065

目录

  • 一、背景
    • 1.1 学习资料
    • 1.2 数据的特征
    • 1.3 数据挖掘的应用案例
    • 1.4 获取数据集
    • 1.5 数据挖掘的定义
  • 二、分类
  • 三、聚类
  • 四、关联分析
  • 五、回归
  • 六、可视化
  • 七、数据预处理
  • 八、有趣的案例
    • 8.1 隐私保护
    • 8.2 云计算的弹性资源
    • 8.3 并行计算
  • 九、总结

一、背景

1.1 学习资料

推荐书籍如下:

在这里插入图片描述

Google Scholar:搜学术期刊

开源数据集:UCI Machine Learing Repository

开源 GUI 工具,方便快速上手:WEKA

KDD nuggets: 数据挖掘网站

在这里插入图片描述

1.2 数据的特征

数据是最底层的概念,其中有价值的才能称作信息。

大数据有三个特征:

  • Volumn:容量够大,TB 变为 ZB 等。
  • Variety:多样:从结构化的二维 excel 表格,到非结构化的文字、声音、图像、视频等待加工的数据。
  • Velocity:速度:从静态数据集,到动态高 QPS 的流式数据处理,对算法有很高要求。
    在这里插入图片描述

1.3 数据挖掘的应用案例

大数据的应用场景:

  • 安防预测:预测疑犯行为,提前防火,而不是事后疲于救火。
    在这里插入图片描述
  • 对症下药:
    在这里插入图片描述
  • APP 地理位置可视化:
    在这里插入图片描述
  • 商店购物:区域热力图、人员轨迹、停留时间 =》 精准营销(推荐商品)
    在这里插入图片描述
  • 情感分析:文字识别,分析情感
    在这里插入图片描述
  • 体育数据分析:2000 年左右国外真实案例,小牌球队,利用数据挖掘分析各球员的特点,组织球队布阵,取得商业成功,也将此真实故事拍成了电影《点球成金》。
    在这里插入图片描述
  • 美女挖掘:通过非诚勿扰各女嘉宾的信息(包括身高、面部关键点度量、家庭背景、对心动男生的期待等),挖掘大众心中的心动女生有何特征。
    在这里插入图片描述

1.4 获取数据集

越来越多公开数据集出现:法律公开(允许自由使用),技术容易获取(易结构化,易清洗)。下面是一些公开数据集网址,可以多多使用。

在这里插入图片描述

政府其实有极多数据,其也会开放很多数据,如下,方便大家做多维数据融合挖掘:

在这里插入图片描述

1.5 数据挖掘的定义

不同于以往的数据处理,而是针对大量数据,发掘出有趣、有用、隐含的信息。

在这里插入图片描述

数据清洗后变为信息,信息挖掘得到知识,知识通过领域模型得到有用的决策。

在这里插入图片描述

ETL 如下:

在这里插入图片描述

工业界数据挖掘和可视化软件有很多:

在这里插入图片描述

二、分类

分类任务是通过给定一些训练集,训练后得到分类模型模型,下面几种模型是常用的分类模型:

  • 决策树
  • K 近临
  • 神经网络
  • SVM

在这里插入图片描述

分类的本质其实是,得到分界面:

在这里插入图片描述

我们需要的是黑色的线(因为是平滑的),因为绿色的线是过拟合(即死记硬背的模型,并未东西出数据规律)

在这里插入图片描述

数据的训练集和预测集需要不同,才能体现模型的有效性。

在这里插入图片描述

混淆矩阵,是各种模型指标的定义根基:

  • TP:即数据本身的ActualValue即为 Positive,且其预测得到的 PredictedValue 也 Truely 预测为 Positive,即预测对了。
  • TN:即数据本身的ActualValue即为 Negative,且其预测得到的 PredictedValue 也 Truely 预测为 Negative,即预测对了。
  • FP:即数据本身的ActualValue即为 Negative,且其预测得到的 PredictedValue 却 Falsely 预测为 Positive,即预测错了。
  • FN:即数据本身的ActualValue即为 Positive,且其预测得到的 PredictedValue 也 Falsely 预测为 Negative,即预测错了。

基于这些概念:又衍生了最常用的两个呈反比的指标:例如预测集共 500 个,其中 200 个为 A 类,300 个为 B 类。模型预测出其中 50 个为 A 类(其中预测对的是 30 个)。

  • Precision准确率:模型真正预测对的数量 / 「模型预测」「出的」数量。即 30 / 50。
  • Recall查全率: 模型真正预测对的数量 / 「总预测集」的「对的」数量。即 30 / 200。
    在这里插入图片描述

P - R 曲线如下:

  • Precision 和 Recall 二者的「PR曲线呈反比关系」(纵轴为 Precision,横轴为 Recall,每个点位不同的业务阈值。因为二者呈反比关系,故一般选「适中」的业务阈值来使得 P 和 R 可以「兼顾」):
    • 因为模型输出都是介于 0 到 1 的得分,如 0.7,标识有 70%的概率是 A类。
    • 而应用层可以定义阈值,若高于阈值则视为「业务视为:输出 A 类」,反之若低于阈值则视为「业务视为:输出非 A 类」。
      • 如果业务把阈值定的很高(例如 0.999)那么输出结果很少但很准确, 即「Recall低(漏了很多结果)」而「Precision高(判断很准确,很严格)」。
      • 如果业务把阈值定的很低(例如 0.001)那么输出结果很多但很多误报,即「Recall高(一个结果都没漏)」而「Precision低(判断很不准,都在误报)」。
        在这里插入图片描述

三、聚类

聚类不同于分类(并没有「事先人为定义的标签」,而是根据各点之间的「距离」度量的),其只是将一批数据集聚为不同的堆。

在这里插入图片描述

聚类分为平铺聚类和层次型聚类,如下图:

  • 比如:都是中国人类,但又细分为南方人+北方人、其中北方人又分为东北、中原、西北人等。
    在这里插入图片描述

四、关联分析

商店购买记录,分析各商品的关联性。

在这里插入图片描述

在这里插入图片描述

五、回归

线性回归:其实可以拟合出线性方程、二元方程、多项式方程等。其「线性」二字的含义是参数和自变量之间是线性关系(即下图中的 beta 和 x)

在这里插入图片描述

回归同样存在过拟合问题(下图一是欠拟合太简单了,下图三是过拟合死记硬背所有训练数据不具备扩展性,下图二是适中的也是最好的模型):

在这里插入图片描述

六、可视化

通过所见即所得,充分展示出数据,更容易发挥人的分析能力:拿到数据后,先做可视化大概估计数据分布,再确定详细挖掘算法。

同样数据挖掘后,再把结果可视化,让人为评判效果。来确定下一步挖掘方向。

在这里插入图片描述

可视化需要以受众易理解的语言、图表形式(如右下图的驾驶舱)进行:

在这里插入图片描述

有很多图表,可以酷炫地展示结果,让人更易理解挖掘的价值。

在这里插入图片描述

七、数据预处理

我们拿到的通常是脏数据:其可能缺失(如未填写年龄)或错误(如年龄填写为负数),因此需要清洗

在这里插入图片描述

数据清洗通常很累,但缺必不可少的地基工作:

在这里插入图片描述

八、有趣的案例

8.1 隐私保护

1990 年互联网兴起时,隐私性很好,你并不知道互联网对面是谁在操作键盘。

但现在 21 世纪,隐私性已经完全没有了,所有的时间、空间、身份、行为习惯均被记录并分析。

在这里插入图片描述

基于隐私保护的数据挖掘,是目前很新兴的研究领域:即收集数据、又保护用户隐私。

在这里插入图片描述

下图即为有隐私保护的数据挖掘,让挖掘者并不知道个体的数据,但可以获得宏观的数据,且保证获得的数据是真实的:

在这里插入图片描述

8.2 云计算的弹性资源

根据客户的实际需求,动态扩缩容资源。

在这里插入图片描述

8.3 并行计算

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Nvidia 的 TK1 尺寸很小,但计算性能是家用电脑的 10 倍以上。

在这里插入图片描述

在这里插入图片描述

九、总结

数据挖掘的必备元素:数据、算法、算力

在这里插入图片描述

没有银弹算法、没有银弹参数:通常先用简单算法验证效果(降低心智负担),后期再用复杂算法优化。

在这里插入图片描述

不能总是宏观看待问题,也要结合微观,才能详细挖掘数据规律:

在这里插入图片描述

两条曲线有关系,但不一定有因果关系:

在这里插入图片描述

避免幸存者偏差,来误解数据:

在这里插入图片描述

避免片面理解数据,避免以偏概全:

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_74335.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Spark分布式内存计算框架——Spark Streaming】3.入门案例(上)官方案例运行

2.1 官方案例运行 运行官方提供案例,使用【$SPARK_HOME/bin/run-example】命令运行,效果如下: 具体步骤如下: 第一步、准备数据源启动端口,准备数据 nc -lk 9999 spark spark hive hadoop spark hive 第二步、运行…

面试官: 你知道 JWT、JWE、JWS 、JWK嘛?

想起了 之前做过的 很多 登录授权 的项目 它相比原先的session、cookie来说,更快更安全,跨域也不再是问题,更关键的是更加优雅 ,所以今天总结了一篇文章来介绍他 JWT 指JSON Web Token,如果在项目中通过 jjwt 来支持 J…

hook与mixin

看完vue3就开始看vue3的源码,表示很懵~ 刚把rollup打包搞完,这不响应式就接着来了!,还是写篇直接使用vue3的博客清清脑吧! 什么是hook、mixin? mixin: Vue2中多个组件内存在重复JS业务逻辑,使…

k8s学习之路 | Day15 k8s 中的 yaml 语法

文章目录yaml 基础什么是 yaml&#xff1f;yaml 特性适用场景基本语法规则数据类型yaml 对象yaml 数组yaml 纯量yaml 引用k8s 中的 yaml 语法\<string>\<Object>\<map[string]string>\<[]Object>\<boolean>示例 yaml 说明我在学习过程中&#xf…

Mr. Cappuccino的第44杯咖啡——Kubernetes之Service

Kubernetes之ServiceService的概念Service的类型Service演示案例环境准备ClusterIP&#xff08;集群内部访问&#xff09;IptablesIPVSEndpointNodePort&#xff08;对外暴露应用&#xff09;LoadBalancer&#xff08;对外暴露应用&#xff0c;适用于公有云&#xff09;Ingress…

echo命令

这是一条内置命令。 输出指定的字符串 一、语法 echo [选项] [参数] 二、选项 -e&#xff1a;激活转义字符。 使用-e选项时&#xff0c;若字符串中出现以下字符&#xff0c;则特别加以处理&#xff0c;而不会将它当成一般文字输出&#xff1a; \a 发出警告声&#xff1b; \b 删…

产业链金融的前世今生

产业链金融脱胎于供应链金融&#xff0c;又不同于供应链金融。二者的区别是&#xff0c; 供应链金融服务于单个环节、单个企业&#xff0c;而产业链金融是以产业链的核心 企业为依托&#xff0c;针对产业链的各个环节&#xff0c;设计个性化、标准化的金融服务产品&#xff0c;…

阿里巴巴内网 Java 面试 2000 题解析(2023 最新版)

前言 这份面试清单是今年 1 月份之后开始收集的&#xff0c;一方面是给公司招聘用&#xff0c;另一方面是想用它来挖掘在 Java 技术栈中&#xff0c;还有一些知识点是我还在探索的&#xff0c;我想找到这些技术盲点&#xff0c;然后修复它&#xff0c;以此来提高自己的技术水平…

DNS 域名解析

介绍域名 网域名称&#xff08;英语&#xff1a;Domain Name&#xff0c;简称&#xff1a;Domain&#xff09;&#xff0c;简称域名、网域。 域名是互联网上某一台计算机或计算机组的名称。 域名可以说是一个 IP 地址的代称&#xff0c;目的是为了便于记忆。例如&#xff0c…

3.2 网站图的爬取路径

深度优先与广度优先方法都是遍历树的一种方法&#xff0c;但是网站的各个网页 之间的关系未必是树的结构&#xff0c;它们可能组成一个复杂的图形结构&#xff0c;即有回路。如果在前面的网站中每个网页都加一条Home的语句&#xff0c;让每个网页都能回到主界面&#xff0c;那么…

JasperReports studio相关操作

1.2 JasperReports JasperReports是一个强大、灵活的报表生成工具&#xff0c;能够展示丰富的页面内容&#xff0c;并将之转换成PDF&#xff0c;HTML&#xff0c;或者XML格式。该库完全由Java写成&#xff0c;可以用于在各种Java应用程序&#xff0c;包括J2EE&#xff0c;Web应…

Playbook的用法

目录 Playbook Playbook 与 Ad-Hoc 对比 YAML 语言特性 YAML语法简介 支持的数据类型 写法格式 1 scalar 标量 建议缩进两个空格&#xff0c;可多 2 Dictionary 字典 3 List 列表 三种常见的数据格式 Playbook 核心组件 不要用 tab 可以#注释 hosts remote_us…

Oracle-01-简介篇

&#x1f3c6;一、Oracle的历史和发展 Oracle公司成立于1977年&#xff0c;由拉里埃里森&#xff08;Larry Ellison&#xff09;、鲍勃明特&#xff08;Bob Miner&#xff09;和埃德奥茨&#xff08;Ed Oates&#xff09;共同创立。起初&#xff0c;公司的主要业务是开发和销售…

Lenovo Legion Y530-15ICH电脑 Hackintosh 黑苹果efi引导文件

原文来源于黑果魏叔官网&#xff0c;转载需注明出处。硬件型号驱动情况主板Lenovo Legion Y530-15ICH处理器Intel Core™ i7-8750H (Coffee-Lake)已驱动内存16GB RAM DDR4 2667MHz已驱动硬盘2TB HP EX950 PCI-E Gen3 x4 NVMe SSD已驱动显卡Intel UHD Graphics 630Nvidia GTX 10…

aws console 使用fargate部署aws服务快速跳转前端搜索栏

测试过程中需要在大量资源之间跳转&#xff0c;频繁的点击不如直接搜索来的快&#xff0c;于是写了一个搜索框方便跳转。 前端的静态页面可以通过s3静态网站托管实现&#xff0c;但是由于中国区需要备案的原因&#xff0c;可以使用ecs fargate部署 步骤如下&#xff1a; 编写…

DHCP服务器的使用以及可能出现的问题(图文详细版)

DHCP服务的使用 开始&#xff0d;管理工具&#xff0d;DHCP,打开DHCP服务器选项窗口 新建作用域 在此处输入名称和描述,单击下一步 随机确定一组IP地址的范围,并指定其子网掩码 , 单击下一步 若想要排除某一个/组特定的IP地址,我们可以在此界面输入该IP地址,若没有,则可…

如何使用 FreeSql 无缝接替 EF Core ?

如何使用 FreeSql 无缝接替 EF Core&#xff0c;并实现数据表的 CRUD 操作项目说明DB & 数据表结构DB & 数据表创建数据表 User 实体模型创建使用 EF Core 实现 User 表新增用户信息添加 EF Core 相关的 nuget 包编写 EF Core 操作 User 表的 CRUD 代码FreeSql 使用 Db…

AI_Papers周刊:第三期

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 2023.02.20—2023.02.26 文摘词云 Top Papers Subjects: cs.CL 1.LLaMA: Open and Efficient Foundation Language Models 标题&#xff1a;LLaMA&#xff1a;开放高效的基础语言模型 作者&#…

zookeeper集群的搭建,菜鸟升级大神必看

一、下载安装zookeeperhttp://archive.apache.org/dist/zookeeper/下载最新版本2.8.1http://archive.apache.org/dist/zookeeper/zookeeper-3.8.1/二、上传安装包到服务器上并且解压&#xff0c;重命名tar -zxvf apache-zookeeper-3.8.1-bin.tar.gzmv apache-zookeeper-3.8.1-b…

Python安装教程(附带安装包)

首先&#xff0c;打开python安装包的下载地址&#xff0c;https://www.python.org/downloads/&#xff0c;会有些慢 点击downloads中的windows 左侧是稳定的版本&#xff0c;我这边下的是3.8的&#xff0c;不想去官网下载的可以直接用我下载的这个3.8版本&#xff0c;https://…