【Educoder数据挖掘实训】异常值检测-值域法

news/2024/7/27 11:52:31/文章来源:https://blog.csdn.net/JZYshuraK/article/details/136452183

【Educoder数据挖掘实训】异常值检测-值域法

开挖!

这个题中 l o f lof lof算法给的很抽象,先用比较通俗的方式说一下:
首要想法是找到不合群的点,也就是异常点。采用的方法是对局部可达密度进行判断。相较于其他普通的简单基于聚类的算法,这个算法有两个优点:

  1. 可以应对下列问题:
    在这里插入图片描述
    在上图中,显然 p p p是一个异常点。但是可能根据常规的聚类算法很难排除点 p p p。原因是点 p p p是相较于 C 2 C_2 C2来说的异常点,可是 p p p C 2 C_2 C2中点的距离和 C 1 C_1 C1中点的平均距离差不多,所以常规的算法无法处理。但是 p p p l o f lof lof算法中密度显然很低,可以被标记出来。
  2. l o f lof lof算法中,不会像传统异常点检测算法一样直接给出哪些点是异常点,二是会给出每个点的密度。这样可以自己更新阈值更方便后续处理,或者说 l o f lof lof算法能更好的处理特殊情况。

那么什么是 l o f lof lof算法呢?先定义几个函数:
d ( p , q ) d(p,q) d(p,q)表示点到点的距离;
d k ( p ) d_k(p) dk(p):第 k k k距离,表示所有点到 p p p的距离里,从小到大排序的第 k k k个;
N k ( p ) N_k(p) Nk(p):第 k k k距离邻域:表示所有点到 p p p的距离里,不大于 d k ( p ) d_k(p) dk(p)的,不难看出 ∣ N k ( p ) ∣ ≥ k |N_k(p)|\ge k Nk(p)k
r e a c h _ d i s t k ( o , p ) = m a x ( d k ( o ) , d ( o , p ) ) reach\_dist_k(o,p)=max(d_k(o), d(o,p)) reach_distk(o,p)=max(dk(o),d(o,p)):第 k k k可达距离,显然在 o o o的第 k k k邻域里的点,点 o o o到这些点的第 k k k可达距离都为第 k k k距离。
l r d k ( p ) = 1 / ( ∑ o ∈ N k ( p ) r e a c h _ d i s t k ( o , p ) ∣ N k ( p ) ∣ ) lrd_k(p) = 1/(\frac{\sum_{o\in N_k(p)} reach\_dist_k(o,p)}{|N_k(p)|}) lrdk(p)=1/(Nk(p)oNk(p)reach_distk(o,p)):点 p p p的第 k k k局部可达密度;
L O F k ( p ) = ∑ o ∈ N k ( p ) l r d k ( o ) l r d k ( p ) ∣ N k ( p ) ∣ = ∑ o ∈ N k ( p ) l r d k ( o ) ∣ N k ( p ) ∣ / l r d k ( p ) LOF_k(p) = \frac{\sum_{o\in N_k(p)}\frac{lrd_k(o)}{lrd_k(p)}}{|N_k(p)|} = \frac{\sum_{o\in N_k(p)}lrd_k(o)}{|N_k(p)|} /lrd_k(p) LOFk(p)=Nk(p)oNk(p)lrdk(p)lrdk(o)=Nk(p)oNk(p)lrdk(o)/lrdk(p):局部离群因子,即将点 p p p N k ( p ) N_k(p) Nk(p)邻域内所有点的平均局部可达密度与点的局部可达密度做比较,通过这个值来反应点 p p p是不是异常点。

所以其实我们要做的就是求出所有点的 L O F k ( p ) LOF_k(p) LOFk(p)
显然有一种做法是 n 3 n^3 n3,即暴力枚举所有点和 k k k,这样当然是没问题的。
而且在数据挖掘中往往时间并不占据主要考虑对象,所以时间复杂度显得不是很重要。
但是显然有更优化的方法,比如用 K D T r e e KDTree KDTree来优化这个过程或者 B a l l T r e e Ball_Tree BallTree来优化,效果都是很好的。


当然这都不是我们考虑的范围, P y t h o n Python Python已经给出了相应的函数,我们只需要拿来用即可。
但是可能有一个问题,就是上述的 k k k到底取多少,题目里也并没有明确强调。经过实验取 10 10 10即可, P y t h o n Python Python函数中默认是 20 20 20
在求出所有密度之后我们在用 f i t _ p r e d i c t fit\_predict fit_predict函数进行预测即可,其中为 − 1 -1 1的点就是异常点。
代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
# 导入数据
abc = pd.read_csv('deaths.csv')
## 只分析其中的Population和Lat两个变量
abc = abc[["Population","Lat"]]###begin###
lof = LocalOutlierFactor(n_neighbors = 10)
###将lof作用于数据集
score = lof.fit_predict(abc)
ans = 0
for scr in score :if scr == -1 :ans += 1
print("检测出的异常值数量为:", ans)
###end####

一些问题和思考:

  1. 首先,这些算法 P y t h o n Python Python中都应相应的函数,只需要拿来用即可,关键要考虑清楚输入和输出的格式要求和数据类型。
  2. 这里 n _ n e i g h b o r s = 10 n\_neighbors = 10 n_neighbors=10并不是强制要求,而是我们采用 f i t _ p r e d i c t fit\_predict fit_predict函数进行异常点检测时恰好 k k k需要取到 10 10 10,我们如果换一种阈值可能就需要 k k k是另一个值。
  3. 对于 k k k值更深层次的理解:这里的 k k k并不具备单调属性。很容易被误解成以每个点周围的 k k k个点为聚类考虑问题。显然并不是,比如我们将 k k k 10 10 10枚举到 20 20 20,得到的异常点个数并不是单调的:在这里插入图片描述
    这其中的原因是: k k k并不是一个越大越宽松或者越大越严谨的可操控量, k k k只是一个算法中的变量。对于一个未知的数据我们并不能确定 k k k的值来找到最好的异常点检测方案。换句话说,对于不同的数据找到最合适的 k k k恰恰是我们应用 l o f lof lof算法的关键。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_997835.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

可以实现单个、两个、四个圆角的qml自定义控件

控件名: RadiusRectangle File: RadiusRectangle.qml import QtQuick 2.0Item {id: rootwidth: 100height: 100clip: trueproperty int itemRadius: 0property color itemColor: "red"property real itemOpacity: 1property int rightMargin: 0property int leftMar…

CubeMX使用教程(3)——GPIO

在第二章我们完成了点灯仪式,这次我准备尝试把按键和灯结合起来,做一次GPIO的综合测试 实验任务为:按下按键1(B1),第1个灯(LD1)亮; 按下按键2(B2)…

【应用多元统计分析】--多元数据的描述和展示(R语言)

一元随机变量 我们用协方差来刻画两个变量的相关关系,这里指的是线性相关关系。 对于一元随机变量的可视化最简单的就是散点图,大致可以看出X和Y之间的相关关系。如果想更好的看X、Y之间的相关关系,可以画二维的散点图。 总结: 均…

重塑语言智能未来:掌握Transformer,驱动AI与NLP创新实战

Transformer模型 Transformer是自然语言理解(Natural Language Understanding,NLU)的游戏规则改变者,NLU 是自然语言处理(Natural Language Processing,NLP)的一个子集。NLU已成为全球数字经济中AI 的支柱之一。 Transformer 模型标志着AI 新…

基于AI软件平台 HEGERLS智能托盘四向车机器人物流仓储解决方案持续升级

随着各大中小型企业对仓储需求的日趋复杂,柔性、离散的物流子系统也不断涌现,各种多类型的智能移动机器人、自动化仓储装备大量陆续的应用于物流行业中,但仅仅依靠传统的物流技术和单点的智能化设备,已经无法更有效的应对这些挑战…

【数仓】Kafka消息可视化工具:Offset Explorer(原名kafka Tool)

Offset Explorer(以前称为Kafka Tool)是一个用于管理和使用Apache Kafka集群的GUI应用程序。 它提供了一个直观的界面,允许用户快速查看Kafka集群中的对象以及集群主题中存储的消息。 它包含面向开发人员和管理员的功能。 一些主要功能包括&a…

redis 性能优化二

前言 性能优化的第二篇文章,将重点讲一下Redis 的响应延迟,响应延迟如何对redis 进行优化。这个延迟不是说一个命令或者几个命令变慢了,延迟了几秒,就说Redis 变慢了。在不同的软硬件环境下,Redis 本身的绝对性能并不…

C++STL【priority_queue 优先级队列】

priority_queue 优先级队列 介绍 priority_queue,优先级队列,它的底层是个vector,在vector的基础上封装堆的算法,于是它摇身一变,成了一个存储在一块连续空间中的堆。 《什么是堆?》 堆是一棵完全二叉树&…

案例5 RPC调用请求规则链

您已将以下设备连接到ThingsBoard: Wind Direction Sensor. 风向传感器。Rotating System. 旋转系统。 also, you have one asset: 你还有一项资产 Wind Turbine. 风力涡轮机。 您要向旋转系统发起RPC请求,并根据风向更改风力涡轮机的方向。 https:/…

SQL 初级

SQL 初级 SQL 简介 SQL (Structured Query Language:结构化查询语言) 是用于管理关系数据库管理系统(RDBMS)。 SQL 的范围包括数据插入、查询、更新和删除,数据库模式创建和修改,以及数据访问控制。 SQL 是什么? SQL…

从新能源汽车行业自动驾驶技术去看AI的发展未来趋势

自动驾驶汽车关键技术主要包括环境感知、精准定位、决策与规划、控制与执行、高精地图与车联网V2X以及自动驾驶汽车测试与验证技术等。 🐓 自动驾驶技术 这是AI在汽车行业中应用最广泛的领域之一。自动驾驶技术利用AI算法和传感器来感知环境、识别障碍物&#xff0c…

力扣大厂热门面试算法题 - 矩阵

解数独,单词搜索,被围绕的区域。每题做详细思路梳理,配套Python&Java双语代码, 2024.03.07 可通过leetcode所有测试用例。 目录 37. 解数独 解题思路 完整代码 Python Java 79. 单词搜索 解题思路 完整代码 Python…

多目标粒子群(MOPSO)算法原理及其MATLAB实现

粒子群算法(PSO)是Eberhart和Kennedy于1995年提出的一种模拟鸟类觅食行为的算法[1],具有操作简单、速度快等特点。但在实际应用中,许多决策问题都是多目标优化问题,采用粒子群算法来处理多目标优化问题是一种有效方法,Coello 等人…

小型内衣裤洗衣机哪个牌子好?四款高热度内衣洗衣机力荐

相信很多用户从小就有个观念,内衣裤不能跟其他衣物一起混合洗,否则会感染细菌,所以不少人的内衣裤一直都是自己手洗的,清洗内衣裤不算麻烦,但日常都要换洗,对一个白天上班已经很累的人来说,真是…

Redis:java中redis的基本使用(springboot)

文章目录 springboot中使用redisspringboot 连接 redis三种方式导入依赖增删改查小练习 springboot中使用redis springboot 连接 redis三种方式 jedis (redis官方提供的)springboot自带的redisson (基于jedis优化的,性能最好,使…

MySQl基础入门③

上一遍内容 接下来我们都使用navicat软件来操作数据了。 1.新建数据库 先创建我门自己的一个数据库 鼠标右键点击bendi那个绿色海豚的图标,然后选择新建数据库。 数据库名按自己喜好的填,不要写中文, 在 MySQL 8.0 中,最优的字…

【管理咨询宝藏资料36】某知名咨询公司战略规划内部培训

【管理咨询宝藏资料36】某知名咨询公司战略规划内部培训 【关键词】战略规划、内部培训、管理咨询 【文件核心观点】 - 战略明晰框架思路:一棵大树五只苹果,通过战略定位图的核心性、层次性和浓缩性来保障战略明晰的有效性、直观性和可实施性。 - 企业战…

python统计分析——泊松回归

参考资料:用python动手学统计学 概率分布为泊松分布、联系函数为对数函数的广义线性模型叫作泊松回归。解释变量可以有多个,连续型和分类型的解释变量也可以同时存在。 1、案例说明 分析不同气温与啤酒销量的关系。构造不同气温下的销量的数学模型&…

SpringMVC的工作流程简介

SpringMVC控制器工作流程 用户通过浏览器向服务器发送请求,请求会被Spring MVC的前端控制器DispatcherServlet所拦截; DispatcherServlet拦截到请求后,会调用HandlerMapping处理器映射器; 处理器映射器根据请求URL找到具体的处理器,生成处理…

Transformer中的FlashAttention

FlashAttention是一种用于Transformer模型的近似注意力机制,旨在减少注意力计算和内存需求。引入FlashAttention是因为传统Transformer模型中的自注意力机制在处理长序列时存在时间和存储复杂度上的挑战,需要大量的计算资源和内存来处理更长的上下文背景…