计算时间序列周期的三种方法

news/2024/4/27 11:55:35/文章来源:https://blog.csdn.net/m0_46510245/article/details/129137265

周期是数据中出现重复模式所需的时间长度。更具体地说,它是模式的一个完整周期的持续时间。在这篇文章中,将介绍计算时间序列周期的三种不同方法。

我们使用City of Ottawa 数据集,主要关注的是每天的服务呼叫数量。所以不需要对病房名称进行初始数据处理。Ottawa 数据集在渥太华市提供的数据门户网站上免费提供。

让我们加载2019-2022年的这些数据,并将它们连接起来得到一个df。

 fromgoogle.colabimportdrivedrive.mount('/content/gdrive')importpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsimportnumpyasnpfile_path='/content/gdrive/My Drive/Colab Notebooks/Data/SR-2019.xlsx'records2019=pd.read_excel(file_path)#,encoding='utf16')file_path='/content/gdrive/My Drive/Colab Notebooks/Data/SR-2020.xlsx'records2020=pd.read_excel(file_path)#,encoding='utf16')file_path='/content/gdrive/My Drive/Colab Notebooks/Data/2021_Monthly_Service_Requests_EN.xlsx'records2021=pd.read_excel(file_path)#,encoding='utf16')file_path='/content/gdrive/My Drive/Colab Notebooks/Data/2022_Monthly_Service_Requests.csv'records2022=pd.read_csv(file_path)records=pd.concat([records2019,records2020,records2021,records2022],axis=0)

让我们根据服务调用日期聚合这些数据,并得到一个简单的图。

 records["DATE_RAISED"]=pd.to_datetime(records.DATE_RAISED)record_by_date=records.groupby("DATE_RAISED")["TYPE"].count().sort_index()record_by_date.plot(figsize= (25, 10))plt.ylabel('Number of requests')plt.grid(visible=True,which='both')plt.figure()record_by_date.iloc[100:130].plot(figsize= (25, 10))plt.ylabel('Number of requests')plt.grid(visible=True,which='both')

填充缺失

让我们检查一下我们的数据是否包含了所有的日期。

 start_date=record_by_date.index.min()end_date=record_by_date.index.max()# create a complete date range for the period of interestdate_range=pd.date_range(start=start_date, end=end_date, freq='D')# compare the date range to the index of the time seriesmissing_dates=date_range[~date_range.isin(record_by_date.index)]iflen(missing_dates) >0:print("Missing dates:", missing_dates)else:print("No missing dates")

正如所预期的那样,数据缺少一些日期的值。让我们用相邻日期的平均值填充这些值。

 # Reindex to fill missing datesidx=pd.date_range(start=record_by_date.index.min(), end=record_by_date.index.max(), freq='D')record_by_date=record_by_date.reindex(idx, fill_value=0)# Add missing dates with average of surrounding valuesfordateinmissing_dates:prev_date=date-pd.DateOffset(days=1)next_date=date+pd.DateOffset(days=1)prev_val=record_by_date.loc[prev_date] ifprev_dateinrecord_by_date.indexelsenp.nannext_val=record_by_date.loc[next_date] ifnext_dateinrecord_by_date.indexelsenp.nanavg_val=np.nanmean([prev_val, next_val])record_by_date.loc[date] =avg_val

这就是我们要做的所有预处理了,在所有这些步骤之后,我们尝试检测这个时间序列的周期。一般来说,基于假日模式和一般的人类习惯,我们希望在数据中看到七天的周期,我们来看看是不是有这样的结果。

0、目测

最简单的方法就是目测。这是一种主观的方法,而不是一种正式的或统计的方法,所以我把它作为我们列表中的原始方法。

如果我们看一下这张图的放大部分,我们可以看到7天的周期。最低值出现在5月14日、21日和28日。但最高点似乎不遵循这个模式。但在更大的范围内,我们仍然可以说这个数据集的周期是7天。

下面我们来正式的进行分析:

1、自相关分析

我们将绘制时间序列的自相关值。查看acf图中各种滞后值的峰值。与第一个显著峰值对应的滞后可以给出周期的估计。

对于这种情况,我们看看50个滞后值,并使用statmodels包中的方法绘制acf。

 fromstatsmodels.graphics.tsaplotsimportplot_acffig, ax=plt.subplots(figsize=(14,7))plot_acf(record_by_date.values.squeeze(), lags=50,ax=ax,title='Autocorrelation', use_vlines=True);lags=list(range(51))ax.set_xticks(lags);ax.set_xticklabels(lags);

从上图可以看出,在7、1、21等处有峰值。这证实了我们的时间序列有7天的周期。

2、快速傅里叶变换

对时间序列进行傅里叶变换,寻找主频分量。主频率的倒数可以作为周期的估计值。

傅里叶变换是一种数学运算,它把一个复杂的信号分解成一组更简单的正弦和余弦波。傅里叶变换广泛应用于信号处理、通信、图像处理以及其他许多科学和工程领域。它允许我们在频域中分析和操作信号,这通常是一种比在时域中更自然和直观的理解和处理信号的方法。

 fromscipy.fftimportfft# Calculate the Fourier transformyf=np.fft.fft(record_by_date)xf=np.linspace(0.0, 1.0/(2.0), len(record_by_date)//2)# Find the dominant frequency# We have to drop the first element of the fft as it corresponds to the # DC component or the average value of the signalidx=np.argmax(np.abs(yf[1:len(record_by_date)//2]))freq=xf[idx]period=(1/freq)print(f"The period of the time series is {period}")

输出为:The period of the time series is 7.030927835051545。这与我们使用acf和目视检查发现的每周周期相似。

3、周期图

周期图 Periodogram 是一个信号或序列的功率谱密度(PSD)图。换句话说它是一个显示信号中每个频率包含多少总功率的图表。周期图是通过计算信号的傅里叶变换的幅值平方得到的,常用于信号处理和频谱分析。在某种意义上,只是前面给出的基于fft的方法的扩展。

 fromscipy.signalimportperiodogramfreq, power=periodogram(record_by_date)period=1/freq[np.argmax(power)]print(f"The period of the time series is {period}")plt.plot(freq, power)plt.xlabel('Frequency (Hz)')plt.ylabel('Power spectral density')plt.show()

周期图可以清楚地看出,信号的最高功率在0.14,对应于7天的周期。

总结

本文,我们介绍了寻找时间序列周期的三种不同方法,通过使用这三种方法,我们能够识别信号的周期性,并使用常识进行确认。

https://avoid.overfit.cn/post/2ae6a3c1b9824defbd013aecd0a70635

作者:Shashindra Silva

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_71905.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

选型最佳实践|从业务场景分析直播SDK

摘要 近两年即时通讯/直播产品炙手可热,市场上针对ToB的产品日益增多,企业该如何去选型呢?本文分享了笔者对于直播产品的思考,将从直播SDK实例功能特性、常见业务场景、注意事项及最佳实践等方面介绍如何进行实例选型,…

【C++】2.类和对象(上)

1.面向过程和面向对象 C语言是面向过程的,关注的是过程,分析出求解问题的步骤,通过函数调用逐步解决问题。C是基于面向对象的,关注的是对象,将一件事情拆分成不同的对象,靠对象之间的交互完成。 2.类的引入…

Umi框架

什么是 umi umi 是由 dva 的开发者 云谦 编写的一个新的 React 开发框架。umi 既是一个框架也是一个工具,可以将它简单的理解为一个专注性能的类 next.js 前端框架,并通过约定、自动生成和解析代码等方式来辅助开发,减少开发者的代码量。 u…

算法18:LeetCode_链表相关算法题

链表无小事,只要是涉及到链表的算法题,边界值的设定尤为重要,而且及其容易出错误。这就要求我们平时多加练习。但是,我们在面试和笔试的过程中往往会碰到链表相关的题目,所以我们在笔试的时候一般都会借助系统提供的工…

Netty (三):进阶

文章目录1. 粘包与半包1.1 粘包现象1.2 半包现象1.3 现象分析1.4 解决方案方法1,短链接方法2,固定长度方法3,固定分隔符方法4,预设长度2. 协议设计与解析2.1 为什么需要协议?2.2 redis 协议举例2.3 http 协议举例2.4 自…

前端二面react面试题集锦

react diff 算法 我们知道React会维护两个虚拟DOM,那么是如何来比较,如何来判断,做出最优的解呢?这就用到了diff算法 diff算法的作用 计算出Virtual DOM中真正变化的部分,并只针对该部分进行原生DOM操作,而…

「TCG 规范解读」第七章 TPM工作组 TPM 总结

可信计算组织(Ttrusted Computing Group,TCG)是一个非盈利的工业标准组织,它的宗旨是加强在相异计算机平台上的计算环境的安全性。TCG于2003年春成立,并采纳了由可信计算平台联盟(the Trusted Computing Platform Alli…

【Azure 架构师学习笔记】-Azure Data Factory (1)-调度入门

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Data Factory】系列。 前言 在开发好一个ADF pipeline(功能)之后,需要将其按需要运行起来,这个称之为调度。下图是一个简单的ADF 运作图, 按照需要的顺序&am…

【YOLOv5】 02-标注图片,训练并使用自己的模型

在上一篇文章中,我们完成了YOLOv5的安装和测试。如果想检测自定义目标,就需要用到LabelImg来对图片打标签,本篇文章介绍了LabelImg安装与使用,以及如何训练并使用自己的模型。一、安装LabelImg输入如下命令进行安装:pi…

seo优化案例截图

点击进入》》三支一扶课程聚合页面 百度统计数据 流量稳步增长, 2022年9月比2021年9月 同期增长 约30%。

rocketmq延时消息自定义配置;一个topic下tag分组

概述 使用的是开源版本的rocketmq4.9.4 rocketmq也是支持延时消息的。 rocketmq一般是4个部分: nameserver:保存路由信息broker:保存消息生产者:生产消息消费者:消费消息 延时消息的处理是在其中的broker中。 但是…

项目中异常信息的统一处理以及JSR03校验

在项目中,我们经常会对前端传过来的数据判断是否有一些错误,比如:id是否为空,传过来的名称是否合格,如果不符合我们通常会抛出异常,那么小的项目可能每次抛出异常也不是很麻烦,但是对于一个大型…

小程序上新(2022.12.12~2023.02.20)

20221216关于小程序违规收集用户隐私行为的规范20221222优先使用本地版本设置功能上线备注:已和微信官方工作人员确认,开启本地优先后,用户打开小程序过程中,异步去下载新版包,打开完成后,功能是新包,异步下载完成后提示用户重启小…

actipro-winforms-controls-23.1.0 Crack

actipro-winforms一组用于构建漂亮的 Windows 窗体桌面应用程序的 UI 控件,用于构建 IDE 的高级停靠窗口、MDI、属性网格、树控件和文件夹/文件浏览器,用于常见数据类型、自动完成、屏蔽编辑和代码编辑的强大编辑器,功能区、图表、微型图表、…

JavaScript中怎么实现链表?

JavaScript中怎么实现链表? 学习数据结构的的链表和树时,会遇到节点(node)这个词,节点是处理数据结构的链表和树的基础。节点是一种数据元素,包括两个部分:一个是实际需要用到的数据&#xff1b…

十一、项目实战一

项目实战一 需求 以 前后端不分离的方式实现学生的增删改查操作 学生列表功能 接口设计 url:/students/ 请求方法:get 参数: 格式:查询参数 参数名类型是否必传说明pageint否页码,默认为1sizeinit否每页数据条数默认为10n…

Ansys Zemax | 如何在存在全内反射 (TIR) 的情况下应用散射

在本文中,我们将展示如何利用虚拟表面来对具有全内反射 (TIR) 的物体进行建模,同时保持其他独特的表面特性,例如粗糙的表面结构。 下载 联系工作人员获取附件 简介 在OpticStudio中,全内反射 (TIR) 在其他表面属性&#xff08…

Java:顶级Java应用程序服务器 — Tomcat、Jetty、GlassFish、WildFly

如果你想编写Java web应用程序,首先需要做出一个艰难的决定:选择运行应用程序的Java应用程序服务器。什么是应用服务器?一般来说,应用程序服务器执行Java应用程序。在操作系统中启动它们,然后将应用程序部署到其中。将应用程序服…

07 二叉树

开始系统学习算法啦!为后面力扣和 蓝桥杯的刷题做准备!这个专栏将记录自己学习算法是的笔记,包括 概念, 算法运行过程,以及 代码实现,希望能给大家带来帮助,感兴趣的小伙伴欢迎评论区留言或者私…

重要节点排序方法

文章目录研究背景提前约定基于节点近邻的排序方法度中心性(degree centrality, DC)半局部中心性(semilocal centrality, SLC)k-壳分解法基于路径排序的方法离心中心性 (Eccentricity, ECC)接近中心性 (closeness centrality, CC)K…