爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征

news/2024/4/29 16:12:19/文章来源:https://blog.csdn.net/HyperAI/article/details/131700393

内容一览:近年来,全球气候变化形势严峻,由此引发的蝴蝶效应,正深刻地影响着人类和大自然。在这一背景下,收集数百甚至数千公里范围内开花模式的数据,了解气候变化如何对开花植物产生影响,成为近年来生态研究的重要课题之一。但传统的方法通常需要耗费大量经费,且需要较长的时间进行采样调查,后勤保障工作也面临着重重困难。而近期发布在《Flora》期刊上的研究,不仅克服了这些问题,同时还揭示出前所未有的细节。

关键词:时空分析   智慧生态学   SNS 数据

本文首发自 HyperAI 超神经微信公众平台~

樱花作为日本的国花,在大和文化中有着重要的地位。赏花(Hanami,花见),作为极具特色的民间习俗,已有了数百年的历史。然而日本纵跨纬度约 20 度,全国可分为 6 个气候区,各地气候差异明显,因此樱花绽放的时间也各有不同。每值樱花季节,日本的旅游网站也会详细展示各地开花情况,供游客安排赏花时间。近年来,受到气候变化的影响,日本樱花的开放时间也在不断提前。

为了探究日本樱花的开花模式,理解气候变化对物候学的影响,澳大利亚莫纳什大学的研究团队,利用 Python API 与计算机视觉 API,通过社交网站 (SNS) 数据来监测日本的樱花开放情况,并对实验结果与现实情况进行了对比验证。目前该研究已发表在《Flora》期刊,标题为「The spatiotemporal signature of cherry blossom flowering across Japan revealed via analysis of social network site images」。

该研究成果已发表于《Flora》期刊

论文地址:

https://www.sciencedirect.com/science/article/abs/pii/S0367253023001019

实验过程:数据集的爬取、过滤及分析

数据集 

本次实验收集樱花开放数据的过程可以分为两个步骤:

1. 从社交网站提取图片数据,包括几个不同的连续阶段

2. 利用计算机视觉 API 及人工核验的方法,对数据进行相关性过滤

考虑到 API 需要同时对时间、空间、文本进行过滤,研究人员选择了 Flickr 作为数据源。首先,使用 Python API 客户端,通过搜索关键词「cherry blossom」,在 Flickr 上收集带有地理坐标的相关图片。

其次,设置 Bounding Box 为 31.186°N-46.178°N, 129.173°E-145.859°E,以确保图片是在日本拍摄。时间范围设定为 2008 年- 2018 年,以排除 COVID-19 导致的全球旅游业下降对数据的影响。

然后,研究人员借助从 gadm.org 获取的日本地理边界进行遮罩处理,从而过滤这些数据,最终获得 80,915 张图片。

2008 年 1 月 1 日至 2018 年 12 月 31 日

Flickr 上搜索定位在日本的「cherry blossom」图片

1、2 月份(蓝色)表示春季来临前的樱花初放;

3-5 月份(绿色)表示记录春季主要樱花盛开期的摄影数据集中度;

10-12 月份(粉色)则表明了在秋季尤其 11 月达到高峰的有趣现象。

尽管 Flickr 的图片通过搜索关键词「cherry blossom」进行了限制,但 SNS 内容仍然可能会与搜索词错误关联,因此需要验证。

对此,研究人员将所有图片提交至 Google Cloud Vision AI,该 API 可以根据每张图像的视觉内容,为其生成了描述性文本标签,从而对单个数据点相关性,自动进行 double-check。

Google Cloud Vision AI 使用预先训练好的机器学习模型,在预定义类别中为图像分配标签。此外,研究人员还对样本数据进行了额外的手动核查,如下表所示:

表 1:Tokyo-filtered 数据集中,各阶段的图像数据

B 列:在 Flickr 搜索「cherry blossom」返回 28,875 张图片,这些图片地理坐标都位于东京地区的行政区域内

C 列:计算机视觉 API 为此数据集返回的文本标签及其相对频率。从文本标签过滤器返回的图像中,有 21,908 张被计算机视觉 API 标记为「cherry blossom」,但由于部分图像也被标记为「autumn」或「maple tree」,因此被剔除后,最终得到 21,633 张图像

D 列:结果图像随机选出用于人工检查的样本

E 列:经人工检查确认为樱花的图像数量

F 列:每月自动处理方法(计算机视觉和标签分析)的预估精度,计算方法为 E/D

G 列:利用该精度,计算 2、3、4 月总共拍摄到的樱花图片数量,计算方法为 C*F

评估方法 

为了估计樱花的盛开日期,研究人员为数据集中的所有图像生成了以天为单位的时间序列,然后用 7-day width 的三角移动平均指标 (triangular rolling average) 进行处理,中心点赋 unity weight,其两侧紧邻的点赋 0.75 的权重 ,接下来最接近的点分别赋 0.5 和 0.25 的权重,以此来平整由周末(休闲时间,摄影活动明显增加)和工作日赏花人数不同而带来的拍摄行为 (Photographic activity) 波动。

得出的图表中所显示的拍摄行为波峰,被确定为是樱花盛开的全盛期(mankai)。

对比验证:预测结果与实际数据一致

日本对樱花盛开现象的记录最早可追溯到公元 812 年,自 1953 年起开始有了官方正式的观测记录。为了验证团队的分析方法,实验团队选择了东京和京都两座热门赏花城市的数据,并与日本气象公司 (JMC)、日本国家旅游组织 (JNTO) 每年公布的樱花全面盛开日期进行对比,计算出实验所得峰值日与官方公布日期之间的误差

通过实验,研究团队得出了日本全国樱花开放的可视化时空数据,1 月下旬 (wks 3-4) 至 5 月下旬 (wks 3-4),樱花开放首先从南部气候温暖的地区逐渐向北方推进,最后由南向北逐渐退缩。如图所示:

图 2: 2008-2018 年日本樱花拍摄地点,

每张图的周期对应两周

A-C:樱花图片出现在日本南部较温暖的地区,图片高度集中出现在本州岛的东京与京都的城市中心

D-F:樱花图片增加,开始向本州岛北部延伸

G-I:樱花位置向北扩展,出现在北海道札幌,东京和京都拍摄行为依然活跃,北海道和本州岛北部,樱花拍摄行为更加集中。最后,全国范围内的樱花照片逐渐减少,由南到北退去。

实验团队将经过处理的东京与京都地区樱花活动摄影日时间序列的峰值,与 JMC/JNTO 所公布的日期进行了比较验证。结果显示东京地区的均方根误差为 3.21 日,京都地区为 3.32 日。如下图:

图 3:东京地区二者评估的日期对比

左栏:通过本实验方法所估计的历年东京樱花全盛日期

中栏:JNTO 历年报道的东京樱花全盛日期

右栏:误差,即二者相差天数

图 4:京都地区二者评估的日期对比

左栏:通过本实验方法所估计的历年京都樱花全盛日期

中栏:JNTO 历年报道的京都樱花全盛日期

右栏:误差,即二者相差天数

在实验团队的数据中,还揭示出了樱花在秋季开放的现象。这在 JNTO 所公布的数据中并没有正式指出,体现出了 SNS 数据有能力解析小概率事件,揭示异常的物候学现象,如非季节性开放时间,这对于评估一年四季甚至意外情况下可供获取的花粉花蜜等芳香资源极其重要。

SNS 数据:为生态研究提供新洞见

世界气象组织今年 4 月发布的一篇文章显示,2022 年的全球平均温度比 1850-1900 年的平均值高出了 1.15℃,人类对气候变化的感知较为迟滞,植物则格外敏感。在全球气候变暖的影响下,不仅是日本樱花,我国多地的开花植物也受到了影响。

根据武汉大学樱花观测数据,从上世纪 60 年代开始,武汉大学樱花的始花期明显提前,2000 年之后更是不断突破记录,一度由 3 月下旬提前至 2 月下旬。

20 世纪 90 年代前,山东菏泽的牡丹开花时间主要集中在 4 月下旬,2010 年前后提前到 4 月中旬,近几年更是在 4 月上旬便可观测到花开。

油菜开花的时间也同样有了显著提前的趋势,江西婺源油菜花今年 2 月 22 日就见花了,3 月 13 日进入开花盛期,而在 30 年前,油菜花开花时间一般在 3 月中旬。

Kepios 发布的一份报告显示,截止 2023 年 4 月,全球社交媒体用户数量达到 48 亿,占全球总人口的 59.9%,平均每人每天花费 2 小时 24 分钟使用社交媒体应用,产生海量社交网络数据,有望为生态研究提供新洞见。

作者在本论文中提出的 SNS 分析技术,可以填补公开数据中缺失的部分,帮助科研人员理解气候变化对于开花植物产生的不同程度的影响,对理解蜜蜂、昆虫等重要传粉者的行为具有积极意义。

参考文章:

[1]https://www.sciencedirect.com/science/article/abs/pii/S0168192320303117

[2]https://link.springer.com/chapter/10.1007/978-4-431-66899-2_8

[3]http://sh.cma.gov.cn/sh/qxkp/qhbh/zhykp/202304/t20230425_5464832.html

[4]https://datareportal.com/social-media-users

本文首发自 HyperAI 超神经微信公众平台~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_330246.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python -m 是什么命令

python -m 命令是什么意思 首先python --help 可以看到-m的含义:意思是将库中的python模块用作脚本去运行。 python --help 命令显示结果 python -m xxx.py 和python xxx.py 有什么区别 这是两种加载py文件的方式: 叫做直接运行(python xxx.py&#xf…

OpenCV中的RGB与YUV转换

1 基本概念 YUV 颜色空间从模拟电视时代开始就被广泛应用于彩色图像的转换与处理。其基于一个 3x3 的矩阵,通过线性变换将 RGB 像素转换为一个亮度(Luma)分量 Y 以及两个色度(Chroma)分量 U 和 V。由于模拟电视存在着多…

RabbitMQ系列(28)--RabbitMQ使用Federation Queue(联邦队列)解决异地访问延迟问题

前言: 联邦队列可以在多个Broker节点(或者集群)之间为单个队列提供均衡负载的功能。一个联邦队列可以连接一个或者多个上游队列(upstream queue),并从这些上游队列中获取消息以满足本地消费者消费消息的需求。 1、Federation Queue工作原理图 2、添加策…

ELK-日志服务【filebeat-安装使用】

目录 【1】安装Filebeat 【2】配置-测试 【3】配置使用Filebeat 【4】filebeat-收集系统文件日志 【5】配置filebeat,将/var/log/all.log日志采集到es集群中 【6】定制索引名称 【7】收集多个web节点的日志,输出到相同的索引中 【8】filebeat-收…

数据结构--栈

一、栈 数组是一种连续存储、随机访问的线性表,链表属于分散存储、连续访问的线性表。它们每个数据都有其相对位置,有至多一个直接前驱和之多一个直接后继。栈(Stack)和队列(Queue)也属于线性表&#xff0c…

twaver——树中选择子网,拓扑中显示子网里面的拓扑

twaver.network.Network.setCurrentSubNetwork ( currentSubNetwork [animate] [finishFunction] ) 将当前子网设置为指定子网,并且可以设置是否有动画效果,而且能指定设置当前子网结束后执行的动作 Parameters: currentSubNetwork twaver.SubNetwork 子…

【UT学习记录】

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 Part1:Mock Part2:PowerMock Part3:Junit 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文…

即插即用篇 | YOLOv8 引入具备跨空间学习的高效多尺度注意力 Efficient Multi-Scale Attention | 《ICASSP 2023 最新论文》

论文地址:https://arxiv.org/vc/arxiv/papers/2305/2305.13563v1.pdf 该论文展示了通道或空间注意机制在各种计算机视觉任务中产生更明显的特征表示的显著效果。然而,通过通道维度缩减来建模跨通道关系可能会在提取深度视觉表示方面带来副作用。本文提出了一种新颖高效的多尺…

ES6——Promise

promise 含义:异步编程解决方案 特点:1、状态不受外界影响,状态有三种:pending、fulfilled、rejected 2、状态不可逆,只能pending -> fulfilled、pending -> rejected 缺点:无法取消、不设置回调函…

C语言联合体

一、联合体的概念 联合 (union) 是一个能在同一个存储空间里 ( 但不同时) 存储不同类型数据的复合数据类型。 大致结构如下: n union foo /* 定义一个联合类型foo */ n { q int digit; q double bigfl[10]; q char letter; n }baz; /* 定义一个example类型的联合变量…

JVM (simple Version)

简介 JVM 其实就是一个Java进程 , 从操作系统申请一大块内存区域, 供 java 代码使用 . 申请出的内存 , 进一步划分 , 给出不同的用途 . JVM 内存区域划分 : 堆中存放就是 new 出来的对象. (成员变量) 栈 是用来维护方法之间的调用关系 (局部变量) 元数据区(或者叫方法区) 存放的…

计算机毕设 大数据房价数据分析及可视化 - python 房价分析

文章目录 1 课题背景2 数据爬取2.1 爬虫简介2.2 房价爬取 3 数据可视化分析3.1 ECharts3.2 相关可视化图表 4 最后 1 课题背景 房地产是促进我国经济持续增长的基础性、主导性产业。如何了解一个城市的房价的区域分布,或者不同的城市房价的区域差异。如何获取一个城…

自动驾驶与智能网联场地测试一体化装备应用

自动化驾驶层级与结构 L1:能够辅助驾驶员玩车某些驾驶任务制动防抱死系统 (ABS),车身电子稳定系统 (ESP)等,这些配置就是L1级别的运用。 L2:部分自动化,在L2的级别里,必须要具备的是自适应巡航系统,主动车道保持系统自动刹车辅助系统以及自动泊车系统等系统。 L3:有条件…

Qt + QR-Code-generator 生成二维码

0.前言 之前使用 libgrencode 生成二维码,LGPL 协议实在不方便,所以需要找一个 github 星星多的,代码简单最好 header-only,协议最好是 MIT 或者兼容协议而不是 GPL 或者 LPGL。 QR-Code-generator 正好符合这个要求&#xff0c…

Linux和Shell笔记-1相关概念理解

Unix和Linux关系 UNIX是最早的商业操作系统之一,由贝尔实验室(AT&T Bell Laboratories)于 1970 年代开发。UNIX 是一个多用户、多任务的操作系统,具有强大的命令行界面和可扩展性。 Linux 是一个开放源代码的类 UNIX 操作系统…

​LeetCode解法汇总931. 下降路径最小和

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣 描述: 给你一个 n x n 的 方形 整数数组 matrix ,请你找出并返回通过 matr…

小白到运维工程师自学之路 第五十一集 (三剑客之sed)

一、概述 sed是一个流式文本编辑器,可以对文本进行搜索、替换、删除等操作。它是一个非交 互式的命令行工具,通常用于处理大量的文本数据。sed的工作方式是逐行读取输入文 本,按照预定义的命令对每一行进行处理,并输出结果。它…

使用STM32 再实现电动车防盗钥匙扣

实现目标 1. 点击遥控器 A 按键,系统进入警戒模式,一旦检测到震动(小偷偷车),则喇叭发出声响报警 2. 点击遥控器 B 按键,系统退出警戒模式,再怎么摇晃系统都不会报警 硬件介绍 1. 震动传感器…

解决uniapp运行手机基座出现的问题

常见的问题:(往往在更新编辑器版本后会出现以下问题) 问题1.明明已经连接到手机,就是检测不到设备 问题2.同步资源失败,未得到同步资源的授权 解决办法汇总 问题1解决办法: 方法一:进入HBuild…

【socket编程】TCP服务器、UDP服务器、本地套接字【C语言代码实现】

目录 0. 准备知识 0.1 大小端概念 0.2 网络字节序和主机字节序的转换 0.3 点分十进制串转换(IP地址转换函数) 0.4 IPV4结构体:(man 7 ip) 0.5 IPV6套接字结构体:(man 7 ipv6) …