动作识别、检测、分割、解析相关数据集介绍

news/2024/4/19 8:54:02/文章来源:https://blog.csdn.net/qq_43406895/article/details/129166531

文章目录

  • 动作识别
    • UCF101(UCF101 Human Actions dataset)
    • Kinetics (Kinetics Human Action Video Dataset)
  • 动作检测 / 时序动作定位
    • Charades
    • ActivityNet
    • Multi-THUMOS
    • UCF101-24
    • IKEA ASM
  • 动作分割
    • Breakfast (The Breakfast Actions Dataset)
    • GTEA (Georgia Tech Egocentric Activity)
    • 50 Salads
    • JIGSAWS (JHU-ISI Gesture and Skill Assessment Working Set)
    • COIN
    • Assembly101
    • MPII Cooking 2 Dataset
  • 动作解析
    • TAPOS
    • Home Action Genome

本文将列举介绍目前在动作识别、动作检测、动作分割等相关领域的常用数据集和各自的特点。

动作识别

对剪辑后的一段包含特定动作的视频进行分类。
在这里插入图片描述

UCF101(UCF101 Human Actions dataset)

UCF101数据集是UCF50的扩展,由13320个视频片段组成,分为101个类别。这101个类别可分为5类(身体运动、人与人互动、人与物互动、乐器演奏和运动)。这些视频剪辑的总时长超过27个小时。所有视频均来自YouTube,固定帧率为25fps,分辨率为320 × 240。

Khurram Soomro, Amir Roshan Zamir, & Mubarak Shah (2012). UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild arXiv: Computer Vision and Pattern Recognition.

可用于:action recoognition

The action categories for UCF101 data set are: Apply Eye Makeup, Apply Lipstick, Archery, Baby Crawling, Balance Beam, Band Marching, Baseball Pitch, Basketball Shooting, Basketball Dunk, Bench Press, Biking, Billiards Shot, Blow Dry Hair, Blowing Candles, Body Weight Squats, Bowling, Boxing Punching Bag, Boxing Speed Bag, Breaststroke, Brushing Teeth, Clean and Jerk, Cliff Diving, Cricket Bowling, Cricket Shot, Cutting In Kitchen, Diving, Drumming, Fencing, Field Hockey Penalty, Floor Gymnastics, Frisbee Catch, Front Crawl, Golf Swing, Haircut, Hammer Throw, Hammering, Handstand Pushups, Handstand Walking, Head Massage, High Jump, Horse Race, Horse Riding, Hula Hoop, Ice Dancing, Javelin Throw, Juggling Balls, Jump Rope, Jumping Jack, Kayaking, Knitting, Long Jump, Lunges, Military Parade, Mixing Batter, Mopping Floor, Nun chucks, Parallel Bars, Pizza Tossing, Playing Guitar, Playing Piano, Playing Tabla, Playing Violin, Playing Cello, Playing Daf, Playing Dhol, Playing Flute, Playing Sitar, Pole Vault, Pommel Horse, Pull Ups, Punch, Push Ups, Rafting, Rock Climbing Indoor, Rope Climbing, Rowing, Salsa Spins, Shaving Beard, Shotput, Skate Boarding, Skiing, Skijet, Sky Diving, Soccer Juggling, Soccer Penalty, Still Rings, Sumo Wrestling, Surfing, Swing, Table Tennis Shot, Tai Chi, Tennis Swing, Throw Discus, Trampoline Jumping, Typing, Uneven Bars, Volleyball Spiking, Walking with a dog, Wall Pushups, Writing On Board, Yo Yo.

在这里插入图片描述

Kinetics (Kinetics Human Action Video Dataset)

Kinetics数据集是一个用于视频中人类动作识别的大规模、高质量数据集。该数据集包含约50万个视频剪辑,涵盖400个人类动作类,每个动作类至少400个视频剪辑。每个视频剪辑大约持续10秒,并标有单个动作类。这些视频来自YouTube。

Andrew Zisserman, Joao Carreira, Karen Simonyan, Will Kay, Brian Hu Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, & Mustafa Suleyman (2017). The Kinetics Human Action Video Dataset arXiv: Computer Vision and Pattern Recognition.

可用于:action classification

在这里插入图片描述

动作检测 / 时序动作定位

找到动作的开始帧和结束帧并进行分类。/检测视频流中的活动,并输出开始和结束时间戳。

在这里插入图片描述

Charades

Charades数据集由9848个平均时长为30秒的日常室内活动视频组成,涉及15种室内场景中46种对象类的交互,包含30个动词词汇,可导致157种动作类。该数据集中的每个视频都由多个自由文本描述、动作标签、动作间隔和交互对象的类别进行注释。研究人员向267名不同的用户展示了一个句子,其中包括来自固定词汇的物体和动作,他们录制了一段表演句子的视频。总的来说,该数据集包含157个动作类的66500个时间注释,46个对象类的41104个标签,以及27847个视频的文本描述。在标准分割中,有7986个训练视频和1863个验证视频。

Gunnar A. Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, & Abhinav Gupta (2016). Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding arXiv: Computer Vision and Pattern Recognition.

可用于:action classification / action detection

在这里插入图片描述
在这里插入图片描述

ActivityNet

ActivityNet数据集包含200种不同类型的活动,以及从YouTube上收集的总共849小时的视频。就活动类别和视频数量而言,ActivityNet是迄今为止最大的时间活动检测基准,这使得这项任务特别具有挑战性。1.3版本的数据集总共包含19994个未修剪的视频,并按照2:1:1的比例分为三个互不关联的子集,训练,验证和测试。平均而言,每个活动类别有137个未修剪的视频。每个视频平均有1.41个带有时间边界注释的活动。测试视频的真实注释是不公开的。

Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, & Juan Carlos Niebles (2015). ActivityNet: A large-scale video benchmark for human activity understanding Computer Vision and Pattern Recognition.

可用于:Temporal Action Localization / Action Recognition

在这里插入图片描述

Multi-THUMOS

MultiTHUMOS数据集包含密集的、多标签的、帧级的动作注释,在THUMOS的14个动作检测数据集中,横跨400个视频,长达30小时。它由65个动作类的38690个注释组成,平均每帧1.5个标签,每个视频10.5个动作类。

Serena Yeung, Olga Russakovsky, Ning Jin, Mykhaylo Andriluka, Greg Mori, & Li Fei-Fei (2015). Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos Cornell University - arXiv.

可用于:Action Detection
在这里插入图片描述
每帧可能有多种标签
在这里插入图片描述

UCF101-24

UCF101_24是UCF101数据集的子集,使用了一些不一样的标签。
类别信息有24类。

可用于:Action Detection / Temporal Action Localization
在这里插入图片描述

IKEA ASM

大型标记数据集的可用性是应用深度学习方法解决各种计算机视觉任务的关键要求。在理解人类活动的背景下,现有的公共数据集虽然规模很大,但通常仅限于单个RGB摄像机,并且只提供每帧或每剪辑的动作注释。为了能够更丰富地分析和理解人类活动,我们引入了宜家ASM——一个300万帧、多视图、家具组装视频数据集,包括深度、原子动作、对象分割和人体姿势。此外,我们在这个具有挑战性的数据集上对视频动作识别、对象分割和人体姿势估计任务的突出方法进行了基准测试。数据集能够开发整体方法,集成多模态和多视图数据,以更好地执行这些任务。

Yizhak Ben-Shabat, Xin Yu, Fatemeh Sadat Saleh, Dylan Campbell, Cristian Rodriguez-Opazo, Hongdong Li, & Stephen Gould (2020). The IKEA ASM Dataset: Understanding People Assembling Furniture through Actions, Objects and Pose arXiv: Computer Vision and Pattern Recognition.

可用于:Action Recognition 、 Pose Estimation 、 Action Segmentation

动作分割

为对一段未剪辑视频进行分段,并对每一段视频分配预先定于的动作标签。

动作分割是高水平视频理解中具有挑战性的问题。在其最简单的形式中,动作分割旨在按时间分割一个临时未修剪的视频,并用预定义的动作标签标记每个分割部分。动作分割的结果可以进一步用作各种应用程序的输入,如视频到文本和动作定位。

在这里插入图片描述

Breakfast (The Breakfast Actions Dataset)

相关链接:Action Segmentation数据集介绍——Breakfast

早餐动作数据集包括与早餐准备相关的10个动作,由18个不同厨房的52个不同的人执行。该数据集是最大的完全带注释的数据集之一。这些动作是在“自然环境下”记录的,而不是在单一的受控实验室环境中记录的。它由超过77小时(>4万帧)的录像组成。为了减少数据总量,所有视频都被下采样到320×240像素的分辨率,帧速率为15 fps

Hilde Kuehne, Ali Bilgin Arslan, & Thomas Serre (2014). The Language of Actions: Recovering the Syntax and Semantics of Goal-Directed Human Activities Computer Vision and Pattern Recognition.

在这里插入图片描述
在这里插入图片描述

可用于:Action Segmentation

GTEA (Georgia Tech Egocentric Activity)

佐治亚理工学院以自我为中心的活动(GTEA)数据集包含七种类型的日常活动,如做三明治、茶或咖啡。每个活动由4个不同的人完成,总共28个视频。对于每个视频,大约有20个精细的动作实例,如拿面包,倒番茄酱,大约一分钟。

Alireza Fathi, Xiaofeng Ren, & James M. Rehg (2011). Learning to recognize objects in egocentric activities Computer Vision and Pattern Recognition.

可用于:Action Segmentation; Action Localization

在这里插入图片描述

50 Salads

活动识别研究的重点已经从区分全身运动模式转向识别多个实体的复杂交互。操纵手势——以手、工具和可操作物体之间的交互为特征——经常出现在食品制备、制造和装配任务中,并有各种应用,包括情景支持、自动监督和技能评估。为了刺激对识别操纵手势的研究,我们介绍了50 Salads数据集。它捕捉到25个人每人准备两份混合沙拉,包含超过4小时的带注释的加速度计(accelerometer)和RGB-D视频数据。50 salad数据集包括详细的注释、多种传感器类型和每个参与者的两个序列,可用于活动识别、活动发现、序列分析、进度跟踪、传感器融合、迁移学习和用户适应等领域的研究。

可用于:Action Segmentation 、
在这里插入图片描述

JIGSAWS (JHU-ISI Gesture and Skill Assessment Working Set)

JHU-ISI手势和技能评估工作集(JIGSAWS)是用于人体运动建模的外科活动数据集。数据是通过约翰霍普金斯大学(JHU)和Intuitive Surgical, Inc. (Sunnyvale, CA. ISI)在irb批准的研究中合作收集的。该数据集的发布已得到约翰霍普金斯大学IRB的批准。数据集是使用达芬奇手术系统(da Vinci Surgical System)从八位不同技能水平的外科医生那里获取的,他们在台式模型上重复执行三种基本手术任务:缝合、打结和穿针,这是大多数外科技能培训课程的标准组成部分。JIGSAWS数据集由三个部分组成:

运动学数据:描述机械手运动的笛卡尔位置、方向、速度、角速度和夹持角。
视频数据:内窥镜相机拍摄的立体视频。JIGSAWS任务的示例视频可从官方网页下载。
手动注释包括:
手势(原子手术活动段标签)。
技能(使用改进的客观结构化技术技能评估的全球评分)。
实验设置:一个标准化的交叉验证实验设置,可用于评估自动手术手势识别和技能评估方法。

Yixin Gao, S Swaroop Vedula, Carol E Reiley, Narges Ahmidi, Balakrishnan Varadarajan, Henry C Lin, Lingling Tao, Luca Zappella, Benjamín Béjar, David D Yuh, Chi Chiung, Grace Chen, René Vidal, Sanjeev Khudanpur, & Gregory D Hager (2023). JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS): A Surgical Activity Dataset for Human Motion Modeling

可用于: Action Segmentation 、 Action Quality Assessment 、 Surgical Skills Sevaluation
在这里插入图片描述
在这里插入图片描述

COIN

COIN数据集(用于综合教学视频分析的大规模数据集)由11,827个视频组成,涉及与我们日常生活相关的12个领域(例如,车辆,小工具等)中的180个不同任务。这些视频都是从YouTube上收集的。视频的平均长度是2.36分钟。每个视频被标记为3.91个步骤片段,每个片段平均持续14.91秒。该数据集总共包含476小时的视频,其中有46,354个带注释的片段。

Yansong Tang, Dajun Ding, Yongming Rao, Yu Zheng, Danyang Zhang, Lili Zhao, Jiwen Lu, & Jie Zhou (2019). COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis Cornell University - arXiv.

可用于:Action Segmentation

在这里插入图片描述
COIN 数据集 很大。
在这里插入图片描述

Assembly101

Assembly101是一个新的程序性活动数据集,包含4321个人们组装和拆卸101辆“可拆卸”玩具汽车的视频。参与者在没有固定指令的情况下工作,在动作顺序、错误和纠正方面的序列具有丰富而自然的变化。Assembly101是第一个多视图动作数据集,同时有静态(8)和自我中心(4)记录。序列标注了超过100K粗粒度和1M细粒度的动作片段,以及18M 3D手部姿势。我们以三个动作理解任务为基准:识别、预测和时间分割。此外,我们提出了一种检测错误的新任务。独特的记录格式和丰富的注释集允许我们研究新玩具的泛化,跨视图传输,长尾分布,以及姿势与外观。我们设想Assembly101将成为研究各种活动理解问题的新挑战。

Fadime Sener, Dibyadip Chatterjee, Daniel Shelepov, Kun He, Dipika Singhania, Robert Wang, & Angela Yao (2023). Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities

可用于:3D Action Recognition 、 Action Segmentation 、 Action Anticipation

在这里插入图片描述

MPII Cooking 2 Dataset

为活动识别提供详细注释的数据集。

Marcus Rohrbach, Anna Rohrbach, Michaela Regneri, Sikandar Amin, Mykhaylo Andriluka, Manfred Pinkal, & Bernt Schiele (2016). Recognizing Fine-Grained and Composite Activities Using Hand-Centric Features and Script Data

可以用于:Action Segmentation

动作解析

在一段动作视频中,定义一连串子动作(sub-action),动作解析即定位这些子动作的开始帧。该任务可更好的进行动作间和动作内部的视频理解。

TAPOS

TAPOS是在体育视频上开发的一个新的数据集,该数据集带有子动作的手动注释,并在此基础上进行了时间动作解析的研究。体育活动通常由多个子动作组成,对这种时间结构的认识有利于动作识别。

TAPOS总共包含16,294个有效实例,涉及21个操作类。这些实例的平均持续时间为9.4秒。每个类中的实例数量是不同的,其中最大的跳高类有超过1600个实例,最小的横梁类有200个实例。子动作的平均数量也因类而异,双杠平均有9个子动作,跳远平均有3个子动作。所有实例都分为训练集、验证集和测试集,大小分别为13094、1790和1763。

Dian Shao, Yue Zhao, Bo Dai, & Dahua Lin (2020). Intra- and Inter-Action Understanding via Temporal Action Parsing Cornell University - arXiv.

还没有形成 benchmark
在这里插入图片描述

Home Action Genome

家庭行动基因组是一个大规模的室内日常活动的多视角视频数据库。每一个活动都被同步的多视角摄像机捕捉到,包括以自我为中心的视角。有30个小时的视频,有70种日常活动和453种原子活动。

Nishant Rai, Haofeng Chen, Jingwei Ji, Rishi Desai, Kazuki Kozuka, Shun Ishizaka, Ehsan Adeli, & Juan Carlos Niebles (2021). Home Action Genome: Cooperative Compositional Action Understanding… arXiv: Computer Vision and Pattern Recognition.

可用于:动作识别

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_72868.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python base64和hashlib模块

一、base64模块 base64模块提供了在二进制数据和可打印ASCII字符间编解码的功能,包括 RFC3548中定义的Base16, Base32, Base64, Ascii85, Base85等编码。 base64模块属于标准库,无需进行安装,导入即可使用。 base64模块支持两种接口&#xf…

数组还是队列?yocto-queue 源码告诉你

前言 昨天刚学完 omit 的源码,今天趁着学习源码的热度还没结束,来学习一下另一个我之前未接触过的东西 yocto-queue。 yocto-queue 介绍 那么 yocto-queue 是什么呢?它有什么功能呢?查阅资料可得,对于数据比较多的数…

第10天-商品服务(分层领域模型及规格参数编码实现)

1.分层领域模型规约 DO( Data Object): 此对象与数据库表结构一一对应,通过 DAO 层向上传输数据源对象。DTO( Data Transfer Object):数据传输对象, Service 或 Manager 向外传输的…

【Python】PaddleHub图像分类

目录 一、环境配置: 二、问题需求 三、实验内容 1、准备数据集 2、拆分数据集 3、载入数据集 4、生成数据读取器 5、配置策略 6、组建Finetune Task 7、开始Finetune 8、预测 四、总结: 一、环境配置: 线上环境: 飞桨…

JAVA线程入门简介

线程入门简介什么是程序?什么是进程?什么是线程?单线程与多线程并发与并行线程的使用用java查看有多少个cpu创建线程的两种方式继承Thread类,重写run方法实现Runnable接口,重写run方法多线程机制为社么是start?源码解析什么是程序? 是为完…

字符串转换为二进制-课后程序(JAVA基础案例教程-黑马程序员编著-第五章-课后作业)

【案例5-4】 字符串转换为二进制 【案例介绍】 1.任务描述 本例要求编写一个程序,从键盘录入一个字符串,将字符串转换为二进制数。在转换时,将字符串中的每个字符单独转换为一个二进制数,将所有二进制数连接起来进行输出。 案…

win10下 WSL2安装及配置

目录 一. Windows中WSL2(子系统)安装前提条件 二. Windows中WSL2(子系统)安装步骤(默认安装C盘) 选择包安装模式(选择到其他盘安装) 三. Windows中WSL2(子系统)设置默认root用户登…

35-Golang中的方法

Golang中的方法方法的介绍和使用方法的声明和调用方法的调用和传参机制原理方法的声明(定义)方法注意事项和细节讨论方法和函数的区别方法的介绍和使用 在某些情况下,我们需要声明(定义)方法。比如person结构体,除了有一些字段外(年龄,姓名……

Apollo规划模块代码学习(1): 算法架构原理、运行机制一文详解

文章目录 1、Apllo算法框架原理2、Apollo规划模块概述3、规划模块代码框架1、重要数据结构2、运行机制1、Apllo算法框架原理 Apollo开源自动驾驶平台中,高清地图模块提供了每个在线模块都可以访问的高清地图。感知和定位模块提供了必要的动态环境信息,可以在预测模块中进一步…

优思学院:六西格玛管理的优势有哪些?

六西格玛的优势有哪些呢?以下我们来探讨一下。 一・降低企业整体成本 对企业而言,不良品要么被废弃,要么需要重新加工,或者需要在客户现场维修或更换,这些都会增加企业成本。根据美国的统计数据,执行3σ管…

Socket编程 | TCP服务器 之 并发阻塞模型(多进程实现)

TCP服务器IO模型 之 并发阻塞 1. 引言 在 Linux 环境下多进程的应用很多,其中最主要的就是网络/客户服务器。多进程服务器是当客户有请求时,服务器用一个子进程来处理客户请求。父进程继续等待其它客户的请求。这种方法的优点是当客户有请求时,服务器能及时处理客户,特别是…

docker 部署centos7.9并打包成docker

下载centos基础镜像 docker pull centos:centos7 运行镜像 docker run -itd --name centos-test -p 60001:22 --privileged centos:centos7 /usr/sbin/init 进入容器 docker exec -it ebec90068696 /bin/bash 配置容器信息 安装ssh服务和网络必须软件 yum install net-to…

MongoDB在Windows、Linux、Docker环境下的安装

MongoDB在Windows、Linux、Docker环境下的安装DockerDocker安装远程连接WindowsWindows安装服务相关命令压缩包形式安装Mac、Ubuntu、Centos一键安装MacUbuntucentos源码安装使用Atlas免费MongoDB云数据库申请云数据库连接测试Docker Docker安装 拉取镜像 docker pull mongo…

洛谷P5736 【深基7.例2】质数筛 C语言/C++

【深基7.例2】质数筛 题目描述 输入 nnn 个不大于 10510^5105 的正整数。要求全部储存在数组中,去除掉不是质数的数字,依次输出剩余的质数。 输入格式 第一行输入一个正整数 nnn,表示整数个数。 第二行输入 nnn 个正整数 aia_iai​&…

数据结构与算法(二)(Python版)

数据结构与算法(一)(Python版) 文章目录递归动规初识递归:数列求和递归三定律递归的应用:任意进制转换递归的应用:斐波那契数列递归调用的实现分治策略与递归优化问题和贪心策略找零兑换问题贪心…

系列四、多表查询

一、多表关系 项目开发中,在进行数据库表结构设计时,会根据业务需求及业务模块之间的关系,分析并设计表结 构,由于业务之间相互关联,所以各个表结构之间也存在着各种联系,基本上分为三种:一对多…

Sprng依赖注入(二):setter注入是如何工作的?

文章示例环境配置信息jdk版本:1.8开发工具:Intellij iDEA 2020.1springboot:2.3.9.RELEASE前言在Spring依赖注入(一):字段注入的方式是如何工作的?中主要分享了Spring bean依赖注入方式中的字段注入方式及其工作过程&a…

基于Pytorch,从头开始实现Transformer(编码器部分)

Transformer理论部分参考知乎上的这篇文章 Transformer的Attention和Masked Attention部分参考知乎上的这篇文章 Transformer代码实现参考这篇文章,不过这篇文章多头注意力实现部分是错误的,需要注意。 完整代码放到github上了,链接 Trans…

联想小新 Air-14 2019IML电脑 Hackintosh 黑苹果efi引导文件

原文来源于黑果魏叔官网,转载需注明出处。硬件型号驱动情况主板Lenovo LNVNB161216处理器Intel Core i5-10210U / i7-10510U已驱动内存8GB DDR4 2666已驱动硬盘康佳KAK0500B128(128 GB/固志硬盘)已驱动显卡Intel UHD 620Nvidia GeForce MX250(屏蔽)无法驱动声卡Cone…

轮播图、阅读注册协议、网页时钟、随机点名、小米搜索框、轮播图点击切换——web APIs练习

目录 一、获取元素(DOM) 1. 随机轮播图案例 2. 阅读注册协议(定时器间歇函数的应用) 3. 轮播图定时器版 4. 网页时钟 二、事件基础(DOM) 1. 随机点名案例 2. 轮播图点击切换(重点&#…