Understanding the Users and Videos by Mining a Novel Danmu Dataset

news/2024/5/5 21:33:35/文章来源:https://blog.csdn.net/zhihuier/article/details/127134956

题目:Understanding the Users and Videos by Mining a Novel Danmu Dataset

作者:Guangyi Lv, Kun Zhang, Le Wu, Enhong Chen, Tong Xu, Qi Liu,  and Weidong He

发表:IEEE TRANSACTIONS ON BIG DATA,  2022


切入点:弹幕交流是否有助于更好的用户行为建模或视频分析?

解决方案:建立大数据集,并进行基本分析

一、数据集生成

针对这一问题,本文通过引入一个从bilibili平台收集的弹幕数据集,对用户和视频进行了初步的分析尝试。该数据集包含1.7TB的视频和弹幕,涉及8个视频类别,790万弹幕记录和480万视频帧。

数据集下载网址:“http://bigdata.ustc.edu.cn/dataset/Danmus”

对数据集的预处理包括:弹幕文本翻译、字体颜色字段缩减、视频关键帧抽取等。

二、对数据集的统计分析

1.弹幕句子长度情况:短

 2.弹幕数随播放时间的分布:先多后少

 3.颜色:白为默认,红色最多

 4~5、弹幕类型与表情使用情况:

三、对数据集的语义分析

 1.style与主题,作者利用Gensim Tool在每个类别中生成danmus评论的主题信息,结果如表1:

2.特有表达。本文方法基于词向量,结果如表2:

根据这些现象可以得出结论,当表达特定的意义或特定的对象时,弹幕包含了更多的领域知识,具有更精确的意义。

3.弹幕语义嵌入(Semantic Embedding)

处理文本数据时常用Bag-Of-Word或TF-IDF作为特征,它们通常擅长对长文档建模。弹幕可以被看作是一种特殊类型的短文本。此外,由于深度学习技术在许多NLP任务中被广泛采用,本文对弹幕进行深度语义嵌入(deep semantic embedding).得到弹幕语义表达后,完成聚类分析,结果如图7

蓝色:完结撒花

红色:233333,哈哈哈哈哈哈

粉色:后宫

紫色:flag,插旗

5.弹幕与用户行为,评分公式如下:

结果表3:

 四、数据集的潜在应用

为进一步展示弹幕数据集的潜在价值,展示一些工作,包括用户行为建模、细粒度视频理解和标记、视频情节生成和图像增强语义理解。对于每个应用程序,还提出了其可能的未来发展方向。如图11所示。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_17201.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++实现二分法求零点

​目录前言 题目: 一、零点是什么? 二、二分法求零点 1.二分法 2.完整代码 总结 前言 首先,我们要清楚我们是干嘛的;其次,知道原理;最后,才能明白自己要怎么办。明确:用二分法求函数。 题目: 二分法求函数的零点: 有函数: f(x) = x5 - 15 * x4+ 85 * x3- 225 * x2…

十一、动态规划题目相关

学习来源: 代码随香炉:https://www.programmercarl.com/ labuladong算法:https://labuladong.github.io/algo/ 动态规划 动态规划五部曲 确定dp数组(dp table)以及下标的含义 确定递推公式 dp数组如何初始化 确定遍历…

炫酷的花式滑块滑动无缝切换特效

💂 个人网站:【 海拥】【小霸王游戏机】【大转盘】🤟 风趣幽默的前端学习课程:👉28个案例趣学前端💅 想寻找共同学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习群】【学习文档】💬 免费且实用的计…

【ML05】Feature Scaling 特征缩放

Feature ScalingFeature Scaling 特征缩放的目的是什么Feature Scaling Method #3Dividing by maximumMean NormalizationZ-Score normalizationFeature Scaling 特征缩放的目的是什么 考虑前两个组图: 组图1:同一辆大货车拉货,同一个函数在…

Flink学习笔记(2)——Flink快速上手

目录 一、Flink快速上手 1.1、环境准备 1.2 创建项目 1.3 编写代码 1.3.1 批处理 1.3.2 流处理 1.4 本章总结 一、Flink快速上手 对 Flink 有了基本的了解后,接下来就要理论联系实际,真正上手写代码了。Flink 底层是 以 Java 编写的,…

计算机网络—物理层

计算机网络—物理层 物理层的基本概念 物理层的作用是要尽可能地屏蔽掉传输媒体和通信手段的差异,使物理层上面的数据链路层感觉不到这些差异,这样就可以使数据链路层只需要考虑如何完成本次的协议和服务,而不必考虑网络具体的传输媒体和通…

切记:Python迭代器只可以读取一次,忽略会有意想不到的麻烦。

Python 官网: https://www.python.org/- ###### Free:大咖免费“ 圣经”教程 《 python 完全自学教程》,不仅仅是基础那么简单……My CSDN主页、My HOT博、My Python 学习个人备忘录好文力荐、老齐教室自学并不是什么神秘的东西 &#xff0c…

Java学习笔记:高级数据过滤

通配符过滤 1、名字以T开头的 SELECT * FROM T_Persons WHERE Name LIKE ‘T%’ 2、名字以ke结尾的 SELECT * FROM T_Persons WHERE Name LIKE ‘%ke’ 3、名字中包含“中”的 SELECT * FROM T_Persons WHERE Name LIKE ‘%中%’ 多值检测 SELECT Age,Name FROM T_…

Java的输入 Scanner in=new Scanner(System.in);

java和c还是有好多不同的地方,需要从头开始认认真真地学 文章目录输入数字输入double输入整型输入字符串判断2个字符串是否相等Java的字符串要用""双引号引起来,而不是单引号输入一维数组输入二维数组输入数字 输入double import java.util.…

算法分析与设计:10 大排序算法大汇总(Java)

冒泡排序 相邻比较并交换位置,将大的数冒泡交换到最后。 /******************************************************************************** 冒泡排序(Bubble Sort)它重复地走访过要排序的元素,依次比较相邻两个元素&#xf…

E2成都电路板设计_启动保持停止电路的原理

电气技术分享之2 本文介绍电气工程里常见的启动、保持、停止电路的原理。 1、起保停电路的功能 起保停电路实现的功能:按启动按键,电路的负载得电并保持,按停止按键,负载断电。 2、起保停电路所需的元件 起保停电路所需的元件…

matplotlib绘制直方图,饼图,散点图,气泡图,箱型图,雷达图

matplotlib绘制直方图,饼图,散点图,气泡图,箱型图,雷达图一.直方图用10000个正态分布随机数画直方图二.绘制饼图或者圆环图圆环图根据消费支出画圆环图三.绘制散点图或气泡图使用scatter()函数绘制一个散点图&#xff…

【进制计算】 2 ~ N 进制计算

目录 规则 图解十、二、八、十六进制之间的转换 举例 除法计算出3进制: 乘法次方逆向计算原数: 图解二进制加减乘除计算 规则 十进制 除以 进制数 取余法:(1)被除数 除以 除数 等于 商 并取得余数,&am…

SSM进阶-Duubo入门demo整合MyBatis

搭建入门demo 搭建SpringSpringMVCDubbo入门demo 准备数据 数据库创建demo表 create table demo (id bigint auto_increment primary key,name varchar(255) null,description text null ); 插入数据 INSERT INTO demo(id, name, description) VAL…

数据库基础,看完这篇就够了!

转载请注明出处❤️ 作者:测试蔡坨坨 原文链接:caituotuo.top/747a74ea.html你好,我是测试蔡坨坨。 对于测试同学来说,除了知道测试基础知识外,还需要掌握一些测试基本技能,主要有Linux、数据库、计算机网络等,在此之前我们已经讨论过Linux基础知识以及在实际工作中的应…

神经网络模型训练简记(一)

神经网络模型训练简记(一)一、概念介绍1.1人工智能、机器学习、神经网络与深度学习1.2backbone与pretrain_model1.3batch_size、learning_rate、epoch与iteration1.4模型评价指标二、官方数据集简介2.1ImageNet数据集2.2 ILSVRC竞赛2.3 MS COCO数据集2.4…

【专栏】RPC系列(实战)-低配版NameServer

公众号【离心计划】,一起离开地球表面 【RPC系列合集】 【专栏】RPC系列(理论)-夜的第一章 【专栏】RPC系列(理论)-协议与序列化 【专栏】RPC系列(理论)-动态代理 【专栏】RPC系列(实战&am…

读书笔记:软件工程(4) - 软件过程模型:瀑布模型

软件过程模型 为了改变软件开发的混乱状况,使软件开发更加有序。 瀑布模型 又称为经典生命周期,它提出了一个系统的,顺序的软件开发方法,从用户需求规格说明开始,通过策划,建模,构建和部署的…

Easyx基本使用(三)

Easyx基本使用&#xff08;三&#xff09; ——绘制简单图形 1. 绘制点&#xff08;putpixel&#xff09; void putpixel(int x,int y,COLORREF color );x&#xff1a;点的x坐标y&#xff1a;点的y坐标color&#xff1a;点的颜色返回值&#xff1a;无 #include <easyx.h…

程序员的数学课15 递归:如何计算汉诺塔问题的移动步数?

递归是重要的程序开发思想&#xff0c;比如程序源代码缩进、树形数据结构、XML 语法、快速排序法等都有递归的影子。 那么&#xff0c;递归思维的本质到底是什么呢&#xff1f;递归的理念看似隐讳&#xff0c;实则非常清晰明了。 为了让你由浅入深地理解它&#xff0c;这一讲…