Understanding the Users and Videos by Mining a Novel Danmu Dataset

news/2024/5/5 21:33:35/文章来源:https://blog.csdn.net/zhihuier/article/details/127134956

题目：Understanding the Users and Videos by Mining a Novel Danmu Dataset

作者：Guangyi Lv, Kun Zhang, Le Wu, Enhong Chen, Tong Xu, Qi Liu, and Weidong He

发表：IEEE TRANSACTIONS ON BIG DATA, 2022

切入点：弹幕交流是否有助于更好的用户行为建模或视频分析?

解决方案：建立大数据集，并进行基本分析

一、数据集生成

针对这一问题，本文通过引入一个从bilibili平台收集的弹幕数据集，对用户和视频进行了初步的分析尝试。该数据集包含1.7TB的视频和弹幕，涉及8个视频类别，790万弹幕记录和480万视频帧。

数据集下载网址：“http://bigdata.ustc.edu.cn/dataset/Danmus”

对数据集的预处理包括：弹幕文本翻译、字体颜色字段缩减、视频关键帧抽取等。

二、对数据集的统计分析

1.弹幕句子长度情况：短

2.弹幕数随播放时间的分布：先多后少

3.颜色：白为默认，红色最多

4~5、弹幕类型与表情使用情况：

三、对数据集的语义分析

1.style与主题，作者利用Gensim Tool在每个类别中生成danmus评论的主题信息，结果如表1：

2.特有表达。本文方法基于词向量，结果如表2：

根据这些现象可以得出结论，当表达特定的意义或特定的对象时，弹幕包含了更多的领域知识，具有更精确的意义。

3.弹幕语义嵌入（Semantic Embedding）

处理文本数据时常用Bag-Of-Word或TF-IDF作为特征，它们通常擅长对长文档建模。弹幕可以被看作是一种特殊类型的短文本。此外，由于深度学习技术在许多NLP任务中被广泛采用，本文对弹幕进行深度语义嵌入(deep semantic embedding).得到弹幕语义表达后，完成聚类分析，结果如图7

蓝色：完结撒花

红色：233333，哈哈哈哈哈哈

粉色：后宫

紫色：flag，插旗

5.弹幕与用户行为，评分公式如下：

结果表3：

四、数据集的潜在应用

为进一步展示弹幕数据集的潜在价值，展示一些工作，包括用户行为建模、细粒度视频理解和标记、视频情节生成和图像增强语义理解。对于每个应用程序，还提出了其可能的未来发展方向。如图11所示。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_17201.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

C++实现二分法求零点

C++实现二分法求零点

目录前言题目：一、零点是什么？二、二分法求零点 1.二分法 2.完整代码总结前言首先，我们要清楚我们是干嘛的；其次，知道原理；最后，才能明白自己要怎么办。明确：用二分法求函数。题目：二分法求函数的零点：有函数： f(x) = x5 - 15 * x4+ 85 * x3- 225 * x2…

阅读更多...

十一、动态规划题目相关

十一、动态规划题目相关

学习来源： 代码随香炉：https://www.programmercarl.com/ labuladong算法：https://labuladong.github.io/algo/ 动态规划动态规划五部曲确定dp数组（dp table）以及下标的含义确定递推公式 dp数组如何初始化确定遍历…

阅读更多...

炫酷的花式滑块滑动无缝切换特效

炫酷的花式滑块滑动无缝切换特效

💂 个人网站:【海拥】【小霸王游戏机】【大转盘】🤟 风趣幽默的前端学习课程：👉28个案例趣学前端💅 想寻找共同学习交流、摸鱼划水的小伙伴，请点击【摸鱼学习群】【学习文档】💬 免费且实用的计…

阅读更多...

【ML05】Feature Scaling 特征缩放

【ML05】Feature Scaling 特征缩放

Feature ScalingFeature Scaling 特征缩放的目的是什么Feature Scaling Method #3Dividing by maximumMean NormalizationZ-Score normalizationFeature Scaling 特征缩放的目的是什么考虑前两个组图： 组图1：同一辆大货车拉货，同一个函数在…

阅读更多...

Flink学习笔记(2)——Flink快速上手

Flink学习笔记(2)——Flink快速上手

目录一、Flink快速上手 1.1、环境准备 1.2 创建项目 1.3 编写代码 1.3.1 批处理 1.3.2 流处理 1.4 本章总结一、Flink快速上手对 Flink 有了基本的了解后，接下来就要理论联系实际，真正上手写代码了。Flink 底层是以 Java 编写的，…

阅读更多...

计算机网络—物理层

计算机网络—物理层

计算机网络—物理层物理层的基本概念物理层的作用是要尽可能地屏蔽掉传输媒体和通信手段的差异，使物理层上面的数据链路层感觉不到这些差异，这样就可以使数据链路层只需要考虑如何完成本次的协议和服务，而不必考虑网络具体的传输媒体和通…

阅读更多...

切记：Python迭代器只可以读取一次，忽略会有意想不到的麻烦。

切记：Python迭代器只可以读取一次，忽略会有意想不到的麻烦。

Python 官网： https://www.python.org/- ###### Free：大咖免费“ 圣经”教程《 python 完全自学教程》，不仅仅是基础那么简单……My CSDN主页、My HOT博、My Python 学习个人备忘录好文力荐、老齐教室自学并不是什么神秘的东西 &#xff0c…

阅读更多...

Java学习笔记：高级数据过滤

Java学习笔记：高级数据过滤

通配符过滤 1、名字以T开头的 SELECT * FROM T_Persons WHERE Name LIKE ‘T%’ 2、名字以ke结尾的 SELECT * FROM T_Persons WHERE Name LIKE ‘%ke’ 3、名字中包含“中”的 SELECT * FROM T_Persons WHERE Name LIKE ‘%中%’ 多值检测 SELECT Age,Name FROM T_…

阅读更多...

Java的输入 Scanner in=new Scanner(System.in)；

Java的输入 Scanner in=new Scanner(System.in)；

java和c还是有好多不同的地方，需要从头开始认认真真地学文章目录输入数字输入double输入整型输入字符串判断2个字符串是否相等Java的字符串要用""双引号引起来，而不是单引号输入一维数组输入二维数组输入数字输入double import java.util.…

阅读更多...

算法分析与设计：10 大排序算法大汇总（Java）

算法分析与设计：10 大排序算法大汇总（Java）

冒泡排序相邻比较并交换位置，将大的数冒泡交换到最后。 /******************************************************************************** 冒泡排序（Bubble Sort）它重复地走访过要排序的元素，依次比较相邻两个元素&#xf…

阅读更多...

E2成都电路板设计_启动保持停止电路的原理

E2成都电路板设计_启动保持停止电路的原理

电气技术分享之2 本文介绍电气工程里常见的启动、保持、停止电路的原理。 1、起保停电路的功能起保停电路实现的功能：按启动按键，电路的负载得电并保持，按停止按键，负载断电。 2、起保停电路所需的元件起保停电路所需的元件…

阅读更多...

matplotlib绘制直方图，饼图，散点图，气泡图，箱型图，雷达图

matplotlib绘制直方图，饼图，散点图，气泡图，箱型图，雷达图

matplotlib绘制直方图，饼图，散点图，气泡图，箱型图，雷达图一.直方图用10000个正态分布随机数画直方图二.绘制饼图或者圆环图圆环图根据消费支出画圆环图三.绘制散点图或气泡图使用scatter()函数绘制一个散点图&#xff…

阅读更多...

【进制计算】 2 ~ N 进制计算

【进制计算】 2 ~ N 进制计算

目录规则图解十、二、八、十六进制之间的转换举例除法计算出3进制： 乘法次方逆向计算原数： 图解二进制加减乘除计算规则十进制除以进制数取余法：（1）被除数除以除数等于商并取得余数，&am…

阅读更多...

SSM进阶-Duubo入门demo整合MyBatis

SSM进阶-Duubo入门demo整合MyBatis

搭建入门demo 搭建SpringSpringMVCDubbo入门demo 准备数据数据库创建demo表 create table demo (id bigint auto_increment primary key,name varchar(255) null,description text null ); 插入数据 INSERT INTO demo(id, name, description) VAL…

阅读更多...

数据库基础，看完这篇就够了！

数据库基础，看完这篇就够了！

转载请注明出处❤️ 作者：测试蔡坨坨原文链接：caituotuo.top/747a74ea.html你好，我是测试蔡坨坨。对于测试同学来说，除了知道测试基础知识外，还需要掌握一些测试基本技能，主要有Linux、数据库、计算机网络等，在此之前我们已经讨论过Linux基础知识以及在实际工作中的应…

阅读更多...

神经网络模型训练简记（一）

神经网络模型训练简记（一）

神经网络模型训练简记（一）一、概念介绍1.1人工智能、机器学习、神经网络与深度学习1.2backbone与pretrain_model1.3batch_size、learning_rate、epoch与iteration1.4模型评价指标二、官方数据集简介2.1ImageNet数据集2.2 ILSVRC竞赛2.3 MS COCO数据集2.4…

阅读更多...

【专栏】RPC系列（实战）-低配版NameServer

【专栏】RPC系列（实战）-低配版NameServer

公众号【离心计划】,一起离开地球表面【RPC系列合集】【专栏】RPC系列（理论）-夜的第一章【专栏】RPC系列（理论）-协议与序列化【专栏】RPC系列（理论）-动态代理【专栏】RPC系列（实战&am…

阅读更多...

读书笔记：软件工程（4） - 软件过程模型：瀑布模型

读书笔记：软件工程（4） - 软件过程模型：瀑布模型

软件过程模型为了改变软件开发的混乱状况，使软件开发更加有序。瀑布模型又称为经典生命周期，它提出了一个系统的，顺序的软件开发方法，从用户需求规格说明开始，通过策划，建模，构建和部署的…

阅读更多...

Easyx基本使用（三）

Easyx基本使用（三）

Easyx基本使用（三） ——绘制简单图形 1. 绘制点（putpixel） void putpixel(int x,int y,COLORREF color );x：点的x坐标y：点的y坐标color：点的颜色返回值：无 #include <easyx.h…

阅读更多...

程序员的数学课15 递归：如何计算汉诺塔问题的移动步数？

程序员的数学课15 递归：如何计算汉诺塔问题的移动步数？

递归是重要的程序开发思想，比如程序源代码缩进、树形数据结构、XML 语法、快速排序法等都有递归的影子。那么，递归思维的本质到底是什么呢？递归的理念看似隐讳，实则非常清晰明了。为了让你由浅入深地理解它，这一讲…

阅读更多...

推荐文章

最新文章