SH-SSS丨《端到端音视频说话人日志网络》论文线上分享

news/2024/4/28 5:31:54/文章来源:https://blog.csdn.net/weixin_48827824/article/details/127673013

SH Symposium Series on Speech (SH SSS 2022) 

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 

来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题

端到端音视频说话人日志网络

时间

2022年11月8日 19:00 - 19:45

嘉宾

何茂奎:中国科学技术大学语音及语言信息处理国家工程研究中心博士生,主要研究方向为纯音频及音视频说话人日志。合作文章曾发表于INTERSPEECH、ICASSP等语音领域会议。

概述

本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征(例如 FBANK)、多说话人唇型(ROI)和多说话人 i-vector向量作为多模态输入。同时输出多个说话人的帧级语音/非语音概率。通过精心设计的端到端结构,所提出的方法可以很好处理重叠语音问题,并通过多模态信息准确地区分语音和非语音。i-vector是解决由视觉模态错误(例如唇部遮挡或检测不可靠)引起的音视频同步问题的关键点。该音视频模型对视觉模态缺失同样具有鲁棒性。我们在MISP数据集上进行了评估,所提出的方法在的开发/测试集上实现了10.1%/9.5%的分类错误率 (DER),而纯音频和纯视频系统的 DER 分别为27.9%/29.0%和14.6%/13.1%。

题 目

中文:端到端音视频说话人日志网络

英文:End-to-End Audio-Visual Neural Speaker Diarization

收录会议 

INTERSPEECH 2022

作 者 

何茂奎,杜俊,李锦辉

论文地址

https://www.isca-speech.org/archive/pdfs/interspeech_2022/he22c_interspeech.pdf

论文代码

https://mispchallenge.github.io/mispchallenge2022

议程

时间主题嘉宾
19:00-19:30端到端音视频说话人日志网络何茂奎
19:30-19:45Q&A

参与方式

直播将通过语音之家微信视频号进行直播,手机端、PC端可同步观看。

活动奖品

11月8日在直播间,为大家准备3件 SpeechHome 主题T恤观看直播互动即可抽取

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_411628.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

系统kafka不消费-topic问题

测试告诉说kafka的topic列表里面新加入了一个topic,然后就不消费数据了; 自己验证了一下,确实这样,如果去掉新的topic,数据就可以正常消费; 然后我查看定义发现,topicA是1个分区; …

段页式内存管理

文章目录分页、分段的优缺点分析段页式管理分段分页段页式管理的逻辑地址结构段页式存储的段表、页表的地址变换分页、分段的优缺点分析 分页管理它的缺点就是不方便按照逻辑块实现信息的共享和保护而分段管理,如果段长过大,为其分配很大的连续空间会很不…

WebDAV之葫芦儿·派盘+纸间书摘

纸间书摘 支持webdav方式连接葫芦儿派盘。 是专为喜欢做读书笔记的小伙伴量身打造的专属书摘app,不仅仅可以从别的app中导入图书,并且还能来帮助你选择性复制可以来轻松的搞定哦 所有功能完全免费,没有广告,不限制识别次数。 多种备份,本地备份和基于WebDAV协议的云端…

python基于PHP+MySQL的药店药品进销存管理系统

随着科技的发展,针对不同疾病的药品越来越多,不同的药品有不同的属性,用法用量等内容,如何让药店和医药公司更好的对药品进行管理,是很多人都在研究的问题,本系统就是在这样的一个基础上开发出来的 PHP药店药品进销存管理系统通过PHp:MySQL进行开发,主要完成了药店基…

狂神说java基础——面向对象编程

面向对象编程(oop) 1、什么是面向对象(00)面向过程:线性思维 面向对象:分类思维​ 本质:以类的方式组织代码,以对象的形式阻止(封装)数据三大特性:封装,继承,多态2、回顾方法的定义 方法的定义修饰符 返回值类型/** 修饰符 返回值类型 方法名(...){* 方法体* re…

Dropzone V4.5.1 for Mac 文件拖拽工具使用教程

简介 Dropzone 是一款Mac上的文件拖拽操作增强工具,这款软件可以让我们把大部分工作都通过拖拽来完成,比如保存文本、发送邮件、FTP上传、打开应用等等,只需要将文件拖拽到菜单栏上的窗口中即可,并且我们完全可以定制化这些操作&a…

移动测试Appium安装

移动测试Appium安装 一、环境搭建 1.Java sdk安装 并配置JAVA_HOME和PATH 2.Android SDK安装 (1)解压 (2)配置ANDROID_HOME和PATH 见教程:AndroidSDK下载及安装 Android SDK 下载安装及配置 3.虚拟机安装 这里下载的…

UnityShader34:非真实感水体渲染

一、水体渲染方案 1.1 水体动画 既然是动画,必然推导公式会和时间相关联,如果不追求表现,可以使用最无脑的 sin 函数: 其中 y 值 振幅*sin(频率*(x值-相对偏移)),感觉目前手机端非真实感渲染的话感觉这一套就够了&a…

Centos下部署CodiMD

Centos下部署CodiMD安装docker安装docker-compose安装git部署CodiMDCodiMD是HackMD的自由软件版本,由HackMD团队开发并开源,具有简化功能(无需书本模式),您可以在社区中使用CodiMD,并拥有所有数据。支持浏览…

数据可视化之对外经济发展,近五年我国对外货物进出口总额持续上涨

哈喽,大家好,2021年在疫情仍在冲击全球经济之际,我国不论是在贸易规模方面,还是在国际市场份额方面皆取得进展。 下面是小编对国家统计局最新发布的报告进行报表数据处理分析后得到的数据可视化图表,展示了2021年我国对…

齐活了,Grafana 发布大规模持续性能分析开源数据库 - Phlare

Grafana Phlare 是一个用于聚合 continuous profiling(持续分析)数据的开源软件项目。Grafana Phlare 可以和 Grafana 完全集成,允许你与其他可观察信号相关联。 什么是 continuous profiling? 这个概念很有价值:Profiling 可以帮助你了解程序的资源使…

正规现货黄金中的MACD技术

MACD是整个现货黄金交易平台上面最受投资者欢迎的技术指标,所以我们这次来谈谈,这个全球使用率最高的技术分析指标。 MACD 的全名为 Moving Average Convergence / Divergence ,它是一种移动平均线的波动指标,不过它使用的不是普通…

mysql数据库中的插入数据insert,中文字符集配置

目录 关键字insert 常见错误类型 指定一列插入数据 多列同时插入 插入效率问题 全列查询select * 查看数据库字符集类型: 更改数据库字符集 C:create 新增D:update 修改R:retrieve 查询D:delete 删除进行增删查…

Redis客户端RedisTemplate入门学习

Redis的Java客户端 Jedis客户端入门 1.引入依赖 <dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>3.7.0</version></dependency>2.建立连接并操作 //建立连接BeforeEachvoid setUp()…

TIDB 性能测试(TIUP-TPCC)

New-Order&#xff1a;客户输入一笔新的订货交易&#xff1b; Payment: 更新客户账户余额以反映其支付状况; Delivery: 发货(模拟批处理交易); Order-Status: 查询客户最近交易的状态&#xff1b; Stock-Level: 查询仓库库存状况&#xff0c;以便能够及时补货。…

Android Studio入门之常用布局的讲解以及实战(附源码 超详细必看)(包括线性布局、权重布局、相对布局、网格布局、滚动视图 )

运行有问题或需要源码请点赞关注收藏后评论区留言 线性布局LinearLayout 顾名思义&#xff0c;线性布局像是用一根线把它的内部视图串起来&#xff0c;故而内部视图之间的排列顺序是固定的&#xff0c;要么从左到右&#xff0c;要么从上到下排列。通过属性android:orientation…

学完Python,不做程序员,只接兼职,哎,就是玩儿

现在这个时代&#xff0c;人人开始追求做斜杠青年&#xff0c;多方面开展副业&#xff0c;赚取几份工资。有很多朋友就抓住了Python的风口&#xff0c;靠着Python兼职月入一万。那么学完Python&#xff0c;有哪些可以做的兼职呢&#xff1f; 一、闲暇时间&#xff0c;接自由单…

DEFORMABLE DETR:用于端到端对象检测的可变形Transformer

论文&#xff1a;《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》 论文链接&#xff1a;https://arxiv.org/pdf/2010.04159.pdf 代码链接&#xff1a;https://github.com/fundamentalvision/Deformable-DETR 最近在目标检测领域提出了DETR&…

猿创征文|keil和Proteus使用教程

&#x1f4ac;推荐一款模拟面试、刷题神器 、从基础到大厂面试题&#xff1a;&#x1f449;点击跳转刷题网站进行注册学习 目录 一、keil的使用教程 1、新建一个项目 2、选择单片机型号 3、新建工程文件 二、Proteus的使用教程 1、新建一个工程 2、单片机型号及元器件的…

海藻酸钠-四嗪|TZ-PEG-alginate|海藻酸钠-peg-四嗪TZ

海藻酸钠-四嗪|TZ-PEG-alginate|海藻酸钠-peg-四嗪TZ 中文名称&#xff1a;海藻酸钠-聚乙二醇-四嗪 英文名称&#xff1a;TZ-PEG-alginate 纯度&#xff1a;95% 存储条件&#xff1a;-20C&#xff0c;避光&#xff0c;避湿 外观:固体或粘性液体&#xff0c;取决于分子量 …