单通道说话人语音分离——DPRNN(Dual-Path Recurrent Neural Network)

news/2024/3/29 16:17:48/文章来源:https://blog.csdn.net/pk296256948/article/details/129257381

参考文献:《DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATION

DPRNN网络是Con-Tasnet的改进网络

Con-Tasnet介绍详情请看上一篇文章

单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

1.背景

        近年来,基于深度学习的语音分离的研究证明了时域方法优于传统的基于时频的方法。与时频域方法不同,时域分离系统通常接收由大量时间步长组成的输入序列,这给极长序列的建模带来了挑战。传统的递归神经网络(RNNs)由于优化困难,对如此长的序列建模无效,而一维卷积神经网络(一维CNNs)在其接受域小于序列长度时,无法进行话语级序列建模。

        这里提出了双路径递归神经网络(DPRNN),这是一种简单而有效的方法,将RNN层组织成一个深度结构来建模极长的序列。DPRNN将长序列的输入分割成更小的块,并迭代地应用块内和块间的操作,其中输入长度可以与每个操作中原始序列长度的平方根成正比。实验表明,通过用DPRNN替换一维CNN,并在时域音频分离网络(TasNet)中应用样本级建模,WSJ0-2混合模型的性能比之前的最佳系统小20倍。

2.DPRNN模型介绍

如上图所示,这是双路RNN系统流程图(DPRNN)。

(A)分割阶段将一个连续输入的部分分割成有或没有重叠的块,并将它们连接起来形成一个三维张量。在我们的实现中,重叠比被设置为50%。

(B)每个DPRNN块由两个在不同维度上具有循环连接的rnn组成。块内双向RNN首先并行应用于单个块,以处理局部信息。然后跨块应用块间RNN以捕获全局依赖关系。可以堆叠多个块,以增加网络的总深度。

(C)通过对最后一个DPRNN块执行重叠添加,该块的三维输出被转换为顺序输出。

 双路径RNN(DPRNN)包括分割、块处理和重叠添加三个阶段。分割阶段将一个顺序的输入分割成重叠的块,并将所有的块连接成一个三维张量。然后将张量传递给堆叠的DPRNN块,以另一种方式迭代地应用局部(块内)和全局(块间)建模。最后一层的输出通过重叠添加方法转换回顺序输出。

训练目标

训练端到端系统的目标是最大化尺度不变的源噪比(SI-SNR),这通常被用作源分离的评估度量,取代标准的源失真比(SDR)

数据集

华尔街日报的说话人数据集

3.实验结果

DPRNN 模型不同设置下的性能对比

与以往的模型的性能对比

 

 分离后语音识别任务性能的对比

4.展望

说话人分离目前是热门方向,特别是在会议系统里面有很多的应用场景。

这个模型还是比较好用的,很多地方都能用,关键看怎么用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_75345.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UWB到底是什么技术?

什么是空间感知能力 所谓的空间感知能力,就是感知方位的能力。更直接一点,就是定位能力。说白了,利用UWB技术,手机和智能设备可以更精准地实现室内定位,不仅可以感知自己的位置,还可以感知周边其它手机或设…

多任务学习概述

文章目录前言1 文章信息2 背景、目的、结论2.1 背景2.1.1 多任务的类型分类2.1.1.1 相关任务的分类2.1.1.2 将输入变输出的逆多任务学习2.1.1.3 对抗性多任务学习2.1.1.4 辅助任务提供注意力特征的多任务学习2.1.1.5 附加预测性辅助任务的多任务学习3 内容与讨论3.1 多任务学习…

大数据技术之Hadoop

第1章 Hadoop概述1.1 Hadoop是什么1.2 Hadoop发展历史(了解)1.3 Hadoop三大发行版本(了解)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于…

【unity】开发rts 3 出生点,创建建筑物

一 出生点、阵营类型、阵营 实例栏-GameManage,默认有一个插槽 size 插槽数量 role 权限,host是主人,权限高 type 阵营类型,不选不限制,选的效果没看懂,文档原文: The Type field in Data al…

Cookie、Session、JWT 那些事

文章目录前言一、概念1、Cookie:2、Session:3、JWT二、应用1. 基本使用2. 实现 “退出” 功能总结前言 目前 C/S 模式盛行,HTTP 是其中最常见的通信协议,我们知道 HTTP 协议是无状态的,但是这场景完全不够用。 比如&…

Python|每日一练|算法初阶|字符串|树|深度优先搜索|单选记录:循环随机取数组直到得出指定数字|有效数字|平衡二叉树

1、循环随机取数组直到得出指定数字?(算法初阶) 贡献者:weixin_30937093 举个例子: 随机数字范围:0~100 每组数字量:6(s1,s2,s3,s4,s5,s6) 第二轮开始随机数字范围&…

Linux 基础介绍-基础命令

文章目录01 学习目标02 Linux/Unix 操作系统简介2.1 Linux 操作系统的目标2.2 Linux 操作系统的作用2.3 Unix 家族历史2.4 Linux 家族历史2.5 Linux 和Unix 的联系2.6 Linux 内核介绍2.7 Linux 发行版本2.8 Unix/Linux 开发应用领域介绍03 Linux 目录结构3.1 Win 和Linux 文件系…

Mac iTerm2 rz sz

1、安装brew(找了很多🔗,就这个博主的好用) Mac如何安装brew?_行走的码农00的博客-CSDN博客_mac brew 2、安装lrzsz brew install lrzsz 检查是否安装成功 brew list 定位lrzsz的安装目录 brew list lrzsz 执…

git学习记录/菜鸟教程(基于Gitcode)

首先说明下为何使用Gitcode而不是hub或lab:只是因为国外的网站访问太慢了,而且还要翻译从初次使用开始说:首先安装Git,一路next就可以,安装好后打开,输入git version如果有显示版本号,说明安装成…

2020蓝桥杯真题跑步锻炼(填空题) C语言/C++

题目描述 本题为填空题,只需要算出结果后,在代码中使用输出语句将所填结果输出即可。 小蓝每天都锻炼身体。 正常情况下,小蓝每天跑 1 千米。如果某天是周一或者月初(1 日),为了激励自己,小蓝…

Docker在Windows环境的搭建和使用

文章目录安装WSL安装Docker安装Docker镜像下载Docker镜像启动gpu启动传送文件训练yolov5安装WSL Windows10和11支持Docker的安装,安装需要用到WSL。所以,我们先安装WSL。 参考文章:旧版 WSL 的手动安装步骤 以管理员身份打开powershell, 执行…

软考信息系统监理师备考建议

用好备考方法,两三个月就可以过的。信息系统监理师备考最好以教材和历年真题为主,教学视频模拟题为辅。考试介绍与复习建议:考试设置的科目包括:(1)信息系统工程监理基础知识,考试时间150分钟&a…

Three.js初试——基础概念

一、Three.js 是什么 先附上文档: 官网:JavaScript 3D Library 中文文档:中文文档 Three.js 是一个让用户通过 javascript 入手进入搭建 WebGL 项目的类库。众所周知学习 WebGL 需要图形学知识,而 webgl 需要通过 js 和 glsl …

第八届蓝桥杯省赛——4承压计算(二维数组,嵌套循环)

题目:X星球的高科技实验室中整齐地堆放着某批珍贵金属原料。每块金属原料的外形、尺寸完全一致,但重量不同。金属材料被严格地堆放成金字塔形。7 5 8 7 8 8 9 2 7 2 8 1 4 9 1 8 1 8 8 4 1 7 9 6 1 4 5 4 5 6 5 5 6 9 5 6 5 5 4 7 9 3 5 5 1 7 5 7 9 7 4…

车辆热管理测试方案

车辆热管理是在能源危机出现、汽车排放法规日益严格以及人们对汽车舒适性要求更高的背景下应运而生的。将各个系统或部件如冷却系统、润滑系统和空调系统等集成一个有效的热管理系统;控制和优化车辆的热量传递过程,保证各关键部件和系统安全高效运行&…

社交媒体营销的5个好处

有些人认为,社交媒体营销不能直接与销售挂钩。这就是为什么在制定营销策略时,社交媒体营销会被部分人忽视的原因。然而,与其他广告渠道不同,社交媒体是双向渠道。忽视社交媒体营销将影响与客户的关系。最重要的是,它将…

回顾1-idea创建Java项目

创建Java项目 创建项目和模块的区别 环境前置 IDEA开发工具JDK及配置环境变量 创建项目/工程 新建项目 选择Java模块 > SDK( 已配置的JDK ) > 下一步 直接下一步 填写项目信息 QQ游戏工程 里的 叫项目 所以 QQgame目录下 可以放 > 斗地主项目 / 美女来找茬等… …

C while 循环for循环

C 循环 只要给定的条件为真,C 语言中的 while 循环语句会重复执行一个目标语句。 语法 C 语言中 while 循环的语法: while(condition) {statement(s); }在这里,statement(s) 可以是一个单独的语句,也可以是几个语句组成的代码块…

深度学习基础实例与总结

一、神经网络 1 深度学习 1 什么是深度学习? 简单来说,深度学习就是一种包括多个隐含层 (越多即为越深)的多层感知机。它通过组合低层特征,形成更为抽象的高层表示,用以描述被识别对象的高级属性类别或特征。 能自生成数据的中…

DNS服务器部署的详细操作(图文版)

DNS服务器的部署 打开虚拟机后查看已经开放的端口,可以看到没有TCP53、UDP53,说明DNS服务端口没有打开 打开我的电脑—双击CD驱动器— 选择安装可选的Windows组件 选择网络服务—域名系统(DNS)— 点击下一步后会弹出如下弹…