多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)

news/2024/5/3 11:45:35/文章来源:https://blog.csdn.net/weixin_43499292/article/details/127095575

多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)

▪ 音频信息检索主要研究领域及应用:
1.Event detection
▪ 根据音频类别将音频流划分成段(静默、男性语音、女性语音、噪音……)
▪ 检测音频中变化的边界位置,将音频分割成一致性的片段是许多相关应用的基础
▪ 通常与分类紧密联系,可分成分割依赖系统和分割独立系统两大类
▪ 在特征空间中计算每段语音之间的相似度
▪ 欧式距离、角度、KL散度或它们的组合
▪ SVM,ANN,GMM等
▪ 精度超过90%,实时率将近100倍
▪ 仍然是一个开放性的问题
2.Stress and emotion classification
▪ 通过分析语音信号确定说话人的压力、紧张程度以
及隐含的情感类别
▪ 目前的精度性能在80%左右
▪ 主要困难在于难以量化人的情感范围
3.Multilingual audio analysis
▪ 包括多语种语音识别和自动的语种确认
4.Speaker diarization
▪ 根据不同的说话人将语音划分成段
▪ Speech Detection
▪ 去除非语音片段,保留语音片段
▪ Change Detection
▪ 定位出不同说话人的切变点▪ 距离度量、门限
▪ 性别分类▪ 按说话人的性别分类▪ 说话人聚类▪ 聚类得到属于相同说话人的片段
▪ 聚类组合▪ 运用说话人识别技术合并可能属于同一说话人的片段,对之前的结果进行修正
▪ 重分割▪ 对分割的边界做修正▪ 常用的特征▪ MFCC▪ DMFCC等▪ 目前最好性能在80%~90%
▪ 5. Speaker recognition
▪ 利用人的发声特点对说话人进行区分
▪ 不同人的发音与声音器官的解剖学差异和行为模式有关,如使用特殊的口音、节奏、语调风格、发音模式、音高等
▪ 包括两个模块:说话人注册 & 说话人确认
▪ 建立通用背景模型UBM
▪ 文本相关 vs 文本无关
▪ 如何得到对各种环境因素鲁棒的模型?
▪ 信道不匹配、麦克风环境等
说话人识别(Speaker Recognition),或者称为声纹识别(Voiceprint Recognition, VPR),是根据语音中所包含的说话人个性信息,自动鉴别说话人身份的一种生物特征识别技术
▪ 根据说话内容的类型不同可以分为
▪ 文本有关—Text-dependent:识别和训练时要求说同样的内容
▪ 文本无关—Text-independent:无要求,难度更大,应用范围更广
按应用模式的不同,说话人识别还可以分为
▪ 说话人确认(Speaker Verification)
▪ 二分类问题,是与否
▪ 说话人辨认(Speaker Identification)
▪ 多分类问题
▪ 说话人识别还包括说话人检测(SpeakerDetection)和说话人追踪(Speaker Tracking)等任务
▪ 6. Speech recognition
▪ 识别出说话的内容
▪ 声学模型
▪ 识别出每一个特征对应的音节
▪ 语言模型
▪ 根据上下文关系建立的字之间的连接关系
▪ 理想条件下的精度可超过99%
▪ 会议实时翻译

说话人识别:
说话人识别技术研究的核心是如何从语音中提取鲁棒的说话人特征来表征说话人
▪ 说话人差异:如声道差异、发音特点、说话人风格
▪ 会话间差异:如不同的采集设备、传输媒介等
▪ 噪音鲁棒性▪ 跨信道鲁棒性▪ 说话人自身状况及时变鲁棒性▪ 短语音鲁棒性
▪ 其他鲁棒性▪ 多种编码方式▪ 多说话人▪ 跨语言

image-20211124220954520

第一阶段是从上世纪60年代到70年代,研究工
作主要关注于语音特征提取和模板匹配技术
▪ 语谱图、LPCC
▪ 模板匹配、统计方差分析
▪ 模板匹配需要存储大量的特征矢量模板
▪ 当集合人数规模比较大时,识别性能不佳
▪ 第二阶段是从上世纪80年代到90年代中期,语
音统计模型开始应用于说话人识别
▪ MFCC
▪ 高斯混合模型GMM
▪ 第三阶段从上世纪末到本世纪初,说话人识别
技术逐渐从实验室走向实用

image-20211124221017048

▪ 当前主流的说话人识别模型
▪ 高斯混合—通用背景模型GMM-UBM
▪ 思想是通过对多个高斯密度函数进行加权平均来逼近任意空间分布

▪ 说话人的语音中不仅包含说话人自身的信息,还包括所有说话人的共有信息
▪ 需要一个通用的模型来描述这些共性
▪ UBM 是由大量的说话人数据通过最大似然准则估计得到的GMM模型,代表所有说话人的共性

image-20211124221106875

▪ 在GMM-UBM框架下,训练时通常只更新模型的均值
▪ 对于混合数为C,特征维数为D的混合模型,将均值向量串联构成一个C*D维的高维均值列向量,也称为高斯超向量
▪ 超向量中除了蕴含说话人信息外,同时也包含了语音中的通道、背景噪音、语种等信息

联合因子分析(Joint Factor Analysis,JFA)
▪ 对语音的高斯超向量进行因子分解,得到说话人因子和通道因子,进而去除通道因子,强化说话人因子
▪ 超向量m难以准确的分解为Vy和Ux
▪ 改进的模型称为i-vector模型
▪ 𝑇称为总体变化空间,覆盖了说话人和通道的变化子空间,𝑤为总体变化因子,即i-vector
▪ JFA:在高斯超向量空间中区分说话人信息和通道信息
▪ i-vector:在低维子空间T中分离说话人和通道信息
▪ 类似于主成分分析PCA
image-20211125213356567
说话人识别性能评价指标
▪ SRE是国际上最权威的说话人识别技术评测
▪ 美国国家标准技术局NIST主办
▪ 说话人确认
▪ 误报(False Alarm)&漏报(Miss)
▪ DET(Detection Error Tradeoff)曲线表现误报率和漏报率随着门限参数变化的情况
▪ 等错误率(EqualError Rate)可以更直接的比较不同说话人确认系统系统的性能
▪ 检测代价函数
▪ 在实际应用中误报和漏报所对应的代价不同
▪ 监听任务希望漏报足够低,而身份认证则更关心误报情况
▪ 等错误率指标与应用无关
▪ 对不同的错误进行加权,而权重的设置与应用联系起来
▪ 声纹识别面临的难题
▪ 1. 多说话人
▪ 借助说话人分割技术
▪ 2. 防攻击(Anti-Spoofing)问题
▪ 声音模仿、语音合成、声音转换、录音重放
▪ 发展趋势
▪ 更具区分性的说话人特征
▪ 提升识别系统的防攻击水平
▪ 多生物特征融合技术
▪ 语音情感识别的研究是"情感计算"研究领域的一个重要分支
▪ 情感计算通过各类传感器采集各种情感状态下的生理指标,构建计算机可识别和理解的情感模型
▪ 脑电波、脉搏、语音、面部表情、手势等▪ 语音情感识别也已经逐步应用到生活中的各个领域
▪ 关键技术包括:建立语音情感库、语音信号特征提取、特征选择和情感识别等方面▪ 语音情感识别分为说话人相关和说话人无关两种方式
▪ Speaker dependent vs. Speaker independent
▪ 情感库可以分为维度情感库和离散情感库
▪ 维度空间论认为情感分布在若干维度组成的某一空间中,每个维度对应一个情感属性,现实中的情感状态均能在空间中找到对应的点▪ 愉快/不愉快,激动/平静,紧张/松弛▪ 标注复杂
image-20211125213748969

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_15731.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何让一套代码完美适配各种屏幕?

一、适配的目的 区别于iOS,android设备有不同的分辨率大小以及不同厂商的系统,目前市场的分辨率可以看下相关统计。 可以看到主流的分辨率有10多种,当不做适配时,一套代码在不同设备上的效果偏大、偏小、截断以及留白严重&#…

EntityFrameworkCore+CodeFirst:根据实体自动生成数据库(二) 程序包管理控制台迁移

二、程序包管理控制台迁移 需要在DAL层引用包:Microsoft.EntityFrameworkCore.Tools然后在控制台程序中也需要引用包:Microsoft.EntityFrameworkCore.Design这样,就完成了需要的组件的引用了。 接下来打开程序包管理控制台,在vs中的“工具”中 将默认项目切换为CodeFirst.D…

SpringBoot统一异常处理详解

文章目录一、概述1、统一异常处理介绍2、原理和目标二、Assert(断言)1、概述2、Assert自定义实战2.1 自定义接口Assert2.2 自定义异常2.3 Enum整合2.4 实战检测三、统一异常处理器1、异常处理器说明1.1 handleServletException1.2 handleBindException和handleValidException1.…

35分钟了解sql注入-盲注(三)

🏆今日学习目标: 🍀学习sql注入之盲注操作 ✅创作者:贤鱼 ⏰预计时间:25分钟 🎉个人主页:贤鱼的个人主页 🔥专栏系列:网络安全 盲注布尔盲注原理布尔盲注payload构造步骤…

切面的优先级、基于XML的AOP实现

切面的优先级 相同目标方法上同时存在多个切面时,切面的优先级控制切面的内外嵌套顺序 1.优先级高的切面:外面 2.优先级低的切面:里面 使用Order注解可以控制切面的优先级 1.Order(较小的数):优先级高 2.Order(较大的数)&#x…

MySQL(五)增删改查进阶

目录 一、数据排序 1、基础排序 2、过滤筛选 ​3、多字段排序 4、区间判断 5、嵌套/多条件 6、 查询不重复记录 二、分组 1、对结果进行分组 三、限制 1、限制输出的结果记录 四、设置别名 1、对于列的别名 2、对于表的别名 四、视图 1、视图和表区别 2、联系…

遇到一个bug,组件不更新内容

解决办法 当v-if的值发生变化时,组件都会被重新渲染一遍。因此,利用v-if指令的特性,可以达到强制刷新组件的目的。 <template><comp v-if="update"></comp><button @click="reload()">刷新test1组件</button> </templ…

Linux权限总结

放弃不难&#xff0c;但坚持很酷&#xff0c;加油&#xff01;希望此文对您有所帮助&#xff01; 目录 shell运行原理---外壳程序Linux权限的概念如何修改文件权限&#xff1f;常见权限问题&#xff08;面试题&#xff09;1.目录权限2.umask3.写权限的作用4.如何创建一个共享目…

机器学习在分子模拟中的应用

文章目录一、背景二、分子动力学模拟介绍简史基本步骤应用发展方向三、AlphaFold**前言****Alphafold2做了什么改进****Alphafold2会议具体细节&#xff1a;****Alphafold为什么强&#xff1f;****学术问题&#xff1a;**四、TorchMD五、Deep Potential**阶段一&#xff1a;对已…

TCP/IP网络编程:P3->地址族与数据序列

本系列文章为《TCP/IP网络编程----尹圣雨》学习笔记&#xff0c;前面的系列文章链接如下 TCP/IP网络编程&#xff1a;P1-&#xff1e;理解网络编程和套接字 TCP/IP网络编程&#xff1a;P2-&#xff1e;套接字类型与协议设置 文章目录前言一、分配给套接字的IP地址与端口号1.1 网…

CSP2022 J/S 游寄

9.18 A.m. 自己学校考,但只能睡到7点不到,就很无语。 来了好多同学,关系也不错,聊了一会天就去考试了。 至于考试没什么好说的,J也就那样。 P.m. 上午对了一下答案,貌似 \(92\) ? 中午机房太吵了,没怎么睡就去考试了。 考什么大家应该都有数,宇宙射线?秒表?做尼玛呢…

卷积神经网络的应用实例,卷积神经网络可解释性

神经网络激活函数与损失函数的作用 谷歌人工智能写作项目&#xff1a;神经网络伪原创 深度学习之损失函数与激活函数的选择 深度学习之损失函数与激活函数的选择在深度神经网络&#xff08;DNN&#xff09;反向传播算法(BP)中&#xff0c;我们对DNN的前向反向传播算法的使用做…

单片机原理与应用以及C51编程技术——硬件体系结构梳理

文章目录一、单片机的结构原理1.1 主要性能和特点1.2 内部框图1.3 CPU1.3.1 运算器1.3.2 控制器1.4 几个主要的特殊功能寄存器SFR说明1.4.1 程序指针PC1.4.2 累加器A1.4.3 寄存器B1.4.4 数据指针DPTR1.4.5 程序状态字PSW介绍例子1.4.6 堆栈指针SP堆栈的介绍堆栈的作用堆栈操作的…

Verilog学习笔记

sky视频笔记&#xff1a;数字逻辑回顾&Hello World_哔哩哔哩_bilibili 一、数电基础 1.组合逻辑 电路逻辑输出值只和当前的输入有关比如&#xff1a;AND/OR/XOR/NAND/NOR/MUX/Adder/Multiplier 2.时序逻辑 电路逻辑输出值跟当前的输入和电路的当前状态有关保存当前状态的…

用Python生成Hilbert矩阵

代码放在了最后&#xff0c;前面是解题思路 目录 1.什么是Hilbert矩阵矩阵&#xff1a; 2.找规律 1.第一种思路&#xff1a;先从值出发&#xff08;找规律&#xff09; 2.第二种思路&#xff1a;先从下标索引出发&#xff08;找规律&#xff09; 三、代码展示 四、输出展…

WPF 界面打不开提示 System.ArithmeticException Overflow or underflow in the arithmetic operation 异常

本文告诉大家如何解决界面打不开,抛出 System.ArithmeticException: Overflow or underflow in the arithmetic operation 异常的修复方法本文告诉大家如何解决界面打不开,抛出 System.ArithmeticException: Overflow or underflow in the arithmetic operation 异常的修复方…

某IOT设备漏洞分析

申明&#xff1a;本文章所分享内容仅用于网络安全技术讨论&#xff0c;切勿用于违法途径&#xff0c;所有渗透都需获取授权&#xff0c;违者后果自行承担&#xff0c;与本文及作者无关&#xff0c;请谨记守法. 设备名称: DLINK DIR-818l 固件包: d-link DIR818L_FW105b01 A1 环…

Rust学习笔记:简单练习

最近一个月比较闲&#xff0c;忙碌大半年终于有自己短暂的休息时间。如果不写大的程序&#xff0c;偶尔写写一些小东西&#xff0c;其实用起来也很自在&#xff0c;前提是如果没有太多生活压力。看电视变成奢侈的事情。有时候&#xff0c;我会羡慕老外享受福利待遇非常好&#…

javaweb|JSTL的下载、配置与原理,解决uri导入时报错的问题

今天在配置jstl时&#xff0c;发现在引入uri时出现了问题&#xff0c;地址直接报红。在尝试了几种方法后&#xff0c;最后成功解决了。 JSTL一、下载1、https://tomcat.apache.org/2、找到taglib标准库3、下载前2个jar包二、配置1、放入web-inf的lib文件夹里2、将Jar包放入tomc…

windows下 解决PHP-CGI 进程崩溃502

PHP是世界上最好的语言&#xff0c;但需要PHP解析器&#xff1b;Apachephp,需要通过mod_php.so和php相连&#xff1b;nginxphp 需要转发给 cgi程序 关于FastCGI&#xff1a; 全称 FastCGI Process Manager&#xff0c;是一种进程管理器&#xff0c;管理 cgi&#xff0c;市面上…