多媒体信息处理学习笔记-Chap 5. Audio Retrieval（中篇）

news/2024/5/3 11:45:35/文章来源:https://blog.csdn.net/weixin_43499292/article/details/127095575

多媒体信息处理学习笔记-Chap 5. Audio Retrieval（中篇）

▪ 音频信息检索主要研究领域及应用：
1.Event detection
▪ 根据音频类别将音频流划分成段（静默、男性语音、女性语音、噪音……）
▪ 检测音频中变化的边界位置，将音频分割成一致性的片段是许多相关应用的基础
▪ 通常与分类紧密联系，可分成分割依赖系统和分割独立系统两大类
▪ 在特征空间中计算每段语音之间的相似度
▪ 欧式距离、角度、KL散度或它们的组合
▪ SVM，ANN，GMM等
▪ 精度超过90%，实时率将近100倍
▪ 仍然是一个开放性的问题
2.Stress and emotion classification
▪ 通过分析语音信号确定说话人的压力、紧张程度以
及隐含的情感类别
▪ 目前的精度性能在80%左右
▪ 主要困难在于难以量化人的情感范围
3.Multilingual audio analysis
▪ 包括多语种语音识别和自动的语种确认
4.Speaker diarization
▪ 根据不同的说话人将语音划分成段
▪ Speech Detection
▪ 去除非语音片段，保留语音片段
▪ Change Detection
▪ 定位出不同说话人的切变点▪ 距离度量、门限
▪ 性别分类▪ 按说话人的性别分类▪ 说话人聚类▪ 聚类得到属于相同说话人的片段
▪ 聚类组合▪ 运用说话人识别技术合并可能属于同一说话人的片段，对之前的结果进行修正
▪ 重分割▪ 对分割的边界做修正▪ 常用的特征▪ MFCC▪ DMFCC等▪ 目前最好性能在80%~90%
▪ 5. Speaker recognition
▪ 利用人的发声特点对说话人进行区分
▪ 不同人的发音与声音器官的解剖学差异和行为模式有关，如使用特殊的口音、节奏、语调风格、发音模式、音高等
▪ 包括两个模块：说话人注册 & 说话人确认
▪ 建立通用背景模型UBM
▪ 文本相关 vs 文本无关
▪ 如何得到对各种环境因素鲁棒的模型？
▪ 信道不匹配、麦克风环境等
说话人识别（Speaker Recognition），或者称为声纹识别（Voiceprint Recognition, VPR），是根据语音中所包含的说话人个性信息，自动鉴别说话人身份的一种生物特征识别技术
▪ 根据说话内容的类型不同可以分为
▪ 文本有关—Text-dependent：识别和训练时要求说同样的内容
▪ 文本无关—Text-independent：无要求，难度更大，应用范围更广
按应用模式的不同，说话人识别还可以分为
▪ 说话人确认（Speaker Verification）
▪ 二分类问题，是与否
▪ 说话人辨认（Speaker Identification）
▪ 多分类问题
▪ 说话人识别还包括说话人检测（SpeakerDetection）和说话人追踪（Speaker Tracking）等任务
▪ 6. Speech recognition
▪ 识别出说话的内容
▪ 声学模型
▪ 识别出每一个特征对应的音节
▪ 语言模型
▪ 根据上下文关系建立的字之间的连接关系
▪ 理想条件下的精度可超过99%
▪ 会议实时翻译

说话人识别：
说话人识别技术研究的核心是如何从语音中提取鲁棒的说话人特征来表征说话人
▪ 说话人差异：如声道差异、发音特点、说话人风格
▪ 会话间差异：如不同的采集设备、传输媒介等
▪ 噪音鲁棒性▪ 跨信道鲁棒性▪ 说话人自身状况及时变鲁棒性▪ 短语音鲁棒性
▪ 其他鲁棒性▪ 多种编码方式▪ 多说话人▪ 跨语言

第一阶段是从上世纪60年代到70年代，研究工
作主要关注于语音特征提取和模板匹配技术
▪ 语谱图、LPCC
▪ 模板匹配、统计方差分析
▪ 模板匹配需要存储大量的特征矢量模板
▪ 当集合人数规模比较大时，识别性能不佳
▪ 第二阶段是从上世纪80年代到90年代中期，语
音统计模型开始应用于说话人识别
▪ MFCC
▪ 高斯混合模型GMM
▪ 第三阶段从上世纪末到本世纪初，说话人识别
技术逐渐从实验室走向实用

▪ 当前主流的说话人识别模型
▪ 高斯混合—通用背景模型GMM-UBM
▪ 思想是通过对多个高斯密度函数进行加权平均来逼近任意空间分布

▪ 说话人的语音中不仅包含说话人自身的信息，还包括所有说话人的共有信息
▪ 需要一个通用的模型来描述这些共性
▪ UBM 是由大量的说话人数据通过最大似然准则估计得到的GMM模型，代表所有说话人的共性

▪ 在GMM-UBM框架下，训练时通常只更新模型的均值
▪ 对于混合数为C，特征维数为D的混合模型，将均值向量串联构成一个C*D维的高维均值列向量，也称为高斯超向量
▪ 超向量中除了蕴含说话人信息外，同时也包含了语音中的通道、背景噪音、语种等信息

联合因子分析（Joint Factor Analysis，JFA）
▪ 对语音的高斯超向量进行因子分解，得到说话人因子和通道因子，进而去除通道因子，强化说话人因子
▪ 超向量m难以准确的分解为Vy和Ux
▪ 改进的模型称为i-vector模型
▪ 𝑇称为总体变化空间，覆盖了说话人和通道的变化子空间，𝑤为总体变化因子，即i-vector
▪ JFA：在高斯超向量空间中区分说话人信息和通道信息
▪ i-vector：在低维子空间T中分离说话人和通道信息
▪ 类似于主成分分析PCA

说话人识别性能评价指标
▪ SRE是国际上最权威的说话人识别技术评测
▪ 美国国家标准技术局NIST主办
▪ 说话人确认
▪ 误报（False Alarm）&漏报（Miss）
▪ DET（Detection Error Tradeoff）曲线表现误报率和漏报率随着门限参数变化的情况
▪ 等错误率（EqualError Rate）可以更直接的比较不同说话人确认系统系统的性能
▪ 检测代价函数
▪ 在实际应用中误报和漏报所对应的代价不同
▪ 监听任务希望漏报足够低，而身份认证则更关心误报情况
▪ 等错误率指标与应用无关
▪ 对不同的错误进行加权，而权重的设置与应用联系起来
▪ 声纹识别面临的难题
▪ 1. 多说话人
▪ 借助说话人分割技术
▪ 2. 防攻击（Anti-Spoofing）问题
▪ 声音模仿、语音合成、声音转换、录音重放
▪ 发展趋势
▪ 更具区分性的说话人特征
▪ 提升识别系统的防攻击水平
▪ 多生物特征融合技术
▪ 语音情感识别的研究是＂情感计算＂研究领域的一个重要分支
▪ 情感计算通过各类传感器采集各种情感状态下的生理指标，构建计算机可识别和理解的情感模型
▪ 脑电波、脉搏、语音、面部表情、手势等▪ 语音情感识别也已经逐步应用到生活中的各个领域
▪ 关键技术包括：建立语音情感库、语音信号特征提取、特征选择和情感识别等方面▪ 语音情感识别分为说话人相关和说话人无关两种方式
▪ Speaker dependent vs. Speaker independent
▪ 情感库可以分为维度情感库和离散情感库
▪ 维度空间论认为情感分布在若干维度组成的某一空间中，每个维度对应一个情感属性，现实中的情感状态均能在空间中找到对应的点▪ 愉快/不愉快，激动/平静，紧张/松弛▪ 标注复杂