音频质量客观评价指标

news/2024/4/20 13:35:44/文章来源:https://blog.csdn.net/Brouce__Lee/article/details/130347218

语音增强中,常添加各种指标评估算法效果和语音质量,下面是常见的一些指标, All these metrics are better if higher.

Objective Evaluation Metrics

1.MOS(Mean Opinion Score)是语音增强和语音质量评估中最常用的主观评分方法。它通过让一定数量的人工听者对语音样本进行听觉质量评分,然后计算所有听者评分的平均值来得出MOS值。MOS的评分通常在1到5之间,分值为:

  • 1 - 非常差,几乎不可用
  • 2 - 差,质量明显受损,应用受限
  • 3 - 一般,可用于部分应用
  • 4 - 好,可用于大多数应用
  • 5 - 非常好,与高质量标准电话质量相当

MOS评分的优点是直观简单,对应人类的听觉感知,可以有效评估人类听者的主观听感。但是它也存在一定的缺点:

  • 评分的准确性依赖评价人员的经验与标准,存在较大差异性。
  • 评分过程耗时长,并且需要大量的人工资源,不适用于大规模语音质量评估。
  • 评分结果可能受环境噪声和其他无关因素的影响,准确性受限。

因此,MOS评分 methodology适用于小规模的主观语音质量评估,以及算法和系统的初步比较和评选。而在产品和服务的大规模评估中,更多采用客观的自动化评估指标,如PESQ和STOI等。除MOS之外,差分MOS(DMOS)也经常被用来评估语音增强系统的效果。它通过计算增强前和增强后语音的MOS差值,来评价语音质量的提高程度。DMOS分数范围也通常在1到5之间,分数越高表示语音质量提高越大。

2. DMOS(Difference Mean Opinion Score) 是基于人工听评来评估语音质量提高程度的指标。实验中会让评价人员对语音增强前后的语音样本进行打分,DMOS是两者打分的差值,范围通常在1到5,分数越高表示语音质量的提高越大。它可以有效评估不同语音增强算法对语音质量提高的作用。

3. DNSMOS: 人的主观评价是评价为人类感知优化的语音质量的“金标准”。感性客观指标作为主观得分的代理。传统和广泛使用的指标需要参考干净的语音信号,这在真实录音中是不可用的。无参考方法与人类评分相关性很差,在研究界没有被广泛采用。这些感知客观度量的最大用例之一是评估噪声抑制算法。DNSMOS在具有挑战性的测试条件下具有良好的泛化性,并且在堆栈排序噪声抑制方法中与人类评级高度相关。

4. PESQ: Perceptual evaluation of speech quality(from -0.5 to 4.5),是目前语音增强领域最广泛使用的主观评估指标。它通过仿真人耳的听觉模型来预测听者对语音质量的主观评分,范围从-0.5到4.5,分数越高表示语音质量越高。它可以用于评估端到端的语音质量,也可以评估增强前后的质量差异。

5. STOI: 短时客观可懂度(Short-Time Objective Intelligibility),是一个客观的语音可懂度评估指标。它通过计算语音信号的时域和频域特征之间的相关性来预测语音的可理解度,范围从0到1,分数越高可懂度越高。它适用于评估噪声环境下的语音可懂度改善效果。

6. SDR (Vincent, Gribonval, and F´evotte 2006): Signal-to-distortion ratio from the mir eval library. The SDR is a very common metric to evaluate source separation systems [22], which requires to know both the clean signal and the enhanced signal. It is an energy ratio, expressed in dB, between the energy of the target signal contained in the enhanced signal and the energy of the errors (coming from the interfering speakers and artifacts). Thus, the higher it is, the better.

7. CSIG (Composite Speech Intelligibility Gain, Hu and Loizou 2007): Mean opinion score (MOS) prediction of the signal distortion attending only to the speech signal (from 1 to 5). 是一个综合语音可懂度提高指标。它同时考虑噪声环境下语音的可懂度(STOI)和无噪声环境下的可懂度基线(STOIno),通过两者的差值来评估语音增强算法对可懂度的改善,范围从0到1,分数越高改善越大。它可以有效评价语音增强系统在噪声环境中的整体效果。

8. CEPS(Complex Essence of Phase Shift):是一个度量语音相位信息变化的指标。由于相位信息对语音的自然性有重要影响,它可以用于评估语音增强处理导致的语音不自然度,范围从0到1,值越小表示语音越自然。它用于评估语音增强算法对语音质量产生的副作用。
9. CBAK (Hu and Loizou 2007): MOS prediction of the intrusiveness of background noise (from 1 to 5).
10. COVL (Hu and Loizou 2007): MOS prediction of the overall effect (from 1 to 5).
11. SSNR: Segmental SNR [35, p. 41] (from 0 to ∞).

References:

PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network
阅读笔记—SEGAN  阅读笔记—VoiceFilter
PESQ: P.862.2: Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Std. P.862.2, 2007.

[22] E. Vincent, R. Gribonval, and C. F´evotte, “Performance measure- ment in blind audio source separation,” IEEE transactions on audio, speech, and language processing, vol. 14, no. 4, pp. 1462– 1469, 2006.

DNSMOS paper

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_103056.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

流程图拖拽视觉编程--概述

一般的机器视觉平台采用纯代码的编程方式,如opencv、halcon,使用门槛高、难度大、定制性强、开发周期长,因此迫切需要一个低代码开发的视觉应用平台。AOI缺陷检测的对象往往缺陷种类多,将常用的图像处理算子封装成图形节点,如抓直…

Android 系统架构大图

android的系统架构和其操作系统一样,采用了分层的架构。从架构图看,android分为四个层,从高层到低层分别是应用程序层、应用程序框架层、系统运行库层和Linux核心层。 1.应用程序 Android会同一系列核心应用程序包一起发布,该应用…

确定因果随机森林的树木数量 the number of trees

前言 推断因果性和分析异质性是统计学家在处理混杂任务中的圣杯。传统且主流的方法有:倾向性评分、分层分享、比例风险模型等。新的方法也有很多,代表就是:因果随机森林。这种算法,浅看难度一般,深入探索发现坑还是很多的。这篇博客不对算法做深入探讨,仅仅是我在阅读文…

Nautilus Chain :基于模块化架构的Layer3正在走向成熟

Nautilus Chain 是一个基于 Eclipse 和 Celestia 构建的模块化 Layer3 链。作为定位在 Layer0 的链基建概念,Eclipse 和 Celestia 为面向未来的区块链扩容技术提供了一套开发工具和基础框架。尽管这种前沿技术过去一直处于概念验证阶段,尚未推出适用于大…

Java并发(三)----创建线程的三种方式及查看进程线程

一、直接使用 Thread // 创建线程对象 Thread t new Thread() {public void run() {// 要执行的任务} }; // 启动线程 t.start(); 例如: // 构造方法的参数是给线程指定名字,推荐 Thread t1 new Thread("t1") {Override// run 方法内实现…

手把手教你PXE高效网络装机、Kickstart无人值守安装(详细版)

目录 一、部署PXE远程安装服务1.1PXE定义1.2PXE服务优点1.3搭建网络体系前提条件1.4 搭建PXE远程安装服务器 二. 实验2.1 服务器操作2.2 安装启动TFTP服务并修改TFTP服务的配置文件2.3 安装并启用DHCP服务2.4 准备linux内核,初始化镜像文件2.5 准备PXE引导程序2.6 安…

22、Tweak原理及部分逆向防护

一、Tweak原理 1.1 Tweak产物.dylib 执行make命令时,在 .theos的隐藏目录中,编译出obj/debug目录,包含 arm64、arm64e两种架构,同时生成readbadges.dylib动态库 在arm64、arm64e目录下,有各自架构的readbadges.dylib,而debug目录下的readbadges.dylib,是一个胖二进制文件 fi…

【Java-01】深入浅出匿名对象 , 继承 , 抽象类

主要内容 面向对象回顾 匿名对象介绍 面向对象特征 - 继承 抽象类的使用 模板设计模式 1 面向对象回顾 面向对象的核心思想是什么 ? 用代码来模拟现实生活中的事物 , 比如学生类表示学生事物 , 对象表示的就是具体的学生 , 有了类就可以描述万千世界所有的事物了 现有的…

看完这篇文章你就彻底懂啦{保姆级讲解}-----(LeetCode刷题142环形链表II) 2023.4.24

目录 前言算法题(LeetCode刷题142环形链表II)—(保姆级别讲解)分析题目:算法思想环形链表II代码:补充 结束语 前言 本文章一部分内容参考于《代码随想录》----如有侵权请联系作者删除即可,撰写…

前端食堂技术周刊第 80 期:Vite 4.3、Node.js 20、TS 5.1 Beta、Windi CSS 即将落幕

美味值:🌟🌟🌟🌟🌟 口味:东坡肉 食堂技术周刊仓库地址:https://github.com/Geekhyt/weekly 本期摘要 Vite 4.3Node.js 20TypeScript 5.1 BetaWindi CSS 即将落幕Pretty TypeScri…

中医脉诊仪:结合传统与现代技术的诊断工具

一、引言 随着科技的不断发展,医学领域也取得了举世瞩目的进步。中医作为一种古老的医学体系,始终保持着其独特的魅力。脉诊作为中医诊断的重要方法之一,历经千年的发展和传承,如今在现代科技的助力下,诞生了中医脉诊…

信息安全复习六:公开密钥密码学

一、章节梗概 1.公开密钥密码模型的基本原理 2.两个算法:RSA&D-H算法 主要内容 1.对称密钥密码的密钥交换问题 2.公钥密码模型的提出 3.设计公钥密码的基本要求 4.数字签名 5.RSA算法 6.公钥密码的特征总结 二、对称密钥密码 对称加密算法中,数据…

实例分割算法BlendMask

实例分割算法BlendMask 论文地址:https://arxiv.org/abs/2001.00309 github代码:https://github.com/aim-uofa/AdelaiDet 我的个人空间:我的个人空间 密集实例分割 ​ 密集实例分割主要分为自上而下top-down与自下而上bottom-up两类方法…

基于趋动云的chatGLM-6B模型的部署

首先根据官方示例教程,学会怎么创建项目,怎么使用数据,怎么进入开发环境,以及了解最重要的2个环境变量: 这个是进入开发环境以后的代码目录 $GEMINI_CODE 这个是引用数据集后,数据集存放的路径 $GEMINI_DA…

Linux内核进程管理与调度:策略优化与实践分析

Linux内核进程管理与调度 一、前言二、进程管理和多进程调度2.1 进程标识符和控制块2.2 进程状态和转换2.3 进程间通信 三、单处理器下的Linux进程调度3.1 Linux进程调度器3.2 时间片轮转调度算法3.3 最短剩余时间优先调度算法3.4 其他调度算法的不足 四、多处理器下的Linux进程…

Layui 2.8.0 正式发布,朴实归来

Layui 是一套开源的 Web UI 组件库,采用自身轻量级模块化规范,遵循原生态的 HTML/CSS/JavaScript 开发模式,极易上手,拿来即用。其风格简约轻盈,而内在雅致丰盈,甚至包括文档在内的每一处细节都经过精心雕琢…

【Linux网络】PXE高效批量网络装机

PEX高效批量网络装机 一、部署PXE远程安装服务1.1PXE的优点1.2搭建PXE网络体系的前提条件 二、实现Kincksatrt无人值守安装2.1实验思路,2.2实验:无人值守远程安装2.2.1实现 Kickstart 无人值守安装 一、部署PXE远程安装服务 PXE(预启动执行环…

Flutter ListView组件详解

今天是2023年4月24日 今天重新复习了一下关于ListView的内容,现在就重新整理一下关于ListView的内容和理解 : (1)ListView和Column之间有什么区别? 在我理解中ListView和Column都是可以有很多子组件的组件,它们之间区别在于它们排列的形式和…

100天涨薪4k,从功能测试到自动化测试,我整理的3000字超全学习指南

去年6月份,由于经济压力让我下定决心进阶自动化测试,已经24的我做了3年功能测试,坐标广州薪资定格在8k,可能是生活过的太安逸,觉得8000的工资也够了,但是生活总是多变的,女朋友的突然怀孕&#…

Bsah shell的操作环境

文章目录 Bsah shell的操作环境路径与命令查找顺序使用案例 bash的登录与欢迎信息:/etc/issue、/etc/motdbash的环境配置文件如下login与non-login shell/etc/profile(login shell 才会读)~/.bash_profile(login shell 才会读)source:读入环境配置文件的…