评测本地部署的语音识别模型

news/2024/7/27 8:41:30/文章来源:https://blog.csdn.net/xieyan0811/article/details/136545573

1 引言

最近,朋友给我发来了一段音频,想转录成文字,并使用大型润色文本。音频中的普通话带有一定的口音,并且讲解内容较为专业,所以一般的语音识别工具很难达到较高的识别率。

于是试用了两个大模型。Whisper 是目前最好的多语言语音识别技术(ASR),之前的文章已经介绍过它的原理和部署方法;FunAsr 是阿里巴巴智能计算研究院语音实验室在 ModelScope 上开源的深度学习语音识别模型,在海量数据上对中文进行了优化,可谓国产之光。本次评测的 ASR 均能在本地部署,之前测试使用效果都不错。

本次评测将针对相对困难的语音进行真人评估,看看语音识别哪家强。

2 安装及资源占用

2.1 使用说明

这里未使用音频切分降噪进行前处理,直接将音频放入模型进行识别。

2.2 测试环境

FunAsr 使用了 GPT-SoVITS 提供的 docker 镜像中的库和模型,镜像大小 7.09G,外加模型 1.4G。

识别命令如下:

SHELL

1
$ /usr/local/bin/python tools/asr/funasr_asr.py -i /opt/xieyan/tmp/audio/litao/ -o output/asr_opt/new_record.txt -s large -l zh -p float32

Whisper 使用的是 onerahmet/openai-whisper-asr-webservice:latest-gpu 镜像,含模型,约 11.5G。

启动 docker 镜像后,在浏览器 9000 端口打开,通过网页调用。

2.3 转换时长

  • 音频长度约 75 分钟
  • FunAsr 转换时间 2 分钟(含加载模型)
  • Whisper 转换时间 4 分钟

3 识别效果评价

3.1 Whisper

3.2 FunAsr

3.2.1 人工翻译

3.2.2 人工翻译 +GPT-4 润色

3.3 总结

公平地讲,音频内容有点像文言文,使用了很多专业词汇。而在训练语料中,这样的文本比较少见,所以语音识别效果比较差。最近我收集了一些声优的视频来进行语音合成(仔细听声优每个字都吐得非常清晰),以及我自己录制 B 站视频,(我师范毕业时通过了普通话水平测试,而且在录制时也刻意注意了发音吐字语速),这样的音频识别实际能达到 95% 以上的准确率。

如果需要使用语音识别工具,对于中文来说,FunAsr 明显优于 Whisper(毕竟 Whisper 支持多种语言)。与手动输入相比,我觉得这种识别效果还可以接受。但是目前就大家的平均录音效果来看,处理时仍然需要人工干预。

实际上就是这样:我们普通人写不过 GPT,播音不如 TTS,画画不过 Stable Diffusion,做视频赶不上 Sora,最近出了太多太多工具,秒杀了我们之前努力的成果。但是还好我们也可以用,也许我们该重新定义“努力”。

(本文全文经 GPT 润色)

4 一些后处理方法

这里还有一些后处理方法,当使用各个 ASR 效果都不佳的情况下,如何使识别结果更好。

针对音素(拼音)各家识别效果都还可以,主要问题是对专业词汇的理解,有一些人名和不常见的专业术语可能并没有进入词汇库。在这种情况下,可以考虑使用自然语言大模型(简称 LLM)进行补充,具体方法如下:

  • 多个 ASR 识别出结果给 LLM,让它来做合并。
  • 人工校对后的结果制作成错误映射表,并与转换后的文字一起传给 LLM 进行校对。
  • 将识别后的文本转换成音素表,然后发送给 LLM 进行转换成文字。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_998213.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ai脚本创作的软件有哪些?分享3款好用的工具!

随着人工智能技术的飞速发展,AI脚本创作软件已经成为内容创作者们的新宠。这些软件不仅能够帮助我们更高效地生成文章、视频脚本等,还能为我们提供独特的创意视角和无限的灵感。本文将带您深入了解几款备受瞩目的AI脚本创作软件,看看它们如何…

Truenas入门级教程

Truenas入门教程 前言:系统相关配置 采用I3 4160,采用了2块500G的硬盘,内存为8G,两个网卡只用了其中一个,系统安装的是core版本 硬件采用DELL3020MT机箱,自带3个SATA网口,后期网口不够&#…

C++:Stack和Queue的模拟实现

创作不易,感谢三连! 一、容器适配器 适配器是一种设计模式(设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总结),该种模式是将一个类的接口转换成客户希望的另外一个接口。 就如同是电源适配器将不适用的交流电…

Java中的List

List集合的特有方法 方法介绍 方法名描述void add(int index,E element)在此集合中的指定位置插入指定的元素E remove(int index)删除指定索引处的元素,返回被删除的元素E set(int index,E element)修改指定索引处的元素,返回被修改的元素E get(int inde…

正则表达式-分组

1、oracle-正则表达式:将09/29/2008 用正则表达式转换成2008-09-29 select regexp_replace(09/29/2008, ^([0-9]{2})/([0-9]{2})/([0-9]{4})$, \3-\1-\2) replace from dual; 解析:regexp_replace-替换, 第一个参数:需要进行处…

《TCP/IP详解 卷一》第13章 TCP连接管理

目录 13.1 引言 13.2 TCP连接的建立与终止 13.2.1 TCP半关闭 13.2.2 同时打开与关闭 13.2.3 初始序列号 13.2.4 例子 13.2.5 连接建立超时 13.2.6 连接与转换器 13.3 TCP 选项 13.3.1 最大段大小选项 13.3.2 选择确认选项 13.3.3 窗口缩放选项 13.3.4 时间戳选项与…

DCFL: for Oriented Tiny Object Detection

文章目录 AbstractIntroductionContributionRelated Work定向目标检测微小目标检测多尺度学习标签分配上下文信息特征增强MethodOverview动态先验Coarse Prior MatchingFiner Dynamic Posterior MatchingAblation StudyAnalysis不平衡问题的调解可视化速度Conclusionhh 源代码 …

ArcGIS筛选工具:19段SQL示例代码,所有需求一网打尽

一、使用方法 筛选工具(Select_analysis)主要用于从输入要素类或输入要素图层中提取要素(通常使用选择或结构化查询语言 (SQL) 表达式),并将其存储于输出要素类中。 以三调图斑为例,图斑中有一个【DLMC】字段,该字段…

1.3 数据库系统的结构

目录 1.3.1 数据库系统模式的概念 1.3.2 数据库系统的三级模式结构 1. 模式 2. 外模式 3.内模式(也称存储模式) 1.3.3 数据库的二级映像功能与数据独立性 1.外模式/模式映像 2.模式/内模式映像 1.3.4 总结 模式 内模式…

【python词云】根据文本生成简单词云图片(以豆瓣电影250为例,附源码)

效果图 代码 先在内置终端中安装模块 pip install wordcloudpip install jiebaimport wordcloud import jieba# 读入txt文本数据 f open("./douban250.txt", "r", encoding"utf-8") text f.read() f.close()# 切割分词 # jieba.lcut(text)就…

基于cnn卷积神经网络的车辆颜色检测识别-图像去雾-图像去雨(改进yolo目标检测-附代码)

– 引言: 开篇简述图像处理在智能交通监控、自动驾驶等领域的关键作用,并强调随着深度学习尤其是卷积神经网络(CNN)的发展,在复杂环境下的车辆颜色精确识别、图像恢复(如去雾和去雨)等难题得以…

Chromium内核浏览器编译记(四)Linux版本CEF编译

转载请注明出处:https://blog.csdn.net/kong_gu_you_lan/article/details/136508294 本文出自 容华谢后的博客 0.写在前面 本篇文章是用来记录编译Linux版本CEF的步骤和踩过的坑,以防止后续再用到的时候忘记,同时也希望能够帮助到遇到同样问…

【【C语言简单小题学习-1】】

实现九九乘法表 // 输出乘法口诀表 int main() {int i 0;int j 0;for (i 1; i < 9; i){for (j 1; j < i;j)printf("%d*%d%d ", i , j, i*j);printf("\n"); }return 0; }猜数字的游戏设计 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdi…

如何将github上代码克隆到本地

1、需求 想把github上一篇论文的代码下载到本地。 2、前提 本地电脑已经安装了Git。&#xff08;没有安装需要到官网下载安装&#xff09; 3、解决方法 大功告成

第四篇【传奇开心果系列】Python的自动化办公库技术点案例示例:深度解读Pandas生物信息学领域应用

传奇开心果博文系列 系列博文目录Python的自动化办公库技术点案例示例系列 博文目录前言一、Pandas生物学数据操作应用介绍二、数据加载与清洗示例代码三、数据分析与统计示例代码四、数据可视化示例代码五、基因组数据分析示例代码六、蛋白质数据分析示例代码七、生物医学图像…

【方法】如何打开7Z分卷压缩文件?

什么是7Z分卷压缩文件&#xff1f;就是在压缩文件时&#xff0c;将文件压缩成若干个大小一样、以“文件名.7z.序号”格式命名的7Z压缩包&#xff0c;可以方便存储和传输&#xff0c;如下图所示。 一、7Z分卷压缩文件如何打开&#xff1f; 我们只需要按照普通压缩包的打开方式&…

VSCode国内镜像下载方法

VSCode国内镜像下载方法&#xff1a; 找到下载界面&#xff0c;点击下载后&#xff0c;发现下载速度非常慢。 复制下载链接&#xff0c;然后替换图中画线部分&#xff1a; 改为&#xff1a;vscode.cdn.azure.cn 然后将链接粘贴到浏览器回车&#xff0c;会发现嗖的一下就好了

力扣大厂热门面试算法题 6-8

6. Z 字形变换&#xff0c;7. 整数反转&#xff0c;8. 字符串转换整数 (atoi)&#xff0c;每题做详细思路梳理&#xff0c;配套Python&Java双语代码&#xff0c; 2024.03.08 可通过leetcode所有测试用例。 目录 6. Z 字形变换 解题思路 边界条件 完整代码 Python Ja…

express接受请求参数

传参问题 1. get方式接受请求参数 get方式请求的参数会拼接在地址栏的后面&#xff0c;参数的格式是?namevalue&namevalue...express针对前端get方式发送的数据可以通过req.query来获取后端代码 // cart.js router.get(/getList, (req,res)>{const param {username…

中霖教育:注册安全工程师考是科目有哪些?

注册安全工程师的类型是职业资格证书&#xff0c;需要满足报名条件才能参加考试&#xff0c;考试通过就能发放证书。报名时间一般在八月份&#xff0c;考试时间在十月底左右。 考试科目&#xff1a; 《安全生产法律法规》 《安全生产管理》 《安全生产技术基础》 《安全生…