使用openai-whisper 语音转文字

news/2024/4/20 13:28:31/文章来源:https://blog.csdn.net/nikolay/article/details/128951413

前言:

最近由于ChatGPT 的大热,AI 应用领域再次进入大众的视线,今天介绍一款AI应用whisper 可以较为准确的将人声转换为文字(支持多国语言)

一、安装

安装有两种方式pip 和源码编译安装,这里介绍pip安装方式

  1. 安装python 3.9.9 和pyTouch 1.10.1 (安装步骤省略,官网下载安装即可)由于pip 的版本使用了指定的pyTouch 所以安装最新的python 版本会出现问题。

python3.9.9

  1. 安装ffmpeg,下方为各类OS 的安装方式

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg# on Arch Linux
sudo pacman -S ffmpeg# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg
  1. 安装wisper 和rust

pip install -U openai-whisper
pip install setuptools-rust

二、使用

whisper 支持 cpu 和 gpu,默认完成后,只使用cpu加速

whisper.exe 屋顶.mp3 --language zh --model small

效果如何,当然是拿jay的歌来做测试,下图是结果;显然在语速慢的环境中效果还是不错的,换成双截棍...就不能看了...

(图:屋顶转换成歌词)

--model 表示AI使用的模型,共有5个模型,模型越大精确度也越高(当然对设备的性能要求也越高)

--language 表示语音的语种 这里 zh=Chinese

我们从截图看到,转译出来的文字有简体也有繁体,这主要是AI 的样本既有简体又有繁体,如果我们希望输出结果是简体,则加上 --initial_prompt "以下是普通话的句子。"

whisper 屋顶.mp3 --language zh --model small --initial_prompt "以下是普通话的句子。"

重新执行一次,结果如图:

使用CUDA

执行如下指令,安装带cuda 的pytorch

pip uninstall torch
pip cache purge
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116

--device cuda 使用device参数 指定 cuda

whisper 屋顶.mp3 --language zh --model small --device cuda --initial_prompt "以下是普通话的句子。"

其他未尽事宜可以通过 --help 来了解

whisper --help

注意:第一次调用时,会下载模型,国内直接下载速度会很慢!

参考文献

whisper blog

whisper github

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_255809.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

欧盟砍伐森林法规和遵守情况 用Dimitra技术解决森林砍伐问题

两千年前,西欧有80%的地区被列为森林。今天,这个数字只有34%。森林砍伐影响着这个星球上的每个人。它造成了大约10%的全球变暖。如果不设法解决森林砍伐问题,就不可能应对全球变暖。 毁林是有目的的清除林地的行为。此外,工业化农…

cmd常用的操作命令

使用windows系统,通常在cmd中输入指令,会调用相应的一些程序或者执行一些功能,学会使用CMD中的命令,可以加快我们一些操作,省时省力。 ipconfig ------查询IP地址 gpedit.msc-----组策略 sndrec32-------录音机 Nsloo…

ClickHouse 合并树表引擎 MergeTree 索引与数据存储方式

目录 1. 一级索引 1.1 稀疏索引 1.2 索引粒度 1.3 索引数据的生成规则 1.4 索引的查询过程 2. 二级索引 2.1 granularity 与 index_granularity 2.2 跳数索引的生成规则

JVM从看懂到看开Ⅲ -- 类加载与字节码技术【上】

文章目录类文件结构魔数版本常量池访问标识与继承信息Field 信息Method 信息附加属性字节码指令初识javap工具图解方法执行流程通过字节码指令来分析分析 i问题条件判断指令循环控制指令构造方法cinit()Vinit()V方法调用多态原理异常处理try-catch多个single-catchfinallyfinal…

MDQ60-16-ASEMI三相整流模块MDQ60-16

编辑-Z MDQ60-16在MDQ封装里采用的4个芯片,是一款机床用三相可控整流模块。MDQ60-16的浪涌电流Ifsm为920A,漏电流(Ir)为5mA,其工作时耐温度范围为-40~150摄氏度。MDQ60-16采用GPP硅芯片材质,里面有4颗芯片组成。MDQ60-16的电性参…

TCP连接的状态详解以及故障排查(五)

同时打开 两个应用程序同时执行主动打开的情况是可能的,虽然发生的可能性较低。每一端都发送一个SYN,并传递给对方,且每一端都使用对端所知的端口作为本地端口。例如: 主机a中一应用程序使用7777作为本地端口,并连接到主机b 888…

WebDAV之葫芦儿·派盘+KMPlayer

KMPlayer 支持WebDAV方式连接葫芦儿派盘。 KMPlayer几乎可以播放您系统上所有的影音文件,支持几乎全部音视频格式。通过其强大的插件功能,可以支持层出不穷的新格式。软件还具有齐全的操控功能,支持捕获音频、捕获AVI、捕获画面、外挂字幕、自定义编辑设置,是视频爱好者的不…

Java NIO学习(二):Channel通道

2.1 Channel 概述Java NIO 的通道类似流,但又有些不同:既可以从通道中读取数据,又可以写数据到通道。但流的读写通常是单向的。通道可以异步地读写。通道中的数据总是要先读到一个 Buffer,或者总是要从一个 Buffer 中写入。2.2 Ch…

应用监控以及告警实现

前言 一个Java应用 可以不优秀,但是一定不能没有监控方案。否则极大影响排查线上问题的效 以及系统故障的及时告警 。试想 核心应用挂了一个 但是没有配置告警 理想情况几个小时 被自己人发现了 但是万一自己人也没看到或者没关注 那难道让服务一直挂下去么 &#…

var const let

菜鸟学前端 本文:https://www.jianshu.com/p/b7116525273b 文章目录varlet和const写不动了参考说实话,在看到这个之前,我只知道 var,以前也只用过这玩意。 后面那俩都不知道是干啥用的。 感谢同桌的提示。 记! var v…

四 、QML常用控件的使用详解

在Qt Quick的世界里,window对象用于创建一个与操作系统相关的顶层窗口,而其他的元素,如Text Rectangle,Image等,都睡Windows提功能场景里面的显示对象,Window还有一个派生类,即是大名鼎鼎的Application Win…

ABAP 搜索帮助带出多个字段描述 更新屏幕字段

文章目录需求解析1-DYNP_GET_STEPL2-F4IF_INT_TABLE_VALUE_REQUEST3-获取返回值4-把相应字段更新到内表5-DYNP_VALUES_UPDATE代码需求 如图,当我点击责任工序的搜说帮助时, 同时会把责任人员的描述带出来. 解析 1-DYNP_GET_STEPL 这个方法就是获取当前的循环步骤 2-F4IF_I…

WorkTool无障碍服务实现企业微信机器人接口

前言 想要实现一个企业微信机器人,如京东/拼多多福利群、美团瑞幸定时营销群、自助订单查询、智能咨询或社群管理机器人等,首先官方未提供外部群/客户群的机器人API,会话存档也只在一定场景下适用,及时使用会话存档也存在只能收不…

opencv+python物体检测【03-模仿学习】

仿照练习:原文链接 步骤一:准备图片 正样本集:正样本集为包含“识别物体”的灰度图,一般大于等于2000张,尺寸不能太大,尺寸太大会导致训练时间过长。 负样本集:负样本集为不含“识别物体”的…

微服务--Gateway网关学习

Gateway服务网关 为什么需要网关 网关功能: 身份认证和权限校验服务路由,负载均衡请求限流 网关的技术实现:在SpringCloud网关的实现包括两种: gatewayzuul Zuul是基于Servlet的实现,属于阻塞式编程。而SpringCloudGa…

车道线检测-E2E_LSFitting 论文学习笔记

论文:《End-to-end Lane Detection through Differentiable Least-Squares Fitting》 代码:https://github.com/wvangansbeke/LaneDetection_End2End 材料:https://zhuanlan.zhihu.com/p/94419168 特点: 拟合二次曲线&#xff1b…

专家说年轻人工资低是能力不行….

我们国家的很多专家总讲究语不惊人死不休,同时他们还很喜欢话风高速原地调头。 最近又有一个碉堡了的专家在大放厥词,就在前几天的首届长白山高峰论坛上中航基金副总经理邓海清发表批评年轻人的言论,邓老板是这么说的:很多年轻人…

synchronized 关键字-监视器锁 monitor lock

1.代码示例: package thread3;import java.util.Scanner;public class Test2 {public static Object object new Object();public static void main(String[] args) throws InterruptedException {Thread thread1 new Thread(() -> {Scanner scanner new Sca…

第五十一章 BFS进阶(一)——双端队列广搜

第五十一章 BFS进阶(一)——双端队列广搜一、原理二、例题1、问题2、分析三、代码一、原理 在介绍双端队列广搜之前,我们先回顾一下堆优化版本的dijkstradijkstradijkstra算法。 在这个算法中,我们使用的是小根堆来找到距离起点…

Windows/VM虚拟机安装黑群晖6.1-----保证有效而且简单操作

1视频:Windows/VM虚拟机安装黑群晖教程_哔哩哔哩_bilibili2:网址:Synology Web Assistant3:重新打开群晖操作步骤1:按着视频下载好资源后,按照视频操作,途中修改地方(两个情况选择其中一个&…