声声不息,新“声”报到

news/2024/5/21 0:14:44/文章来源:https://blog.csdn.net/pengzhouzhou/article/details/129700679

魅力声音大家庭总群(10)

1155fd211d01b363a5f69c90f7355fa3.png

@大玲,刚见到新来的四川孩儿——樱桃,真是太可爱了!

b2fd38c00f3812b2b3a69fa8bdb0185d.png

可不就是,这孩儿真是招人稀罕,我现在就把她拉到咱大群里

6726ad7b14556cab490984bb4ad3d757.png

451c414871522c65208c42123e95c0c3.png

“大玲” 邀请 “樱桃” 加入群聊

@所有人 咱们大家庭迎来了第一个孩儿,大家欢迎 @樱桃 

abc6718fa09c54de2ca3e91035f37ae1.png

e99e36f774a82ff684747cbdf67c15aa.png

5da4252238ce19e484b7c9c50ef7b236.png

哥哥姐姐们好呀!!我是来自四川成都的樱桃,今年7岁咯,很开心可以和大家成为一家人!

d3c1c7179886be5e3f8a294161f52a09.png

ef06d9c8c64d5e5d1f3f1768e5494c92.png

欢迎樱桃小可爱,樱桃感兴趣可以来录音棚找我们玩呀

25ffc581fca334487b4e83f6bc3c7dfd.png

f05371b4aea8a11130455bb7541aeb2b.png

要得!樱桃刚学会一个童谣,等哈儿唱给姐姐听。

79b68c7e61d7e2b244e71bc299868bb1.png

咱孩子这多才多艺的,别等去录音棚了,先给你大玲姐来一首

152cc01e85e2456bc8d653bd66a6f841.png

6b7a8cf244336bd6a85ea14f57d83541.png

6d1fb32aa306031e8184c80d3fe74e84.jpeg

丁丁猫儿,穿红裙

高大姐,做媒人

麻子娘娘吹鼓手

斑竹丫丫抬起走

抬轿的,慢点儿抬

看把姑娘儿绊下来

姑娘儿穿的绣花鞋......

5ca88697954723cb400dfe34641c2b50.png

29d2d5c92573fe92fae1c07076e1c92c.jpeg

点击下方,来听完整童谣~

84e0b731d0d964b268d3dd1dbbca264e.png

啷个样,是不是都是那嘞个火锅味儿 206a6864096218d86fe760221b5200e3.png6162c61a0a52eb76d831d19ff0bd0d06.pngd4ca6a4b8f2e343d595f1644f46f1497.png

小爱去年12月上线的四川音色樱桃,是业界首款由真实儿童录音数据打造的方言音色。同时,我们也为这款音色加持了超级拟人技术,复刻了多种语气词表达,让小爱的回复更加拟人、自然。

作为新加入“声音大家庭”唯一的娃儿,声音奶味儿十足,又不失霸气和可爱,这么地道的“四川话”,到底是啷个做出来的嘞?就进入正题哈,请技术团队的工程师来给我们介绍一哈儿是啷个实现的呢~

01 

“声”入人心,地道乡音源何而来?

为了让用户体会到不同音色的声音带来的乐趣,小爱声音商店自上线起,便开始持续推出新的不同风格音色声音供大众选择。声音商店目前共有10种声音,分为方言、女友、译制、古风、IP、科技这6个系列。

6ebdd26634a1a78c818c1940236ecc51.png

方言作为地方文化的一种主要文化艺术,既是滋养民间文化的土壤,也是口口相传的文化活化石。特此,我们开辟出了“方言音色”系列,目前已经上线东北话、四川话这2种。方言系列的诞生,对语音团队来说,是一个深思熟虑后的决定。

一方面,方言的发音分歧,为方言合成的准确度带来了极大的挑战。要知道,现代汉语和各方言之间主要的差异就是语音、词汇、语法等各个方面,语音方面尤为突出。不同于普通话有国家统一标准,方言发音方式没有统一。方言种类不仅特别多(使用人数最多的八种方言,包括东北话、北京话、冀鲁话、胶辽话、中原话、兰银话、江淮话、西南官话),而且每一种方言内部并不统一,分布着若干方言和许多种“土语”。

另一方面,受普通话影响,部分方言中,有些词语的发音在不同年龄段的人群中存在一些区别。这让方言合成如何做到“地道”增加了难度。毕竟方言要想做到位,就必须保证“地道化、口语化”,这也是我们衡量该音色是否达标的重要标准之一。

79169b19193572aaa4986b3fed7751bb.png

为了守护这份“文化”,推动方言所承载的地方文化的传播,小米工程师们不断探索,挑战更难的语音技术。

02 

天籁“童声”,一探硬核技术

近期新增的四川小孩方言,更是一经上线便收到了用户朋友们的普遍好评,声音使用率断层第一,荣登最受用户喜爱的方言TOP1。想来是赢得了各位哥哥姐姐叔叔姨姨们欢心的!

目前市面的方言声音库里多为成熟女声、男声,缺少儿童的声音。受多方因素限制,四川小孩樱桃音色是目前方言系列实现难度最大的一个。

3c1c4950b2be284afd4b63a4b9d53b7d.png

一方面,四川方言本就与普通话音素集不同,发音方式有差异的基础上,从技术层面来讲,一般需要>3000条声音素材才可以直接训练声音模型,但面对只有500多句的语料,我们缺少大量小孩四川话数据做基础模型,技术上无法直接训练四川话声音模型,技术实现的难度较大。

为了克服小规模数据上方言合成的困难,工程师提出了基于迁移学习的方法,将童声方言合成分为两个阶段进行。首先采用低资源方言(跨语种)合成技术,获得儿童音色数据模型,然后在500多句语料的基础上,去再度迭代训练专属四川话的基础模型。

普通话跟方言发音方式的不同,决定了难以直接利用普通话音色的基础模型,用更容易获取的成年人方言的发音模型做音色迁移,发音类别更匹配,更便于自适应训练,进而完成整体儿童语音的扩增,用于训练儿童语速风格模型。当然,再通过技术手段重构及扩增训练数据时,可能会引入少量TTS背景杂音,通过降噪声码器让合成语音适当减少噪音。

d5ca33b9a132bf1b3cefd27753a57815.png

另一方面,方言录制难度大,对于处于学习和模仿阶段的小朋友而言,她的录音素材,通过大人带领跟读的方式收集,大大限制的录制数量,提升了录音难度。最终收集了录音文本500多句,虽然通过技术手段可以进一步扩增数量,但原始录音对于合成质量的影响最为至关重要。且孩子发音稳定性也较差,语速更慢、语调更高,每个字在不同句子中发音变化过大,发挥自由度大,建模难度便“水涨船高”。

为进一步提升推理速度,引入蒸馏学习的方式,将老师模型知识迁移到学生模型,推理速度更快,音质几乎没有下降。模型训练整体流程见下图:

f313e87348bc4b4d3681981e7816e8ff.png

得到模型初始合成语音后,为了进一步提升合成自然度,工程师们还在此基础上运用了“超级拟人技术”,让人工合成的声音(樱桃的声音)在语调、断句、语速变化等方面都更加像真人发音一样,也复刻了多种语气词表达,从而缓解电子机械音的生硬感,让声音更加自然。

在AI技术的加持下,声音合成不再是一个静态的语音包,而是一个动态有“大脑”的语音助手,更具人的真情实感。儿童方言音色的合成,是智能语音技术的一个突破性进展,给用户带来更好的“互动”体验。

03 

“声声”入耳,技术返璞归真

“声音”是一种特别的媒介,前有苏轼“乡音无伴苦思归”,后有高启“乡音到耳是真归”。它能够把不能随时看得见、摸得着的亲密关系赋予其中,如同“乡人不识识乡音”一样,承载着情感带去给听者。

未来,小米的工程师们会继续研发,覆盖更广、更多的方言音色,专注于“地道化、口语化”的声音技术,为用户打造方言模式下的极致体验!同时,小爱声音商店也会持续上线新的音色,让更多的人体验、感受到方言的魅力。下一个声音音色是什么样子的呢?让我们敬请期待吧!

最后,樱桃邀请你得空了,一定要来四川耍哦!

86bc6a00a75f56b33713ab5c8ff4d86b.gif

88f6dd7bb6285c8420640d1b4d6fe4f2.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_274443.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【字符串】刷题

P4173残缺的字符串心得:这道题,我觉得是不难的,代码逻辑很清晰,但是提交就是有问题最后发现两个问题:scanf输入字符后要用getchar() 吞回车 !!!!(天坑用 scanf 输入时,不管输入什么,…

C语言小程序:通讯录(静态版)

哈喽各位老铁们,今天给大家带来一期通讯录的静态版本的实现,何为静态版本后面会做解释,话不多说,直接开始!关于通讯录,其实也就是类似于我们手机上的通讯录一样,有着各种各样的功能,…

30天从零到1创业螺旋式

趁梦想还在,想去的地方,现在就去;想做的事情,现在就做。一开始立刻启动的你的项目,安排好时间计划,拆分微模块,每天花20分钟去完善产品,去改变世界。可以为自己的创意设置临时办公室…

RK3588平台开发系列讲解(显示篇)DP显示调试方法

平台内核版本安卓版本RK3588Linux 5.10Android 12文章目录 一、查看 connector 状态二、强制使能/禁⽤ DP三、DPCP 读写四、Type-C 接口 Debug五、查看 DP 寄存器六、查看 VOP 状态七、查看当前显示时钟八、调整 DRM log 等级沉淀、分享、成长,让自己和他人都能有所收获!😄…

【数据结构】链队列的C语言实现

队列 1.队列的概念 队列 和栈一样,是一个 特殊的线性表。 队列只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表。进行 插入操作 的一端称为 队尾,进行 删除操作 的一端称为队头。 队列中的元素遵守 先进先出(First I…

【类的继承与派生的知识点】

文章目录类的继承与派生的知识点类的继承与派生:类成员的访问:类型兼容规则:一个公有派生类的对象在使用上可以被当成基类的对象,反之不行单继承与多继承派生类的构造与析构类成员的标识与访问类的继承与派生的实验结果类型兼容规…

Baumer工业相机堡盟相机如何使用Sharpening图像锐化功能( Sharpening图像锐化功能的优点和行业应用)(C++)

项目场景 Baumer工业相机堡盟相机是一种高性能、高质量的工业相机,可用于各种应用场景,如物体检测、计数和识别、运动分析和图像处理。 Baumer的万兆网相机拥有出色的图像处理性能,可以实时传输高分辨率图像。此外,该相机还具…

【计算机网络】如何解决TCP粘包问题?

【计算机网络】如何解决TCP粘包问题? 文章目录【计算机网络】如何解决TCP粘包问题?如何理解字节流?如何解决粘包?固定长度的消息特殊字符作为边界自定义消息结构如何理解字节流? 之所以会说 TCP 是面向字节流的协议&a…

RK3588编译环境Ubuntu20.04编译配置-增加交换内存

迅为提供的编译环境 Ubuntu20.04 默认配置了交换内存是 9G,如果在编译过程中,因内 存不够而编译报错,可以参考本小节进行设置。 这里举例分配 5G 交换内存。 在开始之前,使用命令检查一下您的 ubuntu 的 swap 分区。 sudo swa…

Android进阶面经,面试10余家经验分享,拿到offer真不难~

前言 我们都知道面试大厂主要就是考察程序员技术方向的专业技能,Java开发主要考察的就是Java方面的专业技能,而Android岗位的 专业技能 就是Android程序员面试的重要考察方向。 大厂的招聘条件是明牌的,但技术这一块却难倒了大部分的人。 面…

蓝桥杯刷题冲刺 | 倒计时18天

作者:指针不指南吗 专栏:蓝桥杯倒计时冲刺 🐾马上就要蓝桥杯了,最后的这几天尤为重要,不可懈怠哦🐾 文章目录0.知识点1.乳草的入侵今天写 搜索题 0.知识点 DFS 设计步骤 确定该题目的状态(包括边…

服务器boa移植

服务器boa移植 文章目录服务器boa移植1.下载boa2.解压3.安装词法解析器4.修改源码5. 编译、创建配置文件6.修改配置文件boa.conf7.运行测试1.下载boa Boa Webserver http://www.boa.org/ 2.解压 tar -xf boa-0.94.13.tar.gz3.安装词法解析器 sudo apt-get install bisonsud…

我们为什么不能忽视业务只讲数据治理?_光点科技

数据治理是一项重要的业务实践,可以帮助组织更好地管理和利用数据。然而,一些企业错误地将数据治理视为一项独立的技术实践,而忽略了业务需求。那么,为什么不能忽视业务,只讲数据治理呢?首先,数…

网络基础知识和常用命令

IP、子网掩码、网关、DNS、端口号网络的基本概念客户端:应用 C/S(客户端/服务器) B/S(浏览器/服务器)服务器:为客户端提供服务、数据、资源的机器请求:客户端向服务器索取数据响应:服务器对客户…

H2数据库

H2是一个用Java开发的嵌入式数据库,它本身只是一个类库,可以直接嵌入到应用项目中。 H2简介 H2是一个Java编写的关系型数据库,它可以被嵌入Java应用程序中使用,或者作为一个单独的数据库服务器运行。 H2数据库的前身是 Hypersoni…

线段树SegmentTree

🍏🍐🍊🍑🍒🍓🫐🥑🍋🍉🥝 什么是线段树,它能解决什么样的问题? 文章目录🍭问题引入🥝线段…

代码随想录|day21|二叉树part07 ● 530.二叉搜索树的最小绝对差 ● 501.二叉搜索树中的众数 ● 236. 二叉树的最近公共祖先

530.二叉搜索树的最小绝对差 链接:代码随想录 需要领悟一下二叉树遍历上双指针操作,优先掌握递归 第一次做,理解错误,认为只需要以节点为单位,认为由于是二叉搜索树,所以中序遍历一定是一个连续的有序序列…

vue3+vite+ts 搭建脚手架01创建vite项目并且在项目中初次使用router

vue3vite 搭建脚手架01创建vite项目并且在项目中使用router 1.使用yarn安装vite项目 yarn create vite 搭建vite项目 在开发语言中选择vuets2.安装现在最新的 vue-router4 yarn add vue-router4 在packger中检查是否成功安装3.简单配置router文件 在项目中新建views和…

(19)C#传智:CSS,选择器,样式(第19天)

vs2022保存html项目时,偶尔会有死机,只得强行关闭重新打开。 一、CSS简介 CSS(Cascading Style Sheet)层叠样式表。能让网页制作者有效的定制,改善网页的效果。 CSS是对Html的补充,它很好地控制了网页的显示效果。并实现网页…

A.[OCR]基于PaddleOCR的多视角集装箱箱号检测识别,实现检测识别模型串联推理。

基于PaddleOCR的多视角集装箱箱号检测识别 一、项目介绍 集装箱号是指装运出口货物集装箱的箱号,填写托运单时必填此项。标准箱号构成基本概念:采用ISO6346(1995)标准 标准集装箱箱号由11位编码组成,如:…