声声不息，新“声”报到

news/2024/5/21 0:14:44/文章来源:https://blog.csdn.net/pengzhouzhou/article/details/129700679

魅力声音大家庭总群（10）

@大玲，刚见到新来的四川孩儿——樱桃，真是太可爱了！

可不就是，这孩儿真是招人稀罕，我现在就把她拉到咱大群里

“大玲” 邀请 “樱桃” 加入群聊

@所有人咱们大家庭迎来了第一个孩儿，大家欢迎 @樱桃

哥哥姐姐们好呀！！我是来自四川成都的樱桃，今年7岁咯，很开心可以和大家成为一家人！

欢迎樱桃小可爱，樱桃感兴趣可以来录音棚找我们玩呀

要得！樱桃刚学会一个童谣，等哈儿唱给姐姐听。

咱孩子这多才多艺的，别等去录音棚了，先给你大玲姐来一首

丁丁猫儿，穿红裙

高大姐，做媒人

麻子娘娘吹鼓手

斑竹丫丫抬起走

抬轿的，慢点儿抬

看把姑娘儿绊下来

姑娘儿穿的绣花鞋......

点击下方，来听完整童谣~

啷个样，是不是都是那嘞个火锅味儿

小爱去年12月上线的四川音色樱桃，是业界首款由真实儿童录音数据打造的方言音色。同时，我们也为这款音色加持了超级拟人技术，复刻了多种语气词表达，让小爱的回复更加拟人、自然。

作为新加入“声音大家庭”唯一的娃儿，声音奶味儿十足，又不失霸气和可爱，这么地道的“四川话”，到底是啷个做出来的嘞？就进入正题哈，请技术团队的工程师来给我们介绍一哈儿是啷个实现的呢~

“声”入人心，地道乡音源何而来？

为了让用户体会到不同音色的声音带来的乐趣，小爱声音商店自上线起，便开始持续推出新的不同风格音色声音供大众选择。声音商店目前共有10种声音，分为方言、女友、译制、古风、IP、科技这6个系列。

方言作为地方文化的一种主要文化艺术，既是滋养民间文化的土壤，也是口口相传的文化活化石。特此，我们开辟出了“方言音色”系列，目前已经上线东北话、四川话这2种。方言系列的诞生，对语音团队来说，是一个深思熟虑后的决定。

一方面，方言的发音分歧，为方言合成的准确度带来了极大的挑战。要知道，现代汉语和各方言之间主要的差异就是语音、词汇、语法等各个方面，语音方面尤为突出。不同于普通话有国家统一标准，方言发音方式没有统一。方言种类不仅特别多（使用人数最多的八种方言，包括东北话、北京话、冀鲁话、胶辽话、中原话、兰银话、江淮话、西南官话），而且每一种方言内部并不统一，分布着若干方言和许多种“土语”。

另一方面，受普通话影响，部分方言中，有些词语的发音在不同年龄段的人群中存在一些区别。这让方言合成如何做到“地道”增加了难度。毕竟方言要想做到位，就必须保证“地道化、口语化”，这也是我们衡量该音色是否达标的重要标准之一。

为了守护这份“文化”，推动方言所承载的地方文化的传播，小米工程师们不断探索，挑战更难的语音技术。

天籁“童声”，一探硬核技术

近期新增的四川小孩方言，更是一经上线便收到了用户朋友们的普遍好评，声音使用率断层第一，荣登最受用户喜爱的方言TOP1。想来是赢得了各位哥哥姐姐叔叔姨姨们欢心的！

目前市面的方言声音库里多为成熟女声、男声，缺少儿童的声音。受多方因素限制，四川小孩樱桃音色是目前方言系列实现难度最大的一个。

一方面，四川方言本就与普通话音素集不同，发音方式有差异的基础上，从技术层面来讲，一般需要>3000条声音素材才可以直接训练声音模型，但面对只有500多句的语料，我们缺少大量小孩四川话数据做基础模型，技术上无法直接训练四川话声音模型，技术实现的难度较大。

为了克服小规模数据上方言合成的困难，工程师提出了基于迁移学习的方法，将童声方言合成分为两个阶段进行。首先采用低资源方言（跨语种）合成技术，获得儿童音色数据模型，然后在500多句语料的基础上，去再度迭代训练专属四川话的基础模型。

普通话跟方言发音方式的不同，决定了难以直接利用普通话音色的基础模型，用更容易获取的成年人方言的发音模型做音色迁移，发音类别更匹配，更便于自适应训练，进而完成整体儿童语音的扩增，用于训练儿童语速风格模型。当然，再通过技术手段重构及扩增训练数据时，可能会引入少量TTS背景杂音，通过降噪声码器让合成语音适当减少噪音。

另一方面，方言录制难度大，对于处于学习和模仿阶段的小朋友而言，她的录音素材，通过大人带领跟读的方式收集，大大限制的录制数量，提升了录音难度。最终收集了录音文本500多句，虽然通过技术手段可以进一步扩增数量，但原始录音对于合成质量的影响最为至关重要。且孩子发音稳定性也较差，语速更慢、语调更高，每个字在不同句子中发音变化过大，发挥自由度大，建模难度便“水涨船高”。

为进一步提升推理速度，引入蒸馏学习的方式，将老师模型知识迁移到学生模型，推理速度更快，音质几乎没有下降。模型训练整体流程见下图：