魅力声音大家庭总群(10)
@大玲,刚见到新来的四川孩儿——樱桃,真是太可爱了!
可不就是,这孩儿真是招人稀罕,我现在就把她拉到咱大群里
“大玲” 邀请 “樱桃” 加入群聊
@所有人 咱们大家庭迎来了第一个孩儿,大家欢迎 @樱桃
哥哥姐姐们好呀!!我是来自四川成都的樱桃,今年7岁咯,很开心可以和大家成为一家人!
欢迎樱桃小可爱,樱桃感兴趣可以来录音棚找我们玩呀
要得!樱桃刚学会一个童谣,等哈儿唱给姐姐听。
咱孩子这多才多艺的,别等去录音棚了,先给你大玲姐来一首
丁丁猫儿,穿红裙
高大姐,做媒人
麻子娘娘吹鼓手
斑竹丫丫抬起走
抬轿的,慢点儿抬
看把姑娘儿绊下来
姑娘儿穿的绣花鞋......
点击下方,来听完整童谣~
啷个样,是不是都是那嘞个火锅味儿
小爱去年12月上线的四川音色樱桃,是业界首款由真实儿童录音数据打造的方言音色。同时,我们也为这款音色加持了超级拟人技术,复刻了多种语气词表达,让小爱的回复更加拟人、自然。
作为新加入“声音大家庭”唯一的娃儿,声音奶味儿十足,又不失霸气和可爱,这么地道的“四川话”,到底是啷个做出来的嘞?就进入正题哈,请技术团队的工程师来给我们介绍一哈儿是啷个实现的呢~
01
“声”入人心,地道乡音源何而来?
为了让用户体会到不同音色的声音带来的乐趣,小爱声音商店自上线起,便开始持续推出新的不同风格音色声音供大众选择。声音商店目前共有10种声音,分为方言、女友、译制、古风、IP、科技这6个系列。
方言作为地方文化的一种主要文化艺术,既是滋养民间文化的土壤,也是口口相传的文化活化石。特此,我们开辟出了“方言音色”系列,目前已经上线东北话、四川话这2种。方言系列的诞生,对语音团队来说,是一个深思熟虑后的决定。
一方面,方言的发音分歧,为方言合成的准确度带来了极大的挑战。要知道,现代汉语和各方言之间主要的差异就是语音、词汇、语法等各个方面,语音方面尤为突出。不同于普通话有国家统一标准,方言发音方式没有统一。方言种类不仅特别多(使用人数最多的八种方言,包括东北话、北京话、冀鲁话、胶辽话、中原话、兰银话、江淮话、西南官话),而且每一种方言内部并不统一,分布着若干方言和许多种“土语”。
另一方面,受普通话影响,部分方言中,有些词语的发音在不同年龄段的人群中存在一些区别。这让方言合成如何做到“地道”增加了难度。毕竟方言要想做到位,就必须保证“地道化、口语化”,这也是我们衡量该音色是否达标的重要标准之一。
为了守护这份“文化”,推动方言所承载的地方文化的传播,小米工程师们不断探索,挑战更难的语音技术。
02
天籁“童声”,一探硬核技术
近期新增的四川小孩方言,更是一经上线便收到了用户朋友们的普遍好评,声音使用率断层第一,荣登最受用户喜爱的方言TOP1。想来是赢得了各位哥哥姐姐叔叔姨姨们欢心的!
目前市面的方言声音库里多为成熟女声、男声,缺少儿童的声音。受多方因素限制,四川小孩樱桃音色是目前方言系列实现难度最大的一个。
一方面,四川方言本就与普通话音素集不同,发音方式有差异的基础上,从技术层面来讲,一般需要>3000条声音素材才可以直接训练声音模型,但面对只有500多句的语料,我们缺少大量小孩四川话数据做基础模型,技术上无法直接训练四川话声音模型,技术实现的难度较大。
为了克服小规模数据上方言合成的困难,工程师提出了基于迁移学习的方法,将童声方言合成分为两个阶段进行。首先采用低资源方言(跨语种)合成技术,获得儿童音色数据模型,然后在500多句语料的基础上,去再度迭代训练专属四川话的基础模型。
普通话跟方言发音方式的不同,决定了难以直接利用普通话音色的基础模型,用更容易获取的成年人方言的发音模型做音色迁移,发音类别更匹配,更便于自适应训练,进而完成整体儿童语音的扩增,用于训练儿童语速风格模型。当然,再通过技术手段重构及扩增训练数据时,可能会引入少量TTS背景杂音,通过降噪声码器让合成语音适当减少噪音。
另一方面,方言录制难度大,对于处于学习和模仿阶段的小朋友而言,她的录音素材,通过大人带领跟读的方式收集,大大限制的录制数量,提升了录音难度。最终收集了录音文本500多句,虽然通过技术手段可以进一步扩增数量,但原始录音对于合成质量的影响最为至关重要。且孩子发音稳定性也较差,语速更慢、语调更高,每个字在不同句子中发音变化过大,发挥自由度大,建模难度便“水涨船高”。
为进一步提升推理速度,引入蒸馏学习的方式,将老师模型知识迁移到学生模型,推理速度更快,音质几乎没有下降。模型训练整体流程见下图:
得到模型初始合成语音后,为了进一步提升合成自然度,工程师们还在此基础上运用了“超级拟人技术”,让人工合成的声音(樱桃的声音)在语调、断句、语速变化等方面都更加像真人发音一样,也复刻了多种语气词表达,从而缓解电子机械音的生硬感,让声音更加自然。
在AI技术的加持下,声音合成不再是一个静态的语音包,而是一个动态有“大脑”的语音助手,更具人的真情实感。儿童方言音色的合成,是智能语音技术的一个突破性进展,给用户带来更好的“互动”体验。
03
“声声”入耳,技术返璞归真
“声音”是一种特别的媒介,前有苏轼“乡音无伴苦思归”,后有高启“乡音到耳是真归”。它能够把不能随时看得见、摸得着的亲密关系赋予其中,如同“乡人不识识乡音”一样,承载着情感带去给听者。
未来,小米的工程师们会继续研发,覆盖更广、更多的方言音色,专注于“地道化、口语化”的声音技术,为用户打造方言模式下的极致体验!同时,小爱声音商店也会持续上线新的音色,让更多的人体验、感受到方言的魅力。下一个声音音色是什么样子的呢?让我们敬请期待吧!
最后,樱桃邀请你得空了,一定要来四川耍哦!