小米多项声学语音技术实现全面自研

  近日,小米发布了小爱音箱Art,作为小米推出的第9款智能音箱,小米小爱音箱Art背后的声学语音技术也重磅升级,搭载第三代“小爱同学”,支持情感化语音交互、全屋播放及就近唤醒等。目前,小米的声学语音技术已经实现全面自研,并在自研部分领域持续领先。   业内首家情感化TTS一语实现全屋播放   

中关村科学城党工委、管委会组织基层党组织和党员参加“云端党课”培训学习
海淀创业园企业触景无限助力清华大学返校零感染 护航毕业季
京东“硬核”举措助力抗疫

  近日,小米发布了小爱音箱Art,作为小米推出的第9款智能音箱,小米小爱音箱Art背后的声学语音技术也重磅升级,搭载第三代“小爱同学”,支持情感化语音交互、全屋播放及就近唤醒等。目前,小米的声学语音技术已经实现全面自研,并在自研部分领域持续领先。

  业内首家情感化TTS一语实现全屋播放

  随着人工智能技术的发展,在实现人机对话的基础上,各大厂商都在情感化语音交互的领域探索。“情感”本身就是主观的、多样的感受,对于智能设备而言,实现情感化语音交互是一项挑战。情感化语音交互对技术要求较高,需要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识,将较主观的情感音素统一化、标准化。

  为了让机器加入情感元素,小米AI实验室在“情感数据量有限”的前提下,通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS(人工语音合成),成为业内首家情感化TTS大规模落地的企业。

  通过小米AI实验室的不断深耕,此次小米小爱音箱Art全面支持情感化语音交互,基于有限但类型不同的情感音频数据,如开心、关心、害羞、惊讶等,通过不同技术训练并迭代声学模型,最终支持情感TTS合成并实现“小爱同学”音色情感化、拟人化。情感更加丰富的“小爱同学”,能够为用户提供多元化的语音交互体验,为IoT设备增加更丰富、更立体、更逼真的语音交互体验。

  用户直接对“小爱同学”说:“全屋播放XXX”,无需提前在APP端进行手动设置,小米小爱音箱Art即可实现一句话语音交互,为用户提供了更便捷的使用方式。

  要实现语音支持全屋播放这一功能,音箱需要具备AIoT放音技术。小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后,将不同音箱播放声音的同步优化到微秒级别,同时还实现了在不同型号的音箱之间的数据同步,提供更细腻的音质和宽广的声像。

  此外,立体声功能同时支持语音指令和APP操作播放。在演示过程中记者了解到,当选择播放曲目后,云端音频流下发至音箱A,音箱A将立体声分离为左右声道,音箱A播放左声道音频并将右声道音频流下发给音箱B,由B音箱播放右声道,精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和APP创建组网,音频流下发至音箱C,音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放,不区分声道,可支持多个设备。

  低功耗高性能两麦阵列唤醒实现跨设备关闭闹钟功能

  小米小爱音箱Art同步支持两麦阵列唤醒技术。在麦克风阵列方面,小米采用两麦盲源分离降噪前端,通过盲源分离、降噪、回声消除等技术,在多声源的嘈杂环境、音箱自身播放音乐时,都能结合语音增强技术,消除噪音的强干扰,获得干净、准确的人声音频。

  在唤醒方面,为了兼顾低功耗与高性能,自研语音唤醒算法采用双级唤醒策略。低功耗待机唤醒词检测模型,利用子采样与共享隐含层等技术,减少模型资源消耗的同时保证召回率在一个较高的水平。高性能误唤醒检测模型,采用粗粒度建模单元,结合局部信息与长时上下文信息,高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本,再经过数据扩充技术,提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

  基于唤醒技术升级,此次小米小爱音箱Art成为业内首款支持跨设备关闭闹钟的音箱。记者看到,如果远处的音箱闹钟响了,唤醒近处的音箱可以直接关闭远处的闹钟。

  目前,小米IoT平台连接的智能硬件数已达到2.5亿台,音箱出货量已经达到2200万台。在如此大的用户体量下,如何让基础体验持续提升,且提升产品在AI体验上的创新性,对自研AI团队来说是非常重要的使命。据悉,未来小米将专注于家居复杂场景应用、智能声学感知和多传感融合。在复杂的家庭结构环境中,保证算法的可用性,让每个设备主动感知所处的不同环境,根据环境完成算法自适应,将数据结果取长补短,相互融合,实现多维度智能感知,为用户带来更好的产品体验。 (记者 余婧雯)

本文为转载,版权属各作者 并已注明作者。【湾区盒子BAYBOX】湾区盒子BAYBOX_科技资讯,产业资本,圈内热点,深度文章

0