亚马逊在AWS上推出神经文本转新闻播音员风格,前100万条免费转换

近日,亚马逊宣布在AWS Polly上推出神经文本转语音自动生成新闻播音员风格,通过此功能转换的神经文本,将增加自然性和表现力,可以显著改善语音转换质量。 亚马逊在去年年底的一篇AI研究论文中,详细描述了其关于神经文本转换语音的原理(数据减少对序列到序列神经TTS的影响 )。其中研究

王川: 用摩尔定律武装自己
世界三大RPA供应商之一的Blue Prism,宣布全面布局中国市场
苹果股价涨超2% 市值重返万亿美元

近日,亚马逊宣布在AWS Polly上推出神经文本转语音自动生成新闻播音员风格,通过此功能转换的神经文本,将增加自然性和表现力,可以显著改善语音转换质量。

亚马逊在去年年底的一篇AI研究论文中,详细描述了其关于神经文本转换语音的原理(数据减少对序列到序列神经TTS的影响 )。其中研究人员描述了一个全新的AI语音学习系统。该系统只需经过短短几十个小时的数据训练,便可以模仿一位配音演员的阅读风格。

亚马逊的AI模型由两部分组成。第一个是转换音素的序列生成神经网络:即与另一个区分开一个字,如声音感知上的不同单元P,B,D到谱图的一个序列,或视觉随着时间的变化声音频谱的表示。第二个是声码器:将这些频谱图转换为连续的音频信号。

其中,音素到频谱图解释器网络是序列到序列,这意味着它不仅仅从相应的输入计算输出,而是考虑它在输出序列中的位置。除了“风格编码”之外,亚马逊的科学家还使用音素序列和相应的光谱图序列对其进行了训练,使得该风格编码确定了训练示例中,使用的特定说话风格。模型的输出被输入到声码器中,可以从任何扬声器中获取频谱图,无论AI是否在训练期间看到它们。

 

这种AI模型训练方法,结合了大量中性风格的语音数据,只需几个小时的风格数据补充,以及一个能够区分语音元素的AI系统,可输出像播音员和演员那样的语音风格。

 

目前,新闻主播风格可用于两种英语语音,而神经文本语音可用于11种语音。它们都是实时工作和批量处理模式,现在可以在美国东部(弗吉尼亚北部),美国西部(俄勒冈州)和欧洲(爱尔兰)AWS区域访问。

 

从第一次语音请求(标准或NTTS)开始,前12个月每月最多100万个神经文本转换语音都是免费使用的。像Globe and Mail、Gannett、BlueToad、TIM Media、EncyclopediaBritannica以及游戏开发商Volley等客户已经通过AWSPolly使用新闻播音员风格。

本文为转载,版权属各作者 并已注明作者。【湾区盒子BAYBOX】

0