神经编解码器语言模型是零镜头文本到语音合成器
[纸]
王成义*, 陈三元*, 吴宇*, 张子强, 周龙, 刘淑杰, 陈卓, 刘艳青, 王华明, 李金宇, 何磊, 赵胜,
魏辅茹
微软
抽象。我们介绍了一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码训练神经编解码器语言模型(称为VALL-E),并将TTS视为条件语言建模任务,而不是像以前的工作那样连续信号回归。在预训练阶段,我们将TTS训练数据扩展到60K小时的英语语音,比现有系统大数百倍。VALL-E 出现了上下文学习功能,可用于合成高质量的个性化语音,只需 3 秒注册录制看不见的说话者作为声学提示。实验结果表明,VALL-E在语音自然度和说话人相似度方面明显优于最先进的零镜头TTS系统。此外,我们发现VALL-E可以在合成中保留说话者的情感和声学提示的声学环境。
本页仅用于研究演示目的。