-
Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech
https://arxiv.org/abs/2005.05106
本文相当于在 MelGAN 的工作基础上结合了 Multi-Band 的方法。Multi-Band 的思想在 Multi-Band WaveRNN ...
-
MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis
https://arxiv.org/abs/1910.06711
论文将 GAN 用于合成高质量语音的声码器,主要从模型结构和训练方法上进行了一些工作。MelGAN 声码器的几个特点:
非自回归
完全卷积
参数量和...
-
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
https://arxiv.org/abs/2010.05646
Hifi-GAN 的提出在 StyleMelGAN 之前,基于 GAN 的声码器和自回归声码器(如 WaveNet) 或 ...
-
Featherwave: An efficient high-fidelity neural vocoder with multi-band linear prediction
https://arxiv.org/abs/2005.05551
WaveRNN 声码器系列
LPCNet = WaveRNN + (DSP 线性预测)
multiband-WaveRNN ...
-
LPCNet: Improving neural speech synthesis through linear prediction
https://arxiv.org/abs/1810.11846
LPCNet 是 WaveRNN 的一种变体,将线性预测 LP 与 RNN 网络相结合,显著提高了语音合成的效率。当网络大小相同时,LPCNet能达到明显更高的合成品质...
-
-
Efficient Neural Audio Synthesis
https://arxiv.org/abs/1802.08435
论文摘要序列模型对于数据分布的估计和高质量样本的生成任务,已经能够达到SOTA的水平,但是就采样 的有效性来说仍然有待提高。本文针对TTS中的声码器,提出了一些降低采样的时间、同时保持高质量输出的通用方法。论文的模型的结构是简单的一层RN...
-
论文标题:FastSpeech: Fast, Robust and Controllable Text to Speech论文链接:https://arxiv.org/abs/1905.09263发表会议:NIPS 2019核心贡献:提出基于Transformer的非自回归前馈网络,实现梅尔谱特征的并行化生成;设计音素时长预测模块与长度调节器,解决自回归TTS推理慢、鲁棒...
-
-
CPC: Representation Learning with Contrastive Predictive Coding
https://arxiv.org/abs/1807.03748
参考资料:
Code (PyTorch): https://github.com/jefflai108/Contrastive-Predictive-Coding-PyTor...