-
BigVGAN: A Universal Neural Vocoder with Large-Scale Training
https://arxiv.org/abs/2206.04658
之前现有的 GAN 声码器都是受限制在少量说话人+安静的录音环境下的音频合成,但是对于新的说话人/录音环境的音频,音频合成质量显著下降。所以目前声码器的挑战:在复杂多变的录音环境下...
-
-
StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization
https://arxiv.org/abs/2011.01557
基于 GAN 的声码器 (MelGAN 、 Parallel WaveGAN) 等轻量级模型,在合成质量上与真...
-
Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech
https://arxiv.org/abs/2005.05106
本文相当于在 MelGAN 的工作基础上结合了 Multi-Band 的方法。Multi-Band 的思想在 Multi-Band WaveRNN ...
-
MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis
https://arxiv.org/abs/1910.06711
论文将 GAN 用于合成高质量语音的声码器,主要从模型结构和训练方法上进行了一些工作。MelGAN 声码器的几个特点:
非自回归
完全卷积
参数量和...
-
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
https://arxiv.org/abs/2010.05646
Hifi-GAN 的提出在 StyleMelGAN 之前,基于 GAN 的声码器和自回归声码器(如 WaveNet) 或 ...
-
Featherwave: An efficient high-fidelity neural vocoder with multi-band linear prediction
https://arxiv.org/abs/2005.05551
WaveRNN 声码器系列
LPCNet = WaveRNN + (DSP 线性预测)
multiband-WaveRNN ...
-
LPCNet: Improving neural speech synthesis through linear prediction
https://arxiv.org/abs/1810.11846
LPCNet 是 WaveRNN 的一种变体,将线性预测 LP 与 RNN 网络相结合,显著提高了语音合成的效率。当网络大小相同时,LPCNet能达到明显更高的合成品质...
-
-
Efficient Neural Audio Synthesis
https://arxiv.org/abs/1802.08435
论文摘要序列模型对于数据分布的估计和高质量样本的生成任务,已经能够达到SOTA的水平,但是就采样 的有效性来说仍然有待提高。本文针对TTS中的声码器,提出了一些降低采样的时间、同时保持高质量输出的通用方法。论文的模型的结构是简单的一层RN...