知更鸟的博客
  • 首页
  • 归档
  • 报告
  • 标签
  • 论文
  • 关于
  • 首页
  • 归档
  • 报告
  • 标签
  • 论文
  • 关于
  • 声码器 | BigVGAN:大规模训练的通用声码器

    BigVGAN: A Universal Neural Vocoder with Large-Scale Training https://arxiv.org/abs/2206.04658 之前现有的 GAN 声码器都是受限制在少量说话人+安静的录音环境下的音频合成,但是对于新的说话人/录音环境的音频,音频合成质量显著下降。所以目前声码器的挑战:在复杂多变的录音环境下...
      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 专题分享 | [slides] 零/少样本音色克隆(二):常用方案综述

      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 声码器 | StyleMelGAN

    StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization https://arxiv.org/abs/2011.01557 基于 GAN 的声码器 (MelGAN 、 Parallel WaveGAN) 等轻量级模型,在合成质量上与真...
      2026-02-07  
    • 论文笔记 
     
    • 音频生成 
    • | 语音合成 
    阅读全文 
  • 声码器 | Multi-Band MelGAN:引入多频带建模

    Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech https://arxiv.org/abs/2005.05106 本文相当于在 MelGAN 的工作基础上结合了 Multi-Band 的方法。Multi-Band 的思想在 Multi-Band WaveRNN ...
      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 声码器 | MelGAN:高质量语音合成声码器

    MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis https://arxiv.org/abs/1910.06711 论文将 GAN 用于合成高质量语音的声码器,主要从模型结构和训练方法上进行了一些工作。MelGAN 声码器的几个特点: 非自回归 完全卷积 参数量和...
      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 声码器 | HiFi-GAN:兼顾效率与音质的声码器

    HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis https://arxiv.org/abs/2010.05646 Hifi-GAN 的提出在 StyleMelGAN 之前,基于 GAN 的声码器和自回归声码器(如 WaveNet) 或 ...
      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 声码器 | Featherwave:多频带的 LPC 声码器

    Featherwave: An efficient high-fidelity neural vocoder with multi-band linear prediction https://arxiv.org/abs/2005.05551 WaveRNN 声码器系列 LPCNet = WaveRNN + (DSP 线性预测) multiband-WaveRNN ...
      2026-02-07  
    • 论文笔记 
     
    • 音频生成 
    • | 语音合成 
    阅读全文 
  • 声码器 | LPCNet:基于线性预测的声码器

    LPCNet: Improving neural speech synthesis through linear prediction https://arxiv.org/abs/1810.11846 LPCNet 是 WaveRNN 的一种变体,将线性预测 LP 与 RNN 网络相结合,显著提高了语音合成的效率。当网络大小相同时,LPCNet能达到明显更高的合成品质...
      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 专题分享 | [slides] 零/少样本音色克隆(一):AdaSpeech 系列

      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 声码器 | WaveRNN:声码器的深度学习思路

    Efficient Neural Audio Synthesis https://arxiv.org/abs/1802.08435 论文摘要序列模型对于数据分布的估计和高质量样本的生成任务,已经能够达到SOTA的水平,但是就采样 的有效性来说仍然有待提高。本文针对TTS中的声码器,提出了一些降低采样的时间、同时保持高质量输出的通用方法。论文的模型的结构是简单的一层RN...
      2026-02-07  
    • 论文笔记 
     
    • 音频生成 
    • | 语音合成 
    阅读全文 
上一页 下一页
© 2020 - 2026    知更鸟
总字数 70.5k
由 Hexo 驱动 | 主题 Keep v3.6.1