御青说
  • 首页
  • 博客
  • 报告
  • 标签
  • 论文
  • 关于
  • 首页
  • 博客
  • 报告
  • 标签
  • 论文
  • 关于
  • 声码器 | Multi-Band MelGAN:引入多频带建模

    Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech https://arxiv.org/abs/2005.05106 本文相当于在 MelGAN 的工作基础上结合了 Multi-Band 的方法。Multi-Band 的思想在 Multi-Band WaveRNN ...
      2022-07-18  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 声码器 | MelGAN:高质量语音合成声码器

    MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis https://arxiv.org/abs/1910.06711 论文将 GAN 用于合成高质量语音的声码器,主要从模型结构和训练方法上进行了一些工作。MelGAN 声码器的几个特点: 非自回归 完全卷积 参数量和...
      2022-07-09  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 声码器 | HiFi-GAN:兼顾效率与音质的声码器

    HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis https://arxiv.org/abs/2010.05646 Hifi-GAN 的提出在 StyleMelGAN 之前,基于 GAN 的声码器和自回归声码器(如 WaveNet) 或 ...
      2022-06-22  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 声码器 | Featherwave:多频带的 LPC 声码器

    Featherwave: An efficient high-fidelity neural vocoder with multi-band linear prediction https://arxiv.org/abs/2005.05551 WaveRNN 声码器系列 LPCNet = WaveRNN + (DSP 线性预测) multiband-WaveRNN ...
      2022-06-17  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 声码器 | LPCNet:基于线性预测的声码器

    LPCNet: Improving neural speech synthesis through linear prediction https://arxiv.org/abs/1810.11846 LPCNet 是 WaveRNN 的一种变体,将线性预测 LP 与 RNN 网络相结合,显著提高了语音合成的效率。当网络大小相同时,LPCNet能达到明显更高的合成品质...
      2022-06-08  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    阅读全文 
  • 专题分享 | [slides] 零/少样本音色克隆(一):AdaSpeech 系列

      2022-05-26  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 声码器 | WaveRNN:声码器的深度学习思路

    Efficient Neural Audio Synthesis https://arxiv.org/abs/1802.08435 论文摘要序列模型对于数据分布的估计和高质量样本的生成任务,已经能够达到SOTA的水平,但是就采样 的有效性来说仍然有待提高。本文针对TTS中的声码器,提出了一些降低采样的时间、同时保持高质量输出的通用方法。论文的模型的结构是简单的一层RN...
      2022-03-22  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
  • 语音合成 | FastSpeech:基于 Transformer 的非自回归 TTS

    论文标题:FastSpeech: Fast, Robust and Controllable Text to Speech论文链接:https://arxiv.org/abs/1905.09263发表会议:NIPS 2019核心贡献:提出基于Transformer的非自回归前馈网络,实现梅尔谱特征的并行化生成;设计音素时长预测模块与长度调节器,解决自回归TTS推理慢、鲁棒...
      2022-03-10  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
  • 专题分享 | [slides] 基于 Lattice 的 ASR 重打分:从 WFST 到 Transformer

      2021-07-01  
    • 技术分享 
     
    • 语音识别 
    阅读全文 
  • 语音表征 | CPC:基于对比预训练的语音表征

    CPC: Representation Learning with Contrastive Predictive Coding https://arxiv.org/abs/1807.03748 参考资料: Code (PyTorch): https://github.com/jefflai108/Contrastive-Predictive-Coding-PyTor...
      2021-03-16  
    • 论文笔记 
     
    • 语音识别 
    • | 语音表征 
    阅读全文 
上一页 下一页
© 2019 - 2026    白御青
总字数 161.4k 总访问量 
Hexo / Keep