论文笔记
2025
[2]
- 语音合成 | [slides] CosyVoice 1&2:DiffRO 强化学习 2025-08-21
- 语音合成 | [slides] MegaTTS3:稀疏对齐思想下的 Flow Matching TTS 2025-04-14
2024
[5]
- 语音合成 | [slides] FireRedTTS:小红书的 TTS 实践 2024-09-25
- 语音对话 | [slides] Moshi:原生端到端语音对话的新探索 2024-09-23
- 语音合成 | [slides] CosyVoice:通义语音实验室 TTS 新工作 2024-07-09
- 语音合成 | [slides] NaturalSpeech3:离散 Diffusion 视角的 TTS 2024-04-01
- 语音合成 | [slides] MobileSpeech:高效的可用于移动端的 TTS 模型 2024-03-06
2023
[6]
- 语音合成 | Mega-TTS 2:基于任意长度 prompt 的零样本复刻 2023-09-16
- 语音合成 | Mega-TTS:引入先验偏置的 TTS 方案 2023-08-08
- 语音合成 | [slides] Spear TTS:基于 LLM 的分阶段语音合成 2023-06-01
- 音频生成 | AudioLM:基于语言模型的音频建模 2023-05-20
- 音频编解码 | Encodec:用于语音生成的低帧率编解码 2023-02-23
- 音频编解码 | SoundStream:神经网络音频编解码器 2023-01-28
2022
[11]
- 语音合成 | RetrieverTTS:基于 Perceiver 架构的语音合成方案 2022-11-28
- 语音识别 | Squeezeformer:高效的语音识别方案 2022-11-16
- 声码器 | Avocodo:进一步缓解伪影问题 2022-10-16
- 声码器 | BigVGAN:大规模训练的通用声码器 2022-09-15
- 声码器 | StyleMelGAN 2022-07-21
- 声码器 | Multi-Band MelGAN:引入多频带建模 2022-07-18
- 声码器 | MelGAN:高质量语音合成声码器 2022-07-09
- 声码器 | HiFi-GAN:兼顾效率与音质的声码器 2022-06-22
- 声码器 | Featherwave:多频带的 LPC 声码器 2022-06-17
- 声码器 | LPCNet:基于线性预测的声码器 2022-06-08
- 声码器 | WaveRNN:声码器的深度学习思路 2022-03-22
2021
[1]
- 语音表征 | CPC:基于对比预训练的语音表征 2021-03-16