分类: 论文笔记 | 御青说

论文笔记

2026 [3]

[30] 语音合成 | Qwen3-TTS：当 TTS 重新回到 LLM+RVQ 2026-03-10
[29] 语音合成 | MOSS-Audio-Tokenizer：大数据驱动的通用音频 Tokenizer 2026-02-28
[28] 语音合成 | 智谱 AI：GLM-TTS 语音合成模型的设计解析 2026-01-05

2025 [3]

[27] 语音对话 | OSUM-EChat：理解驱动的共情语音对话模型 2025-12-28
[26] 语音合成 | [slides] CosyVoice 1&2：DiffRO 强化学习 2025-08-21
[25] 语音合成 | [slides] MegaTTS3：稀疏对齐思想下的 Flow Matching TTS 2025-04-14

2024 [5]

[24] 语音合成 | [slides] FireRedTTS：小红书的 TTS 实践 2024-09-25
[23] ★ 语音对话 | [slides] Moshi：原生端到端语音对话的新探索 2024-09-23
[22] 语音合成 | [slides] CosyVoice：通义语音实验室 TTS 新工作 2024-07-09
[21] 语音合成 | [slides] NaturalSpeech3：离散 Diffusion 视角的 TTS 2024-04-01
[20] 语音合成 | [slides] MobileSpeech：高效的可用于移动端的 TTS 模型 2024-03-06

2023 [6]

[19] 语音合成 | Mega-TTS 2：基于任意长度 prompt 的零样本复刻 2023-09-16
[18] 语音合成 | Mega-TTS：引入先验偏置的 TTS 方案 2023-08-08
[17] 语音合成 | [slides] Spear TTS：基于 LLM 的分阶段语音合成 2023-06-01
[16] 音频生成 | AudioLM：基于语言模型的音频建模 2023-05-20
[15] 音频编解码 | Encodec：用于语音生成的低帧率编解码 2023-02-23
[14] ★ 音频编解码 | SoundStream：神经网络音频编解码器 2023-01-28

2022 [12]

[13] 语音合成 | RetrieverTTS：基于 Perceiver 架构的语音合成方案 2022-11-28
[12] 语音识别 | Squeezeformer：高效的语音识别方案 2022-11-16
[11] 声码器 | Avocodo：进一步缓解伪影问题 2022-10-16
[10] 声码器 | BigVGAN：大规模训练的通用声码器 2022-09-15
[9] 声码器 | StyleMelGAN：声码器模型结构的升级 2022-07-21
[8] 声码器 | Multi-Band MelGAN：引入多频带建模 2022-07-18
[7] 声码器 | MelGAN：高质量语音合成声码器 2022-07-09
[6] 声码器 | HiFi-GAN：兼顾效率与音质的声码器 2022-06-22
[5] 声码器 | Featherwave：多频带的 LPC 声码器 2022-06-17
[4] 声码器 | LPCNet：基于线性预测的声码器 2022-06-08
[3] 声码器 | WaveRNN：声码器的深度学习思路 2022-03-22
[2] 语音合成 | FastSpeech：基于 Transformer 的非自回归 TTS 2022-03-10

2021 [1]

[1] 语音表征 | CPC：基于对比预训练的语音表征 2021-03-16