博客 | 御青说

目前本网站共收录 69 篇博客和报告 slides，五角星标记的为精选推荐文章。（2022-2024年仍在迁移中）

2026 [16]

[69] ★ 专题分享 | 截止 2026-Q1 业界主流 TTS 模型架构调研 2026-04-18
[68] ★ 专题分享 | [slides] VTP：图像生成 Visual Tokenizer 可扩展预训练 2026-04-11
[67] 语音合成 | OmniVoice：基于离散 Diffusion LLM 的 TTS 2026-04-03
[66] 专题分享 | [slides] LongCat-AudioDiT 基于 Wav-VAE 的高保真语音合成 2026-03-29
[65] 语音合成 | Qwen3-TTS：当 TTS 重新回到 LLM+RVQ 2026-03-10
[64] 语音合成 | MOSS-Audio-Tokenizer：大数据驱动的通用音频 Tokenizer 2026-02-28
[63] ★ 专题分享 | UltraTTSData：语音合成数据分层管理体系 (II) 2026-02-15
[62] 专题分享 | UltraData：大模型时代数据分层管理体系 (I) 2026-02-13
[61] 语音对话 | MiniCPM-o 4.5 全双工全模态大模型-深度思考（Part II） 2026-02-10
[60] ★ 语音对话 | MiniCPM-o 4.5 全双工全模态大模型-技术分享（Part I） 2026-02-08
[58] 专题分享 | 副语言语音数据集开源工作汇总 2026-02-05
[59] 社区交流 | 语音模型从设计到使用-通义百聆新年交流会 2026-02-05
[57] 代码解读 | CosyVoice 代码研读（三）：CosyVoice DiT CFM 2026-01-29
[56] ★ 技术思考 | 端到端语音交互在教育场景落地的思考 2026-01-15
[55] 专题分享 | ICASSP 2026 HumDial 类人语音对话挑战赛 2026-01-10
[54] 语音合成 | 智谱 AI：GLM-TTS 语音合成模型的设计解析 2026-01-05

2025 [11]

[53] 语音对话 | OSUM-EChat：理解驱动的共情语音对话模型 2025-12-28
[52] 代码解读 | CosyVoice 代码研读（二）：CosyVoice2 LLM + GRPO 2025-12-18
[51] 代码解读 | CosyVoice 代码研读（一）：CosyVoice2 LLM + DPO 2025-11-28
[50] ★ 专题分享 | [slides] 基于 ARDM（自回归扩散模型）的语音合成 2025-11-03
[49] ★ 专题分享 | 2025年10月，一文梳理国内外八大厂商 TTS 能力 2025-10-22
[48] ★ 专题分享 | 语音生成的新范式？连续表征的「自回归 × 扩散」建模 2025-09-20
[47] ★ 专题分享 | 小红书 FireRedTTS 系列：从基础合成能力到长对话生成的演进 2025-09-14
[46] 语音合成 | [slides] CosyVoice 1&2：DiffRO 强化学习 2025-08-21
[44] 专题分享 | [slides] 重新思考 Tortoise-TTS 范式下的语音合成 2025-06-26
[45] 语音对话 | Kimi-Audio 端到端语音大模型 2025-06-26
[43] 语音合成 | [slides] MegaTTS3：稀疏对齐思想下的 Flow Matching TTS 2025-04-14

2024 [5]

[42] 语音合成 | [slides] FireRedTTS：小红书的 TTS 实践 2024-09-25
[41] ★ 语音对话 | [slides] Moshi：原生端到端语音对话的新探索 2024-09-23
[40] 语音合成 | [slides] CosyVoice：通义语音实验室 TTS 新工作 2024-07-09
[39] 语音合成 | [slides] NaturalSpeech3：离散 Diffusion 视角的 TTS 2024-04-01
[38] 语音合成 | [slides] MobileSpeech：高效的可用于移动端的 TTS 模型 2024-03-06

2023 [14]

[37] ★ 专题分享 | [slides] 基于 LLM 的音频生成方案（二） 2023-11-20
[36] ★ 专题分享 | [slides] 基于 LLM 的音频生成方案（一） 2023-11-13
[35] 语音合成 | Mega-TTS 2：基于任意长度 prompt 的零样本复刻 2023-09-16
[34] 语音合成 | Mega-TTS：引入先验偏置的 TTS 方案 2023-08-08
[33] 语音合成 | [slides] Spear TTS：基于 LLM 的分阶段语音合成 2023-06-01
[32] 音频生成 | AudioLM：基于语言模型的音频建模 2023-05-20
[31] 专题分享 | GAN 系列之三：最小二乘 GAN 2023-03-23
[30] 专题分享 | GAN 系列之二：GAN 的改进 2023-03-21
[29] 专题分享 | GAN 系列之一：GAN 的基础 2023-03-12
[28] 音频编解码 | Encodec：用于语音生成的低帧率编解码 2023-02-23
[27] ★ 音频编解码 | SoundStream：神经网络音频编解码器 2023-01-28
[25] 专题分享 | 开源语音数据库信息汇总 2023-01-12
[26] ★ 专题分享 | [slides] 通过文本编辑语音：基于mask的生成式模型 2023-01-12
[24] 技术思考 | 2023 年开篇：智能语音指南 2023-01-01

2022 [16]

[23] 专题分享 | 基于 Adapter 的少样本 TTS 方案 2022-12-22
[22] 语音合成 | RetrieverTTS：基于 Perceiver 架构的语音合成方案 2022-11-28
[21] 语音识别 | Squeezeformer：高效的语音识别方案 2022-11-16
[20] 专题分享 | [slides] 零/少样本音色克隆（三）：其他方案 2022-11-13
[19] 声码器 | Avocodo：进一步缓解伪影问题 2022-10-16
[17] 声码器 | BigVGAN：大规模训练的通用声码器 2022-09-15
[18] 专题分享 | [slides] 零/少样本音色克隆（二）：常用方案综述 2022-09-15
[16] 声码器 | StyleMelGAN：声码器模型结构的升级 2022-07-21
[15] 声码器 | Multi-Band MelGAN：引入多频带建模 2022-07-18
[14] 声码器 | MelGAN：高质量语音合成声码器 2022-07-09
[13] 声码器 | HiFi-GAN：兼顾效率与音质的声码器 2022-06-22
[12] 声码器 | Featherwave：多频带的 LPC 声码器 2022-06-17
[11] 声码器 | LPCNet：基于线性预测的声码器 2022-06-08
[10] ★ 专题分享 | [slides] 零/少样本音色克隆（一）：AdaSpeech 系列 2022-05-26
[9] 声码器 | WaveRNN：声码器的深度学习思路 2022-03-22
[8] 语音合成 | FastSpeech：基于 Transformer 的非自回归 TTS 2022-03-10

2021 [2]

[7] ★ 专题分享 | [slides] 基于 Lattice 的 ASR 重打分：从 WFST 到 Transformer 2021-07-01
[6] 语音表征 | CPC：基于对比预训练的语音表征 2021-03-16

2020 [2]

[5] ★ 专题分享 | [slides] 级联（Hybrid）语音合成概述 2020-09-17
[4] 专题分享 | [slides] 语音识别技术分享(本科/硕士期间工作) 2020-07-20

2019 [3]

[3] 专题分享 | [ICASSP-preprint] 基于 X-vector 的声学模型说话人自适应 2019-12-12
[2] 专题分享 | [OpenSAT Workshop] NIST OpenSAT 2019 THU-EE 系统报告 2019-06-06
[1] 专题分享 | [IALP-论文] 低资源语音识别的语言模型通用优化流程 2019-03-03