语音合成
2026
[7]
- [49] 语音合成 | Qwen3-TTS:当 TTS 重新回到 LLM+RVQ 2026-03-10
- [48] 语音合成 | MOSS-Audio-Tokenizer:大数据驱动的通用音频 Tokenizer 2026-02-28
- [46] 专题分享 | 副语言语音数据集开源工作汇总 2026-02-05
- [47] 社区交流 | 语音模型从设计到使用-通义百聆新年交流会 2026-02-05
- [45] 代码解读 | CosyVoice 代码研读(三):CosyVoice DiT CFM 2026-01-29
- [44] ★ 技术思考 | 端到端语音交互在教育场景落地的思考 2026-01-15
- [43] 语音合成 | 智谱 AI:GLM-TTS 语音合成模型的设计解析 2026-01-05
2025
[10]
- [42] 代码解读 | CosyVoice 代码研读(二):CosyVoice2 LLM + GRPO 2025-12-18
- [41] 代码解读 | CosyVoice 代码研读(一):CosyVoice2 LLM + DPO 2025-11-28
- [40] ★ 专题分享 | [slides] 基于 ARDM(自回归扩散模型)的语音合成 2025-11-03
- [39] ★ 专题分享 | 2025年10月,一文梳理国内外八大厂商 TTS 能力 2025-10-22
- [38] ★ 专题分享 | 语音生成的新范式?连续表征的「自回归 × 扩散」建模 2025-09-20
- [37] ★ 专题分享 | 小红书 FireRedTTS 系列:从基础合成能力到长对话生成的演进 2025-09-14
- [36] 语音合成 | [slides] CosyVoice 1&2:DiffRO 强化学习 2025-08-21
- [34] 语音对话 | Kimi-Audio 端到端语音大模型 2025-06-26
- [35] 专题分享 | [slides] 重新思考 Tortoise-TTS 范式下的语音合成 2025-06-26
- [33] 语音合成 | [slides] MegaTTS3:稀疏对齐思想下的 Flow Matching TTS 2025-04-14
2024
[4]
- [32] 语音合成 | [slides] FireRedTTS:小红书的 TTS 实践 2024-09-25
- [31] 语音合成 | [slides] CosyVoice:通义语音实验室 TTS 新工作 2024-07-09
- [30] 语音合成 | [slides] NaturalSpeech3:离散 Diffusion 视角的 TTS 2024-04-01
- [29] 语音合成 | [slides] MobileSpeech:高效的可用于移动端的 TTS 模型 2024-03-06
2023
[13]
- [28] ★ 专题分享 | [slides] 基于 LLM 的音频生成方案(二) 2023-11-20
- [27] ★ 专题分享 | [slides] 基于 LLM 的音频生成方案(一) 2023-11-13
- [26] 语音合成 | Mega-TTS 2:基于任意长度 prompt 的零样本复刻 2023-09-16
- [25] 语音合成 | Mega-TTS:引入先验偏置的 TTS 方案 2023-08-08
- [24] 语音合成 | [slides] Spear TTS:基于 LLM 的分阶段语音合成 2023-06-01
- [23] 音频生成 | AudioLM:基于语言模型的音频建模 2023-05-20
- [22] 专题分享 | GAN 系列之三:最小二乘 GAN 2023-03-23
- [21] 专题分享 | GAN 系列之二:GAN 的改进 2023-03-21
- [20] 专题分享 | GAN 系列之一:GAN 的基础 2023-03-12
- [19] 音频编解码 | Encodec:用于语音生成的低帧率编解码 2023-02-23
- [18] ★ 音频编解码 | SoundStream:神经网络音频编解码器 2023-01-28
- [17] ★ 专题分享 | [slides] 通过文本编辑语音:基于mask的生成式模型 2023-01-12
- [16] 技术思考 | 2023 年开篇:智能语音指南 2023-01-01
2022
[15]
- [15] 专题分享 | 基于 Adapter 的少样本 TTS 方案 2022-12-22
- [14] 语音合成 | RetrieverTTS:基于 Perceiver 架构的语音合成方案 2022-11-28
- [13] 专题分享 | [slides] 零/少样本音色克隆(三):其他方案 2022-11-13
- [12] 声码器 | Avocodo:进一步缓解伪影问题 2022-10-16
- [10] 声码器 | BigVGAN:大规模训练的通用声码器 2022-09-15
- [11] 专题分享 | [slides] 零/少样本音色克隆(二):常用方案综述 2022-09-15
- [9] 声码器 | StyleMelGAN:声码器模型结构的升级 2022-07-21
- [8] 声码器 | Multi-Band MelGAN:引入多频带建模 2022-07-18
- [7] 声码器 | MelGAN:高质量语音合成声码器 2022-07-09
- [6] 声码器 | HiFi-GAN:兼顾效率与音质的声码器 2022-06-22
- [5] 声码器 | Featherwave:多频带的 LPC 声码器 2022-06-17
- [4] 声码器 | LPCNet:基于线性预测的声码器 2022-06-08
- [3] ★ 专题分享 | [slides] 零/少样本音色克隆(一):AdaSpeech 系列 2022-05-26
- [2] 声码器 | WaveRNN:声码器的深度学习思路 2022-03-22
- [1] 语音合成 | FastSpeech:基于 Transformer 的非自回归 TTS 2022-03-10