御青说

专题分享 | 2025年10月，一文梳理国内外八大厂商 TTS 能力

今天（2025年10月16日），字节跳动发布了新版的豆包2.0语音合成能力，引发广泛讨论，效果确实惊艳。火山引擎发布新版语音合成系列模型：豆包语音合成模型2.0（Doubao-Seed-TTS 2.0）和豆包声音复刻模型2.0（Doubao-Seed-ICL 2.0），两款模型展现出更强的情感表现力、更精准的指令遵循能力，还能准确朗读复杂公式，还拓展了上下文推理和自然...
2025-10-22
- 技术分享
- 语音合成
阅读全文
专题分享 | 语音生成的新范式？连续表征的「自回归 × 扩散」建模

TL;DR 太长不看版语音合成目前主流的路线是「离散语音 tokenizer + LLM」，典型代表有 VALL-E、Tortoise-TTS、Seed-TTS、CosyVoice、Minimax-Speech、Index-TTS、FireRed-TTS 等。但近一年兴起了一股新的技术趋势：直接在连续表征（continuous token）空间建模，结合自回归 + 扩...
2025-09-20
- 技术分享
- 语音合成
- | TTS 大模型
- | 连续表征
阅读全文
专题分享 | 小红书 FireRedTTS 系列：从基础合成能力到长对话生成的演进

过去两年，TTS（语音合成）模型的演化速度令人惊叹。从“能说清楚”到“说得自然”，再到如今“实时流式”“对话级拟人能力”，背后不仅体现了大模型方案与语音合成的成功结合，还有整个数据清洗、表征学习和建模范式的革新。小红书智创音频团队的 FireRedTTS 系列正是其中比较具有代表性的工业级框架，从 FireRedTTS 最初的基础模型出发，一步步扩展到 FireR...
2025-09-14
- 技术分享
- 语音合成
- | TTS 大模型
- | 语音 tokenizer
阅读全文
语音合成 | [slides] CosyVoice 1&2：DiffRO 强化学习
2025-08-21
- 论文笔记
- 语音合成
- | TTS 大模型
阅读全文
专题分享 | [slides] 重新思考 Tortoise-TTS 范式下的语音合成
2025-06-26
- 技术分享
- 语音合成
- | TTS 大模型
阅读全文
语音对话 | Kimi-Audio 端到端语音大模型

论文题目：Kimi-Audio Technical Report 论文链接：https://arxiv.org/pdf/2504.18425 开源链接：https://github.com/MoonshotAI/Kimi-Audio base 模型：https://huggingface.co/moonshotai/Kimi-Audio-7B Instruct 模型：...
2025-06-26
- 技术分享
- 语音合成
- | TTS 大模型
阅读全文
语音合成 | [slides] MegaTTS3：稀疏对齐思想下的 Flow Matching TTS
2025-04-14
- 论文笔记
- 语音合成
- | TTS 大模型
阅读全文
语音合成 | [slides] FireRedTTS：小红书的 TTS 实践
2024-09-25
- 论文笔记
- 语音合成
- | TTS 大模型
- | 语音 tokenizer
阅读全文
语音对话 | [slides] Moshi：原生端到端语音对话的新探索
2024-09-23
- 论文笔记
- 语音对话
- | 全双工
阅读全文
语音合成 | [slides] CosyVoice：通义语音实验室 TTS 新工作
2024-07-09
- 论文笔记
- 语音合成
- | TTS 大模型
- | 语音 tokenizer
阅读全文