本报告对当前主流 TTS 大模型的技术方案进行系统化分类、架构解析和横向对比,覆盖从离散 token 到连续表征、从自回归到非自回归的主要技术路线。
一、技术方案总览与分类框架
1.1 分类维度
TTS 大模型的核心技术差异体现在以下四个维度:
| # | 维度 | 可选项 |
|---|---|---|
| 1 | 生成范式 | 自回归(AR)/ 非自回归(NAR)/ 混合(AR+NAR) |
| 2 | 语音表征 | 离散 token(RVQ / FSQ / 单码本)/ 连续特征(Mel / VAE latent) |
| 3 | 声学建模器 | AR LLM / Dual-AR / DiT(Flow Matching) / Diffusion LLM |
| 4 | 系统结构 | 级联(多阶段)/ 端到端(单阶段) |
1.2 五大主流技术路线
1 | ┌──────────────────────────────────────────┐ |
注:DiT-AR 类别涵盖了多种子类型:
- 逐 patch/帧 Diffusion AR(DiTAR, MeLA-TTS, VibeVoice…)
- 层次化半离散 AR(VoxCPM)
它们的共同特征是在连续(或半连续)表征空间上进行自回归建模,用 Diffusion / Flow Matching 作为每步的生成器
二、方案一:LLM + DiT 级联架构
2.1 核心思想
将 TTS 分解为两个阶段,两个阶段独立训练、级联推理
- 语义建模阶段:LLM 从文本自回归生成离散语义 token
- 声学建模阶段:DiT / Flow Matching 模型将语义 token 转换为连续声学特征(Mel 或 VAE latent),再经 vocoder (广义) 生成波形
2.2 典型系统详解
Tortoise-TTS(James Betker,2023.05)— 先驱工作
多阶段 AR + DDPM 架构:
1 | Text + Reference Audio |
关键技术:
- AR + Diffusion 双阶段范式:将图像生成领域的 AR Transformer + DDPM 组合引入 TTS,是”LLM + DiT 级联”的早期形态
- CLVP(Contrastive Language-Voice Pre-training):对多个 AR 候选做 rerank,提升生成质量
- Mel 频谱作为中间表征:提供 256x 压缩率,在计算效率和信息保留间取得平衡
参数规模:~1B(含 AR + Diffusion + Vocoder)
历史意义:首个将 LLM scaling 思想系统性应用于 TTS 的开源工作,”Better speech synthesis through scaling” 的理念深刻影响了后续所有 TTS 大模型
CosyVoice 系列(阿里通义实验室,2024.07 → 2024.12 → 2025.05)
CosyVoice 是 LLM+DiT 级联方案的典型代表,经历了三代快速迭代,清晰展示了该技术路线的演进脉络:
CosyVoice 1(2024.07):
1 | Text |
- Supervised Semantic Token:创新性地使用多语言 ASR 模型(Whisper)编码器 + VQ 提取语义 token,而非无监督 SSL token,提供更强的语义对齐
- 奠定了”LLM → FM → Vocoder”三级 pipeline 的基础架构
CosyVoice 2(2024.12):
1 | Text |
相比 v1 的关键升级:
- FSQ 替代 VQ:Finite Scalar Quantization 实现 100% 码本利用率,解决 token 坍缩
- 帧率减半:语义 token 从 50Hz 降至 25Hz,序列长度减半
- Chunk-Aware Causal Flow Matching:支持流式+非流式统一模型
- 直接复用预训练 LLM:使用 Qwen2.5-0.5B 作为 backbone
参数规模:LLM 0.5B,总系统约 1B
CosyVoice 3(2025.05):
架构延续 v2 的 LLM + Chunk-Aware FM 设计,核心升级在数据规模和后训练:
- 数据 Scaling:训练数据从 17 万小时扩至 100 万小时,覆盖 9 种语言 + 18 种中文方言
- 模型 Scaling:参数从 0.5B 扩至 1.5B
- Tokenizer 升级:新增多任务监督训练(ASR + 情感识别 + 语种识别 + 音频事件检测 + 说话人分析),显著提升韵律自然度
- 可微分 Reward Model:提出适用于 LLM-based TTS 的通用后训练 reward model
参数规模:1.5B
CosyVoice 系列演进总结:
| 版本 | 时间 | Tokenizer | LLM | 声学模型 | 训练数据 | 核心升级 |
|---|---|---|---|---|---|---|
| v1 | 2024.07 | Whisper+VQ, 50Hz | LLM | Conditional FM | ~17万 hrs | 奠定 LLM+FM 范式 |
| v2 | 2024.12 | FSQ, 25Hz | Qwen2.5-0.5B | Chunk-Aware Causal FM | ~17万 hrs | FSQ + 流式 + 帧率减半 |
| v3 | 2025.05 | 多任务监督, 25Hz | 1.5B | Chunk-Aware Causal FM | 100万 hrs | 数据/模型 scaling + RL |
Seed-TTS(字节跳动,2024.06)
双变体设计:
1 | [AR 变体] |
关键技术:
- AR + DiT 级联(AR 变体):LLM 自回归生成语音 token → DiT 声学模型以 coarse-to-fine 方式生成连续表征 → Vocoder
- 纯 DiT 端到端(DiT 变体):完全非自回归 diffusion 架构,不依赖预估音素时长,直接端到端生成,在 speech editing 上更具优势
- RL 后训练:增强鲁棒性、说话人相似度和可控性
- 零样本 in-context learning:支持跨语言生成和说话人微调
意义:两个变体(AR 级联 vs NAR DiT)性能可比的结论,为业界提供了重要的架构选择参考
IndexTTS 2 / 2.5(Index Team,2025)
LLM + Zipformer 架构:
1 | Text + Reference |
关键技术:
- T2S(Text-to-Semantic):Transformer LM 自回归生成语义 token
- S2M(Semantic-to-Mel):v2 使用 U-DiT backbone,v2.5 升级为 Zipformer,实现参数缩减和更快的 Mel 生成
- 语义 Codec 压缩:v2.5 将帧率从 50Hz 降至 25Hz,序列长度减半
- GRPO 后训练:在 T2S 阶段引入 Group Relative Policy Optimization,提升发音准确率和自然度
- 跨语言建模:提出边界感知对齐、token 级拼接、指令引导生成三种策略,支持中英日西四语
性能:v2.5 RTF 相比 v2 提升 2.28 倍,WER 和 SIM 保持可比
特色:零样本情感 TTS,支持情感-说话人解耦和跨语言情感韵律复制
FireRedTTS / FireRedTTS-1S(小红书 FireRed Team,2024.09 / 2025.03)
LLM + 双模式声学解码架构:
1 | Text + Reference |
关键技术:
- 语义感知 Speech Tokenizer:压缩语音为包含充分语义信息的离散 token
- LM-based AR 解码:根据 prompt 文本和音频自回归生成语义 token
- Flow Matching 解码:按 chunk 生成,RTF = 0.1,延迟 300ms,音质更优
- Multi-Stream LM 解码(LLM+RVQ 模式):逐帧自回归 + delay pattern,RTF = 0.3,延迟 150ms,延迟更低
注:FireRedTTS 的 Multi-Stream LM 解码模式本质上属于方案二(LLM+RVQ)的技术路线,该系统横跨方案一和方案二两种架构。
MiniMax-Speech(MiniMax,2025.05)
AR Transformer + Flow-VAE + Learnable Speaker Encoder 架构:
1 | Reference Audio → [Learnable Speaker Encoder] → Timbre Embedding |
关键技术:
- Learnable Speaker Encoder:从参考音频中提取音色特征,无需转录文本,实现零样本声音克隆
- Flow-VAE:RealNVP 架构,包含编码器(18M)+ 解码器(41M)+ 多分辨率判别器(MPD+MSD+MRD),增强整体音质
- AR 建模优势:论文明确指出 AR 模型在韵律、语调、自然度上优于 NAR diffusion 模型,且无需显式音素时长对齐
- 可扩展性:通过 LoRA 实现情感控制、文本描述生成声音、专业声音克隆等下游任务,无需修改基座模型
总参数规模:~665M(含 AR Transformer 441M + Flow Matching 112M + Flow-VAE Encoder 18M + Flow-VAE Decoder 41M + Learnable Speaker Encoder 及其他辅助模块约 53M)
GLM-TTS(智谱 AI / 清华大学,2025.12)
关键技术:
- 优化的 Speech Tokenizer:基于 GLM-4-Voice 的 Whisper-VQ tokenizer 改进,帧率从 12.5Hz 增加至 25Hz(时间分辨率更高,但序列长度翻倍),词表从 16K 扩至 32K,新增 Pitch Estimator (PE) 模块改善韵律建模,采用非因果架构提升 ASR 和音高估计精度
- GRPO 多奖励 RL 对齐:融合四维奖励信号(CER 发音准确性 + SIM 音色相似度 + Emotion 情感表达 + Laughter 副语言自然度),配合动态采样(自动触发重采样避免梯度消失)和自适应梯度裁剪(ε_high > ε_low 鼓励低概率 token 生成)
- LoRA 高效声音定制:仅微调约 15% 核心参数,1 小时单说话人数据即可达到全参数微调的声音相似度和自然度,训练成本降低 80%
- Phoneme-in 混合输入:文本+音素混合输入方案,解决多音字和生僻字发音问题(PER 从 13.23% 降至 5.14%),无需牺牲韵律自然度
- Vocos2D Vocoder:将 1D 卷积替换为 2D 卷积 + DiT 式残差连接,改善频率子带建模,混合高质量歌声数据扩展音域
参数规模:1.5B
训练数据:仅 10 万小时(远低于 CosyVoice 3 的 100 万小时和 FireRedTTS-2 的 110 万小时)
性能:
- Seed-TTS-eval test-zh:CER = 1.03%,SIM = 76.1(RL 后 CER = 0.89%,SIM = 76.4)
- 在 10 万小时数据量下达到与百万小时级系统可比的性能,数据效率极高
意义:
- 在有限数据规模下通过 GRPO RL 对齐和精细化 tokenizer 优化达到 SOTA 级性能,是 LLM+DiT 级联方案中数据效率最高的代表之一
- Phoneme-in 方案为中文多音字精准控制提供了实用的工业级解决方案
2.3 LLM + DiT 级联方案的特点总结
| 维度 | 特点 |
|---|---|
| 优势 | 各模块独立优化、可复用预训练 LLM、语义-声学解耦清晰、稳定性/可控性好 |
| 劣势 | 级联 error propagation、两阶段训练复杂度、推理延迟较高 |
| 语音表征 | 通常为离散语义 token + 连续 Mel(或 VAE latent) |
| 流式能力 | 取决于 DiT 模块设计(CosyVoice 2 的 Chunk-Aware 设计支持流式) |
| 典型帧率 | 语义 token 25 |
三、方案二:LLM + RVQ / Dual-AR 架构
3.1 核心思想
使用 LLM 直接建模 多层 RVQ(Residual Vector Quantization)码本 的离散 token,通过巧妙的架构设计处理 RVQ 多码本带来的序列长度膨胀问题。
核心挑战:如果 RVQ 有 N 层码本、帧率为 F Hz,则每秒产生 N×F 个 token,序列长度爆炸。
主流做法:Dual-AR(快慢双轨)、Delay Pattern(延迟调度)、Grouped Code Modeling(分组建模)等。
3.2 典型系统详解
FishAudio S2(Fish Audio,2026.03)
Dual-AR 架构:
1 | Text + Prompt |
关键技术:
- 非对称 Dual-AR:Slow AR(4B)沿时间轴预测主语义码本,Fast AR(400M)在每个时间步生成剩余 9 层残差码本
- Multi-Reward RL 对齐:使用 GRPO(Group Relative Policy Optimization)变体,联合优化语义准确性、声学质量、说话人相似度
- 数据 pipeline 与 RL 共享模型:数据质量评估模型直接复用为 RL reward signal,消除预训练和后训练之间的分布偏移
- 10 层 RVQ @ ~21Hz
参数规模:Slow AR 4B + Fast AR 400M
性能指标:
- RTF = 0.195
- 首包延迟 < 100ms
- 训练数据 > 1000 万小时,覆盖 50-100 种语言
MOSS-TTS(OpenMOSS / MOSI.AI,2025)
双架构变体:
MossTTSDelay(生产级):
1 | Text |
- 单一 Transformer 主干(Qwen-8B 初始化)
- 33 个 LM Head(1 主 + 32 RVQ head)并行预测
- Delay Pattern 调度:将 RVQ 各层在时间域上错位,所有码本层在单次前向中同步预测
- 优化推理速度和长上下文稳定性
MossTTSLocal(层次化):
1 | Text |
- Global Transformer 负责时间维度,Local Transformer 负责码本深度维度
- 支持可变比特率:通过渐进式序列 dropout,推理时可在 K=4(低比特率/快速)到 K=32(最大保真度)之间动态选择
共同规格:
- **Cat (Causal Audio Tokenizer)**:24kHz / 12.5Hz 帧率 / 32 层 RVQ(10-bit 每层)
- 极低帧率(12.5Hz)是关键设计决策,每秒仅 12.5 × 32 = 400 个 token(delay pattern 下有效长度更短)
Qwen3-TTS(阿里通义,2026.01)
双轨 Tokenizer + 统一 LM 架构:
1 | Text |
双 Tokenizer 设计:
- Qwen-TTS-Tokenizer-25Hz:单码本,语义导向,兼容 Qwen-Audio,配合 block-wise DiT 做流式波形重建
- Qwen-TTS-Tokenizer-12Hz:12.5Hz / 16 层多码本,轻量因果 ConvNet,首包延迟仅 97ms
关键技术:
- Dual-Track 混合流式生成:单模型支持流式和非流式,处理单个字符即可输出首个音频包
- 完全绕过 LM+DiT 级联的信息瓶颈和级联误差
- 训练数据 > 500 万小时,覆盖 10 种语言
3.3 LLM + RVQ / Dual-AR 方案的特点总结
| 维度 | 特点 |
|---|---|
| 优势 | 端到端方案更简洁(LLM 直接到波形)、天然适合 LLM 生态、流式友好、RL 对齐方案成熟 |
| 劣势 | RVQ 多码本序列长度膨胀、离散量化信息损失、码本层间依赖建模难度大 |
| 核心挑战 | 如何高效处理多码本序列——Dual-AR / Delay Pattern 各有 trade-off |
| 流式能力 | 天然支持(自回归逐 token 生成) |
| 典型配置 | 8-32 层 RVQ,帧率 12.5~50Hz |
3.4 多码本序列处理策略对比
| 策略 | 代表系统 | 原理 | 优势 | 劣势 |
|---|---|---|---|---|
| Dual-AR | FishAudio S2, MossTTSLocal | Slow AR 走时间轴 + Fast AR 走深度轴 | 解耦清晰、各轴独立优化 | 两个模型参数量大、需协调训练 |
| Delay Pattern | MossTTSDelay | 各 RVQ 层时间域错位,单次前向并行预测 | 单模型、推理快 | 需要大模型承载所有码本的建模 |
四、方案三:DiT-AR 自回归 + 连续表征建模
4.1 核心思想
摒弃离散 token,直接在连续表征空间(Mel / VAE latent)上进行自回归生成。
每一步用 Diffusion Transformer 生成下一个 patch / frame 的连续向量,而非预测离散 token ID。
核心优势:避免量化信息损失,保留完整声学细节
核心挑战:连续空间的自回归建模比离散空间困难很多(分布估计、误差累积)。
4.2 典型系统详解
DiTAR(字节跳动,2025.02,ICML 2025)
Patch-based AR + Local DiT 架构:
1 | Text + Prompt |
关键技术:
- Divide-and-Conquer 策略:LM 处理聚合后的 patch embedding(粗粒度时间建模),LocDiT 在 LM 输出条件下生成下一个 patch 的细粒度连续表征
- Temperature 重定义:推理时 temperature 定义为反向 diffusion ODE 中引入噪声的时间点,平衡多样性和确定性
- 优秀的 Scaling 特性:实验证明模型规模增大时性能稳定提升
- 相比 ARDiT / Transfusion 等前作,显著降低计算开销
意义:是 DiT-AR 这一技术路线的标志性工作,证明了自回归连续表征建模在 TTS 上的可行性和优越性
MeLA-TTS(ICASSP 2026 投稿)
Joint Transformer-Diffusion 端到端架构:
1 | Text + Speaker |
关键技术:
- 直接自回归生成连续 Mel 帧:无需 speech tokenizer,无需多阶段 pipeline
- 表征对齐模块:训练时将 Transformer decoder 的输出表征与预训练 ASR encoder 的语义 embedding 对齐,加速训练收敛、增强跨模态一致性
- 支持离线和流式两种合成模式
- 零样本声音克隆能力
意义:证明了在 Mel 帧级别做自回归连续生成的可行性,是对离散 token 范式的直接挑战
VoxCPM(OpenBMB / 清华,2025.09)
Tokenizer-Free 端到端 Diffusion AR 架构:
1 | Text |
关键技术:
- 层次化语义-声学建模:TSLM 生成语义韵律规划,RALM 恢复声学残差
- 可微分量化瓶颈(FSQ):创建”半离散”残差表征,在语义和声学成分之间产生自然分工,克服纯离散方法的”量化天花板”,同时比纯连续方法更稳定
- 端到端 Diffusion 训练目标:三个模块联合训练
- 训练数据 180 万+ 小时中英双语
参数规模:VoxCPM-0.5B
性能:RTF = 0.17(消费级 GPU),低延迟流式支持
VibeVoice(Microsoft,2025.08)
Next-Token Diffusion 架构:
1 | Text + Dialogue Context |
关键技术:
- 7.5Hz 超低帧率 Continuous Speech Tokenizer:双分支(声学+语义),数据压缩率达 Encodec 的 80 倍
- Next-Token Diffusion:在 LLM 的每个 token 位置接一个 Diffusion Head,自回归生成连续 latent 向量
- 超长上下文:64K 上下文窗口,单次生成最长 90 分钟语音
- 多说话人支持:最多 4 个说话人,自然轮转和说话人一致性
意义:展示了 DiT-AR 方案在长文本、多说话人场景下的实用性
Ming-Omni-TTS(蚂蚁 inclusionAI,2026.02)
关键技术:
- 统一连续 Audio Tokenizer(Ming-Unitok-Audio):12.5Hz 连续 VAE tokenizer,将语音、音乐、环境音统一编码到同一连续 latent 空间,同时保留语义和声学特征,支持高质量重建
- Patch-by-Patch 压缩策略:将 LLM 推理帧率从 12.5Hz 进一步压缩至 3.1Hz(每 patch 聚合 4 帧),大幅降低 LLM 自回归序列长度和推理延迟,使长音频(播客级别)生成成为可能
- AR LLM + DiT Head 双阶段生成:LLM 自回归生成粗粒度 patch embedding,DiT Head 基于 flow matching 将 patch 展开为细粒度连续 latent,再由 VAE 解码为波形——业界首个以 AR 模型在单通道内联合生成语音、环境音和音乐的系统
- 精细可控性:支持语速/音高/音量/情感/方言的指令控制(粤语方言准确率 93%,情感控制准确率 46.7%,超越 CosyVoice 3);支持自然语言描述的零样本声音设计,InstructTTS-Eval-ZH 上与 Qwen3-TTS 持平
- MoE / Dense 双变体:16.8B-A3B MoE 版本(激活参数 3B)和 0.5B Dense 轻量版本,满足不同部署需求
参数规模:16.8B(MoE,激活 3B)/ 0.5B(Dense)
性能:
- Seed-TTS-eval test-zh(零样本克隆):WER = 0.83%,超越 SeedTTS 和 GLM-TTS
- 方言生成:WSYue-TTS-Eval 96%,WSC-TTS-Eval 86%
- 情感表达:CV3-Eval 平均 76.7%,中性→情感迁移 46.7%(SOTA)
- 声音设计:InstructTTS-Eval-ZH 76.20%
- 100+ 内置精品音色,支持多说话人播客式对话生成
意义:首个基于 AR 连续表征在单通道内统一生成语音+音乐+音效的系统,Patch-by-Patch 3.1Hz 推理帧率展示了连续 AR 方案在极低帧率下的可行性;精细化指令控制能力(方言/情感/声音设计)是当前 DiT-AR 方案中最全面的
4.3 DiT-AR 方案内部子类型对比
该方案家族内部存在显著的架构差异,可按自回归粒度和表征类型进一步细分:
| 子类型 | 代表系统 | AR 粒度 | 表征类型 | 每步生成器 | 特点 |
|---|---|---|---|---|---|
| Patch-level AR | DiTAR | Patch(多帧聚合) | 连续 latent | Local DiT | LM 处理粗粒度 patch,LocDiT 细化 |
| Frame-level AR | MeLA-TTS | 单帧 Mel | 连续 Mel | Transformer + 对齐模块 | 最直接的连续 AR,无需 tokenizer |
| 层次化半离散 AR | VoxCPM | 帧级 | 半离散(FSQ 瓶颈) | Local Diffusion | 语义-声学层次化,FSQ 平衡离散和连续 |
| Token-level Diffusion | VibeVoice | Token(7.5Hz) | 连续双分支 latent | Diffusion Head | LLM 每位置接 Diffusion Head |
4.4 DiT-AR 方案的特点总结
| 维度 | 特点 |
|---|---|
| 优势 | 无(或低)量化信息损失、声学细节保留完整、端到端简洁、Scaling 特性好 |
| 劣势 | 连续分布建模难度大、训练不如离散稳定、推理需多步 Diffusion(速度受限) |
| 内部分化 | AR 粒度从单帧(MeLA-TTS)→ Patch(DiTAR)→ Token(VibeVoice),粒度越粗推理越快但局部建模越依赖 NAR 模块 |
| 流式能力 | 天然支持(自回归逐步生成),Diffusion 步数影响延迟 |
| 质量上限 | 理论上高于纯离散方案(连续表征信息无损或低损) |
五、方案四:非自回归 DiT / Flow Matching
5.1 核心思想
完全非自回归地生成整段语音,通过 Flow Matching 或 Diffusion 过程从噪声直接映射到目标 Mel / 波形。
不做逐 token / 逐帧的序列生成,而是在全局上下文中并行生成。
5.2 典型系统详解
E2 TTS(Microsoft,2024.06)
1 | Text → [Character + Filler Tokens] → [Flow Matching Transformer] → Mel → [Vocoder] → Waveform |
- 与 F5-TTS 思路高度一致,同期独立工作
- 仅两个模块:Flow Matching Transformer + Vocoder
- 通过 audio infilling task 训练
- 达到 human-level naturalness,与 Voicebox / NaturalSpeech 3 可比
F5-TTS(SWivid,2024.10,ACL 2025)
纯 NAR Flow Matching + DiT 架构:
1 | Text |
关键技术:
- 最简设计:仅 Flow Matching Transformer + Vocoder 两个模块,无需 duration model / 音素对齐 / G2P
- Filler Token 填充:文本字符序列用 ⟨F⟩ token 填充到与 Mel 长度一致,隐式学习对齐
- Optimal Transport Flow:学习从高斯先验 N(0,I) 到真实 Mel 的最优传输向量场
- Sway Sampling:推理时的流步采样策略,无需重训即可提升性能和效率
性能:RTF = 0.15,训练数据 100K 小时
意义:证明了”极简设计 + 大数据 + Flow Matching”可以达到 SOTA
Seed-TTS DiT 变体(字节跳动,2024.06)
- Seed-TTS 的非自回归变体
- 纯 Diffusion Transformer,不依赖预估音素时长
- 与 AR 变体性能可比,在 speech editing 上更具优势
LongCat-AudioDiT(美团 LongCat Team,2025)
核心创新——直接在波形 latent 空间建模:
与之前所有基于 Mel 频谱的 NAR 方案不同,LongCat-AudioDiT 的核心发现是:训练 diffusion 模型直接在波形 latent 空间上工作,比基于 Mel 等中间声学表征的传统范式带来显著提升。系统仅包含两个组件:Wav-VAE + DiT,完全绕过 Mel 频谱和独立 vocoder,消除级联转换带来的复合误差。
关键技术:
- Wav-VAE:全卷积音频自编码器,直接在时域上将原始波形压缩为连续 latent 表征
- **Conditional Flow Matching (CFM)**:基于 rectified flow,通过线性插值构造噪声轨迹,DiT backbone 用 cross-attention 隐式学习文本-语音对齐
- 训练-推理不匹配修正:发现并修正了 prompt 区域 noisy latent 在推理时漂移的长期问题——在每个推理步强制将 prompt 区域覆写为 GT 轨迹值
- **Adaptive Projection Guidance (APG)**:替代传统 CFG,将 guidance 残差分解为平行/正交分量,选择性衰减平行分量以消除过饱和 artifact
- 双层文本编码:同时使用 UMT5 的 last hidden state(高层语义)和 raw word embedding(低层词汇/语音线索),解决单纯 last hidden state 导致的 intelligibility 问题
- REPA(Representation Alignment):用预训练 mHuBERT 特征对齐 DiT 第 8 层输出,不提升生成质量但显著加速训练收敛
- Scaling 特性:模型从 1B 扩展到 3.5B 时性能持续提升
参数规模:1B / 3.5B 两个版本
训练数据:100 万小时中英语音
性能:
- 在 Seed 基准上超越 Seed-TTS(前 SOTA),SIM 从 0.809→0.818(Seed-ZH)、0.776→0.797(Seed-Hard)
- 推理使用 16 步 Euler ODE 求解
重要发现:Wav-VAE 重建保真度更高并不一定带来更好的 TTS 性能,揭示了 VAE 与 TTS backbone 之间的非直觉耦合关系,对 WavVAE 选型有重要参考价值
意义:是目前纯 NAR diffusion TTS 的最强开源方案,证明了”Wav-VAE latent 空间 > Mel 空间”这一关键结论,同时开源了代码和权重
MegaTTS 3 / S-DiT(浙江大学 / 字节跳动,2025.02)
关键技术:
- Sparse Alignment 策略:在强制对齐区域内为每个音素随机保留一个 anchor,其余位置用 mask token 填充,与 latent 序列拼接后输入 DiT。相比硬对齐(限制搜索空间、降低自然度)和隐式对齐(鲁棒性差),sparse alignment 兼顾两者优势——提供粗粒度位置信息降低对齐学习难度,同时不限制模型搜索空间
- WaveVAE 端到端:全卷积 VAE 将波形压缩为 25Hz 连续 latent,解码器直接重建波形,无需独立 vocoder
- Piecewise Rectified Flow (PeRFlow) 加速:将 flow 轨迹分段蒸馏,25 步降至 8 步即可生成高质量 1 分钟语音,质量几乎无损
- Multi-Condition CFG:分离文本引导尺度 α_txt 和说话人引导尺度 α_spk,实现独立的发音精度控制和音色保持;发现 α_txt 可调节口音强度(accent intensity),为口音 TTS 提供新方向
- Masked Speech Modeling 训练:随机将 10%~90% 的 latent 序列 mask,模型学习条件生成
参数规模:0.3B(WaveVAE)+ 0.5B(S-DiT)
训练数据:60K 小时 LibriLight
性能:
- LibriSpeech test-clean:SIM-O = 0.71,WER = 1.82%(25 步),加速版 WER = 1.86%(8 步,RTF = 0.124)
- Seed-TTS-eval test-zh:CER = 1.52%,SIM = 79.0(0.5B 版本,据 GLM-TTS 论文引用)
- 在 0.3B 参数下即超越 F5-TTS、CosyVoice、MaskGCT 等系统
意义:提出了 sparse alignment 这一折中方案,有效解决了 NAR Diffusion TTS 中隐式对齐鲁棒性差 vs 硬对齐自然度受限的核心矛盾;PeRFlow 8 步生成 1 分钟语音展示了极高的推理效率
ZipVoice(小米 / k2-fsa / Daniel Povey,2025.06,ASRU 2025)
关键技术:
- Zipformer Backbone:将 ASR 领域验证的 Zipformer 架构引入 TTS flow matching decoder,U-Net 式多分辨率下采样(1x/2x/4x/2x/1x)+ bypass 连接 + 卷积模块,在极小参数量下保持强建模能力
- Average Upsampling 对齐:假设句内 token 时长均匀,直接将文本特征均匀上采样到 Mel 长度,无需 duration model / G2P / 音素对齐,比 F5-TTS 的 filler token 方案 intelligibility 显著更高
- Flow Distillation 加速:两阶段蒸馏——第一阶段用预训练 teacher 的 2 步 CFG 推理构造 teacher vector field 蒸馏 student;第二阶段用 student 的 EMA 版本自蒸馏。蒸馏后 student 内化 CFG 效果,推理时无需额外 unconditional 前向传播
- Time-Dependent CFG:早期步骤仅丢弃文本条件(关注内容),后期步骤丢弃文本+音频条件(关注全局质量)
参数规模:仅 123M(F5-TTS 的 1/3)
训练数据:100K 小时 Emilia 数据集
性能:
- Seed-TTS test-zh:CER = 1.40%,SIM = 0.751(16 NFE);蒸馏后 CER = 1.34%(8 NFE)/ 1.39%(4 NFE)
- RTF = 0.0125(4 NFE,GPU),比 F5-TTS 快 23.7 倍(GPU)/ 32.6 倍(CPU)
- 4 NFE 蒸馏版在单 CPU 线程上接近实时(RTF = 1.22)
- 音质(WER/UTMOS)与 F5-TTS、MaskGCT 等 SOTA 系统可比
意义:证明了 NAR Flow Matching TTS 在极小参数量(123M)和极少采样步数(4 步)下仍可达到 SOTA 级音质,同时推理速度提升 1-2 个数量级;是目前最小、最快的开源 SOTA 级零样本 TTS 系统之一,CPU 近实时推理显著降低了部署门槛
5.3 NAR DiT / Flow Matching 方案的特点总结
| 维度 | 特点 |
|---|---|
| 优势 | 推理并行度高(可一次生成整段)、设计极简、无自回归误差累积 |
| 劣势 | 缺乏因果结构导致长文本一致性不如 AR、流式困难、需预知目标长度 |
| 典型推理 | 多步 ODE/SDE 求解(通常 16-32 步),可用 Sway Sampling / 蒸馏加速 |
| 适用场景 | 短到中等长度语音生成、speech editing、voice conversion |
六、方案五:离散 Diffusion / Masked Diffusion
6.1 核心思想
结合离散 token 表征和非自回归生成,通过 masked prediction(掩码预测)或 discrete diffusion(离散扩散) 的方式并行生成 token 序列。
既享受离散 token 与 LLM 生态兼容的优势,又获得 NAR 的并行生成效率。
6.2 典型系统详解
MaskGCT(ICLR 2025)
两阶段 Masked Generative 架构:
1 | Text |
关键技术:
- Mask-and-Predict 范式:训练时随机 mask token 并学习预测,推理时指定目标长度后并行生成所有 token
- 无需显式对齐:不需要 text-speech alignment 或 phone-level duration prediction
- 两阶段设计:SSL 语义 token → Acoustic token,逐步细化
- 零样本能力:跨语言、情感控制、风格模仿、语速控制、声音转换
训练数据:100K 小时 in-the-wild speech
意义:Masked Generative 在 TTS 上的标杆工作,ICLR 2025 接收
OmniVoice(k2-fsa / 新一代 Kaldi,2026.04)
离散 Masked Diffusion + 双向 Transformer 架构:
1 | Text |
关键技术:
- 单阶段直接生成:跳过传统的 text→semantic→acoustic 两阶段,直接从文本到多码本声学 token
- Full-codebook Random Masking:高效训练策略
- 预训练 LLM 初始化:确保文本理解和 intelligibility
- 极致多语言:支持 600+ 种语言
性能:RTF = 0.025(40x 实时),581K 小时开源多语言数据
意义:离散 diffusion 在大规模多语言 TTS 上的成功应用,推理速度极快
LLaDA-TTS(百融 BRVoice Team,2026.03)
Masked Discrete Diffusion + 双向 Transformer 架构:
关键技术:
- AR→Masked Diffusion 范式迁移:仅修改注意力掩码(因果→双向)和训练目标(next-token→masked prediction),tokenizer、prompt 格式和声学模型完全不变,可无缝迁移至任何 LLM-based AR TTS 系统(VALL-E、Seed-TTS、Spark-TTS 等)
- Label Shift 知识迁移:保留 AR 的”位置 i 预测 token i+1”惯例,使预训练 AR 权重可直接初始化 diffusion 模型而无需重训输出层,仅需 50 小时微调数据即可完成范式转换(从头训练 CER 45.27% vs AR 初始化 0.98%)
- 理论保证(ε-Forward Dependence):证明了声学 token 的时间局部性使 AR 预训练权重对双向 masked prediction 近似最优(Theorem 1),解释了 AR 初始化的快速收敛和生成时涌现的近似从左到右 unmasking 顺序
- 零样本语音编辑:双向注意力架构天然支持 speech editing(词级插入、删除、替换),无需额外训练——通过特定注意力头(L16-H2 / L11-H5)实现精确的文本-语音对齐(MAE ≈ 52ms),选择性 mask 目标区域后重新生成
- 推理成本与序列长度解耦:固定 T 步前向传播完成生成,不依赖 KV cache
训练数据:仅 6,000 小时 Emilia 数据集(58% 中文 / 42% 英文)+ 50 小时微调
6.3 离散 Diffusion / Masked Generative 方案的特点总结
| 维度 | 特点 |
|---|---|
| 优势 | 并行生成效率高、与 LLM 生态兼容(离散 token)、推理速度极快 |
| 劣势 | 多步迭代精化需要的步数影响质量、离散化信息损失仍然存在 |
| 与 NAR Flow Matching 的区别 | 操作在离散空间(token masking/denoising)而非连续空间(ODE flow) |
| 推理速度 | 通常比连续 diffusion 快很多(OmniVoice RTF=0.025) |
七、语音表征与 Codec 技术对比
语音表征是 TTS 大模型的基础组件,直接决定了信息保真度、序列长度和下游建模难度。
7.1 主流 Codec / Tokenizer 一览
| Codec | 类型 | 采样率 | 帧率 | 码本 | 比特率 | 使用系统 |
|---|---|---|---|---|---|---|
| Encodec | RVQ(多码本) | 24kHz | 75Hz | 8层, 1024 | 6 kbps | VALL-E 系列 |
| SNAC | RVQ(多码本) | 24kHz | ~83Hz | 多层 | 可变 | Orpheus |
| Cat (Causal Audio Tokenizer) | RVQ | 24kHz | 12.5Hz | 32层, 10-bit | 可变 | MOSS-TTS |
| BiCodec | 单流解耦 | 16kHz | - | 语义+全局 | 低 | Spark-TTS |
| XCodec2 | 单码本 | 16kHz | 50Hz | 65536 | - | Llasa |
| CosyVoice Codec (FSQ) | FSQ 单码本 | 24kHz | 25Hz | FSQ | - | CosyVoice 2/3 |
| WavTokenizer | 单码本 VQ | 24kHz | 40-75Hz | 单层 | 0.5-0.9 kbps | - |
| Qwen-TTS-Tokenizer-25Hz | 单码本 | - | 25Hz | - | - | Qwen3-TTS |
| Qwen-TTS-Tokenizer-12Hz | 多码本 | - | 12.5Hz | 16层 | - | Qwen3-TTS |
| VibeVoice Tokenizer | 连续双分支 | - | 7.5Hz | 连续 latent | - | VibeVoice |
7.2 离散表征 vs 连续表征核心对比
| 维度 | 离散 Token(RVQ/FSQ/VQ) | 连续表征(Mel/VAE Latent) |
|---|---|---|
| 信息保真度 | 有量化损失(”量化天花板”) | 无量化损失,理论上限更高 |
| LLM 兼容性 | 天然兼容 next-token prediction | 需要 Diffusion Head 或特殊解码器 |
| 序列长度 | 多码本膨胀问题(需 Dual-AR / Delay Pattern 解决) | 由帧率决定,通常较短 |
| 训练稳定性 | 离散目标(交叉熵)训练稳定 | 连续分布估计(Diffusion/FM)训练难度较大 |
| RL 对齐 | 天然适合 RLHF pipeline | 需要设计连续动作空间的 RL |
| Vocoder 依赖 | 通常内嵌在 codec 解码器中 | 需要额外 vocoder(Mel→Wave) |
| 代表系统 | FishAudio S2, MOSS-TTS, Qwen3-TTS, OmniVoice | CosyVoice 2 (Mel), DiTAR, MeLA-TTS, VibeVoice, F5-TTS |
7.3 表征趋势
- 帧率持续降低:从 Encodec 的 75Hz → Cat 的 12.5Hz → VibeVoice 的 7.5Hz,目标是缩短序列长度
- 单码本回归:越来越多系统(Spark-TTS, CosyVoice 2, XCodec2)尝试用更强的单码本替代多码本,从根源上消除 RVQ 膨胀问题
- FSQ 替代 VQ:Finite Scalar Quantization 避免码本坍缩,CosyVoice 2 已验证
- 语义-声学解耦:BiCodec(Spark-TTS)、VoxCPM 的 FSQ 瓶颈层,都在探索自动化语义-声学分离
- 连续表征兴起:VibeVoice 的连续 tokenizer 证明了连续 latent 在低帧率下的可行性
八、训练范式与对齐技术
8.1 训练阶段
现代 TTS 大模型普遍采用类似 LLM 的三阶段训练范式:
1 | Pre-training → Supervised Fine-Tuning (SFT) → Reinforcement Learning (RL) Alignment |
| 阶段 | 目标 | 典型数据规模 | 代表系统 |
|---|---|---|---|
| Pre-training | 大规模无监督/弱监督语音建模 | 百万~千万小时 | FishAudio S2 (10M hrs), Qwen3-TTS (5M hrs) |
| SFT | 特定说话人/风格/控制能力适配 | 千~万小时精标数据 | CosyVoice 1/2/3 |
| RL Alignment | 优化人类偏好(发音准确性、自然度、说话人相似度) | 基于 reward model 评分 | FishAudio S2 (GRPO), Seed-TTS |
8.2 RL 对齐技术对比
| 方法 | 代表系统 | 优势 | 劣势 |
|---|---|---|---|
| DPO | 通用 TTS 后训练 | 无需训练 reward model,直接从偏好对学习 | 偏好对构建成本高,优化上限受限 |
| GRPO | FishAudio S2 | 避免 PPO 的 value model 内存开销,适合长音频上下文 | 需要多次采样 |
| PPO | 经典 RLHF | 在线优化,效果上限高 | Value model 内存开销大,训练复杂 |
8.3 Reward Model 设计
| 维度 | 常用评估信号 |
|---|---|
| 发音准确性 | ASR WER / CER |
| 音质 | UTMOS / DNSMOS / PESQ |
| 说话人相似度 | Speaker embedding cosine similarity(SIM) |
| 韵律自然度 | MOS 人工评分 / 专用韵律评估模型 |
| 可控性 | Instruct 控制率 / 情感分类准确率 |
九、全方案横向对比
9.1 架构维度对比
| 方案 | 生成范式 | 表征类型 | 声学建模器 | 系统复杂度 | 流式支持 |
|---|---|---|---|---|---|
| LLM+DiT 级联 | AR (LLM) + NAR (DiT) | 离散语义 + 连续 Mel | DiT / Flow Matching | 高(多阶段) | 需特殊设计 |
| LLM+RVQ Dual-AR | AR (Dual-AR) | 离散多码本 | Transformer decoder | 中 | 天然支持 |
| DiT-AR 连续表征 | AR + Diffusion/FM | 连续 latent / Mel / 半离散 | DiT / FM (Local) | 中~高 | 天然支持(Diffusion 步数影响延迟) |
| NAR DiT / FM | NAR (Flow Matching) | 连续 Mel | DiT / Transformer | 低 | 困难 |
| 离散 Diffusion | NAR (Masked/Diffusion) | 离散 token | Bidirectional Transformer | 低~中 | 困难 |
9.2 性能维度对比
| 方案 | 音质上限 | 推理速度 | 长文本稳定性 | 可控性 | 训练友好度/易用性 |
|---|---|---|---|---|---|
| LLM+DiT 级联 | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★★ | ★★★☆☆ |
| LLM+RVQ Dual-AR | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| DiT-AR 连续表征 | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★☆☆☆ |
| NAR DiT / FM | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ | ★★★★★ |
| 离散 Diffusion | ★★★☆☆ | ★★★★★ | ★★★☆☆ | ★★★☆☆ | ★★★★☆ |
注:DiT-AR 方案的推理速度和可控性评分取决于子类型:
- 逐帧 AR(MeLA-TTS)较慢但精细,Patch-level AR(DiTAR)通过 patch 聚合实现较好的速度-质量平衡。
9.3 各方案的最佳适用场景
| 方案 | 最佳场景 | 不适合场景 |
|---|---|---|
| LLM+DiT 级联 | 需要精细可控的场景(Instruct TTS)、多阶段渐进优化 | 对推理延迟极度敏感的实时场景 |
| LLM+RVQ Dual-AR | 大规模生产部署、实时流式、需快速迭代和 RL 对齐 | 对音质有极致要求(量化天花板限制) |
| DiT-AR 连续表征 | 追求最高音质上限、长文本/多说话人叙述(逐 token/patch AR) | 对推理速度有严格要求的实时场景 |
| NAR DiT / FM | 离线批量生成、speech editing、voice conversion | 长文本实时流式 |
| 离散 Diffusion | 大规模多语言、需要极快推理的场景 | 对精细韵律控制要求高 |
十、技术趋势与展望
10.1 已确认的技术趋势
- RL 对齐成为标配:几乎所有 2025+ 的新系统都引入了 RL 后训练阶段
- 帧率持续压缩:75Hz → 25Hz → 12.5Hz → 7.5Hz,目标是让 LLM 能处理更长的音频上下文
- 预训练 LLM 直接复用:Qwen2.5 / Qwen3 / Llama 等通用 LLM 直接作为 backbone,而非从头训练语音模型
- 单码本 + 强 Codec 趋势:用更好的 codec 设计(FSQ / BiCodec / WavTokenizer)替代多码本 RVQ,简化下游建模
- 连续表征兴起:DiTAR、MeLA-TTS、VibeVoice 等证明了连续表征方案的竞争力,质量上限可能高于离散方案
- 训练数据规模飙升:从 100K 小时到百万/千万小时,数据 scaling 是性能提升的关键驱动力
10.2 值得关注的技术方向
- Tokenizer-Free 端到端:VoxCPM 的”半离散”FSQ 瓶颈设计是一个有意思的探索方向——不完全离散、也不完全连续
- 极致多语言:OmniVoice 的 600+ 语言覆盖预示着 TTS 向通用语音基础模型的演进
- Streaming-First 设计:Qwen3-TTS 的 97ms 首包延迟 + CosyVoice 2 的 Chunk-Aware FM,流式能力从附加功能变成核心设计约束
- 统一语音理解与生成:将理解任务与生成任务统一建模
10.3 开放问题
| 问题 | 现状 | 展望 |
|---|---|---|
| 离散 vs 连续表征,哪个是终局? | 两条路线都有 SOTA 级成果 | 可能长期共存,场景驱动选择 |
| AR vs NAR,TTS 的最优范式? | AR+NAR 混合(如 DiT-AR)是有前景的折中 | AR 保证一致性、NAR 保证效率,混合方案可能胜出 |
| 训练数据的 Scaling Law? | 百万~千万小时已有探索 | 数据质量 vs 数据量的 trade-off 尚未完全明确 |
| 可控性的上限在哪里? | Instruct 控制率 ~80%,自然语言描述初步验证 | 从标签控制 → 自然语言控制 → 意图理解控制 |
| 推理效率的极限? | RTF 0.025 (OmniVoice) ~ 0.2 (FishAudio S2) | Speculative decoding / 蒸馏 / 硬件优化 |
附录:代表模型速查表
| 方案类别 | 系统 | 机构 | 时间 | 子类型 | 参数量 | 训练数据 | 开源 | 论文 |
|---|---|---|---|---|---|---|---|---|
| 方案一:LLM+DiT 级联 | Tortoise-TTS | James Betker | 2023.05 | AR + DDPM(先驱) | ~1B | - | ✅ | arxiv 2305.07243 |
| CosyVoice 1 | 阿里 | 2024.07 | LLM + FM | - | ~17万 hrs | ✅ | 官方技术报告 | |
| CosyVoice 2 | 阿里 | 2024.12 | LLM + Chunk-Aware FM | ~1B | ~17万 hrs | ✅ | arxiv 2412.10117 | |
| CosyVoice 3 | 阿里 | 2025.05 | LLM + Chunk-Aware FM | 1.5B | 100万 hrs | ✅ | arxiv 2505.17589 | |
| Seed-TTS | 字节 | 2024.06 | AR + DiT / 纯 DiT | - | - | ❌ | arxiv 2406.02430 | |
| IndexTTS 2.5 | Index Team | 2026.01 | LLM + Zipformer | - | - | ✅ | arxiv 2601.03888 | |
| FireRedTTS-1S | 小红书 | 2025.03 | LLM + 双模式声学解码 | - | - | ✅ | arxiv 2503.20499 | |
| MiniMax-Speech | MiniMax | 2025.05 | AR + Flow-VAE | ~665M | - | ❌ | arxiv 2505.07916 | |
| GLM-TTS | 智谱 AI / 清华 | 2025.12 | LLM + DiT + GRPO | 1.5B | 10万 hrs | ✅ | arxiv 2512.14291 | |
| 方案二:LLM+RVQ / Dual-AR | FishAudio S2 | Fish Audio | 2026.03 | Dual-AR | 4.4B | 1000万+ hrs | ✅ | arxiv 2603.08823 |
| MOSS-TTS | OpenMOSS | 2025 | Dual-AR / Delay Pattern | 8B / 1.7B | - | ✅ | GitHub | |
| Qwen3-TTS | 阿里 | 2026.01 | 多码本并行 | - | 500万+ hrs | ✅ | arxiv 2601.15621 | |
| 方案三:DiT-AR 连续表征 | DiTAR | 字节 | 2025.02 | Patch-level AR | - | - | ✅ | arxiv 2502.03930 |
| MeLA-TTS | - | 2025.09 | Frame-level AR | - | - | ❌ | arxiv 2509.14784 | |
| VoxCPM | OpenBMB/清华 | 2025.09 | 层次化半离散 AR | 0.5B | 180万+ hrs | ✅ | arxiv 2509.24650 | |
| VibeVoice | Microsoft | 2025.08 | Next-Token Diffusion | - | - | ✅ | arxiv 2508.19205 | |
| Ming-Omni-TTS | 蚂蚁 inclusionAI | 2026.02 | Patch AR + DiT Head (MoE) | 16.8B-A3B / 0.5B | - | ✅ | arxiv 2506.09344 | |
| 方案四:NAR DiT / FM | F5-TTS | SWivid | 2024.10 | NAR Flow Matching | - | 10万 hrs | ✅ | arxiv 2410.06885 |
| E2 TTS | Microsoft | 2024.06 | NAR Flow Matching | - | - | ❌ | arxiv 2406.18009 | |
| Seed-TTS DiT | 字节 | 2024.06 | NAR Diffusion | - | - | ❌ | arxiv 2406.02430 | |
| LongCat-AudioDiT | 美团 | 2026.03 | NAR Diffusion (Wav-VAE) | 1B / 3.5B | 100万 hrs | ✅ | arxiv 2603.29339 | |
| MegaTTS 3 | 浙大 / 字节 | 2025.02 | NAR Flow (WaveVAE + S-DiT) | 0.8B | 6万 hrs | ✅ | arxiv 2502.18924 | |
| ZipVoice | 小米 / k2-fsa | 2025.06 | NAR Flow (Zipformer) | 123M | 10万 hrs | ✅ | arxiv 2506.13053 | |
| 方案五:离散 Diff / Masked | MaskGCT | - | 2024.09 | Masked Generative | - | 10万 hrs | ✅ | arxiv 2409.00750 |
| OmniVoice | k2-fsa | 2026.04 | 离散 Masked Diffusion | - | 58万 hrs | ✅ | arxiv 2604.00688 | |
| LLaDA-TTS | 百融 BRVoice | 2026.03 | Masked Discrete Diffusion | - | 6K hrs | ✅ | arxiv 2603.26364 |
声明:本报告基于公开发表的论文、技术报告和开源仓库整理,部分系统的内部实现细节可能与公开信息有差异。技术参数以各系统官方发布为准。
- 本文标题:专题分享 | 截止 2026-Q1 业界主流 TTS 模型架构调研
- 创建时间:2026-04-18
- 本文链接:2026/2026-04-18-tts-survey/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!