专题分享 | 截止 2026-Q1 业界主流 TTS 模型架构调研

本报告对当前主流 TTS 大模型的技术方案进行系统化分类、架构解析和横向对比，覆盖从离散 token 到连续表征、从自回归到非自回归的主要技术路线。

一、技术方案总览与分类框架

1.1 分类维度

TTS 大模型的核心技术差异体现在以下四个维度：

#	维度	可选项
1	生成范式	自回归（AR）/ 非自回归（NAR）/ 混合（AR+NAR）
2	语音表征	离散 token（RVQ / FSQ / 单码本）/ 连续特征（Mel / VAE latent）
3	声学建模器	AR LLM / Dual-AR / DiT（Flow Matching） / Diffusion LLM
4	系统结构	级联（多阶段）/ 端到端（单阶段）

1.2 五大主流技术路线

┌──────────────────────────────────────────┐
│        TTS 大模型技术方案分类              │
└─────┬───────┬───────┬───────┬───────┬────┘
      │       │       │       │       │
      ▼       ▼       ▼       ▼       ▼
┌───────────┐┌───────────┐┌───────────┐┌───────────┐┌───────────┐
│  方案一   ││  方案二   ││  方案三   ││  方案四   ││  方案五   │
│  LLM+DiT  ││  LLM+RVQ  ││  DiT-AR   ││  NAR DiT  ││ 离散 Diff │
│   级联    ││  Dual-AR  ││  连续表征  ││   /FM     ││  Masked   │
├───────────┤├───────────┤├───────────┤├───────────┤├───────────┤
│Tortoise   ││FishAudio  ││DiTAR      ││F5-TTS    ││MaskGCT   │
│CosyVoice  ││  -S2      ││MeLA-TTS   ││E2 TTS    ││OmniVoice │
│  1/2/3    ││MOSS-TTS   ││VoxCPM     ││Seed-TTS  ││LLaDA-TTS │
│Seed-TTS   ││Qwen3-TTS  ││VibeVoice  ││  -DiT    ││           │
│IndexTTS   ││           ││Ming-Omni  ││LongCat-  ││           │
│FireRedTTS ││           ││  -TTS     ││ AudioDiT ││           │
│MiniMax    ││           ││           ││MegaTTS 3 ││           │
│GLM-TTS   ││           ││           ││ZipVoice  ││           │
└───────────┘└───────────┘└───────────┘└───────────┘└───────────┘

注：DiT-AR 类别涵盖了多种子类型：

逐 patch/帧 Diffusion AR（DiTAR, MeLA-TTS, VibeVoice…）

层次化半离散 AR（VoxCPM）

它们的共同特征是在连续（或半连续）表征空间上进行自回归建模，用 Diffusion / Flow Matching 作为每步的生成器

二、方案一：LLM + DiT 级联架构

2.1 核心思想

将 TTS 分解为两个阶段，两个阶段独立训练、级联推理

语义建模阶段：LLM 从文本自回归生成离散语义 token
声学建模阶段：DiT / Flow Matching 模型将语义 token 转换为连续声学特征（Mel 或 VAE latent），再经 vocoder (广义) 生成波形

2.2 典型系统详解

Tortoise-TTS（James Betker，2023.05）— 先驱工作

多阶段 AR + DDPM 架构：

Text + Reference Audio
  → [GPT-2 AR Model] → Latent Code 序列
  → [CLVP Reranker] → 选择最佳候选
  → [DDPM Diffusion] → Mel Spectrogram
  → [UnivNet Vocoder] → Waveform

关键技术：

AR + Diffusion 双阶段范式：将图像生成领域的 AR Transformer + DDPM 组合引入 TTS，是”LLM + DiT 级联”的早期形态
CLVP（Contrastive Language-Voice Pre-training）：对多个 AR 候选做 rerank，提升生成质量
Mel 频谱作为中间表征：提供 256x 压缩率，在计算效率和信息保留间取得平衡

参数规模：~1B（含 AR + Diffusion + Vocoder）

历史意义：首个将 LLM scaling 思想系统性应用于 TTS 的开源工作，”Better speech synthesis through scaling” 的理念深刻影响了后续所有 TTS 大模型

CosyVoice 系列（阿里通义实验室，2024.07 → 2024.12 → 2025.05）

CosyVoice 是 LLM+DiT 级联方案的典型代表，经历了三代快速迭代，清晰展示了该技术路线的演进脉络：

CosyVoice 1（2024.07）：

Text
  → [Supervised Semantic Tokenizer (Whisper + VQ)] → Semantic Tokens (50Hz)
  → [LLM] → AR 生成语义 token 序列
  → [Conditional Flow Matching] → Mel Spectrogram
  → [HiFi-GAN Vocoder] → Waveform

Supervised Semantic Token：创新性地使用多语言 ASR 模型（Whisper）编码器 + VQ 提取语义 token，而非无监督 SSL token，提供更强的语义对齐
奠定了”LLM → FM → Vocoder”三级 pipeline 的基础架构

CosyVoice 2（2024.12）：

Text
  → [Supervised Semantic Tokenizer] → Semantic Tokens (25Hz, FSQ)
  → [Qwen2.5-0.5B LLM] → AR 生成语义 token 序列
  → [Chunk-Aware Causal Flow Matching] → Mel Spectrogram (50Hz)
  → [HiFi-GAN Vocoder] → Waveform

相比 v1 的关键升级：

FSQ 替代 VQ：Finite Scalar Quantization 实现 100% 码本利用率，解决 token 坍缩
帧率减半：语义 token 从 50Hz 降至 25Hz，序列长度减半
Chunk-Aware Causal Flow Matching：支持流式+非流式统一模型
直接复用预训练 LLM：使用 Qwen2.5-0.5B 作为 backbone

参数规模：LLM 0.5B，总系统约 1B

CosyVoice 3（2025.05）：

架构延续 v2 的 LLM + Chunk-Aware FM 设计，核心升级在数据规模和后训练：

数据 Scaling：训练数据从 17 万小时扩至 100 万小时，覆盖 9 种语言 + 18 种中文方言
模型 Scaling：参数从 0.5B 扩至 1.5B
Tokenizer 升级：新增多任务监督训练（ASR + 情感识别 + 语种识别 + 音频事件检测 + 说话人分析），显著提升韵律自然度
可微分 Reward Model：提出适用于 LLM-based TTS 的通用后训练 reward model

参数规模：1.5B

CosyVoice 系列演进总结：

版本	时间	Tokenizer	LLM	声学模型	训练数据	核心升级
v1	2024.07	Whisper+VQ, 50Hz	LLM	Conditional FM	~17万 hrs	奠定 LLM+FM 范式
v2	2024.12	FSQ, 25Hz	Qwen2.5-0.5B	Chunk-Aware Causal FM	~17万 hrs	FSQ + 流式 + 帧率减半
v3	2025.05	多任务监督, 25Hz	1.5B	Chunk-Aware Causal FM	100万 hrs	数据/模型 scaling + RL

Seed-TTS（字节跳动，2024.06）

双变体设计：

[AR 变体]
Text + Reference
  → [Speech Tokenizer] → Reference Tokens
  → [AR Language Model] → Speech Token 序列
  → [Diffusion Transformer] → 连续语音表征（粗→细）
  → [Acoustic Vocoder] → Waveform

[DiT 变体 / Seed-TTS DiT]
Text + Reference
  → [Diffusion Transformer (NAR)] → 语音表征（端到端）
  → [Vocoder] → Waveform

关键技术：

AR + DiT 级联（AR 变体）：LLM 自回归生成语音 token → DiT 声学模型以 coarse-to-fine 方式生成连续表征 → Vocoder
纯 DiT 端到端（DiT 变体）：完全非自回归 diffusion 架构，不依赖预估音素时长，直接端到端生成，在 speech editing 上更具优势
RL 后训练：增强鲁棒性、说话人相似度和可控性
零样本 in-context learning：支持跨语言生成和说话人微调

意义：两个变体（AR 级联 vs NAR DiT）性能可比的结论，为业界提供了重要的架构选择参考

IndexTTS 2 / 2.5（Index Team，2025）

LLM + Zipformer 架构：

Text + Reference
  → [T2S: Transformer LM] → Semantic Tokens (25Hz)
  → [S2M: Zipformer-based NAR] → Mel Spectrogram
  → [Vocoder] → Waveform

关键技术：

T2S（Text-to-Semantic）：Transformer LM 自回归生成语义 token
S2M（Semantic-to-Mel）：v2 使用 U-DiT backbone，v2.5 升级为 Zipformer，实现参数缩减和更快的 Mel 生成
语义 Codec 压缩：v2.5 将帧率从 50Hz 降至 25Hz，序列长度减半
GRPO 后训练：在 T2S 阶段引入 Group Relative Policy Optimization，提升发音准确率和自然度
跨语言建模：提出边界感知对齐、token 级拼接、指令引导生成三种策略，支持中英日西四语

性能：v2.5 RTF 相比 v2 提升 2.28 倍，WER 和 SIM 保持可比

特色：零样本情感 TTS，支持情感-说话人解耦和跨语言情感韵律复制

FireRedTTS / FireRedTTS-1S（小红书 FireRed Team，2024.09 / 2025.03）

LLM + 双模式声学解码架构：

Text + Reference
  → [Semantic-Aware Tokenizer] → Semantic Tokens
  → [AR Language Model] → 语义 token 序列
  → [Semantic-to-Acoustic Decoder] → Waveform (48kHz)

关键技术：

语义感知 Speech Tokenizer：压缩语音为包含充分语义信息的离散 token
LM-based AR 解码：根据 prompt 文本和音频自回归生成语义 token
Flow Matching 解码：按 chunk 生成，RTF = 0.1，延迟 300ms，音质更优
Multi-Stream LM 解码（LLM+RVQ 模式）：逐帧自回归 + delay pattern，RTF = 0.3，延迟 150ms，延迟更低

注：FireRedTTS 的 Multi-Stream LM 解码模式本质上属于方案二（LLM+RVQ）的技术路线，该系统横跨方案一和方案二两种架构。

MiniMax-Speech（MiniMax，2025.05）

AR Transformer + Flow-VAE + Learnable Speaker Encoder 架构：

Reference Audio → [Learnable Speaker Encoder] → Timbre Embedding
Text + Timbre
  → [AR Transformer (GPT-2 based, 441M)] → VQ-VAE Tokens
  → [Flow Matching (112M)] → 增强后的 Mel
  → [Flow-VAE Decoder (61M)] → Waveform

关键技术：

Learnable Speaker Encoder：从参考音频中提取音色特征，无需转录文本，实现零样本声音克隆
Flow-VAE：RealNVP 架构，包含编码器（18M）+ 解码器（41M）+ 多分辨率判别器（MPD+MSD+MRD），增强整体音质
AR 建模优势：论文明确指出 AR 模型在韵律、语调、自然度上优于 NAR diffusion 模型，且无需显式音素时长对齐
可扩展性：通过 LoRA 实现情感控制、文本描述生成声音、专业声音克隆等下游任务，无需修改基座模型

总参数规模：~665M（含 AR Transformer 441M + Flow Matching 112M + Flow-VAE Encoder 18M + Flow-VAE Decoder 41M + Learnable Speaker Encoder 及其他辅助模块约 53M）

GLM-TTS（智谱 AI / 清华大学，2025.12）

关键技术：

优化的 Speech Tokenizer：基于 GLM-4-Voice 的 Whisper-VQ tokenizer 改进，帧率从 12.5Hz 增加至 25Hz（时间分辨率更高，但序列长度翻倍），词表从 16K 扩至 32K，新增 Pitch Estimator (PE) 模块改善韵律建模，采用非因果架构提升 ASR 和音高估计精度
GRPO 多奖励 RL 对齐：融合四维奖励信号（CER 发音准确性 + SIM 音色相似度 + Emotion 情感表达 + Laughter 副语言自然度），配合动态采样（自动触发重采样避免梯度消失）和自适应梯度裁剪（ε_high > ε_low 鼓励低概率 token 生成）
LoRA 高效声音定制：仅微调约 15% 核心参数，1 小时单说话人数据即可达到全参数微调的声音相似度和自然度，训练成本降低 80%
Phoneme-in 混合输入：文本+音素混合输入方案，解决多音字和生僻字发音问题（PER 从 13.23% 降至 5.14%），无需牺牲韵律自然度
Vocos2D Vocoder：将 1D 卷积替换为 2D 卷积 + DiT 式残差连接，改善频率子带建模，混合高质量歌声数据扩展音域

参数规模：1.5B

训练数据：仅 10 万小时（远低于 CosyVoice 3 的 100 万小时和 FireRedTTS-2 的 110 万小时）

性能：

Seed-TTS-eval test-zh：CER = 1.03%，SIM = 76.1（RL 后 CER = 0.89%，SIM = 76.4）
在 10 万小时数据量下达到与百万小时级系统可比的性能，数据效率极高

意义：

在有限数据规模下通过 GRPO RL 对齐和精细化 tokenizer 优化达到 SOTA 级性能，是 LLM+DiT 级联方案中数据效率最高的代表之一
Phoneme-in 方案为中文多音字精准控制提供了实用的工业级解决方案

2.3 LLM + DiT 级联方案的特点总结

维度	特点
优势	各模块独立优化、可复用预训练 LLM、语义-声学解耦清晰、稳定性/可控性好
劣势	级联 error propagation、两阶段训练复杂度、推理延迟较高
语音表征	通常为离散语义 token + 连续 Mel（或 VAE latent）
流式能力	取决于 DiT 模块设计（CosyVoice 2 的 Chunk-Aware 设计支持流式）
典型帧率	语义 token 25~~50Hz，声学特征 50~~80+Hz

三、方案二：LLM + RVQ / Dual-AR 架构

3.1 核心思想

使用 LLM 直接建模 多层 RVQ（Residual Vector Quantization）码本 的离散 token，通过巧妙的架构设计处理 RVQ 多码本带来的序列长度膨胀问题。

核心挑战：如果 RVQ 有 N 层码本、帧率为 F Hz，则每秒产生 N×F 个 token，序列长度爆炸。

主流做法：Dual-AR（快慢双轨）、Delay Pattern（延迟调度）、Grouped Code Modeling（分组建模）等。

3.2 典型系统详解

FishAudio S2（Fish Audio，2026.03）

Dual-AR 架构：

Text + Prompt
  → [Slow AR: 4B Transformer] → 第 1 层码本 token（时间轴）
  ↓
  → [Fast AR: 400M Transformer] → 第 2-10 层 RVQ token（深度轴）
  → [RVQ Decoder] → Waveform

关键技术：

非对称 Dual-AR：Slow AR（4B）沿时间轴预测主语义码本，Fast AR（400M）在每个时间步生成剩余 9 层残差码本
Multi-Reward RL 对齐：使用 GRPO（Group Relative Policy Optimization）变体，联合优化语义准确性、声学质量、说话人相似度
数据 pipeline 与 RL 共享模型：数据质量评估模型直接复用为 RL reward signal，消除预训练和后训练之间的分布偏移
10 层 RVQ @ ~21Hz

参数规模：Slow AR 4B + Fast AR 400M

性能指标：

RTF = 0.195
首包延迟 < 100ms
训练数据 > 1000 万小时，覆盖 50-100 种语言

MOSS-TTS（OpenMOSS / MOSI.AI，2025）

双架构变体：

MossTTSDelay（生产级）：

Text
  → [Single Qwen-8B Backbone + 33 LM Heads]
  → 32 层 RVQ token（delay pattern 并行预测）
  → [Cat Audio Tokenizer Decoder] → 24kHz Waveform

单一 Transformer 主干（Qwen-8B 初始化）
33 个 LM Head（1 主 + 32 RVQ head）并行预测
Delay Pattern 调度：将 RVQ 各层在时间域上错位，所有码本层在单次前向中同步预测
优化推理速度和长上下文稳定性

MossTTSLocal（层次化）：

Text
  → [Global Transformer (Qwen3-1.7B)] → 时间轴建模
  → [Local Transformer (4 blocks)] → RVQ 深度轴（粗→细）
  → [Cat Decoder] → 24kHz Waveform

Global Transformer 负责时间维度，Local Transformer 负责码本深度维度
支持可变比特率：通过渐进式序列 dropout，推理时可在 K=4（低比特率/快速）到 K=32（最大保真度）之间动态选择

共同规格：

**Cat (Causal Audio Tokenizer)**：24kHz / 12.5Hz 帧率 / 32 层 RVQ（10-bit 每层）
极低帧率（12.5Hz）是关键设计决策，每秒仅 12.5 × 32 = 400 个 token（delay pattern 下有效长度更短）

Qwen3-TTS（阿里通义，2026.01）

双轨 Tokenizer + 统一 LM 架构：

Text
  → [Unified Transformer LM (GQA + Sliding Window Attention)]
  → 32 Code Groups 并行生成（RoPE 位置编码）
  → [Qwen-TTS-Tokenizer Decoder] → Waveform

双 Tokenizer 设计：

Qwen-TTS-Tokenizer-25Hz：单码本，语义导向，兼容 Qwen-Audio，配合 block-wise DiT 做流式波形重建
Qwen-TTS-Tokenizer-12Hz：12.5Hz / 16 层多码本，轻量因果 ConvNet，首包延迟仅 97ms

关键技术：

Dual-Track 混合流式生成：单模型支持流式和非流式，处理单个字符即可输出首个音频包
完全绕过 LM+DiT 级联的信息瓶颈和级联误差
训练数据 > 500 万小时，覆盖 10 种语言

3.3 LLM + RVQ / Dual-AR 方案的特点总结

维度	特点
优势	端到端方案更简洁（LLM 直接到波形）、天然适合 LLM 生态、流式友好、RL 对齐方案成熟
劣势	RVQ 多码本序列长度膨胀、离散量化信息损失、码本层间依赖建模难度大
核心挑战	如何高效处理多码本序列——Dual-AR / Delay Pattern 各有 trade-off
流式能力	天然支持（自回归逐 token 生成）
典型配置	8-32 层 RVQ，帧率 12.5~50Hz

3.4 多码本序列处理策略对比

策略	代表系统	原理	优势	劣势
Dual-AR	FishAudio S2, MossTTSLocal	Slow AR 走时间轴 + Fast AR 走深度轴	解耦清晰、各轴独立优化	两个模型参数量大、需协调训练
Delay Pattern	MossTTSDelay	各 RVQ 层时间域错位，单次前向并行预测	单模型、推理快	需要大模型承载所有码本的建模

四、方案三：DiT-AR 自回归 + 连续表征建模

4.1 核心思想

摒弃离散 token，直接在连续表征空间（Mel / VAE latent）上进行自回归生成。

每一步用 Diffusion Transformer 生成下一个 patch / frame 的连续向量，而非预测离散 token ID。

核心优势：避免量化信息损失，保留完整声学细节

核心挑战：连续空间的自回归建模比离散空间困难很多（分布估计、误差累积）。

4.2 典型系统详解

DiTAR（字节跳动，2025.02，ICML 2025）

Patch-based AR + Local DiT 架构：

Text + Prompt
  → [Language Model] → Aggregated Patch Embeddings
  → [LocDiT (Local Diffusion Transformer)] → 下一个 Patch 的连续表征
  → 自回归展开 → 完整连续表征序列
  → [Vocoder] → Waveform

关键技术：

Divide-and-Conquer 策略：LM 处理聚合后的 patch embedding（粗粒度时间建模），LocDiT 在 LM 输出条件下生成下一个 patch 的细粒度连续表征
Temperature 重定义：推理时 temperature 定义为反向 diffusion ODE 中引入噪声的时间点，平衡多样性和确定性
优秀的 Scaling 特性：实验证明模型规模增大时性能稳定提升
相比 ARDiT / Transfusion 等前作，显著降低计算开销

意义：是 DiT-AR 这一技术路线的标志性工作，证明了自回归连续表征建模在 TTS 上的可行性和优越性

MeLA-TTS（ICASSP 2026 投稿）

Joint Transformer-Diffusion 端到端架构：

Text + Speaker
  → [Transformer Decoder] → 自回归逐帧生成连续 Mel 特征
  → [Representation Alignment Module] → 与 ASR Encoder 语义对齐
  → [Vocoder] → Waveform

关键技术：

直接自回归生成连续 Mel 帧：无需 speech tokenizer，无需多阶段 pipeline
表征对齐模块：训练时将 Transformer decoder 的输出表征与预训练 ASR encoder 的语义 embedding 对齐，加速训练收敛、增强跨模态一致性
支持离线和流式两种合成模式
零样本声音克隆能力

意义：证明了在 Mel 帧级别做自回归连续生成的可行性，是对离散 token 范式的直接挑战

VoxCPM（OpenBMB / 清华，2025.09）

Tokenizer-Free 端到端 Diffusion AR 架构：

Text
  → [TSLM: Text-Semantic LM] → 语义-韵律规划
  → [RALM: Residual Acoustic LM] → 细粒度声学细节恢复
  → [Local Diffusion Decoder] → 高保真语音 latent
  → [Vocoder] → Waveform

关键技术：

层次化语义-声学建模：TSLM 生成语义韵律规划，RALM 恢复声学残差
可微分量化瓶颈（FSQ）：创建”半离散”残差表征，在语义和声学成分之间产生自然分工，克服纯离散方法的”量化天花板”，同时比纯连续方法更稳定
端到端 Diffusion 训练目标：三个模块联合训练
训练数据 180 万+ 小时中英双语

参数规模：VoxCPM-0.5B

性能：RTF = 0.17（消费级 GPU），低延迟流式支持

VibeVoice（Microsoft，2025.08）

Next-Token Diffusion 架构：

Text + Dialogue Context
  → [Qwen2.5 LLM]
  → [Token-Level Diffusion Head] → 逐 token Diffusion 生成连续 latent
  → [Continuous Speech Tokenizer Decoder] → Waveform

关键技术：

7.5Hz 超低帧率 Continuous Speech Tokenizer：双分支（声学+语义），数据压缩率达 Encodec 的 80 倍
Next-Token Diffusion：在 LLM 的每个 token 位置接一个 Diffusion Head，自回归生成连续 latent 向量
超长上下文：64K 上下文窗口，单次生成最长 90 分钟语音
多说话人支持：最多 4 个说话人，自然轮转和说话人一致性

意义：展示了 DiT-AR 方案在长文本、多说话人场景下的实用性

Ming-Omni-TTS（蚂蚁 inclusionAI，2026.02）

关键技术：

统一连续 Audio Tokenizer（Ming-Unitok-Audio）：12.5Hz 连续 VAE tokenizer，将语音、音乐、环境音统一编码到同一连续 latent 空间，同时保留语义和声学特征，支持高质量重建
Patch-by-Patch 压缩策略：将 LLM 推理帧率从 12.5Hz 进一步压缩至 3.1Hz（每 patch 聚合 4 帧），大幅降低 LLM 自回归序列长度和推理延迟，使长音频（播客级别）生成成为可能
AR LLM + DiT Head 双阶段生成：LLM 自回归生成粗粒度 patch embedding，DiT Head 基于 flow matching 将 patch 展开为细粒度连续 latent，再由 VAE 解码为波形——业界首个以 AR 模型在单通道内联合生成语音、环境音和音乐的系统
精细可控性：支持语速/音高/音量/情感/方言的指令控制（粤语方言准确率 93%，情感控制准确率 46.7%，超越 CosyVoice 3）；支持自然语言描述的零样本声音设计，InstructTTS-Eval-ZH 上与 Qwen3-TTS 持平
MoE / Dense 双变体：16.8B-A3B MoE 版本（激活参数 3B）和 0.5B Dense 轻量版本，满足不同部署需求

参数规模：16.8B（MoE，激活 3B）/ 0.5B（Dense）

性能：

Seed-TTS-eval test-zh（零样本克隆）：WER = 0.83%，超越 SeedTTS 和 GLM-TTS
方言生成：WSYue-TTS-Eval 96%，WSC-TTS-Eval 86%
情感表达：CV3-Eval 平均 76.7%，中性→情感迁移 46.7%（SOTA）
声音设计：InstructTTS-Eval-ZH 76.20%
100+ 内置精品音色，支持多说话人播客式对话生成

意义：首个基于 AR 连续表征在单通道内统一生成语音+音乐+音效的系统，Patch-by-Patch 3.1Hz 推理帧率展示了连续 AR 方案在极低帧率下的可行性；精细化指令控制能力（方言/情感/声音设计）是当前 DiT-AR 方案中最全面的

4.3 DiT-AR 方案内部子类型对比

该方案家族内部存在显著的架构差异，可按自回归粒度和表征类型进一步细分：

子类型	代表系统	AR 粒度	表征类型	每步生成器	特点
Patch-level AR	DiTAR	Patch（多帧聚合）	连续 latent	Local DiT	LM 处理粗粒度 patch，LocDiT 细化
Frame-level AR	MeLA-TTS	单帧 Mel	连续 Mel	Transformer + 对齐模块	最直接的连续 AR，无需 tokenizer
层次化半离散 AR	VoxCPM	帧级	半离散（FSQ 瓶颈）	Local Diffusion	语义-声学层次化，FSQ 平衡离散和连续
Token-level Diffusion	VibeVoice	Token（7.5Hz）	连续双分支 latent	Diffusion Head	LLM 每位置接 Diffusion Head

4.4 DiT-AR 方案的特点总结

维度	特点
优势	无（或低）量化信息损失、声学细节保留完整、端到端简洁、Scaling 特性好
劣势	连续分布建模难度大、训练不如离散稳定、推理需多步 Diffusion（速度受限）
内部分化	AR 粒度从单帧（MeLA-TTS）→ Patch（DiTAR）→ Token（VibeVoice），粒度越粗推理越快但局部建模越依赖 NAR 模块
流式能力	天然支持（自回归逐步生成），Diffusion 步数影响延迟
质量上限	理论上高于纯离散方案（连续表征信息无损或低损）

五、方案四：非自回归 DiT / Flow Matching

5.1 核心思想

完全非自回归地生成整段语音，通过 Flow Matching 或 Diffusion 过程从噪声直接映射到目标 Mel / 波形。

不做逐 token / 逐帧的序列生成，而是在全局上下文中并行生成。

5.2 典型系统详解

E2 TTS（Microsoft，2024.06）

1	Text → [Character + Filler Tokens] → [Flow Matching Transformer] → Mel → [Vocoder] → Waveform

与 F5-TTS 思路高度一致，同期独立工作
仅两个模块：Flow Matching Transformer + Vocoder
通过 audio infilling task 训练
达到 human-level naturalness，与 Voicebox / NaturalSpeech 3 可比

F5-TTS（SWivid，2024.10，ACL 2025）

纯 NAR Flow Matching + DiT 架构：

Text
  → [Character Tokenization + Filler Padding]
  → [ConvNeXt V2 Text Refinement]
  → [DiT Flow Matching: v_t(x_t), t ∈ [0,1]] → Mel Spectrogram
  → [Vocoder] → Waveform

关键技术：

最简设计：仅 Flow Matching Transformer + Vocoder 两个模块，无需 duration model / 音素对齐 / G2P
Filler Token 填充：文本字符序列用 ⟨F⟩ token 填充到与 Mel 长度一致，隐式学习对齐
Optimal Transport Flow：学习从高斯先验 N(0,I) 到真实 Mel 的最优传输向量场
Sway Sampling：推理时的流步采样策略，无需重训即可提升性能和效率

性能：RTF = 0.15，训练数据 100K 小时

意义：证明了”极简设计 + 大数据 + Flow Matching”可以达到 SOTA

Seed-TTS DiT 变体（字节跳动，2024.06）

Seed-TTS 的非自回归变体
纯 Diffusion Transformer，不依赖预估音素时长
与 AR 变体性能可比，在 speech editing 上更具优势

LongCat-AudioDiT（美团 LongCat Team，2025）

核心创新——直接在波形 latent 空间建模：

与之前所有基于 Mel 频谱的 NAR 方案不同，LongCat-AudioDiT 的核心发现是：训练 diffusion 模型直接在波形 latent 空间上工作，比基于 Mel 等中间声学表征的传统范式带来显著提升。系统仅包含两个组件：Wav-VAE + DiT，完全绕过 Mel 频谱和独立 vocoder，消除级联转换带来的复合误差。

关键技术：

Wav-VAE：全卷积音频自编码器，直接在时域上将原始波形压缩为连续 latent 表征
**Conditional Flow Matching (CFM)**：基于 rectified flow，通过线性插值构造噪声轨迹，DiT backbone 用 cross-attention 隐式学习文本-语音对齐
训练-推理不匹配修正：发现并修正了 prompt 区域 noisy latent 在推理时漂移的长期问题——在每个推理步强制将 prompt 区域覆写为 GT 轨迹值
**Adaptive Projection Guidance (APG)**：替代传统 CFG，将 guidance 残差分解为平行/正交分量，选择性衰减平行分量以消除过饱和 artifact
双层文本编码：同时使用 UMT5 的 last hidden state（高层语义）和 raw word embedding（低层词汇/语音线索），解决单纯 last hidden state 导致的 intelligibility 问题
REPA（Representation Alignment）：用预训练 mHuBERT 特征对齐 DiT 第 8 层输出，不提升生成质量但显著加速训练收敛
Scaling 特性：模型从 1B 扩展到 3.5B 时性能持续提升

参数规模：1B / 3.5B 两个版本

训练数据：100 万小时中英语音

性能：

在 Seed 基准上超越 Seed-TTS（前 SOTA），SIM 从 0.809→0.818（Seed-ZH）、0.776→0.797（Seed-Hard）
推理使用 16 步 Euler ODE 求解

重要发现：Wav-VAE 重建保真度更高并不一定带来更好的 TTS 性能，揭示了 VAE 与 TTS backbone 之间的非直觉耦合关系，对 WavVAE 选型有重要参考价值

意义：是目前纯 NAR diffusion TTS 的最强开源方案，证明了”Wav-VAE latent 空间 > Mel 空间”这一关键结论，同时开源了代码和权重

MegaTTS 3 / S-DiT（浙江大学 / 字节跳动，2025.02）

关键技术：

Sparse Alignment 策略：在强制对齐区域内为每个音素随机保留一个 anchor，其余位置用 mask token 填充，与 latent 序列拼接后输入 DiT。相比硬对齐（限制搜索空间、降低自然度）和隐式对齐（鲁棒性差），sparse alignment 兼顾两者优势——提供粗粒度位置信息降低对齐学习难度，同时不限制模型搜索空间
WaveVAE 端到端：全卷积 VAE 将波形压缩为 25Hz 连续 latent，解码器直接重建波形，无需独立 vocoder
Piecewise Rectified Flow (PeRFlow) 加速：将 flow 轨迹分段蒸馏，25 步降至 8 步即可生成高质量 1 分钟语音，质量几乎无损
Multi-Condition CFG：分离文本引导尺度 α_txt 和说话人引导尺度 α_spk，实现独立的发音精度控制和音色保持；发现 α_txt 可调节口音强度（accent intensity），为口音 TTS 提供新方向
Masked Speech Modeling 训练：随机将 10%~90% 的 latent 序列 mask，模型学习条件生成

参数规模：0.3B（WaveVAE）+ 0.5B（S-DiT）

训练数据：60K 小时 LibriLight

性能：

LibriSpeech test-clean：SIM-O = 0.71，WER = 1.82%（25 步），加速版 WER = 1.86%（8 步，RTF = 0.124）
Seed-TTS-eval test-zh：CER = 1.52%，SIM = 79.0（0.5B 版本，据 GLM-TTS 论文引用）
在 0.3B 参数下即超越 F5-TTS、CosyVoice、MaskGCT 等系统

意义：提出了 sparse alignment 这一折中方案，有效解决了 NAR Diffusion TTS 中隐式对齐鲁棒性差 vs 硬对齐自然度受限的核心矛盾；PeRFlow 8 步生成 1 分钟语音展示了极高的推理效率

ZipVoice（小米 / k2-fsa / Daniel Povey，2025.06，ASRU 2025）

关键技术：

Zipformer Backbone：将 ASR 领域验证的 Zipformer 架构引入 TTS flow matching decoder，U-Net 式多分辨率下采样（1x/2x/4x/2x/1x）+ bypass 连接 + 卷积模块，在极小参数量下保持强建模能力
Average Upsampling 对齐：假设句内 token 时长均匀，直接将文本特征均匀上采样到 Mel 长度，无需 duration model / G2P / 音素对齐，比 F5-TTS 的 filler token 方案 intelligibility 显著更高
Flow Distillation 加速：两阶段蒸馏——第一阶段用预训练 teacher 的 2 步 CFG 推理构造 teacher vector field 蒸馏 student；第二阶段用 student 的 EMA 版本自蒸馏。蒸馏后 student 内化 CFG 效果，推理时无需额外 unconditional 前向传播
Time-Dependent CFG：早期步骤仅丢弃文本条件（关注内容），后期步骤丢弃文本+音频条件（关注全局质量）

参数规模：仅 123M（F5-TTS 的 1/3）

训练数据：100K 小时 Emilia 数据集

性能：

Seed-TTS test-zh：CER = 1.40%，SIM = 0.751（16 NFE）；蒸馏后 CER = 1.34%（8 NFE）/ 1.39%（4 NFE）
RTF = 0.0125（4 NFE，GPU），比 F5-TTS 快 23.7 倍（GPU）/ 32.6 倍（CPU）
4 NFE 蒸馏版在单 CPU 线程上接近实时（RTF = 1.22）
音质（WER/UTMOS）与 F5-TTS、MaskGCT 等 SOTA 系统可比

意义：证明了 NAR Flow Matching TTS 在极小参数量（123M）和极少采样步数（4 步）下仍可达到 SOTA 级音质，同时推理速度提升 1-2 个数量级；是目前最小、最快的开源 SOTA 级零样本 TTS 系统之一，CPU 近实时推理显著降低了部署门槛

5.3 NAR DiT / Flow Matching 方案的特点总结

维度	特点
优势	推理并行度高（可一次生成整段）、设计极简、无自回归误差累积
劣势	缺乏因果结构导致长文本一致性不如 AR、流式困难、需预知目标长度
典型推理	多步 ODE/SDE 求解（通常 16-32 步），可用 Sway Sampling / 蒸馏加速
适用场景	短到中等长度语音生成、speech editing、voice conversion

六、方案五：离散 Diffusion / Masked Diffusion

6.1 核心思想

结合离散 token 表征和非自回归生成，通过 masked prediction（掩码预测）或 discrete diffusion（离散扩散） 的方式并行生成 token 序列。

既享受离散 token 与 LLM 生态兼容的优势，又获得 NAR 的并行生成效率。

6.2 典型系统详解

MaskGCT（ICLR 2025）

两阶段 Masked Generative 架构：

Text
  → [Text-to-Semantic Model: Mask & Predict] → Semantic Tokens (from SSL model)
  → [Semantic-to-Acoustic Model: Mask & Predict] → Acoustic Tokens
  → [Speech Acoustic Codec Decoder] → Waveform

关键技术：

Mask-and-Predict 范式：训练时随机 mask token 并学习预测，推理时指定目标长度后并行生成所有 token
无需显式对齐：不需要 text-speech alignment 或 phone-level duration prediction
两阶段设计：SSL 语义 token → Acoustic token，逐步细化
零样本能力：跨语言、情感控制、风格模仿、语速控制、声音转换

训练数据：100K 小时 in-the-wild speech

意义：Masked Generative 在 TTS 上的标杆工作，ICLR 2025 接收

OmniVoice（k2-fsa / 新一代 Kaldi，2026.04）

离散 Masked Diffusion + 双向 Transformer 架构：

Text
  → [Bidirectional Transformer + Discrete Masked Diffusion]
  → Multi-codebook Acoustic Tokens（单阶段，无 semantic 中间表征）
  → [Codec Decoder] → Waveform

关键技术：

单阶段直接生成：跳过传统的 text→semantic→acoustic 两阶段，直接从文本到多码本声学 token
Full-codebook Random Masking：高效训练策略
预训练 LLM 初始化：确保文本理解和 intelligibility
极致多语言：支持 600+ 种语言

性能：RTF = 0.025（40x 实时），581K 小时开源多语言数据

意义：离散 diffusion 在大规模多语言 TTS 上的成功应用，推理速度极快

LLaDA-TTS（百融 BRVoice Team，2026.03）

Masked Discrete Diffusion + 双向 Transformer 架构：

关键技术：

AR→Masked Diffusion 范式迁移：仅修改注意力掩码（因果→双向）和训练目标（next-token→masked prediction），tokenizer、prompt 格式和声学模型完全不变，可无缝迁移至任何 LLM-based AR TTS 系统（VALL-E、Seed-TTS、Spark-TTS 等）
Label Shift 知识迁移：保留 AR 的”位置 i 预测 token i+1”惯例，使预训练 AR 权重可直接初始化 diffusion 模型而无需重训输出层，仅需 50 小时微调数据即可完成范式转换（从头训练 CER 45.27% vs AR 初始化 0.98%）
理论保证（ε-Forward Dependence）：证明了声学 token 的时间局部性使 AR 预训练权重对双向 masked prediction 近似最优（Theorem 1），解释了 AR 初始化的快速收敛和生成时涌现的近似从左到右 unmasking 顺序
零样本语音编辑：双向注意力架构天然支持 speech editing（词级插入、删除、替换），无需额外训练——通过特定注意力头（L16-H2 / L11-H5）实现精确的文本-语音对齐（MAE ≈ 52ms），选择性 mask 目标区域后重新生成
推理成本与序列长度解耦：固定 T 步前向传播完成生成，不依赖 KV cache

训练数据：仅 6,000 小时 Emilia 数据集（58% 中文 / 42% 英文）+ 50 小时微调

6.3 离散 Diffusion / Masked Generative 方案的特点总结

维度	特点
优势	并行生成效率高、与 LLM 生态兼容（离散 token）、推理速度极快
劣势	多步迭代精化需要的步数影响质量、离散化信息损失仍然存在
与 NAR Flow Matching 的区别	操作在离散空间（token masking/denoising）而非连续空间（ODE flow）
推理速度	通常比连续 diffusion 快很多（OmniVoice RTF=0.025）

七、语音表征与 Codec 技术对比

语音表征是 TTS 大模型的基础组件，直接决定了信息保真度、序列长度和下游建模难度。

7.1 主流 Codec / Tokenizer 一览

Codec	类型	采样率	帧率	码本	比特率	使用系统
Encodec	RVQ（多码本）	24kHz	75Hz	8层, 1024	6 kbps	VALL-E 系列
SNAC	RVQ（多码本）	24kHz	~83Hz	多层	可变	Orpheus
Cat (Causal Audio Tokenizer)	RVQ	24kHz	12.5Hz	32层, 10-bit	可变	MOSS-TTS
BiCodec	单流解耦	16kHz	-	语义+全局	低	Spark-TTS
XCodec2	单码本	16kHz	50Hz	65536	-	Llasa
CosyVoice Codec (FSQ)	FSQ 单码本	24kHz	25Hz	FSQ	-	CosyVoice 2/3
WavTokenizer	单码本 VQ	24kHz	40-75Hz	单层	0.5-0.9 kbps	-
Qwen-TTS-Tokenizer-25Hz	单码本	-	25Hz	-	-	Qwen3-TTS
Qwen-TTS-Tokenizer-12Hz	多码本	-	12.5Hz	16层	-	Qwen3-TTS
VibeVoice Tokenizer	连续双分支	-	7.5Hz	连续 latent	-	VibeVoice

7.2 离散表征 vs 连续表征核心对比

维度	离散 Token（RVQ/FSQ/VQ）	连续表征（Mel/VAE Latent）
信息保真度	有量化损失（”量化天花板”）	无量化损失，理论上限更高
LLM 兼容性	天然兼容 next-token prediction	需要 Diffusion Head 或特殊解码器
序列长度	多码本膨胀问题（需 Dual-AR / Delay Pattern 解决）	由帧率决定，通常较短
训练稳定性	离散目标（交叉熵）训练稳定	连续分布估计（Diffusion/FM）训练难度较大
RL 对齐	天然适合 RLHF pipeline	需要设计连续动作空间的 RL
Vocoder 依赖	通常内嵌在 codec 解码器中	需要额外 vocoder（Mel→Wave）
代表系统	FishAudio S2, MOSS-TTS, Qwen3-TTS, OmniVoice	CosyVoice 2 (Mel), DiTAR, MeLA-TTS, VibeVoice, F5-TTS

7.3 表征趋势

帧率持续降低：从 Encodec 的 75Hz → Cat 的 12.5Hz → VibeVoice 的 7.5Hz，目标是缩短序列长度
单码本回归：越来越多系统（Spark-TTS, CosyVoice 2, XCodec2）尝试用更强的单码本替代多码本，从根源上消除 RVQ 膨胀问题
FSQ 替代 VQ：Finite Scalar Quantization 避免码本坍缩，CosyVoice 2 已验证
语义-声学解耦：BiCodec（Spark-TTS）、VoxCPM 的 FSQ 瓶颈层，都在探索自动化语义-声学分离
连续表征兴起：VibeVoice 的连续 tokenizer 证明了连续 latent 在低帧率下的可行性

八、训练范式与对齐技术

8.1 训练阶段

现代 TTS 大模型普遍采用类似 LLM 的三阶段训练范式：

1	Pre-training → Supervised Fine-Tuning (SFT) → Reinforcement Learning (RL) Alignment

阶段	目标	典型数据规模	代表系统
Pre-training	大规模无监督/弱监督语音建模	百万~千万小时	FishAudio S2 (10M hrs), Qwen3-TTS (5M hrs)
SFT	特定说话人/风格/控制能力适配	千~万小时精标数据	CosyVoice 1/2/3
RL Alignment	优化人类偏好（发音准确性、自然度、说话人相似度）	基于 reward model 评分	FishAudio S2 (GRPO), Seed-TTS

8.2 RL 对齐技术对比

方法	代表系统	优势	劣势
DPO	通用 TTS 后训练	无需训练 reward model，直接从偏好对学习	偏好对构建成本高，优化上限受限
GRPO	FishAudio S2	避免 PPO 的 value model 内存开销，适合长音频上下文	需要多次采样
PPO	经典 RLHF	在线优化，效果上限高	Value model 内存开销大，训练复杂

8.3 Reward Model 设计

维度	常用评估信号
发音准确性	ASR WER / CER
音质	UTMOS / DNSMOS / PESQ
说话人相似度	Speaker embedding cosine similarity（SIM）
韵律自然度	MOS 人工评分 / 专用韵律评估模型
可控性	Instruct 控制率 / 情感分类准确率

九、全方案横向对比

9.1 架构维度对比

方案	生成范式	表征类型	声学建模器	系统复杂度	流式支持
LLM+DiT 级联	AR (LLM) + NAR (DiT)	离散语义 + 连续 Mel	DiT / Flow Matching	高（多阶段）	需特殊设计
LLM+RVQ Dual-AR	AR (Dual-AR)	离散多码本	Transformer decoder	中	天然支持
DiT-AR 连续表征	AR + Diffusion/FM	连续 latent / Mel / 半离散	DiT / FM (Local)	中~高	天然支持（Diffusion 步数影响延迟）
NAR DiT / FM	NAR (Flow Matching)	连续 Mel	DiT / Transformer	低	困难
离散 Diffusion	NAR (Masked/Diffusion)	离散 token	Bidirectional Transformer	低~中	困难

9.2 性能维度对比

方案	音质上限	推理速度	长文本稳定性	可控性	训练友好度/易用性
LLM+DiT 级联	★★★★☆	★★★☆☆	★★★★☆	★★★★★	★★★☆☆
LLM+RVQ Dual-AR	★★★★☆	★★★★☆	★★★★☆	★★★★☆	★★★★☆
DiT-AR 连续表征	★★★★★	★★★★☆	★★★★★	★★★★☆	★★☆☆☆
NAR DiT / FM	★★★★☆	★★★★☆	★★★☆☆	★★★☆☆	★★★★★
离散 Diffusion	★★★☆☆	★★★★★	★★★☆☆	★★★☆☆	★★★★☆

注：DiT-AR 方案的推理速度和可控性评分取决于子类型：

逐帧 AR（MeLA-TTS）较慢但精细，Patch-level AR（DiTAR）通过 patch 聚合实现较好的速度-质量平衡。

9.3 各方案的最佳适用场景

方案	最佳场景	不适合场景
LLM+DiT 级联	需要精细可控的场景（Instruct TTS）、多阶段渐进优化	对推理延迟极度敏感的实时场景
LLM+RVQ Dual-AR	大规模生产部署、实时流式、需快速迭代和 RL 对齐	对音质有极致要求（量化天花板限制）
DiT-AR 连续表征	追求最高音质上限、长文本/多说话人叙述（逐 token/patch AR）	对推理速度有严格要求的实时场景
NAR DiT / FM	离线批量生成、speech editing、voice conversion	长文本实时流式
离散 Diffusion	大规模多语言、需要极快推理的场景	对精细韵律控制要求高

十、技术趋势与展望

10.1 已确认的技术趋势

RL 对齐成为标配：几乎所有 2025+ 的新系统都引入了 RL 后训练阶段
帧率持续压缩：75Hz → 25Hz → 12.5Hz → 7.5Hz，目标是让 LLM 能处理更长的音频上下文
预训练 LLM 直接复用：Qwen2.5 / Qwen3 / Llama 等通用 LLM 直接作为 backbone，而非从头训练语音模型
单码本 + 强 Codec 趋势：用更好的 codec 设计（FSQ / BiCodec / WavTokenizer）替代多码本 RVQ，简化下游建模
连续表征兴起：DiTAR、MeLA-TTS、VibeVoice 等证明了连续表征方案的竞争力，质量上限可能高于离散方案
训练数据规模飙升：从 100K 小时到百万/千万小时，数据 scaling 是性能提升的关键驱动力

10.2 值得关注的技术方向

Tokenizer-Free 端到端：VoxCPM 的”半离散”FSQ 瓶颈设计是一个有意思的探索方向——不完全离散、也不完全连续
极致多语言：OmniVoice 的 600+ 语言覆盖预示着 TTS 向通用语音基础模型的演进
Streaming-First 设计：Qwen3-TTS 的 97ms 首包延迟 + CosyVoice 2 的 Chunk-Aware FM，流式能力从附加功能变成核心设计约束
统一语音理解与生成：将理解任务与生成任务统一建模

10.3 开放问题

问题	现状	展望
离散 vs 连续表征，哪个是终局？	两条路线都有 SOTA 级成果	可能长期共存，场景驱动选择
AR vs NAR，TTS 的最优范式？	AR+NAR 混合（如 DiT-AR）是有前景的折中	AR 保证一致性、NAR 保证效率，混合方案可能胜出
训练数据的 Scaling Law？	百万~千万小时已有探索	数据质量 vs 数据量的 trade-off 尚未完全明确
可控性的上限在哪里？	Instruct 控制率 ~80%，自然语言描述初步验证	从标签控制 → 自然语言控制 → 意图理解控制
推理效率的极限？	RTF 0.025 (OmniVoice) ~ 0.2 (FishAudio S2)	Speculative decoding / 蒸馏 / 硬件优化

附录：代表模型速查表

方案类别	系统	机构	时间	子类型	参数量	训练数据	开源	论文
方案一：LLM+DiT 级联	Tortoise-TTS	James Betker	2023.05	AR + DDPM（先驱）	~1B	-	✅	arxiv 2305.07243
	CosyVoice 1	阿里	2024.07	LLM + FM	-	~17万 hrs	✅	官方技术报告
	CosyVoice 2	阿里	2024.12	LLM + Chunk-Aware FM	~1B	~17万 hrs	✅	arxiv 2412.10117
	CosyVoice 3	阿里	2025.05	LLM + Chunk-Aware FM	1.5B	100万 hrs	✅	arxiv 2505.17589
	Seed-TTS	字节	2024.06	AR + DiT / 纯 DiT	-	-	❌	arxiv 2406.02430
	IndexTTS 2.5	Index Team	2026.01	LLM + Zipformer	-	-	✅	arxiv 2601.03888
	FireRedTTS-1S	小红书	2025.03	LLM + 双模式声学解码	-	-	✅	arxiv 2503.20499
	MiniMax-Speech	MiniMax	2025.05	AR + Flow-VAE	~665M	-	❌	arxiv 2505.07916
	GLM-TTS	智谱 AI / 清华	2025.12	LLM + DiT + GRPO	1.5B	10万 hrs	✅	arxiv 2512.14291
方案二：LLM+RVQ / Dual-AR	FishAudio S2	Fish Audio	2026.03	Dual-AR	4.4B	1000万+ hrs	✅	arxiv 2603.08823
	MOSS-TTS	OpenMOSS	2025	Dual-AR / Delay Pattern	8B / 1.7B	-	✅	GitHub
	Qwen3-TTS	阿里	2026.01	多码本并行	-	500万+ hrs	✅	arxiv 2601.15621
方案三：DiT-AR 连续表征	DiTAR	字节	2025.02	Patch-level AR	-	-	✅	arxiv 2502.03930
	MeLA-TTS	-	2025.09	Frame-level AR	-	-	❌	arxiv 2509.14784
	VoxCPM	OpenBMB/清华	2025.09	层次化半离散 AR	0.5B	180万+ hrs	✅	arxiv 2509.24650
	VibeVoice	Microsoft	2025.08	Next-Token Diffusion	-	-	✅	arxiv 2508.19205
	Ming-Omni-TTS	蚂蚁 inclusionAI	2026.02	Patch AR + DiT Head (MoE)	16.8B-A3B / 0.5B	-	✅	arxiv 2506.09344
方案四：NAR DiT / FM	F5-TTS	SWivid	2024.10	NAR Flow Matching	-	10万 hrs	✅	arxiv 2410.06885
	E2 TTS	Microsoft	2024.06	NAR Flow Matching	-	-	❌	arxiv 2406.18009
	Seed-TTS DiT	字节	2024.06	NAR Diffusion	-	-	❌	arxiv 2406.02430
	LongCat-AudioDiT	美团	2026.03	NAR Diffusion (Wav-VAE)	1B / 3.5B	100万 hrs	✅	arxiv 2603.29339
	MegaTTS 3	浙大 / 字节	2025.02	NAR Flow (WaveVAE + S-DiT)	0.8B	6万 hrs	✅	arxiv 2502.18924
	ZipVoice	小米 / k2-fsa	2025.06	NAR Flow (Zipformer)	123M	10万 hrs	✅	arxiv 2506.13053
方案五：离散 Diff / Masked	MaskGCT	-	2024.09	Masked Generative	-	10万 hrs	✅	arxiv 2409.00750
	OmniVoice	k2-fsa	2026.04	离散 Masked Diffusion	-	58万 hrs	✅	arxiv 2604.00688
	LLaDA-TTS	百融 BRVoice	2026.03	Masked Discrete Diffusion	-	6K hrs	✅	arxiv 2603.26364

声明：本报告基于公开发表的论文、技术报告和开源仓库整理，部分系统的内部实现细节可能与公开信息有差异。技术参数以各系统官方发布为准。