专题分享 | 截止 2026-Q1 业界主流 TTS 模型架构调研
白御青 Lv5

本报告对当前主流 TTS 大模型的技术方案进行系统化分类、架构解析和横向对比,覆盖从离散 token 到连续表征、从自回归到非自回归的主要技术路线。

一、技术方案总览与分类框架

1.1 分类维度

TTS 大模型的核心技术差异体现在以下四个维度:

# 维度 可选项
1 生成范式 自回归(AR)/ 非自回归(NAR)/ 混合(AR+NAR)
2 语音表征 离散 token(RVQ / FSQ / 单码本)/ 连续特征(Mel / VAE latent)
3 声学建模器 AR LLM / Dual-AR / DiT(Flow Matching) / Diffusion LLM
4 系统结构 级联(多阶段)/ 端到端(单阶段)

1.2 五大主流技术路线

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
┌──────────────────────────────────────────┐
│ TTS 大模型技术方案分类 │
└─────┬───────┬───────┬───────┬───────┬────┘
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
┌───────────┐┌───────────┐┌───────────┐┌───────────┐┌───────────┐
│ 方案一 ││ 方案二 ││ 方案三 ││ 方案四 ││ 方案五 │
│ LLM+DiT ││ LLM+RVQ ││ DiT-AR ││ NAR DiT ││ 离散 Diff │
│ 级联 ││ Dual-AR ││ 连续表征 ││ /FM ││ Masked │
├───────────┤├───────────┤├───────────┤├───────────┤├───────────┤
│Tortoise ││FishAudio ││DiTAR ││F5-TTS ││MaskGCT │
│CosyVoice ││ -S2 ││MeLA-TTS ││E2 TTS ││OmniVoice │
│ 1/2/3 ││MOSS-TTS ││VoxCPM ││Seed-TTS ││LLaDA-TTS │
│Seed-TTS ││Qwen3-TTS ││VibeVoice ││ -DiT ││ │
│IndexTTS ││ ││Ming-Omni ││LongCat- ││ │
│FireRedTTS ││ ││ -TTS ││ AudioDiT ││ │
│MiniMax ││ ││ ││MegaTTS 3 ││ │
│GLM-TTS ││ ││ ││ZipVoice ││ │
└───────────┘└───────────┘└───────────┘└───────────┘└───────────┘

:DiT-AR 类别涵盖了多种子类型:

  • 逐 patch/帧 Diffusion AR(DiTAR, MeLA-TTS, VibeVoice…)
  • 层次化半离散 AR(VoxCPM)

它们的共同特征是在连续(或半连续)表征空间上进行自回归建模,用 Diffusion / Flow Matching 作为每步的生成器


二、方案一:LLM + DiT 级联架构

2.1 核心思想

将 TTS 分解为两个阶段,两个阶段独立训练、级联推理

  1. 语义建模阶段:LLM 从文本自回归生成离散语义 token
  2. 声学建模阶段:DiT / Flow Matching 模型将语义 token 转换为连续声学特征(Mel 或 VAE latent),再经 vocoder (广义) 生成波形

2.2 典型系统详解

Tortoise-TTS(James Betker,2023.05)— 先驱工作

多阶段 AR + DDPM 架构

1
2
3
4
5
Text + Reference Audio
→ [GPT-2 AR Model] → Latent Code 序列
→ [CLVP Reranker] → 选择最佳候选
→ [DDPM Diffusion] → Mel Spectrogram
→ [UnivNet Vocoder] → Waveform

关键技术

  • AR + Diffusion 双阶段范式:将图像生成领域的 AR Transformer + DDPM 组合引入 TTS,是”LLM + DiT 级联”的早期形态
  • CLVP(Contrastive Language-Voice Pre-training):对多个 AR 候选做 rerank,提升生成质量
  • Mel 频谱作为中间表征:提供 256x 压缩率,在计算效率和信息保留间取得平衡

参数规模:~1B(含 AR + Diffusion + Vocoder)

历史意义:首个将 LLM scaling 思想系统性应用于 TTS 的开源工作,”Better speech synthesis through scaling” 的理念深刻影响了后续所有 TTS 大模型


CosyVoice 系列(阿里通义实验室,2024.07 → 2024.12 → 2025.05)

CosyVoice 是 LLM+DiT 级联方案的典型代表,经历了三代快速迭代,清晰展示了该技术路线的演进脉络:

CosyVoice 1(2024.07)

1
2
3
4
5
Text
→ [Supervised Semantic Tokenizer (Whisper + VQ)] → Semantic Tokens (50Hz)
→ [LLM] → AR 生成语义 token 序列
→ [Conditional Flow Matching] → Mel Spectrogram
→ [HiFi-GAN Vocoder] → Waveform
  • Supervised Semantic Token:创新性地使用多语言 ASR 模型(Whisper)编码器 + VQ 提取语义 token,而非无监督 SSL token,提供更强的语义对齐
  • 奠定了”LLM → FM → Vocoder”三级 pipeline 的基础架构

CosyVoice 2(2024.12)

1
2
3
4
5
Text
→ [Supervised Semantic Tokenizer] → Semantic Tokens (25Hz, FSQ)
→ [Qwen2.5-0.5B LLM] → AR 生成语义 token 序列
→ [Chunk-Aware Causal Flow Matching] → Mel Spectrogram (50Hz)
→ [HiFi-GAN Vocoder] → Waveform

相比 v1 的关键升级:

  • FSQ 替代 VQ:Finite Scalar Quantization 实现 100% 码本利用率,解决 token 坍缩
  • 帧率减半:语义 token 从 50Hz 降至 25Hz,序列长度减半
  • Chunk-Aware Causal Flow Matching:支持流式+非流式统一模型
  • 直接复用预训练 LLM:使用 Qwen2.5-0.5B 作为 backbone

参数规模:LLM 0.5B,总系统约 1B

CosyVoice 3(2025.05)

架构延续 v2 的 LLM + Chunk-Aware FM 设计,核心升级在数据规模和后训练:

  • 数据 Scaling:训练数据从 17 万小时扩至 100 万小时,覆盖 9 种语言 + 18 种中文方言
  • 模型 Scaling:参数从 0.5B 扩至 1.5B
  • Tokenizer 升级:新增多任务监督训练(ASR + 情感识别 + 语种识别 + 音频事件检测 + 说话人分析),显著提升韵律自然度
  • 可微分 Reward Model:提出适用于 LLM-based TTS 的通用后训练 reward model

参数规模:1.5B

CosyVoice 系列演进总结

版本 时间 Tokenizer LLM 声学模型 训练数据 核心升级
v1 2024.07 Whisper+VQ, 50Hz LLM Conditional FM ~17万 hrs 奠定 LLM+FM 范式
v2 2024.12 FSQ, 25Hz Qwen2.5-0.5B Chunk-Aware Causal FM ~17万 hrs FSQ + 流式 + 帧率减半
v3 2025.05 多任务监督, 25Hz 1.5B Chunk-Aware Causal FM 100万 hrs 数据/模型 scaling + RL

Seed-TTS(字节跳动,2024.06)

双变体设计

1
2
3
4
5
6
7
8
9
10
11
[AR 变体]
Text + Reference
→ [Speech Tokenizer] → Reference Tokens
→ [AR Language Model] → Speech Token 序列
→ [Diffusion Transformer] → 连续语音表征(粗→细)
→ [Acoustic Vocoder] → Waveform

[DiT 变体 / Seed-TTS DiT]
Text + Reference
→ [Diffusion Transformer (NAR)] → 语音表征(端到端)
→ [Vocoder] → Waveform

关键技术

  • AR + DiT 级联(AR 变体):LLM 自回归生成语音 token → DiT 声学模型以 coarse-to-fine 方式生成连续表征 → Vocoder
  • 纯 DiT 端到端(DiT 变体):完全非自回归 diffusion 架构,不依赖预估音素时长,直接端到端生成,在 speech editing 上更具优势
  • RL 后训练:增强鲁棒性、说话人相似度和可控性
  • 零样本 in-context learning:支持跨语言生成和说话人微调

意义:两个变体(AR 级联 vs NAR DiT)性能可比的结论,为业界提供了重要的架构选择参考


IndexTTS 2 / 2.5(Index Team,2025)

LLM + Zipformer 架构

1
2
3
4
Text + Reference
→ [T2S: Transformer LM] → Semantic Tokens (25Hz)
→ [S2M: Zipformer-based NAR] → Mel Spectrogram
→ [Vocoder] → Waveform

关键技术

  • T2S(Text-to-Semantic):Transformer LM 自回归生成语义 token
  • S2M(Semantic-to-Mel):v2 使用 U-DiT backbone,v2.5 升级为 Zipformer,实现参数缩减和更快的 Mel 生成
  • 语义 Codec 压缩:v2.5 将帧率从 50Hz 降至 25Hz,序列长度减半
  • GRPO 后训练:在 T2S 阶段引入 Group Relative Policy Optimization,提升发音准确率和自然度
  • 跨语言建模:提出边界感知对齐、token 级拼接、指令引导生成三种策略,支持中英日西四语

性能:v2.5 RTF 相比 v2 提升 2.28 倍,WER 和 SIM 保持可比

特色:零样本情感 TTS,支持情感-说话人解耦和跨语言情感韵律复制


FireRedTTS / FireRedTTS-1S(小红书 FireRed Team,2024.09 / 2025.03)

LLM + 双模式声学解码架构

1
2
3
4
Text + Reference
→ [Semantic-Aware Tokenizer] → Semantic Tokens
→ [AR Language Model] → 语义 token 序列
→ [Semantic-to-Acoustic Decoder] → Waveform (48kHz)

关键技术

  • 语义感知 Speech Tokenizer:压缩语音为包含充分语义信息的离散 token
  • LM-based AR 解码:根据 prompt 文本和音频自回归生成语义 token
  • Flow Matching 解码:按 chunk 生成,RTF = 0.1,延迟 300ms,音质更优
  • Multi-Stream LM 解码(LLM+RVQ 模式):逐帧自回归 + delay pattern,RTF = 0.3,延迟 150ms,延迟更低

:FireRedTTS 的 Multi-Stream LM 解码模式本质上属于方案二(LLM+RVQ)的技术路线,该系统横跨方案一和方案二两种架构。


MiniMax-Speech(MiniMax,2025.05)

AR Transformer + Flow-VAE + Learnable Speaker Encoder 架构

1
2
3
4
5
Reference Audio → [Learnable Speaker Encoder] → Timbre Embedding
Text + Timbre
→ [AR Transformer (GPT-2 based, 441M)] → VQ-VAE Tokens
→ [Flow Matching (112M)] → 增强后的 Mel
→ [Flow-VAE Decoder (61M)] → Waveform

关键技术

  • Learnable Speaker Encoder:从参考音频中提取音色特征,无需转录文本,实现零样本声音克隆
  • Flow-VAE:RealNVP 架构,包含编码器(18M)+ 解码器(41M)+ 多分辨率判别器(MPD+MSD+MRD),增强整体音质
  • AR 建模优势:论文明确指出 AR 模型在韵律、语调、自然度上优于 NAR diffusion 模型,且无需显式音素时长对齐
  • 可扩展性:通过 LoRA 实现情感控制、文本描述生成声音、专业声音克隆等下游任务,无需修改基座模型

总参数规模:~665M(含 AR Transformer 441M + Flow Matching 112M + Flow-VAE Encoder 18M + Flow-VAE Decoder 41M + Learnable Speaker Encoder 及其他辅助模块约 53M)


GLM-TTS(智谱 AI / 清华大学,2025.12)

关键技术

  • 优化的 Speech Tokenizer:基于 GLM-4-Voice 的 Whisper-VQ tokenizer 改进,帧率从 12.5Hz 增加至 25Hz(时间分辨率更高,但序列长度翻倍),词表从 16K 扩至 32K,新增 Pitch Estimator (PE) 模块改善韵律建模,采用非因果架构提升 ASR 和音高估计精度
  • GRPO 多奖励 RL 对齐:融合四维奖励信号(CER 发音准确性 + SIM 音色相似度 + Emotion 情感表达 + Laughter 副语言自然度),配合动态采样(自动触发重采样避免梯度消失)和自适应梯度裁剪(ε_high > ε_low 鼓励低概率 token 生成)
  • LoRA 高效声音定制:仅微调约 15% 核心参数,1 小时单说话人数据即可达到全参数微调的声音相似度和自然度,训练成本降低 80%
  • Phoneme-in 混合输入:文本+音素混合输入方案,解决多音字和生僻字发音问题(PER 从 13.23% 降至 5.14%),无需牺牲韵律自然度
  • Vocos2D Vocoder:将 1D 卷积替换为 2D 卷积 + DiT 式残差连接,改善频率子带建模,混合高质量歌声数据扩展音域

参数规模:1.5B

训练数据:仅 10 万小时(远低于 CosyVoice 3 的 100 万小时和 FireRedTTS-2 的 110 万小时)

性能

  • Seed-TTS-eval test-zh:CER = 1.03%,SIM = 76.1(RL 后 CER = 0.89%,SIM = 76.4)
  • 在 10 万小时数据量下达到与百万小时级系统可比的性能,数据效率极高

意义

  • 在有限数据规模下通过 GRPO RL 对齐和精细化 tokenizer 优化达到 SOTA 级性能,是 LLM+DiT 级联方案中数据效率最高的代表之一
  • Phoneme-in 方案为中文多音字精准控制提供了实用的工业级解决方案

2.3 LLM + DiT 级联方案的特点总结

维度 特点
优势 各模块独立优化、可复用预训练 LLM、语义-声学解耦清晰、稳定性/可控性好
劣势 级联 error propagation、两阶段训练复杂度、推理延迟较高
语音表征 通常为离散语义 token + 连续 Mel(或 VAE latent)
流式能力 取决于 DiT 模块设计(CosyVoice 2 的 Chunk-Aware 设计支持流式)
典型帧率 语义 token 2550Hz,声学特征 5080+Hz

三、方案二:LLM + RVQ / Dual-AR 架构

3.1 核心思想

使用 LLM 直接建模 多层 RVQ(Residual Vector Quantization)码本 的离散 token,通过巧妙的架构设计处理 RVQ 多码本带来的序列长度膨胀问题。

核心挑战:如果 RVQ 有 N 层码本、帧率为 F Hz,则每秒产生 N×F 个 token,序列长度爆炸。

主流做法:Dual-AR(快慢双轨)、Delay Pattern(延迟调度)、Grouped Code Modeling(分组建模)等。

3.2 典型系统详解

FishAudio S2(Fish Audio,2026.03)

Dual-AR 架构

1
2
3
4
5
Text + Prompt
→ [Slow AR: 4B Transformer] → 第 1 层码本 token(时间轴)

→ [Fast AR: 400M Transformer] → 第 2-10 层 RVQ token(深度轴)
→ [RVQ Decoder] → Waveform

关键技术

  • 非对称 Dual-AR:Slow AR(4B)沿时间轴预测主语义码本,Fast AR(400M)在每个时间步生成剩余 9 层残差码本
  • Multi-Reward RL 对齐:使用 GRPO(Group Relative Policy Optimization)变体,联合优化语义准确性、声学质量、说话人相似度
  • 数据 pipeline 与 RL 共享模型:数据质量评估模型直接复用为 RL reward signal,消除预训练和后训练之间的分布偏移
  • 10 层 RVQ @ ~21Hz

参数规模:Slow AR 4B + Fast AR 400M

性能指标

  • RTF = 0.195
  • 首包延迟 < 100ms
  • 训练数据 > 1000 万小时,覆盖 50-100 种语言

MOSS-TTS(OpenMOSS / MOSI.AI,2025)

双架构变体

MossTTSDelay(生产级)

1
2
3
4
Text
→ [Single Qwen-8B Backbone + 33 LM Heads]
→ 32 层 RVQ token(delay pattern 并行预测)
→ [Cat Audio Tokenizer Decoder] → 24kHz Waveform
  • 单一 Transformer 主干(Qwen-8B 初始化)
  • 33 个 LM Head(1 主 + 32 RVQ head)并行预测
  • Delay Pattern 调度:将 RVQ 各层在时间域上错位,所有码本层在单次前向中同步预测
  • 优化推理速度和长上下文稳定性

MossTTSLocal(层次化)

1
2
3
4
Text
→ [Global Transformer (Qwen3-1.7B)] → 时间轴建模
→ [Local Transformer (4 blocks)] → RVQ 深度轴(粗→细)
→ [Cat Decoder] → 24kHz Waveform
  • Global Transformer 负责时间维度,Local Transformer 负责码本深度维度
  • 支持可变比特率:通过渐进式序列 dropout,推理时可在 K=4(低比特率/快速)到 K=32(最大保真度)之间动态选择

共同规格

  • **Cat (Causal Audio Tokenizer)**:24kHz / 12.5Hz 帧率 / 32 层 RVQ(10-bit 每层)
  • 极低帧率(12.5Hz)是关键设计决策,每秒仅 12.5 × 32 = 400 个 token(delay pattern 下有效长度更短)

Qwen3-TTS(阿里通义,2026.01)

双轨 Tokenizer + 统一 LM 架构

1
2
3
4
Text
→ [Unified Transformer LM (GQA + Sliding Window Attention)]
→ 32 Code Groups 并行生成(RoPE 位置编码)
→ [Qwen-TTS-Tokenizer Decoder] → Waveform

双 Tokenizer 设计

  • Qwen-TTS-Tokenizer-25Hz:单码本,语义导向,兼容 Qwen-Audio,配合 block-wise DiT 做流式波形重建
  • Qwen-TTS-Tokenizer-12Hz:12.5Hz / 16 层多码本,轻量因果 ConvNet,首包延迟仅 97ms

关键技术

  • Dual-Track 混合流式生成:单模型支持流式和非流式,处理单个字符即可输出首个音频包
  • 完全绕过 LM+DiT 级联的信息瓶颈和级联误差
  • 训练数据 > 500 万小时,覆盖 10 种语言

3.3 LLM + RVQ / Dual-AR 方案的特点总结

维度 特点
优势 端到端方案更简洁(LLM 直接到波形)、天然适合 LLM 生态、流式友好、RL 对齐方案成熟
劣势 RVQ 多码本序列长度膨胀、离散量化信息损失、码本层间依赖建模难度大
核心挑战 如何高效处理多码本序列——Dual-AR / Delay Pattern 各有 trade-off
流式能力 天然支持(自回归逐 token 生成)
典型配置 8-32 层 RVQ,帧率 12.5~50Hz

3.4 多码本序列处理策略对比

策略 代表系统 原理 优势 劣势
Dual-AR FishAudio S2, MossTTSLocal Slow AR 走时间轴 + Fast AR 走深度轴 解耦清晰、各轴独立优化 两个模型参数量大、需协调训练
Delay Pattern MossTTSDelay 各 RVQ 层时间域错位,单次前向并行预测 单模型、推理快 需要大模型承载所有码本的建模

四、方案三:DiT-AR 自回归 + 连续表征建模

4.1 核心思想

摒弃离散 token,直接在连续表征空间(Mel / VAE latent)上进行自回归生成

每一步用 Diffusion Transformer 生成下一个 patch / frame 的连续向量,而非预测离散 token ID。

核心优势:避免量化信息损失,保留完整声学细节

核心挑战:连续空间的自回归建模比离散空间困难很多(分布估计、误差累积)。

4.2 典型系统详解

DiTAR(字节跳动,2025.02,ICML 2025)

Patch-based AR + Local DiT 架构

1
2
3
4
5
Text + Prompt
→ [Language Model] → Aggregated Patch Embeddings
→ [LocDiT (Local Diffusion Transformer)] → 下一个 Patch 的连续表征
→ 自回归展开 → 完整连续表征序列
→ [Vocoder] → Waveform

关键技术

  • Divide-and-Conquer 策略:LM 处理聚合后的 patch embedding(粗粒度时间建模),LocDiT 在 LM 输出条件下生成下一个 patch 的细粒度连续表征
  • Temperature 重定义:推理时 temperature 定义为反向 diffusion ODE 中引入噪声的时间点,平衡多样性和确定性
  • 优秀的 Scaling 特性:实验证明模型规模增大时性能稳定提升
  • 相比 ARDiT / Transfusion 等前作,显著降低计算开销

意义:是 DiT-AR 这一技术路线的标志性工作,证明了自回归连续表征建模在 TTS 上的可行性和优越性


MeLA-TTS(ICASSP 2026 投稿)

Joint Transformer-Diffusion 端到端架构

1
2
3
4
Text + Speaker
→ [Transformer Decoder] → 自回归逐帧生成连续 Mel 特征
→ [Representation Alignment Module] → 与 ASR Encoder 语义对齐
→ [Vocoder] → Waveform

关键技术

  • 直接自回归生成连续 Mel 帧:无需 speech tokenizer,无需多阶段 pipeline
  • 表征对齐模块:训练时将 Transformer decoder 的输出表征与预训练 ASR encoder 的语义 embedding 对齐,加速训练收敛、增强跨模态一致性
  • 支持离线和流式两种合成模式
  • 零样本声音克隆能力

意义:证明了在 Mel 帧级别做自回归连续生成的可行性,是对离散 token 范式的直接挑战


VoxCPM(OpenBMB / 清华,2025.09)

Tokenizer-Free 端到端 Diffusion AR 架构

1
2
3
4
5
Text
→ [TSLM: Text-Semantic LM] → 语义-韵律规划
→ [RALM: Residual Acoustic LM] → 细粒度声学细节恢复
→ [Local Diffusion Decoder] → 高保真语音 latent
→ [Vocoder] → Waveform

关键技术

  • 层次化语义-声学建模:TSLM 生成语义韵律规划,RALM 恢复声学残差
  • 可微分量化瓶颈(FSQ):创建”半离散”残差表征,在语义和声学成分之间产生自然分工,克服纯离散方法的”量化天花板”,同时比纯连续方法更稳定
  • 端到端 Diffusion 训练目标:三个模块联合训练
  • 训练数据 180 万+ 小时中英双语

参数规模:VoxCPM-0.5B

性能:RTF = 0.17(消费级 GPU),低延迟流式支持


VibeVoice(Microsoft,2025.08)

Next-Token Diffusion 架构

1
2
3
4
Text + Dialogue Context
→ [Qwen2.5 LLM]
→ [Token-Level Diffusion Head] → 逐 token Diffusion 生成连续 latent
→ [Continuous Speech Tokenizer Decoder] → Waveform

关键技术

  • 7.5Hz 超低帧率 Continuous Speech Tokenizer:双分支(声学+语义),数据压缩率达 Encodec 的 80 倍
  • Next-Token Diffusion:在 LLM 的每个 token 位置接一个 Diffusion Head,自回归生成连续 latent 向量
  • 超长上下文:64K 上下文窗口,单次生成最长 90 分钟语音
  • 多说话人支持:最多 4 个说话人,自然轮转和说话人一致性

意义:展示了 DiT-AR 方案在长文本、多说话人场景下的实用性


Ming-Omni-TTS(蚂蚁 inclusionAI,2026.02)

关键技术

  • 统一连续 Audio Tokenizer(Ming-Unitok-Audio):12.5Hz 连续 VAE tokenizer,将语音、音乐、环境音统一编码到同一连续 latent 空间,同时保留语义和声学特征,支持高质量重建
  • Patch-by-Patch 压缩策略:将 LLM 推理帧率从 12.5Hz 进一步压缩至 3.1Hz(每 patch 聚合 4 帧),大幅降低 LLM 自回归序列长度和推理延迟,使长音频(播客级别)生成成为可能
  • AR LLM + DiT Head 双阶段生成:LLM 自回归生成粗粒度 patch embedding,DiT Head 基于 flow matching 将 patch 展开为细粒度连续 latent,再由 VAE 解码为波形——业界首个以 AR 模型在单通道内联合生成语音、环境音和音乐的系统
  • 精细可控性:支持语速/音高/音量/情感/方言的指令控制(粤语方言准确率 93%,情感控制准确率 46.7%,超越 CosyVoice 3);支持自然语言描述的零样本声音设计,InstructTTS-Eval-ZH 上与 Qwen3-TTS 持平
  • MoE / Dense 双变体:16.8B-A3B MoE 版本(激活参数 3B)和 0.5B Dense 轻量版本,满足不同部署需求

参数规模:16.8B(MoE,激活 3B)/ 0.5B(Dense)

性能

  • Seed-TTS-eval test-zh(零样本克隆):WER = 0.83%,超越 SeedTTS 和 GLM-TTS
  • 方言生成:WSYue-TTS-Eval 96%,WSC-TTS-Eval 86%
  • 情感表达:CV3-Eval 平均 76.7%,中性→情感迁移 46.7%(SOTA)
  • 声音设计:InstructTTS-Eval-ZH 76.20%
  • 100+ 内置精品音色,支持多说话人播客式对话生成

意义:首个基于 AR 连续表征在单通道内统一生成语音+音乐+音效的系统,Patch-by-Patch 3.1Hz 推理帧率展示了连续 AR 方案在极低帧率下的可行性;精细化指令控制能力(方言/情感/声音设计)是当前 DiT-AR 方案中最全面的

4.3 DiT-AR 方案内部子类型对比

该方案家族内部存在显著的架构差异,可按自回归粒度表征类型进一步细分:

子类型 代表系统 AR 粒度 表征类型 每步生成器 特点
Patch-level AR DiTAR Patch(多帧聚合) 连续 latent Local DiT LM 处理粗粒度 patch,LocDiT 细化
Frame-level AR MeLA-TTS 单帧 Mel 连续 Mel Transformer + 对齐模块 最直接的连续 AR,无需 tokenizer
层次化半离散 AR VoxCPM 帧级 半离散(FSQ 瓶颈) Local Diffusion 语义-声学层次化,FSQ 平衡离散和连续
Token-level Diffusion VibeVoice Token(7.5Hz) 连续双分支 latent Diffusion Head LLM 每位置接 Diffusion Head

4.4 DiT-AR 方案的特点总结

维度 特点
优势 无(或低)量化信息损失、声学细节保留完整、端到端简洁、Scaling 特性好
劣势 连续分布建模难度大、训练不如离散稳定、推理需多步 Diffusion(速度受限)
内部分化 AR 粒度从单帧(MeLA-TTS)→ Patch(DiTAR)→ Token(VibeVoice),粒度越粗推理越快但局部建模越依赖 NAR 模块
流式能力 天然支持(自回归逐步生成),Diffusion 步数影响延迟
质量上限 理论上高于纯离散方案(连续表征信息无损或低损)

五、方案四:非自回归 DiT / Flow Matching

5.1 核心思想

完全非自回归地生成整段语音,通过 Flow Matching 或 Diffusion 过程从噪声直接映射到目标 Mel / 波形。

不做逐 token / 逐帧的序列生成,而是在全局上下文中并行生成。

5.2 典型系统详解

E2 TTS(Microsoft,2024.06)

1
Text → [Character + Filler Tokens] → [Flow Matching Transformer] → Mel → [Vocoder] → Waveform
  • 与 F5-TTS 思路高度一致,同期独立工作
  • 仅两个模块:Flow Matching Transformer + Vocoder
  • 通过 audio infilling task 训练
  • 达到 human-level naturalness,与 Voicebox / NaturalSpeech 3 可比

F5-TTS(SWivid,2024.10,ACL 2025)

纯 NAR Flow Matching + DiT 架构

1
2
3
4
5
Text
→ [Character Tokenization + Filler Padding]
→ [ConvNeXt V2 Text Refinement]
→ [DiT Flow Matching: v_t(x_t), t ∈ [0,1]] → Mel Spectrogram
→ [Vocoder] → Waveform

关键技术

  • 最简设计:仅 Flow Matching Transformer + Vocoder 两个模块,无需 duration model / 音素对齐 / G2P
  • Filler Token 填充:文本字符序列用 ⟨F⟩ token 填充到与 Mel 长度一致,隐式学习对齐
  • Optimal Transport Flow:学习从高斯先验 N(0,I) 到真实 Mel 的最优传输向量场
  • Sway Sampling:推理时的流步采样策略,无需重训即可提升性能和效率

性能:RTF = 0.15,训练数据 100K 小时

意义:证明了”极简设计 + 大数据 + Flow Matching”可以达到 SOTA


Seed-TTS DiT 变体(字节跳动,2024.06)

  • Seed-TTS 的非自回归变体
  • 纯 Diffusion Transformer,不依赖预估音素时长
  • 与 AR 变体性能可比,在 speech editing 上更具优势

LongCat-AudioDiT(美团 LongCat Team,2025)

核心创新——直接在波形 latent 空间建模

与之前所有基于 Mel 频谱的 NAR 方案不同,LongCat-AudioDiT 的核心发现是:训练 diffusion 模型直接在波形 latent 空间上工作,比基于 Mel 等中间声学表征的传统范式带来显著提升。系统仅包含两个组件:Wav-VAE + DiT,完全绕过 Mel 频谱和独立 vocoder,消除级联转换带来的复合误差。

关键技术

  • Wav-VAE:全卷积音频自编码器,直接在时域上将原始波形压缩为连续 latent 表征
  • **Conditional Flow Matching (CFM)**:基于 rectified flow,通过线性插值构造噪声轨迹,DiT backbone 用 cross-attention 隐式学习文本-语音对齐
  • 训练-推理不匹配修正:发现并修正了 prompt 区域 noisy latent 在推理时漂移的长期问题——在每个推理步强制将 prompt 区域覆写为 GT 轨迹值
  • **Adaptive Projection Guidance (APG)**:替代传统 CFG,将 guidance 残差分解为平行/正交分量,选择性衰减平行分量以消除过饱和 artifact
  • 双层文本编码:同时使用 UMT5 的 last hidden state(高层语义)和 raw word embedding(低层词汇/语音线索),解决单纯 last hidden state 导致的 intelligibility 问题
  • REPA(Representation Alignment):用预训练 mHuBERT 特征对齐 DiT 第 8 层输出,不提升生成质量但显著加速训练收敛
  • Scaling 特性:模型从 1B 扩展到 3.5B 时性能持续提升

参数规模:1B / 3.5B 两个版本

训练数据:100 万小时中英语音

性能

  • 在 Seed 基准上超越 Seed-TTS(前 SOTA),SIM 从 0.809→0.818(Seed-ZH)、0.776→0.797(Seed-Hard)
  • 推理使用 16 步 Euler ODE 求解

重要发现:Wav-VAE 重建保真度更高并不一定带来更好的 TTS 性能,揭示了 VAE 与 TTS backbone 之间的非直觉耦合关系,对 WavVAE 选型有重要参考价值

意义:是目前纯 NAR diffusion TTS 的最强开源方案,证明了”Wav-VAE latent 空间 > Mel 空间”这一关键结论,同时开源了代码和权重


MegaTTS 3 / S-DiT(浙江大学 / 字节跳动,2025.02)

关键技术

  • Sparse Alignment 策略:在强制对齐区域内为每个音素随机保留一个 anchor,其余位置用 mask token 填充,与 latent 序列拼接后输入 DiT。相比硬对齐(限制搜索空间、降低自然度)和隐式对齐(鲁棒性差),sparse alignment 兼顾两者优势——提供粗粒度位置信息降低对齐学习难度,同时不限制模型搜索空间
  • WaveVAE 端到端:全卷积 VAE 将波形压缩为 25Hz 连续 latent,解码器直接重建波形,无需独立 vocoder
  • Piecewise Rectified Flow (PeRFlow) 加速:将 flow 轨迹分段蒸馏,25 步降至 8 步即可生成高质量 1 分钟语音,质量几乎无损
  • Multi-Condition CFG:分离文本引导尺度 α_txt 和说话人引导尺度 α_spk,实现独立的发音精度控制和音色保持;发现 α_txt 可调节口音强度(accent intensity),为口音 TTS 提供新方向
  • Masked Speech Modeling 训练:随机将 10%~90% 的 latent 序列 mask,模型学习条件生成

参数规模:0.3B(WaveVAE)+ 0.5B(S-DiT)

训练数据:60K 小时 LibriLight

性能

  • LibriSpeech test-clean:SIM-O = 0.71,WER = 1.82%(25 步),加速版 WER = 1.86%(8 步,RTF = 0.124)
  • Seed-TTS-eval test-zh:CER = 1.52%,SIM = 79.0(0.5B 版本,据 GLM-TTS 论文引用)
  • 在 0.3B 参数下即超越 F5-TTS、CosyVoice、MaskGCT 等系统

意义:提出了 sparse alignment 这一折中方案,有效解决了 NAR Diffusion TTS 中隐式对齐鲁棒性差 vs 硬对齐自然度受限的核心矛盾;PeRFlow 8 步生成 1 分钟语音展示了极高的推理效率


ZipVoice(小米 / k2-fsa / Daniel Povey,2025.06,ASRU 2025)

关键技术

  • Zipformer Backbone:将 ASR 领域验证的 Zipformer 架构引入 TTS flow matching decoder,U-Net 式多分辨率下采样(1x/2x/4x/2x/1x)+ bypass 连接 + 卷积模块,在极小参数量下保持强建模能力
  • Average Upsampling 对齐:假设句内 token 时长均匀,直接将文本特征均匀上采样到 Mel 长度,无需 duration model / G2P / 音素对齐,比 F5-TTS 的 filler token 方案 intelligibility 显著更高
  • Flow Distillation 加速:两阶段蒸馏——第一阶段用预训练 teacher 的 2 步 CFG 推理构造 teacher vector field 蒸馏 student;第二阶段用 student 的 EMA 版本自蒸馏。蒸馏后 student 内化 CFG 效果,推理时无需额外 unconditional 前向传播
  • Time-Dependent CFG:早期步骤仅丢弃文本条件(关注内容),后期步骤丢弃文本+音频条件(关注全局质量)

参数规模:仅 123M(F5-TTS 的 1/3)

训练数据:100K 小时 Emilia 数据集

性能

  • Seed-TTS test-zh:CER = 1.40%,SIM = 0.751(16 NFE);蒸馏后 CER = 1.34%(8 NFE)/ 1.39%(4 NFE)
  • RTF = 0.0125(4 NFE,GPU),比 F5-TTS 快 23.7 倍(GPU)/ 32.6 倍(CPU)
  • 4 NFE 蒸馏版在单 CPU 线程上接近实时(RTF = 1.22)
  • 音质(WER/UTMOS)与 F5-TTS、MaskGCT 等 SOTA 系统可比

意义:证明了 NAR Flow Matching TTS 在极小参数量(123M)和极少采样步数(4 步)下仍可达到 SOTA 级音质,同时推理速度提升 1-2 个数量级;是目前最小、最快的开源 SOTA 级零样本 TTS 系统之一,CPU 近实时推理显著降低了部署门槛

5.3 NAR DiT / Flow Matching 方案的特点总结

维度 特点
优势 推理并行度高(可一次生成整段)、设计极简、无自回归误差累积
劣势 缺乏因果结构导致长文本一致性不如 AR、流式困难、需预知目标长度
典型推理 多步 ODE/SDE 求解(通常 16-32 步),可用 Sway Sampling / 蒸馏加速
适用场景 短到中等长度语音生成、speech editing、voice conversion

六、方案五:离散 Diffusion / Masked Diffusion

6.1 核心思想

结合离散 token 表征和非自回归生成,通过 masked prediction(掩码预测)或 discrete diffusion(离散扩散) 的方式并行生成 token 序列。

既享受离散 token 与 LLM 生态兼容的优势,又获得 NAR 的并行生成效率。

6.2 典型系统详解

MaskGCT(ICLR 2025)

两阶段 Masked Generative 架构

1
2
3
4
Text
→ [Text-to-Semantic Model: Mask & Predict] → Semantic Tokens (from SSL model)
→ [Semantic-to-Acoustic Model: Mask & Predict] → Acoustic Tokens
→ [Speech Acoustic Codec Decoder] → Waveform

关键技术

  • Mask-and-Predict 范式:训练时随机 mask token 并学习预测,推理时指定目标长度后并行生成所有 token
  • 无需显式对齐:不需要 text-speech alignment 或 phone-level duration prediction
  • 两阶段设计:SSL 语义 token → Acoustic token,逐步细化
  • 零样本能力:跨语言、情感控制、风格模仿、语速控制、声音转换

训练数据:100K 小时 in-the-wild speech

意义:Masked Generative 在 TTS 上的标杆工作,ICLR 2025 接收


OmniVoice(k2-fsa / 新一代 Kaldi,2026.04)

离散 Masked Diffusion + 双向 Transformer 架构

1
2
3
4
Text
→ [Bidirectional Transformer + Discrete Masked Diffusion]
→ Multi-codebook Acoustic Tokens(单阶段,无 semantic 中间表征)
→ [Codec Decoder] → Waveform

关键技术

  • 单阶段直接生成:跳过传统的 text→semantic→acoustic 两阶段,直接从文本到多码本声学 token
  • Full-codebook Random Masking:高效训练策略
  • 预训练 LLM 初始化:确保文本理解和 intelligibility
  • 极致多语言:支持 600+ 种语言

性能:RTF = 0.025(40x 实时),581K 小时开源多语言数据

意义:离散 diffusion 在大规模多语言 TTS 上的成功应用,推理速度极快


LLaDA-TTS(百融 BRVoice Team,2026.03)

Masked Discrete Diffusion + 双向 Transformer 架构

关键技术

  • AR→Masked Diffusion 范式迁移:仅修改注意力掩码(因果→双向)和训练目标(next-token→masked prediction),tokenizer、prompt 格式和声学模型完全不变,可无缝迁移至任何 LLM-based AR TTS 系统(VALL-E、Seed-TTS、Spark-TTS 等)
  • Label Shift 知识迁移:保留 AR 的”位置 i 预测 token i+1”惯例,使预训练 AR 权重可直接初始化 diffusion 模型而无需重训输出层,仅需 50 小时微调数据即可完成范式转换(从头训练 CER 45.27% vs AR 初始化 0.98%)
  • 理论保证(ε-Forward Dependence):证明了声学 token 的时间局部性使 AR 预训练权重对双向 masked prediction 近似最优(Theorem 1),解释了 AR 初始化的快速收敛和生成时涌现的近似从左到右 unmasking 顺序
  • 零样本语音编辑:双向注意力架构天然支持 speech editing(词级插入、删除、替换),无需额外训练——通过特定注意力头(L16-H2 / L11-H5)实现精确的文本-语音对齐(MAE ≈ 52ms),选择性 mask 目标区域后重新生成
  • 推理成本与序列长度解耦:固定 T 步前向传播完成生成,不依赖 KV cache

训练数据:仅 6,000 小时 Emilia 数据集(58% 中文 / 42% 英文)+ 50 小时微调

6.3 离散 Diffusion / Masked Generative 方案的特点总结

维度 特点
优势 并行生成效率高、与 LLM 生态兼容(离散 token)、推理速度极快
劣势 多步迭代精化需要的步数影响质量、离散化信息损失仍然存在
与 NAR Flow Matching 的区别 操作在离散空间(token masking/denoising)而非连续空间(ODE flow)
推理速度 通常比连续 diffusion 快很多(OmniVoice RTF=0.025)

七、语音表征与 Codec 技术对比

语音表征是 TTS 大模型的基础组件,直接决定了信息保真度、序列长度和下游建模难度。

7.1 主流 Codec / Tokenizer 一览

Codec 类型 采样率 帧率 码本 比特率 使用系统
Encodec RVQ(多码本) 24kHz 75Hz 8层, 1024 6 kbps VALL-E 系列
SNAC RVQ(多码本) 24kHz ~83Hz 多层 可变 Orpheus
Cat (Causal Audio Tokenizer) RVQ 24kHz 12.5Hz 32层, 10-bit 可变 MOSS-TTS
BiCodec 单流解耦 16kHz - 语义+全局 Spark-TTS
XCodec2 单码本 16kHz 50Hz 65536 - Llasa
CosyVoice Codec (FSQ) FSQ 单码本 24kHz 25Hz FSQ - CosyVoice 2/3
WavTokenizer 单码本 VQ 24kHz 40-75Hz 单层 0.5-0.9 kbps -
Qwen-TTS-Tokenizer-25Hz 单码本 - 25Hz - - Qwen3-TTS
Qwen-TTS-Tokenizer-12Hz 多码本 - 12.5Hz 16层 - Qwen3-TTS
VibeVoice Tokenizer 连续双分支 - 7.5Hz 连续 latent - VibeVoice

7.2 离散表征 vs 连续表征核心对比

维度 离散 Token(RVQ/FSQ/VQ) 连续表征(Mel/VAE Latent)
信息保真度 有量化损失(”量化天花板”) 无量化损失,理论上限更高
LLM 兼容性 天然兼容 next-token prediction 需要 Diffusion Head 或特殊解码器
序列长度 多码本膨胀问题(需 Dual-AR / Delay Pattern 解决) 由帧率决定,通常较短
训练稳定性 离散目标(交叉熵)训练稳定 连续分布估计(Diffusion/FM)训练难度较大
RL 对齐 天然适合 RLHF pipeline 需要设计连续动作空间的 RL
Vocoder 依赖 通常内嵌在 codec 解码器中 需要额外 vocoder(Mel→Wave)
代表系统 FishAudio S2, MOSS-TTS, Qwen3-TTS, OmniVoice CosyVoice 2 (Mel), DiTAR, MeLA-TTS, VibeVoice, F5-TTS

7.3 表征趋势

  1. 帧率持续降低:从 Encodec 的 75Hz → Cat 的 12.5Hz → VibeVoice 的 7.5Hz,目标是缩短序列长度
  2. 单码本回归:越来越多系统(Spark-TTS, CosyVoice 2, XCodec2)尝试用更强的单码本替代多码本,从根源上消除 RVQ 膨胀问题
  3. FSQ 替代 VQ:Finite Scalar Quantization 避免码本坍缩,CosyVoice 2 已验证
  4. 语义-声学解耦:BiCodec(Spark-TTS)、VoxCPM 的 FSQ 瓶颈层,都在探索自动化语义-声学分离
  5. 连续表征兴起:VibeVoice 的连续 tokenizer 证明了连续 latent 在低帧率下的可行性

八、训练范式与对齐技术

8.1 训练阶段

现代 TTS 大模型普遍采用类似 LLM 的三阶段训练范式:

1
Pre-training → Supervised Fine-Tuning (SFT) → Reinforcement Learning (RL) Alignment
阶段 目标 典型数据规模 代表系统
Pre-training 大规模无监督/弱监督语音建模 百万~千万小时 FishAudio S2 (10M hrs), Qwen3-TTS (5M hrs)
SFT 特定说话人/风格/控制能力适配 千~万小时精标数据 CosyVoice 1/2/3
RL Alignment 优化人类偏好(发音准确性、自然度、说话人相似度) 基于 reward model 评分 FishAudio S2 (GRPO), Seed-TTS

8.2 RL 对齐技术对比

方法 代表系统 优势 劣势
DPO 通用 TTS 后训练 无需训练 reward model,直接从偏好对学习 偏好对构建成本高,优化上限受限
GRPO FishAudio S2 避免 PPO 的 value model 内存开销,适合长音频上下文 需要多次采样
PPO 经典 RLHF 在线优化,效果上限高 Value model 内存开销大,训练复杂

8.3 Reward Model 设计

维度 常用评估信号
发音准确性 ASR WER / CER
音质 UTMOS / DNSMOS / PESQ
说话人相似度 Speaker embedding cosine similarity(SIM)
韵律自然度 MOS 人工评分 / 专用韵律评估模型
可控性 Instruct 控制率 / 情感分类准确率

九、全方案横向对比

9.1 架构维度对比

方案 生成范式 表征类型 声学建模器 系统复杂度 流式支持
LLM+DiT 级联 AR (LLM) + NAR (DiT) 离散语义 + 连续 Mel DiT / Flow Matching 高(多阶段) 需特殊设计
LLM+RVQ Dual-AR AR (Dual-AR) 离散多码本 Transformer decoder 天然支持
DiT-AR 连续表征 AR + Diffusion/FM 连续 latent / Mel / 半离散 DiT / FM (Local) 中~高 天然支持(Diffusion 步数影响延迟)
NAR DiT / FM NAR (Flow Matching) 连续 Mel DiT / Transformer 困难
离散 Diffusion NAR (Masked/Diffusion) 离散 token Bidirectional Transformer 低~中 困难

9.2 性能维度对比

方案 音质上限 推理速度 长文本稳定性 可控性 训练友好度/易用性
LLM+DiT 级联 ★★★★☆ ★★★☆☆ ★★★★☆ ★★★★★ ★★★☆☆
LLM+RVQ Dual-AR ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆ ★★★★☆
DiT-AR 连续表征 ★★★★★ ★★★★☆ ★★★★★ ★★★★☆ ★★☆☆☆
NAR DiT / FM ★★★★☆ ★★★★☆ ★★★☆☆ ★★★☆☆ ★★★★★
离散 Diffusion ★★★☆☆ ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★☆

:DiT-AR 方案的推理速度和可控性评分取决于子类型:

  • 逐帧 AR(MeLA-TTS)较慢但精细,Patch-level AR(DiTAR)通过 patch 聚合实现较好的速度-质量平衡。

9.3 各方案的最佳适用场景

方案 最佳场景 不适合场景
LLM+DiT 级联 需要精细可控的场景(Instruct TTS)、多阶段渐进优化 对推理延迟极度敏感的实时场景
LLM+RVQ Dual-AR 大规模生产部署、实时流式、需快速迭代和 RL 对齐 对音质有极致要求(量化天花板限制)
DiT-AR 连续表征 追求最高音质上限、长文本/多说话人叙述(逐 token/patch AR) 对推理速度有严格要求的实时场景
NAR DiT / FM 离线批量生成、speech editing、voice conversion 长文本实时流式
离散 Diffusion 大规模多语言、需要极快推理的场景 对精细韵律控制要求高

十、技术趋势与展望

10.1 已确认的技术趋势

  1. RL 对齐成为标配:几乎所有 2025+ 的新系统都引入了 RL 后训练阶段
  2. 帧率持续压缩:75Hz → 25Hz → 12.5Hz → 7.5Hz,目标是让 LLM 能处理更长的音频上下文
  3. 预训练 LLM 直接复用:Qwen2.5 / Qwen3 / Llama 等通用 LLM 直接作为 backbone,而非从头训练语音模型
  4. 单码本 + 强 Codec 趋势:用更好的 codec 设计(FSQ / BiCodec / WavTokenizer)替代多码本 RVQ,简化下游建模
  5. 连续表征兴起:DiTAR、MeLA-TTS、VibeVoice 等证明了连续表征方案的竞争力,质量上限可能高于离散方案
  6. 训练数据规模飙升:从 100K 小时到百万/千万小时,数据 scaling 是性能提升的关键驱动力

10.2 值得关注的技术方向

  1. Tokenizer-Free 端到端:VoxCPM 的”半离散”FSQ 瓶颈设计是一个有意思的探索方向——不完全离散、也不完全连续
  2. 极致多语言:OmniVoice 的 600+ 语言覆盖预示着 TTS 向通用语音基础模型的演进
  3. Streaming-First 设计:Qwen3-TTS 的 97ms 首包延迟 + CosyVoice 2 的 Chunk-Aware FM,流式能力从附加功能变成核心设计约束
  4. 统一语音理解与生成:将理解任务与生成任务统一建模

10.3 开放问题

问题 现状 展望
离散 vs 连续表征,哪个是终局? 两条路线都有 SOTA 级成果 可能长期共存,场景驱动选择
AR vs NAR,TTS 的最优范式? AR+NAR 混合(如 DiT-AR)是有前景的折中 AR 保证一致性、NAR 保证效率,混合方案可能胜出
训练数据的 Scaling Law? 百万~千万小时已有探索 数据质量 vs 数据量的 trade-off 尚未完全明确
可控性的上限在哪里? Instruct 控制率 ~80%,自然语言描述初步验证 从标签控制 → 自然语言控制 → 意图理解控制
推理效率的极限? RTF 0.025 (OmniVoice) ~ 0.2 (FishAudio S2) Speculative decoding / 蒸馏 / 硬件优化

附录:代表模型速查表

方案类别 系统 机构 时间 子类型 参数量 训练数据 开源 论文
方案一:LLM+DiT 级联 Tortoise-TTS James Betker 2023.05 AR + DDPM(先驱) ~1B - arxiv 2305.07243
CosyVoice 1 阿里 2024.07 LLM + FM - ~17万 hrs 官方技术报告
CosyVoice 2 阿里 2024.12 LLM + Chunk-Aware FM ~1B ~17万 hrs arxiv 2412.10117
CosyVoice 3 阿里 2025.05 LLM + Chunk-Aware FM 1.5B 100万 hrs arxiv 2505.17589
Seed-TTS 字节 2024.06 AR + DiT / 纯 DiT - - arxiv 2406.02430
IndexTTS 2.5 Index Team 2026.01 LLM + Zipformer - - arxiv 2601.03888
FireRedTTS-1S 小红书 2025.03 LLM + 双模式声学解码 - - arxiv 2503.20499
MiniMax-Speech MiniMax 2025.05 AR + Flow-VAE ~665M - arxiv 2505.07916
GLM-TTS 智谱 AI / 清华 2025.12 LLM + DiT + GRPO 1.5B 10万 hrs arxiv 2512.14291
方案二:LLM+RVQ / Dual-AR FishAudio S2 Fish Audio 2026.03 Dual-AR 4.4B 1000万+ hrs arxiv 2603.08823
MOSS-TTS OpenMOSS 2025 Dual-AR / Delay Pattern 8B / 1.7B - GitHub
Qwen3-TTS 阿里 2026.01 多码本并行 - 500万+ hrs arxiv 2601.15621
方案三:DiT-AR 连续表征 DiTAR 字节 2025.02 Patch-level AR - - arxiv 2502.03930
MeLA-TTS - 2025.09 Frame-level AR - - arxiv 2509.14784
VoxCPM OpenBMB/清华 2025.09 层次化半离散 AR 0.5B 180万+ hrs arxiv 2509.24650
VibeVoice Microsoft 2025.08 Next-Token Diffusion - - arxiv 2508.19205
Ming-Omni-TTS 蚂蚁 inclusionAI 2026.02 Patch AR + DiT Head (MoE) 16.8B-A3B / 0.5B - arxiv 2506.09344
方案四:NAR DiT / FM F5-TTS SWivid 2024.10 NAR Flow Matching - 10万 hrs arxiv 2410.06885
E2 TTS Microsoft 2024.06 NAR Flow Matching - - arxiv 2406.18009
Seed-TTS DiT 字节 2024.06 NAR Diffusion - - arxiv 2406.02430
LongCat-AudioDiT 美团 2026.03 NAR Diffusion (Wav-VAE) 1B / 3.5B 100万 hrs arxiv 2603.29339
MegaTTS 3 浙大 / 字节 2025.02 NAR Flow (WaveVAE + S-DiT) 0.8B 6万 hrs arxiv 2502.18924
ZipVoice 小米 / k2-fsa 2025.06 NAR Flow (Zipformer) 123M 10万 hrs arxiv 2506.13053
方案五:离散 Diff / Masked MaskGCT - 2024.09 Masked Generative - 10万 hrs arxiv 2409.00750
OmniVoice k2-fsa 2026.04 离散 Masked Diffusion - 58万 hrs arxiv 2604.00688
LLaDA-TTS 百融 BRVoice 2026.03 Masked Discrete Diffusion - 6K hrs arxiv 2603.26364

声明:本报告基于公开发表的论文、技术报告和开源仓库整理,部分系统的内部实现细节可能与公开信息有差异。技术参数以各系统官方发布为准。