语音合成 | MOSS-Audio-Tokenizer：大数据驱动的通用音频 Tokenizer

论文题目：MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

论文链接：https://arxiv.org/pdf/2602.10934

开源代码：https://github.com/OpenMOSS/MOSS-Audio-Tokenizer

模型地址：https://huggingface.co/OpenMOSS-Team/MOSS-Audio-Tokenizer

作者单位：上海创新研究院、复旦大学（邱锡鹏团队）

发表日期：2026年2月12日

主要工作：提出了 CAT（Causal Audio Tokenizer with Transformer）—— 参数量达 1.6B 的 MOSS‑Audio‑Tokenizer。基于纯 Transformer 架构，在 300 万小时多类型音频数据上完成预训练，可对语音(Speech)、音效(Sound)、音乐(Music)实现高保真重建，并支持可变比特率语音生成。进一步提出纯自回归 CAT‑TTS 模型，性能超越非自回归与自回归+非自回归级联的系统。

论文背景

当下大语言模型（LLM）统一了文本（自然语言处理与理解）领域，如何将 LLM 的自回归建模能力迁移到音频/语音模态，成为了语音、音乐、音效生成的重要课题。其中，离散音频 Tokenizer 是连接原始音频/语音信号与自回归语言模型的关键桥梁。现有音频 Tokenizer 的局限性为：一方面，大多依赖预训练的语音编码器（Speech/Audio Encoder），相当于还需要提前训练/获取可靠的语音编码器的表征；另一方面，CNN/Transformer混合架构，CNN 结构的归纳偏置/先验设计，限制了重建保真度和模型可扩展性。

在上述背景下，本文提出了一套全新解决方案：基于纯 Transformer 的因果（Causal）结构的音频 Tokenizer 架构 CAT，并在此基础上构建了 16 亿参数（1.6B）的大规模音频 Tokenizer，称为 MOSS-Audio-Tokenizer。

该 Tokenizer 通过端到端训练 + 300 万小时多领域音频数据预训练，在语音、音乐通用的音频场景下实现了全码率的高保真重建，让基于 LLM 的自回归 TTS 模型，超越了非自回归以及级联的 TTS 方案；Tokenizer 同时还具有竞争力的 ASR 性能（没有使用额外的预训练编码器模块）。

本文从核心痛点、核心设计、模型实现、实验效果、核心贡献这几个维度，重点解读这一个这个通用 Tokenizer 的主要设计。

一、音频 Tokenizer 核心痛点：难以适应应用需求

文档 Tokenizer 的成功，核心在于为 LLM 提供了统一的离散接口，让模型能直接对原始文本进行自回归建模，兼具压缩、理解、生成和上下文学习能力。

但音频与文本不同，它同时包含细粒度的声学细节和长距离的结构信息，离散化 tokenization 的难度远高于文本。

现有音频 Tokenizer 的设计存在三大核心问题，使其难以成为音频大模型的通用基础：

架构异构化，可扩展性差：多采用 CNN 或 CNN/Transformer 混合架构，引入 inductive bias，模型参数、训练数据、量化能力无法统一规模化；

1. CNN 的 inductive bias 是什么？
CNN 在设计上假设"局部相关性"和"平移不变性"——即卷积核用固定大小的感受野在时序/频率上滑动提取特征。这种设计是"写死"在架构里的，无法通过增大数据或参数来消除。

2. 为什么论文把它称为"归一化偏移"或"归一化偏置"？
在音频 Tokenizer 领域，CNN 编解码器（如 Encodec、DAC）通常包含：
- 固定步长的下采样卷积：帧率（如 75Hz）由卷积步长硬编码决定，无法灵活改变
- 固定的感受野大小：捕获长距离依赖的能力受限，必须靠堆叠层数或加 Transformer 来补偿
- 层归一化/权重归一化的特定初始化偏置：CNN 在不同卷积层之间的归一化方式（如 WN、GN）会引入对特定信号分布的假设
这些因素合在一起，就是论文里说的"固定的归一化偏移"——架构层面对输入信号特性的强先验假设，固化在 CNN 的卷积结构里，无法随数据/参数规模化而自适应改变。

3. 对比纯 Transformer 架构
纯 Transformer（CAT）的自注意力机制没有这种硬编码的局部先验，序列中任意位置之间都可以建立依赖，归纳偏置极小，因此：
- 帧率、感受野范围随训练数据和参数量可以自适应
- 更容易做到 scaling（模型规模化 = 性能提升）

总结：这里的"归一化偏移"本质上是 CNN 架构的 inductive bias（归纳偏置），是 CNN 对局部感受野、固定下采样率等的结构性假设，限制了模型的可扩展性和灵活性。

多阶段训练流程，依赖外部预训练：多采用分阶段训练（Tokenizer Decoder 单独训练）、预训练编码器特征（依赖预训练模型）等方式，引入额外依赖，难以实现全组件联合优化；
功能单一，适应性弱：部分模型仅优化重建保真度，缺乏语义信息；部分模型针对特定场景（如语音）；同时帧率、码率灵活性不足，难以满足自回归建模的低延迟、可变码率需求。

可以看出，MOSS-Audio-Tokenizer 是目前唯一集合所有优势的 Tokenizer 方案，每一个维度都是这个 Tokenizer 的优势：

核心特性	MOSS-Audio-Tokenizer	主流模型（Encodec/DAC/SpeechTokenizer）
模型架构	纯 Transformer	CNN / 混合架构
端到端优化/不依赖预训练	✅ 全组件联合	❌ 分阶段 / 依赖预训练
通用音频重建能力	✅ 语音 / 音效 / 音乐	❌ 仅语音 / 部分支持
流式处理	✅	❌ 部分不支持
可变码率	✅ 0.125-4kbps	✅ 码率限制性强
语义丰富	✅ 音频 - 文本对齐	❌ 仅优化重建
帧率	12.5Hz（低）	25/50/75Hz（高）

总结来说，论文提出了音频 Tokenizer 的四大设计原则，也是 CAT 架构的核心设计思想：

统一化的音频表征：能建模并重建语音、音效、音乐等多领域音频，同时保留声学细节和语义结构；
架构简单扩展性强：采用同质化的 Transformer 架构，去除对 CNN（异构）及归一化偏移的依赖，支持模型、数据、计算的联合规模化；
严格因果性支持流式：保证 token 计算不依赖未来音频上下文，适配自回归生成和低延迟处理；
低帧率 + 码率限制性：低帧率降低下采样序列建模复杂度，全码率限制性（可变码率）支持一个模型多种码率使用方式，针对不同场景多无需重新设计/训练。

二、核心设计：纯 Transformer 的因果 Tokenizer

CAT（Causal Audio Tokenizer，简称为 CAT）是纯 Transformer 架构的离散音频 Tokenizer，彻底摒弃了 CNN 组件。

以因果 Transformer 为核心构建架构，实现了编码器 encoder、量化器 quantizer、解码器 decoder、判别器 discriminator、semantic task LLM 的完全端到端优化，自然适配自回归建模和流式处理。

2.1 纯 Transformer 编解码器 + 因果流式

CAT 的编码器和解码器均由因果 Transformer 层堆叠而成，直接对 24kHz 的原始音频波形进行处理，无需梅尔频谱等中间表征，核心设计包含：

渐进式 Patchify（逐步下采样）：编码器对输入波形进行分块，并在 Transformer 层之间进行下采样，最终帧率为 12.5Hz（低帧率能降低下采样建模复杂度）；
对称解码（Encoder/Decoder 对称结构）：解码器以完全对称的方式上采样恢复到 24kHz，从离散 token 中重建原始音频波形；
流式生成能力：全因果设计让编码器和解码器均支持帧级别流式编解码，实现低延迟处理，训练和处理完全一致。

2.2 可变码率的残差向量量化（RVQ）

CAT 采用 32 层残差向量量化（RVQ）实现音频的离散化，核心优化点：

向量量化：每层量化器的码本通过梯度下降直接优化，无需额外的码本更新机制（比如 EMA 之类），而是直接 codebook loss 和 commitment loss，简化训练并提升稳定性；
量化器 Dropout：训练时随机丢弃部分量化层，让模型自然支持 0.125kbps 到 4kbps 的可变码率，为下游可变码率生成提供基础（SoundStream 也使用了类似的结构化 Dropout 机制）；
VQ 码本设计：每层量化器采用 1024 大小的码本，latent 维度为 8，且码本进行了 L2 归一化，从而平衡量化精度和计算效率。

VQ-补充信息

关于第三点 VQ 码本设计的优化，实际均是来源于论文：https://openreview.net/forum?id=pfNyExj7z2，参考代码实现：https://gitlab.com/lucidrains/vector-quantize-pytorch

latent 维度为 8，采用了「Lower codebook dimension」策略，或者称为 Factorized VQ，DAC 也采用了相同方案；

码本进行 L2 归一化，采用了 L2 范数限制，等价于 cosine sim 的约束 → 简单理解，是为了让量化前后的 embedding，在方向上保持一致性。

2.3 多任务联合训练：声学重建 + 语义建模

CAT 通过多任务学习，同时优化声学重建和语义表征学习，避免了「声学 - 语义」的取舍问题，让 token 同时具备声学细节和语义信息。

核心损失函数包含五大类，最终以加权组合形式构成生成器总损失：

语义损失：输入 0.5B 参数的 Decoder-LLM，以语音和音频理解任务（ASR、多说话人 ASR、音频描述）为监督，让 VQ 输出的表征能与语义对齐；
量化损失：包含 commitment 和 codebook 两个 loss，联合优化编码器和码本；
重建损失：采用多尺度梅尔谱损失；
对抗损失：引入多周期判别器和多 STFT 判别器；
特征匹配损失：feature matching loss 让生成器的中间特征与真实音频的特征匹配。

2.4 训练策略：Progressive Sequence Dropout

目标：支持可变码率生成，核心思想是：训练时随机截断 RVQ 的量化层前缀（只选择前几层），让模型适应不同码率的 token，无需修改架构或增加参数。

该策略的关键设计：

随机截断：以概率 p 触发 Dropout，触发后随机采样前缀长度 K，丢弃 K+1 到 32 层的 RVQ token；未触发 Dropout 时保留所有 32 层；
输入融合：将保留的前 K 层 RVQ token 的 embedding 拼接之后，作为 TTS 自回归模型的输入；
损失计算：仅对保留的前 K 层计算损失，让模型学习在不同码率下的生成。

推理时，只需指定推理深度 K_infer，即可控制组合的码率。

三、模型配置与实验结果

3.1 模型规模与架构

总参数：1.6B，其中编码器和解码器各约 0.8B，均由 68 个因果 Transformer 层构成；
编码器分 4 个阶段，隐藏维度依次为 768、768、768、1280，采用旋转位置编码（RoPE）和 FlashAttention-2 加速；
量化器：32 层 RVQ，每层码本大小 1024；
语义输出：0.5B 参数的 Decoder-Only LLM，用于语音/音频理解任务。

3.2 训练数据与配置

训练数据：300 万小时的多样化音频数据，覆盖语音（中英双语）、音效、音乐，包括纯音频和音频+文本配对数据；
训练方式：全端到端的训练，无预训练编码器、无语义教师模型、无分阶段训练；
训练策略：两阶段训练，先 52 万步无 adv loss 的预训练，再 50 万步加入 GAN 的 adv loss 进行微调；采用 AdamW 优化器，bf16 精度训练，全局批次大小最高达 1536；
硬件友好：支持流式处理，训练时采用滑动窗口注意力（10s），降低显存占用。

3.3 音频重建实验结果

在低（750-1500bps）、中（1500-2500bps）、高（2500-4000bps）不同的码率区间内，MOSS-Audio-Tokenizer 在语音、音效、音乐三大领域的重建质量均显著超越主流模型：

语音重建：在 LibriSpeech（英文）和 AISHELL-2（中文）数据集上，SIM（说话人相似度）、STOI（语音可懂度）、PESQ（语音质量）均为 SOTA；
音效 / 音乐重建：在 AudioSet（音效）和 MUSDB（音乐）数据集上，梅尔谱损失和 STFT 损失均显著低于竞品，且码率越高，性能提升越明显，体现了良好的扩展性；
主观评价：基于 MUSHRA 协议的人工打分显示，MOSS-Audio-Tokenizer 在 600-4200bps 全码率区间内的主观得分均为最高，且低码率下性能下降远慢于 Encodec、DAC 等模型。

3.4 CAT 基础上的 CAT-TTS

基于 CAT 的 token 实现了纯自回归离散 TTS 模型性能超越非自回归（NAR）和级联（AR+NAR）系统。CAT-TTS 结构示意图：

核心实验结果：

Progressive Sequence Dropout 的有效性：采用该策略的模型在低码率下的性能下降幅度大幅降低，且 dropout 概率 p=10 时训练效率最高；
Seed-TTS-Eval 基准测试：在英文和中文字符错误率（WER/CER）接近 SOTA 的前提下，说话人相似度（SIM）达到 0.731（英文）/0.785（中文），为所有开源模型最高；
支持可变码率的 TTS：单模型支持 0.125-4kbps 的可变码率组合，且不同码率下的生成质量均保持稳定，而其他模型大多需要切换模型 / 帧率才能实现可变码率。

3.5 语音理解能力

将 CAT 的离散 token 直接输入 Qwen3-1.7B LLM，构建 CAT-ASR，无需额外的预训练语音编码器或对齐/特征监督，仅通过 200 万小时音频&文本配对数据训练，即可实现有竞争力的 ASR 性能：

英文 LibriSpeech test-clean：WER=2.96%，接近 Whisper-Large-v3（2.90%）；
中文 AISHELL-2：CER=3.44%，优于 Baichuan-Audio-Base（3.87%）和 Step-Audio-Chat（3.60%）；
核心意义：证明 CAT 的 token 不仅保留了声学细节，还包含足够的语义信息，与文本表现良好对齐，可直接作为音频大模型的输入接口。

3.6 不同因素消融实验

论文重点验证了 CAT 架构的规模化特性，这是其成为下一代音频基础模型的关键：

端到端优化的重要性：全端到端训练的模型性能随训练步数持续提升，无早期饱和；而分阶段训练（冻结编码器 / 量化器）的模型性能快速收敛，难以进一步提升；
模型参数规模化：从 319M 到 1169M 参数，重建质量在全码率区间持续提升，高码率下提升更显著；
训练数据规模化：训练批次大小从 1 提升到 256，所有语音重建指标（SIM/STOI/PESQ）均持续提升，且大批次在相同训练步数下能实现更高的性能；
VQ 能力与模型参数协同规模化：模型参数和 RVQ 量化层数需同步扩展，单一维度的规模化会形成性能瓶颈，而 CAT 的端到端架构支持二者的协同优化。

四、总结与展望

核心贡献内容	关键细节
提出首个纯 Transformer 的音频 Tokenizer 架构	CAT 架构摒弃 CNN 组件，以因果 Transformer 层为核心；实现架构简洁性与扩展性统一，最小化归一化偏移；为音频 Tokenizer 规模化提供全新范式
构建 1.6B 参数的大规模通用音频 Tokenizer	基于 CAT 架构构建 MOSS-Audio-Tokenizer，经 300 万小时多领域音频全端到端预训练；实现语音、音效、音乐的统一表征；支持 0.125-4kbps 可变码率、流式低延迟处理；属于目前功能最全面的开源音频 Tokenizer 之一
实现纯自回归音频生成的突破	CAT-TTS 提出 Progressive Sequence Dropout 训练策略；让纯自回归 TTS 模型性能超越非自回归和级联系统；实现单模型可变码率生成，简化音频生成系统设计、降低错误传播
验证了音频 Tokenizer 的规模化规律	系统验证了模型参数、训练数据、计算量、量化能力的协同规模化规律；证明端到端优化的 CAT 架构可将计算资源直接转化为重建质量和语义表征能力；为后续更大规模音频基础模型研究提供指导