御青说

博学而笃志，切问而近思

Think Closely & Resolve Firmly

专题分享 | 截止 2026-Q1 业界主流 TTS 模型架构调研

本报告对当前主流 TTS 大模型的技术方案进行系统化分类、架构解析和横向对比，覆盖从离散 token 到连续表征、从自回归到非自回归的主要技术路线。一、技术方案总览与分类框架1.1 分类维度TTS 大模型的核心技术差异体现在以下四个维度： # 维度可选项 1 生成范式自回归（AR）/ 非自回归（NAR）/ 混合（AR+NAR） 2 语音表征离散...
2026-04-18
- 技术分享
- 语音合成
- | TTS 大模型
阅读全文
专题分享 | [slides] VTP：图像生成 Visual Tokenizer 可扩展预训练
2026-04-11
- 技术分享
- 连续表征
- | Visual Tokenizer
阅读全文
语音合成 | OmniVoice：基于离散 Diffusion LLM 的 TTS

最近几年的 TTS 模型，多数还依赖类似 text→semantic & semantic→acoustic/mel 的级联方案，存在模块繁多、误差累积的问题。小米 Daniel Povey 团队最新提出的 OmniVoice，基于扩散语言模型（Diffusion Language Model）这类单阶段离散 NAR 架构，重新将离散 Diffusion 拉...
2026-04-03
- 论文笔记
- 语音合成
阅读全文
专题分享 | [slides] LongCat-AudioDiT 基于 Wav-VAE 的高保真语音合成
2026-03-29
- 技术分享
- 语音合成
- | TTS 大模型
- | 连续表征
阅读全文
语音合成 | Qwen3-TTS：当 TTS 重新回到 LLM+RVQ

TTS 范式变化与 LLM+RVQ 的回归摘要：Qwen3‑TTS 用更强的低帧率多码本 Tokenizer + 纯自回归 Dual-AR LLM，把 TTS 从 “LLM+DiT 级联” 拉回 “大道至简” 的 LLM+RVQ 历史路线，实现 97ms 超低延迟、3 秒零样本克隆、10 语言跨语言合成与指令可控音色，与 MOSS-TTS/FishAudio S2 同期...
2026-03-10
- 论文笔记
- 语音合成
- | 语音 tokenizer
阅读全文
语音合成 | MOSS-Audio-Tokenizer：大数据驱动的通用音频 Tokenizer

MOSS-Audio-Tokenizer 提出了 CAT（Causal Audio Tokenizer with Transformer），一款参数量达 1.6B 的 MOSS‑Audio‑Tokenizer。基于纯 Transformer 架构，在 300 万小时多类型音频数据上完成预训练，可对语音(Speech)、音效(Sound)、音乐(Music)实现高保真重建，...
2026-02-28
- 论文笔记
- 语音合成
- | 语音 tokenizer
阅读全文
专题分享 | UltraTTSData：语音合成数据分层管理体系 (II)

参考清华大学与面壁智能提出的 UltraData（详见解读）——文本 LLM 数据分层管理体系，类比到 TTS 语音合成场景下，可以作为语音合成的「训练数据管理」指南。基于分层数据管理思想，构建 T0-T4 共五层级体系，主要出发点：数据与模型协同进化质量梯度分层适配不同训练阶段注重成本与收益平衡为区别于 UltraData（中采用的 L0-L4 层级体系，本...
2026-02-15
- 社区交流
- 语音数据
阅读全文
专题分享 | UltraData：大模型时代数据分层管理体系 (I)

论文信息：Data Science and Technology Towards AGI Part I: Tiered Data Management，清华大学 & 面壁智能大模型时代，自从数据和模型参数的 Scaling Law 验证了有效性，关于数据始终有一个问题无法回避：训练数据，到底应该怎么管理？从 GPT-4 到 DeepSeek 到各类 LL...
2026-02-13
- 社区交流
- 语音数据
阅读全文
语音对话 | MiniCPM-o 4.5 全双工全模态大模型-深度思考（Part II）

MiniCPM-o 4.5 所面临的四大研发挑战，并非孤立的技术问题，而是端侧全双工全模态模型这一全新技术方向的底层共性难题—— 其本质是以下四类问题的集中体现：「多模态融合的参数效率矛盾」「全新技术范式的工程化空白」「实时性与连贯性的技术权衡」「端侧硬件的资源约束适配」对应的解决思路，既贴合大模型研发的通用规律，又针对「全双工 + 全模态 + 端侧」的...
2026-02-10
- 社区交流
- 语音对话
阅读全文
语音对话 | MiniCPM-o 4.5 全双工全模态大模型-技术分享（Part I）

分享题目：面壁小钢炮：MiniCPM-o 4.5(9B) 首个全双工全模态大模型 + 边看边听主动说分享者：姚远博士（面壁智能多模态首席科学家、清华大学助理教授）官方信息：- github: https://github.com/OpenBMB/MiniCPM-o- 模型代码：https://huggingface.co/openbmb/MiniCPM-o-4_5/bl...
2026-02-08
- 社区交流
- 语音对话
阅读全文