御青说

博学而笃志，切问而近思

Think Closely & Resolve Firmly

语音合成 | Qwen3-TTS：当 TTS 重新回到 LLM+RVQ

TTS 范式变化与 LLM+RVQ 的回归摘要：Qwen3‑TTS 用更强的低帧率多码本 Tokenizer + 纯自回归 Dual-AR LLM，把 TTS 从 “LLM+DiT 级联” 拉回 “大道至简” 的 LLM+RVQ 历史路线，实现 97ms 超低延迟、3 秒零样本克隆、10 语言跨语言合成与指令可控音色，与 MOSS-TTS/FishAudio S2 同期...
2026-03-10
- 论文笔记
- 语音合成
- | 语音 tokenizer
阅读全文
语音合成 | MOSS-Audio-Tokenizer：大数据驱动的通用音频 Tokenizer

论文题目：MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models 论文链接：https://arxiv.org/pdf/2602.10934 开源代码：https://github.com/OpenMOSS/MOSS-Audio-Tokenizer 模型地址：h...
2026-02-28
- 论文笔记
- 语音合成
- | 语音 tokenizer
阅读全文
专题分享 | UltraTTSData：语音合成数据分层管理体系 (II)

参考清华大学与面壁智能提出的 UltraData（详见解读）——文本 LLM 数据分层管理体系，类比到 TTS 语音合成场景下，可以作为语音合成的「训练数据管理」指南。基于分层数据管理思想，构建 T0-T4 共五层级体系，主要出发点：数据与模型协同进化质量梯度分层适配不同训练阶段注重成本与收益平衡为区别于 UltraData（中采用的 L0-L4 层级体系，本...
2026-02-15
- 社区交流
- 语音数据
阅读全文
专题分享 | UltraData：大模型时代数据分层管理体系 (I)

论文信息：Data Science and Technology Towards AGI Part I: Tiered Data Management，清华大学 & 面壁智能大模型时代，自从数据和模型参数的 Scaling Law 验证了有效性，关于数据始终有一个问题无法回避：训练数据，到底应该怎么管理？从 GPT-4 到 DeepSeek 到各类 LL...
2026-02-13
- 社区交流
- 语音数据
阅读全文
语音对话 | MiniCPM-o 4.5 全双工全模态大模型-深度思考（Part II）

MiniCPM-o 4.5 所面临的四大研发挑战，并非孤立的技术问题，而是端侧全双工全模态模型这一全新技术方向的底层共性难题—— 其本质是以下四类问题的集中体现：「多模态融合的参数效率矛盾」「全新技术范式的工程化空白」「实时性与连贯性的技术权衡」「端侧硬件的资源约束适配」对应的解决思路，既贴合大模型研发的通用规律，又针对「全双工 + 全模态 + 端侧」的...
2026-02-10
- 社区交流
- 语音对话
阅读全文
语音对话 | MiniCPM-o 4.5 全双工全模态大模型-技术分享（Part I）

分享题目：面壁小钢炮：MiniCPM-o 4.5(9B) 首个全双工全模态大模型 + 边看边听主动说分享者：姚远博士（面壁智能多模态首席科学家、清华大学助理教授）官方信息：- github: https://github.com/OpenBMB/MiniCPM-o- 模型代码：https://huggingface.co/openbmb/MiniCPM-o-4_5/bl...
2026-02-08
- 社区交流
- 语音对话
阅读全文
专题分享 | 副语言语音数据集开源工作汇总

当前大语言模型（LLM）驱动的语音合成（TTS）领域，如何让机器说话带有“人味儿”（如呼吸、笑声、叹气、迟疑等非语言发声），已经成为走向极致拟人化的核心壁垒。本文梳理了近期该方向最具代表性的 8 篇论文及数据集。前言大模型时代的语音合成已经突破了基础的“清晰度”和“自然度”，目前的重要挑战是表现力（Expressiveness）与副语言特征（Paralinguist...
2026-02-05
- 技术分享
- 语音合成
- | 语音数据
阅读全文
社区交流 | 语音模型从设计到使用-通义百聆新年交流会

Takeaways/Insights技术方案 DiT 训练时，在语言模型（LM）和流匹配（Flow Matching）信息传递时，除了 token 还增加 LLM hidden states 隐状态采用加入连续表征的方案，让音色信息与语言模型更深度耦合，将音色信息传递给语言模型，核心目的是提升 scaling 能力在 IndexTTS 2 技术报告（https://a...
2026-02-05
- 社区交流
- 语音识别
- | 语音合成
- | 语音对话
阅读全文
代码解读 | CosyVoice 代码研读（三）：CosyVoice DiT CFM

CosyVoice3 的训练代码已经开源，这次最核心的变化在于 Flow Matching 模块从 U-Net 升级为 DiT（Diffusion Transformer）架构。本文以 cosyvoice/flow 目录下的最新代码为切入点，结合配置文件 cosyvoice3.yaml，从模型架构、Flow Matching 原理、条件信息输入机制、流式推理设计等维度对...
2026-01-29
- 代码解读
- 语音合成
- | 生成模型
阅读全文
技术思考 | 端到端语音交互在教育场景落地的思考

一、技术方案背景（级联 vs 端到端）方案类型方案编号方案简述代表性工作特点技术依赖级联方案一纯级联方案 ASR + LLM + TTS【代表性工作】X-Talkhttps://arxiv.org/pdf/2512.18706 技术成熟、模块易拆解，落地门槛低 ASR 识别准确率、LLM 逻辑推理能力、TTS 的表现力级联方案二标签化...
2026-01-15
- 技术思考
- 语音识别
- | 语音合成
- | 语音对话
阅读全文