御青说

专题分享 | ICASSP 2026 HumDial 类人语音对话挑战赛

首届HumDial（类人语音对话系统）挑战赛作为语音研究领域顶级会议ICASSP 2026的同期赛事，由西北工业大学、南京大学、香港中文大学、华为技术有限公司、希尔贝壳（AISHELL）等多家机构联合发起，聚焦情感智能（赛道一）和全双工交互（赛道二）两大核心赛道。本文完整整理赛事全部核心信息，涵盖双赛道官方方案、论文资料、评测方案、参赛结果、赛事规则等，无内容删减。一、...
2026-01-10
- 技术分享
- 语音对话
阅读全文
语音合成 | 智谱 AI：GLM-TTS 语音合成模型的设计解析

论文链接：https://arxiv.org/pdf/2512.14291 Demo 链接：https://audio.z.ai/ 开源代码：https://github.com/zai-org/GLM-TTS 模型地址：huggingface.co/zai-org/GLM-TTS 作者单位：智谱 AI 发表日期：2025 年 12 月 16 日主要工作：工业级部署...
2026-01-05
- 论文笔记
- 语音合成
- | 语音 tokenizer
阅读全文
语音对话 | OSUM-EChat：理解驱动的共情语音对话模型

论文题目：OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue 论文链接：https://arxiv.org/pdf/2508.09600 Demo 链接：https://aslp-lab.github.io/osum-ec...
2025-12-28
- 论文笔记
- 语音对话
阅读全文
代码解读 | CosyVoice 代码研读（二）：CosyVoice2 LLM + GRPO

本文继续分析 CosyVoice 项目中 LLM 做强化学习的另一种方式，即 GRPO（Group Relative Policy Optimization）。以 examples/grpo/cosyvoice2 的实现为例，分析下如何把比较成熟的 NLP LLM 强化学习训练框架，迁移到 TTS 模型训练中，高效地进行强化学习训练。 1. TTS 引入强化学习通常的...
2025-12-18
- 代码解读
- 语音合成
- | 强化学习
阅读全文
代码解读 | CosyVoice 代码研读（一）：CosyVoice2 LLM + DPO

在 TTS 训练流程中，SFT (Speaker Fintuning) 无法直接优化人类对语音质量的主观偏好（如自然度、韵律、情感表达等）。DPO（Direct Preference Optimization）提供了一种无需训练奖励模型的偏好对齐方法。只需要通过”偏好”数据（chosen vs rejected），即可直接优化策略模型，使得模型更倾向于于人类偏好或者抑制...
2025-11-28
- 代码解读
- 语音合成
- | 强化学习
阅读全文
专题分享 | [slides] 基于 ARDM（自回归扩散模型）的语音合成
2025-11-03
- 技术分享
- 语音合成
- | TTS 大模型
- | 连续表征
阅读全文
专题分享 | 2025年10月，一文梳理国内外八大厂商 TTS 能力

今天（2025年10月16日），字节跳动发布了新版的豆包2.0语音合成能力，引发广泛讨论，效果确实惊艳。火山引擎发布新版语音合成系列模型：豆包语音合成模型2.0（Doubao-Seed-TTS 2.0）和豆包声音复刻模型2.0（Doubao-Seed-ICL 2.0），两款模型展现出更强的情感表现力、更精准的指令遵循能力，还能准确朗读复杂公式，还拓展了上下文推理和自然...
2025-10-22
- 技术分享
- 语音合成
阅读全文
专题分享 | 语音生成的新范式？连续表征的「自回归 × 扩散」建模

TL;DR 太长不看版语音合成目前主流的路线是「离散语音 tokenizer + LLM」，典型代表有 VALL-E、Tortoise-TTS、Seed-TTS、CosyVoice、Minimax-Speech、Index-TTS、FireRed-TTS 等。但近一年兴起了一股新的技术趋势：直接在连续表征（continuous token）空间建模，结合自回归 + 扩...
2025-09-20
- 技术分享
- 语音合成
- | TTS 大模型
- | 连续表征
阅读全文
专题分享 | 小红书 FireRedTTS 系列：从基础合成能力到长对话生成的演进

过去两年，TTS（语音合成）模型的演化速度令人惊叹。从“能说清楚”到“说得自然”，再到如今“实时流式”“对话级拟人能力”，背后不仅体现了大模型方案与语音合成的成功结合，还有整个数据清洗、表征学习和建模范式的革新。小红书智创音频团队的 FireRedTTS 系列正是其中比较具有代表性的工业级框架，从 FireRedTTS 最初的基础模型出发，一步步扩展到 FireR...
2025-09-14
- 技术分享
- 语音合成
- | 语音 tokenizer
- | TTS 大模型
阅读全文
语音合成 | [slides] CosyVoice 1&2：DiffRO 强化学习
2025-08-21
- 论文笔记
- 语音合成
- | TTS 大模型
阅读全文