御青说

专题分享 | 副语言语音数据集开源工作汇总

当前大语言模型（LLM）驱动的语音合成（TTS）领域，如何让机器说话带有“人味儿”（如呼吸、笑声、叹气、迟疑等非语言发声），已经成为走向极致拟人化的核心壁垒。本文梳理了近期该方向最具代表性的 8 篇论文及数据集。前言大模型时代的语音合成已经突破了基础的“清晰度”和“自然度”，目前的重要挑战是表现力（Expressiveness）与副语言特征（Paralinguist...
2026-02-05
- 技术分享
- 语音合成
- | 语音数据
阅读全文
社区交流 | 语音模型从设计到使用-通义百聆新年交流会

Takeaways/Insights技术方案 DiT 训练时，在语言模型（LM）和流匹配（Flow Matching）信息传递时，除了 token 还增加 LLM hidden states 隐状态采用加入连续表征的方案，让音色信息与语言模型更深度耦合，将音色信息传递给语言模型，核心目的是提升 scaling 能力在 IndexTTS 2 技术报告（https://a...
2026-02-05
- 社区交流
- 语音识别
- | 语音合成
- | 语音对话
阅读全文
代码解读 | CosyVoice 代码研读（三）：CosyVoice DiT CFM

CosyVoice3 的训练代码已经开源，这次最核心的变化在于 Flow Matching 模块从 U-Net 升级为 DiT（Diffusion Transformer）架构。本文以 cosyvoice/flow 目录下的最新代码为切入点，结合配置文件 cosyvoice3.yaml，从模型架构、Flow Matching 原理、条件信息输入机制、流式推理设计等维度对...
2026-01-29
- 代码解读
- 语音合成
- | 生成模型
阅读全文
技术思考 | 端到端语音交互在教育场景落地的思考

一、技术方案背景（级联 vs 端到端）方案类型方案编号方案简述代表性工作特点技术依赖级联方案一纯级联方案 ASR + LLM + TTS【代表性工作】X-Talkhttps://arxiv.org/pdf/2512.18706 技术成熟、模块易拆解，落地门槛低 ASR 识别准确率、LLM 逻辑推理能力、TTS 的表现力级联方案二标签化...
2026-01-15
- 技术思考
- 语音识别
- | 语音合成
- | 语音对话
阅读全文
专题分享 | ICASSP 2026 HumDial 类人语音对话挑战赛

首届HumDial（类人语音对话系统）挑战赛作为语音研究领域顶级会议ICASSP 2026的同期赛事，由西北工业大学、南京大学、香港中文大学、华为技术有限公司、希尔贝壳（AISHELL）等多家机构联合发起，聚焦情感智能（赛道一）和全双工交互（赛道二）两大核心赛道。本文完整整理赛事全部核心信息，涵盖双赛道官方方案、论文资料、评测方案、参赛结果、赛事规则等，无内容删减。一、...
2026-01-10
- 技术分享
- 语音对话
阅读全文
语音合成 | 智谱 AI：GLM-TTS 语音合成模型的设计解析

论文链接：https://arxiv.org/pdf/2512.14291 Demo 链接：https://audio.z.ai/ 开源代码：https://github.com/zai-org/GLM-TTS 模型地址：huggingface.co/zai-org/GLM-TTS 作者单位：智谱 AI 发表日期：2025 年 12 月 16 日主要工作：工业级部署...
2026-01-05
- 论文笔记
- 语音合成
- | 语音 tokenizer
阅读全文
语音对话 | OSUM-EChat：理解驱动的共情语音对话模型

论文题目：OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue 论文链接：https://arxiv.org/pdf/2508.09600 Demo 链接：https://aslp-lab.github.io/osum-ec...
2025-12-28
- 论文笔记
- 语音对话
阅读全文
代码解读 | CosyVoice 代码研读（二）：CosyVoice2 LLM + GRPO

本文继续分析 CosyVoice 项目中 LLM 做强化学习的另一种方式，即 GRPO（Group Relative Policy Optimization）。以 examples/grpo/cosyvoice2 的实现为例，分析下如何把比较成熟的 NLP LLM 强化学习训练框架，迁移到 TTS 模型训练中，高效地进行强化学习训练。 1. TTS 引入强化学习通常的...
2025-12-18
- 代码解读
- 语音合成
- | 强化学习
阅读全文
代码解读 | CosyVoice 代码研读（一）：CosyVoice2 LLM + DPO

在 TTS 训练流程中，SFT (Speaker Fintuning) 无法直接优化人类对语音质量的主观偏好（如自然度、韵律、情感表达等）。DPO（Direct Preference Optimization）提供了一种无需训练奖励模型的偏好对齐方法。只需要通过”偏好”数据（chosen vs rejected），即可直接优化策略模型，使得模型更倾向于于人类偏好或者抑制...
2025-11-28
- 代码解读
- 语音合成
- | 强化学习
阅读全文
专题分享 | [slides] 基于 ARDM（自回归扩散模型）的语音合成
2025-11-03
- 技术分享
- 语音合成
- | TTS 大模型
- | 连续表征
阅读全文