-
当前大语言模型(LLM)驱动的语音合成(TTS)领域,如何让机器说话带有“人味儿”(如呼吸、笑声、叹气、迟疑等非语言发声),已经成为走向极致拟人化的核心壁垒。本文梳理了近期该方向最具代表性的 8 篇论文及数据集。
前言大模型时代的语音合成已经突破了基础的“清晰度”和“自然度”,目前的重要挑战是表现力(Expressiveness)与副语言特征(Paralinguist...
-
Takeaways/Insights技术方案
DiT 训练时,在语言模型(LM)和流匹配(Flow Matching)信息传递时,除了 token 还增加 LLM hidden states 隐状态
采用加入连续表征的方案,让音色信息与语言模型更深度耦合,将音色信息传递给语言模型,核心目的是提升 scaling 能力
在 IndexTTS 2 技术报告(https://a...
-
CosyVoice3 的训练代码已经开源,这次最核心的变化在于 Flow Matching 模块从 U-Net 升级为 DiT(Diffusion Transformer)架构。本文以 cosyvoice/flow 目录下的最新代码为切入点,结合配置文件 cosyvoice3.yaml,从模型架构、Flow Matching 原理、条件信息输入机制、流式推理设计等维度对...
-
一、技术方案背景(级联 vs 端到端)
方案类型
方案编号
方案简述
代表性工作
特点
技术依赖
级联
方案一
纯级联方案
ASR + LLM + TTS【代表性工作】X-Talkhttps://arxiv.org/pdf/2512.18706
技术成熟、模块易拆解,落地门槛低
ASR 识别准确率、LLM 逻辑推理能力、TTS 的表现力
级联
方案二
标签化...
-
首届HumDial(类人语音对话系统)挑战赛作为语音研究领域顶级会议ICASSP 2026的同期赛事,由西北工业大学、南京大学、香港中文大学、华为技术有限公司、希尔贝壳(AISHELL)等多家机构联合发起,聚焦情感智能(赛道一)和全双工交互(赛道二)两大核心赛道。本文完整整理赛事全部核心信息,涵盖双赛道官方方案、论文资料、评测方案、参赛结果、赛事规则等,无内容删减。
一、...
-
论文链接:https://arxiv.org/pdf/2512.14291
Demo 链接:https://audio.z.ai/
开源代码:https://github.com/zai-org/GLM-TTS
模型地址:huggingface.co/zai-org/GLM-TTS
作者单位:智谱 AI
发表日期:2025 年 12 月 16 日
主要工作:工业级部署...
-
论文题目:OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue
论文链接:https://arxiv.org/pdf/2508.09600
Demo 链接:https://aslp-lab.github.io/osum-ec...
-
本文继续分析 CosyVoice 项目中 LLM 做强化学习的另一种方式,即 GRPO(Group Relative Policy Optimization)。以 examples/grpo/cosyvoice2 的实现为例,分析下如何把比较成熟的 NLP LLM 强化学习训练框架,迁移到 TTS 模型训练中,高效地进行强化学习训练。
1. TTS 引入强化学习通常的...
-
在 TTS 训练流程中,SFT (Speaker Fintuning) 无法直接优化人类对语音质量的主观偏好(如自然度、韵律、情感表达等)。DPO(Direct Preference Optimization) 提供了一种无需训练奖励模型的偏好对齐方法。只需要通过”偏好”数据(chosen vs rejected),即可直接优化策略模型,使得模型更倾向于于人类偏好或者抑制...
-