-
首届HumDial(类人语音对话系统)挑战赛作为语音研究领域顶级会议ICASSP 2026的同期赛事,由西北工业大学、南京大学、香港中文大学、华为技术有限公司、希尔贝壳(AISHELL)等多家机构联合发起,聚焦情感智能(赛道一)和全双工交互(赛道二)两大核心赛道。本文完整整理赛事全部核心信息,涵盖双赛道官方方案、论文资料、评测方案、参赛结果、赛事规则等,无内容删减。
一、...
-
论文链接:https://arxiv.org/pdf/2512.14291
Demo 链接:https://audio.z.ai/
开源代码:https://github.com/zai-org/GLM-TTS
模型地址:huggingface.co/zai-org/GLM-TTS
作者单位:智谱 AI
发表日期:2025 年 12 月 16 日
主要工作:工业级部署...
-
论文题目:OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue
论文链接:https://arxiv.org/pdf/2508.09600
Demo 链接:https://aslp-lab.github.io/osum-ec...
-
本文继续分析 CosyVoice 项目中 LLM 做强化学习的另一种方式,即 GRPO(Group Relative Policy Optimization)。以 examples/grpo/cosyvoice2 的实现为例,分析下如何把比较成熟的 NLP LLM 强化学习训练框架,迁移到 TTS 模型训练中,高效地进行强化学习训练。
1. TTS 引入强化学习通常的...
-
在 TTS 训练流程中,SFT (Speaker Fintuning) 无法直接优化人类对语音质量的主观偏好(如自然度、韵律、情感表达等)。DPO(Direct Preference Optimization) 提供了一种无需训练奖励模型的偏好对齐方法。只需要通过”偏好”数据(chosen vs rejected),即可直接优化策略模型,使得模型更倾向于于人类偏好或者抑制...
-
-
今天(2025年10月16日),字节跳动发布了新版的豆包2.0语音合成能力,引发广泛讨论,效果确实惊艳。
火山引擎发布新版语音合成系列模型:豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0),两款模型展现出更强的情感表现力、更精准的指令遵循能力,还能准确朗读复杂公式,还拓展了上下文推理和自然...
-
TL;DR 太长不看版语音合成目前主流的路线是「离散语音 tokenizer + LLM」,典型代表有 VALL-E、Tortoise-TTS、Seed-TTS、CosyVoice、Minimax-Speech、Index-TTS、FireRed-TTS 等。但近一年兴起了一股新的技术趋势:直接在 连续表征(continuous token) 空间建模,结合自回归 + 扩...
-
过去两年,TTS(语音合成)模型的演化速度令人惊叹。从“能说清楚”到“说得自然”,再到如今“实时流式”“对话级拟人能力”,背后不仅体现了大模型方案与语音合成的成功结合,还有整个数据清洗、表征学习和建模范式的革新。
小红书智创音频团队的 FireRedTTS 系列正是其中比较具有代表性的工业级框架,从 FireRedTTS 最初的基础模型出发,一步步扩展到 FireR...
-