社区交流 | 语音模型从设计到使用-通义百聆新年交流会

会议概览

通义百聆团队在【通义大模型】公众号及钉钉平台进行了技术分享，梳理下相关信息：
AI 听记链接 & 钉钉直播回放
【注意】本文中有些句子末尾带的数字（比如 06:49），代表在视频中的时间点

本次语音转录内容是一场由通义实验室主办的”开发者新年交流会”实录，聚焦于语音大模型技术的最新进展、架构演进与落地实践。

会议核心围绕三大模型：Fun-ASR（语音识别）、Fun-CosyVoice（语音合成） 和 Fun-Audio-Chat（端到端语音交互），三位算法工程师分别分享了各自方向的技术突破、取舍决策、行业趋势及开发者反馈。

会议不仅展示了技术成果，还通过真实开发者案例（千里眼配音、闪电说输入法）印证了模型在实际场景中的应用价值，并开放了未来规划与新年祝福，整体呈现出技术深度与生态共建并重的鲜明特征。

语音识别（Fun-ASR）技术演进与实践

范式革新：核心突破是全面从传统小模型切换至基于大模型的范式，通过上亿小时数据驱动，显著提升在嘈杂、多人说话等复杂场景下的鲁棒性，效果可与商业API媲美06:49。
核心取舍：放弃人工设计的流式识别、热词增强等模块，转为纯数据驱动。通过筛选和构造包含热词的训练数据，让模型自动学习识别能力，极大降低人工干预成本07:32。
行业趋势：与前两年相比，大模型语音识别已从科研Demo走向工业级落地，开源模型涌现，竞争焦点从单一SOTA转向实际应用效果与生态建设09:00。
关键问答：
- 声学编码器+Adapter+LLM的范式已是当前主流，开源生态已成熟25:35。
- 热词增强的核心增益来自模型规模和海量数据，而非仅依赖文本规范化26:47。
- 抗噪能力源于训练数据覆盖了大量含噪样本，而非前端降噪，模型能自主区分人声与噪声36:52。
- 对于中老年人普通话不标准、方言口音问题，解决方案是持续扩充覆盖不同口音和年龄层的训练数据01:04:56。

语音合成（Fun-CosyVoice）技术演进与实践

架构演进：从单纯扩大模型和数据规模，发现离散语音Token（tokenizer）成为瓶颈
- 增加了”连续表征”方案，在语言模型（LM）和流匹配（Flow Matching）间除了 token 还增加 LLM 隐状态，突破了 Scaling 上限11:00。
- 模型推理更快：模型推理 token 帧率做的更低。
能力增强：显著提升跨语种复刻、方言与语种覆盖，并增强指令理解能力，使合成更具个性化12:22。
行业变化：2024年下半年，国内大厂密集发布TTS模型（如微软 VibeVoice、智谱 GLM-TTS），行业从单纯的 TTS 扩展至 Voice Design、音乐生成等更广阔领域14:31。
关键问答：
- 音色克隆建议使用贴合业务场景、干净清晰的参考音频，而非追求覆盖所有声调的”万能句”28:36。
- 音频采样率16K/24K已足够日常应用，44.1K仅需专业场景29:13。
- 对于播客长音频的语速不连贯，建议在语言模型（LM）阶段训练”对话式”语料，在 DiT 阶段保持「分句合成」以优化40:20。
- 支持通过音标标签进行单词精准拼读59:26 → 说是开源已经支持标签？
- 未来模型将支持AI清唱歌曲58:45 → 视为一种带旋律的 TTS，最近也在训练新的 tokenizer + 现在 CosyVoice 的架构，支持歌声甚至是 audio

语音合成方向的判断

这段内容从技术演进和模型能力两个维度，明确了今年语音合成（TTS）的方向判断：

技术演进判断
- 核心方向：采用加入连续表征的方案，以此提升模型可容纳的数据与模型尺寸上限，是一个明确的技术判断
- TTS 三年内，预计语音训练数据可以达到亿级数据量级
模型能力判断
- 现状：纯 TTS 的拟人度、表现力、韵律已达到较高水平。
- 未来功能拓展方向：
  - 支持更长文本合成
  - 提升指令控制能力
  - ☆增加上下文信息输入（对话相关内容）
  - 拓展能力边界：除语音（speech）外，加入更多音频（Audio）信息

CosVoice 不同版本 tokenizer 演进

CosVoice2

tokenizer 训练仅使用 ASR 特征，完全剥离音色等非语义信息，实现语义与音色的强解耦。
情感由语言模型（LM）控制，音色由 flow matching 控制。

CosVoice3

为提升 scaling 能力（减少信息传递损失），在 tokenizer 训练中加入情感、性别、年龄等特征，让 tokenizer 承载更多信息。
发现 LM 输出的 token 实际包含部分音色、音量信息，并非完全解耦。

下一代模型

采用加入连续表征的方案，进一步让音色信息与语言模型更深度耦合，将音色信息传递给语言模型，核心目的是提升 scaling 能力。

简单总结：从 CosVoice2 → CosVoice3 → 下一代，模型对语义、情感、音色的信息解耦程度逐步降低，走向更深度耦合，以提升模型的 scaling 能力与信息利用效率。

下一代 CosyVoice 模型主要提升

断句停顿问题
- 目前可尝试强化版模型，断句停顿效果会更好。
- 后续版本会重点优化该问题。
不同情绪切换问题
- 下个版本会提升复杂指令控制能力，可通过指令直接控制情绪切换（复杂 Instruct 文本下能力有明显提升）。
更多语种覆盖问题
- 正在拓展语种覆盖，包括东南亚、拉丁美洲、亚洲及欧洲等地区的语言。
其他补充
- 正在做 TN 中支持 Latex 公式的工作，主要通过数据 scaling 来支持
- 百炼上的 CosyVoice 模型已具备时间戳功能，但因开源社区集成需要开发工作量，且近期事务繁忙，功能暂未开源。

端到端语音交互（Fun-Audio-Chat）技术突破与应用

核心创新
- 2025年底发布，其创新在于端到端（End-to-End）架构，直接处理原始音频，而非级联ASR+LLM+TTS
- 能感知并利用情绪、环境、说话人特征等泛音频信息，实现”共情对话”19:37
核心优势
- 感知多元信息：能识别用户情绪、环境噪音、年龄性别等，动态调整响应策略（如嘈杂环境延迟响应）20:21。
- 表现力丰富：能模仿特定角色语气（如海绵宝宝），因为语义与声学信息在端到端系统中完整传递21:12。
落地场景
- 原生端到端最契合情感陪伴场景（如儿童玩具、智能眼镜、可穿戴设备），其次是车载交互和电话外呼30:48。
未来展望
- 短期内（1-2年）与级联模式长期并存，因级联模式更易调试和热修复，其实级联模型的上限也不低，包括响应延时也会达到比较低的水平
- 完全端到端的系统确实有不擅长的东西，目前是有一些工作在往级联和端到端兼容/混合的方向上演进的（感觉在说类似 Thinker-Talker 的结构？）
关键问答
- 模型支持换音色（通过替换 DiT 的 speaker embedding），未来将支持通过 System Prompt 直接控制语速、语调和语气01:39:30。
- 计划支持与本地知识库结合进行问答01:38:44。
- 全双工模式（边说边听）是核心探索方向，已内部分阶段迭代01:41:01。

开发者应用案例与反馈

千里眼配音
- 基于 fun Cosy Voice 开发的短视频配音工具，解决了付费软件昂贵、克隆成本高的痛点，通过克隆真人音色，大幅降低影视解说创作者的制作成本。
- 反馈建议：优化长静音/呼吸声处理、提升句子紧凑性、集成时间戳功能以优化字幕生成01:09:50。
闪电说输入法
- 将 fun ASR 部署于本地端，打造全天候录音与AI语音输入法，解决了隐私与云端成本问题。其愿景是让输入法成为个人记忆的AI代理。
- 反馈建议：优化中英文混输准确率、提升端侧推理速度01:24:34。

未来规划与开发者心愿

ASR：正在研发端到端多说话人识别模型，未来将开源，不再优化旧级联系统01:34:40。
CosyVoice：将发布详细的训练最佳实践教程；优化声码器CPU占用率，引入缓存机制；持续提升模型稳定性01:37:00。
Audio-Chat：将支持本地知识库问答、通过 System Prompt 动态控制声音属性、实现全双工交互01:38:44。
硬件结合：正与钉钉A1、雷鸟AI眼镜等硬件厂商深度合作，推动语音模型在智能硬件上的落地45:01。

总结与展望

通义团队展现了从底层模型架构（端到端）到上层应用生态（开发者工具、硬件合作）的完整布局。
技术演进的核心路径清晰：数据驱动、模型规模化、端到端整合。
未来，语音AI将不再仅仅是”听懂”和”说出”，而是成为能感知、理解、共情并与环境交互的智能伙伴，真正融入每个人的数字生活。

Takeaways/Insights

技术方案

DiT 训练时，在语言模型（LM）和流匹配（Flow Matching）信息传递时，除了 token 还增加 LLM hidden states 隐状态
- 采用加入连续表征的方案，让音色信息与语言模型更深度耦合，将音色信息传递给语言模型，核心目的是提升 scaling 能力
对于播客等长音频/对话音频的不连贯问题，建议在语言模型（LM）阶段训练”对话式”语料，在 DiT 阶段保持「分句合成」以优化
引入对话相关的 context 上下文信息作为输入，让对话响应更贴合场景、更具连贯性
歌声合成可以视为一种带旋律的 TTS，最近也在训练新的 tokenizer + 现在 CosyVoice 的架构，支持歌声甚至是 music/audio 生成
CosyVoice 下个版本会提升复杂指令控制能力，可通过指令直接控制情绪切换（复杂 Instruct 文本的指令能力有明显提升）

行业见解

TTS 在三年内，预计语音/音频训练数据可会达到达到亿小时的数据量级
通义百聆已经在探索全双工模式（边说边听），核心方向，已内部进行效果迭代
短期内（1-2年）内，端到端与级联模式长期并存，因级联模式更易调试和热修复
- 其实级联模型的上限也不低，包括响应延时也能达到比较低的水平
- 原生端到端最契合的落地场景：情感陪伴场景（如儿童玩具、智能眼镜、可穿戴设备），其次是车载交互和电话外呼
- 目前是有工作，在往级联和端到端兼容/混合的方向上演进（感觉在说类似 Thinker-Talker 的结构）