社区交流 | 语音模型从设计到使用-通义百聆新年交流会
会议概览
通义百聆团队在【通义大模型】公众号及钉钉平台进行了技术分享,梳理下相关信息:
AI 听记链接 & 钉钉直播回放
【注意】本文中有些句子末尾带的数字(比如 06:49),代表在视频中的时间点
本次语音转录内容是一场由通义实验室主办的”开发者新年交流会”实录,聚焦于语音大模型技术的最新进展、架构演进与落地实践。
会议核心围绕三大模型:Fun-ASR(语音识别)、Fun-CosyVoice(语音合成) 和 Fun-Audio-Chat(端到端语音交互),三位算法工程师分别分享了各自方向的技术突破、取舍决策、行业趋势及开发者反馈。
会议不仅展示了技术成果,还通过真实开发者案例(千里眼配音、闪电说输入法)印证了模型在实际场景中的应用价值,并开放了未来规划与新年祝福,整体呈现出技术深度与生态共建并重的鲜明特征。
语音识别(Fun-ASR)技术演进与实践
- 范式革新:核心突破是全面从传统小模型切换至基于大模型的范式,通过上亿小时数据驱动,显著提升在嘈杂、多人说话等复杂场景下的鲁棒性,效果可与商业API媲美06:49。
- 核心取舍:放弃人工设计的流式识别、热词增强等模块,转为纯数据驱动。通过筛选和构造包含热词的训练数据,让模型自动学习识别能力,极大降低人工干预成本07:32。
- 行业趋势:与前两年相比,大模型语音识别已从科研Demo走向工业级落地,开源模型涌现,竞争焦点从单一SOTA转向实际应用效果与生态建设09:00。
- 关键问答:
- 声学编码器+Adapter+LLM的范式已是当前主流,开源生态已成熟25:35。
- 热词增强的核心增益来自模型规模和海量数据,而非仅依赖文本规范化26:47。
- 抗噪能力源于训练数据覆盖了大量含噪样本,而非前端降噪,模型能自主区分人声与噪声36:52。
- 对于中老年人普通话不标准、方言口音问题,解决方案是持续扩充覆盖不同口音和年龄层的训练数据01:04:56。
语音合成(Fun-CosyVoice)技术演进与实践
- 架构演进:从单纯扩大模型和数据规模,发现离散语音Token(tokenizer)成为瓶颈
- 增加了”连续表征”方案,在语言模型(LM)和流匹配(Flow Matching)间除了 token 还增加 LLM 隐状态,突破了 Scaling 上限11:00。
- 模型推理更快:模型推理 token 帧率做的更低。
- 能力增强:显著提升跨语种复刻、方言与语种覆盖,并增强指令理解能力,使合成更具个性化12:22。
- 行业变化:2024年下半年,国内大厂密集发布TTS模型(如微软 VibeVoice、智谱 GLM-TTS),行业从单纯的 TTS 扩展至 Voice Design、音乐生成等更广阔领域14:31。
- 关键问答:
- 音色克隆建议使用贴合业务场景、干净清晰的参考音频,而非追求覆盖所有声调的”万能句”28:36。
- 音频采样率16K/24K已足够日常应用,44.1K仅需专业场景29:13。
- 对于播客长音频的语速不连贯,建议在语言模型(LM)阶段训练”对话式”语料,在 DiT 阶段保持「分句合成」以优化40:20。
- 支持通过音标标签进行单词精准拼读59:26 → 说是开源已经支持标签?
- 未来模型将支持AI清唱歌曲58:45 → 视为一种带旋律的 TTS,最近也在训练新的 tokenizer + 现在 CosyVoice 的架构,支持歌声甚至是 audio
语音合成方向的判断
这段内容从技术演进和模型能力两个维度,明确了今年语音合成(TTS)的方向判断:
- 技术演进判断
- 核心方向:采用加入连续表征的方案,以此提升模型可容纳的数据与模型尺寸上限,是一个明确的技术判断
- TTS 三年内,预计语音训练数据可以达到亿级数据量级
- 模型能力判断
- 现状:纯 TTS 的拟人度、表现力、韵律已达到较高水平。
- 未来功能拓展方向:
- 支持更长文本合成
- 提升指令控制能力
- ☆增加上下文信息输入(对话相关内容)
- 拓展能力边界:除语音(speech)外,加入更多音频(Audio)信息
CosVoice 不同版本 tokenizer 演进
- CosVoice2
- tokenizer 训练仅使用 ASR 特征,完全剥离音色等非语义信息,实现语义与音色的强解耦。
- 情感由语言模型(LM)控制,音色由 flow matching 控制。
- CosVoice3
- 为提升 scaling 能力(减少信息传递损失),在 tokenizer 训练中加入情感、性别、年龄等特征,让 tokenizer 承载更多信息。
- 发现 LM 输出的 token 实际包含部分音色、音量信息,并非完全解耦。
- 下一代模型
- 采用加入连续表征的方案,进一步让音色信息与语言模型更深度耦合,将音色信息传递给语言模型,核心目的是提升 scaling 能力。
简单总结:从 CosVoice2 → CosVoice3 → 下一代,模型对语义、情感、音色的信息解耦程度逐步降低,走向更深度耦合,以提升模型的 scaling 能力与信息利用效率。
下一代 CosyVoice 模型主要提升
- 断句停顿问题
- 目前可尝试强化版模型,断句停顿效果会更好。
- 后续版本会重点优化该问题。
- 不同情绪切换问题
- 下个版本会提升复杂指令控制能力,可通过指令直接控制情绪切换(复杂 Instruct 文本下能力有明显提升)。
- 更多语种覆盖问题
- 正在拓展语种覆盖,包括东南亚、拉丁美洲、亚洲及欧洲等地区的语言。
- 其他补充
- 正在做 TN 中支持 Latex 公式的工作,主要通过数据 scaling 来支持
- 百炼上的 CosyVoice 模型已具备时间戳功能,但因开源社区集成需要开发工作量,且近期事务繁忙,功能暂未开源。
端到端语音交互(Fun-Audio-Chat)技术突破与应用
- 核心创新
- 2025年底发布,其创新在于端到端(End-to-End)架构,直接处理原始音频,而非级联ASR+LLM+TTS
- 能感知并利用情绪、环境、说话人特征等泛音频信息,实现”共情对话”19:37
- 核心优势
- 感知多元信息:能识别用户情绪、环境噪音、年龄性别等,动态调整响应策略(如嘈杂环境延迟响应)20:21。
- 表现力丰富:能模仿特定角色语气(如海绵宝宝),因为语义与声学信息在端到端系统中完整传递21:12。
- 落地场景
- 原生端到端最契合情感陪伴场景(如儿童玩具、智能眼镜、可穿戴设备),其次是车载交互和电话外呼30:48。
- 未来展望
- 短期内(1-2年)与级联模式长期并存,因级联模式更易调试和热修复,其实级联模型的上限也不低,包括响应延时也会达到比较低的水平
- 完全端到端的系统确实有不擅长的东西,目前是有一些工作在往级联和端到端兼容/混合的方向上演进的(感觉在说类似 Thinker-Talker 的结构?)
- 关键问答
- 模型支持换音色(通过替换 DiT 的 speaker embedding),未来将支持通过 System Prompt 直接控制语速、语调和语气01:39:30。
- 计划支持与本地知识库结合进行问答01:38:44。
- 全双工模式(边说边听)是核心探索方向,已内部分阶段迭代01:41:01。
开发者应用案例与反馈
- 千里眼配音
- 基于 fun Cosy Voice 开发的短视频配音工具,解决了付费软件昂贵、克隆成本高的痛点,通过克隆真人音色,大幅降低影视解说创作者的制作成本。
- 反馈建议:优化长静音/呼吸声处理、提升句子紧凑性、集成时间戳功能以优化字幕生成01:09:50。
- 闪电说输入法
- 将 fun ASR 部署于本地端,打造全天候录音与AI语音输入法,解决了隐私与云端成本问题。其愿景是让输入法成为个人记忆的AI代理。
- 反馈建议:优化中英文混输准确率、提升端侧推理速度01:24:34。
未来规划与开发者心愿
- ASR:正在研发端到端多说话人识别模型,未来将开源,不再优化旧级联系统01:34:40。
- CosyVoice:将发布详细的训练最佳实践教程;优化声码器CPU占用率,引入缓存机制;持续提升模型稳定性01:37:00。
- Audio-Chat:将支持本地知识库问答、通过 System Prompt 动态控制声音属性、实现全双工交互01:38:44。
- 硬件结合:正与钉钉A1、雷鸟AI眼镜等硬件厂商深度合作,推动语音模型在智能硬件上的落地45:01。
总结与展望
- 通义团队展现了从底层模型架构(端到端)到上层应用生态(开发者工具、硬件合作)的完整布局。
- 技术演进的核心路径清晰:数据驱动、模型规模化、端到端整合。
- 未来,语音AI将不再仅仅是”听懂”和”说出”,而是成为能感知、理解、共情并与环境交互的智能伙伴,真正融入每个人的数字生活。
Takeaways/Insights
技术方案
- DiT 训练时,在语言模型(LM)和流匹配(Flow Matching)信息传递时,除了 token 还增加 LLM hidden states 隐状态
- 采用加入连续表征的方案,让音色信息与语言模型更深度耦合,将音色信息传递给语言模型,核心目的是提升 scaling 能力
- 对于播客等长音频/对话音频的不连贯问题,建议在语言模型(LM)阶段训练”对话式”语料,在 DiT 阶段保持「分句合成」以优化
- 引入对话相关的 context 上下文信息作为输入,让对话响应更贴合场景、更具连贯性
- 歌声合成可以视为一种带旋律的 TTS,最近也在训练新的 tokenizer + 现在 CosyVoice 的架构,支持歌声甚至是 music/audio 生成
- CosyVoice 下个版本会提升复杂指令控制能力,可通过指令直接控制情绪切换(复杂 Instruct 文本的指令能力有明显提升)
行业见解
- TTS 在三年内,预计语音/音频训练数据可会达到达到亿小时的数据量级
- 通义百聆已经在探索全双工模式(边说边听),核心方向,已内部进行效果迭代
- 短期内(1-2年)内,端到端与级联模式长期并存,因级联模式更易调试和热修复
- 其实级联模型的上限也不低,包括响应延时也能达到比较低的水平
- 原生端到端最契合的落地场景:情感陪伴场景(如儿童玩具、智能眼镜、可穿戴设备),其次是车载交互和电话外呼
- 目前是有工作,在往级联和端到端兼容/混合的方向上演进(感觉在说类似 Thinker-Talker 的结构)
- 本文标题:社区交流 | 语音模型从设计到使用-通义百聆新年交流会
- 创建时间:2026-02-05
- 本文链接:2026/02/05/2026-02-05_tongyi_speech/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!