社区交流 | 语音模型从设计到使用-通义百聆新年交流会
知更鸟 Lv4

会议概览

通义百聆团队在【通义大模型】公众号及钉钉平台进行了技术分享,梳理下相关信息:
AI 听记链接 & 钉钉直播回放
【注意】本文中有些句子末尾带的数字(比如 06:49),代表在视频中的时间点

本次语音转录内容是一场由通义实验室主办的”开发者新年交流会”实录,聚焦于语音大模型技术的最新进展、架构演进与落地实践。

会议核心围绕三大模型:Fun-ASR(语音识别)Fun-CosyVoice(语音合成)Fun-Audio-Chat(端到端语音交互),三位算法工程师分别分享了各自方向的技术突破、取舍决策、行业趋势及开发者反馈。

会议不仅展示了技术成果,还通过真实开发者案例(千里眼配音、闪电说输入法)印证了模型在实际场景中的应用价值,并开放了未来规划与新年祝福,整体呈现出技术深度与生态共建并重的鲜明特征。

语音识别(Fun-ASR)技术演进与实践

  • 范式革新:核心突破是全面从传统小模型切换至基于大模型的范式,通过上亿小时数据驱动,显著提升在嘈杂、多人说话等复杂场景下的鲁棒性,效果可与商业API媲美06:49。
  • 核心取舍:放弃人工设计的流式识别、热词增强等模块,转为纯数据驱动。通过筛选和构造包含热词的训练数据,让模型自动学习识别能力,极大降低人工干预成本07:32。
  • 行业趋势:与前两年相比,大模型语音识别已从科研Demo走向工业级落地,开源模型涌现,竞争焦点从单一SOTA转向实际应用效果与生态建设09:00。
  • 关键问答:
    • 声学编码器+Adapter+LLM的范式已是当前主流,开源生态已成熟25:35。
    • 热词增强的核心增益来自模型规模和海量数据,而非仅依赖文本规范化26:47。
    • 抗噪能力源于训练数据覆盖了大量含噪样本,而非前端降噪,模型能自主区分人声与噪声36:52。
    • 对于中老年人普通话不标准、方言口音问题,解决方案是持续扩充覆盖不同口音和年龄层的训练数据01:04:56。

语音合成(Fun-CosyVoice)技术演进与实践

  • 架构演进:从单纯扩大模型和数据规模,发现离散语音Token(tokenizer)成为瓶颈
    • 增加了”连续表征”方案,在语言模型(LM)和流匹配(Flow Matching)间除了 token 还增加 LLM 隐状态,突破了 Scaling 上限11:00。
    • 模型推理更快:模型推理 token 帧率做的更低。
  • 能力增强:显著提升跨语种复刻、方言与语种覆盖,并增强指令理解能力,使合成更具个性化12:22。
  • 行业变化:2024年下半年,国内大厂密集发布TTS模型(如微软 VibeVoice、智谱 GLM-TTS),行业从单纯的 TTS 扩展至 Voice Design、音乐生成等更广阔领域14:31。
  • 关键问答
    • 音色克隆建议使用贴合业务场景、干净清晰的参考音频,而非追求覆盖所有声调的”万能句”28:36。
    • 音频采样率16K/24K已足够日常应用,44.1K仅需专业场景29:13。
    • 对于播客长音频的语速不连贯,建议在语言模型(LM)阶段训练”对话式”语料,在 DiT 阶段保持「分句合成」以优化40:20。
    • 支持通过音标标签进行单词精准拼读59:26 → 说是开源已经支持标签?
    • 未来模型将支持AI清唱歌曲58:45 → 视为一种带旋律的 TTS,最近也在训练新的 tokenizer + 现在 CosyVoice 的架构,支持歌声甚至是 audio

语音合成方向的判断

这段内容从技术演进和模型能力两个维度,明确了今年语音合成(TTS)的方向判断:

  1. 技术演进判断
    • 核心方向:采用加入连续表征的方案,以此提升模型可容纳的数据与模型尺寸上限,是一个明确的技术判断
    • TTS 三年内,预计语音训练数据可以达到亿级数据量级
  2. 模型能力判断
    • 现状:纯 TTS 的拟人度、表现力、韵律已达到较高水平。
    • 未来功能拓展方向:
      • 支持更长文本合成
      • 提升指令控制能力
      • ☆增加上下文信息输入(对话相关内容)
      • 拓展能力边界:除语音(speech)外,加入更多音频(Audio)信息

CosVoice 不同版本 tokenizer 演进

  1. CosVoice2
  • tokenizer 训练仅使用 ASR 特征,完全剥离音色等非语义信息,实现语义与音色的强解耦。
  • 情感由语言模型(LM)控制,音色由 flow matching 控制。
  1. CosVoice3
  • 为提升 scaling 能力(减少信息传递损失),在 tokenizer 训练中加入情感、性别、年龄等特征,让 tokenizer 承载更多信息。
  • 发现 LM 输出的 token 实际包含部分音色、音量信息,并非完全解耦。
  1. 下一代模型
  • 采用加入连续表征的方案,进一步让音色信息与语言模型更深度耦合,将音色信息传递给语言模型,核心目的是提升 scaling 能力。

简单总结:从 CosVoice2 → CosVoice3 → 下一代,模型对语义、情感、音色的信息解耦程度逐步降低,走向更深度耦合,以提升模型的 scaling 能力与信息利用效率。

下一代 CosyVoice 模型主要提升

  • 断句停顿问题
    • 目前可尝试强化版模型,断句停顿效果会更好。
    • 后续版本会重点优化该问题。
  • 不同情绪切换问题
    • 下个版本会提升复杂指令控制能力,可通过指令直接控制情绪切换(复杂 Instruct 文本下能力有明显提升)。
  • 更多语种覆盖问题
    • 正在拓展语种覆盖,包括东南亚、拉丁美洲、亚洲及欧洲等地区的语言。
  • 其他补充
    • 正在做 TN 中支持 Latex 公式的工作,主要通过数据 scaling 来支持
    • 百炼上的 CosyVoice 模型已具备时间戳功能,但因开源社区集成需要开发工作量,且近期事务繁忙,功能暂未开源。

端到端语音交互(Fun-Audio-Chat)技术突破与应用

  • 核心创新
    • 2025年底发布,其创新在于端到端(End-to-End)架构,直接处理原始音频,而非级联ASR+LLM+TTS
    • 能感知并利用情绪、环境、说话人特征等泛音频信息,实现”共情对话”19:37
  • 核心优势
    • 感知多元信息:能识别用户情绪、环境噪音、年龄性别等,动态调整响应策略(如嘈杂环境延迟响应)20:21。
    • 表现力丰富:能模仿特定角色语气(如海绵宝宝),因为语义与声学信息在端到端系统中完整传递21:12。
  • 落地场景
    • 原生端到端最契合情感陪伴场景(如儿童玩具、智能眼镜、可穿戴设备),其次是车载交互和电话外呼30:48。
  • 未来展望
    • 短期内(1-2年)与级联模式长期并存,因级联模式更易调试和热修复,其实级联模型的上限也不低,包括响应延时也会达到比较低的水平
    • 完全端到端的系统确实有不擅长的东西,目前是有一些工作在往级联和端到端兼容/混合的方向上演进的(感觉在说类似 Thinker-Talker 的结构?)
  • 关键问答
    • 模型支持换音色(通过替换 DiT 的 speaker embedding),未来将支持通过 System Prompt 直接控制语速、语调和语气01:39:30。
    • 计划支持与本地知识库结合进行问答01:38:44。
    • 全双工模式(边说边听)是核心探索方向,已内部分阶段迭代01:41:01。

开发者应用案例与反馈

  • 千里眼配音
    • 基于 fun Cosy Voice 开发的短视频配音工具,解决了付费软件昂贵、克隆成本高的痛点,通过克隆真人音色,大幅降低影视解说创作者的制作成本。
    • 反馈建议:优化长静音/呼吸声处理、提升句子紧凑性、集成时间戳功能以优化字幕生成01:09:50。
  • 闪电说输入法
    • 将 fun ASR 部署于本地端,打造全天候录音与AI语音输入法,解决了隐私与云端成本问题。其愿景是让输入法成为个人记忆的AI代理。
    • 反馈建议:优化中英文混输准确率、提升端侧推理速度01:24:34。

未来规划与开发者心愿

  • ASR:正在研发端到端多说话人识别模型,未来将开源,不再优化旧级联系统01:34:40。
  • CosyVoice:将发布详细的训练最佳实践教程;优化声码器CPU占用率,引入缓存机制;持续提升模型稳定性01:37:00。
  • Audio-Chat:将支持本地知识库问答、通过 System Prompt 动态控制声音属性、实现全双工交互01:38:44。
  • 硬件结合:正与钉钉A1、雷鸟AI眼镜等硬件厂商深度合作,推动语音模型在智能硬件上的落地45:01。

总结与展望

  • 通义团队展现了从底层模型架构(端到端)到上层应用生态(开发者工具、硬件合作)的完整布局。
  • 技术演进的核心路径清晰:数据驱动、模型规模化、端到端整合
  • 未来,语音AI将不再仅仅是”听懂”和”说出”,而是成为能感知、理解、共情并与环境交互的智能伙伴,真正融入每个人的数字生活。

Takeaways/Insights

技术方案

  • DiT 训练时,在语言模型(LM)和流匹配(Flow Matching)信息传递时,除了 token 还增加 LLM hidden states 隐状态
    • 采用加入连续表征的方案,让音色信息与语言模型更深度耦合,将音色信息传递给语言模型,核心目的是提升 scaling 能力
  • 对于播客等长音频/对话音频的不连贯问题,建议在语言模型(LM)阶段训练”对话式”语料,在 DiT 阶段保持「分句合成」以优化
  • 引入对话相关的 context 上下文信息作为输入,让对话响应更贴合场景、更具连贯性
  • 歌声合成可以视为一种带旋律的 TTS,最近也在训练新的 tokenizer + 现在 CosyVoice 的架构,支持歌声甚至是 music/audio 生成
  • CosyVoice 下个版本会提升复杂指令控制能力,可通过指令直接控制情绪切换(复杂 Instruct 文本的指令能力有明显提升)

行业见解

  • TTS 在三年内,预计语音/音频训练数据可会达到达到亿小时的数据量级
  • 通义百聆已经在探索全双工模式(边说边听),核心方向,已内部进行效果迭代
  • 短期内(1-2年)内,端到端与级联模式长期并存,因级联模式更易调试和热修复
    • 其实级联模型的上限也不低,包括响应延时也能达到比较低的水平
    • 原生端到端最契合的落地场景:情感陪伴场景(如儿童玩具、智能眼镜、可穿戴设备),其次是车载交互和电话外呼
    • 目前是有工作,在往级联和端到端兼容/混合的方向上演进(感觉在说类似 Thinker-Talker 的结构)