-
社区交流 | 语音模型从设计到使用-通义百聆新年交流会
会议概览 通义百聆团队在【通义大模型】公众号及钉钉平台进行了技术分享,梳理下相关信息:AI 听记链接 & 钉钉直播回放【注意】本文中有些句子末尾带的数字(比如 06:49),代表在视频中的时间点 本次语音转录内容是一场由通义实验室主办的”开发者新年交流会”实录,聚焦于语音大模型技术的最新进展、架构演进与落地实践。 会议核心围绕三大模型:Fun-ASR(语音识别)... -
技术思考 | 端到端语音交互在教育场景落地的思考
一、技术方案背景(级联 vs 端到端) 方案类型 方案编号 方案简述 代表性工作 特点 技术依赖 级联 方案一 纯级联方案 ASR + LLM + TTS【代表性工作】X-Talkhttps://arxiv.org/pdf/2512.18706 技术成熟、模块易拆解,落地门槛低 ASR 识别准确率、LLM 逻辑推理能力、TTS 的表现力 级联 方案二 标签化... -
专题分享 | [slides] 基于 ARDM(自回归扩散模型)的语音合成
-
语音合成 | [slides] CosyVoice 1&2:DiffRO 强化学习
-
专题分享 | [slides] 重新思考 Tortoise-TTS 范式下的语音合成
-
语音合成 | [slides] MegaTTS3:稀疏对齐思想下的 Flow Matching TTS
-
语音合成 | [slides] FireRedTTS:小红书的 TTS 实践
-
语音对话 | [slides] Moshi:原生端到端语音对话的新探索
-
语音合成 | [slides] CosyVoice:通义语音实验室 TTS 新工作
-
语音合成 | [slides] NaturalSpeech3:离散 Diffusion 视角的 TTS
博学而笃志,切问而近思
Revive the Core & Revolutionize Life