技术思考 | 端到端语音交互在教育场景落地的思考

一、技术方案背景（级联 vs 端到端）

方案类型	方案编号	方案简述	代表性工作	特点	技术依赖
级联	方案一	纯级联方案	ASR + LLM + TTS 【代表性工作】X-Talk https://arxiv.org/pdf/2512.18706	技术成熟、模块易拆解，落地门槛低	ASR 识别准确率、LLM 逻辑推理能力、TTS 的表现力
级联	方案二	标签化的纯级联方案	语音理解 (Caption) + LLM (支持标签) + Instruct-TTS 【代表性思想】OSUM-EChat(实际是端到端方案) https://arxiv.org/pdf/2508.09600	可捕捉基础语音标签（情绪、语速等），TTS 可控性提升	语音标签识别模型、LLM 理解+共情，支持标签输出、Instruct-TTS 的可控能力
级联	方案三	SpeechLLM 级联方案（半级联方案）	SpeechLLM + TTS 【代表工作】FireRedChat(不支持标签) https://arxiv.org/pdf/2509.06502 或 SpeechLLM 支持标签 + Instruct-TTS	简化级联链路，减少「语音理解」的误差传递	SpeechLLM 语音语义建模能力、TTS 与标签协同
端到端	方案四	半双工端到端 (Thinker-Talker)	【代表工作】Qwen2.5-Omni/Qwen3-Omni (Thinker + Talker)（参考 MinMo 可以支持全双工）	分模块优化 “思考（语义理解）+ 表达（语音生成）”，属于端到端方案的一种形式	Thinker 模块负责共情的文本回复、Talker 负责感染力的语音输出
端到端	方案五	半双工端到端 (Native w/ Text)	【代表工作】Kimi-Audio/Step-Audio2/Fun-Audio-Chat/LongCat-Flash-Omni	原生支持语音 + 文本融合，无法拆分出 Thinker-Talker 模块	文本 - 语音统一建模的技术
端到端	方案六	全双工端到端 (Native w/ Text)	【代表工作】Moshi/Fun-Audio-Chat-Duplex	支持双向的实时交互，可主动附和、实时打断，最接近真人对话形式	原生的用户&AI 双路建模方案
端到端	方案七	全双工端到端 (Native w/o Text)	【代表工作】MOSS-Speech	纯语音链路，无文本中间层，最彻底的端到端（Speech-to-Speech）	纯语音语义理解能力、无文本依赖的语音生成

二、「现在」做端到端方案的「理由」（When&Why）

核心源于「现有技术局限性」与「业务需求升级」的双重原因：

技术层面 - 级联方案的局限性

误差累积问题显著：级联方案依赖 ASR→LLM→TTS 或 SpeechLLM→TTS 的逐模块传递，任一环节的错误会被放大。
- 例如 ASR+LLM+TTS：用户说 “今天天气真好，适合去公园散步”，ASR 误识别为 “今天天气真糟，适合去公园散步”，LLM 基于错误文本生成负面反馈，后续流程都错导致对话体验打折扣
- 例如 SpeechLLM+TTS：SpeechLLM 可能会消除部分 ASR 错误的影响，但如果是文本 response 的情感标签/自然语言描述预测错误，则可能 Instruct-TTS 会输出不合适的情绪/语气，对话的体验也会变差
重要信息严重损失：级联方案仅能捕捉文本信息，无法感知用户语音中的情绪（开心 / 低落 / 调侃）、语气强度、副语言信息（如犹豫、强调）
- 例如：用户用带有调侃的语气说 “你这回答也太离谱了”，级联方案仅识别文本语义，TTS 输出严肃反驳语气，导致缺乏真人情商
能力拆解难 & 效果有损：将 TTS 输出能力拆分为固定标签（如 “重读 / 不重读”“开心 / 难过”），无法实现连续、精准的调控
- 重读：应该如何定义清楚重读的具体能力？需要拆分不同重读的强弱等级吗？（轻度、适中、强烈的重读）
- 简单情况只能实现 “是 / 否”重读，是否存在 “轻度重读（略微强调）”“强烈重读（严肃的纠正）” 的细腻适配，语音控制很生硬
- 情感：应该做到什么级别的感情控制？短句级别、句子级别、段落级别？
综合难点：需要【产品+算法】把 Instruct-TTS 能力明确清楚，对 Instruct-TTS 的能力拆解(产品)、Benchmark(产品+算法)、技术方案选定(算法)要求都比较高
- 补充：业务的产品，能知道什么样的语音数据是好的，但是不一定具备「拆解出为什么觉得好」的能力、或者「需要拆解的维度太多」了？
- 端到端模型能够通过数据和 Context 来学习隐式规则（只需要数据，不需要能力拆解）

结论：以上局限，可能必须通过「端到端类型的对话方案」才能得到本质的解决，不然能做的只是一些短期过渡的方案

业务层面 - 需求升级与行业竞争

级联方案效果触顶
- 级联方案的时延、情绪适配能力、交互自然度等维度可能存在阶段性瓶颈，无法满足业务侧对 “真人化对话” 的要求
竞品验证技术天花板
- 国内外头部厂商已落地端到端方案，验证了其更高的能力上限
- 国内：豆包实时语音对话支持情绪感知（用户低落时 TTS 自动切换温柔语气）；元宝也支持了语音交互能力；千问 C 端在陪聊的方向上，正在加速落地
- 国外：GPT-4o-realtime 实现毫秒级时延 + 语音 - 视觉多模态交互；Gemini Live 支持全双工实时打断 + 情绪自适应，均突破级联方案的核心局限
行业认可度显著提升
- 端到端方案已从技术探索阶段走向商业化验证
- 技术/开源社区/产业界对端到端技术合理性、落地可行性的认可度显著提高，路线的探索预估风险比之前更低

三、端到端的核心新能力是什么（What）

端到端语音对话系统的核心优势，体现在交互体验、性能指标和能力扩展三个维度：

交互效果：更贴近真人的自然反馈

【感知】能够更精细化地捕捉用户语音中的多维信息
- 语速快慢、语调高低、情绪类型（开心 / 低落 / 调侃）、意图属性（疑问 / 陈述 / 请求）
【反馈】可以从文本共情回应 & 语音输出语气/重读/情感等多个层面上，给出适配的反馈
【教育场景痛点】结合「教学大纲/知识点」「用户语音的内容/情绪等信息」「教师人设」，给出符合教学场景的语音反馈（重读/情绪风格）
- 例如：学生兴奋地分享解题思路时，AI 不仅文本上给予肯定，TTS 还会以激烈赞扬的语气回应，增强互动共鸣。

性能指标：突破时延瓶颈

【痛点】目前级联方案的时延，长期卡在 1.5s-2s 左右，与真人的 “实时对话感” 仍然具有差距
- 端到端方案语音直接流式输出，整个系统时延可控制在几百毫秒（行业最优水平如 GPT-4o-realtime 已达 300ms），大幅提升交互流畅度

扩展潜力：支持多模态融合

【潜力】从架构设计上天然适配后续多模态能力的接入（图像、视频等），无需对核心链路进行颠覆性重构
- 例如：教育场景中，后续可接入图像模态，AI 老师通过摄像头识别学生皱眉、走神等表情，更实时调整讲解节奏和语气

四、技术方案的产品化落地（How）

现状与护城河

现状：普通 AI 助手/语音对话的赛道已经非常拥挤，豆包日活过亿，元宝/千问持续发力抢占市场
- 难点：“高情商”、“拟人化”是所有竞品都在讲的故事
护城河：结合公司垂类场景优势，聚焦在 “教育场景深耕”，打造具有差异化和解决痛点问题的产品
- 宝贵财富：「教育数据 (垂类数据的护城河)」「教研专家 (Benchmark 的护城河)」
核心方向：做一个高智商(懂教学)、高情商(能共情)、有感染力(真人魅力)的「超越真人的 AI 老师/AI 学伴」

懂教学：个性化适配学习需求（LLM 大脑）

基于学习数据（错题记录、学习进度、知识薄弱点）定制交互策略
- 基础薄弱学生放慢语速、重复核心知识点，进阶学生加快节奏、补充拓展内容

高情商：能「共情」和适配情绪（语音理解和生成）

【输入侧 - 耳朵】实时识别学生情绪（考试失利后的低落、解题成功后的兴奋、遇到难点后的烦躁）
- 精准捕捉学习状态（例如：犹豫语气 = 思路卡顿，快速语气 = 自信掌握），实时调整讲解深度
- 支持方言 / 口音识别与适配（如南方口音、英语发音不标准），降低沟通门槛，避免因口音导致的理解偏差
【输出侧 - 嘴巴】语音输出时可以给出对应的语气（安慰时温柔舒缓、鼓励时激昂有力、答疑时耐心平和），模拟真人对话中的即时共情回应，增强情感连接。

有感染力：语音输出的细腻把握（语音交互的更高要求）

节奏与停顿设计：讲解难点时放慢语速、关键知识点后停顿 1 秒（留思考时间），总结时加快节奏、强化逻辑连贯性
更加主动的反馈融入：对话中穿插轻声附和（“对”“没错”“继续说”），模拟真人教学中的互动感，避免单向输出的枯燥感
情感递进传递：支持段落级情绪变化，如讲解复杂知识点时从 “温和引导” 到 “逐步强化”，循循善诱，增强教学的感染力，形成个人教学魅力

五、技术选型的关键决策（Which）

核心两套方案的对比

先不考虑端到端的「全双工」的能力，只对比方案四（Thinker-Talker 端到端/Qwen3-Omni）和方案五（Native 端到端/Fun-Audio-Chat）

评估维度	细节维度	说明	Thinker-Talker 方案适配性（Qwen3-Omni）	Native 端到端方案适配性（Fun-Audio-Chat）
模型相关	方案结构	模型整体结构框架	Qwen3-Omni 含 MTP Module、MoE Talker、MoE Thinker、Vision Encader、AuT 等模块	含 Speech Encoder、Adapter、Shared LLM Layer、Text Head、Speech Refined Head、Speech Detokenizer 等模块
模型相关	开源模型能力	依赖的开源模型的基础能力	Qwen3-30BA3B，论文评测更加完备数据量：AuT 是两千万小时训练；Talker 是数百万小时	⚠️ Fun-Audio-Chat-8B（30B-A3B 比 8B 模型的效果上限更高）数据量：整体使用了数百万小时的合成数据
模型相关	开源代码完备性	训练代码/复现的难度	⚠️ Tokenizer 未开源，需要自己整合训练 Talker（在 CosyVoice3 的基础上 CPT/SFT）	所有模型/训练代码流程全开源，可以直接复用
成本相关	数据储备	现有数据是否满足方案需求	可复用现有文本数据 + 语音数据，对话类型数据量的要求相对更少	⚠️ 需大量纯语音对话数据，数据缺口现状预计较大
成本相关	机器储备	训练/推理的相关成本考虑	⚠️ 30B-A3B 的吞吐大概相当于 8B 的一半，推理成本高但是单从 Talker 的角度，推理成本很低	8B 的训练/推理成本相对更低
成本相关	技术栈匹配度（研究成本）	团队现有技术栈与方案的适配程度	可复用 SpeechLLM + Context-TTS 技术积累，模块协同经验成熟	⚠️ 需重新评估探索/实验周期，现有技术（模态对齐/TTS）的复用程度相对更低
成本相关	后续维护成本	模型训练、迭代、故障排查成本	模块独立，问题定位与修复效率高	⚠️ 耦合度高，文本输入引入了语音输出信息，badcase 排查难度相对更大，牵一发而动全身 ⚠️【举例】模型支持另外一个音色，就需要重新评估智商，甚至可能导致智商的倒退
具体落地	团队分工	哪个方案适合哪个小组做	工作完全独立，适合 TTS 组部分人力来做，理解侧短期内复用 Qwen3-30B-A3B-Thinker 即可	训练模型的实际人力不需要多，大部分人力可能在数据上，更偏向前沿的探索性工作
具体落地	上线周期可控性	从开发到落地的周期	短（3-6 个月），风险相对可控	⚠️ 不好预估，可短可长

注：整体两种方案不冲突，不一定需要「两者取其一」，但是应该需要抽出专门人力专注做

VoiceBench 具体评测对比

备注：数据汇总了 Qwen3-Omni 和 Fun-Audio-Chat 两篇技术报告中各类开源模型的结果

【说明一】只考虑各技术方案的开源版本，不考虑未开源的大参数模型（比如 Fun-Audio-Chat MOE 30B-A3B 可能更好，但没开源）
【说明二】Fun-Audio-Chat 技术报告没有和 Qwen3-Omni/LongCat-Flash-Omni 对比

模型	LLM 参数量	SD-QA	MMSU	OpenBookQA	IFEval	AdvBench	Overall
GLM4-Voice	9B	36.98	39.75	53.41	52.80	88.08	54.28
MiniCPM-o 2.6	7B	50.72	54.78	78.02	49.25	97.69	65.73
Baichuan-Omni-1.5	7B	43.40	57.25	74.51	54.54	97.31	61.33
Kimi-Audio	7B	63.12	62.17	83.52	61.10	100.00(最优)	74.02
Step-Audio2-Mini	7B	56.06	52.18	64.18	38.01	93.08	57.09
MiMo-Audio	7B	54.79	59.66	73.41	66.45	96.73	70.22
Fun-Audio-Chat-8B	8B	66.27	71.08	83.52	78.52	98.65	79.61
Qwen3-Omni-30B-A3B-Instruct	30B-A3B	76.9	68.1	89.7	77.8	99.3	82.36
Qwen3-Omni-30B-A3B-Thinking	30B-A3B	78.1	83.0(最优)	94.3(最优)	80.6(最优)	97.2	86.64
Longcat-Flash-Omni-Instruct	560B-A27B	82.46(最优)	81.95	93.41	77.99	100(最优)	87.16(最优)

技术选型时的其他思考

问题一：Fun-Audio-Chat 有哪些可以借鉴到 Qwen3-Omni？（综合优势）

借鉴一：5Hz refine，体现在 Talker 大致可以理解成把文本 embedding ungroup 一定倍数（但这么做对 TTS 任务会带来什么收益呢？）
借鉴二：Fun-Audio-Chat 类似 Talker 的模块，能否采用一些策略复用到 Qwen3-Omni 的 Talker，比如「模型参数」的直接复用
借鉴三：Core-Cocktail Training，训练策略的 trick，任何模型都可以尝试复用
借鉴四：Multi-Task DPO Training，训练策略问题，依赖于各类能力的数据
提升点：robustness to real speech data, capabilities of instruction-following, audio understanding, and voice empathy

问题二：Fun-Audio-Chat 输入 TTS 已合成 token 的作用和收益？（明确动机）

输入增加 speech-token，潜在价值在于 TTS 合成的语音本身，能够反向影响文本/语义层面的输出，可能上限更好，但是训练难度更大
问题一：合成的语音 token，如果不合理，引入到 SharedLLM，会不会反而影响生成的文本能力（收益 vs 风险的权衡）
问题二：模型换成支持另外一个音色，就需要重新评估 S2S 的智商，有可能会引起智商的倒退
- SharedLLM 输入侧引入语音，也可能是为了方便验证 Duplex 全双工而设计的？
根据 Fun-Audio-Chat 开源代码来看，语音到文本 s2t 的技术能力是不同时生成语音 token 的，那说明其实 s2t 任务仍然采用的是 talker 的思想；反而是 s2s 的时候采用另外的一套推理方式。

问题三：核心问题，数据方面的问题应该如何解决？

此处不过多展开，会另开专题。
思想：数据是原料，啥模型都需要。数据可能才是真正各家拉开差距的决定性因素，垂类数据目前可能还算是小公司的护城河，但优势很快就会/基本已经消失。

问题四：从 Qwen3-Omni 和 Fun-Audio-Chat 中跳脱出来，还有其他更优的选择吗？未来可以复用 Thinker-Talker 的技术成果吗？

美团龙猫全模态模型：LongCat-Flash-Omni: https://arxiv.org/pdf/2511.00279
简述：不是 Thinker-Talker 架构，类似 Kimi-Audio 和 StepAudio2，两个模态对应两个输出头，合成的语音没有作为 LLM 输入的 condition
优势：参数体量更大 - 520B-A27B；数据体量在 1000 万小时，支持语音和视觉模态
- 方案一：直接走 LongCat-Flash-Omni 的路子做端到端（所有参数都开源了）
- 方案二：只复用 LongCat-Flash-Omni 文本输出的能力，额外训练一个 Talker 复用 Thinker-Talker 的能力

问题五：Talker 方案是否一定需要一个语音多模态的 Thinker?

并不需要。ASR + LLM 的级联也可以理解成一个级联版的「Thinker」，不影响需要探索一个 Context 理解能力的 TTS 模型。
在这种「非端到端」方案的语境下，Talker 称为 Context-TTS 应该更合适一些，是一个纯 TTS 的任务，这样能把范畴更清楚地定义出来。

分析与总结

核心原则：「数据都是能力的核心支撑」，除数据工作外，两个方案其实思想基本类似，但需优先评估现有数据缺口，提前做好数据储备
综合考虑成本和现状，端到端要做优先选择 Thinker-Talker 的原因：
a. 更契合团队的技术积累与数据储备现状，上线周期短、挑战性不算大，风险可控，算是「端到端语音对话」方案中「最务实/可落地」的方案
b. 参考 https://mp.weixin.qq.com/s/tD0bJCeoaDH3kNj3yJ449w 中提到的端到端系统的现实挑战
ⅰ. Thinker-Talker 应该是技术挑战性相对最少的端到端方案，智商的保持 Qwen3-Omni 也是能打的
c. 功能层面：RAG / 网络搜索 / function call / 文本安全过滤等功能，在 Thinker-Talker 方案中可通过中间「文本」直接对接，实现相对更加简单
d. 成本问题：即使知道比较好的方案是什么，也需要考虑整体的绝对成本和 ROI 投资收益比（即使知道方案，也不一定有足够投入能做出来，相比于做出来的收益成本过高）
ⅰ. 完全原生端到端的数据驱动方案，有可能是「非头部基模大厂的技术陷阱」

六、阶段性目标与长远愿景（Where）

终极愿景：“三全” 目标

全双工：实现真人级对话体验，支持自然附和、主动打断、节奏同步，消除人机交互的 “延迟感” 与 “机械感”；
全模态：融合图像、视频、文本等多模态信息，例如 AI 老师通过图像识别学生表情、手势（如皱眉 = 困惑、点头 = 理解）
- 按照真人生物学基础，眼睛接收的信息密度要远高于耳朵
全主导：给出更加 proactive 积极主动的反馈，无需等待用户发言即可调整教学策略，进行主动问询和话题引导
- 补充：视觉模态其实也存在「双工」价值，比如不说话、只做动作，是不是也需要 AI 老师给用户更 proactive 层面的主动发起话题/反馈？

分阶段目标

短期目标（3-6 个月）：
- 完成 Thinker-Talker 端到端方案落地，实现基础的情绪感知和能力
- 覆盖教育场景核心能力：知识点讲解、错题答疑、语音互动反馈等等
中期目标（6个月-1年）：
- 升级为「全双工」端到端方案，支持实时打断、主动附和，情绪感知精度提升至更高水平
- 融合图像模态，实现 “语音 + 表情” 双维度交互（如通过摄像头识别学生专注度，调整讲解节奏）
长期目标（1-2 年）：
- 实现 “全模态 + 全场景适配”，支持语音、图像、视频、文本的全模态无缝融合
- 达到 “超真人交互体验”：AI 老师能通过微表情、语气变化传递复杂情绪，比真人更懂学生的个性化需求

参考资料

【级联 vs 端到端、全双工、轮次检测、方言语种、商业模式… 语音 AI 开发者都在关心什么？丨 Voice Agent 学习笔记】
- https://mp.weixin.qq.com/s/SqXLZvq_zwWDcOVKbAb7HQ
- 智谱+阶跃+Soul 的圆桌讨论，但时间是2025年4月份，仅做其他公司「探索历程」的参考
【端到端语音对话系统的丰满理想和骨感现实】
- https://mp.weixin.qq.com/s/tD0bJCeoaDH3kNj3yJ449w
- 详细分析了级联方案和端到端方案的各自优缺点，相对还是比较客观
【本地部署+全面测评！阿里最强全模态大模型Qwen3-Omni史诗级更新！】
- https://www.bilibili.com/video/BV16SJyzxEKX/
- https://www.bilibili.com/video/BV1yvWvzUEZ6/
【AudioMultiChallenge：语音对话系统多轮交互的 benchmark - 理解任务（评测是智商）】
- 论文：2025-12-16: https://arxiv.org/pdf/2512.14865
- Leaderboard: https://scale.com/leaderboard/audiomc
- 开源模型中，Qwen3-Omni-30B-A3B-Instruct 排位靠前
【超越级联系统：端到端语音大模型设计解析】
- https://mp.weixin.qq.com/s/ql15USv8TnZrjGPdCpq6iA
- 部分端到端方案的技术解析，但不是很新
【Qwen3-Omni 试用 demo】
- https://modelscope.cn/studios/Qwen/Qwen3-Omni-Demo
- 可切换音色，也可选择是否启用 CoT 推理