技术思考 | 端到端语音交互在教育场景落地的思考
知更鸟 Lv4

一、技术方案背景(级联 vs 端到端)

方案类型 方案编号 方案简述 代表性工作 特点 技术依赖
级联 方案一 纯级联方案 ASR + LLM + TTS
【代表性工作】X-Talk
https://arxiv.org/pdf/2512.18706
技术成熟、模块易拆解,落地门槛低 ASR 识别准确率、LLM 逻辑推理能力、TTS 的表现力
级联 方案二 标签化的纯级联方案 语音理解 (Caption) + LLM (支持标签) + Instruct-TTS
【代表性思想】OSUM-EChat(实际是端到端方案)
https://arxiv.org/pdf/2508.09600
可捕捉基础语音标签(情绪、语速等),TTS 可控性提升 语音标签识别模型、LLM 理解+共情,支持标签输出、Instruct-TTS 的可控能力
级联 方案三 SpeechLLM 级联方案(半级联方案) SpeechLLM + TTS
【代表工作】FireRedChat(不支持标签)
https://arxiv.org/pdf/2509.06502
或 SpeechLLM 支持标签 + Instruct-TTS
简化级联链路,减少「语音理解」的误差传递 SpeechLLM 语音语义建模能力、TTS 与标签协同
端到端 方案四 半双工端到端 (Thinker-Talker) 【代表工作】Qwen2.5-Omni/Qwen3-Omni (Thinker + Talker)(参考 MinMo 可以支持全双工) 分模块优化 “思考(语义理解)+ 表达(语音生成)”,属于端到端方案的一种形式 Thinker 模块负责共情的文本回复、Talker 负责感染力的语音输出
端到端 方案五 半双工端到端 (Native w/ Text) 【代表工作】Kimi-Audio/Step-Audio2/Fun-Audio-Chat/LongCat-Flash-Omni 原生支持语音 + 文本融合,无法拆分出 Thinker-Talker 模块 文本 - 语音统一建模的技术
端到端 方案六 全双工端到端 (Native w/ Text) 【代表工作】Moshi/Fun-Audio-Chat-Duplex 支持双向的实时交互,可主动附和、实时打断,最接近真人对话形式 原生的用户&AI 双路建模方案
端到端 方案七 全双工端到端 (Native w/o Text) 【代表工作】MOSS-Speech 纯语音链路,无文本中间层,最彻底的端到端(Speech-to-Speech) 纯语音语义理解能力、无文本依赖的语音生成

二、「现在」做端到端方案的「理由」(When&Why)

核心源于「现有技术局限性」与「业务需求升级」的双重原因:

技术层面 - 级联方案的局限性

  • 误差累积问题显著:级联方案依赖 ASR→LLM→TTS 或 SpeechLLM→TTS 的逐模块传递,任一环节的错误会被放大。
    • 例如 ASR+LLM+TTS:用户说 “今天天气真好,适合去公园散步”,ASR 误识别为 “今天天气真糟,适合去公园散步”,LLM 基于错误文本生成负面反馈,后续流程都错导致对话体验打折扣
    • 例如 SpeechLLM+TTS:SpeechLLM 可能会消除部分 ASR 错误的影响,但如果是文本 response 的情感标签/自然语言描述预测错误,则可能 Instruct-TTS 会输出不合适的情绪/语气,对话的体验也会变差
  • 重要信息严重损失:级联方案仅能捕捉文本信息,无法感知用户语音中的情绪(开心 / 低落 / 调侃)、语气强度、副语言信息(如犹豫、强调)
    • 例如:用户用带有调侃的语气说 “你这回答也太离谱了”,级联方案仅识别文本语义,TTS 输出严肃反驳语气,导致缺乏真人情商
  • 能力拆解难 & 效果有损:将 TTS 输出能力拆分为固定标签(如 “重读 / 不重读”“开心 / 难过”),无法实现连续、精准的调控
    • 重读:应该如何定义清楚重读的具体能力?需要拆分不同重读的强弱等级吗?(轻度、适中、强烈的重读)
    • 简单情况只能实现 “是 / 否”重读,是否存在 “轻度重读(略微强调)”“强烈重读(严肃的纠正)” 的细腻适配,语音控制很生硬
    • 情感:应该做到什么级别的感情控制?短句级别、句子级别、段落级别?
  • 综合难点:需要【产品+算法】把 Instruct-TTS 能力明确清楚,对 Instruct-TTS 的能力拆解(产品)、Benchmark(产品+算法)、技术方案选定(算法)要求都比较高
    • 补充:业务的产品,能知道什么样的语音数据是好的,但是不一定具备「拆解出为什么觉得好」的能力、或者「需要拆解的维度太多」了?
    • 端到端模型能够通过数据和 Context 来学习隐式规则(只需要数据,不需要能力拆解)

结论:以上局限,可能必须通过「端到端类型的对话方案」才能得到本质的解决,不然能做的只是一些短期过渡的方案

业务层面 - 需求升级与行业竞争

  • 级联方案效果触顶
    • 级联方案的时延、情绪适配能力、交互自然度等维度可能存在阶段性瓶颈,无法满足业务侧对 “真人化对话” 的要求
  • 竞品验证技术天花板
    • 国内外头部厂商已落地端到端方案,验证了其更高的能力上限
    • 国内:豆包实时语音对话支持情绪感知(用户低落时 TTS 自动切换温柔语气);元宝也支持了语音交互能力;千问 C 端在陪聊的方向上,正在加速落地
    • 国外:GPT-4o-realtime 实现毫秒级时延 + 语音 - 视觉多模态交互;Gemini Live 支持全双工实时打断 + 情绪自适应,均突破级联方案的核心局限
  • 行业认可度显著提升
    • 端到端方案已从技术探索阶段走向商业化验证
    • 技术/开源社区/产业界对端到端技术合理性、落地可行性的认可度显著提高,路线的探索预估风险比之前更低

三、端到端的核心新能力是什么(What)

端到端语音对话系统的核心优势,体现在交互体验、性能指标和能力扩展三个维度:

交互效果:更贴近真人的自然反馈

  • 【感知】能够更精细化地捕捉用户语音中的多维信息
    • 语速快慢、语调高低、情绪类型(开心 / 低落 / 调侃)、意图属性(疑问 / 陈述 / 请求)
  • 【反馈】可以从文本共情回应 & 语音输出语气/重读/情感等多个层面上,给出适配的反馈
  • 【教育场景痛点】结合「教学大纲/知识点」「用户语音的内容/情绪等信息」「教师人设」,给出符合教学场景的语音反馈(重读/情绪风格)
    • 例如:学生兴奋地分享解题思路时,AI 不仅文本上给予肯定,TTS 还会以激烈赞扬的语气回应,增强互动共鸣。

性能指标:突破时延瓶颈

  • 【痛点】目前级联方案的时延,长期卡在 1.5s-2s 左右,与真人的 “实时对话感” 仍然具有差距
    • 端到端方案语音直接流式输出,整个系统时延可控制在几百毫秒(行业最优水平如 GPT-4o-realtime 已达 300ms),大幅提升交互流畅度

扩展潜力:支持多模态融合

  • 【潜力】从架构设计上天然适配后续多模态能力的接入(图像、视频等),无需对核心链路进行颠覆性重构
    • 例如:教育场景中,后续可接入图像模态,AI 老师通过摄像头识别学生皱眉、走神等表情,更实时调整讲解节奏和语气

四、技术方案的产品化落地(How)

现状与护城河

  • 现状:普通 AI 助手/语音对话的赛道已经非常拥挤,豆包日活过亿,元宝/千问持续发力抢占市场
    • 难点:“高情商”、“拟人化”是所有竞品都在讲的故事
  • 护城河:结合公司垂类场景优势,聚焦在 “教育场景深耕”,打造具有差异化和解决痛点问题的产品
    • 宝贵财富:「教育数据 (垂类数据的护城河)」「教研专家 (Benchmark 的护城河)」
  • 核心方向:做一个高智商(懂教学)、高情商(能共情)、有感染力(真人魅力)的「超越真人的 AI 老师/AI 学伴」

懂教学:个性化适配学习需求(LLM 大脑)

  • 基于学习数据(错题记录、学习进度、知识薄弱点)定制交互策略
    • 基础薄弱学生放慢语速、重复核心知识点,进阶学生加快节奏、补充拓展内容

高情商:能「共情」和适配情绪 (语音理解和生成)

  • 【输入侧 - 耳朵】实时识别学生情绪(考试失利后的低落、解题成功后的兴奋、遇到难点后的烦躁)
    • 精准捕捉学习状态(例如:犹豫语气 = 思路卡顿,快速语气 = 自信掌握),实时调整讲解深度
    • 支持方言 / 口音识别与适配(如南方口音、英语发音不标准),降低沟通门槛,避免因口音导致的理解偏差
  • 【输出侧 - 嘴巴】语音输出时可以给出对应的语气(安慰时温柔舒缓、鼓励时激昂有力、答疑时耐心平和),模拟真人对话中的即时共情回应,增强情感连接。

有感染力:语音输出的细腻把握(语音交互的更高要求)

  • 节奏与停顿设计:讲解难点时放慢语速、关键知识点后停顿 1 秒(留思考时间),总结时加快节奏、强化逻辑连贯性
  • 更加主动的反馈融入:对话中穿插轻声附和(“对”“没错”“继续说”),模拟真人教学中的互动感,避免单向输出的枯燥感
  • 情感递进传递:支持段落级情绪变化,如讲解复杂知识点时从 “温和引导” 到 “逐步强化”,循循善诱,增强教学的感染力,形成个人教学魅力

五、技术选型的关键决策(Which)

核心两套方案的对比

先不考虑端到端的「全双工」的能力,只对比方案四(Thinker-Talker 端到端/Qwen3-Omni)方案五(Native 端到端/Fun-Audio-Chat)

评估维度 细节维度 说明 Thinker-Talker 方案适配性(Qwen3-Omni) Native 端到端方案适配性(Fun-Audio-Chat)
模型相关 方案结构 模型整体结构框架 Qwen3-Omni 含 MTP Module、MoE Talker、MoE Thinker、Vision Encader、AuT 等模块 含 Speech Encoder、Adapter、Shared LLM Layer、Text Head、Speech Refined Head、Speech Detokenizer 等模块
模型相关 开源模型能力 依赖的开源模型的基础能力 Qwen3-30BA3B,论文评测更加完备
数据量:AuT 是两千万小时训练;Talker 是数百万小时
⚠️ Fun-Audio-Chat-8B(30B-A3B 比 8B 模型的效果上限更高)
数据量:整体使用了数百万小时的合成数据
模型相关 开源代码完备性 训练代码/复现的难度 ⚠️ Tokenizer 未开源,需要自己整合训练 Talker(在 CosyVoice3 的基础上 CPT/SFT) 所有模型/训练代码流程全开源,可以直接复用
成本相关 数据储备 现有数据是否满足方案需求 可复用现有文本数据 + 语音数据,对话类型数据量的要求相对更少 ⚠️ 需大量纯语音对话数据,数据缺口现状预计较大
成本相关 机器储备 训练/推理的相关成本考虑 ⚠️ 30B-A3B 的吞吐大概相当于 8B 的一半,推理成本高
但是单从 Talker 的角度,推理成本很低
8B 的训练/推理成本相对更低
成本相关 技术栈匹配度(研究成本) 团队现有技术栈与方案的适配程度 可复用 SpeechLLM + Context-TTS 技术积累,模块协同经验成熟 ⚠️ 需重新评估探索/实验周期,现有技术(模态对齐/TTS)的复用程度相对更低
成本相关 后续维护成本 模型训练、迭代、故障排查成本 模块独立,问题定位与修复效率高 ⚠️ 耦合度高,文本输入引入了语音输出信息,badcase 排查难度相对更大,牵一发而动全身
⚠️【举例】模型支持另外一个音色,就需要重新评估智商,甚至可能导致智商的倒退
具体落地 团队分工 哪个方案适合哪个小组做 工作完全独立,适合 TTS 组部分人力来做,理解侧短期内复用 Qwen3-30B-A3B-Thinker 即可 训练模型的实际人力不需要多,大部分人力可能在数据上,更偏向前沿的探索性工作
具体落地 上线周期可控性 从开发到落地的周期 短(3-6 个月),风险相对可控 ⚠️ 不好预估,可短可长

注:整体两种方案不冲突,不一定需要「两者取其一」,但是应该需要抽出专门人力专注做

VoiceBench 具体评测对比

备注:数据汇总了 Qwen3-Omni 和 Fun-Audio-Chat 两篇技术报告中各类开源模型的结果

  • 【说明一】只考虑各技术方案的开源版本,不考虑未开源的大参数模型(比如 Fun-Audio-Chat MOE 30B-A3B 可能更好,但没开源)
  • 【说明二】Fun-Audio-Chat 技术报告没有和 Qwen3-Omni/LongCat-Flash-Omni 对比
模型 LLM 参数量 SD-QA MMSU OpenBookQA IFEval AdvBench Overall
GLM4-Voice 9B 36.98 39.75 53.41 52.80 88.08 54.28
MiniCPM-o 2.6 7B 50.72 54.78 78.02 49.25 97.69 65.73
Baichuan-Omni-1.5 7B 43.40 57.25 74.51 54.54 97.31 61.33
Kimi-Audio 7B 63.12 62.17 83.52 61.10 100.00(最优) 74.02
Step-Audio2-Mini 7B 56.06 52.18 64.18 38.01 93.08 57.09
MiMo-Audio 7B 54.79 59.66 73.41 66.45 96.73 70.22
Fun-Audio-Chat-8B 8B 66.27 71.08 83.52 78.52 98.65 79.61
Qwen3-Omni-30B-A3B-Instruct 30B-A3B 76.9 68.1 89.7 77.8 99.3 82.36
Qwen3-Omni-30B-A3B-Thinking 30B-A3B 78.1 83.0(最优) 94.3(最优) 80.6(最优) 97.2 86.64
Longcat-Flash-Omni-Instruct 560B-A27B 82.46(最优) 81.95 93.41 77.99 100(最优) 87.16(最优)

技术选型时的其他思考

问题一:Fun-Audio-Chat 有哪些可以借鉴到 Qwen3-Omni?(综合优势)
  • 借鉴一:5Hz refine,体现在 Talker 大致可以理解成把文本 embedding ungroup 一定倍数(但这么做对 TTS 任务会带来什么收益呢?)
  • 借鉴二:Fun-Audio-Chat 类似 Talker 的模块,能否采用一些策略复用到 Qwen3-Omni 的 Talker,比如「模型参数」的直接复用
  • 借鉴三:Core-Cocktail Training,训练策略的 trick,任何模型都可以尝试复用
  • 借鉴四:Multi-Task DPO Training,训练策略问题,依赖于各类能力的数据
  • 提升点:robustness to real speech data, capabilities of instruction-following, audio understanding, and voice empathy
问题二:Fun-Audio-Chat 输入 TTS 已合成 token 的作用和收益?(明确动机)
  • 输入增加 speech-token,潜在价值在于 TTS 合成的语音本身,能够反向影响文本/语义层面的输出,可能上限更好,但是训练难度更大
  • 问题一:合成的语音 token,如果不合理,引入到 SharedLLM,会不会反而影响生成的文本能力(收益 vs 风险的权衡)
  • 问题二:模型换成支持另外一个音色,就需要重新评估 S2S 的智商,有可能会引起智商的倒退
    • SharedLLM 输入侧引入语音,也可能是为了方便验证 Duplex 全双工而设计的?
  • 根据 Fun-Audio-Chat 开源代码来看,语音到文本 s2t 的技术能力是不同时生成语音 token 的,那说明其实 s2t 任务仍然采用的是 talker 的思想;反而是 s2s 的时候采用另外的一套推理方式。
问题三:核心问题,数据方面的问题应该如何解决?
  • 此处不过多展开,会另开专题。
  • 思想:数据是原料,啥模型都需要。数据可能才是真正各家拉开差距的决定性因素,垂类数据目前可能还算是小公司的护城河,但优势很快就会/基本已经消失。
问题四:从 Qwen3-Omni 和 Fun-Audio-Chat 中跳脱出来,还有其他更优的选择吗?未来可以复用 Thinker-Talker 的技术成果吗?
  • 美团龙猫全模态模型:LongCat-Flash-Omni: https://arxiv.org/pdf/2511.00279
  • 简述:不是 Thinker-Talker 架构,类似 Kimi-Audio 和 StepAudio2,两个模态对应两个输出头,合成的语音没有作为 LLM 输入的 condition
  • 优势:参数体量更大 - 520B-A27B;数据体量在 1000 万小时,支持语音和视觉模态
    • 方案一:直接走 LongCat-Flash-Omni 的路子做端到端(所有参数都开源了)
    • 方案二:只复用 LongCat-Flash-Omni 文本输出的能力,额外训练一个 Talker 复用 Thinker-Talker 的能力
问题五:Talker 方案是否一定需要一个语音多模态的 Thinker?
  • 并不需要。ASR + LLM 的级联也可以理解成一个级联版的「Thinker」,不影响需要探索一个 Context 理解能力的 TTS 模型。
  • 在这种「非端到端」方案的语境下,Talker 称为 Context-TTS 应该更合适一些,是一个纯 TTS 的任务,这样能把范畴更清楚地定义出来。

分析与总结

  1. 核心原则:「数据都是能力的核心支撑」,除数据工作外,两个方案其实思想基本类似,但需优先评估现有数据缺口,提前做好数据储备
  2. 综合考虑成本和现状,端到端要做优先选择 Thinker-Talker 的原因:
    a. 更契合团队的技术积累与数据储备现状,上线周期短、挑战性不算大,风险可控,算是「端到端语音对话」方案中「最务实/可落地」的方案
    b. 参考 https://mp.weixin.qq.com/s/tD0bJCeoaDH3kNj3yJ449w 中提到的端到端系统的现实挑战
    ⅰ. Thinker-Talker 应该是技术挑战性相对最少的端到端方案,智商的保持 Qwen3-Omni 也是能打的
    c. 功能层面:RAG / 网络搜索 / function call / 文本安全过滤等功能,在 Thinker-Talker 方案中可通过中间「文本」直接对接,实现相对更加简单
    d. 成本问题:即使知道比较好的方案是什么,也需要考虑整体的绝对成本和 ROI 投资收益比(即使知道方案,也不一定有足够投入能做出来,相比于做出来的收益成本过高)
    ⅰ. 完全原生端到端的数据驱动方案,有可能是「非头部基模大厂的技术陷阱」

六、阶段性目标与长远愿景(Where)

终极愿景:“三全” 目标

  • 全双工:实现真人级对话体验,支持自然附和、主动打断、节奏同步,消除人机交互的 “延迟感” 与 “机械感”;
  • 全模态:融合图像、视频、文本等多模态信息,例如 AI 老师通过图像识别学生表情、手势(如皱眉 = 困惑、点头 = 理解)
    • 按照真人生物学基础,眼睛接收的信息密度要远高于耳朵
  • 全主导:给出更加 proactive 积极主动的反馈,无需等待用户发言即可调整教学策略,进行主动问询和话题引导
    • 补充:视觉模态其实也存在「双工」价值,比如不说话、只做动作,是不是也需要 AI 老师给用户更 proactive 层面的主动发起话题/反馈?

分阶段目标

  • 短期目标(3-6 个月):
    • 完成 Thinker-Talker 端到端方案落地,实现基础的情绪感知和能力
    • 覆盖教育场景核心能力:知识点讲解、错题答疑、语音互动反馈等等
  • 中期目标(6个月-1年):
    • 升级为「全双工」端到端方案,支持实时打断、主动附和,情绪感知精度提升至更高水平
    • 融合图像模态,实现 “语音 + 表情” 双维度交互(如通过摄像头识别学生专注度,调整讲解节奏)
  • 长期目标(1-2 年):
    • 实现 “全模态 + 全场景适配”,支持语音、图像、视频、文本的全模态无缝融合
    • 达到 “超真人交互体验”:AI 老师能通过微表情、语气变化传递复杂情绪,比真人更懂学生的个性化需求

参考资料