语音对话 | MiniCPM-o 4.5 全双工全模态大模型-技术分享(Part I)
白御青 Lv5

分享题目:面壁小钢炮:MiniCPM-o 4.5(9B) 首个全双工全模态大模型 + 边看边听主动说
分享者:姚远博士(面壁智能多模态首席科学家、清华大学助理教授)
官方信息:
- github: https://github.com/OpenBMB/MiniCPM-o
- 模型代码:https://huggingface.co/openbmb/MiniCPM-o-4_5/blob/main/modeling_minicpmo.py
- demo: https://openbmb.github.io/minicpm-o-4_5(demo 效果仅体现语音生成能力,效果优异)
会议记录:通义听悟 - 会议转写 & B 站 - 直播回放

一、模型背景与研发主体

  1. 研发与开源社区:MiniCPM-o 4.5 由 OpenBMB 开源社区推出,该社区 2022 年由面壁智能 + 清华大学 THUNLP 实验室(刘知远)联合发起。愿景是让大模型普惠大众,聚焦端侧智能研发;开源模型总下载量超 2300 万,Hugging Face 上累计超 10 万 star。
  2. 模型定位:端侧全模态旗舰模型,是 MiniCPM 系列多模态模型的最新版本,主打边看-边听-主动说的类人多模态感知交互能力。核心参数量 8B,融合多模态模块后整体 9B,实现同尺寸下全模态、视觉、语音能力领先。
  3. 系列各版本模型发展
版本 核心能力突破 行业价值
早期版本 多端侧流畅运行、高清图像 OCR 首个实现端侧多模态模型落地
MiniCPM-o 2.6 视觉 + 语音 + 实时流式能力、原生记忆 / 推理 开源社区首个流式全模态模型,对标 GPT-4o/Gemini Live
MiniCPM-o 4.5 全双工全模态、自主交互、端到端语音克隆 突破传统轮次交互,实现类人多模态感知交互

二、核心技术理念:突破传统多模态模型的交互制约

1. 传统多模态模型的核心局限

传统模型继承 LLM 一问一答的轮次交互逻辑,存在以下核心问题:

  • 处理离线静态数据,即使是视频也需先固定再上传,无实时动态处理能力;
  • 模态受限,多为文本 + 单一视觉 / 语音模态,非真正的全模态;
  • 输入输出阻塞,模型开始生成后、无法感知外部信息,且说话时机由外部工具(VAD、唤醒词、按钮)控制,没有自主的交互能力。

2. 人类多模态交互的核心特性(模型设计目标)

  • 实时动态 + 全模态:天然处于多模态信息流中,并行接收视觉、音频等信号,低延迟反应;
  • 并行信息流 + IO 互不阻塞:输入输出同步进行,可根据外部反馈及时调整行为;
  • 交互自由性:说话时机、轮次不受限,可即时回复、打断、主动插话;
  • 自然低延迟语音交互:语音表达有韵律、拟人度,可根据场景调整语气。

3. 传统多模态模型 VS MiniCPM-o 4.5 VS 人类交互「总结对比」

核心解决传统模型 “继承语言模型一问一答逻辑,与人类交互脱节” 的问题。

对比维度 传统多模态模型 MiniCPM-o 4.5 实现效果 人类多模态交互(目标&愿景)
数据处理 离线静态(视频需固定后上传) 几十毫秒级别粒度进行「时间对齐」,实时处理音视频流 实时动态(持续接收多模态流)
模态支持 文本 + 单一视觉 / 语音(模态阻塞) 全模态并行处理,支持通用类型的音频(非仅语音) 全模态(视 / 听 / 触 / 嗅,并行感知)
输入输出 阻塞(输出期间不感知外部信息),区分 AI 的 turn 和用户的 turn 全双工 IO,边看边听边说,可实时调整表达 互不阻塞(边输入边输出,实时根据各类信息的变化而调整)
交互时机 外部工具控制(VAD / 唤醒词 / 按钮) 高频语义判断(每一秒进行判断),自主决定说话时机 自主决定(可即时 / 主动 / 打断 / 插话)
语音交互 固定音色、无韵律控制、长语音易出错 字级别韵律控制、端到端克隆、1 分钟长语音错字率减半 自然韵律、个性化表达、低延迟

4. 流式全模态模型的前期探索

2025 年出现 GPT-4o、Gemini Live、MiniCPM-o 2.6 等流式全模态模型,初步实现实时流式、低延时交互,具备原生记忆和初步推理能力,但未解决输入输出阻塞和自主交互的核心问题。

模型类型 核心特征
流式全模态 「实时接收 + 单次生成」→ 仍为轮次交互
全双工全模态 「实时接收 + 持续生成 + 实时调整」→ 类人的连续交互

三、核心技术架构与创新点

1. 端到端全模态架构

整体设计

采用8B 骨干 LLM + 轻量级模态编解码器的模块化架构,兼顾文本能力的保留与运行效率:

  • LLM 聚焦高级语义处理,无需处理原始模态信息,最大程度能保留文本能力;
  • 视觉 / 音频编码、语音解码由几百 M 级轻量级模块实现,避免主干模型处理高频模态 token 导致的效率低下。

关键连接方式

LLM 与模态编解码器通过隐层表示进行逐 token 紧密端到端连接:

  • 输入端:各模态编码的隐层结果均输入 LLM;
  • 输出端:文本 token + 隐层表征,逐 token 传入语音生成模块;
  • 作用:实现细粒度控制,让模型充分吸收全模态数据的丰富知识,突破传统稀疏连接或级联方案的能力上限。

稀疏连接 vs 紧密连接

对比维度 稀疏连接 紧密连接
信息交互粒度 【粗粒度】只使用全局层面的 embedding,一次性注入LLM 【细粒度】输出逐 token 级序列隐层特征,与LLM token逐位置时间对齐,细粒度融合隐含特征与文本
连接方式与耦合性 【级联式结构】不共享隐层,模块之间耦合很弱 【端到端结构】隐层级深度交互,模态特征全程参与LLM计算,可梯度回传,耦合紧密
输出端连接方式 LLM 仅输出文本token,语音生成与模态上下文脱钩 LLM 输出文本token+逐token隐层表征,语音生成受模态表征影响,输出端紧密耦合
注意力与信息流 LLM信息弱对齐、注意力学习难度大,易丢失细粒度对应关系 模态与文本序列对齐,实现词-图像、字-音频的时间对齐,更容易学习全模态知识
总结性概括 仅输入端粗粒度一次性注入模态特征,无逐token隐层交互,非端到端耦合 隐层级逐token对齐、端到端融合,输入输出细粒度交互,突破传统级联上限

2. 首个全双工全模态大模型:解决 IO 阻塞问题

全双工概念迁移

将通信领域的全双工概念引入大模型:

  • 单工:单向信息传输;半双工(如对讲机):双向传输但同一时间仅一方可发送;
  • 全双工(如手机通话):时间高同步的全模态 IO 流,模型可同时接收多模态输入、生成输出,输入输出互不阻塞。

核心实现手段

  1. 时间概念建模:将输入输出与时间严格绑定,实现几十毫秒级数据对齐,每秒的视频、音频输入与文本、语音输出在时间轴上精准匹配;
  2. 时分复用:将并行的多模态信息流切分为毫秒级时间切片,宏观维度并行互不阻塞;
  3. 每秒固定处理逻辑:每个 1 秒时间片内,模型接收该时段的所有视频 / 音频信息,生成不定长度文本 token + 固定数量语音 token,仅生成当前秒的实时信息。

核心能力:输入输出实时同步

模型可根据环境反馈及时调整行为策略,真正实现边看边听边说,区别于传统模型 “一次性生成所有信息再逐步输出” 的静态模式。

  • 人的输入和输出是不阻塞的,处理的是并行的信息流,根据实时环境反馈进行实时策略变化&及时调整,并非开口后阻塞外部信息,可边说边察言观色;
  • I/O 互相不阻塞的核心是时分复用,时间概念为核心:输入输出在时间上严格绑定,实现几十 ms 粒度对齐;1s 时间内,LLM 输入切片后的视频和语音信息,输出不定长文本 Token + 固定长度语音 token,避免文本 token 生成过快造成浪费。

3. 高频自主交互语义判断机制:实现交互自由性

解决的核心问题

摒弃传统由外部工具(VAD、唤醒词)控制说话时机的模式,让模型自主决定行为时机与内容,弱化一问一答的轮次概念。

核心实现

  1. 高频判断:模型以每秒 1 次的频率,在动态时间流中判断自身是否该说话(静默 / 回复 / 插话),频率可调整以模拟人类不同的反应速度;
  2. 基于全模态的决策:外部多模态信息时刻持续输入,模型可基于实时信息流做出决策,而非仅依赖用户的单次提问,这是与纯文本模型的核心区别;
  3. 自主交互能力落地
    • 即时回复:基于语义判断用户说话结束,无需硬等 VAD 的时间阈值,可预判用户即将说完;
    • 打断:持续监控外部信息流,检测到用户说话时自动进入静默倾听状态;
    • 主动回复:当多模态时机成熟时主动反馈(如 “电梯到 24 层了”“绿灯亮了”);
    • 插话:可基于语义判断主动插话(产品层面做了限制,避免频繁打断)。

全模态全双工核心设计逻辑解读

(1)时间流是全双工自主交互的核心:模型从「被动响应」变为「主动伴随」
  1. 时间流的核心是「持续的伴随态」:模型始终处于多模态信息流接收状态,「静默/说话/插话」是基于实时时间流的统一决策结果,而非不同功能策略;
  2. 决策依据从「用户指令」升级为「全场景流信息」:模型判断基于整体实时多模态时间流,即使用户无指令,也可根据视觉/音频信息自主反馈,突破传统模型的决策局限。
    简单来说:时间流让模型从「用户的工具」变成了「场景的伴随者」。
(2)全模态全双工的价值远高于纯语音全双工:多信道的天然互不阻塞属性
  1. 纯语音全双工需求偏弱:语音为单信道,人类交流多为半双工场景,技术优化对体验提升有限;
  2. 全模态全双工是多信道天然需求:视觉、音频、语音等为独立信息传输信道,天然互不阻塞,贴合人类“边看边听边说”的交互习惯;
  3. 核心价值:还原真实世界的信息交互方式,是解锁车载、无障碍辅助、智能机器人等端侧场景的关键,为纯语音全双工无法实现。
    简言之:纯语音全双工是「单信道的技术优化」,而全模态全双工是「多信道还原真实世界的底层重构」。
(3)全双工的技术落地具备可行性:半双工能力可无损耗继承
  1. 全双工为「兼容式升级」:通过合理网络结构设计和针对性数据驱动训练,升级后模型能力无明显掉点;
  2. 原有能力完整继承:全双工模式下可完美实现半双工的所有功能,是能力的叠加而非替代,保证了模型实际应用的实用性。
(4)整体总结
  1. 技术逻辑:时间流的伴随态让全双工自主交互成为可能,决策从「围绕用户」升级为「围绕场景」;
  2. 商业价值:全模态全双工是多信道天然属性决定的、更具实际应用价值的技术方向;
  3. 工程实现:全双工为兼容式升级,原有能力无损耗继承,具备落地可行性。

4. 自然低延迟语音交互技术:提升语音拟人度与流畅性

围绕token-level 端到端连接和全双工语音生成两大核心,实现自然、低延迟、可定制的语音交互,核心技术点如下:

(1)LLM 与 TTS 的协同优化

  • LLM 分担复杂指令 / 情景理解,并为 TTS 分配字级别韵律信息;
  • 轻量级 TTS 解码器无需处理复杂语义,有更多空间进行语音 token 建模,显著提升音色、拟人度和声音表现力,实现字级别韵律控制和复杂情景语音建模。
模块 核心功能 技术价值
8B LLM 情景理解、字级别韵律信息分配 为语音生成提供细粒度语义控制
轻量级 TTS 语音 token 建模、韵律还原 专注语音生成,提升拟人度与音色表现力

(2)全双工语音生成实现

  • 实时流式改造:将传统离线 TTS 的 attention 改为因果型,实现实时流式编解码,保留上下文一致性;
  • 每秒同步生成:每秒接收文本 + 隐层表示,生成 1 秒语音,实现输入输出同步;
  • Pre-look 机制保证连贯性:生成当前秒语音时,提前读取后续一小段文本 / 语音 token,基于未来信息调整当前语音的语气、韵律,避免断句生硬,生成后丢弃预读的冗余信息。

(3)附带优势:长语音生成稳定性

传统离线 TTS 生成长语音时,错字率随时间急剧上升;全双工流式模式下,模型交替处理文本和语音,生成1 分钟以上长语音的错字率降至业界最好水平的一半以下。

(4)端到端语音克隆(多模态 system prompt)

  • 创新点:拓展文本 + 参考声音的多模态系统提示,替代传统固定少数音色的模式;
  • 实现方式:推理阶段通过结构化字段(如 JSON)传入文本 prompt + 参考声音片段,模型在训练中学会模仿参考声音的音色(基于 loss 最小化原则);
  • 能力:支持语音角色扮演,可定制语音交互的音色和表达风格(如模仿哪吒、马斯克的语音和语气),且在语音克隆的同时保持低错字率,达到业界最优水平。

5. 核心结构总结

5.1 整体架构:全双工多模态实时交互系统

8B 骨干 LLM + 轻量级多模态编解码器的模块化架构,核心目标是实现边看、边听、边说的全双工交互,而非传统模型 “先理解再一次性生成” 的静态模式。

从下到上的数据流(时间轴从左到右)

  • 底层输入层
    • Video Stream:按时间片输入视频帧,由 Multimodal Encoders 编码为视觉嵌入(V);
    • Audio Stream:实时输入音频波形,由 Multimodal Encoders 编码为音频嵌入(A);
    • Multimodal System Prompt:包含文本系统提示(如任务指令)和参考音频(用于语音克隆),作为系统级上下文注入。
  • 中间处理层
    • Multimodal Encoders:轻量级编码器,将视频帧和音频波形编码为固定维度的视觉 / 音频嵌入(V/A),并按时间片对齐;
    • Full-Duplex Omnimodal LLM:8B 骨干大模型,接收所有模态嵌入和系统提示,进行高级语义理解、决策和生成;
    • Interleaved Speech Token Decoder:接收 LLM 输出的文本 token + 隐层表征(h),逐 token 生成语音 token;
    • Streaming Flow Matching Decoder:轻量级流式语音解码器,将语音 token 转换为可播放的音频波形。
  • 顶层输出层
    • LLM Output:输出文本 token(绿色)和 [silent] token(黄色),以及对应的隐层表征(h);
    • Speech Tokens:25Hz 的语音 token 序列,由语音解码器生成;
    • Audio Output:最终的实时语音波形输出。

5.2 核心机制:时间绑定与全双工交互

  1. 时间概念建模(Time-Bound Processing)
    • 模型将整个交互过程严格绑定到时间轴上,以1 秒为一个时间片进行处理;
    • 每个时间片内:接收该时段内的所有视频帧和音频片段;由 LLM 生成不定长度的文本 token(用于语义表达)和固定数量的语音 token(用于语音生成);仅生成当前秒的实时信息,确保输入输出同步。
  2. 时分复用(Time-Division Multiplexing)
    • 并行的视频、音频、文本信息流被切分为毫秒级的时间切片;
    • 宏观上各模态处理并行不阻塞,微观上按时间片顺序处理,保证了系统的实时性和稳定性。
  3. 高频决策机制(High-Frequency Decision Making)
    • 模型以每秒 1 次的频率,在动态时间流中判断自身行为:
      • 静默 ([silent] Token):当无需说话时,输出 [silent] token,保持倾听状态;
      • 回复 (Text Token):当需要说话时,输出文本 token,驱动语音生成;
      • 插话 / 打断:持续监控输入流,可基于语义判断用户说话结束,或在检测到用户说话时自动静默。

5.3 关键技术点:Token-Level 端到端连接与全双工语音生成

  • Token-Level 端到端连接
    • 输入端:视觉嵌入(V)和音频嵌入(A)逐帧逐秒输入 LLM,让模型充分吸收全模态信息;
    • 输出端:LLM 输出的每个文本 token 都携带对应的隐层表征(h),并逐 token 传入语音解码器;
    • 价值:实现了细粒度的语义控制,让语音生成不仅基于文本内容,还能充分利用 LLM 理解到的情景、情感和韵律信息。
  • LLM 与 TTS 的协同优化
    • LLM 负责复杂的指令理解和情景建模,并为每个字分配韵律信息;
    • TTS 解码器则专注于语音 token 的建模和还原,无需处理复杂语义,从而有更多空间提升音质和表现力。
  • 全双工语音生成
    • 实时流式改造:将传统离线 TTS 的 attention 改为因果型,实现实时流式编解码,保证上下文一致性;
    • 每秒同步生成:每秒接收文本 + 隐层表征,生成 1 秒语音,实现输入输出同步;
    • Pre-look 机制:生成当前秒语音时,预读后续一小段文本 / 语音 token,基于未来信息调整当前语音的语气和韵律,避免断句生硬。
  • 端到端语音克隆(多模态 System Prompt)
    • 创新地将文本系统提示和参考音频片段结合,作为多模态系统提示注入模型;
    • 模型在训练中学会模仿参考声音的音色和表达风格,支持语音角色扮演(如模仿特定人物的声音);
    • 在语音克隆的同时,保持了极低的错字率,达到业界最优水平。

5.4 图中关键元素的含义

  • Hidden States (h):LLM 输出的隐层表征,携带了丰富的语义和情景信息,用于细粒度控制语音生成;
  • [silent] Token:LLM 输出的静默标记,表示当前无需说话,保持倾听;
  • Text Token:LLM 输出的文本标记,驱动语音生成;
  • Visual Embeddings (V):视频帧的编码表示;
  • Audio Embeddings (A):音频片段的编码表示;
  • Token + h → Decoder:表示文本 token 和对应的隐层表征一起传入语音解码器。

四、模型核心能力与评测

1. 基础能力:全模态能力均衡且领先

在 8B/9B 参数量下,各模态能力均实现同尺寸领先,核心包括:

  • 视觉语言能力:端到端英文复杂文档解析达到端侧最好效果,超越部分专用工具模型;
  • 多图 / 视频理解:继承并优化了 2.6 版本的原生记忆和推理能力;
  • 音频理解:支持通用音频编码,可识别非语音音频(敲门声、微波炉叮声、水流声),区别于传统仅能处理语音的模型;
  • 语音生成:低错字率、高拟人度、支持长语音和语音克隆;
  • 幻觉控制:在全双工模式下仍能有效控制幻觉,保证回答准确性。
能力维度 评测指标 行业定位
视觉语言 英文复杂文档解析准确率 端侧最优,超越部分专用工具模型
多图 / 视频理解 原生记忆推理准确率 同参数量级端侧领先
通用音频识别 非语音音频(敲门声 / 水流声)识别率 覆盖真实场景,突破语音模态限制
语音生成 字级别韵律还原度、错字率 8B 级模型端侧最优
语音克隆 音色相似度、内容准确率 开源社区首个端侧端到端实现

2. 推理效率:端侧友好,适配性强

  • 硬件支持:在 4090 显卡上可实现 BF16 精度推理,INT4 量化后显存占用更低、推理速度更快;
  • 端侧部署:基于 C++ 开发的 llama.cpp-omni 推理框架,可在 Mac 上运行,全双工全模态能力运行时显存占用约 10G。

3. 评测特点

  • 传统能力(图文、语音):有完善的定量评测,结果在 GitHub 开源;
  • 全双工能力:目前行业无统一评测标准,主要通过体感测试和内部自动评测验证,开启全双工后对单双工能力无明显掉点。

五、部署与开源支持

1. 常规框架适配

全面适配端侧 / 大模型常用推理框架:Llama.cpp、ollama、vLLM、SGLang、FlagOS 等,部分已合入官方仓库,开发者可直接使用。

2. 全模态能力专属部署支持

  1. 高效端侧推理框架:自研 llama.cpp-omni,基于 Llama.cpp 改造,全流程 C++ 实现,支持端侧全双工全模态推理;
  2. 演示系统:
    • 网页端:基于 WebRTC 搭建的全双工演示交互系统(持续优化卡顿问题);
    • 本地端:轻量级 Mac 端演示交互系统(未来几天开源),实现端侧推理与交互的闭环。

六、应用场景与端侧部署的必要性

1. 核心应用场景

模型的全双工、全模态、自主交互能力适用于传统模型无法覆盖的类人陪伴 / 实时辅助场景,核心包括:

  1. 智能伴随助手:手机、智能眼镜、智能家居等端侧设备,实现日常陪伴、生活记录、实时反馈(如 “记录拿取的商品价格”);
  2. 无障碍辅助:为盲人提供实时环境感知(如 “绿灯亮了”“前方有台阶”),解决传统图文模型体验差的问题;
  3. 车载智能交互:实时监控车位、路况,语音主动提醒(如 “左侧有停车位”),适配开车时的无手操作场景;
  4. 沉浸式场景交互:元宇宙、智能座舱、机器人等,实现多模态实时互动,模拟人类交流方式。

2. 端侧部署的核心必要性

全双工全模态模型与端侧深度绑定,核心原因有三:

  1. 数据安全与隐私保护:模型持续陪伴用户,记录海量实时多模态信息,端侧部署可实现数据不上云,避免隐私泄露,这是云端部署无法解决的核心问题;
  2. 低延迟与稳定性:全双工交互对延迟要求极高,端侧部署可实现本地低延迟推理,适配无网 / 弱网场景(如野外、隧道、会议现场);
  3. 算力负载均衡:若海量用户的多模态流均上传云端,会造成云端算力中心巨大负担,端侧部署可利用用户本地算力实现自闭环,降低服务提供方的算力成本。

七、研发挑战与解决思路

1. 多模态能力融合的冲突问题

  • 挑战:将视觉、音频、语音、文本等能力融合在一个模型中,各模态数据易 “互相打架”,有限参数下训练难度高;
  • 解决:深入理解不同模态数据的学习特性,精准选择数据加入的时机和位置,精细化训练,解决 99% 正确后 1% 的细节问题。

2. 全双工技术的 “无人区” 探索

  • 挑战:行业无成熟参考,模型结构、数据构造、训练方法、评测体系、推理框架、交互 demo 均需从零搭建;
  • 解决:体系化探索,模型与 demo迭代打磨,模型调整后同步优化推理和交互系统,验证了细粒度时间切片下模型的学习能力。

3. 全双工下的连贯性与实时性平衡

  • 挑战:每秒切分处理信息,易导致文本 / 语音生成不连贯,且模型需具备几十毫秒级的时间感知能力;
  • 解决:通过 Pre-look 机制、时分复用、逐 token 紧密连接,在保证实时性的同时实现上下文连贯性。

4. 端侧部署的资源限制

  • 挑战:端侧显存、算力有限,需在保证能力的前提下优化推理效率;
  • 解决:采用轻量级编解码器、INT4 量化、自研高效 C++ 推理框架,实现端侧低显存占用运行。

研发挑战与解决思路深度解析

MiniCPM-o 4.5 四大研发挑战是端侧全双工全模态模型的底层共性难题,本质为多模态融合的参数效率矛盾、全新技术范式的工程化空白、实时性与连贯性的技术权衡、端侧硬件的资源约束适配,解决思路贴合大模型研发规律且针对三重特性精准创新,核心逻辑为以端侧落地为核心,技术创新围绕轻量、实时、类人展开,同时为行业提供了可复制的研发经验:

  1. 多模态融合:有限参数下的模态差异化融合是核心,而非参数量堆料;
  2. 新范式研发:算法与工程协同迭代是关键,需搭建全链路工程化体系;
  3. 实时交互:实时性与连贯性的技术协同是核心,需针对人类体验做定制化设计;
  4. 端侧优化:分层优化 + 定制化设计是最优解,需兼顾通用适配与场景需求。

八、模型局限性与未来发展方向

1. 现阶段局限性

  1. 上下文长度有限:建议在1 分钟内使用,3 分钟内表现尚可,超出后性能会下降,受端侧内存限制;
  2. 全模态微调难度大:单一模态 / 能力微调可通过开放脚本实现,但全模态(尤其是全双工流式)微调的数据构造尚无成熟方法,远超当前主流的 ChatGPT 造数模式;
  3. 全双工评测体系缺失:行业无统一的全双工能力评测标准,主要依赖体感和内部测试。

2. 未来发展方向

  1. 提升上下文长度:通过训练原生更长的上下文、探索内存优化方法(如硬盘缓存),实现上下文长度的几倍甚至 10 倍提升;
  2. 完善全模态微调生态:推动社区建设,开发全双工数据构造、微调工具,让全模态微调像图文 / 文本微调一样便捷;
  3. 优化端侧部署体验:进一步降低显存占用、提升推理速度,适配更多端侧设备(如手机、嵌入式设备);
  4. 丰富拟人交互能力:提升模型的情商、语音表达的个性化,实现更自然的类人交流;
  5. 工具调用与全模态能力融合:探索模型在全双工状态下的工具调用能力,拓展实际应用边界。

九、关键见解与行业思考

  1. 多模态大模型的核心发展方向:从 “更小更强” 的密度提升,转向更类人的交互逻辑,真正模拟人类的多模态感知和交互方式,这是实现 AGI 的重要一步;
  2. 全模态与全双工的本质价值:不同模态是独立的信息传输通道,物理上本就不应互相阻塞,全双工全模态建模才是符合现实世界的方式,能解锁大量传统模型无法实现的场景;
  3. 端侧是全双工全模态模型的最终归宿:全双工全模态的交互特性对隐私、延迟的要求,决定了模型无法依赖云端部署,端侧智能是未来的核心方向;
  4. 工程与算法的协同创新:全双工全模态模型的落地,不仅需要算法创新,还需要推理框架、交互系统、数据构造等全链路工程能力的支撑,单一算法突破无法实现实际应用。