分享题目:面壁小钢炮:MiniCPM-o 4.5(9B) 首个全双工全模态大模型 + 边看边听主动说
分享者:姚远博士(面壁智能多模态首席科学家、清华大学助理教授)
官方信息:
- github: https://github.com/OpenBMB/MiniCPM-o
- 模型代码:https://huggingface.co/openbmb/MiniCPM-o-4_5/blob/main/modeling_minicpmo.py
- demo: https://openbmb.github.io/minicpm-o-4_5(demo 效果仅体现语音生成能力,效果优异)
会议记录:通义听悟 - 会议转写 & B 站 - 直播回放
一、模型背景与研发主体
- 研发与开源社区:MiniCPM-o 4.5 由 OpenBMB 开源社区推出,该社区 2022 年由面壁智能 + 清华大学 THUNLP 实验室(刘知远)联合发起。愿景是让大模型普惠大众,聚焦端侧智能研发;开源模型总下载量超 2300 万,Hugging Face 上累计超 10 万 star。
- 模型定位:端侧全模态旗舰模型,是 MiniCPM 系列多模态模型的最新版本,主打边看-边听-主动说的类人多模态感知交互能力。核心参数量 8B,融合多模态模块后整体 9B,实现同尺寸下全模态、视觉、语音能力领先。
- 系列各版本模型发展
| 版本 | 核心能力突破 | 行业价值 |
|---|---|---|
| 早期版本 | 多端侧流畅运行、高清图像 OCR | 首个实现端侧多模态模型落地 |
| MiniCPM-o 2.6 | 视觉 + 语音 + 实时流式能力、原生记忆 / 推理 | 开源社区首个流式全模态模型,对标 GPT-4o/Gemini Live |
| MiniCPM-o 4.5 | 全双工全模态、自主交互、端到端语音克隆 | 突破传统轮次交互,实现类人多模态感知交互 |
二、核心技术理念:突破传统多模态模型的交互制约
1. 传统多模态模型的核心局限
传统模型继承 LLM 一问一答的轮次交互逻辑,存在以下核心问题:
- 处理离线静态数据,即使是视频也需先固定再上传,无实时动态处理能力;
- 模态受限,多为文本 + 单一视觉 / 语音模态,非真正的全模态;
- 输入输出阻塞,模型开始生成后、无法感知外部信息,且说话时机由外部工具(VAD、唤醒词、按钮)控制,没有自主的交互能力。
2. 人类多模态交互的核心特性(模型设计目标)
- 实时动态 + 全模态:天然处于多模态信息流中,并行接收视觉、音频等信号,低延迟反应;
- 并行信息流 + IO 互不阻塞:输入输出同步进行,可根据外部反馈及时调整行为;
- 交互自由性:说话时机、轮次不受限,可即时回复、打断、主动插话;
- 自然低延迟语音交互:语音表达有韵律、拟人度,可根据场景调整语气。
3. 传统多模态模型 VS MiniCPM-o 4.5 VS 人类交互「总结对比」
核心解决传统模型 “继承语言模型一问一答逻辑,与人类交互脱节” 的问题。
| 对比维度 | 传统多模态模型 | MiniCPM-o 4.5 实现效果 | 人类多模态交互(目标&愿景) |
|---|---|---|---|
| 数据处理 | 离线静态(视频需固定后上传) | 几十毫秒级别粒度进行「时间对齐」,实时处理音视频流 | 实时动态(持续接收多模态流) |
| 模态支持 | 文本 + 单一视觉 / 语音(模态阻塞) | 全模态并行处理,支持通用类型的音频(非仅语音) | 全模态(视 / 听 / 触 / 嗅,并行感知) |
| 输入输出 | 阻塞(输出期间不感知外部信息),区分 AI 的 turn 和用户的 turn | 全双工 IO,边看边听边说,可实时调整表达 | 互不阻塞(边输入边输出,实时根据各类信息的变化而调整) |
| 交互时机 | 外部工具控制(VAD / 唤醒词 / 按钮) | 高频语义判断(每一秒进行判断),自主决定说话时机 | 自主决定(可即时 / 主动 / 打断 / 插话) |
| 语音交互 | 固定音色、无韵律控制、长语音易出错 | 字级别韵律控制、端到端克隆、1 分钟长语音错字率减半 | 自然韵律、个性化表达、低延迟 |
4. 流式全模态模型的前期探索
2025 年出现 GPT-4o、Gemini Live、MiniCPM-o 2.6 等流式全模态模型,初步实现实时流式、低延时交互,具备原生记忆和初步推理能力,但未解决输入输出阻塞和自主交互的核心问题。
| 模型类型 | 核心特征 |
|---|---|
| 流式全模态 | 「实时接收 + 单次生成」→ 仍为轮次交互 |
| 全双工全模态 | 「实时接收 + 持续生成 + 实时调整」→ 类人的连续交互 |
三、核心技术架构与创新点
1. 端到端全模态架构
整体设计
采用8B 骨干 LLM + 轻量级模态编解码器的模块化架构,兼顾文本能力的保留与运行效率:
- LLM 聚焦高级语义处理,无需处理原始模态信息,最大程度能保留文本能力;
- 视觉 / 音频编码、语音解码由几百 M 级轻量级模块实现,避免主干模型处理高频模态 token 导致的效率低下。
关键连接方式
LLM 与模态编解码器通过隐层表示进行逐 token 紧密端到端连接:
- 输入端:各模态编码的隐层结果均输入 LLM;
- 输出端:文本 token + 隐层表征,逐 token 传入语音生成模块;
- 作用:实现细粒度控制,让模型充分吸收全模态数据的丰富知识,突破传统稀疏连接或级联方案的能力上限。
稀疏连接 vs 紧密连接
| 对比维度 | 稀疏连接 | 紧密连接 |
|---|---|---|
| 信息交互粒度 | 【粗粒度】只使用全局层面的 embedding,一次性注入LLM | 【细粒度】输出逐 token 级序列隐层特征,与LLM token逐位置时间对齐,细粒度融合隐含特征与文本 |
| 连接方式与耦合性 | 【级联式结构】不共享隐层,模块之间耦合很弱 | 【端到端结构】隐层级深度交互,模态特征全程参与LLM计算,可梯度回传,耦合紧密 |
| 输出端连接方式 | LLM 仅输出文本token,语音生成与模态上下文脱钩 | LLM 输出文本token+逐token隐层表征,语音生成受模态表征影响,输出端紧密耦合 |
| 注意力与信息流 | LLM信息弱对齐、注意力学习难度大,易丢失细粒度对应关系 | 模态与文本序列对齐,实现词-图像、字-音频的时间对齐,更容易学习全模态知识 |
| 总结性概括 | 仅输入端粗粒度一次性注入模态特征,无逐token隐层交互,非端到端耦合 | 隐层级逐token对齐、端到端融合,输入输出细粒度交互,突破传统级联上限 |
2. 首个全双工全模态大模型:解决 IO 阻塞问题
全双工概念迁移
将通信领域的全双工概念引入大模型:
- 单工:单向信息传输;半双工(如对讲机):双向传输但同一时间仅一方可发送;
- 全双工(如手机通话):时间高同步的全模态 IO 流,模型可同时接收多模态输入、生成输出,输入输出互不阻塞。
核心实现手段
- 时间概念建模:将输入输出与时间严格绑定,实现几十毫秒级数据对齐,每秒的视频、音频输入与文本、语音输出在时间轴上精准匹配;
- 时分复用:将并行的多模态信息流切分为毫秒级时间切片,宏观维度并行互不阻塞;
- 每秒固定处理逻辑:每个 1 秒时间片内,模型接收该时段的所有视频 / 音频信息,生成不定长度文本 token + 固定数量语音 token,仅生成当前秒的实时信息。
核心能力:输入输出实时同步
模型可根据环境反馈及时调整行为策略,真正实现边看边听边说,区别于传统模型 “一次性生成所有信息再逐步输出” 的静态模式。
- 人的输入和输出是不阻塞的,处理的是并行的信息流,根据实时环境反馈进行实时策略变化&及时调整,并非开口后阻塞外部信息,可边说边察言观色;
- I/O 互相不阻塞的核心是时分复用,时间概念为核心:输入输出在时间上严格绑定,实现几十 ms 粒度对齐;1s 时间内,LLM 输入切片后的视频和语音信息,输出不定长文本 Token + 固定长度语音 token,避免文本 token 生成过快造成浪费。
3. 高频自主交互语义判断机制:实现交互自由性
解决的核心问题
摒弃传统由外部工具(VAD、唤醒词)控制说话时机的模式,让模型自主决定行为时机与内容,弱化一问一答的轮次概念。
核心实现
- 高频判断:模型以每秒 1 次的频率,在动态时间流中判断自身是否该说话(静默 / 回复 / 插话),频率可调整以模拟人类不同的反应速度;
- 基于全模态的决策:外部多模态信息时刻持续输入,模型可基于实时信息流做出决策,而非仅依赖用户的单次提问,这是与纯文本模型的核心区别;
- 自主交互能力落地:
- 即时回复:基于语义判断用户说话结束,无需硬等 VAD 的时间阈值,可预判用户即将说完;
- 打断:持续监控外部信息流,检测到用户说话时自动进入静默倾听状态;
- 主动回复:当多模态时机成熟时主动反馈(如 “电梯到 24 层了”“绿灯亮了”);
- 插话:可基于语义判断主动插话(产品层面做了限制,避免频繁打断)。
全模态全双工核心设计逻辑解读
(1)时间流是全双工自主交互的核心:模型从「被动响应」变为「主动伴随」
- 时间流的核心是「持续的伴随态」:模型始终处于多模态信息流接收状态,「静默/说话/插话」是基于实时时间流的统一决策结果,而非不同功能策略;
- 决策依据从「用户指令」升级为「全场景流信息」:模型判断基于整体实时多模态时间流,即使用户无指令,也可根据视觉/音频信息自主反馈,突破传统模型的决策局限。
简单来说:时间流让模型从「用户的工具」变成了「场景的伴随者」。
(2)全模态全双工的价值远高于纯语音全双工:多信道的天然互不阻塞属性
- 纯语音全双工需求偏弱:语音为单信道,人类交流多为半双工场景,技术优化对体验提升有限;
- 全模态全双工是多信道天然需求:视觉、音频、语音等为独立信息传输信道,天然互不阻塞,贴合人类“边看边听边说”的交互习惯;
- 核心价值:还原真实世界的信息交互方式,是解锁车载、无障碍辅助、智能机器人等端侧场景的关键,为纯语音全双工无法实现。
简言之:纯语音全双工是「单信道的技术优化」,而全模态全双工是「多信道还原真实世界的底层重构」。
(3)全双工的技术落地具备可行性:半双工能力可无损耗继承
- 全双工为「兼容式升级」:通过合理网络结构设计和针对性数据驱动训练,升级后模型能力无明显掉点;
- 原有能力完整继承:全双工模式下可完美实现半双工的所有功能,是能力的叠加而非替代,保证了模型实际应用的实用性。
(4)整体总结
- 技术逻辑:时间流的伴随态让全双工自主交互成为可能,决策从「围绕用户」升级为「围绕场景」;
- 商业价值:全模态全双工是多信道天然属性决定的、更具实际应用价值的技术方向;
- 工程实现:全双工为兼容式升级,原有能力无损耗继承,具备落地可行性。
4. 自然低延迟语音交互技术:提升语音拟人度与流畅性
围绕token-level 端到端连接和全双工语音生成两大核心,实现自然、低延迟、可定制的语音交互,核心技术点如下:
(1)LLM 与 TTS 的协同优化
- LLM 分担复杂指令 / 情景理解,并为 TTS 分配字级别韵律信息;
- 轻量级 TTS 解码器无需处理复杂语义,有更多空间进行语音 token 建模,显著提升音色、拟人度和声音表现力,实现字级别韵律控制和复杂情景语音建模。
| 模块 | 核心功能 | 技术价值 |
|---|---|---|
| 8B LLM | 情景理解、字级别韵律信息分配 | 为语音生成提供细粒度语义控制 |
| 轻量级 TTS | 语音 token 建模、韵律还原 | 专注语音生成,提升拟人度与音色表现力 |
(2)全双工语音生成实现
- 实时流式改造:将传统离线 TTS 的 attention 改为因果型,实现实时流式编解码,保留上下文一致性;
- 每秒同步生成:每秒接收文本 + 隐层表示,生成 1 秒语音,实现输入输出同步;
- Pre-look 机制保证连贯性:生成当前秒语音时,提前读取后续一小段文本 / 语音 token,基于未来信息调整当前语音的语气、韵律,避免断句生硬,生成后丢弃预读的冗余信息。
(3)附带优势:长语音生成稳定性
传统离线 TTS 生成长语音时,错字率随时间急剧上升;全双工流式模式下,模型交替处理文本和语音,生成1 分钟以上长语音的错字率降至业界最好水平的一半以下。
(4)端到端语音克隆(多模态 system prompt)
- 创新点:拓展文本 + 参考声音的多模态系统提示,替代传统固定少数音色的模式;
- 实现方式:推理阶段通过结构化字段(如 JSON)传入文本 prompt + 参考声音片段,模型在训练中学会模仿参考声音的音色(基于 loss 最小化原则);
- 能力:支持语音角色扮演,可定制语音交互的音色和表达风格(如模仿哪吒、马斯克的语音和语气),且在语音克隆的同时保持低错字率,达到业界最优水平。
5. 核心结构总结
5.1 整体架构:全双工多模态实时交互系统
8B 骨干 LLM + 轻量级多模态编解码器的模块化架构,核心目标是实现边看、边听、边说的全双工交互,而非传统模型 “先理解再一次性生成” 的静态模式。
从下到上的数据流(时间轴从左到右)
- 底层输入层
- Video Stream:按时间片输入视频帧,由 Multimodal Encoders 编码为视觉嵌入(V);
- Audio Stream:实时输入音频波形,由 Multimodal Encoders 编码为音频嵌入(A);
- Multimodal System Prompt:包含文本系统提示(如任务指令)和参考音频(用于语音克隆),作为系统级上下文注入。
- 中间处理层
- Multimodal Encoders:轻量级编码器,将视频帧和音频波形编码为固定维度的视觉 / 音频嵌入(V/A),并按时间片对齐;
- Full-Duplex Omnimodal LLM:8B 骨干大模型,接收所有模态嵌入和系统提示,进行高级语义理解、决策和生成;
- Interleaved Speech Token Decoder:接收 LLM 输出的文本 token + 隐层表征(h),逐 token 生成语音 token;
- Streaming Flow Matching Decoder:轻量级流式语音解码器,将语音 token 转换为可播放的音频波形。
- 顶层输出层
- LLM Output:输出文本 token(绿色)和 [silent] token(黄色),以及对应的隐层表征(h);
- Speech Tokens:25Hz 的语音 token 序列,由语音解码器生成;
- Audio Output:最终的实时语音波形输出。
5.2 核心机制:时间绑定与全双工交互
- 时间概念建模(Time-Bound Processing)
- 模型将整个交互过程严格绑定到时间轴上,以1 秒为一个时间片进行处理;
- 每个时间片内:接收该时段内的所有视频帧和音频片段;由 LLM 生成不定长度的文本 token(用于语义表达)和固定数量的语音 token(用于语音生成);仅生成当前秒的实时信息,确保输入输出同步。
- 时分复用(Time-Division Multiplexing)
- 并行的视频、音频、文本信息流被切分为毫秒级的时间切片;
- 宏观上各模态处理并行不阻塞,微观上按时间片顺序处理,保证了系统的实时性和稳定性。
- 高频决策机制(High-Frequency Decision Making)
- 模型以每秒 1 次的频率,在动态时间流中判断自身行为:
- 静默 ([silent] Token):当无需说话时,输出 [silent] token,保持倾听状态;
- 回复 (Text Token):当需要说话时,输出文本 token,驱动语音生成;
- 插话 / 打断:持续监控输入流,可基于语义判断用户说话结束,或在检测到用户说话时自动静默。
- 模型以每秒 1 次的频率,在动态时间流中判断自身行为:
5.3 关键技术点:Token-Level 端到端连接与全双工语音生成
- Token-Level 端到端连接
- 输入端:视觉嵌入(V)和音频嵌入(A)逐帧逐秒输入 LLM,让模型充分吸收全模态信息;
- 输出端:LLM 输出的每个文本 token 都携带对应的隐层表征(h),并逐 token 传入语音解码器;
- 价值:实现了细粒度的语义控制,让语音生成不仅基于文本内容,还能充分利用 LLM 理解到的情景、情感和韵律信息。
- LLM 与 TTS 的协同优化
- LLM 负责复杂的指令理解和情景建模,并为每个字分配韵律信息;
- TTS 解码器则专注于语音 token 的建模和还原,无需处理复杂语义,从而有更多空间提升音质和表现力。
- 全双工语音生成
- 实时流式改造:将传统离线 TTS 的 attention 改为因果型,实现实时流式编解码,保证上下文一致性;
- 每秒同步生成:每秒接收文本 + 隐层表征,生成 1 秒语音,实现输入输出同步;
- Pre-look 机制:生成当前秒语音时,预读后续一小段文本 / 语音 token,基于未来信息调整当前语音的语气和韵律,避免断句生硬。
- 端到端语音克隆(多模态 System Prompt)
- 创新地将文本系统提示和参考音频片段结合,作为多模态系统提示注入模型;
- 模型在训练中学会模仿参考声音的音色和表达风格,支持语音角色扮演(如模仿特定人物的声音);
- 在语音克隆的同时,保持了极低的错字率,达到业界最优水平。
5.4 图中关键元素的含义
- Hidden States (h):LLM 输出的隐层表征,携带了丰富的语义和情景信息,用于细粒度控制语音生成;
- [silent] Token:LLM 输出的静默标记,表示当前无需说话,保持倾听;
- Text Token:LLM 输出的文本标记,驱动语音生成;
- Visual Embeddings (V):视频帧的编码表示;
- Audio Embeddings (A):音频片段的编码表示;
- Token + h → Decoder:表示文本 token 和对应的隐层表征一起传入语音解码器。
四、模型核心能力与评测
1. 基础能力:全模态能力均衡且领先
在 8B/9B 参数量下,各模态能力均实现同尺寸领先,核心包括:
- 视觉语言能力:端到端英文复杂文档解析达到端侧最好效果,超越部分专用工具模型;
- 多图 / 视频理解:继承并优化了 2.6 版本的原生记忆和推理能力;
- 音频理解:支持通用音频编码,可识别非语音音频(敲门声、微波炉叮声、水流声),区别于传统仅能处理语音的模型;
- 语音生成:低错字率、高拟人度、支持长语音和语音克隆;
- 幻觉控制:在全双工模式下仍能有效控制幻觉,保证回答准确性。
| 能力维度 | 评测指标 | 行业定位 |
|---|---|---|
| 视觉语言 | 英文复杂文档解析准确率 | 端侧最优,超越部分专用工具模型 |
| 多图 / 视频理解 | 原生记忆推理准确率 | 同参数量级端侧领先 |
| 通用音频识别 | 非语音音频(敲门声 / 水流声)识别率 | 覆盖真实场景,突破语音模态限制 |
| 语音生成 | 字级别韵律还原度、错字率 | 8B 级模型端侧最优 |
| 语音克隆 | 音色相似度、内容准确率 | 开源社区首个端侧端到端实现 |
2. 推理效率:端侧友好,适配性强
- 硬件支持:在 4090 显卡上可实现 BF16 精度推理,INT4 量化后显存占用更低、推理速度更快;
- 端侧部署:基于 C++ 开发的 llama.cpp-omni 推理框架,可在 Mac 上运行,全双工全模态能力运行时显存占用约 10G。
3. 评测特点
- 传统能力(图文、语音):有完善的定量评测,结果在 GitHub 开源;
- 全双工能力:目前行业无统一评测标准,主要通过体感测试和内部自动评测验证,开启全双工后对单双工能力无明显掉点。
五、部署与开源支持
1. 常规框架适配
全面适配端侧 / 大模型常用推理框架:Llama.cpp、ollama、vLLM、SGLang、FlagOS 等,部分已合入官方仓库,开发者可直接使用。
2. 全模态能力专属部署支持
- 高效端侧推理框架:自研 llama.cpp-omni,基于 Llama.cpp 改造,全流程 C++ 实现,支持端侧全双工全模态推理;
- 演示系统:
- 网页端:基于 WebRTC 搭建的全双工演示交互系统(持续优化卡顿问题);
- 本地端:轻量级 Mac 端演示交互系统(未来几天开源),实现端侧推理与交互的闭环。
六、应用场景与端侧部署的必要性
1. 核心应用场景
模型的全双工、全模态、自主交互能力适用于传统模型无法覆盖的类人陪伴 / 实时辅助场景,核心包括:
- 智能伴随助手:手机、智能眼镜、智能家居等端侧设备,实现日常陪伴、生活记录、实时反馈(如 “记录拿取的商品价格”);
- 无障碍辅助:为盲人提供实时环境感知(如 “绿灯亮了”“前方有台阶”),解决传统图文模型体验差的问题;
- 车载智能交互:实时监控车位、路况,语音主动提醒(如 “左侧有停车位”),适配开车时的无手操作场景;
- 沉浸式场景交互:元宇宙、智能座舱、机器人等,实现多模态实时互动,模拟人类交流方式。
2. 端侧部署的核心必要性
全双工全模态模型与端侧深度绑定,核心原因有三:
- 数据安全与隐私保护:模型持续陪伴用户,记录海量实时多模态信息,端侧部署可实现数据不上云,避免隐私泄露,这是云端部署无法解决的核心问题;
- 低延迟与稳定性:全双工交互对延迟要求极高,端侧部署可实现本地低延迟推理,适配无网 / 弱网场景(如野外、隧道、会议现场);
- 算力负载均衡:若海量用户的多模态流均上传云端,会造成云端算力中心巨大负担,端侧部署可利用用户本地算力实现自闭环,降低服务提供方的算力成本。
七、研发挑战与解决思路
1. 多模态能力融合的冲突问题
- 挑战:将视觉、音频、语音、文本等能力融合在一个模型中,各模态数据易 “互相打架”,有限参数下训练难度高;
- 解决:深入理解不同模态数据的学习特性,精准选择数据加入的时机和位置,精细化训练,解决 99% 正确后 1% 的细节问题。
2. 全双工技术的 “无人区” 探索
- 挑战:行业无成熟参考,模型结构、数据构造、训练方法、评测体系、推理框架、交互 demo 均需从零搭建;
- 解决:体系化探索,模型与 demo迭代打磨,模型调整后同步优化推理和交互系统,验证了细粒度时间切片下模型的学习能力。
3. 全双工下的连贯性与实时性平衡
- 挑战:每秒切分处理信息,易导致文本 / 语音生成不连贯,且模型需具备几十毫秒级的时间感知能力;
- 解决:通过 Pre-look 机制、时分复用、逐 token 紧密连接,在保证实时性的同时实现上下文连贯性。
4. 端侧部署的资源限制
- 挑战:端侧显存、算力有限,需在保证能力的前提下优化推理效率;
- 解决:采用轻量级编解码器、INT4 量化、自研高效 C++ 推理框架,实现端侧低显存占用运行。
研发挑战与解决思路深度解析
MiniCPM-o 4.5 四大研发挑战是端侧全双工全模态模型的底层共性难题,本质为多模态融合的参数效率矛盾、全新技术范式的工程化空白、实时性与连贯性的技术权衡、端侧硬件的资源约束适配,解决思路贴合大模型研发规律且针对三重特性精准创新,核心逻辑为以端侧落地为核心,技术创新围绕轻量、实时、类人展开,同时为行业提供了可复制的研发经验:
- 多模态融合:有限参数下的模态差异化融合是核心,而非参数量堆料;
- 新范式研发:算法与工程协同迭代是关键,需搭建全链路工程化体系;
- 实时交互:实时性与连贯性的技术协同是核心,需针对人类体验做定制化设计;
- 端侧优化:分层优化 + 定制化设计是最优解,需兼顾通用适配与场景需求。
八、模型局限性与未来发展方向
1. 现阶段局限性
- 上下文长度有限:建议在1 分钟内使用,3 分钟内表现尚可,超出后性能会下降,受端侧内存限制;
- 全模态微调难度大:单一模态 / 能力微调可通过开放脚本实现,但全模态(尤其是全双工流式)微调的数据构造尚无成熟方法,远超当前主流的 ChatGPT 造数模式;
- 全双工评测体系缺失:行业无统一的全双工能力评测标准,主要依赖体感和内部测试。
2. 未来发展方向
- 提升上下文长度:通过训练原生更长的上下文、探索内存优化方法(如硬盘缓存),实现上下文长度的几倍甚至 10 倍提升;
- 完善全模态微调生态:推动社区建设,开发全双工数据构造、微调工具,让全模态微调像图文 / 文本微调一样便捷;
- 优化端侧部署体验:进一步降低显存占用、提升推理速度,适配更多端侧设备(如手机、嵌入式设备);
- 丰富拟人交互能力:提升模型的情商、语音表达的个性化,实现更自然的类人交流;
- 工具调用与全模态能力融合:探索模型在全双工状态下的工具调用能力,拓展实际应用边界。
九、关键见解与行业思考
- 多模态大模型的核心发展方向:从 “更小更强” 的密度提升,转向更类人的交互逻辑,真正模拟人类的多模态感知和交互方式,这是实现 AGI 的重要一步;
- 全模态与全双工的本质价值:不同模态是独立的信息传输通道,物理上本就不应互相阻塞,全双工全模态建模才是符合现实世界的方式,能解锁大量传统模型无法实现的场景;
- 端侧是全双工全模态模型的最终归宿:全双工全模态的交互特性对隐私、延迟的要求,决定了模型无法依赖云端部署,端侧智能是未来的核心方向;
- 工程与算法的协同创新:全双工全模态模型的落地,不仅需要算法创新,还需要推理框架、交互系统、数据构造等全链路工程能力的支撑,单一算法突破无法实现实际应用。
- 本文标题:语音对话 | MiniCPM-o 4.5 全双工全模态大模型-技术分享(Part I)
- 创建时间:2026-02-08
- 本文链接:2026/2026-02-08-minicpm-o-4.5-A/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!