首届HumDial(类人语音对话系统)挑战赛作为语音研究领域顶级会议ICASSP 2026的同期赛事,由西北工业大学、南京大学、香港中文大学、华为技术有限公司、希尔贝壳(AISHELL)等多家机构联合发起,聚焦情感智能(赛道一)和全双工交互(赛道二)两大核心赛道。本文完整整理赛事全部核心信息,涵盖双赛道官方方案、论文资料、评测方案、参赛结果、赛事规则等,无内容删减。
一、赛事核心信息总览
1.1 官方核心链接
| 类别 | 具体链接 |
|---|---|
| ICASSP 2026 Grand Challenge 总页面 | https://2026.ieeeicassp.org/sp-grand-challenges |
| HumDial 比赛主页 | https://aslp-lab.github.io/HumDial-Challenge |
| 官方开源 baseline 主地址 | https://github.com/ASLP-lab/Hum-Dial/tree/main |
| 官方总结报告 | The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era https://arxiv.org/pdf/2601.05564 |
| 微信宣传推文 | https://mp.weixin.qq.com/s/ixYh1y3EfvGJkqvp_nKdBg |
| Track 1 结果页面 | https://aslp-lab.github.io/HumDial-Challenge/track1/results/ |
| Track 2 结果页面 | https://aslp-lab.github.io/HumDial-Challenge/track2/results/ |
| 官方 baseline 具体地址 | https://github.com/ASLP-lab/Hum-Dial/tree/main/Full-Duplex_Interaction/baseline |
1.2 其他重要参考链接
| 内容 | 链接 |
|---|---|
| Turn Detection五种解法解析 | https://mp.weixin.qq.com/s/dEP-xOfyD_3R_zx7ngfbXQ |
二、赛道一(Track 1):情感智能 完整信息
2.1 官方Baseline方案及资料
- 方案名称:OSUM-EChat
- 英文全称:OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue
- 论文链接:https://arxiv.org/pdf/2508.09600
- 论文笔记:2508.09600-OSUM-EChat
2.2 赛道一第一名成果(TeleAI 中国电信)
- 团队:TeleAI (中国电信)
- 技术报告名称:A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction
- 技术报告链接:https://arxiv.org/pdf/2601.04960
- 重要参考文献
- BoSS: Beyond-Semantic Speech:https://arxiv.org/pdf/2507.17563
- GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness:https://arxiv.org/pdf/2507.18119
- TELEVAL: A Dynamic Benchmark Designed for Spoken Language Models in Chinese Interactive Scenarios:https://arxiv.org/pdf/2507.18061
2.3 赛道一核心定位与任务
核心定位
超越简单的情绪标签标注,重点考核模型对语境化情感的精准理解能力、共情式回应能力、深度推理能力,以及对情绪动态变化的追踪能力,助力AI真正读懂用户、建立情感联结。
挑战赛任务
(1)核心任务(计入最终排名)
最终排名根据以下三项核心任务的综合得分确定,各任务权重明确分配:
- 任务一:情绪轨迹检测:评估模型准确识别并简洁总结用户在多轮对话中情感变化的能力。
- 任务二:情绪推理:评估模型感知用户情感背后深层原因的能力。
- 任务三:共情评估:评估模型以文本和音频两种格式生成共情回应的能力。
(2)补充任务(仅学术分析,不计分)
- 任务四:情感识别能力:评估模型的情感识别能力及鲁棒性,尤其关注语义与声学模态情感一致或冲突的场景。
- 任务五:语音情感生成:评估模型按照指定情感基调生成语音的能力。
2.4 赛道一专用数据集
数据集围绕情商核心场景设计,包含中英文对话场景,覆盖丰富的情感类型与对话情境,分训练集、开发集、测试集通过注册邮箱发送,核心特点:
- 训练集:约100小时音频数据(仅录制用户提问部分),回应以文本格式提供作为参考;含3轮、4轮、5轮对话,聚焦情感动态及深层原因;禁止使用商业模型合成回应音频。
- 开发集:覆盖三项核心任务,分别用于评估模型回应文本得分(任务一、二)和音频得分(任务三)。
- 测试集:分公开测试集(模型效果验证)和私有隐藏测试集(最终排名依据),私有测试集结果需能被主办方成功复现。
2.5 赛道一评测方案
(1)评估环境
自动化评估采用Qwen3-Omni-30B-A3B-Instruct模型,全程在本地环境部署评分,详细评估提示语参阅挑战赛指南。
(2)任务维度与评估方式
| 任务 | 评估维度 | 评估方式 | 评估工具/团队 |
|---|---|---|---|
| 任务一:情绪轨迹检测 | 准确性-完整性、深度-粒度、附加价值 | 自动化评估 | Qwen3-Omni-30B-A3B-Instruct |
| 任务二:情绪推理 | 信息整合、根源洞察、清晰逻辑性 | 自动化评估 | Qwen3-Omni-30B-A3B-Instruct |
| 任务三:共情评估 | 文本共情洞察 | 自动化评估 | Qwen3-Omni-30B-A3B-Instruct |
| 任务三:共情评估 | 语音共情一致性、音频质量自然度 | 人工评估 | 20名专业人工评估员 |
(3)人工评估团队资质
由北京希尔贝壳科技有限公司组织,具体构成:
- 人数:共20人(中文评估组10人、英文评估组10人)
- 学历/经验:本科及以上学历,6个月以上相关数据标注/主观评估经验
- 语言能力:中文组为普通话母语者,英文组具备流利英语能力
- 人口特征:女性13人、男性7人;平均年龄24.2岁(范围22-27岁)
(4)违规处理
中英文测试集中,若提交的响应语言与输入音频语言不一致,该样本自动判定为最低分(1分)。
(5)得分计算方式
- 中文/英文最终得分 =(任务一平均分 ×0.2)+(任务二平均分 ×0.2)+(任务三-维度一 ×0.1)+(任务三-维度二 ×0.25)+(任务三-维度三 ×0.25)
- 综合最终得分 =(中文最终得分 ×0.5)+(英文最终得分 ×0.5)
2.6 赛道一评测结果
(1)中文测试集得分
任务一
| 团队 | 维度1 | 维度2 | 维度3 | 平均分 |
|---|---|---|---|---|
| BJTU_Unisound_team | 4.89 | 4.95 | 4.95 | 4.93 |
| HDTLAB | 4.28 | 3.95 | 4.44 | 4.22 |
| IUSpeech | 3.53 | 3.19 | 3.57 | 3.43 |
| Lingcon insight | 3.53 | 3.08 | 3.47 | 3.36 |
| SenseDialog | 2.40 | 2.41 | 2.41 | 2.41 |
| TeleAI | 4.95 | 5.00 | 5.00 | 4.98 |
| NJU-TencentHY | 4.83 | 4.96 | 4.96 | 4.92 |
| Baseline(基准线) | 3.23 | 3.15 | 3.25 | 3.21 |
任务二
| 团队 | 维度1 | 维度2 | 维度3 | 平均分 |
|---|---|---|---|---|
| BJTU_Unisound_team | 4.57 | 4.54 | 4.73 | 4.61 |
| HDTLAB | 4.25 | 4.42 | 5.00 | 4.56 |
| IUSpeech | 3.15 | 3.15 | 4.78 | 3.69 |
| Lingcon insight | 3.33 | 3.07 | 4.76 | 3.72 |
| SenseDialog | 5.00 | 5.00 | 5.00 | 5.00 |
| TeleAI | 4.91 | 4.96 | 5.00 | 4.96 |
| NJU-TencentHY | 5.00 | 5.00 | 5.00 | 5.00 |
| Baseline(基准线) | 2.95 | 2.61 | 4.18 | 3.25 |
任务三与中文最终得分
| 团队 | 任务三-维度1 | 任务三-维度2(人工) | 任务三-维度3(人工) | 中文最终得分 |
|---|---|---|---|---|
| BJTU_Unisound_team | 3.92 | 3.73 | 3.81 | 4.18 |
| HDTLAB | 3.74 | 3.00 | 3.37 | 3.72 |
| IUSpeech | 3.40 | 2.78 | 3.13 | 3.24 |
| Lingcon insight | 3.38 | 2.89 | 3.25 | 3.29 |
| SenseDialog | 4.96 | 3.62 | 3.76 | 3.82 |
| TeleAI | 3.87 | 3.69 | 3.87 | 4.26 |
| NJU-TencentHY | 4.10 | 3.50 | 3.74 | 4.20 |
| Baseline(基准线) | 3.28 | 3.00 | 3.31 | 3.20 |
(2)英文测试集得分
任务一
| 团队 | 维度1 | 维度2 | 维度3 | 平均分 |
|---|---|---|---|---|
| BJTU_Unisound_team | 4.48 | 4.65 | 4.65 | 4.59 |
| HDTLAB | 4.41 | 4.07 | 4.76 | 4.41 |
| IUSpeech | 2.35 | 2.00 | 2.20 | 2.18 |
| Lingcon insight | 1.77 | 1.75 | 1.84 | 1.79 |
| SenseDialog | 4.92 | 4.95 | 4.95 | 4.94 |
| TeleAI | 4.93 | 4.97 | 4.97 | 4.96 |
| NJU-TencentHY | 4.69 | 4.99 | 4.99 | 4.89 |
| Baseline(基准线) | 2.13 | 1.92 | 2.04 | 2.03 |
任务二
| 团队 | 维度1 | 维度2 | 维度3 | 平均分 |
|---|---|---|---|---|
| BJTU_Unisound_team | 4.88 | 4.89 | 4.95 | 4.91 |
| HDTLAB | 4.22 | 4.40 | 5.00 | 4.54 |
| IUSpeech | 2.10 | 1.94 | 2.91 | 2.32 |
| Lingcon insight | 1.84 | 1.63 | 2.51 | 1.99 |
| SenseDialog | 4.84 | 4.84 | 4.84 | 4.84 |
| TeleAI | 5.00 | 5.00 | 5.00 | 5.00 |
| NJU-TencentHY | 5.00 | 5.00 | 5.00 | 5.00 |
| Baseline(基准线) | 2.03 | 1.89 | 2.74 | 2.22 |
任务三与英文最终得分
| 团队 | 任务三-维度1 | 任务三-维度2(人工) | 任务三-维度3(人工) | 英文最终得分 |
|---|---|---|---|---|
| BJTU_Unisound_team | 4.13 | 3.96 | 3.72 | 4.23 |
| HDTLAB | 3.74 | 3.74 | 3.59 | 4.00 |
| IUSpeech | 2.15 | 3.61 | 3.54 | 2.90 |
| Lingcon insight | 2.25 | 3.10 | 3.09 | 2.53 |
| SenseDialog | 4.91 | 3.87 | 3.56 | 4.30 |
| TeleAI | 3.84 | 3.89 | 3.69 | 4.27 |
| NJU-TencentHY | 4.18 | 3.92 | 3.61 | 4.28 |
| Baseline(基准线) | 2.19 | 2.70 | 2.81 | 2.45 |
(3)最终排名与得分
标*团队受邀提交ICASSP 2页论文
| 团队 | 最终得分 | 排名 |
|---|---|---|
| TeleAI* | 4.27 | 1 |
| NJU-TencentHY* | 4.24 | 2 |
| BJTU_Unisound_team* | 4.21 | 3 |
| SenseDialog | 4.06 | 4 |
| HDTLAB | 3.86 | 5 |
| IUSpeech | 3.07 | 6 |
| Lingcon insight | 2.91 | 7 |
| Baseline(基准线) | 2.82 | 8 |
三、赛道二(Track 2):全双工交互 完整信息
3.1 官方Baseline方案及资料
- 方案名称:OSUM-EChat + Easy-Turn
- Easy-Turn英文全称:Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems
- Easy-Turn论文链接:https://arxiv.org/pdf/2509.23938
- 论文笔记:[WIP] 2509.23938-Easy Turn
3.2 赛道二第二名成果(Badcat)
- 团队:Badcat
- 技术报告名称:UNIT-BASED AGENT FOR SEMI-CASCADED FULL-DUPLEX DIALOGUE SYSTEMS
- 技术报告链接:https://arxiv.org/pdf/2601.20230
- 代码仓库:https://github.com/yu-haoyuan/fd-badcat
3.3 赛道二核心定位
打破僵化的轮流对话模式,评估系统处理语音打断、重叠发声、实时反馈及自然对话节奏的能力,帮助AI习得更贴近人类的自然沟通方式,赛事为该赛道发布专属的、经过精细标注的真实场景数据集。Turn Detection是全双工系统的独立模块,原文对比了5种解法(链接:https://mp.weixin.qq.com/s/dEP-xOfyD_3R_zx7ngfbXQ);若采用类似 MinMo 方案,在 LLM 基础上增加额外的 Turn-Detection 任务,也是该领域的一种技术路线;
四、赛事通用规则与重要备注
4.1 通用技术架构要求
本赛事不允许参赛者使用级联系统,必须使用 Thinker-Talker 架构或者完全端到端的架构。
4.2 资源使用规范
(1)资源定义
- 内部资源:主办方直接提供的官方数据集、基线模型及配套文档资料。
- 外部资源:主办方未提供的所有资源,包括但不限于外部数据、预训练模型、开源库、第三方 API 服务等。
(2)外部资源使用要求
- 外部数据:仅限使用公开可获取数据集,严禁使用私有/非公开/受访问限制的专有数据集;
- 外部预训练模型:仅限使用公开可获取的开源模型,提交成果时需附带所有模型清晰版本信息;
- 资源申报:最终技术报告中需完整列出所有使用资源(内+外),并详细说明应用方式。
4.3 竞赛数据集使用规范
- 训练集:可使用官方训练子集+标准数据增强(加噪声、音高/语速调整等)+合规外部公开数据集;若生成合成数据,底层模型(如TTS)需为开源模型,所有流程需在报告中记录。
- 验证集:仅用于模型性能评估与调试优化。
- 测试集:最终排名结合公开测试集和私有测试集表现,私有测试集结果需可被主办方复现。
- 本文标题:专题分享 | ICASSP 2026 HumDial 类人语音对话挑战赛
- 创建时间:2026-01-10
- 本文链接:2026/2026-01-10-icassp-2026-humdial/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!