专题分享 | ICASSP 2026 HumDial 类人语音对话挑战赛
白御青 Lv5

首届HumDial(类人语音对话系统)挑战赛作为语音研究领域顶级会议ICASSP 2026的同期赛事,由西北工业大学、南京大学、香港中文大学、华为技术有限公司、希尔贝壳(AISHELL)等多家机构联合发起,聚焦情感智能(赛道一)全双工交互(赛道二)两大核心赛道。本文完整整理赛事全部核心信息,涵盖双赛道官方方案、论文资料、评测方案、参赛结果、赛事规则等,无内容删减。

一、赛事核心信息总览

1.1 官方核心链接

类别 具体链接
ICASSP 2026 Grand Challenge 总页面 https://2026.ieeeicassp.org/sp-grand-challenges
HumDial 比赛主页 https://aslp-lab.github.io/HumDial-Challenge
官方开源 baseline 主地址 https://github.com/ASLP-lab/Hum-Dial/tree/main
官方总结报告 The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era
https://arxiv.org/pdf/2601.05564
微信宣传推文 https://mp.weixin.qq.com/s/ixYh1y3EfvGJkqvp_nKdBg
Track 1 结果页面 https://aslp-lab.github.io/HumDial-Challenge/track1/results/
Track 2 结果页面 https://aslp-lab.github.io/HumDial-Challenge/track2/results/
官方 baseline 具体地址 https://github.com/ASLP-lab/Hum-Dial/tree/main/Full-Duplex_Interaction/baseline

1.2 其他重要参考链接

内容 链接
Turn Detection五种解法解析 https://mp.weixin.qq.com/s/dEP-xOfyD_3R_zx7ngfbXQ

二、赛道一(Track 1):情感智能 完整信息

2.1 官方Baseline方案及资料

  • 方案名称:OSUM-EChat
  • 英文全称:OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue
  • 论文链接https://arxiv.org/pdf/2508.09600
  • 论文笔记:2508.09600-OSUM-EChat

2.2 赛道一第一名成果(TeleAI 中国电信)

2.3 赛道一核心定位与任务

核心定位

超越简单的情绪标签标注,重点考核模型对语境化情感的精准理解能力、共情式回应能力、深度推理能力,以及对情绪动态变化的追踪能力,助力AI真正读懂用户、建立情感联结。

挑战赛任务

(1)核心任务(计入最终排名)

最终排名根据以下三项核心任务的综合得分确定,各任务权重明确分配:

  1. 任务一:情绪轨迹检测:评估模型准确识别并简洁总结用户在多轮对话中情感变化的能力。
  2. 任务二:情绪推理:评估模型感知用户情感背后深层原因的能力。
  3. 任务三:共情评估:评估模型以文本和音频两种格式生成共情回应的能力。
(2)补充任务(仅学术分析,不计分)
  1. 任务四:情感识别能力:评估模型的情感识别能力及鲁棒性,尤其关注语义与声学模态情感一致或冲突的场景。
  2. 任务五:语音情感生成:评估模型按照指定情感基调生成语音的能力。

2.4 赛道一专用数据集

数据集围绕情商核心场景设计,包含中英文对话场景,覆盖丰富的情感类型与对话情境,分训练集、开发集、测试集通过注册邮箱发送,核心特点:

  1. 训练集:约100小时音频数据(仅录制用户提问部分),回应以文本格式提供作为参考;含3轮、4轮、5轮对话,聚焦情感动态及深层原因;禁止使用商业模型合成回应音频。
  2. 开发集:覆盖三项核心任务,分别用于评估模型回应文本得分(任务一、二)和音频得分(任务三)。
  3. 测试集:分公开测试集(模型效果验证)和私有隐藏测试集(最终排名依据),私有测试集结果需能被主办方成功复现。

2.5 赛道一评测方案

(1)评估环境

自动化评估采用Qwen3-Omni-30B-A3B-Instruct模型,全程在本地环境部署评分,详细评估提示语参阅挑战赛指南。

(2)任务维度与评估方式

任务 评估维度 评估方式 评估工具/团队
任务一:情绪轨迹检测 准确性-完整性、深度-粒度、附加价值 自动化评估 Qwen3-Omni-30B-A3B-Instruct
任务二:情绪推理 信息整合、根源洞察、清晰逻辑性 自动化评估 Qwen3-Omni-30B-A3B-Instruct
任务三:共情评估 文本共情洞察 自动化评估 Qwen3-Omni-30B-A3B-Instruct
任务三:共情评估 语音共情一致性、音频质量自然度 人工评估 20名专业人工评估员

(3)人工评估团队资质

由北京希尔贝壳科技有限公司组织,具体构成:

  1. 人数:共20人(中文评估组10人、英文评估组10人)
  2. 学历/经验:本科及以上学历,6个月以上相关数据标注/主观评估经验
  3. 语言能力:中文组为普通话母语者,英文组具备流利英语能力
  4. 人口特征:女性13人、男性7人;平均年龄24.2岁(范围22-27岁)

(4)违规处理

中英文测试集中,若提交的响应语言与输入音频语言不一致,该样本自动判定为最低分(1分)

(5)得分计算方式

  1. 中文/英文最终得分 =(任务一平均分 ×0.2)+(任务二平均分 ×0.2)+(任务三-维度一 ×0.1)+(任务三-维度二 ×0.25)+(任务三-维度三 ×0.25)
  2. 综合最终得分 =(中文最终得分 ×0.5)+(英文最终得分 ×0.5)

2.6 赛道一评测结果

(1)中文测试集得分

任务一

团队 维度1 维度2 维度3 平均分
BJTU_Unisound_team 4.89 4.95 4.95 4.93
HDTLAB 4.28 3.95 4.44 4.22
IUSpeech 3.53 3.19 3.57 3.43
Lingcon insight 3.53 3.08 3.47 3.36
SenseDialog 2.40 2.41 2.41 2.41
TeleAI 4.95 5.00 5.00 4.98
NJU-TencentHY 4.83 4.96 4.96 4.92
Baseline(基准线) 3.23 3.15 3.25 3.21

任务二

团队 维度1 维度2 维度3 平均分
BJTU_Unisound_team 4.57 4.54 4.73 4.61
HDTLAB 4.25 4.42 5.00 4.56
IUSpeech 3.15 3.15 4.78 3.69
Lingcon insight 3.33 3.07 4.76 3.72
SenseDialog 5.00 5.00 5.00 5.00
TeleAI 4.91 4.96 5.00 4.96
NJU-TencentHY 5.00 5.00 5.00 5.00
Baseline(基准线) 2.95 2.61 4.18 3.25

任务三与中文最终得分

团队 任务三-维度1 任务三-维度2(人工) 任务三-维度3(人工) 中文最终得分
BJTU_Unisound_team 3.92 3.73 3.81 4.18
HDTLAB 3.74 3.00 3.37 3.72
IUSpeech 3.40 2.78 3.13 3.24
Lingcon insight 3.38 2.89 3.25 3.29
SenseDialog 4.96 3.62 3.76 3.82
TeleAI 3.87 3.69 3.87 4.26
NJU-TencentHY 4.10 3.50 3.74 4.20
Baseline(基准线) 3.28 3.00 3.31 3.20

(2)英文测试集得分

任务一

团队 维度1 维度2 维度3 平均分
BJTU_Unisound_team 4.48 4.65 4.65 4.59
HDTLAB 4.41 4.07 4.76 4.41
IUSpeech 2.35 2.00 2.20 2.18
Lingcon insight 1.77 1.75 1.84 1.79
SenseDialog 4.92 4.95 4.95 4.94
TeleAI 4.93 4.97 4.97 4.96
NJU-TencentHY 4.69 4.99 4.99 4.89
Baseline(基准线) 2.13 1.92 2.04 2.03

任务二

团队 维度1 维度2 维度3 平均分
BJTU_Unisound_team 4.88 4.89 4.95 4.91
HDTLAB 4.22 4.40 5.00 4.54
IUSpeech 2.10 1.94 2.91 2.32
Lingcon insight 1.84 1.63 2.51 1.99
SenseDialog 4.84 4.84 4.84 4.84
TeleAI 5.00 5.00 5.00 5.00
NJU-TencentHY 5.00 5.00 5.00 5.00
Baseline(基准线) 2.03 1.89 2.74 2.22

任务三与英文最终得分

团队 任务三-维度1 任务三-维度2(人工) 任务三-维度3(人工) 英文最终得分
BJTU_Unisound_team 4.13 3.96 3.72 4.23
HDTLAB 3.74 3.74 3.59 4.00
IUSpeech 2.15 3.61 3.54 2.90
Lingcon insight 2.25 3.10 3.09 2.53
SenseDialog 4.91 3.87 3.56 4.30
TeleAI 3.84 3.89 3.69 4.27
NJU-TencentHY 4.18 3.92 3.61 4.28
Baseline(基准线) 2.19 2.70 2.81 2.45

(3)最终排名与得分

标*团队受邀提交ICASSP 2页论文

团队 最终得分 排名
TeleAI* 4.27 1
NJU-TencentHY* 4.24 2
BJTU_Unisound_team* 4.21 3
SenseDialog 4.06 4
HDTLAB 3.86 5
IUSpeech 3.07 6
Lingcon insight 2.91 7
Baseline(基准线) 2.82 8

三、赛道二(Track 2):全双工交互 完整信息

3.1 官方Baseline方案及资料

  • 方案名称:OSUM-EChat + Easy-Turn
  • Easy-Turn英文全称:Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems
  • Easy-Turn论文链接https://arxiv.org/pdf/2509.23938
  • 论文笔记:[WIP] 2509.23938-Easy Turn

3.2 赛道二第二名成果(Badcat)

3.3 赛道二核心定位

打破僵化的轮流对话模式,评估系统处理语音打断、重叠发声、实时反馈及自然对话节奏的能力,帮助AI习得更贴近人类的自然沟通方式,赛事为该赛道发布专属的、经过精细标注的真实场景数据集。Turn Detection是全双工系统的独立模块,原文对比了5种解法(链接:https://mp.weixin.qq.com/s/dEP-xOfyD_3R_zx7ngfbXQ);若采用类似 MinMo 方案,在 LLM 基础上增加额外的 Turn-Detection 任务,也是该领域的一种技术路线;

四、赛事通用规则与重要备注

4.1 通用技术架构要求

本赛事不允许参赛者使用级联系统,必须使用 Thinker-Talker 架构或者完全端到端的架构。

4.2 资源使用规范

(1)资源定义

  1. 内部资源:主办方直接提供的官方数据集、基线模型及配套文档资料。
  2. 外部资源:主办方未提供的所有资源,包括但不限于外部数据、预训练模型、开源库、第三方 API 服务等。

(2)外部资源使用要求

  1. 外部数据:仅限使用公开可获取数据集,严禁使用私有/非公开/受访问限制的专有数据集;
  2. 外部预训练模型:仅限使用公开可获取的开源模型,提交成果时需附带所有模型清晰版本信息;
  3. 资源申报:最终技术报告中需完整列出所有使用资源(内+外),并详细说明应用方式。

4.3 竞赛数据集使用规范

  1. 训练集:可使用官方训练子集+标准数据增强(加噪声、音高/语速调整等)+合规外部公开数据集;若生成合成数据,底层模型(如TTS)需为开源模型,所有流程需在报告中记录。
  2. 验证集:仅用于模型性能评估与调试优化。
  3. 测试集:最终排名结合公开测试集和私有测试集表现,私有测试集结果需可被主办方复现。