专题分享 | 副语言语音数据集开源工作汇总
当前大语言模型(LLM)驱动的语音合成(TTS)领域,如何让机器说话带有“人味儿”(如呼吸、笑声、叹气、迟疑等非语言发声),已经成为走向极致拟人化的核心壁垒。本文梳理了近期该方向最具代表性的 8 篇论文及数据集。
前言
大模型时代的语音合成已经突破了基础的“清晰度”和“自然度”,目前的重要挑战是表现力(Expressiveness)与副语言特征(Paralinguistics/Non-Verbal)的还原。从最近的学术趋势来看,行业正在经历从“纯文本驱动”向“包含非语言标签(如[laugh], [sigh], [breath])的多模态驱动”转变。
以下是近期关于非语言语音生成、理解以及相关数据集构建的前沿工作梳理。
| 数据集 | 语言 | 类别数 | 时长(h) | 数据来源 | 标注方式 | 核心特点 |
|---|---|---|---|---|---|---|
| EXPRESSO | 英 | 多种风格 | 11 | 专业录制 | 人工录制 | 表现力重合成基准,涵盖低声/笑声/讽刺等风格 |
| NonverbalTTS | 英 | 10 | 17 | VoxCeleb, Expresso | Pipeline | 文本对齐的非语言标注 + 情感标签 |
| NVSpeech / Emilia-NV | 中英 | 18 | 573 | miHoYo, Emilia | 模型标注 | 词级别非语言标注,可扩展 Pipeline |
| SMIIP-NV (DKU) | 中 | 3 | 33 | 录音室采集 | 人工多维度 | 中文多维度副语言标注,填补中文空白 |
| MNV-17 | 中 | 17 | 7.5 | 录音室采集 | 人工录制 | 17 类细粒度非语言识别基准 |
| NonVerbalSpeech-38K | 中英 | 10 | 131 | 网络 | Pipeline | 生成与理解打通的可扩展流水线 |
| SynParaSpeech | 中 | 6 | 119 | 模型合成 | 自动合成 | 合成手段生成副语言数据,解决数据稀缺 |
| WESR-Train | 中英 | 21 | 1,767 | 网络 | Gemini | 大规模词级别事件-语音识别训练集 |
| WESR-Bench | 中英 | 21 | 3 | 网络 | 人工 | 词级别事件-语音识别评估基准 |
表注:类别数 = 非语言事件/风格类别数;时长 = 数据集总时长(小时);标注方式中”Pipeline”指基于模型的自动化流水线标注,”人工录制”指标注源于录制过程本身。
数据集详情
1. EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis
- 论文链接:https://arxiv.org/pdf/2308.05725
- 开源地址:HuggingFace (Expresso)
- 数据集简介:由 Meta AI 提出,专注于离散化表达性语音重合成的基准测试集。数据集包含了由专业配音演员录制的高质量语音,涵盖了不同情绪、语调以及自发性语音(Spontaneous Speech)。
- 数据集规模:约 11小时。
- 核心价值:引入了“表现力风格”(如低声、笑声、讽刺等)的精准控制分析,评估了离散声学Token在保留非语言表现力方面的能力,是研究情绪和风格迁移的经典Benchmark。
2. NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations
- 论文链接:https://arxiv.org/pdf/2507.13155
- 数据集简介:一个专门针对英文 TTS 构建的开源语料库。其最大特点是提供了文本对齐(Text-Aligned)的非语言发声标注,并附带了情感标签。
- 数据集规模:约 17小时。
- 核心价值:解决了传统 TTS 训练中非语言声音(如笑声、哭腔)难以与输入文本精确对齐的问题,为基于 LLM 的可控情感语音合成提供了黄金标准数据。
3. NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations
- 数据集名称:Emilia-NV / NVSpeech170K
- 论文链接:https://arxiv.org/pdf/2508.04195
- 数据集简介:提出了一套集成且可扩展的流水线,用于在语音建模中融入副语言发声。基于此流水线,作者在开源的 Emilia 数据集基础上构建了 Emilia-NV 数据集。
- 数据集规模:约 573小时。
- 核心价值:Emilia-NV 提供了词级别(Word-Level)的非语言标注,这意味着模型可以精确学习到“在哪个词后面出现喘息或笑声”,是推动 TTS 走向极致拟人的重量级开源贡献。
4. SMIIP-NV: A Multi-Annotation Non-Verbal Expressive Speech Corpus in Mandarin for LLM-Based Speech Synthesis
- 论文链接:Duke Kunshan SMIIP Lab
- 数据集简介:由昆山杜克大学(DKU)SMIIP 实验室推出,专门针对中文(Mandarin)、面向大模型语音合成的多维度标注非语言表现力语料库。
- 数据集规模:约 33小时。
- 核心价值:中文开源界目前极度缺乏高质量的非语言数据集。该数据集通过多维度标注(可能包含情感维度、非语言类型、声学特征等),填补了中文 LLM-TTS 在叹息、笑声、迟疑等副语言特征训练上的空白。
5. MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech
- 论文链接:https://arxiv.org/pdf/2509.18196
- 数据集简介:一个高质量的“表演型(Performative)”中文非语言发声数据集。命名中的“17”大概率代表定义了 17种 细粒度的非语言发声类别。
- 数据集规模:约 7.5小时。
- 核心价值:侧重于非语言声音的识别(Recognition)。高质量的识别模型是构建自动化数据标注 Pipeline 的前提,该数据集为中文非语音事件检测提供了权威基准。
6. A Scalable Pipeline for Enabling Non-Verbal Speech Generation and Understanding
- 论文链接:https://arxiv.org/pdf/2508.05385
- 数据集名称:NonVerbalSpeech-38K
- 数据集规模:约 131小时。
- 核心价值:探讨了如何将非语言语音的生成与理解打通,提出了一套可扩展(Scalable)的数据处理流水线。这通常意味着利用现有的大型语音预训练模型(如 Whisper 的变体或音频大模型)进行伪标签标注(Pseudo-labeling),从而实现海量无监督数据的快速工程化利用。
7. SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding
- 论文链接:https://arxiv.org/pdf/2509.14946
- 数据集规模:约 119小时。
- 核心价值:提出了一种全新的思路——自动化合成(Automated Synthesis)副语言数据集。面对真实场景中非语言数据稀缺和标注成本高的问题,该工作尝试通过合成手段直接生成带有副语言标签的数据集,用于反哺语音生成和理解模型的训练。这是解决 Data Scarcity(数据稀缺)的一条极具潜力的捷径。
8. WESR: Scaling and Evaluating Word-level Event-Speech Recognition
- 论文链接:https://arxiv.org/pdf/2601.04508
- 数据集/模型简介:关注“词级别的事件-语音识别(Word-level Event-Speech Recognition)”。
- 数据集规模:约 1767小时。
- 核心价值:传统的 ASR 只转录文字,丢弃了非语言事件。WESR 旨在扩大这种兼顾文字和声音事件(Event)的识别系统规模并进行评估。这是实现前文提及的“可扩展数据流水线”的核心前置技术。
总结与趋势展望
通过对上述 8 篇论文及数据集的调研,可以清晰地看到当前智能语音领域的几个核心发展趋势:
- 粒度正在变细:从句子级别的情感控制,走向了词级别(Word-Level)和文本对齐(Text-Aligned)的非语言特征控制(如 NonverbalTTS, Emilia-NV)。
- 中文生态开始发力:长期以来,此类精细化标注数据集以英文居多,但 SMIIP-NV 和 MNV-17 的标志着中文开源社区正在补齐表现力 TTS 的数据短板。
- 从人工标注走向自动化 Pipeline:基于海量基础数据(如 Emilia),利用先进的识别模型(如 WESR, MNV-17)构建自动化流水线(NVSpeech Pipeline),甚至直接使用模型合成数据(SynParaSpeech),将是未来获取大规模高质量 TTS 训练数据的必然选择。
- 本文标题:专题分享 | 副语言语音数据集开源工作汇总
- 创建时间:2026-02-05
- 本文链接:2026/2026-01-22-nonverbal-data/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!