专题分享 | 副语言语音数据集开源工作汇总
白御青 Lv5

当前大语言模型(LLM)驱动的语音合成(TTS)领域,如何让机器说话带有“人味儿”(如呼吸、笑声、叹气、迟疑等非语言发声),已经成为走向极致拟人化的核心壁垒。本文梳理了近期该方向最具代表性的 8 篇论文及数据集。

前言

大模型时代的语音合成已经突破了基础的“清晰度”和“自然度”,目前的重要挑战是表现力(Expressiveness)副语言特征(Paralinguistics/Non-Verbal)的还原。从最近的学术趋势来看,行业正在经历从“纯文本驱动”向“包含非语言标签(如[laugh], [sigh], [breath])的多模态驱动”转变。

以下是近期关于非语言语音生成、理解以及相关数据集构建的前沿工作梳理。

数据集 语言 类别数 时长(h) 数据来源 标注方式 核心特点
EXPRESSO 多种风格 11 专业录制 人工录制 表现力重合成基准,涵盖低声/笑声/讽刺等风格
NonverbalTTS 10 17 VoxCeleb, Expresso Pipeline 文本对齐的非语言标注 + 情感标签
NVSpeech / Emilia-NV 中英 18 573 miHoYo, Emilia 模型标注 词级别非语言标注,可扩展 Pipeline
SMIIP-NV (DKU) 3 33 录音室采集 人工多维度 中文多维度副语言标注,填补中文空白
MNV-17 17 7.5 录音室采集 人工录制 17 类细粒度非语言识别基准
NonVerbalSpeech-38K 中英 10 131 网络 Pipeline 生成与理解打通的可扩展流水线
SynParaSpeech 6 119 模型合成 自动合成 合成手段生成副语言数据,解决数据稀缺
WESR-Train 中英 21 1,767 网络 Gemini 大规模词级别事件-语音识别训练集
WESR-Bench 中英 21 3 网络 人工 词级别事件-语音识别评估基准

表注:类别数 = 非语言事件/风格类别数;时长 = 数据集总时长(小时);标注方式中”Pipeline”指基于模型的自动化流水线标注,”人工录制”指标注源于录制过程本身。

数据集详情

1. EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis

  • 论文链接https://arxiv.org/pdf/2308.05725
  • 开源地址HuggingFace (Expresso)
  • 数据集简介:由 Meta AI 提出,专注于离散化表达性语音重合成的基准测试集。数据集包含了由专业配音演员录制的高质量语音,涵盖了不同情绪、语调以及自发性语音(Spontaneous Speech)。
  • 数据集规模:约 11小时
  • 核心价值:引入了“表现力风格”(如低声、笑声、讽刺等)的精准控制分析,评估了离散声学Token在保留非语言表现力方面的能力,是研究情绪和风格迁移的经典Benchmark。

2. NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations

  • 论文链接https://arxiv.org/pdf/2507.13155
  • 数据集简介:一个专门针对英文 TTS 构建的开源语料库。其最大特点是提供了文本对齐(Text-Aligned)的非语言发声标注,并附带了情感标签。
  • 数据集规模:约 17小时
  • 核心价值:解决了传统 TTS 训练中非语言声音(如笑声、哭腔)难以与输入文本精确对齐的问题,为基于 LLM 的可控情感语音合成提供了黄金标准数据。

3. NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

  • 数据集名称Emilia-NV / NVSpeech170K
  • 论文链接https://arxiv.org/pdf/2508.04195
  • 数据集简介:提出了一套集成且可扩展的流水线,用于在语音建模中融入副语言发声。基于此流水线,作者在开源的 Emilia 数据集基础上构建了 Emilia-NV 数据集。
  • 数据集规模:约 573小时
  • 核心价值:Emilia-NV 提供了词级别(Word-Level)的非语言标注,这意味着模型可以精确学习到“在哪个词后面出现喘息或笑声”,是推动 TTS 走向极致拟人的重量级开源贡献。

4. SMIIP-NV: A Multi-Annotation Non-Verbal Expressive Speech Corpus in Mandarin for LLM-Based Speech Synthesis

  • 论文链接Duke Kunshan SMIIP Lab
  • 数据集简介:由昆山杜克大学(DKU)SMIIP 实验室推出,专门针对中文(Mandarin)、面向大模型语音合成的多维度标注非语言表现力语料库。
  • 数据集规模:约 33小时
  • 核心价值:中文开源界目前极度缺乏高质量的非语言数据集。该数据集通过多维度标注(可能包含情感维度、非语言类型、声学特征等),填补了中文 LLM-TTS 在叹息、笑声、迟疑等副语言特征训练上的空白。

5. MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech

  • 论文链接https://arxiv.org/pdf/2509.18196
  • 数据集简介:一个高质量的“表演型(Performative)”中文非语言发声数据集。命名中的“17”大概率代表定义了 17种 细粒度的非语言发声类别。
  • 数据集规模:约 7.5小时
  • 核心价值:侧重于非语言声音的识别(Recognition)。高质量的识别模型是构建自动化数据标注 Pipeline 的前提,该数据集为中文非语音事件检测提供了权威基准。

6. A Scalable Pipeline for Enabling Non-Verbal Speech Generation and Understanding

  • 论文链接https://arxiv.org/pdf/2508.05385
  • 数据集名称:NonVerbalSpeech-38K
  • 数据集规模:约 131小时
  • 核心价值:探讨了如何将非语言语音的生成与理解打通,提出了一套可扩展(Scalable)的数据处理流水线。这通常意味着利用现有的大型语音预训练模型(如 Whisper 的变体或音频大模型)进行伪标签标注(Pseudo-labeling),从而实现海量无监督数据的快速工程化利用。

7. SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

  • 论文链接https://arxiv.org/pdf/2509.14946
  • 数据集规模:约 119小时
  • 核心价值:提出了一种全新的思路——自动化合成(Automated Synthesis)副语言数据集。面对真实场景中非语言数据稀缺和标注成本高的问题,该工作尝试通过合成手段直接生成带有副语言标签的数据集,用于反哺语音生成和理解模型的训练。这是解决 Data Scarcity(数据稀缺)的一条极具潜力的捷径。

8. WESR: Scaling and Evaluating Word-level Event-Speech Recognition

  • 论文链接https://arxiv.org/pdf/2601.04508
  • 数据集/模型简介:关注“词级别的事件-语音识别(Word-level Event-Speech Recognition)”。
  • 数据集规模:约 1767小时
  • 核心价值:传统的 ASR 只转录文字,丢弃了非语言事件。WESR 旨在扩大这种兼顾文字和声音事件(Event)的识别系统规模并进行评估。这是实现前文提及的“可扩展数据流水线”的核心前置技术。

总结与趋势展望

通过对上述 8 篇论文及数据集的调研,可以清晰地看到当前智能语音领域的几个核心发展趋势:

  1. 粒度正在变细:从句子级别的情感控制,走向了词级别(Word-Level)文本对齐(Text-Aligned)的非语言特征控制(如 NonverbalTTS, Emilia-NV)。
  2. 中文生态开始发力:长期以来,此类精细化标注数据集以英文居多,但 SMIIP-NVMNV-17 的标志着中文开源社区正在补齐表现力 TTS 的数据短板。
  3. 从人工标注走向自动化 Pipeline:基于海量基础数据(如 Emilia),利用先进的识别模型(如 WESR, MNV-17)构建自动化流水线(NVSpeech Pipeline),甚至直接使用模型合成数据(SynParaSpeech),将是未来获取大规模高质量 TTS 训练数据的必然选择。