专题分享 | 副语言语音数据集开源工作汇总

当前大语言模型（LLM）驱动的语音合成（TTS）领域，如何让机器说话带有“人味儿”（如呼吸、笑声、叹气、迟疑等非语言发声），已经成为走向极致拟人化的核心壁垒。本文梳理了近期该方向最具代表性的 8 篇论文及数据集。

前言

大模型时代的语音合成已经突破了基础的“清晰度”和“自然度”，目前的重要挑战是表现力（Expressiveness）与副语言特征（Paralinguistics/Non-Verbal）的还原。从最近的学术趋势来看，行业正在经历从“纯文本驱动”向“包含非语言标签（如[laugh], [sigh], [breath]）的多模态驱动”转变。

以下是近期关于非语言语音生成、理解以及相关数据集构建的前沿工作梳理。

数据集	语言	类别数	时长(h)	数据来源	标注方式	核心特点
EXPRESSO	英	多种风格	11	专业录制	人工录制	表现力重合成基准，涵盖低声/笑声/讽刺等风格
NonverbalTTS	英	10	17	VoxCeleb, Expresso	Pipeline	文本对齐的非语言标注 + 情感标签
NVSpeech / Emilia-NV	中英	18	573	miHoYo, Emilia	模型标注	词级别非语言标注，可扩展 Pipeline
SMIIP-NV (DKU)	中	3	33	录音室采集	人工多维度	中文多维度副语言标注，填补中文空白
MNV-17	中	17	7.5	录音室采集	人工录制	17 类细粒度非语言识别基准
NonVerbalSpeech-38K	中英	10	131	网络	Pipeline	生成与理解打通的可扩展流水线
SynParaSpeech	中	6	119	模型合成	自动合成	合成手段生成副语言数据，解决数据稀缺
WESR-Train	中英	21	1,767	网络	Gemini	大规模词级别事件-语音识别训练集
WESR-Bench	中英	21	3	网络	人工	词级别事件-语音识别评估基准

表注：类别数 = 非语言事件/风格类别数；时长 = 数据集总时长（小时）；标注方式中”Pipeline”指基于模型的自动化流水线标注，”人工录制”指标注源于录制过程本身。

数据集详情

1. EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis

论文链接：https://arxiv.org/pdf/2308.05725
开源地址：HuggingFace (Expresso)
数据集简介：由 Meta AI 提出，专注于离散化表达性语音重合成的基准测试集。数据集包含了由专业配音演员录制的高质量语音，涵盖了不同情绪、语调以及自发性语音（Spontaneous Speech）。
数据集规模：约 11小时。
核心价值：引入了“表现力风格”（如低声、笑声、讽刺等）的精准控制分析，评估了离散声学Token在保留非语言表现力方面的能力，是研究情绪和风格迁移的经典Benchmark。

2. NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations

论文链接：https://arxiv.org/pdf/2507.13155
数据集简介：一个专门针对英文 TTS 构建的开源语料库。其最大特点是提供了文本对齐（Text-Aligned）的非语言发声标注，并附带了情感标签。
数据集规模：约 17小时。
核心价值：解决了传统 TTS 训练中非语言声音（如笑声、哭腔）难以与输入文本精确对齐的问题，为基于 LLM 的可控情感语音合成提供了黄金标准数据。

3. NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

数据集名称：Emilia-NV / NVSpeech170K
论文链接：https://arxiv.org/pdf/2508.04195
数据集简介：提出了一套集成且可扩展的流水线，用于在语音建模中融入副语言发声。基于此流水线，作者在开源的 Emilia 数据集基础上构建了 Emilia-NV 数据集。
数据集规模：约 573小时。
核心价值：Emilia-NV 提供了词级别（Word-Level）的非语言标注，这意味着模型可以精确学习到“在哪个词后面出现喘息或笑声”，是推动 TTS 走向极致拟人的重量级开源贡献。

4. SMIIP-NV: A Multi-Annotation Non-Verbal Expressive Speech Corpus in Mandarin for LLM-Based Speech Synthesis

论文链接：Duke Kunshan SMIIP Lab
数据集简介：由昆山杜克大学（DKU）SMIIP 实验室推出，专门针对中文（Mandarin）、面向大模型语音合成的多维度标注非语言表现力语料库。
数据集规模：约 33小时。
核心价值：中文开源界目前极度缺乏高质量的非语言数据集。该数据集通过多维度标注（可能包含情感维度、非语言类型、声学特征等），填补了中文 LLM-TTS 在叹息、笑声、迟疑等副语言特征训练上的空白。

5. MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech

论文链接：https://arxiv.org/pdf/2509.18196
数据集简介：一个高质量的“表演型（Performative）”中文非语言发声数据集。命名中的“17”大概率代表定义了 17种 细粒度的非语言发声类别。
数据集规模：约 7.5小时。
核心价值：侧重于非语言声音的识别（Recognition）。高质量的识别模型是构建自动化数据标注 Pipeline 的前提，该数据集为中文非语音事件检测提供了权威基准。

6. A Scalable Pipeline for Enabling Non-Verbal Speech Generation and Understanding

论文链接：https://arxiv.org/pdf/2508.05385
数据集名称：NonVerbalSpeech-38K
数据集规模：约 131小时。
核心价值：探讨了如何将非语言语音的生成与理解打通，提出了一套可扩展（Scalable）的数据处理流水线。这通常意味着利用现有的大型语音预训练模型（如 Whisper 的变体或音频大模型）进行伪标签标注（Pseudo-labeling），从而实现海量无监督数据的快速工程化利用。

7. SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

论文链接：https://arxiv.org/pdf/2509.14946
数据集规模：约 119小时。
核心价值：提出了一种全新的思路——自动化合成（Automated Synthesis）副语言数据集。面对真实场景中非语言数据稀缺和标注成本高的问题，该工作尝试通过合成手段直接生成带有副语言标签的数据集，用于反哺语音生成和理解模型的训练。这是解决 Data Scarcity（数据稀缺）的一条极具潜力的捷径。

8. WESR: Scaling and Evaluating Word-level Event-Speech Recognition

论文链接：https://arxiv.org/pdf/2601.04508
数据集/模型简介：关注“词级别的事件-语音识别（Word-level Event-Speech Recognition）”。
数据集规模：约 1767小时。
核心价值：传统的 ASR 只转录文字，丢弃了非语言事件。WESR 旨在扩大这种兼顾文字和声音事件（Event）的识别系统规模并进行评估。这是实现前文提及的“可扩展数据流水线”的核心前置技术。

总结与趋势展望

通过对上述 8 篇论文及数据集的调研，可以清晰地看到当前智能语音领域的几个核心发展趋势：

粒度正在变细：从句子级别的情感控制，走向了词级别（Word-Level）和文本对齐（Text-Aligned）的非语言特征控制（如 NonverbalTTS, Emilia-NV）。
中文生态开始发力：长期以来，此类精细化标注数据集以英文居多，但 SMIIP-NV 和 MNV-17 的标志着中文开源社区正在补齐表现力 TTS 的数据短板。
从人工标注走向自动化 Pipeline：基于海量基础数据（如 Emilia），利用先进的识别模型（如 WESR, MNV-17）构建自动化流水线（NVSpeech Pipeline），甚至直接使用模型合成数据（SynParaSpeech），将是未来获取大规模高质量 TTS 训练数据的必然选择。