御青说

专题分享 | 开源语音数据库信息汇总

This is a curated list of open speech datasets for speech-related research (mainly for Automatic Speech Recognition). Over 110 speech datasets are collected, and more than 70 datasets can be downloaded directly without further registration or application.
2023-01-12
- 语音数据
- 语音数据
阅读全文
技术思考 | 2023 年开篇：智能语音指南

智能语音是当今科技发展的热门方向之一。随着人工智能技术的不断进步，智能语音技术日趋成熟，在各个领域的应用也在不断增多，目前已在语音搜索、智能家居、语音助理等多个领域得进行落地，并且随着元宇宙、AIGC 等新产业的兴起焕发出新的活力。RevoSpeech 旨在推动智能语音的落地和普及，基于学术界近十年在语音处理、语音识别、语音合成等方向的技术突破，总结归纳智能语音的技术要点...
2023-01-01
- 技术思考
- 语音识别
- | 语音合成
阅读全文
专题分享 | 基于 Adapter 的少样本 TTS 方案

Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation Google https://arxiv.org/pdf/2210.15868.pdf Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New Speak...
2022-12-22
- 技术分享
- 语音合成
阅读全文
语音合成 | RetrieverTTS：基于 Perceiver 架构的语音合成方案

RetrieverTTS: Modeling Decomposed Factors for Text-Based Speech Insertion https://arxiv.org/abs/2206.13865 论文摘要本文旨在研究基于文本的语音编辑任务，同时也可以作为整条文本语音合成的模型。RetrieverTTS 提出了一种「分解+编辑」的新范式，能够将语音中的...
2022-11-28
- 论文笔记
- 语音合成
- | 语音编辑
阅读全文
语音识别 | Squeezeformer：高效的语音识别方案

Squeezeformer: An Efficient Transformer for Automatic Speech Recognition https://arxiv.org/abs/2206.00888 参考代码：https://github.com/wenet-e2e/wenet/tree/main/wenet/squeezeformer 示例训练：http...
2022-11-16
- 论文笔记
- 语音识别
阅读全文
专题分享 | [slides] 零/少样本音色克隆（三）：其他方案
2022-11-13
- 技术分享
- 语音合成
阅读全文
声码器 | Avocodo：进一步缓解伪影问题

Avocodo: Generative Adversarial Network for Artifact-free Vocoder https://arxiv.org/abs/2206.13404 Avocodo 的提出是为了解决 GAN 声码器中常见的伪影 (artifact)，伪影 artifact 可以理解为语音合成时的瑕疵或失真。论文认为，对于听感更重要的语...
2022-10-16
- 论文笔记
- 语音合成
- | 声码器
- | 音频生成
阅读全文
声码器 | BigVGAN：大规模训练的通用声码器

BigVGAN: A Universal Neural Vocoder with Large-Scale Training https://arxiv.org/abs/2206.04658 之前现有的 GAN 声码器都是受限制在少量说话人+安静的录音环境下的音频合成，但是对于新的说话人/录音环境的音频，音频合成质量显著下降。所以目前声码器的挑战：在复杂多变的录音环境下...
2022-09-15
- 论文笔记
- 语音合成
- | 声码器
阅读全文
专题分享 | [slides] 零/少样本音色克隆（二）：常用方案综述
2022-09-15
- 技术分享
- 语音合成
阅读全文
声码器 | StyleMelGAN：声码器模型结构的升级

StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization https://arxiv.org/abs/2011.01557 基于 GAN 的声码器 (MelGAN 、 Parallel WaveGAN) 等轻量级模型，在合成质量上与真...
2022-07-21
- 论文笔记
- 语音合成
- | 声码器
阅读全文