御青说

声码器 | WaveRNN：声码器的深度学习思路

Efficient Neural Audio Synthesis https://arxiv.org/abs/1802.08435 论文摘要序列模型对于数据分布的估计和高质量样本的生成任务，已经能够达到SOTA的水平，但是就采样的有效性来说仍然有待提高。本文针对TTS中的声码器，提出了一些降低采样的时间、同时保持高质量输出的通用方法。论文的模型的结构是简单的一层RN...
2022-03-22
- 论文笔记
- 语音合成
阅读全文
语音合成 | FastSpeech：基于 Transformer 的非自回归 TTS

论文标题：FastSpeech: Fast, Robust and Controllable Text to Speech论文链接：https://arxiv.org/abs/1905.09263发表会议：NIPS 2019核心贡献：提出基于Transformer的非自回归前馈网络，实现梅尔谱特征的并行化生成；设计音素时长预测模块与长度调节器，解决自回归TTS推理慢、鲁棒...
2022-03-10
- 论文笔记
- 语音合成
阅读全文
专题分享 | [slides] 基于 Lattice 的 ASR 重打分：从 WFST 到 Transformer
2021-07-01
- 技术分享
- 语音识别
阅读全文
语音表征 | CPC：基于对比预训练的语音表征

CPC: Representation Learning with Contrastive Predictive Coding https://arxiv.org/abs/1807.03748 参考资料： Code (PyTorch): https://github.com/jefflai108/Contrastive-Predictive-Coding-PyTor...
2021-03-16
- 论文笔记
- 语音识别
- | 语音表征
阅读全文
专题分享 | [slides] 级联（Hybrid）语音合成概述
2020-09-17
- 技术分享
- 语音识别
阅读全文
专题分享 | [slides] 语音识别技术分享(本科/硕士期间工作)
2020-07-20
- 技术分享
- 语音识别
阅读全文
专题分享 | [ICASSP-preprint] 基于 X-vector 的声学模型说话人自适应
2019-12-12
- 技术分享
- 语音识别
阅读全文
专题分享 | [OpenSAT Workshop] NIST OpenSAT 2019 THU-EE 系统报告
2019-06-06
- 技术分享
- 语音识别
阅读全文
专题分享 | [IALP-论文] 低资源语音识别的语言模型通用优化流程
2019-03-03
- 技术分享
- 语音识别
阅读全文