-
声码器 | WaveRNN:声码器的深度学习思路
Efficient Neural Audio Synthesis https://arxiv.org/abs/1802.08435 论文摘要序列模型对于数据分布的估计和高质量样本的生成任务,已经能够达到SOTA的水平,但是就采样 的有效性来说仍然有待提高。本文针对TTS中的声码器,提出了一些降低采样的时间、同时保持高质量输出的通用方法。论文的模型的结构是简单的一层RN... -
语音合成 | FastSpeech:基于 Transformer 的非自回归 TTS
论文标题:FastSpeech: Fast, Robust and Controllable Text to Speech论文链接:https://arxiv.org/abs/1905.09263发表会议:NIPS 2019核心贡献:提出基于Transformer的非自回归前馈网络,实现梅尔谱特征的并行化生成;设计音素时长预测模块与长度调节器,解决自回归TTS推理慢、鲁棒... -
专题分享 | [slides] 基于 Lattice 的 ASR 重打分:从 WFST 到 Transformer
-
语音表征 | CPC:基于对比预训练的语音表征
CPC: Representation Learning with Contrastive Predictive Coding https://arxiv.org/abs/1807.03748 参考资料: Code (PyTorch): https://github.com/jefflai108/Contrastive-Predictive-Coding-PyTor... -
专题分享 | [slides] 级联(Hybrid)语音合成概述
-
专题分享 | [slides] 语音识别技术分享(本科/硕士期间工作)
-
专题分享 | [ICASSP-preprint] 基于 X-vector 的声学模型说话人自适应
-
专题分享 | [OpenSAT Workshop] NIST OpenSAT 2019 THU-EE 系统报告
-
专题分享 | [IALP-论文] 低资源语音识别的语言模型通用优化流程