御青说

语音合成 | Mega-TTS 2：基于任意长度 prompt 的零样本复刻

Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts https://arxiv.org/abs/2307.07218 论文介绍本文延续了 Mega-TTS 的思想，仍然是认为 TTS 认为需要利用上语音信号的先验信息（内容、音色、韵律、相位是不同的特性，分别设计模块来建...
2023-09-16
- 论文笔记
- 语音合成
- | TTS 大模型
阅读全文
语音合成 | Mega-TTS：引入先验偏置的 TTS 方案

Mega-TTS Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias https://arxiv.org/abs/2306.03509 论文介绍目前对于零样本 TTS 任务，扩充训练的数据量能够达到更强的音色和风格泛化性。近期涌现的方案主要是：将语音编码为离散化的 codec 表征，再基于...
2023-08-08
- 论文笔记
- 语音合成
- | TTS 大模型
阅读全文
语音合成 | [slides] Spear TTS：基于 LLM 的分阶段语音合成
2023-06-01
- 论文笔记
- 语音合成
- | TTS 大模型
阅读全文
音频生成 | AudioLM：基于语言模型的音频建模

音频生成（Audio Generation）是最近非常热门的方向，是AIGC的具体应用之一。相比于语音，音频包含的意义更广泛，不仅包含语音识别/语音合成所针对的人说话声，还包括音乐声、环境声、动物声等各种各样的声音。本文介绍 2022 年 9 月份 Google 提出的 AudioLM，将语言建模的思想应用在音频生成任务上，能够生成高质量的音频，并保持音频长时间范围的连...
2023-05-20
- 论文笔记
- 语音合成
- | 音频生成
阅读全文
专题分享 | GAN 系列之三：最小二乘 GAN

Least Squares Generative Adversarial Networks ICCV 2017 pdf 本文实际上是对原始 GAN 论文的改进，主要从 GAN 的损失函数角度进行了改进，将 GAN 的判别器的损失函数从 sigmoid 交叉熵，修改为了回归模型使用最小平方误差。改进虽小，但是效果很好，后续 TTS 领域基于 GAN 的声码器，不少都是在...
2023-03-23
- 技术分享
- 语音合成
- | 声码器
- | 生成模型
阅读全文
专题分享 | GAN 系列之二：GAN 的改进

Improved Techniques for Training GANs NeurIPS 2016 pdf 在 GAN 的工作的基础上，本论文提出了 GAN 训练不稳定且难收敛的问题。训练 GAN 的过程相当于是寻找非凸博弈中的纳什均衡点；但 GAN 的训练方法一般是梯度下降，求解使得代价函数最小的模型参数，而不是直接寻找纳什均衡点，所以可能会存在模型不收敛的现象。...
2023-03-21
- 技术分享
- 语音合成
- | 声码器
- | 生成模型
阅读全文
专题分享 | GAN 系列之一：GAN 的基础

生成对抗网络（GAN，Generative Adversarial Nets）是 Yoshua Bengio 团队在 2014 年提出的，一作是 Ian Goodfellow。Yoshua Bengio 团队坚持认为：深度学习的目标是发现更丰富、更加层次化的模型，能够用来表示各种数据的概率分布。2014 年时，深度学习方法在判别式模型方面已经有很多突出的成果，用于将高维输...
2023-03-12
- 技术分享
- 语音合成
- | 声码器
- | 生成模型
阅读全文
音频编解码 | Encodec：用于语音生成的低帧率编解码

Encodec 是 Meta AI 于 2022 年 10 月份发表的神经网络音频编解码方法，具有比之前 Google 的 SoundStream 更优的效果。思想上和 SoundStream 几乎没有差别，沿用了 Encoder-Decoder 结构和 VQ 向量量化方法。本文对 Encodec 与 SoundStream 一致的部分不予赘述，只分析相关的改进部分
2023-02-23
- 论文笔记
- 语音合成
- | 语音 tokenizer
阅读全文
音频编解码 | SoundStream：神经网络音频编解码器

SoundStream 是谷歌 2021 年提出的一种神经网络音频编解码器，能够在传统编解码器通常使用的比特率下，高效地压缩语音、音乐等各类音频，SoundStream 在音频压缩、音频降噪及音频生成（比如 Google 2022 年 9 月提出的 AudioLM 和 2023 年 1 月提出的 MusicLM）等任务中都有所应用。本文对 SoundStream 的原始论文进行分析和解读。
2023-01-28
- 论文笔记
- 语音合成
- | 语音 tokenizer
阅读全文
专题分享 | [slides] 通过文本编辑语音：基于mask的生成式模型
2023-01-12
- 技术分享
- 语音合成
- | 语音编辑
阅读全文