知更鸟的博客
  • 首页
  • 归档
  • 报告
  • 标签
  • 论文
  • 关于
  • 首页
  • 归档
  • 报告
  • 标签
  • 论文
  • 关于
  • 语音合成 | [slides] MobileSpeech:高效的可用于移动端的 TTS 模型

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
  • 专题分享 | [slides] 基于 LLM 的音频生成方案(二)

      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 专题分享 | [slides] 基于 LLM 的音频生成方案(一)

      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 语音合成 | Mega-TTS 2:基于任意长度 prompt 的零样本复刻

    Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts https://arxiv.org/abs/2307.07218 论文介绍本文延续了 Mega-TTS 的思想,仍然是认为 TTS 认为需要利用上语音信号的先验信息(内容、音色、韵律、相位是不同的特性,分别设计模块来建模)...
      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | TTS 大模型 
    阅读全文 
  • 语音合成 | Mega-TTS:引入先验偏置的 TTS 方案

    Mega-TTS Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias https://arxiv.org/abs/2306.03509 论文介绍目前对于零样本 TTS 任务,扩充训练的数据量能够达到更强的音色和风格泛化性。近期涌现的方案主要是:将语音编码为离散化的 codec 表征,再基于自回...
      2026-02-07  
    • 论文笔记 
     
    • 音频生成 
    • | 语音合成 
    阅读全文 
  • 语音合成 | [slides] Spear TTS:基于 LLM 的分阶段语音合成

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
  • 音频生成 | AudioLM:基于语言模型的音频建模

    音频生成(Audio Generation)是最近非常热门的方向,是AIGC的具体应用之一。相比于语音,音频包含的意义更广泛,不仅包含语音识别/语音合成所针对的人说话声,还包括音乐声、环境声、动物声等各种各样的声音。 本文介绍 2022 年 9 月份 Google 提出的 AudioLM,将语言建模的思想应用在音频生成任务上,能够生成高质量的音频,并保持音频长时间范围的连...
      2026-02-07  
    • 论文笔记 
     
    • 音频生成 
    • | 语音合成 
    阅读全文 
  • 专题分享 | GAN 系列之三:最小二乘 GAN

    Least Squares Generative Adversarial Networks ICCV 2017 pdf 本文实际上是对原始 GAN 论文的改进,主要从 GAN 的损失函数角度进行了改进,将 GAN 的判别器的损失函数从 sigmoid 交叉熵,修改为了回归模型使用最小平方误差。改进虽小,但是效果很好,后续 TTS 领域基于 GAN 的声码器,不少都是在...
      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    • | 声码器 
    • | 生成模型 
    阅读全文 
  • 专题分享 | GAN 系列之二:GAN 的改进

    Improved Techniques for Training GANs NeurIPS 2016 pdf 在 GAN 的工作的基础上,本论文提出了 GAN 训练不稳定且难收敛的问题。训练 GAN 的过程相当于是寻找非凸博弈中的纳什均衡点;但 GAN 的训练方法一般是梯度下降,求解使得代价函数最小的模型参数,而不是直接寻找纳什均衡点,所以可能会存在模型不收敛的现象。...
      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    • | 声码器 
    • | 生成模型 
    阅读全文 
  • 专题分享 | GAN 系列之一:GAN 的基础

    生成对抗网络(GAN,Generative Adversarial Nets)是 Yoshua Bengio 团队在 2014 年提出的,一作是 Ian Goodfellow。Yoshua Bengio 团队坚持认为:深度学习的目标是发现更丰富、更加层次化的模型,能够用来表示各种数据的概率分布。2014 年时,深度学习方法在判别式模型方面已经有很多突出的成果,用于将高维输...
      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    • | 声码器 
    • | 生成模型 
    阅读全文 
上一页 下一页
© 2020 - 2026    知更鸟
总字数 70.5k
由 Hexo 驱动 | 主题 Keep v3.6.1