知更鸟的博客
  • 首页
  • 归档
  • 报告
  • 标签
  • 论文
  • 关于
  • 首页
  • 归档
  • 报告
  • 标签
  • 论文
  • 关于
  • 音频编解码 | Encodec:用于语音生成的低帧率编解码

    Encodec 是 Meta AI 于 2022 年 10 月份发表的神经网络音频编解码方法,具有比之前 Google 的 SoundStream 更优的效果。思想上和 SoundStream 几乎没有差别,沿用了 Encoder-Decoder 结构和 VQ 向量量化方法。本文对 Encodec 与 SoundStream 一致的部分不予赘述,只分析相关的改进部分。SoundStream 的论文解读详见链接。

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 语音 tokenizer 
    阅读全文 
  • 音频编解码 | SoundStream:神经网络音频编解码器

    SoundStream 是谷歌 2021 年提出的一种神经网络音频编解码器,能够在传统编解码器通常使用的比特率下,高效地压缩语音、音乐等各类音频,SoundStream 在音频压缩、音频降噪及音频生成(比如 Google 2022 年 9 月提出的 AudioLM 和 2023 年 1 月提出的 MusicLM)等任务中都有所应用。本文对 SoundStream 的原始论文进行分析和解读。

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 语音 tokenizer 
    阅读全文 
  • 专题分享 | 开源语音数据库汇总

    This is a curated list of open speech datasets for speech-related research (mainly for Automatic Speech Recognition). Over 110 speech datasets are collected, and more than 70 datasets can be downloaded directly without further registration or application.

      2026-02-07  
    • 语音数据 
     
    • 语音数据 
    阅读全文 
  • 专题分享 | [slides] 基于文本的语音编辑方案

      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    • | 语音编辑 
    阅读全文 
  • 技术思考 | 2023 年开篇:智能语音指南

    智能语音是当今科技发展的热门方向之一。随着人工智能技术的不断进步,智能语音技术日趋成熟,在各个领域的应用也在不断增多,目前已在语音搜索、智能家居、语音助理等多个领域得进行落地,并且随着元宇宙、AIGC 等新产业的兴起焕发出新的活力。RevoSpeech 旨在推动智能语音的落地和普及,基于学术界近十年在语音处理、语音识别、语音合成等方向的技术突破,总结归纳智能语音的技术要点...
      2026-02-07  
    • 技术思考 
     
    • 语音识别 
    • | 语音合成 
    阅读全文 
  • 专题分享 | 基于 Adapter 的少样本 TTS 方案

    Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation Google https://arxiv.org/pdf/2210.15868.pdf Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New Speak...
      2026-02-07  
    • 技术分享 
     
    • 音频生成 
    • | 语音合成 
    阅读全文 
  • 语音合成 | RetrieverTTS:基于 Perceiver 架构的语音合成方案

    RetrieverTTS: Modeling Decomposed Factors for Text-Based Speech Insertion https://arxiv.org/abs/2206.13865 论文摘要本文旨在研究基于文本的语音编辑任务,同时也可以作为整条文本语音合成的模型。RetrieverTTS 提出了一种「分解+编辑」的新范式,能够将语音中的...
      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 语音编辑 
    阅读全文 
  • 语音识别 | Squeezeformer:高效的语音识别方案

    Squeezeformer: An Efficient Transformer for Automatic Speech Recognition https://arxiv.org/abs/2206.00888 参考代码:https://github.com/wenet-e2e/wenet/tree/main/wenet/squeezeformer 示例训练:http...
      2026-02-07  
    • 论文笔记 
     
    • 语音识别 
    阅读全文 
  • 专题分享 | [slides] 零/少样本音色克隆(三):其他方案

      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 声码器 | Avocodo:进一步缓解伪影问题

    Avocodo: Generative Adversarial Network for Artifact-free Vocoder https://arxiv.org/abs/2206.13404 Avocodo 的提出是为了解决 GAN 声码器中常见的伪影 (artifact),伪影 artifact 可以理解为语音合成时的瑕疵或失真。 论文认为,对于听感更重要的语...
      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 声码器 
    • | 音乐生成 
    阅读全文 
上一页 下一页
© 2020 - 2026    知更鸟
总字数 70.5k
由 Hexo 驱动 | 主题 Keep v3.6.1