博学而笃志,切问而近思
Think Closely & Resolve Firmly
御青说
  • 首页
  • 博客
  • 技术分享
  • 论文追踪
  • 项目
  • 标签
  • 关于
  • 首页
  • 博客
  • 技术分享
  • 论文追踪
  • 项目
  • 标签
  • 关于
  • 专题分享 | 截止 2026-Q1 业界主流 TTS 模型架构调研

    本报告对当前主流 TTS 大模型的技术方案进行系统化分类、架构解析和横向对比,覆盖从离散 token 到连续表征、从自回归到非自回归的主要技术路线。 一、技术方案总览与分类框架1.1 分类维度TTS 大模型的核心技术差异体现在以下四个维度: # 维度 可选项 1 生成范式 自回归(AR)/ 非自回归(NAR)/ 混合(AR+NAR) 2 语音表征 离散...
      2026-04-18  
    • 技术分享 
     
    • 语音合成 
    • | TTS 大模型 
    阅读全文 
  • 专题分享 | [slides] VTP:图像生成 Visual Tokenizer 可扩展预训练

      2026-04-11  
    • 技术分享 
     
    • 连续表征 
    • | Visual Tokenizer 
    阅读全文 
  • 语音合成 | OmniVoice:基于离散 Diffusion LLM 的 TTS

    最近几年的 TTS 模型,多数还依赖类似 text→semantic & semantic→acoustic/mel 的级联方案,存在模块繁多、误差累积的问题。小米 Daniel Povey 团队最新提出的 OmniVoice,基于 扩散语言模型(Diffusion Language Model) 这类单阶段离散 NAR 架构,重新将离散 Diffusion 拉...
      2026-04-03  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
  • 专题分享 | [slides] LongCat-AudioDiT 基于 Wav-VAE 的高保真语音合成

      2026-03-29  
    • 技术分享 
     
    • 语音合成 
    • | TTS 大模型 
    • | 连续表征 
    阅读全文 
  • 语音合成 | Qwen3-TTS:当 TTS 重新回到 LLM+RVQ

    TTS 范式变化与 LLM+RVQ 的回归 摘要:Qwen3‑TTS 用更强的低帧率多码本 Tokenizer + 纯自回归 Dual-AR LLM,把 TTS 从 “LLM+DiT 级联” 拉回 “大道至简” 的 LLM+RVQ 历史路线,实现 97ms 超低延迟、3 秒零样本克隆、10 语言跨语言合成与指令可控音色,与 MOSS-TTS/FishAudio S2 同期...
      2026-03-10  
    • 论文笔记 
     
    • 语音合成 
    • | 语音 tokenizer 
    阅读全文 
  • 语音合成 | MOSS-Audio-Tokenizer:大数据驱动的通用音频 Tokenizer

    MOSS-Audio-Tokenizer 提出了 CAT(Causal Audio Tokenizer with Transformer),一款参数量达 1.6B 的 MOSS‑Audio‑Tokenizer。基于纯 Transformer 架构,在 300 万小时多类型音频数据上完成预训练,可对语音(Speech)、音效(Sound)、音乐(Music)实现高保真重建,...
      2026-02-28  
    • 论文笔记 
     
    • 语音合成 
    • | 语音 tokenizer 
    阅读全文 
  • 专题分享 | UltraTTSData:语音合成数据分层管理体系 (II)

    参考清华大学与面壁智能提出的 UltraData(详见解读)——文本 LLM 数据分层管理体系,类比到 TTS 语音合成场景下,可以作为语音合成的「训练数据管理」指南。基于分层数据管理思想,构建 T0-T4 共五层级体系,主要出发点: 数据与模型协同进化 质量梯度分层 适配不同训练阶段 注重成本与收益平衡为区别于 UltraData( 中采用的 L0-L4 层级体系,本...
      2026-02-15  
    • 社区交流 
     
    • 语音数据 
    阅读全文 
  • 专题分享 | UltraData:大模型时代数据分层管理体系 (I)

    论文信息:Data Science and Technology Towards AGI Part I: Tiered Data Management,清华大学 & 面壁智能 大模型时代,自从数据和模型参数的 Scaling Law 验证了有效性,关于数据始终有一个问题无法回避:训练数据,到底应该怎么管理? 从 GPT-4 到 DeepSeek 到各类 LL...
      2026-02-13  
    • 社区交流 
     
    • 语音数据 
    阅读全文 
  • 语音对话 | MiniCPM-o 4.5 全双工全模态大模型-深度思考(Part II)

    MiniCPM-o 4.5 所面临的四大研发挑战,并非孤立的技术问题,而是端侧全双工全模态模型这一全新技术方向的底层共性难题—— 其本质是以下四类问题的集中体现: 「多模态融合的参数效率矛盾」 「全新技术范式的工程化空白」 「实时性与连贯性的技术权衡」 「端侧硬件的资源约束适配」 对应的解决思路,既贴合大模型研发的通用规律,又针对「全双工 + 全模态 + 端侧」的...
      2026-02-10  
    • 社区交流 
     
    • 语音对话 
    阅读全文 
  • 语音对话 | MiniCPM-o 4.5 全双工全模态大模型-技术分享(Part I)

    分享题目:面壁小钢炮:MiniCPM-o 4.5(9B) 首个全双工全模态大模型 + 边看边听主动说分享者:姚远博士(面壁智能多模态首席科学家、清华大学助理教授)官方信息:- github: https://github.com/OpenBMB/MiniCPM-o- 模型代码:https://huggingface.co/openbmb/MiniCPM-o-4_5/bl...
      2026-02-08  
    • 社区交流 
     
    • 语音对话 
    阅读全文 
下一页
© 2019 - 2026    白御青
总字数 178.4k 总访问量 
Exploring the Frontiers of Speech Intelligence
Hexo / Keep