御青说
  • 首页
  • 博客
  • 技术分享
  • 论文追踪
  • 项目
  • 标签
  • 关于
  • 首页
  • 博客
  • 技术分享
  • 论文追踪
  • 项目
  • 标签
  • 关于
语音合成 (52) TTS 大模型 (15) 语音识别 (11) 声码器 (11) 语音 tokenizer (9) 语音对话 (7) 语音数据 (4) 生成模型 (4) 连续表征 (4) 音频生成 (2) 语音编辑 (2) 强化学习 (2) 语音表征 (1) 全双工 (1) Visual Tokenizer (1)

热门标签动态

语音合成 52篇

  • 专题分享 | 截止 2026-Q1 业界主流 TTS 模型架构调研 2026-04-18
  • 语音合成 | OmniVoice:基于离散 Diffusion LLM 的 TTS 2026-04-03
  • 专题分享 | [slides] LongCat-AudioDiT 基于 Wav-VAE 的高保真语音合成 2026-03-29

TTS 大模型 15篇

  • 专题分享 | 截止 2026-Q1 业界主流 TTS 模型架构调研 2026-04-18
  • 专题分享 | [slides] LongCat-AudioDiT 基于 Wav-VAE 的高保真语音合成 2026-03-29
  • 专题分享 | [slides] 基于 ARDM(自回归扩散模型)的语音合成 2025-11-03

语音识别 11篇

  • 社区交流 | 语音模型从设计到使用-通义百聆新年交流会 2026-02-05
  • 技术思考 | 端到端语音交互在教育场景落地的思考 2026-01-15
  • 技术思考 | 2023 年开篇:智能语音指南 2023-01-01

声码器 11篇

  • 专题分享 | GAN 系列之三:最小二乘 GAN 2023-03-23
  • 专题分享 | GAN 系列之二:GAN 的改进 2023-03-21
  • 专题分享 | GAN 系列之一:GAN 的基础 2023-03-12

语音 tokenizer 9篇

  • 语音合成 | Qwen3-TTS:当 TTS 重新回到 LLM+RVQ 2026-03-10
  • 语音合成 | MOSS-Audio-Tokenizer:大数据驱动的通用音频 Tokenizer 2026-02-28
  • 语音合成 | 智谱 AI:GLM-TTS 语音合成模型的设计解析 2026-01-05

语音对话 7篇

  • 语音对话 | MiniCPM-o 4.5 全双工全模态大模型-深度思考(Part II) 2026-02-10
  • 语音对话 | MiniCPM-o 4.5 全双工全模态大模型-技术分享(Part I) 2026-02-08
  • 社区交流 | 语音模型从设计到使用-通义百聆新年交流会 2026-02-05
© 2019 - 2026    白御青
总字数 178.4k 总访问量 
Exploring the Frontiers of Speech Intelligence
Hexo / Keep