御青说
  • 首页
  • 博客
  • 技术分享
  • 论文追踪
  • 项目
  • 标签
  • 关于
  • 首页
  • 博客
  • 技术分享
  • 论文追踪
  • 项目
  • 标签
  • 关于
  • 专题分享 | 2025年10月,一文梳理国内外八大厂商 TTS 能力

    今天(2025年10月16日),字节跳动发布了新版的豆包2.0语音合成能力,引发广泛讨论,效果确实惊艳。 火山引擎发布新版语音合成系列模型:豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0),两款模型展现出更强的情感表现力、更精准的指令遵循能力,还能准确朗读复杂公式,还拓展了上下文推理和自然...
      2025-10-22  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 专题分享 | 语音生成的新范式?连续表征的「自回归 × 扩散」建模

    TL;DR 太长不看版语音合成目前主流的路线是「离散语音 tokenizer + LLM」,典型代表有 VALL-E、Tortoise-TTS、Seed-TTS、CosyVoice、Minimax-Speech、Index-TTS、FireRed-TTS 等。但近一年兴起了一股新的技术趋势:直接在 连续表征(continuous token) 空间建模,结合自回归 + 扩...
      2025-09-20  
    • 技术分享 
     
    • 语音合成 
    • | TTS 大模型 
    • | 连续表征 
    阅读全文 
  • 专题分享 | 小红书 FireRedTTS 系列:从基础合成能力到长对话生成的演进

    过去两年,TTS(语音合成)模型的演化速度令人惊叹。从“能说清楚”到“说得自然”,再到如今“实时流式”“对话级拟人能力”,背后不仅体现了大模型方案与语音合成的成功结合,还有整个数据清洗、表征学习和建模范式的革新。 小红书智创音频团队的 FireRedTTS 系列正是其中比较具有代表性的工业级框架,从 FireRedTTS 最初的基础模型出发,一步步扩展到 FireR...
      2025-09-14  
    • 技术分享 
     
    • 语音合成 
    • | TTS 大模型 
    • | 语音 tokenizer 
    阅读全文 
  • 语音合成 | [slides] CosyVoice 1&2:DiffRO 强化学习

      2025-08-21  
    • 论文笔记 
     
    • 语音合成 
    • | TTS 大模型 
    阅读全文 
  • 专题分享 | [slides] 重新思考 Tortoise-TTS 范式下的语音合成

      2025-06-26  
    • 技术分享 
     
    • 语音合成 
    • | TTS 大模型 
    阅读全文 
  • 语音对话 | Kimi-Audio 端到端语音大模型

    论文题目:Kimi-Audio Technical Report 论文链接:https://arxiv.org/pdf/2504.18425 开源链接:https://github.com/MoonshotAI/Kimi-Audio base 模型:https://huggingface.co/moonshotai/Kimi-Audio-7B Instruct 模型:...
      2025-06-26  
    • 技术分享 
     
    • 语音合成 
    • | TTS 大模型 
    阅读全文 
  • 语音合成 | [slides] MegaTTS3:稀疏对齐思想下的 Flow Matching TTS

      2025-04-14  
    • 论文笔记 
     
    • 语音合成 
    • | TTS 大模型 
    阅读全文 
  • 语音合成 | [slides] FireRedTTS:小红书的 TTS 实践

      2024-09-25  
    • 论文笔记 
     
    • 语音合成 
    • | TTS 大模型 
    • | 语音 tokenizer 
    阅读全文 
  • 语音对话 | [slides] Moshi:原生端到端语音对话的新探索

      2024-09-23  
    • 论文笔记 
     
    • 语音对话 
    • | 全双工 
    阅读全文 
  • 语音合成 | [slides] CosyVoice:通义语音实验室 TTS 新工作

      2024-07-09  
    • 论文笔记 
     
    • 语音合成 
    • | TTS 大模型 
    • | 语音 tokenizer 
    阅读全文 
上一页 下一页
© 2019 - 2026    白御青
总字数 178.4k 总访问量 
Exploring the Frontiers of Speech Intelligence
Hexo / Keep