御青说
  • 首页
  • 博客
  • 报告
  • 标签
  • 论文
  • 关于
  • 首页
  • 博客
  • 报告
  • 标签
  • 论文
  • 关于
  • 专题分享 | ICASSP 2026 HumDial 类人语音对话挑战赛

    首届HumDial(类人语音对话系统)挑战赛作为语音研究领域顶级会议ICASSP 2026的同期赛事,由西北工业大学、南京大学、香港中文大学、华为技术有限公司、希尔贝壳(AISHELL)等多家机构联合发起,聚焦情感智能(赛道一)和全双工交互(赛道二)两大核心赛道。本文完整整理赛事全部核心信息,涵盖双赛道官方方案、论文资料、评测方案、参赛结果、赛事规则等,无内容删减。 一、...
      2026-01-10  
    • 技术分享 
     
    • 语音对话 
    阅读全文 
  • 语音合成 | 智谱 AI:GLM-TTS 语音合成模型的设计解析

    论文链接:https://arxiv.org/pdf/2512.14291 Demo 链接:https://audio.z.ai/ 开源代码:https://github.com/zai-org/GLM-TTS 模型地址:huggingface.co/zai-org/GLM-TTS 作者单位:智谱 AI 发表日期:2025 年 12 月 16 日 主要工作:工业级部署...
      2026-01-05  
    • 论文笔记 
     
    • 语音合成 
    • | 语音 tokenizer 
    阅读全文 
  • 语音对话 | OSUM-EChat:理解驱动的共情语音对话模型

    论文题目:OSUM-EChat: Enhancing End-to-End Empathetic Spoken Chatbot via Understanding-Driven Spoken Dialogue 论文链接:https://arxiv.org/pdf/2508.09600 Demo 链接:https://aslp-lab.github.io/osum-ec...
      2025-12-28  
    • 论文笔记 
     
    • 语音对话 
    阅读全文 
  • 代码解读 | CosyVoice 代码研读(二):CosyVoice2 LLM + GRPO

    本文继续分析 CosyVoice 项目中 LLM 做强化学习的另一种方式,即 GRPO(Group Relative Policy Optimization)。以 examples/grpo/cosyvoice2 的实现为例,分析下如何把比较成熟的 NLP LLM 强化学习训练框架,迁移到 TTS 模型训练中,高效地进行强化学习训练。 1. TTS 引入强化学习通常的...
      2025-12-18  
    • 代码解读 
     
    • 语音合成 
    • | 强化学习 
    阅读全文 
  • 代码解读 | CosyVoice 代码研读(一):CosyVoice2 LLM + DPO

    在 TTS 训练流程中,SFT (Speaker Fintuning) 无法直接优化人类对语音质量的主观偏好(如自然度、韵律、情感表达等)。DPO(Direct Preference Optimization) 提供了一种无需训练奖励模型的偏好对齐方法。只需要通过”偏好”数据(chosen vs rejected),即可直接优化策略模型,使得模型更倾向于于人类偏好或者抑制...
      2025-11-28  
    • 代码解读 
     
    • 语音合成 
    • | 强化学习 
    阅读全文 
  • 专题分享 | [slides] 基于 ARDM(自回归扩散模型)的语音合成

      2025-11-03  
    • 技术分享 
     
    • 语音合成 
    • | TTS 大模型 
    • | 连续表征 
    阅读全文 
  • 专题分享 | 2025年10月,一文梳理国内外八大厂商 TTS 能力

    今天(2025年10月16日),字节跳动发布了新版的豆包2.0语音合成能力,引发广泛讨论,效果确实惊艳。 火山引擎发布新版语音合成系列模型:豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0),两款模型展现出更强的情感表现力、更精准的指令遵循能力,还能准确朗读复杂公式,还拓展了上下文推理和自然...
      2025-10-22  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 专题分享 | 语音生成的新范式?连续表征的「自回归 × 扩散」建模

    TL;DR 太长不看版语音合成目前主流的路线是「离散语音 tokenizer + LLM」,典型代表有 VALL-E、Tortoise-TTS、Seed-TTS、CosyVoice、Minimax-Speech、Index-TTS、FireRed-TTS 等。但近一年兴起了一股新的技术趋势:直接在 连续表征(continuous token) 空间建模,结合自回归 + 扩...
      2025-09-20  
    • 技术分享 
     
    • 语音合成 
    • | TTS 大模型 
    • | 连续表征 
    阅读全文 
  • 专题分享 | 小红书 FireRedTTS 系列:从基础合成能力到长对话生成的演进

    过去两年,TTS(语音合成)模型的演化速度令人惊叹。从“能说清楚”到“说得自然”,再到如今“实时流式”“对话级拟人能力”,背后不仅体现了大模型方案与语音合成的成功结合,还有整个数据清洗、表征学习和建模范式的革新。 小红书智创音频团队的 FireRedTTS 系列正是其中比较具有代表性的工业级框架,从 FireRedTTS 最初的基础模型出发,一步步扩展到 FireR...
      2025-09-14  
    • 技术分享 
     
    • 语音合成 
    • | 语音 tokenizer 
    • | TTS 大模型 
    阅读全文 
  • 语音合成 | [slides] CosyVoice 1&2:DiffRO 强化学习

      2025-08-21  
    • 论文笔记 
     
    • 语音合成 
    • | TTS 大模型 
    阅读全文 
上一页 下一页
© 2019 - 2026    白御青
总字数 161.4k 总访问量 
Hexo / Keep