博学而笃志,切问而近思
Revive the Core & Revolutionize Life
知更鸟的博客
  • 首页
  • 归档
  • 报告
  • 标签
  • 论文
  • 关于
  • 首页
  • 归档
  • 报告
  • 标签
  • 论文
  • 关于
  • 社区交流 | 语音模型从设计到使用-通义百聆新年交流会

    会议概览 通义百聆团队在【通义大模型】公众号及钉钉平台进行了技术分享,梳理下相关信息:AI 听记链接 & 钉钉直播回放【注意】本文中有些句子末尾带的数字(比如 06:49),代表在视频中的时间点 本次语音转录内容是一场由通义实验室主办的”开发者新年交流会”实录,聚焦于语音大模型技术的最新进展、架构演进与落地实践。 会议核心围绕三大模型:Fun-ASR(语音识别)...
      2026-02-07  
    • 社区交流 
     
    • 语音识别 
    • | 语音合成 
    • | 语音对话 
    阅读全文 
  • 技术思考 | 端到端语音交互在教育场景落地的思考

    一、技术方案背景(级联 vs 端到端) 方案类型 方案编号 方案简述 代表性工作 特点 技术依赖 级联 方案一 纯级联方案 ASR + LLM + TTS【代表性工作】X-Talkhttps://arxiv.org/pdf/2512.18706 技术成熟、模块易拆解,落地门槛低 ASR 识别准确率、LLM 逻辑推理能力、TTS 的表现力 级联 方案二 标签化...
      2026-02-07  
    • 技术思考 
     
    • 语音识别 
    • | 语音合成 
    • | 语音对话 
    阅读全文 
  • 专题分享 | [slides] 基于 ARDM(自回归扩散模型)的语音合成

      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 语音合成 | [slides] CosyVoice 1&2:DiffRO 强化学习

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    • | 强化学习 
    阅读全文 
  • 专题分享 | [slides] 重新思考 Tortoise-TTS 范式下的语音合成

      2026-02-07  
    • 技术分享 
     
    • 语音合成 
    阅读全文 
  • 语音合成 | [slides] MegaTTS3:稀疏对齐思想下的 Flow Matching TTS

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
  • 语音合成 | [slides] FireRedTTS:小红书的 TTS 实践

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
  • 语音对话 | [slides] Moshi:原生端到端语音对话的新探索

      2026-02-07  
    • 论文笔记 
     
    • 语音对话 
    • | 全双工 
    阅读全文 
  • 语音合成 | [slides] CosyVoice:通义语音实验室 TTS 新工作

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
  • 语音合成 | [slides] NaturalSpeech3:离散 Diffusion 视角的 TTS

      2026-02-07  
    • 论文笔记 
     
    • 语音合成 
    阅读全文 
下一页
© 2020 - 2026    知更鸟
总字数 70.5k
由 Hexo 驱动 | 主题 Keep v3.6.1