今天(2025年10月16日),字节跳动发布了新版的豆包2.0语音合成能力,引发广泛讨论,效果确实惊艳。
火山引擎发布新版语音合成系列模型:豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0),两款模型展现出更强的情感表现力、更精准的指令遵循能力,还能准确朗读复杂公式,还拓展了上下文推理和自然...
TL;DR 太长不看版语音合成目前主流的路线是「离散语音 tokenizer + LLM」,典型代表有 VALL-E、Tortoise-TTS、Seed-TTS、CosyVoice、Minimax-Speech、Index-TTS、FireRed-TTS 等。但近一年兴起了一股新的技术趋势:直接在 连续表征(continuous token) 空间建模,结合自回归 + 扩...
过去两年,TTS(语音合成)模型的演化速度令人惊叹。从“能说清楚”到“说得自然”,再到如今“实时流式”“对话级拟人能力”,背后不仅体现了大模型方案与语音合成的成功结合,还有整个数据清洗、表征学习和建模范式的革新。
小红书智创音频团队的 FireRedTTS 系列正是其中比较具有代表性的工业级框架,从 FireRedTTS 最初的基础模型出发,一步步扩展到 FireR...
论文题目:Kimi-Audio Technical Report
论文链接:https://arxiv.org/pdf/2504.18425
开源链接:https://github.com/MoonshotAI/Kimi-Audio
base 模型:https://huggingface.co/moonshotai/Kimi-Audio-7B
Instruct 模型:...