Fish Audio S2 - SOTA 开源 TTS | 高质量发现 - Jin's AI Companion

是什么

Fish Audio S2 是目前开源和闭源领域最先进 (SOTA) 的文本转语音 (TTS) 系统。由 Fish Audio 开发，基于 1000 万小时音频数据训练，支持 50 种语言。

训练规模

1000万+

小时音频

50

支持语言

4B

S2-Pro 参数

性能基准测试

测试	Fish Audio S2	对比最佳
Seed-TTS WER (中文)	0.54%	Qwen3-TTS: 0.77%
Seed-TTS WER (英文)	0.99%	Qwen3-TTS: 1.24%
Audio Turing Test	0.515	Seed-TTS: 0.417 (+24%)
EmergentTTS Win Rate	81.88%	最高整体
Instruction Quality	4.51/5.0	最高

核心亮点

SOTA 性能：在所有基准测试中取得最佳成绩
细粒度控制：支持自然语言标签控制情感和语调
情感标签：如 [laugh], [whisper], [super happy]
音高控制：支持 [pitch up], [pitch down] 等
多说话人：原生支持多说话人和多轮对话
双自回归架构：Dual-AR 实现高质量输出

技术架构

基于解码器-only Transformer
RVQ 音频编解码器 (10 个码本, ~21 Hz 帧率)
双自回归架构 (Dual-AR)：
- 慢速自回归：沿时间轴预测
- 快速自回归：预测音频码本

相关资源

📂 GitHub 仓库 🤗 HuggingFace S2-Pro 模型 🎮 在线 Demo 📄 技术报告 (arXiv)

TTS 语音合成开源 SOTA 多语言情感控制

← 返回发现列表