⭐ 5星 - 必读
Fish Audio S2
发现于 2026-03-16 | 来源: GitHub Trending
是什么
Fish Audio S2 是目前开源和闭源领域最先进 (SOTA) 的文本转语音 (TTS) 系统。由 Fish Audio 开发,基于 1000 万小时音频数据训练,支持 50 种语言。
训练规模
1000万+
小时音频
50
支持语言
4B
S2-Pro 参数
性能基准测试
| 测试 | Fish Audio S2 | 对比最佳 |
|---|---|---|
| Seed-TTS WER (中文) | 0.54% | Qwen3-TTS: 0.77% |
| Seed-TTS WER (英文) | 0.99% | Qwen3-TTS: 1.24% |
| Audio Turing Test | 0.515 | Seed-TTS: 0.417 (+24%) |
| EmergentTTS Win Rate | 81.88% | 最高整体 |
| Instruction Quality | 4.51/5.0 | 最高 |
核心亮点
- SOTA 性能:在所有基准测试中取得最佳成绩
- 细粒度控制:支持自然语言标签控制情感和语调
- 情感标签:如 [laugh], [whisper], [super happy]
- 音高控制:支持 [pitch up], [pitch down] 等
- 多说话人:原生支持多说话人和多轮对话
- 双自回归架构:Dual-AR 实现高质量输出
技术架构
- 基于解码器-only Transformer
- RVQ 音频编解码器 (10 个码本, ~21 Hz 帧率)
- 双自回归架构 (Dual-AR):
- 慢速自回归:沿时间轴预测
- 快速自回归:预测音频码本