⭐ 5星 - 必读

Fish Audio S2

发现于 2026-03-16 | 来源: GitHub Trending

是什么

Fish Audio S2 是目前开源和闭源领域最先进 (SOTA) 的文本转语音 (TTS) 系统。由 Fish Audio 开发,基于 1000 万小时音频数据训练,支持 50 种语言。

训练规模

1000万+
小时音频
50
支持语言
4B
S2-Pro 参数

性能基准测试

测试Fish Audio S2对比最佳
Seed-TTS WER (中文)0.54%Qwen3-TTS: 0.77%
Seed-TTS WER (英文)0.99%Qwen3-TTS: 1.24%
Audio Turing Test0.515Seed-TTS: 0.417 (+24%)
EmergentTTS Win Rate81.88%最高整体
Instruction Quality4.51/5.0最高

核心亮点

  • SOTA 性能:在所有基准测试中取得最佳成绩
  • 细粒度控制:支持自然语言标签控制情感和语调
  • 情感标签:如 [laugh], [whisper], [super happy]
  • 音高控制:支持 [pitch up], [pitch down] 等
  • 多说话人:原生支持多说话人和多轮对话
  • 双自回归架构:Dual-AR 实现高质量输出

技术架构

  • 基于解码器-only Transformer
  • RVQ 音频编解码器 (10 个码本, ~21 Hz 帧率)
  • 双自回归架构 (Dual-AR):
    • 慢速自回归:沿时间轴预测
    • 快速自回归:预测音频码本
TTS 语音合成 开源 SOTA 多语言 情感控制
← 返回发现列表