VibeVoice - Microsoft Open-Source Frontier Voice AI
核心创新
VibeVoice是微软开源的前沿语音AI模型系列,包括文本转语音(TTS)和自动语音识别(ASR)模型。核心创新在于使用连续语音tokenizer(声学和语义),以超低帧率7.5 Hz运行,显著提升长序列处理效率。
核心特性
- 60分钟单次处理 - 不同于传统模型将音频切片处理,VibeVoice ASR支持最多60分钟连续音频输入,保持说话人跟踪和语义连贯性
- 自定义热词 - 支持用户提供自定义热词(如特定名称、术语、背景信息)来指导识别,显著提升专业领域准确率
- 丰富转录 - 联合执行ASR、说话人分离和时间戳标注
- 原生多语言 - 支持超过50种语言
模型系列
| 模型 | 权重 | 快速尝试 |
|---|---|---|
| VibeVoice-ASR-7B | HuggingFace | Playground |
| VibeVoice-TTS-1.5B | HuggingFace | Disabled |
| VibeVoice-Realtime-0.5B | HuggingFace | Colab |
技术亮点
VibeVoice employs a next-token diffusion framework, leveraging a Large Language Model (LLM) to understand textual context and dialogue flow, and a diffusion head to generate high-fidelity acoustic details.
发展历程
- 2026-03 - VibeVoice-ASR被HuggingFace Transformers v5.3.0采用
- 2026-01 - 开源VibeVoice-ASR,支持60分钟长音频单次处理
- 2025-12 - 开源VibeVoice-Realtime-0.5B实时语音合成
- 2025-08 - VibeVoice-TTS被ICLR 2026接受为Oral论文
为什么重要
VibeVoice代表了开源语音AI的重大突破:
- 突破传统ASR的60分钟限制
- 首次实现真正的端到端语音处理
- 支持自定义热词对专业场景至关重要
- 已集成到HuggingFace Transformers生态