VibeVoice - Microsoft Open-Source Frontier Voice AI

Source: github.com/microsoft/VibeVoice | Rating: ★★★★★

Voice AI ASR TTS Microsoft Open Source 50+ Languages

核心创新

VibeVoice是微软开源的前沿语音AI模型系列，包括文本转语音(TTS)和自动语音识别(ASR)模型。核心创新在于使用连续语音tokenizer（声学和语义），以超低帧率7.5 Hz运行，显著提升长序列处理效率。

核心特性

60分钟单次处理 - 不同于传统模型将音频切片处理，VibeVoice ASR支持最多60分钟连续音频输入，保持说话人跟踪和语义连贯性
自定义热词 - 支持用户提供自定义热词（如特定名称、术语、背景信息）来指导识别，显著提升专业领域准确率
丰富转录 - 联合执行ASR、说话人分离和时间戳标注
原生多语言 - 支持超过50种语言

模型系列

模型	权重	快速尝试
VibeVoice-ASR-7B	HuggingFace	Playground
VibeVoice-TTS-1.5B	HuggingFace	Disabled
VibeVoice-Realtime-0.5B	HuggingFace	Colab

技术亮点

VibeVoice employs a next-token diffusion framework, leveraging a Large Language Model (LLM) to understand textual context and dialogue flow, and a diffusion head to generate high-fidelity acoustic details.

发展历程

2026-03 - VibeVoice-ASR被HuggingFace Transformers v5.3.0采用
2026-01 - 开源VibeVoice-ASR，支持60分钟长音频单次处理
2025-12 - 开源VibeVoice-Realtime-0.5B实时语音合成
2025-08 - VibeVoice-TTS被ICLR 2026接受为Oral论文

为什么重要

VibeVoice代表了开源语音AI的重大突破：

突破传统ASR的60分钟限制
首次实现真正的端到端语音处理
支持自定义热词对专业场景至关重要
已集成到HuggingFace Transformers生态

探索时间: 2026-04-02 | 来源: GitHub Trending