VibeVoice — Microsoft가 공개한 오픈소스 보이스 AI 완전 정리

Microsoft가 2025년 말부터 조용히 공개하기 시작한 **VibeVoice**가 꽤 흥미롭다. TTS(Text-to-Speech)와 ASR(Automatic Speech Recognition) 두 방향을 동시에 커버하는 오픈소스 프레임워크인데, 특히 **60분짜리 오디오를 한 번에 처리**하는 ASR과 **90분짜리 멀티스피커 TTS** 같은 스펙이 눈에 띈다.

직접 써보면서 정리한 내용을 공유한다.

---

## 왜 VibeVoice인가?

기존 음성 AI는 대부분 짧은 세그먼트 단위로 처리한다. Whisper도 30초 단위로 오디오를 잘라서 넣는다. 긴 회의 녹음이나 팟캐스트를 처리하려면 청크 분할 → 각각 추론 → 결과 합치기라는 번거로운 파이프라인이 필요하다.

VibeVoice는 이 문제를 정면으로 치고 들어왔다. 핵심 기술은 두 가지다.

1. **Ultra-low frame rate tokenizer (7.5 Hz)**: 연속 음성을 초당 7.5개 토큰으로 압축. 오디오 품질 유지하면서 시퀀스 길이를 대폭 줄인다.
2. **Next-token diffusion**: LLM이 텍스트 맥락과 대화 흐름을 이해하고, diffusion head가 고품질 음성 세부 사항을 생성하는 하이브리드 구조.

---

## 세 가지 모델

### 1. VibeVoice-ASR (7B) — 장시간 음성 인식

```python
from transformers import pipeline

pipe = pipeline(
    "automatic-speech-recognition",
    model="microsoft/VibeVoice-ASR-HF",
    device="cuda"
)

result = pipe("your_audio.wav")
print(result["text"])
```

**핵심 기능:**

- **60분 단일 패스**: 64K 토큰 컨텍스트로 1시간짜리 오디오를 한 번에 처리. 청크 분할 없이 전체 대화 맥락 유지.
- **Who / When / What**: ASR + 화자 분리(diarization) + 타임스탬프를 동시에 출력. "누가 언제 무슨 말을 했는가"를 구조화된 텍스트로 뽑아준다.
- **Customized Hotwords**: 특정 이름, 전문 용어를 미리 주입해서 도메인 특화 인식 정확도를 올릴 수 있다.
- **50개 이상 언어 지원**: 한국어도 포함.

2026년 3월부터 Hugging Face Transformers에 정식 통합됐다. `pipeline`으로 바로 쓸 수 있다.

vLLM 추론도 지원한다. 더 빠른 배치 처리가 필요하면:

```bash
pip install vllm
# docs/vibevoice-vllm-asr.md 참고
```

---

### 2. VibeVoice-Realtime (0.5B) — 실시간 스트리밍 TTS

```python
# Colab에서 바로 테스트 가능
# https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb
```

**스펙:**

- 0.5B 파라미터 (배포 친화적)
- 첫 음성 출력까지 **~300ms** 지연
- 스트리밍 텍스트 입력 지원 (LLM 출력을 실시간으로 읽어주는 시나리오에 최적)
- ~10분 길이까지 안정적 생성

9개 언어(DE, FR, IT, JP, **KR**, NL, PL, PT, ES) 다국어 보이스와 11가지 영어 스타일 보이스를 실험적으로 지원한다. 한국어 보이스도 들어있다.

---

### 3. VibeVoice-TTS (1.5B) — 장시간 멀티스피커 TTS

ICLR 2026 Oral로 선정된 모델. 근데 현재 코드는 레포에서 내려간 상태다.

> 2025-09-05: We discovered instances where the tool was used in ways inconsistent with the stated intent. Since responsible use of AI is one of Microsoft's guiding principles, we have removed the VibeVoice-TTS code from this repository.

딥페이크·사칭 목적 악용 사례가 발견돼서 내렸다고 한다. 가중치(`microsoft/VibeVoice-1.5B`)는 HuggingFace에 남아있지만, 사용은 비활성화된 상태.

기술 스펙은 인상적이다:

- 90분 단일 패스 생성
- 최대 4명 화자 동시 지원
- 영어, 중국어, 크로스링구얼 지원
- 자연스러운 말투 전환, 감정 표현

---

## 빠른 시작 — ASR

```bash
pip install vibevoice
```

```python
import vibevoice

# 기본 사용
result = vibevoice.transcribe("audio.wav")

# Hotwords 주입
result = vibevoice.transcribe(
    "meeting.wav",
    hotwords=["김철수", "프로젝트 알파", "nullvuild"]
)

for segment in result["segments"]:
    print(f"[{segment['speaker']}] {segment['start']:.1f}s: {segment['text']}")
```

출력 예시:

```
[Speaker 1] 0.0s: 오늘 회의 시작하겠습니다.
[Speaker 2] 5.3s: 네, 먼저 nullvuild 프로젝트 현황부터 공유할게요.
```

---

## 써보면서 느낀 점

**좋은 것:**

- Transformers 통합 덕분에 ASR은 진입 장벽이 거의 없다.
- 긴 오디오 처리가 목적이라면 Whisper 대비 파이프라인이 훨씬 단순해진다.
- 화자 분리까지 한 번에 된다는 게 실용적이다.

**아쉬운 것:**

- TTS 코드가 내려간 건 아쉽다. 악용 우려가 이해는 되지만, 연구 목적으로는 아까운 모델이다.
- 7B ASR은 로컬에서 돌리려면 GPU 메모리가 넉넉해야 한다. Colab A100이나 RTX 4090급이 편하다.

---

## 링크

- [GitHub](https://github.com/microsoft/VibeVoice)
- [Project Page](https://microsoft.github.io/VibeVoice)
- [HuggingFace Collection](https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f)
- [ASR Playground](https://aka.ms/vibevoice-asr)
- [ASR Technical Report](https://arxiv.org/pdf/2601.18184)
- [Realtime TTS Colab](https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb)

VibeVoice — Microsoft가 공개한 오픈소스 보이스 AI 완전 정리

// COMMENTS

ON THIS PAGE