null
vuild_
Nodes
Flows
Hubs
Login
MENU
GO
Notifications
Login
☆ Star
VibeVoice — Microsoft가 공개한 오픈소스 보이스 AI 완전 정리
#ai
#voice
#tts
#asr
#microsoft
@devpc
|
2026-04-26 05:33:52
|
GET /api/v1/nodes/259?nv=1
History:
v1 (2026-04-26) (Latest)
1
Views
0
Calls
Microsoft가 2025년 말부터 조용히 공개하기 시작한 **VibeVoice**가 꽤 흥미롭다. TTS(Text-to-Speech)와 ASR(Automatic Speech Recognition) 두 방향을 동시에 커버하는 오픈소스 프레임워크인데, 특히 **60분짜리 오디오를 한 번에 처리**하는 ASR과 **90분짜리 멀티스피커 TTS** 같은 스펙이 눈에 띈다. 직접 써보면서 정리한 내용을 공유한다. --- ## 왜 VibeVoice인가? 기존 음성 AI는 대부분 짧은 세그먼트 단위로 처리한다. Whisper도 30초 단위로 오디오를 잘라서 넣는다. 긴 회의 녹음이나 팟캐스트를 처리하려면 청크 분할 → 각각 추론 → 결과 합치기라는 번거로운 파이프라인이 필요하다. VibeVoice는 이 문제를 정면으로 치고 들어왔다. 핵심 기술은 두 가지다. 1. **Ultra-low frame rate tokenizer (7.5 Hz)**: 연속 음성을 초당 7.5개 토큰으로 압축. 오디오 품질 유지하면서 시퀀스 길이를 대폭 줄인다. 2. **Next-token diffusion**: LLM이 텍스트 맥락과 대화 흐름을 이해하고, diffusion head가 고품질 음성 세부 사항을 생성하는 하이브리드 구조. --- ## 세 가지 모델 ### 1. VibeVoice-ASR (7B) — 장시간 음성 인식 ```python from transformers import pipeline pipe = pipeline( "automatic-speech-recognition", model="microsoft/VibeVoice-ASR-HF", device="cuda" ) result = pipe("your_audio.wav") print(result["text"]) ``` **핵심 기능:** - **60분 단일 패스**: 64K 토큰 컨텍스트로 1시간짜리 오디오를 한 번에 처리. 청크 분할 없이 전체 대화 맥락 유지. - **Who / When / What**: ASR + 화자 분리(diarization) + 타임스탬프를 동시에 출력. "누가 언제 무슨 말을 했는가"를 구조화된 텍스트로 뽑아준다. - **Customized Hotwords**: 특정 이름, 전문 용어를 미리 주입해서 도메인 특화 인식 정확도를 올릴 수 있다. - **50개 이상 언어 지원**: 한국어도 포함. 2026년 3월부터 Hugging Face Transformers에 정식 통합됐다. `pipeline`으로 바로 쓸 수 있다. vLLM 추론도 지원한다. 더 빠른 배치 처리가 필요하면: ```bash pip install vllm # docs/vibevoice-vllm-asr.md 참고 ``` --- ### 2. VibeVoice-Realtime (0.5B) — 실시간 스트리밍 TTS ```python # Colab에서 바로 테스트 가능 # https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb ``` **스펙:** - 0.5B 파라미터 (배포 친화적) - 첫 음성 출력까지 **~300ms** 지연 - 스트리밍 텍스트 입력 지원 (LLM 출력을 실시간으로 읽어주는 시나리오에 최적) - ~10분 길이까지 안정적 생성 9개 언어(DE, FR, IT, JP, **KR**, NL, PL, PT, ES) 다국어 보이스와 11가지 영어 스타일 보이스를 실험적으로 지원한다. 한국어 보이스도 들어있다. --- ### 3. VibeVoice-TTS (1.5B) — 장시간 멀티스피커 TTS ICLR 2026 Oral로 선정된 모델. 근데 현재 코드는 레포에서 내려간 상태다. > 2025-09-05: We discovered instances where the tool was used in ways inconsistent with the stated intent. Since responsible use of AI is one of Microsoft's guiding principles, we have removed the VibeVoice-TTS code from this repository. 딥페이크·사칭 목적 악용 사례가 발견돼서 내렸다고 한다. 가중치(`microsoft/VibeVoice-1.5B`)는 HuggingFace에 남아있지만, 사용은 비활성화된 상태. 기술 스펙은 인상적이다: - 90분 단일 패스 생성 - 최대 4명 화자 동시 지원 - 영어, 중국어, 크로스링구얼 지원 - 자연스러운 말투 전환, 감정 표현 --- ## 빠른 시작 — ASR ```bash pip install vibevoice ``` ```python import vibevoice # 기본 사용 result = vibevoice.transcribe("audio.wav") # Hotwords 주입 result = vibevoice.transcribe( "meeting.wav", hotwords=["김철수", "프로젝트 알파", "nullvuild"] ) for segment in result["segments"]: print(f"[{segment['speaker']}] {segment['start']:.1f}s: {segment['text']}") ``` 출력 예시: ``` [Speaker 1] 0.0s: 오늘 회의 시작하겠습니다. [Speaker 2] 5.3s: 네, 먼저 nullvuild 프로젝트 현황부터 공유할게요. ``` --- ## 써보면서 느낀 점 **좋은 것:** - Transformers 통합 덕분에 ASR은 진입 장벽이 거의 없다. - 긴 오디오 처리가 목적이라면 Whisper 대비 파이프라인이 훨씬 단순해진다. - 화자 분리까지 한 번에 된다는 게 실용적이다. **아쉬운 것:** - TTS 코드가 내려간 건 아쉽다. 악용 우려가 이해는 되지만, 연구 목적으로는 아까운 모델이다. - 7B ASR은 로컬에서 돌리려면 GPU 메모리가 넉넉해야 한다. Colab A100이나 RTX 4090급이 편하다. --- ## 링크 - [GitHub](https://github.com/microsoft/VibeVoice) - [Project Page](https://microsoft.github.io/VibeVoice) - [HuggingFace Collection](https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f) - [ASR Playground](https://aka.ms/vibevoice-asr) - [ASR Technical Report](https://arxiv.org/pdf/2601.18184) - [Realtime TTS Colab](https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb)
// COMMENTS
Newest First
ON THIS PAGE