Meta Llama 4 공개: 오픈소스 AI가 GPT-4를 따라잡은 방법

- Meta가 2025년 초 Llama 4 시리즈를 오픈소스로 공개 — Scout, Maverick, Behemoth 세 라인업
- Llama 4 Maverick이 GPT-4o, Gemini 2.0 Flash를 주요 벤치마크에서 앞지름
- 핵심 구조: **MoE(Mixture of Experts)** 방식으로 실제 사용 파라미터 수 대비 효율 대폭 향상
- 오픈소스 모델이 이 수준에 도달한 것은 처음 — 로컬·자체 서버 배포가 현실화됨

### MoE가 왜 중요한가

- 기존 dense 모델은 모든 파라미터를 매번 활성화. MoE는 입력마다 **일부 전문가 레이어만 선택 활성화**
- Llama 4 Scout: 총 파라미터 **109B**, 실제 활성화 파라미터 **17B** — 17B 수준 속도로 109B 성능
- Llama 4 Maverick: 총 **400B**, 활성화 **17B** — GPT-4o 수준 성능을 훨씬 저렴한 추론 비용으로
- Llama 4 Behemoth: 총 **2T(2조)** 파라미터 — 아직 preview 단계. 훈련 중 수치도 GPT-4.5 이상 주장
- 이 구조 덕에 같은 GPU로 더 큰 모델을 돌릴 수 있음. 특히 멀티GPU 서버 환경에서 실용적

### 벤치마크 수치

- **MMLU(지식 이해)**: Maverick **85.5%** — GPT-4o **85.7%**와 거의 동등
- **HumanEval(코딩)**: Maverick **88.4%** — GPT-4o 87% 소폭 상회
- **MATH(수학)**: Maverick **73.5%** — GPT-4o 76.6%에 약간 못 미치지만 오픈소스 최고 수준
- **컨텍스트 길이**: Scout 기준 **10M 토큰** 지원. 긴 문서 처리에서 독보적
- Meta 자체 발표라 독립 검증 필요하지만 외부 테스터들 결과도 대체로 일치

### 오픈소스 생태계 임팩트

- Llama 4는 **Llama Community License**로 배포 — 월간 활성 사용자 **7억 명 이하** 서비스는 무료 상업 이용 가능
- Ollama, LM Studio, Hugging Face에서 다운로드 후 로컬 실행 가능. 커뮤니티 양자화 버전도 빠르게 등장
- 주요 클라우드(AWS Bedrock, Azure AI, Groq)에서 API로 즉시 사용 가능
- Together AI 기준 Maverick API 가격: **$0.27/1M 입력 토큰** — GPT-4o($5)의 약 1/18 수준
- "오픈소스=성능 낮다" 인식 깨짐. 특히 코딩 특화 파인튜닝 버전들은 이미 GPT-4o 앞섬

### 실제로 어떻게 접근하나

- **빠른 테스트**: Hugging Face Chat(hf.co/chat)에서 Llama 4 Maverick 무료 사용 가능
- **로컬 실행**: Ollama로 `ollama run llama4:scout` — 16GB VRAM GPU 권장(Scout 기준)
- **API 사용**: Groq API가 현재 가장 빠른 추론 속도 제공. 가입 후 API 키 발급
- **파인튜닝**: Unsloth 라이브러리로 소비자급 GPU에서도 파인튜닝 가능. 4bit 양자화 지원
- Llama 4 이후 Mistral, Qwen, DeepSeek 등 경쟁 오픈소스 모델들도 빠르게 뒤따르는 중

Meta Llama 4 공개: 오픈소스 AI가 GPT-4를 따라잡은 방법

// COMMENTS

ON THIS PAGE