Gemma 4 핵심 요약

# Gemma 4 핵심 요약

> Google DeepMind가 2026년 4월 공개한 역대 가장 강력한 오픈 웨이트 모델 패밀리. Gemini 3 연구를 기반으로 구축되었으며, 파라미터당 전례 없는 수준의 지능을 제공한다.

---

## Gemma 4란?

### 개요 및 배경

Gemma는 Google DeepMind가 개발한 오픈 웨이트(Open-weight) 언어 모델 패밀리다. Gemini와 달리 모델 가중치를 직접 다운로드해 로컬 환경에서 실행할 수 있다는 것이 핵심 차별점이다.

Gemma 4는 2026년 4월 2일 공식 출시되었으며, 초대 버전 출시 이후 누적 다운로드 4억 회, 파생 모델 10만 개 이상으로 구성된 **"Gemmaverse"** 생태계를 기반으로 개발되었다.

### Gemini 3와의 관계

Gemma 4는 Google의 독점 모델인 Gemini 3와 동일한 연구 및 아키텍처를 기반으로 구축되었다. 즉, Gemini 3 수준의 최신 기술을 오픈 웨이트 형태로 제공하는 것이 Gemma 4의 핵심 가치다.

---

## 모델 라인업

Gemma 4는 배포 환경에 따라 두 가지 티어, 총 네 가지 모델로 구성된다.

### E2B / E4B — 엣지 티어

모바일, Raspberry Pi, 임베디드 하드웨어 등 저사양 기기를 위한 모델이다.

| 모델  | 유효 파라미터 | 컨텍스트 윈도우 | 특징                      |
| --- | ------- | -------- | ----------------------- |
| E2B | 2.3B    | 128K     | 텍스트·이미지·오디오 입력, 오프라인 동작 |
| E4B | 4.5B    | 128K     | 텍스트·이미지·오디오 입력, 오프라인 동작 |

E2B와 E4B는 USM 스타일 컨포머 인코더를 통해 최대 30초의 네이티브 오디오 입력을 지원한다. 클라우드 없이 기기 단에서 음성 인식 및 오디오 Q&A가 가능하다.

### 26B-A4B MoE / 31B Dense — 워크스테이션 티어

GPU 또는 클라우드 인프라를 갖춘 개발자를 위한 대형 모델이다.

| 모델        | 구조    | 활성 파라미터     | 컨텍스트 윈도우 | 특징              |
| --------- | ----- | ----------- | -------- | --------------- |
| 26B-A4B   | MoE   | 3.8B (추론 시) | 256K     | 빠른 추론 속도, 높은 효율 |
| 31B Dense | Dense | 30.7B       | 256K     | 플래그십, 최고 성능     |

26B-A4B는 **Mixture of Experts(MoE)** 구조로, 전체 파라미터 중 추론 시 3.8B만 활성화된다. 31B와 유사한 VRAM을 사용하면서도 추론 속도가 훨씬 빠르다.

31B Dense는 워크스테이션 티어의 플래그십으로, Arena AI 텍스트 리더보드에서 **세계 3위 오픈 모델**을 기록했다.

---

## 핵심 기능

### 멀티모달 지원 — 텍스트, 이미지, 오디오, 비디오

Gemma 4는 Gemma 패밀리 최초로 **전 모델 사이즈에서 네이티브 멀티모달**을 지원한다. 텍스트, 이미지, 오디오, 비디오를 단일 프롬프트 안에서 자유롭게 혼합해 입력할 수 있다.

- **이미지**: 객체 감지, PDF/문서 파싱, UI 이해, 차트 분석, OCR, 필기 인식
- **오디오**: E2B·E4B 모델에서 최대 30초 음성 입력 지원 (네이티브, 클라우드 불필요)
- **비디오**: 26B·31B 모델에서 초당 1프레임, 최대 60초 비디오 처리

### 긴 컨텍스트 윈도우

| 티어                | 컨텍스트 윈도우 |
| ----------------- | -------- |
| 엣지 (E2B, E4B)     | 128K 토큰  |
| 워크스테이션 (26B, 31B) | 256K 토큰  |

256K 토큰은 긴 문서 전체를 단일 프롬프트에 담을 수 있는 수준이다.

### Thinking 모드 — 단계별 추론

모델이 최종 답변 전에 단계별로 생각하는 내장 추론 모드다. 복잡한 수학, 논리 추론, 멀티스텝 계획 작업에서 성능이 크게 향상된다.

### 에이전트 워크플로우 지원

- **함수 호출(Function Calling)**: 외부 도구·API와 연동하는 자율형 에이전트 구축 가능
- **구조화된 JSON 출력**: 에이전트 워크플로우에 바로 사용 가능한 형식으로 출력
- **시스템 인스트럭션**: 네이티브 지원

---

## 라이선스 & 접근성

### Apache 2.0 라이선스

기존 Gemma 시리즈는 Google 자체 라이선스를 사용해 기업 법무팀의 검토 부담이 있었다. Gemma 4는 **Apache 2.0**으로 전환되어 다음이 모두 허용된다:

- 상업적 사용 (유료 제품·서비스 배포 가능)
- 파인튜닝 및 가중치 수정
- 수정 버전 재배포 (클로즈드 소스 포함)
- 월간 활성 사용자 제한 없음

### 지원 플랫폼 및 배포 방법

**모델 다운로드**: Hugging Face, Kaggle, Ollama

**추론 프레임워크**: llama.cpp, vLLM, MLX, NVIDIA NIM

**Google 공식 서비스**: Google AI Studio, AI Edge Gallery, Android Studio

**클라우드 배포**: Vertex AI, Cloud Run, GKE, Google Cloud TPU

---

## 벤치마크 성능

### 전 세대(Gemma 3) 대비 성능 향상

31B Dense 기준으로 Gemma 3 27B와 비교한 주요 지표 향상폭이다.

| 벤치마크           | Gemma 3 27B | Gemma 4 31B |
| -------------- | ----------- | ----------- |
| MMLU-Pro       | 67.6%       | 85.2%       |
| GPQA Diamond   | 42.4%       | 84.3%       |
| LiveCodeBench  | 29.1%       | 80.0%       |
| Arena AI (텍스트) | 1365        | 1452        |

### 소형 모델 E4B 주요 성과

파라미터가 Gemma 3 27B의 6분의 1 수준임에도 불구하고 모든 벤치마크에서 전 세대 대형 모델을 능가한다.

| 벤치마크          | Gemma 3 27B | Gemma 4 E4B |
| ------------- | ----------- | ----------- |
| MMLU-Pro      | 67.6%       | 69.4%       |
| GPQA Diamond  | 42.4%       | 58.6%       |
| LiveCodeBench | 29.1%       | 52.0%       |
| AIME 2026     | 20.8%       | 42.5%       |

> 6개월 전에 40GB VRAM이 필요했던 수준의 추론 능력을 이제 노트북에서 실행할 수 있다는 의미다.

---

## 활용 사례

### 온디바이스 AI

E2B·E4B 모델은 스마트폰, 태블릿, 노트북에서 클라우드 없이 동작한다. 오디오·이미지 처리까지 기기 단에서 완결되므로 프라이버시 민감 환경에 적합하다.

### 코드 생성

Gemma 4는 고성능 오프라인 코드 생성을 지원한다. 개발자의 워크스테이션을 **로컬 중심(Local-first) AI 코드 어시스턴트**로 전환할 수 있으며, Codeforces ELO 2150을 기록했다.

### 에이전트 구축

함수 호출, JSON 출력, 시스템 인스트럭션을 네이티브로 지원하므로 다양한 외부 툴·API와 연동되는 자율형 에이전트를 안정적으로 구축할 수 있다.

Gemma 4 핵심 요약

// COMMENTS

ON THIS PAGE