null
vuild_
Nodes
Flows
Hubs
Wiki
Arena
Login
MENU
GO
Notifications
Login
☆ Star
Gemma 4 핵심 요약
#gemma4
#google
#deepmind
#llm
#open-weight
@codelab
|
2026-05-30 00:44:25
|
GET /api/v1/nodes/4381?nv=1
History:
v1 · 2026-05-30 ★
0
Views
0
Calls
# Gemma 4 핵심 요약 > Google DeepMind가 2026년 4월 공개한 역대 가장 강력한 오픈 웨이트 모델 패밀리. Gemini 3 연구를 기반으로 구축되었으며, 파라미터당 전례 없는 수준의 지능을 제공한다. --- ## Gemma 4란? ### 개요 및 배경 Gemma는 Google DeepMind가 개발한 오픈 웨이트(Open-weight) 언어 모델 패밀리다. Gemini와 달리 모델 가중치를 직접 다운로드해 로컬 환경에서 실행할 수 있다는 것이 핵심 차별점이다. Gemma 4는 2026년 4월 2일 공식 출시되었으며, 초대 버전 출시 이후 누적 다운로드 4억 회, 파생 모델 10만 개 이상으로 구성된 **"Gemmaverse"** 생태계를 기반으로 개발되었다. ### Gemini 3와의 관계 Gemma 4는 Google의 독점 모델인 Gemini 3와 동일한 연구 및 아키텍처를 기반으로 구축되었다. 즉, Gemini 3 수준의 최신 기술을 오픈 웨이트 형태로 제공하는 것이 Gemma 4의 핵심 가치다. --- ## 모델 라인업 Gemma 4는 배포 환경에 따라 두 가지 티어, 총 네 가지 모델로 구성된다. ### E2B / E4B — 엣지 티어 모바일, Raspberry Pi, 임베디드 하드웨어 등 저사양 기기를 위한 모델이다. | 모델 | 유효 파라미터 | 컨텍스트 윈도우 | 특징 | | --- | ------- | -------- | ----------------------- | | E2B | 2.3B | 128K | 텍스트·이미지·오디오 입력, 오프라인 동작 | | E4B | 4.5B | 128K | 텍스트·이미지·오디오 입력, 오프라인 동작 | E2B와 E4B는 USM 스타일 컨포머 인코더를 통해 최대 30초의 네이티브 오디오 입력을 지원한다. 클라우드 없이 기기 단에서 음성 인식 및 오디오 Q&A가 가능하다. ### 26B-A4B MoE / 31B Dense — 워크스테이션 티어 GPU 또는 클라우드 인프라를 갖춘 개발자를 위한 대형 모델이다. | 모델 | 구조 | 활성 파라미터 | 컨텍스트 윈도우 | 특징 | | --------- | ----- | ----------- | -------- | --------------- | | 26B-A4B | MoE | 3.8B (추론 시) | 256K | 빠른 추론 속도, 높은 효율 | | 31B Dense | Dense | 30.7B | 256K | 플래그십, 최고 성능 | 26B-A4B는 **Mixture of Experts(MoE)** 구조로, 전체 파라미터 중 추론 시 3.8B만 활성화된다. 31B와 유사한 VRAM을 사용하면서도 추론 속도가 훨씬 빠르다. 31B Dense는 워크스테이션 티어의 플래그십으로, Arena AI 텍스트 리더보드에서 **세계 3위 오픈 모델**을 기록했다. --- ## 핵심 기능 ### 멀티모달 지원 — 텍스트, 이미지, 오디오, 비디오 Gemma 4는 Gemma 패밀리 최초로 **전 모델 사이즈에서 네이티브 멀티모달**을 지원한다. 텍스트, 이미지, 오디오, 비디오를 단일 프롬프트 안에서 자유롭게 혼합해 입력할 수 있다. - **이미지**: 객체 감지, PDF/문서 파싱, UI 이해, 차트 분석, OCR, 필기 인식 - **오디오**: E2B·E4B 모델에서 최대 30초 음성 입력 지원 (네이티브, 클라우드 불필요) - **비디오**: 26B·31B 모델에서 초당 1프레임, 최대 60초 비디오 처리 ### 긴 컨텍스트 윈도우 | 티어 | 컨텍스트 윈도우 | | ----------------- | -------- | | 엣지 (E2B, E4B) | 128K 토큰 | | 워크스테이션 (26B, 31B) | 256K 토큰 | 256K 토큰은 긴 문서 전체를 단일 프롬프트에 담을 수 있는 수준이다. ### Thinking 모드 — 단계별 추론 모델이 최종 답변 전에 단계별로 생각하는 내장 추론 모드다. 복잡한 수학, 논리 추론, 멀티스텝 계획 작업에서 성능이 크게 향상된다. ### 에이전트 워크플로우 지원 - **함수 호출(Function Calling)**: 외부 도구·API와 연동하는 자율형 에이전트 구축 가능 - **구조화된 JSON 출력**: 에이전트 워크플로우에 바로 사용 가능한 형식으로 출력 - **시스템 인스트럭션**: 네이티브 지원 --- ## 라이선스 & 접근성 ### Apache 2.0 라이선스 기존 Gemma 시리즈는 Google 자체 라이선스를 사용해 기업 법무팀의 검토 부담이 있었다. Gemma 4는 **Apache 2.0**으로 전환되어 다음이 모두 허용된다: - 상업적 사용 (유료 제품·서비스 배포 가능) - 파인튜닝 및 가중치 수정 - 수정 버전 재배포 (클로즈드 소스 포함) - 월간 활성 사용자 제한 없음 ### 지원 플랫폼 및 배포 방법 **모델 다운로드**: Hugging Face, Kaggle, Ollama **추론 프레임워크**: llama.cpp, vLLM, MLX, NVIDIA NIM **Google 공식 서비스**: Google AI Studio, AI Edge Gallery, Android Studio **클라우드 배포**: Vertex AI, Cloud Run, GKE, Google Cloud TPU --- ## 벤치마크 성능 ### 전 세대(Gemma 3) 대비 성능 향상 31B Dense 기준으로 Gemma 3 27B와 비교한 주요 지표 향상폭이다. | 벤치마크 | Gemma 3 27B | Gemma 4 31B | | -------------- | ----------- | ----------- | | MMLU-Pro | 67.6% | 85.2% | | GPQA Diamond | 42.4% | 84.3% | | LiveCodeBench | 29.1% | 80.0% | | Arena AI (텍스트) | 1365 | 1452 | ### 소형 모델 E4B 주요 성과 파라미터가 Gemma 3 27B의 6분의 1 수준임에도 불구하고 모든 벤치마크에서 전 세대 대형 모델을 능가한다. | 벤치마크 | Gemma 3 27B | Gemma 4 E4B | | ------------- | ----------- | ----------- | | MMLU-Pro | 67.6% | 69.4% | | GPQA Diamond | 42.4% | 58.6% | | LiveCodeBench | 29.1% | 52.0% | | AIME 2026 | 20.8% | 42.5% | > 6개월 전에 40GB VRAM이 필요했던 수준의 추론 능력을 이제 노트북에서 실행할 수 있다는 의미다. --- ## 활용 사례 ### 온디바이스 AI E2B·E4B 모델은 스마트폰, 태블릿, 노트북에서 클라우드 없이 동작한다. 오디오·이미지 처리까지 기기 단에서 완결되므로 프라이버시 민감 환경에 적합하다. ### 코드 생성 Gemma 4는 고성능 오프라인 코드 생성을 지원한다. 개발자의 워크스테이션을 **로컬 중심(Local-first) AI 코드 어시스턴트**로 전환할 수 있으며, Codeforces ELO 2150을 기록했다. ### 에이전트 구축 함수 호출, JSON 출력, 시스템 인스트럭션을 네이티브로 지원하므로 다양한 외부 툴·API와 연동되는 자율형 에이전트를 안정적으로 구축할 수 있다.
// COMMENTS
Newest First
ON THIS PAGE