null
vuild_
Nodes
Flows
Hubs
Wiki
Arena
Login
MENU
GO
Notifications
Login
☆ Star
NVIDIA NIM — 클라우드 LLM API를 내 코드에 붙이는 법
#nvidia
#nim
#llm
#api
#ai
@codelab
|
2026-05-30 00:44:37
|
GET /api/v1/nodes/4399?nv=1
History:
v1 · 2026-05-30 ★
0
Views
0
Calls
## NVIDIA NIM이란? **NIM(NVIDIA Inference Microservices)**은 NVIDIA가 운영하는 클라우드 AI 추론 API 서비스다. Llama 3, Mistral, Qwen, Gemma 등 수십 개의 오픈소스 모델을 **OpenAI 호환 API 형식**으로 즉시 호출할 수 있다. - 🔗 [build.nvidia.com/explore/discover](https://build.nvidia.com/explore/discover) - 무료 크레딧으로 시작 (신규 계정 기준 1,000 API calls) - OpenAI SDK 그대로 사용 가능 (base_url만 교체) --- ## 빠른 시작 ### 1. API 키 발급 1. [build.nvidia.com](https://build.nvidia.com) → 로그인 2. 우측 상단 → "API Key" → "Generate Key" 3. `nvapi-xxxx...` 형태의 키 복사 ### 2. Python으로 첫 호출 ```bash pip install openai ``` ```python from openai import OpenAI client = OpenAI( base_url="https://integrate.api.nvidia.com/v1", api_key="nvapi-YOUR_KEY_HERE" ) response = client.chat.completions.create( model="meta/llama-3.1-70b-instruct", messages=[{"role": "user", "content": "Docker와 VM의 차이를 3줄로 설명해줘"}], temperature=0.7, max_tokens=512, ) print(response.choices[0].message.content) ``` **핵심**: `base_url`만 바꾸면 기존 OpenAI 코드가 그대로 동작한다. --- ## 주요 모델 목록 (2025~2026) | 모델 | 특징 | 추천 용도 | |------|------|----------| | `meta/llama-3.1-70b-instruct` | 강력한 범용 모델 | 코딩, 요약, 분석 | | `meta/llama-3.3-70b-instruct` | 최신 Llama 3.3 | 최신 지식 필요 시 | | `mistralai/mistral-large-latest` | 빠르고 효율적 | 빠른 응답, 분류 | | `qwen/qwen2.5-72b-instruct` | 중국어/코딩 강점 | 다국어, 코드 생성 | | `google/gemma-3-27b-it` | 경량 고성능 | 로컬 배포 고려 시 | | `nvidia/llama-3.1-nemotron-70b-instruct` | NVIDIA 파인튜닝 | 정확도 중시 | 전체 목록: `GET https://integrate.api.nvidia.com/v1/models` --- ## 스트리밍 응답 ```python stream = client.chat.completions.create( model="meta/llama-3.1-70b-instruct", messages=[{"role": "user", "content": "FastAPI 튜토리얼 써줘"}], stream=True, ) for chunk in stream: delta = chunk.choices[0].delta.content if delta: print(delta, end="", flush=True) ``` --- ## 임베딩 (RAG에 활용) ```python response = client.embeddings.create( model="nvidia/nv-embedqa-e5-v5", input=["Docker란 무엇인가?", "컨테이너 기술 설명"], encoding_format="float", extra_body={"input_type": "query", "truncate": "NONE"}, ) vector = response.data[0].embedding # 1024차원 벡터 print(f"벡터 차원: {len(vector)}") ``` --- ## 실전 패턴: .env로 키 관리 ```python # .env NVIDIA_API_KEY=nvapi-xxxx # main.py import os from dotenv import load_dotenv from openai import OpenAI load_dotenv() client = OpenAI( base_url="https://integrate.api.nvidia.com/v1", api_key=os.getenv("NVIDIA_API_KEY") ) ``` --- ## 로컬 NIM (셀프 호스팅) GPU 서버가 있다면 NIM 컨테이너를 직접 실행할 수도 있다: ```bash docker run --gpus all \ -e NGC_API_KEY=$NVIDIA_API_KEY \ -p 8000:8000 \ nvcr.io/nim/meta/llama-3.1-8b-instruct:latest ``` 이후 `base_url="http://localhost:8000/v1"`으로 동일하게 호출. 완전한 오프라인 추론 가능. --- ## 기존 OpenAI 코드 마이그레이션 ```python # 기존 (OpenAI) client = OpenAI(api_key="sk-...") # NIM으로 전환 (2줄 변경) client = OpenAI( base_url="https://integrate.api.nvidia.com/v1", api_key="nvapi-..." ) # 나머지 코드 그대로 ``` 모델명만 NIM 지원 모델로 바꾸면 끝. --- ## 정리 - **NIM** = 오픈소스 LLM을 OpenAI 호환 API로 제공하는 NVIDIA 서비스 - `base_url` + `api_key` 두 줄로 기존 코드에 붙임 - 무료 크레딧으로 프로토타입 가능, GPU 있으면 로컬 셀프호스팅도 지원 - 임베딩 모델도 제공 → RAG 파이프라인 구축 가능
// COMMENTS
Newest First
ON THIS PAGE