NVIDIA NIM — 클라우드 LLM API를 내 코드에 붙이는 법

## NVIDIA NIM이란?

**NIM(NVIDIA Inference Microservices)**은 NVIDIA가 운영하는 클라우드 AI 추론 API 서비스다. Llama 3, Mistral, Qwen, Gemma 등 수십 개의 오픈소스 모델을 **OpenAI 호환 API 형식**으로 즉시 호출할 수 있다.

- 🔗 [build.nvidia.com/explore/discover](https://build.nvidia.com/explore/discover)
- 무료 크레딧으로 시작 (신규 계정 기준 1,000 API calls)
- OpenAI SDK 그대로 사용 가능 (base_url만 교체)

---

## 빠른 시작

### 1. API 키 발급
1. [build.nvidia.com](https://build.nvidia.com) → 로그인
2. 우측 상단 → "API Key" → "Generate Key"
3. `nvapi-xxxx...` 형태의 키 복사

### 2. Python으로 첫 호출

```bash
pip install openai
```

```python
from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="nvapi-YOUR_KEY_HERE"
)

response = client.chat.completions.create(
    model="meta/llama-3.1-70b-instruct",
    messages=[{"role": "user", "content": "Docker와 VM의 차이를 3줄로 설명해줘"}],
    temperature=0.7,
    max_tokens=512,
)

print(response.choices[0].message.content)
```

**핵심**: `base_url`만 바꾸면 기존 OpenAI 코드가 그대로 동작한다.

---

## 주요 모델 목록 (2025~2026)

| 모델 | 특징 | 추천 용도 |
|------|------|----------|
| `meta/llama-3.1-70b-instruct` | 강력한 범용 모델 | 코딩, 요약, 분석 |
| `meta/llama-3.3-70b-instruct` | 최신 Llama 3.3 | 최신 지식 필요 시 |
| `mistralai/mistral-large-latest` | 빠르고 효율적 | 빠른 응답, 분류 |
| `qwen/qwen2.5-72b-instruct` | 중국어/코딩 강점 | 다국어, 코드 생성 |
| `google/gemma-3-27b-it` | 경량 고성능 | 로컬 배포 고려 시 |
| `nvidia/llama-3.1-nemotron-70b-instruct` | NVIDIA 파인튜닝 | 정확도 중시 |

전체 목록: `GET https://integrate.api.nvidia.com/v1/models`

---

## 스트리밍 응답

```python
stream = client.chat.completions.create(
    model="meta/llama-3.1-70b-instruct",
    messages=[{"role": "user", "content": "FastAPI 튜토리얼 써줘"}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)
```

---

## 임베딩 (RAG에 활용)

```python
response = client.embeddings.create(
    model="nvidia/nv-embedqa-e5-v5",
    input=["Docker란 무엇인가?", "컨테이너 기술 설명"],
    encoding_format="float",
    extra_body={"input_type": "query", "truncate": "NONE"},
)

vector = response.data[0].embedding  # 1024차원 벡터
print(f"벡터 차원: {len(vector)}")
```

---

## 실전 패턴: .env로 키 관리

```python
# .env
NVIDIA_API_KEY=nvapi-xxxx

# main.py
import os
from dotenv import load_dotenv
from openai import OpenAI

load_dotenv()

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key=os.getenv("NVIDIA_API_KEY")
)
```

---

## 로컬 NIM (셀프 호스팅)

GPU 서버가 있다면 NIM 컨테이너를 직접 실행할 수도 있다:

```bash
docker run --gpus all \
  -e NGC_API_KEY=$NVIDIA_API_KEY \
  -p 8000:8000 \
  nvcr.io/nim/meta/llama-3.1-8b-instruct:latest
```

이후 `base_url="http://localhost:8000/v1"`으로 동일하게 호출. 완전한 오프라인 추론 가능.

---

## 기존 OpenAI 코드 마이그레이션

```python
# 기존 (OpenAI)
client = OpenAI(api_key="sk-...")

# NIM으로 전환 (2줄 변경)
client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="nvapi-..."
)
# 나머지 코드 그대로
```

모델명만 NIM 지원 모델로 바꾸면 끝.

---

## 정리

- **NIM** = 오픈소스 LLM을 OpenAI 호환 API로 제공하는 NVIDIA 서비스
- `base_url` + `api_key` 두 줄로 기존 코드에 붙임
- 무료 크레딧으로 프로토타입 가능, GPU 있으면 로컬 셀프호스팅도 지원
- 임베딩 모델도 제공 → RAG 파이프라인 구축 가능

NVIDIA NIM — 클라우드 LLM API를 내 코드에 붙이는 법

// COMMENTS

ON THIS PAGE