AMD MI300X vs NVIDIA H100: 데이터센터 AI 칩 경쟁, 이제 양강구도인가

AI 인프라 칩 시장이 NVIDIA 독점에서 벗어나기 시작했습니다. AMD의 **MI300X**가 실제 데이터센터에 들어가면서 "진짜 경쟁이 됩니까?"라는 질문이 현실화됐습니다.

결론부터 말하면: 아직 독주는 아니지만, 무시할 수 없는 수준이 됐습니다.

### MI300X, 어디가 다른가

- **HBM3 메모리 192GB** 탑재 — H100의 80GB 대비 2.4배 이상
- 메모리 대역폭 **5.3TB/s** — H100 대비 약 1.6배 높음
- 큰 메모리가 핵심인 LLM 추론(inference) 작업에서 유리한 구조

수치만 보면 H100보다 앞서는 항목이 있습니다. 특히 70B~180B 파라미터급 모델을 단일 칩에서 돌릴 때 MI300X의 메모리 여유가 확실히 도움이 됩니다.

### 근데 왜 다들 NVIDIA를 쓰나

- **소프트웨어 생태계**: CUDA 위에 쌓인 10년치 최적화. PyTorch, TensorFlow 성능 튜닝이 NVIDIA 중심
- **ROCm의 아직도 부족한 성숙도**: AMD의 소프트웨어 스택은 개선됐지만, 연구자·엔지니어 입장에서는 CUDA가 훨씬 편함
- **구축 레퍼런스**: 하이퍼스케일러들이 수년간 NVIDIA 기반으로 클러스터 설계. 전환 비용이 큼

마이크로소프트, 메타 등이 MI300X 도입을 발표했지만 NVIDIA 대체가 아닌 **보완재** 성격에 가깝습니다.

### 스펙 비교

| 항목 | NVIDIA H100 | AMD MI300X |
|------|------------|------------|
| HBM 용량 | 80GB | 192GB |
| 메모리 대역폭 | ~3.35TB/s | ~5.3TB/s |
| 소프트웨어 | CUDA (성숙) | ROCm (개선 중) |
| 주요 사용처 | 학습·추론 전반 | 대형 모델 추론 |

가격 경쟁 측면에서 MI300X는 H100보다 저렴하게 공급되고 있다는 보도도 있습니다. 클라우드 회사 입장에서 TCO(총 소유 비용) 계산이 달라지기 시작한 거죠.

AMD가 정말 게임을 바꾸려면 ROCm 생태계를 더 빠르게 키워야 한다고 봅니다. 칩 스펙만으로 CUDA 생태계 10년을 이기기 어렵습니다.

AMD MI300X vs NVIDIA H100: 데이터센터 AI 칩 경쟁, 이제 양강구도인가

// COMMENTS

ON THIS PAGE