엔비디아 GB200 NVL72 분석: 랙 단위로 AI를 계산한다는 것의 의미

## GB200이 뭔지 먼저

엔비디아 GB200은 Blackwell 세대 GPU 아키텍처 기반의 칩이다. 정확히는 Grace CPU 두 개와 Blackwell GPU 두 개를 하나의 모듈에 묶은 "Grace-Blackwell 슈퍼칩"이다. GB는 Grace-Blackwell의 약자다. 단일 칩이 아니라 CPU+GPU 통합 컴퓨트 모듈이라는 점이 H100과 구조적으로 다른 첫 번째 포인트다.

## NVL72가 뭔지

NVL72는 "NVLink 72 GPU" 시스템이다. GB200 슈퍼칩 36개를 하나의 랙에 꽂으면 GPU 72개, CPU 72개가 된다. NVLink Switch 5세대를 통해 72개 GPU가 하나의 거대한 GPU처럼 묶인다. 이게 NVL72의 핵심 개념이다. 개별 GPU가 아니라 "랙 전체가 하나의 연산 유닛"처럼 작동한다.

## NVLink Switch 5세대 대역폭

NVLink 5세대는 GPU 간 통신 대역폭을 대폭 늘렸다. NVL72 시스템 기준 총 양방향 대역폭은 **1.8TB/s** 수준이다. H100 DGX 시스템(8 GPU, NVLink 4세대)의 수십 배에 달한다. LLM 추론처럼 GPU 간 KV 캐시를 전송해야 하는 워크로드에서 이 대역폭 차이가 결과를 좌우한다. 모델 파라미터가 GPU 메모리를 넘어서도 NVLink 대역폭 덕분에 실질적 성능 저하가 최소화된다.

## 전력 소비와 냉각

NVL72 랙은 **120kW** 수준의 전력을 소비한다. 일반 서버 랙이 10~20kW인 것을 감안하면 6~12배다. 공랭으로는 불가능하다. 엔비디아는 NVL72를 위한 액침냉각(Direct Liquid Cooling) 또는 후면 도어 열 교환기 방식을 권장한다. 데이터센터 입장에서는 전력 밀도와 냉각 인프라를 전면 재설계해야 한다는 뜻이다. 기존 시설에 NVL72를 넣으려면 전력 인입 용량과 냉각 라인을 새로 깔아야 하는 경우가 많다.

## H100 대비 AI 추론 성능

엔비디아 공식 벤치마크 기준으로 NVL72는 H100 대비 LLM 추론 처리량이 약 **30배** 높다고 주장한다. 현실에서는 모델 크기와 배치 전략에 따라 편차가 있지만, 대형 모델(70B 이상) 추론에서 특히 차이가 두드러진다. Llama-3 70B 기준 단일 H100 서버보다 NVL72가 같은 지연 시간에 처리하는 토큰 수가 압도적으로 많다. GPT-4급 규모의 모델을 서빙하는 인퍼런스 클러스터 용도로 설계된 제품이라고 보면 된다.

## 데이터센터 도입 현실과 비용

문제는 비용이다. NVL72 단일 랙 가격은 비공개이지만 업계 추산으로 **300만~500만 달러** 수준이다. 여기에 설치 인프라(냉각, 전력), 운영 비용을 더하면 CapEx 규모가 일반 기업이 감당하기 어렵다. 현실적으로 NVL72는 하이퍼스케일러(Microsoft, Google, AWS, Meta)와 AI 전문 클라우드(CoreWeave, Lambda Labs) 그리고 국가 AI 컴퓨팅 센터를 위한 제품이다.

국내에서는 KT, SKT, NAVER Cloud 등이 Blackwell 기반 인프라 도입을 발표했지만, NVL72 풀 랙 구성인지 소규모 구성인지는 각사가 구체적으로 공개하지 않은 상태다.

## 왜 "랙 단위 AI 계산"이 의미 있는가

지금까지 AI 인프라는 "GPU N개를 네트워크로 연결"하는 방식이었다. InfiniBand나 이더넷으로 노드 간 통신을 하는 구조라 지연이 불가피했다. NVL72는 72개 GPU가 NVLink로 직접 연결돼 사실상 하나의 메모리 풀처럼 동작한다. 이는 수백조 파라미터짜리 모델을 단일 시스템에서 효율적으로 돌리거나, 극한의 저지연 추론을 요구하는 서비스에 새로운 가능성을 열어준다. AI 컴퓨팅의 단위가 "GPU 개수"에서 "랙 단위 컴퓨트 블록"으로 바뀌는 흐름, 그 중심에 NVL72가 있다.

엔비디아 GB200 NVL72 분석: 랙 단위로 AI를 계산한다는 것의 의미

// COMMENTS

ON THIS PAGE