NVIDIAのBlackwell：H100との本当の差はどこか

# NVIDIAのBlackwell：H100との本当の差はどこか

2024年に発表されたNVIDIAのBlackwellアーキテクチャ（B200/B100）は、前世代のHopper（H100）から大幅な性能向上を謳っている。だがスペックシートの数字だけで判断するのは早計だ。実際のワークロードにおける差を冷静に整理する。

## スペック上の主な変更点

**トランジスタ数とダイ構成**
B200は2つのダイを組み合わせたマルチダイ構成で、合計約2080億トランジスタ。H100（800億トランジスタ）比で約2.6倍。製造プロセスはTSMC 4NP。

**HBM容量と帯域幅**
B200はHBM3eを8スタック搭載し192GB、メモリ帯域8TB/s。H100の80GB/3.35TB/sと比べると容量2.4倍、帯域2.4倍。

**FP8 Transformer Engine**
BlackwellはFP8演算をHopperの2倍の密度で実行できる。NVIDIA公称でAI推論性能は「H100比で最大30倍」としているが、これはFP4精度での比較であり、実用ワークロードへの適用条件は限定的だ。

## 実際のユースケース別の評価

**大規模LLM訓練**
NVLink 4.0による900GB/sのGPU間帯域は、H100の900GB/s（NVLink 3.0）と同等に見えるが、NVLink Switchにより最大576個のGPUをNVLinkドメインとして構成可能になった点が本質的な変化だ。従来の8GPU NVLinkドメインから大幅に拡張され、データセンター規模でのNVLink活用が現実的になる。

**推論ワークロード**
FP8での推論性能向上は実測でH100の2〜4倍が現実的な範囲とみられる（公称30倍はFP4かつ理論値）。LLMの推論においては、メモリ容量と帯域幅のボトルネックが性能を規定するケースが多く、192GBのHBMはより大きなモデルのシングルGPU推論を可能にする。

**科学技術計算（HPC）**
FP64（倍精度）演算性能はH100の約3.5TFLOPSからB200の約5TFLOPSへの向上にとどまる。AI特化の性能向上と比べると地味だが、気象シミュレーションや分子動力学など従来のHPCワークロードへの影響は限定的だ。

## 日本市場における調達状況と価格

B200 SXMカードの参考価格は1枚あたり3〜4万ドル（2024年後半時点）。H100と比べると約1.5倍の価格帯だが、性能向上幅を考慮すると推論ワークロードではTCO改善が期待できる。

日本国内では、NECやFujitsuがBlackwell搭載システムの導入検討を表明しているが、実機評価段階にとどまっているケースが多い。ソフトバンクがNVIDIAとのパートナーシップを強化し、AI特化データセンター向けに大規模調達を進めている点が注目される。

## 競合との比較

AMD MI300XはHBMメモリ容量（192GB）でBlackwellと同等だが、NVIDIAのソフトウェアエコシステム（CUDA/cuDNN/TensorRT）の優位性は依然として大きく、エンタープライズ市場での置き換えは進んでいない。

IntelのGaudi 3はコスト競争力を訴求しているが、大規模LLM訓練での採用実績はAMDにも届いていない。

## 結論

BlackwellはHopperからの真の世代交代だが、「30倍」という数字をそのまま信じるべきではない。実用的な性能差はワークロードによって2〜10倍の範囲が現実的だ。メモリ容量の拡大と大規模NVLinkドメイン対応が最も本質的な変化であり、100Bパラメータ超のモデル訓練・推論を主目的とするユーザーには明確な価値がある。

NVIDIAのBlackwell：H100との本当の差はどこか

// COMMENTS

ON THIS PAGE