NVIDIA造了個2080億電晶體的怪物：FP4性能高達4億億次每秒

當地時間3月18日，人工智慧（AI）晶片龍頭廠商NVIDIA在美國加州聖何塞召開了GTC2024大會，正式發布了面向下一代數據中心和人工智慧應用的“核彈”——基於Blackwell架構的B200 GPU，將在計算能力上實現巨大的代際飛躍，預計將在今年晚些時候正式出貨。

同時，NVIDIA還帶來了Grace Blackwell GB200超級晶片等。

NVIDIA創始人兼CEO黃仁勛，NVIDIA目前按照每隔2年的更新頻率，升級一次GPU構架，進一步大幅提升AI晶片的性能。

兩年前推出的Hopper構架GPU雖然已經非常出色了，但我們需要更強大的GPU。

B200：2080億個電晶體，FP4算力高達 40 PFlops

NVIDIA於2022年發布了採用Hopper構架的H100 GPU之後，開始引領了全球AI市場的風潮。

此次推出的採用Blackwell構架的B200性能將更加強大，更擅長處理AI相關的任務。Blackwell構架則是以數學家David Harold Blackwell的名字命名。

據介紹，B200 GPU基於台積電的N4P製程工藝（這是上一代Hopper H100和Ada Lovelace架構GPU使用的N4工藝的改進版本），電晶體數量達到了2080億個，是H100/H200的800億個電晶體兩倍多。這也使得B200的人工智慧性能達到了20 PFlops。

黃仁勛表示，Blackwell構架B200 GPU的AI運算性能在FP8及新的FP6上都可達20 PFlops，是前一代Hopper構架的H100運算性能8 PFlops的2.5倍。

在新的FP4格式上更可達到40 PFlops，是前一代Hopper構架GPU運算性能8 PFlops的5倍。

具體取決於各種Blackwell構架GPU設備的記憶體容量和頻寬配置，工作運算執行力的實際性能可能會更高。

黃仁勛強調，而有了這些額外的處理能力，將使人工智慧企業能夠訓練更大、更復雜的模型。

需要指出的是，B200並不是傳統意義上的單一GPU。相反，它由兩個緊密耦合的GPU晶片組成，不過根據NVIDIA的說法，它們確實可以作為一個統一的CUDA GPU。

這兩個晶片通過10 TB/的NV-HBI（NVIDIA高帶寬接口）連接連接，以確保它們能夠作為一個完全一致的晶片正常工作。

同時，對於人工智慧計算來說，HBM容量也是極為關鍵。

AMD MI300X之所以被廣泛關注，除了其性能大幅提升之外，其所配備的容量高達192GB HBM（高帶寬記憶體）也是非常關鍵，相比NVIDIAH100 SXM晶片的80GB高了一倍多。

為了彌補HBM容量的不足，雖然NVIDIA也推出了配備141GB HBM的H200，但是仍大幅落後於AMD MI300X。

此次NVIDIA推出的B200則配備了同樣的192GBHBM3e記憶體，可提供8 TB/的帶寬，彌補了這一薄弱環節。

雖然NVIDIA尚未提供關於B200確切的晶片尺寸，從曝光的照片來看，B200將使用兩個全掩模尺寸的晶片，每個管芯周圍有四個HMB3e堆棧，每個堆棧為24GB，每個堆棧在1024 bit接口上具有1TB/的帶寬。

需要指出的是，H100採用的是6個HBM3堆棧，每個堆棧16GB（H200將其增加到6個24GB），這意味著H100管芯中有相當一部分專門用於六個HBM記憶體控制器。

B200通過將每個晶片內部的HBM記憶體控制器接口減少到四個，並將兩個晶片連接在一起，這樣可以相應地減少HBM記憶體控制器接口所需的管芯面積，可以將更多的電晶體用於計算。

支持全新FP4/FP6格式

基於Blackwell架構的B200通過一種新的FP4數字格式達到了這個數字，其吞吐量是Hopper H100的FP8格式的兩倍。

因此，如果我們將B200與H100堅持使用FP8算力來比較，B200僅提供了比H100多2.5倍的理論FP8計算（具有稀疏性），其中很大一部分原因來自於B200擁有兩個計算晶片。

對於H100和B200都支持的大多數的數字格式，B200最終在理論上每晶片算力提升了1.25倍。

再次回到4NP工藝節點在密度方面缺乏大規模改進的問題上。

移除兩個HBM3接口，並製作一個稍大的晶片可能意味著B200在晶片級的計算密度上甚至不會顯著更高。當然，兩個晶片之間的NV-HBI接口也會占用一些管芯面積。

NVIDIA還提供了B200的其他數字格式的原始計算值，並應用了通常的縮放因子。

因此，FP8的吞吐量是FP4吞吐量的一半（10PFlops級），FP16/BF16的吞吐量是5PFlops級的一半，TF32的支持是FP16的一半（2.5PFlops級）——所有這些都具有稀疏性，因此密集操作的速率是這些速率的一半。

同樣，在所有情況下，算力可以達到單個H100的2.5倍。

那麼FP64的算力又如何呢？

H100被評定為每GPU可提供60萬億次的密集FP64計算。如果B200具有與其他格式類似的縮放比例，則每個雙晶片GPU將具有150萬億次浮點運算。

但是，實際上，B200的FP64性能有所下降，每個GPU約為45萬億次浮點運算。這也需要一些澄清，因為GB200超級晶片將是關鍵的構建塊之一。

它有兩個B200 GPU，可以進行90萬億次的密集FP64計算，與H100相比，其他因素可能會提高經典模擬的原始吞吐量。

另外，就使用FP4而言，NVIDIA有一個新的第二代Transformer Engine，它將幫助用戶自動將模型轉換為適當的格式，以達到最大性能。

除了支持FP4，Blackwell還將支持一種新的FP6格式，這是一種介於FP4缺乏必要精度但也不需要FP8的情況下的解決方案。

無論結果的精度如何，NVIDIA都將此類用例歸類為“專家混合”（MoE）模型。

最強AI晶片GB200

NVIDIA還推出了GB200超級晶片，它基於兩個B200 GPU，外加一個Grace CPU，也就是說，GB200超級晶片的理論算力將會達到40PFlops，整個超級晶片的可配置TDP高達2700W。

黃仁勛也進一步指出，包含了兩個Blackwell GPU和一個採用Arm構架的Grace CPU的B200，其推理模型性能比H100提升30倍，成本和能耗降至了原來的1/25。

除了GB200超級晶片之外，NVIDIA還帶來了面向伺服器的解決方案HGX B200，它基於在單個伺服器節點中使用八個B200 GPU和一個x86 CPU（可能是兩個CPU）。

這些TDP配置為每個B200 GPU 1000W，GPU可提供高達18PFlops的FP4吞吐量，因此從紙面上看，它比GB200中的GPU慢10%。

此外，還有HGX B100，它與HGX B200的基本架構相同，有一個x86 CPU和八個B100 GPU，只是它被設計為與現有的HGX H100基礎設施兼容，並允許最快速地部署Blackwell GPU。

因此，每個GPU的TDP被限制為700W，與H100相同，吞吐量降至每個GPU 14PFlops的FP4。

值得注意的是，在這三款晶片當中，HBM3e的每個GPU的帶寬似乎都是8 TB/。因此，只有功率，以及GPU核心時鍾，也許還有核心數上會有不同。

但是，NVIDIA尚未透露任何Blackwell GPU中有多少CUDA內核或流式多處理器的細節。

第五代NVLink和NVLink Switch 7.2T

人工智慧和HPC工作負載的一大限制因素是不同節點之間通信的多節點互連帶寬。

隨著GPU數量的增加，通信成為一個嚴重的瓶頸，可能占所用資源和時間的60%。

在推出B200的同時，NVIDIA還推出其第五代NVLink和NVLink Switch 7.2T。

新的NVLink晶片具有1.8 TB/的全對全雙向帶寬，支持576 GPU NVLink域。它也是基於台積電N4P節點上製造的，擁有500億個電晶體。

該晶片還支持晶片上網絡計算中的3.6萬億次Sharp v4，這有助於高效處理更大的模型。

上一代NVSwitch支持高達100 GB/的HDR InfiniBand帶寬，是一個巨大飛躍。

與H100多節點互連相比，全新的NVSwitch提供了18X的加速。這將大大提高萬億參數模型人工智慧網絡的可擴展性。

與此相關的是，每個Blackwell GPU都配備了18個第五代NVLink連接。這是H100連結數量的18倍。

每條鏈路提供50 GB/的雙向帶寬，或每條鏈路提供100 GB/的帶寬。

GB200 NVL72伺服器

NVIDIA還針對有大型需求的企業提供伺服器成品，提供完整的伺服器解決方案。

例如GB200 NVL72伺服器，提供了36個CPU和72個Blackwell構架GPU，並完善提供一體水冷散熱方案，可實現總計720 PFlops的AI訓練性能或1，440 PFlops的推理性能。

它內部使用電纜長度累計接近2英里，共有5，000條獨立電纜。

具體來說，GB200 NVL72基本上是一個完整的機架式解決方案，有18個1U伺服器，每個伺服器都有兩個GB200超級晶片。

然而，在GB200超級晶片的組成方面，與上一代相比存在一些差異。

曝光圖片和規格表明，兩個B200 GPU與一個Grace CPU匹配，而GH100使用了一個較小的解決方案，將一個GraceCPU與一個H100 GPU放在一起。

最終結果是，GB200超級晶片計算托盤將具有兩個Grace CPU和四個B200 GPU，具有80PFlops的FP4 AI推理和40 PB的FP8 AI訓練性能。

這些是液冷1U伺服器，它們占據了機架中典型的42個單元空間的很大一部分。

除了GB200超級晶片計算托盤，GB200 NVL72還將配備NVLink交換機托盤。

這些也是1U液冷托盤，每個托盤有兩個NVLink交換機，每個機架有九個這樣的托盤。每個托盤提供14.4 TB/的總帶寬，加上前面提到的Sharp v4計算。

GB200 NVL72總共有36個Grace CPU和72個Blackwell GPU，FP8運算量為720 PB，FP4運算量為1440 PB。有130 TB/的多節點帶寬，NVIDIA表示NVL72可以處理多達27萬億個AI LLM參數模型。

目前，亞馬遜的AWS已計劃采購由2萬片GB200晶片組建的伺服器集群，可以部署27萬億個參數的模型。

除了亞馬遜的AWS之外，DELL、Alphabet、Meta、微軟、OpenAI、Oracle和TESLA成為Blackwell系列的採用者之一。

來源：快科技