Home Tags H100

Tag: H100

80GB都不夠了 NVIDIA H100計算卡要上120GB HBM2e顯存

你的顯卡顯存有多大?想沒想過顯存超過100GB是什麼概念? NVIDIA上一代加速計算卡A100首發40GB HBM2顯存, ,其中PCIe5.0形態的還是HBM2e,SXM5形態的則是最新標准HBM3。 根據最新曝料,NVIDIA正在准備120GB HBM2e顯存版的H100計算卡,PCIe形態,顯存帶寬還是高達3TB/。 GH100核心採用台積電4nm工藝製造,集成800億個電晶體,核心面積814平方毫米,內部集成了多達18432個CUDA核心、576個Tensor核心、60MB二級緩存,分為144個SM單元,另有12個512-bit顯存控制器,總位寬6144-bit。 H100 SXM版本只開放15872個CUDA核心、528個Tensor核心,PCIe版本更是只有14952個CUDA核心、456個Tensor核心,功耗卻最高達700W。 曝料稱,新的H100 120GB PCIe將開啟16896個CUDA核心,距離滿血更近了一步。 另外,曝料中還提到了一款代號ADLCE的工程樣卡,顯然是RTX 40 Ada Lovelace的縮寫,應該對應RTX 4090,不過功耗限制在了350W。 來源:快科技

發布半年了 NVIDIA最強顯卡H100終於上市:24萬一塊買不買?

在昨晚的GTC 2022大會(上下半年各一次),NVIDIA不僅發布了RTX 4080/4090系列顯卡,還宣布了一件事,那就是3月份發布的計算卡H100終於開始出貨,也是10月份開始上市。 H100加速卡今年3月份的GTC大會上發布,距今剛好半年了,採用Hopper架構,GH100大核心,台積電4nm製造工藝、CoWoS 2.5D封裝技術,集成800億個電晶體,核心面積814平方毫米。 它擁有18432個CUDA核心、576個Tensor核心、60MB二級緩存,支持6144-bit位寬的六顆HBM3/HBM2e,支持PCIe 5.0,支持第四代NVLink總線。 H100計算卡有SXM、PCIe 5.0兩種樣式,其中SXM版本15872個CUDA核心、528個Tensor核心,PCIe 5.0版本14952個CUDA核心、456個Tensor核心,功耗最高達700W。 H100的價格沒有官方消息,不過之前日本市場有過預售,PCIe版本的都要475多萬日元,人民幣要24萬元以上了,SXM版價格應該會更貴。 根據NVIDIA的說法,H100加速卡10月份上市,其中亞馬遜、谷歌及微軟三大雲服務供應商會率先實用,還有就是科研機構及高校,洛斯阿拉莫斯國家實驗室和瑞士國家超級計算中心、日本築波大學也會采購。 來源:快科技

NVIDIA 4nm GPU性能首秀:4.5倍提升

9月9日,MLCommons社區發布了最新的MLPerf 2.1基準測試結果,新一輪基準測試擁有近5300個性能結果和2400個功耗測量結果,分別比上一輪提升了1.37倍和1.09倍,MLPerf的適用范圍進一步擴大。 阿里巴巴、華碩、Azure、壁仞科技、戴爾、富士通、技嘉、H3C、HPE、浪潮、Intel、Krai、聯想、Moffett、Nettrix、Neural Magic、NVIDIA、OctoML、高通、SAPEON 和 Supermicro 均是本輪測試的貢獻者。 其中,NVIDIA表現依然亮眼,首次攜H100參加MLPerf測試,並在所有工作負載中刷新世界紀錄。 H100打破世界記錄,較A100性能提升4.5倍 ,與兩年前推出的NVIDIA Ampere架構相比,實現了數量級的性能飛躍。 黃仁勛曾在 GTC 2022 上表示,20個H100 GPU便可以承托相當於全球網際網路的流量,能夠幫助客戶推出先進的推薦系統及實時運行數據推理的大型語言模型。 令一眾AI從業者期待的H100原本定於2022年第三季度正式發貨,目前處於接受預定狀態,用戶的真實使用情況和H100的實際性能尚不可知,因此可以通過最新一輪的MLPerf測試得分提前感受H100的性能。 在本輪測試中,對比Intel Sapphire Rapids、Qualcomm Cloud AI 100、Biren BR104、SAPEON X220-enterprise,NVIDIA H100不僅提交了數據中心所有六個神經網絡模型的測試成績,且在單個伺服器和離線場景中均展現出吞吐量和速度方面的領先優勢。 以NVIDIA A100相比,H100在MLPerf模型規模最大且對性能要求最高的模型之一——用於自然語言處理的BERT模型中表現出4.5倍的性能提升,在其他五個模型中也都有1至3倍的性能提升。 H100之所以能夠在BERT模型上表現初出色,主要歸功於其Transformer Engine。 其他同樣提交了成績的產品中,只有Biren BR104在離線場景中的ResNet50和BERT-Large模型下,相比NVIDIA A100有一倍多的性能提升,其他提交成績的產品均未在性能上超越A100。 而在數據中心和邊緣計算類別的場景中,A100 GPU的測試成績依然不俗,得益於NVIDIA...

700W功耗撐不住了 NVIDIA計算卡第一次上液冷:節能30%

對於下一代顯卡,AMD、NVIDIA在台北電腦展期間都三緘其口,絲毫沒有提及。AMD只講處理器,NVIDIA則只說數據中心GPU、CPU。 NVIDIA宣布,Ampere架構的計算卡A100、桌面超算HGX A100,Hopper架構的計算卡H100、桌面超算HGX H100,將在該系列中首次引入液冷散熱,從而提高散熱效率、降低能耗、節省空間和成本。 NVIDIA表示,它們都採用了直接晶片(Direct-to-Chip)冷卻技術。 HGX A100、HGX H100系統採用的都是SXM樣式計算卡,在機架內直接整合液冷散熱系統,取代傳統的系統風冷散熱,體積更加緊湊,前者現已出貨,後者今年第四季度。 A100 PCIe(80GB)、H100 PCIe獨立計算卡則有些類似桌面液冷顯卡,整合水冷頭,不過接口放置在尾部,以便對接液冷系統,前者今年第三季度出貨,後者明年初。 數據中心服務商Equinix正在實驗室中測試自己的首款液冷GPU方案,結果發現,採用液冷技術的數據中心工作負載可與風冷設施持平,同時消耗的能源減少了約30%。 同時,液冷版的A100/H100 PCIe只需占用一個插槽位,相比傳統兩個插槽位的風冷版,可以節省最多66%的機架空間。 NVIDIA估計,液冷數據中心的PUE(電源使用效率)可能達到1.15,遠低於風冷的PUE 1.6。 採用台積電4nm工藝製造、CoWoS 2.5D晶圓級封裝,集成800億個電晶體、18432個CUDA核心、576個Tensor核心、60MB二級緩存,可搭配6144-bit HBM2e/HBM3高帶寬內存。 H100計算卡支持SXM、PCIe 5.0兩種形態,其中後者功耗高達史無前例的700W,相比A100多了整整300W。 SXM5版本只開啟15872個CUDA核心、528個Tensor核心、50MB二級緩存。 PCIe 5.0版本則只有14952個CUDA核心、456個Tensor核心。 來源:快科技

NVIDIA H100 SXM實物曝光:核心面積814mm²,80GB HBM3顯存

在GTC 2022上,英偉達發布了新一代基於Hopper架構的H100,用於下一代加速計算平台。其擁有800億個電晶體,為CoWoS 2.5D晶圓級封裝,單晶片設計,採用了台積電(TSMC)為英偉達量身定製的4nm工藝製造。 近日,ServeTheHome發布了NVIDIA H100 SXM的實物近照,可以看到SXM外形的新設計,PCB型號為PG520。據了解,搭載的GH100晶片面積大概為814 mm²,位於正中間,周圍排列了六顆HBM3顯存,容量為80GB。與上一代的A100相比,H100的連接布局也發生了變化,變得更短一些。NVIDIA H100 SXM的TDP高達700W,相比基於 Ampere和Volta架構的同類產品要高出250W到300W,不過H100的PCIe版則只有350W。 完整的GH100晶片配置了8組GPC、72組TPC、144組SM、共18432個FP32 CUDA核心。其採用了第四代Tensor Core,共576個,並配有60MB的L2緩存。有不過實際產品中沒有全部打開,其中SXM版本中啟用了132組SM,共16896個FP32 CUDA核心,528個Tensor Core以及50MB的L2緩存,而PCIe 5.0版本則啟用了114組SM,FP32 CUDA核心數量只有14592個。此外,GH100支持英偉達第四代NVLink接口,可提供高達900 GB/s的帶寬。同時GH100是第一款支持PCIe 5.0標準的GPU,也是第一款採用HBM3的GPU,最多支持六顆HBM3,帶寬為3TB/s,是A100採用HBM2E的1.5倍。 近期日本地區有零售商已列出了NVIDIA H100 PCIe,顯示價格為4745950日元(約合36567.5美元/人民幣241471.3元)。由於NVIDIA H100 SXM規格更高,擁有更多CUDA核心,價格有可能會更貴。 ...

24.2萬元 NVIDIA 4nm H100計算卡第一次露出真容:80GB顯存

3月底的GTC 2022大會上,NVIDIA正式發布了 一個半月過去了,我們終於看到了這款新卡的真容。 依然是傳統的SXM樣式規格,但整體布局相比上代Ampere A100有了很大變化,而正中間自然就是GH100核心,旁邊圍繞著六顆HBM3內存/顯存,總容量達80GB。 GH100核心採用台積電4nm製造工藝、CoWoS 2.5D封裝技術,集成800億個電晶體,核心面積814平方毫米。 它擁有18432個CUDA核心、576個Tensor核心、60MB二級緩存,支持6144-bit位寬的六顆HBM3/HBM2e,支持PCIe 5.0,支持第四代NVLink總線。 H100計算卡有SXM、PCIe 5.0兩種樣式,其中SXM版本15872個CUDA核心、528個Tensor核心,PCIe 5.0版本14952個CUDA核心、456個Tensor核心,功耗最高達700W。 上市時間未定,不過日本最近開啟了PCIe版本的預售,價格高達4745950日元,約合人民幣24.2萬元。 SXM版本的或許會更貴。 來源:快科技

英偉達H100計算卡登陸日本市場,約合人民幣24萬元

在GTC 2022上,英偉達發布了新一代基於Hopper架構的H100,用於下一代加速計算平台。NVIDIA H100擁有800億個電晶體,為CoWoS 2.5D晶圓級封裝,單晶片設計,採用了台積電(TSMC)的4nm工藝製造,而且是為英偉達量身定製的版本。 英偉達表示,預計今年第三季度開始供貨,不過並沒有給出H100計算卡的價格。近期日本地區有零售商已列出了H100,顯示價格為4745950日元(約合36567.5美元/人民幣241471.3元)。改價格包含了運費和稅費,若僅計算卡本身是4313000日元(約合33231.7美元/人民幣219443.1元)。 H100分別有SXM和PCIe兩種外形,以支持不同的伺服器設計要求,此次日本零售商放出的是基於PCIe的版本。 完整的GH100晶片配置了8組GPC、72組TPC、144組SM、共18432個FP32 CUDA核心。其採用了第四代Tensor Core,共576個,並配有60MB的L2緩存。有不過實際產品中沒有全部打開,其中SXM5版本中啟用了132組SM,共16896個FP32 CUDA核心,528個Tensor Core以及50MB的L2緩存,而PCIe 5.0版本則啟用了114組SM,FP32 CUDA核心數量只有14592個。此外,前者的TDP達到了700W,後者則為350W。 此外,H100支持英偉達第四代NVLink接口,可提供高達900 GB/s的帶寬。同時H100是第一款支持PCIe 5.0標準的GPU,也是第一款採用HBM3的GPU,最多支持六顆HBM3,帶寬為3TB/s,是A100採用HBM2E的1.5倍,默認顯存容量為80GB。 ...

配備80GB顯存 NVIDIA H100 Hopper加速計算卡上市:價格超24萬元

今天,Videocardz報導稱,日本一零售商以4745950日元(約合人民幣24.16萬元)的價格,掛出了NVIDIA最新的H100 Hopper加速計算卡。 這款加速卡是NVDIA首款採用採用台積電4nm製程工藝的GPU,它採用CoWoS 2.5D晶圓級封裝,單晶片設計,集成高達800億個電晶體。 完整版有8組GPC(圖形處理器集群)、72組TPC(紋理處理器集群)、144組SM(流式多處理器單元),而每組SM有128個FP32 CUDA核心,總計18432個。 此外,它還有著高達80GB的HBM2e顯存,擁有2TB/的帶寬,並是第一款採用PCIe Express 5.0的NVIDIA卡。 根據此前消息,這款H100 Hopper預計要在今年的下半年才會正式上市。 來源:快科技

700W功耗+800億電晶體 NVIDIA的H100核心定製4nm工藝:更省電

,這是一款專為AI及HPC高性能計算而生的超級GPU,擁有1.8萬個CUDA核心,功耗飆升到700W。 H100的生產也是極為復雜的,它沒有使用傳聞的台積電5nm,而是定製版的台積電4nm工藝,名字為4N,而台積電的4nm官方命名是N4,集成了超過800億電晶體,核心面積高達814mm2,作為對比的話,上代的A100核心是台積電7nm工藝,542億電晶體,核心面積826mm2。 由此可見,在面積幾乎相同的情況下,H100核心的電晶體密度提升了48%左右,不過比台積電官方宣稱的密度提升80%要少。 NVIDIA上次使用台積電定製工藝還要追溯到12nm圖靈時代,這次則是4nm工藝定製版,但是跟之前一樣,NVIDIA並沒有明確給出定製版4N工藝跟台積電N4工藝區別有多少。 目前所知的差異主要是能效,4N工藝重點優化了省電,雖然SXM版H100最高功耗有700W,但是PCIe 5.0版的功耗是350W,相比目前的A100核心的400W還低了,但性能提升是數倍的,可見能效之高。 來源:快科技

97%遊戲性能沒了 NVIDIA閹割H100 GPU圖形功能:1.8萬核心砍到512核心

昨晚的GTC 2022大會上,,也是萬眾期待的Hopper新架構,跳過5nm直接上了台積電4nm工藝,800億電晶體,功耗最高可達700W,各方面性能很好很強大。 完整版有8組GPC(圖形處理器集群)、72組TPC(紋理處理器集群)、144組SM(流式多處理器單元),而每組SM有128個FP32 CUDA核心,總計18432個。 相比目前的Ampere GPU架構的1萬個CUDA核心,Hoper的1.8萬CUDA核心提升很大,但是大家不要期待H100的遊戲性能了,因為NVIDIA這次一刀砍到底,閹割得非常厲害。 從NVIDIA的白皮書中可以確認,H100砍掉了大量GPU相關功能,不論是PCIe 5.0版還是SMX版的H100核心中,只有2組TPC單元才可以支持圖形運算,包括矢量、幾何及像素渲染。 2組TPC單元也就是4組SM單元,總計512個CUDA核心是可以跑遊戲的,相比完整的1.8萬核心來說微不足道,性能只相當於完整版H100核心的1/36,也就3%左右,97%的遊戲性能沒了。 NVIDIA解釋說H100是專為AI、HPC及數據分析而生的,並不是為了遊戲而設計的。 考慮到H100在AI、HPC等性能上的提升,NVIDIA閹割大量遊戲功能以便減少設計難度也是可以理解的,畢竟加速卡也不會用來玩遊戲。 針對遊戲玩家的是Ada Lovelace架構,此前爆料也是最多18432個流處理器,但是它會大量閹割計算單元,保留完整的圖形及光追單元,跟H100的設計理念反過來。 來源:快科技

英偉達發布Hopper架構H100:800億個電晶體、80GB的HBM3、TDP為700W

在GTC 2022上,英偉達發布了新一代基於Hopper架構的H100,用於下一代加速計算平台。正如英偉達所言,這是專門為超級計算機設計的GPU,專注於AI性能,通過架構更新和工藝提升,使其性能和效率提高到新的水平。 NVIDIA H100擁有800億個電晶體,相比上一代的A100,有著六倍的性能提升以及兩倍的MMA改進。該款GPU為CoWoS 2.5D晶圓級封裝,單晶片設計,採用了台積電(TSMC)的4nm工藝製造,不過是為英偉達量身定製的版本,與一般的N4工藝有所差別。 英偉達沒有公布H100的核心數量和頻率。據了解,完整的GH100晶片配置了8組GPC、72組TPC、144組SM、共18432個FP32 CUDA核心。其採用了第四代Tensor Core,共576個,並配有60MB的L2緩存。有不過實際產品中沒有全部打開,其中SXM5版本中啟用了128組SM,共15872個FP32 CUDA核心,528個Tensor Core以及50MB的L2緩存,而PCIe 5.0版本雖然也啟用了128組SM,但FP32 CUDA核心只有14952個。此外,前者的TDP達到了700W,後者則為350W。 英偉達表示H100的FP64/FP32運算性能為60 TFlops,FP16運算性能為2000 TFlops,TF32運算性能為1000 TFlops,均是A100的三倍。此外英偉達在Hopper架構上改進了對FP8運算的支持,使其運算性能達到了4000 TFlops,是A100六倍。由於缺乏原生FP8,不得不依賴於FP16,英偉達通過新的轉換器引擎,將根據工作負載在FP8和FP16之間自動切換。 據英偉達介紹,H100支持英偉達第四代NVLink接口,可提供高達900 GB/s的帶寬。同時H100還支持不使用NVLink接口的系統,以PCIe 5.0代替,帶寬為128 GB/s。英偉達表示,H100是第一款支持PCIe 5.0標準的GPU,也是第一款採用HBM3的GPU,最多支持六顆HBM3,帶寬為3TB/s,是A100採用HBM2E的1.5倍,默認顯存容量為80GB。 英偉達還添加了旨在加速動態編程的新DPX指令,以幫助更廣泛的算法,包括路線優化和基因組學。英偉達表示這些算法的性能比其上一代GPU快了七倍,比基於CPU的算法快了四十倍。Hopper架構還對安全性做了改進,多實例GPU(MIG)現在允許在單個H100 GPU上運行七個安全租戶。 與A100一樣,英偉達會將新款的H100添加到DGX H100機架式伺服器。每個DGX H100系統包含8塊H100,共640GB的HBM3顯存,可提供32 PFlops的AI計算性能,以及480 TFlops的FP64運算性能。系統中的每個GPU都通過第四代NVLink連接,帶寬是上一代的1.5倍,加上全新的VNLink Swtich互連系統,可連接32個DGX...

玩水冷不麻煩,海盜船新款一體式水冷散熱器上市

  雖然水冷散熱在效能上有一定優勢,不過水冷平台搭建的繁瑣讓很多玩家望而卻步。因此,一體式水冷散熱器的誕生為這些玩家帶了福音。日前,海盜船H80和H100兩款一體式水冷散熱器正式上市,玩家們的選擇又增多了。   海盜船水冷散熱器H100採用了一體式設計,水冷頭與水泵渾然一體,配置了尺寸為240mm的雙風扇熱排,在安裝大大簡化的同時效能並不遜色於傳統的水冷系統。   海盜船H80同樣採用了一體式設計,水冷頭和水泵同樣整合在一起,不過熱排更換為120mm,前後各配置了1把12cm的散熱風扇,同樣具有效能好、安裝方便的優點。   目前這兩款產品已經正式上市,其中海盜船H100的報價為119美元,H80的則為109美元,詳情可瀏覽海盜船官方網站。 ...

又見偷跑,海盜船一體式水冷散熱器H80與H100共同曝光

  我們不時看到,雖然某件產品尚未正式發布,不過總會被部分在線商城「無意間」放上貨架,讓我們得以提前一睹其真面目,正如海盜船Hydro系列一體式CPU水冷散熱器H100和H80一樣。   根據媒體Sweclockers的報導,他們在無意間發現了發現,海盜船Hydro系列一體式CPU水冷散熱器H100和H80已經在某個在線商城開啟了銷售,但海盜船並沒有發布這兩款產品,可以看出,有人偷跑了。   據顯示,H100和H80散熱器都採用了一體式設計,在安裝上比傳統水冷系統要簡單很多。兩款散熱器均支持英特爾LGA 775/1155/1156/1366和AMD AM2/AM2+/AM3平台,均標配兩把120mm的散熱風扇,不同的是,H80採用的是120mm的熱排,兩把風扇以一吹一吸的方式散熱;H100則採用的240mm的熱排,兩把風扇並排散熱。   另外,根據「偷跑」的商城頁面顯示,盜船Hydro系列散熱器H100和H80的售價分別為1075瑞典克朗和965瑞典克朗(折合人民幣1115元和1000元),考慮到這兩款水冷散熱器仍未正式發布,這個價格僅供參考。 ...