神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

盼星星盼月亮,NVIDIA GeForce RTX 40系列顯卡終於來了。隨著以太坊的轉型、“礦潮”的退去,遊戲玩家們終於有希望回歸本源、體驗新一代遊戲生活。

RTX 40系列在架構、技術上有哪些革新?光追、DLSS 3真的有那麼神奇嗎?首發價格為什麼定那麼高?

今天,我們就來好好談一談。

神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

【Ada架構初探:結構基本不變 規模暴漲】

NVIDIA近些年的GPU架構代號,都來自歷史上如雷貫耳的著名物理學家,比如Tesla特斯拉、Fermi費米、Kepler克卜勒、Maxwell麥克斯韋、Volta伏特、Pascal帕斯卡、Turing圖靈、Ampere安培……

GPU核心編號前綴一般都是字母“G”(代表Graphics)和代號首字母的組合,比如GT、GF、GK、GM、GP、GA。

當然,Turing系列有些特殊,因為GT已經用過了,所以改成了TU。

神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

RTX 40系列的架構代號、編號則都有些不同。

“Ada Lovelace”(以下簡稱Ada),即阿達·洛夫萊斯,原名奧古斯塔·阿達·拜倫(Augusta Ada Byron),著名英國詩人拜倫之女,數學家,電腦程式創始人,為計算程序擬定了“算法”, 建立了循環和子程序的概念,寫作的第一份“程序設計流程圖”被珍視為“第一位給計算機寫程序的人”,本人也被稱為“程式設計師之母”。

為表紀念,美國國防部將耗費巨資、歷時近20年研製成功的高級程序語言命名為Ada語言,被公認為是第四代計算機語言的主要代表。

GA的編號方式也剛剛用過,所以這一代都是AD系列。

神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

Ada AD10x系列核心採用NVIDIA單獨定製的TSMC 4N工藝製造,其中旗艦核心AD102集成最多763億個電晶體。

這是三星8nm工藝GA102 283億個的足足2.7倍,但核心面積反而從628平方毫米縮小到608平方毫米,電晶體密度高達1.255億個/平方毫米,提升了超過1.7倍。

僅僅四年前的Turing RTX 20,台積電12nm工藝,也才186億個電晶體,每平方毫米還不到2500萬個,實在令人感慨技術進步之快。這部分會在後邊詳談。

神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

新的Ada架構全面升級了SM流式多處理器、RT光追核心、Tensor張量核心、視頻編解碼引擎,還帶來了真正強大實用的光流處理器(OFA),但這一次徹底去掉了NVLink總線模塊,永別了SLI。

AD102核心共有18432個CUDA核心(分為12組GPC/72組TPC/144組SM)、576個第四代Tensor Core張量核心、144個第三代RT Core光追核心、576個紋理單元、192個ROP單元、18MB一級緩存、96MB二級緩存、36MB寄存器文件。

其中,一級緩存增大了71%,二級緩存不但是Ampere架構的多達16倍,而且經過徹底重構,對於任何應用都能帶來明顯提升,尤其是光追中的路徑追蹤等復雜操作會獲益匪淺。

或許,這就是NVIDIA敢於把產品顯存位寬使勁往下砍的原因,大容量、高帶寬的二級緩存可以有效彌補帶寬,就像AMD Infinity Cache無限緩存,只是後者需要大容量才能提現優勢,Ada這邊做到96MB也不算太大,顯然帶寬高得多(暫無具體數據)。

值得一提的是,AD102核心有288個FP64雙精度浮點核心(每組SM 2個),浮點性能是FP32的1/64,專門用於處理FP64代碼,包括FP64張量核心代碼。

神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

GPC依然是NVIDIA GPU的頂層組成單元,所有的關鍵圖形單元都在這里,結構組成上整體而言Ampere架構沒什麼不同。

每個GPC包括一個獨立光柵引擎、兩個ROP分區(每個包含8個ROP單元)、六組TPC,而每個TPC又包括一個多邊形引擎、兩組SM。

神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

SM單元的內部組成也和Ampere如出一轍,可以分為四個部分(分區),以及128KB一級數據緩存/共享記憶體、一個第三代RT光追核心。

每個分區內又有64KB寄存器文件、零級指令緩存、一個Warp調度器、一個分配單元、16個FP32單精度浮點CUDA核心、16個FP32/INT32單精度浮點和整數混合CUDA核心、一個第四代Tensor張量核心、四個載入存儲單元、一個特殊功能單元(SFU)用於執行圖形差值指令。

神之飛躍 RTX 40架構、技術、產品深度解析:價格大有玄機

RTX 40系列採用了與台積電定製優化的4N工藝,得以集成比GA102核心多70%的CUDA核心,成就了史上最復雜的GPU晶片,還大大提升了運行頻率,RTX 4090可以加速到2.52GHz,是N卡史上最高的。

與此同時,能效也大大提升,RTX 4090功耗和RTX 3090 Ti完全持平,能效因此達到了其2倍之多。

來源:快科技