NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

不久前的GTC 2022「GeForce Beyond」特別活動上,NVIDIA正式發布了三款GeForce RTX 40系列顯卡,而新一代Ada Lovelace架構也隨之正式亮相,這是第三代的RTX架構,其最大的完整核心具有恐怖的760億個電晶體和超過18000個CUDA核心,相比上一代Ampere架構的283億電晶體和10752個CUDA核心有巨大的提升,那麼新一代Ada Lovelace架構與前代相比究竟有哪些創新呢?本文就帶各位一起仔細看看這個NVIDIA最新一代圖形架構。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

Ada Lovelace架構的創新大體上可以分為三個板塊,分別是帶來了新的全景光線追蹤、著色器執行重排序(SER)和DLSS 3,這是一個大致的認識,而這些還可以往下細分,比如新的全景光線追蹤的實現就包含有新的RT核心、更多的著色器以及新的Tensor核心,而DLSS 3更是一系列技術的結合。

全景光線追蹤遊戲畫面

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

全景光線追蹤,從名字就能看出來它對於光線追蹤的計算要求有了巨大的提高,拿《賽博朋克2077》來說,NVIDIA發布會演示的《賽博朋克2077》是將要發布的最新版,添加了「全極致光線追蹤」這一究極畫質模式,大家可以欣賞一下這個畫質下的畫面魅力。

對比的話會更加明顯,以《逆水寒》為例可以看到現在的全景光線追蹤相對比沒有光線追蹤的畫面觀感,明顯讓遊戲體驗上升好幾個檔次。

全景光線追蹤通過 NVIDIA RTX 直接照明 (RTXDI)、像素完美的陰影、令人驚嘆的反射和之前看不到的水面折射,在《逆水寒》中提供令人難以置信、如照片般逼真的細節,晝夜都有自然的全局光照,由 NVIDIA 基於儲層的時空重要性重采樣全局光照 (ReSTIR GI) 提供,光線准確無誤。

表面和紋理擁有令人驚嘆的基於物理效果的細節,可確保這些效果能夠以自然、逼真的方式交互,從而增強畫質和沉浸感。為了對光線追蹤結果進行降噪,《逆水寒》利用了 NVIDIA Real Time Denoiser (NRD)。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而要實現這樣的畫面表現,這個畫質模式下遊戲畫面的每個像素會執行約635次光線追蹤計算來確定光照,4年前的《戰地5》首次引入實時光線追蹤技術只會對畫面的每個像素執行約39次光線追蹤計算,等於說現在可以實現的遊戲畫面相比4年前提高了16倍的計算要求。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

理論上要實現這樣的計算要求,在技術沒有革新的情況下,GPU的電晶體數目也需要增長16倍才能滿足需求,這顯然不現實,事實上,晶片的電晶體數目每兩年能增加一倍就已經很不錯了。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而Ada Lovelace架構的技術革新就解決了這個問題,在電晶體數目僅增加約4倍的情況下,卻可以輸出計算需求量遠超4倍的遊戲畫面。那麼它是怎麼做到的呢?這我們就要深入到其架構核心圖里面去深究了。

GPC規模暴漲

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

我們還是先從完整的核心圖來看,它仍然沿用了從NVIDIAPascal架構開始定下的GPC-TPC-SM層級架構,這也讓我們可以很明顯的看到其規模相比上一代顯著增大了,GPC從Ampere的最大7個猛增到12個,增幅為71.4%,就算其他部分沒有技術革新,僅僅這個暴漲的GPC規模就已經能帶來很強的性能提升了。

除此之外,與上代的架構核心圖對比的話,會很明顯的發現二級緩存部分的變化可以說是最大、最明顯的,Ada Lovelace的二級緩存規模暴漲——是上一代的16倍。另外一個從完整核心圖上也很容易看到的區別就是Ada Lovelace沒有了NVLink總線模塊,這個設計方向其實之前早有痕跡。

GPC架構圖

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

深入到GPC里面,會發現這一代仍然是每組GPC包含6組TPC、一個獨立光柵引擎、兩個ROP分區(每個包含8個ROP單元),而每組TPC又包含2組SM。這樣的組成是與上一代Ampere一模一樣的,所以相應的Ada Lovelace的TPC和SM單元也分別增長到最多72個和144個。

SM架構圖

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

再繼續深入到SM單元里面,會發現其整體的結構也是與上一代Ampere架構一模一樣,分為四個一樣的主要計算模塊,一個RT光追核心,以及128KB一級數據緩存/共享記憶體等。

而且每個主要的計算模塊內的結構也和Ampere架構一樣,有64KB寄存器文件、零級指令緩存、一個Warp調度器、一個分配單元、16個FP32單精度浮點CUDA核心、16個FP32/INT32單精度浮點和整數混合CUDA核心、一個Tensor Core張量核心、四個載入存儲單元、一個特殊功能單元(SFU)用於執行圖形差值指令。

而差別也很明顯,那就是RT Core光追核心從之前的第二代升級到第三代,Tensor Core張量核心也從第三代升級到第四代。

第三代RT Core有效光追算力是上代3倍

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

全新的第三代RT Core可以提供2倍的光線與三角形求交性能,並且加入了兩個全新的重要硬體單元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。

Opacity Micro-Map引擎將光線追蹤的Alpha-Test幾何性能提升2倍;而全新的Displaced Micro-Mesh引擎可動態生成微網格,以產生額外的幾何圖形。Displaced Micro-Mesh引擎可在提升幾何圖形豐富度的同時,不以傳統復雜幾何圖形處理的性能和存儲成本為代價。

Displaced Micro-Mesh引擎

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

我們知道光線追蹤的計算是以光線射向一個平面這樣的模型來計算的,而實際的渲染中物體幾乎不會是簡單的平面型,而是各種曲面,所以就需要將曲面分解成許多個小的三角形平面,然後計算光線與三角形求交。在Ampere架構上,面對一個復雜的曲面,如果想得到逼真的光線追蹤效果,那麼分解的三角形平面是非常多的,多個三角形平面帶來非常復雜的BVH,這就非常難以計算。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而Ada Lovelace架構的處理方式就不一樣,通過Displaced Micro-Mesh引擎,它將這些三角形平面僅通過一個三角形然後加上不同的位移圖來表達,顯著縮短了BVH的的構建時間,同時BVH的存儲空間需求也減小了很多,而最終仍然能實現一樣的光線追蹤最終渲染效果。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

實際應用中由於Displaced Micro-Mesh引擎的存在,面對復雜物體的渲染,BVH的構建速度可以超過15倍,而存儲空間的需求卻可以小20倍之多,越是復雜的物體該引擎的優勢就越能體現。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而且Displaced Micro-Mesh引擎不止可以應用在遊戲領域,對於創作領域的用戶來說,也有軟體會支持,目前Adobe、Simplygon這兩家企業已經確認得到了支持。

Displaced Micro-Mesh引擎

接下來我們說Opacity Micro-Map引擎。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

Opacity Micro-Map引擎則是可以對遊戲中常見的樹葉這類物體加速光線追蹤計算,Ampere架構面對這種場景的Alpha-Test需要多個著色器來進行計算,而Opacity Micro-Map引擎對於這種不透明的對象進行了不透明度的編碼,可以更准確的對物體邊緣進行光線追蹤計算,簡化了葉子輪廓之外完全透明和葉子輪廓之內完全不透明的區域的計算,耗費更少的著色器就可以實現真實的光線追蹤渲染。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

以《PortalwithRTX》這個遊戲為例,Opacity Micro-Map引擎可以讓Gbuffer填充速度加快30%,遊戲幀率提高10%。

而最終,這些改進下的第三代RT Core可以使完整的Ada Lovelace架構核心具有200TFLOPS的有效光線追蹤計算能力(最先上市的RTX 4090達到191 TFLOPS),幾乎是上代產品的三倍。

第四代Tensor核心性能超上代5倍

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

對於第四代Tensor Core,最主要的變化是新增了Hopper FP8Transformer Engine,可提供1400 TFLOPS的張量處理性能,超過上一代使用FP8加速性能的5倍,可以說深度學習性能得到了巨大的飛躍,這也意味著通過它可以實現新的技術想法,後面的DLSS 3我們會再次提到它。(最先上市的RTX 4090具有1.32 Petaflops的FP8張量處理性能)

說到DLSS 3,作為這次NVIDIA大力宣傳的重點,相信大家都急不可耐想深入的了解這個技術,但是為了更清楚的了解DLSS 3,我們還得說兩個新東西,那就是著色器執行重排序(SER)和Optical Flow Accelerator光流加速器。

著色器執行重排序(SER)提高光追並行效率

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

著色器執行重排序技術的重大作用是可以極大的提升光線追蹤性能,這是與CPU的亂序執行一樣的重大創新。

由於光線追蹤的特性,它很難並行處理,因為光線會向各個方向反射,並與各種類型的表面相交,所以光線追蹤的工作負載需要不同的線程處理,需要不同的著色器,並且需要不同的顯存來存取中間的計算過程。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而我們知道GPU的特點就是適合並行處理,只有面對並行處理的任務才可以發揮GPU的特點獲得更好的計算效率,而著色器執行重排序就是可以通過實時重新調度任務,即時重新安排著色器負載來提高執行效率,從而更好地利用GPU資源,以實現更佳的光線追蹤性能,據稱,SER可以為光線追蹤帶來最高可達3倍的性能提升,整體遊戲性能提升可高達25%。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

應用了著色器執行重排序(SER)之後,《賽博朋克2077》在全景光線追蹤模式下可以提高44%的性能,《Portal》RTX可以提高29%的性能,《Racer RTX》可以提高20%的性能。

Ada光流加速器算力可超300TFLOPS

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

回看前面的完整核心圖,可以看到左上角清晰的標出了Optical Flow Accelerator,也就是光流加速器,而盡管之前的Ampere架構中沒有提到這個東西,但其實Ampere架構也是有的,不同的是,Ada Lovelace架構中大大增加了光流加速器的運算性能,從之前Ampere架構的126TFLOPS增加到現在的300TFLOPS(詳細值是305 TFLOPS)。

Ada的光流加速器帶來的巨大的性能提升,具有實用性了,使DLSS 3能夠預測場景中的運動,使神經網絡能夠在保持圖像質量的同時提高幀率。前面提到的第四代Tensor Core的1400 TFLOPS的張量處理性能,加上這里Ada Lovelace光流加速器300TFLOPS的光流運算性能,再加上後方的NVIDIA超級計算機提供的超過1 ExaFLOPS的AI計算性能,這三者就組成了這一代DLSS 3的硬體層面的保障,而前面講了那麼多基礎性的東西,現在我們終於可以講到通過這些東西能實現的直接與玩家接觸的技術——DLSS 3。

DLSS 3全方位提升幀率、延遲和畫質

新一代的DLSS 3包括全新的幀生成技術、DLSS 2超解析度技術和NVIDIA Reflex技術,與之對應的就是目前在遊戲中,DLSS 3對應了這三個選項——幀生成技術、DLSS 2超解析度技術和NVIDIA Reflex技術——這三個都啟用才算是完整的開啟了DLSS 3。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而這其中,幀生成必須RTX 40系列才能支持,超解析度則是RTX 40/30/20系列都支持,Reflex的要求最低——GTX 900系列及以後的都支持。

總得來說,DLSS 3是提升遊戲體驗的一整套解決方案,也就是說對於遊戲體驗的三要素——流暢度、延遲和畫質——進行全方位的提升,而不是拆東牆補西牆的那種,接下來我們一個一個說。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

DLSS 3的幀率

先說它如何提升幀率。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

之前的DLSS 2,提升幀率的方式簡單說就是以低解析度渲染,然後通過AI添加細節輸出成高解析度的幀,比如我們將遊戲設置成4K,打開DLSS,那麼實際的計算過程是先以1080p解析度渲染幀畫面,然後將這個幀畫面拉伸成4K最終輸出,中間相差的這3/4部分的像素信息是通過AI計算來添加的(本地主要是Tensor Core來計算)。由於以低解析度渲染,所以在AI補充像素的性能足夠的情況下,幀率自然可以提高了。

但是這樣無法突破CPU性能的瓶頸,畢竟降低原始渲染解析度可以使得GPU每一幀的計算量更少,但是CPU每一幀的計算量是不變化的(因為CPU負責計算的部分與解析度並無關系),實際上,由於幀率提高,CPU的計算量其實還增大了。

那麼DLSS 3是怎麼做的呢?

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

首先,還是與DLSS 2一樣,比如輸出4K遊戲畫面的話,它也是先降低原始渲染解析度到1080p,然後通過AI計算來添加像素拉伸成4K畫面。在連續的遊戲畫面中,我們就可以通過這樣得到連續的4K幀畫面,第1幀、第2幀、第3幀等等。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

然後這樣的每兩幀之間,DLSS 3可以了解場景的變化情況,通過光流加速器為神經網絡提供像素級的幀到幀的運動方向和速度信息,然後通過渲染並拉伸的4K幀以及幾何圖形和像素的運動矢量並將其輸入至神經網絡,就能計算出兩個渲染並拉伸的4K幀中間的幀畫面了。

實現超越CPU限制的幀數

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

這樣連續下去的話,原本的第1幀、第2幀、第3幀中間都會有一個新的幀,等於實際最終輸出的幀畫面中,有1/2是沒有CPU參與的,完全是GPU計算出來的,所以理論上可以將原本受限於CPU性能的遊戲幀率提高一倍。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

另外,我們去關注像素的話,會發現靠傳統渲染方式計算的像素其實只有1/8,最終輸出的遊戲畫面7/8的像素其實都是通過DLSS 3的一系列AI計算填補上的,這極大的提升了效率。

DLSS 3的畫質

然後我們說下畫質。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

其實看我們的網站的網友評論可以看到還是有很多網友對DLSS技術很抗拒,認為不是原始渲染出的畫面就不好,筆者認為這一觀念是需要改變了。且不說網友有這一觀念可能是由於初代DLSS技術確實效果不佳,形成了刻板映象,即便之後的DLSS 2超解析度技術已經有很好的畫面也很難摒棄已經形成的觀念,我們可以比較一下這幾幀畫面,完全看不出區別。

還有《逆水寒》的實機截圖,DLSS 2和DLSS 3的畫面質量對比,大家可以拖動仔細對比對比。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

對於DLSS 3的生成幀這方面大家不免想到已經問世好久的各種插幀技術,DLSS 3的生成幀確實也可以算作插幀的一種,但是又與其他的插幀技術完全不一樣。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

簡單的插幀技術利用兩幀之間像素的位移來確定中間幀的圖像,這樣其實非常容易出現明顯令人覺得視覺異常的畫面,特別是對於陰影這種需要計算的畫面效果,當主體移動之後,正確的陰影是需要經過復雜計算的,單單根據像素的位移來確定的畫面幾乎肯定違反客觀世界的物理規律。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而DLSS 3它使用光流加速器分析兩幀連續的遊戲圖像,計算幀到幀之間物體、元素的運動矢量數據,綜合遊戲中的一對超級解析度幀,以及引擎和光流運動矢量,並將其輸入至卷積神經網絡,計算生成出新的一幀,大大提高了畫面的准確性。

DLSS 3的延遲

最後我們再說延遲。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

通過前面的梳理大家會發現DLSS 3盡管提高了幀速率,也保證了畫質,但是對於延遲是沒有縮短的,因為每一個新生成的幀都是需要後一幀渲染出來之後才可以准確生成的。更高的幀率提升了遊戲的順滑程度,但延遲會影響遊戲的響應度,如果延遲太高,遊戲的體驗也不會好,而為此,DLSS 3也集成了NVIDIA Reflex技術來降低延遲提高響應速度。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

所以總得來說,DLSS 3是包括了基於AI的超解析度提升技術、基於AI的幀生成技術以及NVIDIA Reflex低延遲技術這些軟體層面以及第四代Tensor Core的1400 TFLOPS的張量處理性能、Ada Lovelace光流加速器300TFLOPS的光流運算性能以及NVIDIA超級計算機提供的超過1 ExaFLOPS的AI計算性能組成的硬體層面綜合實現的一項新技術,對於遊戲體驗的提升也不是單方面的,而是全方位的提升。

遊戲以及應用支持

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

對於遊戲開發者這一邊來說,從支持DLSS 2到支持DLSS 3很容易,大部分引擎開發接口是相通的,DLSS 3還可以通過Streamline這一NVIDIA發布的開源平台進行集成,極大的簡化了遊戲開發者對新技術的集成工作,可以預期未來的DLSS 3集成速度一定不會慢。

首批支持DLSS 3的遊戲及應用等也不少,包括了《巫師3:狂獵》、《黑神話: 悟空》、《賽博朋克2077》、《逆水寒》、《刺客任務3》、《微軟模擬飛行》等熱門遊戲以及寒霜引擎、Unity 、虛幻引擎4 & 5 這些遊戲引擎,有了這些知名遊戲引擎的支持,未來的DLSS 3遊戲數量可以說不用擔心。

實現4倍性能提升

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

至於DLSS 3對於遊戲幀數的提升,NVIDIA給出的數據如上,可以將遊戲分為兩類,一類是今天之前的遊戲畫面,這部分的提昇平均在2倍左右,而另一類則是之後的遊戲畫面,可以理解為全景光線追蹤的遊戲畫面,對於這樣的遊戲畫面,提昇平均可達4倍,當然,關於性能提升部分我們後面還會實際測試的。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

遊戲玩家中除了單機類遊戲玩家還有電競類遊戲玩家,新一代GPU也將這方面的體驗推到了新高度,現在已經可以在1440p解析度下普遍達到360幀,而且系統延遲控制在10ms之內。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

電競類遊戲玩家首要看重幀率及延遲,所以之前大都會在1080p解析度下進行對戰,以獲取高幀率及低延遲,而新一代GPU將360FPS@1440p成為現實後,玩家照樣可以在1440p下獲取高幀率及低延遲,而通過統計,在27英寸1440p的顯示器上進行遊戲相比25英寸1080p的顯示器平均成績會提高3%,對於毫釐之爭的電競對戰來說,這也是很重要的。

全新第八代NVENC支持AV1編碼和雙編碼器

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

Ada Lovelace架構相比Ampere架構的另一項重要升級就是NVIDIA 編碼器 (NVENC)升級到了第八代,開始支持AV1編碼了。AV1的效率比H.264高40%,這意味著在傳輸同樣質量的畫面時候只需要大約70%的數據量,或者說在同樣的帶寬下可以實現更清晰的畫面質量,並且由於AV1是免費、開放的,可以讓廠商節省相當一筆費用,AV1已經明顯將要取代H.264成為主流格式。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而在中國的備受歡迎的視頻編輯應用「剪映專業版」、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 較為流行的 Voukoder 插件均支持 AV1,且均可通過編碼預設使用NVENC AV1編碼器。此外,OBS、Discord以及更多的公司都已在採用NVENC AV1編碼器。

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

首發的RTX 4090給開放了兩個NVENC編碼器,這兩個NVENC可實現協同工作,並自動分配以實現雙路輸出。全新的雙編碼器可將視頻導出時間縮短至原來的一半,主播用戶可藉助第八代編碼器中 AV1 雙編碼器的優勢提升直播體驗,還可以通過OBS Studio 錄制高達 8K60 的內容。

TSMC 4N NVIDIA定製工藝帶來能耗比的飛躍

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

這部分我是特意留著作為壓軸好戲來講的。

先回顧一下幾個數據,2018年的TU102是754mm2,擁有186億個電晶體;2020年的GA102是628.4mm2,擁有283億個電晶體;而如今2022年的AD102是608.5mm2,擁有763億個電晶體。

可以清楚的看到核心面積一直在減小,而電晶體數目則保持非常高的增長速度,當然,面對製程在進步,這其實也很正常,但是今年的Ada Lovelace架構GPU實在這方面漲的太恐怖了,AD102電晶體差不多是GA102的2.7倍!

NVIDIA新一代Ada Lovelace架構解析:為渲染次世代遊戲畫面而生

而在先進的TSMC 4N NVIDIA定製工藝的加持下,RTX 4090的功耗則與RTX 3090 Ti一樣保持在450W,這足以令人意識到Ada Lovelace架構GPU的能耗比的巨大飛躍,事實上,新的Ada Lovelace架構相比Ampere架構實現了巨大的飛躍,同功耗下的性能可達2倍。

在能耗比方面,之前Ampere架構相比Turing架構的提升並不大,這個我們還專門做過測試——《Ampere、Turing、RNDA比一比:三大架構顯卡能耗比對比測試》,測試的結果是相對於上一代的Turing架構桌面顯卡,Ampere架構在能耗比方面具有了12%的提升,並不算出眾,而這一代直接來了個2倍的能耗比,讓人感覺說直接進步了兩代都不為過。

總結

添加了Opacity Micro-Map引擎和Displaced Micro-Mesh引擎的第三代RT Core可以使完整的Ada Lovelace核心具有200TFLOPS的有效光線追蹤計算能力,幾乎是上代產品的三倍。第四代Tensor Core新增了Hopper FP8Transformer Engine,超過上一代使用FP8加速性能的5倍。

這兩項新的第三代RT Core和第四代Tensor Core加上之前從Ampere架構延續下來的內部結構形成了新的更強的SM單元,並且還加入了堪比CPU的亂序執行一樣具有突破性的著色器執行重排序技術,這就足以令人對新一代Ada Lovelace架構GPU倍感期待。

而Ada Lovelace架構還不止於此,它還增加了算力超過300TFLOPS的Ada光流加速器、以及支持AV1編碼和雙編碼器的第八代NVIDIA 編碼器 (NVENC)、換用了先進的TSMC 4N NVIDIA定製工藝,使得AD102電晶體差不多是GA102的2.7倍!並且直接來了個2倍的能耗比,等於一下子進步了兩代!

更為重要的是,突破性的DLSS 3技術將遊戲體驗推到了新的高度,玩家不再需要在幀率、延遲和畫質之間取捨,DLSS 3將在這3大方面進行全方位的提升,並且可以克服CPU的瓶頸。

總的來說,這一代Ada Lovelace架構的進步之大縱觀整個GPU發展歷史都難以找到與之匹敵的,它打開了「全景光線追蹤」世界的大門,未來的遊戲世界將如我們現在看到的好萊塢CG動畫一般與現實真假難辨,而這一切都是實時渲染的,而不是如今的CG動畫這樣仍然需要耗費巨大財力和漫長的製作時間,這是令人難以想像的,而實現這一目標的,正是DLSS 3與全景光線追蹤。

回首4年前,NVIDIA發布了第一代RTX GPU,不破不立,作為圖形渲染領域的重大變革,僅僅用4年時間和三代產品,我們就可以明顯感知到圖形質量已經坐上了發展的快車道,全景光線追蹤原本是距當下技術程度而言遙不可及的天上明月,而NVIDIA智慧性的利用了AI技術,通過最新的DLSS 3使得這輪明月觸手可及,在歷經了漫長的數字貨幣風波的侵襲之後,玩家們太需要這樣一代飛躍性的產品來慰藉了。

來源:超能網