一、前言:它的使命就是幹掉RX 6900 XT!
RTX 3080 Ti誕生所經歷的曲折可謂一言難盡!在NVIDIA最初的計劃中,RTX 3080 Ti擁有20GB的大容量GDDR6X顯存,顯存位寬和帶寬與RTX 3080相同。不過誰也不曾料到AMD的RDNA2構架的強悍遠超出NVIDIA以及所有完全的事先預料。
特別是RX 6900 XT的性能與NVIDIA頂級的RTX 3090相差無幾,但是售價僅有7999元,而後者則是11999元。
很顯然,按照原定計劃,顯存帶寬被大量閹割的RTX 3080 Ti對上RX 6900 XT時並無必勝的把握。為此,NVIDIA重新設計了RTX 3080 Ti核心,雖然顯存容量減少到了12GB,但是完整的384Bit位寬得到了保留,顯存帶寬遠超RTX 3080。
NVIDIA賦予RTX 3080 Ti的使命就是幹掉RX 6900 XT!
GA102-225-A1構架圖
完整的GA102共有7組GPC,每組GPC有6組TPC加16組ROP單元,總計是42組TPC、共計10752個流處理器、112個ROP單元、
同樣的完整的GA102核心的每個TPC有2組SM單元、2個RT Core、8個Tensor Core、8個紋理單元。
而RTX 3080 Ti所使用的GA102-225-A1核心依舊保持了7組GPC,完整的112個ROP得以保存。不過NVIDIA在其中的2組GPC中分別屏蔽掉了一組TPC。
因此它只有40組TPC、算下來就是10240個流處理器、320個紋理單元、320個Tensor Core。
RTX 3080 Ti GPU-Z參數
RTX 3080 Ti的詳細規格如下:
關於安培GPU的構架此前我們已經有過詳細的介紹,在這里我們化繁為簡,將其做了簡單的歸納如下:
1、整合INT32與FP32單元
圖靈的INT32單元只能做整數運算,閒置率很高。為了解決這個問題,提升INT32單元的利用率,NVIDIA改進了INT32單元,使之不僅可以運行整數運算,也能進行單精度浮點運算,相當於整合了INT32和FP32單元,因而使得以FP32單元計數的GPU流處理器數量直接翻倍,單精度浮點性能也同樣翻倍。
2、RTX IO技術
這項技術可以讓遊戲在加載時完全規避CPU,直接將遊戲數據包從SSD寫入到GPU的顯存中,由GPU替代CPU進行數據解包。GPU的整數/浮點性能數十倍於CPU,可以瞬間完成數據的解包工作。
不過這項技術需要微軟DirectStorage API的支持,預計2022年會正式開始應用。
3、NVIDIA DLSS:
從遊戲內的物理和動畫模擬到實時渲染和AI增強的直播功能,AI正在引發一場遊戲革命。藉助GeForce RTX GPU的專用AI處理器Tensor Cores,NVIDIA DLSS在提升幀率的同時,生成精美、清晰的遊戲圖像,為玩家提供更大的性能空間,以最大限度地提高光線追蹤設置並提高輸出解析度。現在已有超25款遊戲支持DLSS,並且數量還在逐月遞增。
4、NVIDIA Reflex:降低輸入延遲
NVIDIA Reflex技術可以降低系統延遲(或稱輸入延遲),使遊戲的響應速度更快,使玩家在多人競技遊戲中占據優勢。
在傳統的PC體系中,雖然強力的顯卡可以輕松渲染出足夠高的幀率,但這些遊戲畫面都需要CPU進行調度分配,不合理的調度會使得CPU手忙腳亂,玩家滑鼠發出的指令其實無法第一時間到達遊戲世界,這個過程我們稱之為延遲。
為了降低系統延遲,幫助GPU渲染的圖像能夠第一時間迅速呈現在螢幕,NVIDIA Reflex技術也隨著RTX 30系列的發布而登場。NVIDIA Re flex SDK被直接植入到了遊戲,
NVIDIA Reflex SDK能夠更好的控制CPU的運行速度,允許及時向GPU提交例如點擊滑鼠的關鍵動作,同時還確保GPU沒有間斷運行,保證畫面的流暢輸出。
而最新發布的360Hz刷新率的電競G-Sync顯示器還內建了延遲分析器,可以讓你更系統化的量化電競遊戲中的延遲數據。 NVIDIA Reflex技術是職業電競選手和精英玩家唯一專業的選擇。
5、第二代RT Core
光線追蹤是一種在計算機世界中完美再現真實世界的渲染技術,它的算法符合物理規律,不會像傳統光柵化渲染那樣容易產生各種問題。比如一個典型的例子就是光柵化算法無法正確處理焦散這種光學現象,炎熱的夏天陽光透過游泳池在水底投射得斑紋光影就是典型焦散,傳統光柵化算法使用的是動態貼圖,看起來雖然也像那麼回事,但是無法和玩家互動,例如當角色進入泳池游泳就無法進行正確處理渲染,畫面往往出現不合理渲染效果,或者遊戲中的陽光位置變化,天氣變化對泳池光影的影響也無法正確表現。而光線追蹤技術可以實時自動的演算焦散效果,讓畫面更加真實。
但是光線追蹤最大的問題是需要消耗巨大的計算資源,顯示器就像一塊窗子,虛擬的每一條光線都會穿過螢幕像素直達場景,並從存儲器中查找會被擊中的三角形,而且每條射線都要做這個動作,如果希望效果好的話,每像素可能還需要若干條甚至上萬條射線。
如果場景里有幾千萬個三角形,逐個三角形做遍歷求交,就需要消耗大量的高速緩存和總線帶寬,計算單元需要浪費大量時間等待三角形數據傳輸。
RTX 30系列顯卡基於新一代NVIDIA Ampere架構,擁有第二代光線追蹤計算核心,相比於第一代光線追蹤計算核心,RTX 30系列的光線追蹤核心性能足足提高了1.7倍。而且硬體上特別支持對運動模糊場景的光追效果計算。從而帶給玩家更流暢的光線追蹤遊戲視覺體驗。
特別是體驗《賽博朋克2077 》這樣支持光線追蹤技術的新一代遊戲,RTX 30系列能夠輕松駕馭賽博朋克的頹廢風格,流暢渲染都市夜晚霓虹燈下,大量的賽車,追逐,打鬥等運動場景。為玩家帶來最極致的視覺體驗。
6、第三代Tensor Core
NVIDIA 自 Volta架構開始,在GPU中增加了針對深度學習加速設計的矩陣運算單元,並稱之為 Tensor Core(張量計算核心)。
在圖靈架構里,NVIDIA 引入了第二代 Tensor Core,而到了RTX 30系列所採用的Ampere架構,則進化到了第三代Tensor Core。
深度學習技術在圖形圖像各個領域都有著價值巨大的應用,而在遊戲體驗中則是被稱為深度學習超采樣的DLSS 技術。最新一代的DLSS 能夠使得遊戲畫質極大提升,細節和銳度媲美、甚至超越原生解析度。
DLSS 本質是一種圖像重建算法,其加原理其實也很簡單。開啟DLSS後,遊戲引擎中的諸如動態光源、陰影的計算,封閉空間環境遮擋(SSAO)、螢幕空間反射(SSR),甚至實時光線追蹤。都會被降低到1/2甚至1/4像素的低解析度下運行,GPU的負擔大幅度減輕。渲染得出的最終場景會通過Tensor Core結合DLSS進行高解析度重建,從而用較低的GPU負載獲得流暢且畫質極佳的遊戲體驗效果。
和圖靈相比,安培的張量性能可以最高達到 2.7 倍。這使得RTX 30系列可以輕松使用DLSS技術在4K 甚至8K解析度下,依然帶給玩家最極致的光線追蹤遊戲體驗效果。
7、GeForce Experience功能
所有NVIDIA GeForce GPU都能從GeForce Experience中獲益,數以千萬計的玩家都在使用該工具來優化遊戲設置、記錄和上傳遊戲、直播遊戲、拍攝螢幕截圖,以及下載和安裝Game Ready驅動。
8、一鍵自動式GPU調校
GeForce Experience現已支持GPU調校,它能使用高級掃描算法自動創建GPU超頻配置文件。
9、增強型遊戲內監控懸浮窗
GeForce Experience強大的遊戲內懸浮窗功能現已能讓玩家查看更多詳細的性能統計信息、溫度和延遲指標,包括 NVIDIA Reflex的延遲分析器統計信息。
二、外觀:與RTX 3080長一樣
公版RTX 3080 Ti的外形設計與RTX 3080/3090幾乎一模一樣,
正面有一個風扇,主要用於給核心和顯存散熱。
背面有一個風扇,裝在機箱里面時,風是直接往機箱下面吹,由於沒有PCB的阻擋,即便是在較低的轉速下,風扇也能夠更加輕松的吹透散熱鰭片。
背面的風扇,與正面的風扇一樣,支持智能啟停。
3個DP1.4與1個HDMI 2.1接口。
頂部的12Pin供電接口。
拆下來的散熱器,與GPU接觸的底座採用了大面積均熱板設計,另外一邊的風扇則有4條熱管進行連接。
PCB板與公版RTX 3080沒有太大區別,同樣是18相供電電路。
PCB板的背面,由於空間原因,供電電容被放在了這一面,每一相供電竟然配備了3個高成本的鉭電容。
GA102-225-A1核心,10240個流處理器,核心面積628.4mm2,擁有283億個電晶體。
核心周圍是美光的GDDR6X顯存,一共有12顆,單顆容量1GB,總容量12GB。頻率19GHz,位寬384Bit,顯存帶寬913GB/。
三、測試平台:全核5.2GHz的i9-10900K + 皇家戟4000MHz C15 32GB記憶體
暫時我們還是選擇了i9-10900K處理器平台。為了降低CPU的瓶頸效應,我們將i9-10900K的核心頻率超頻到了5.2GHz,Ring頻率超頻到了4.8GHz。
主板用的是微星MEG Z590 ACE戰神。這款主板採用16+2+1相數字供電,每相供電都配備一顆90A DrMOS。,可以輕易提供超過1000W的輸出功率。
記憶體必須32GB了,目前很多3A大作在16GB記憶體下運行時會出現各種問題。
芝奇皇家戟F4-4000C15D 8GBx4套裝,不僅擁有4000MHz的頻率,15-16-16-36的時序也是低的嚇人,比絕大部分3000MHz頻率的記憶體都要低,不過默認電壓1.5V也算是比較高的了。
長江存儲致鈦PC005 Active 512GB SSD,順序讀寫速度分別為3500MB/,2900MB/。不依賴模擬SLC緩存也能保持550MB/的穩定寫入速度,同時壽命遠遠高於市面上絕大多數TLC SSD。
酷冷至尊P360 ARGB水冷散熱器,應該是市面上顏值最高也最易安裝的水冷散熱器,可以很輕松的壓制5.2GHz的i9-10900K處理器。
ROG THOR 1200W白金牌電源。
此次將會做RX 6900 XT解鎖400W功耗的極限超頻測試,一款頂級電源是必須的。
全模塊化設計,單路12V輸出電流100A,12V輸出功率達到了1200W。
華碩玩家國度PG27UQ ROG 27英寸IPS電競顯示器。
4K UHD(3840*2160)解析度、4ms響應時間、144Hz刷新率、G-Sync 技術、IPS+量子點面板、10bit色彩、DisPlay HDR1000認證。它依舊是目前市面上頂級的電競顯示器。
四、理論性能測試:較RTX 3080強10%
1、3DMark
在2K解析度3DMark Fire Strike Extreme測試中,RTX 3080 Ti圖形分數達到了22909分,核心溫度最高72℃,核心運行最高頻率為1965Hz,最高風扇轉速1761RPM,最高功耗354W。
在4K解析度3DMark Fire Strike Ultra測試中,RTX 3080 Ti圖形分數達到了11913分,核心溫度最高73℃,核心運行最高頻率為1965MHz,最高風扇轉速1798RPM,最高功耗354W。
在3DMark測試中,與RTX 3080相比,RTX 3080 Ti在2K解析度下快了7%,4K解析度下有9%的優勢。
與RTX 3090相比,RTX 3080 Ti在2解析度下均存在著2%的差距。
2、3DMark Time Spy
在2K解析度3DMark Time Spy測試中,RTX 3080 Ti圖形分數達到了19535分,核心溫度最高77℃,核心運行最高頻率為1920MHz,最高風扇轉速2021RPM,最高功耗354W。
在4K解析度3DMark Time Spy Extreme測試中,RTX 3080 Ti圖形分數達到了9607分,核心溫度最高77℃,核心運行最高頻率為1905MHz,最高風扇轉速2003RPM,最高功耗353W。
在3DMark Time Spy測試中,2K解析度下,RTX 3080 Ti可以持平RTX 3090,比RTX 3080快了10%。
不過到了4K解析度,RTX 3080 Ti與RTX 3090依然有4%的差距,比RTX 3080則要強9%。
五、2K解析度遊戲性能測試:與RTX 3090僅差了1%
1、APEX英雄
2、決勝時刻現代戰域
3、GTA V
4、刺客信條:奧德賽
5、德軍總部:新血脈
6、地平線:零之曙光
7、孤島驚魂5
8、古墓奇兵:暗影
9、絕地求生
10、微軟模擬飛行2020
11、賽博朋克2077
12、死亡擱淺
13、巫師3
14、無主之地3
15、戰地5
16、戰爭機器5
測試數據匯總如下:
綜合測試數據來看,RTX 3080 Ti在2K解析度下能夠持平AMD RX 6900 XT,比RTX 3090則是弱了1%,比RTX 3080則要快了7%,比上代的RTX 2080 Ti快了34%。
雖然RTX 3080 Ti並不是為1080P解析度而誕生的顯卡,不過我們還是測試了這個解析度下的幀率,詳見下表!
1080P解析度完全無法發揮RTX 3080 Ti的性能,即便是5.2GHz的i9-10900K也依舊存在著絕大的瓶頸。
在這個解析度下,RTX 3080 Ti比RTX 2080 Ti快了30%,比RTX 3080快了5%,和頂級的RTX 3090則有1%的差距,與AMD的旗艦RX 6900 XT相比,則落後了3%。
六、4K解析度遊戲性能測試:比RX 6900 XT強5%
1、APEX英雄
2、決勝時刻現代戰域
3、GTA V
4、刺客信條:奧德賽
5、德軍總部:新血脈
6、地平線:零之曙光
7、孤島驚魂5
8、古墓奇兵:暗影
9、絕地求生
10、微軟模擬飛行2020
11、賽博朋克2077
12、死亡擱淺
13、巫師3
14、無主之地3
15、戰地5
16、戰爭機器5
測試數據匯總如下:
在4K解析度下,RTX 3080 Ti的性能與RTX 3090僅差了2%,比RTX 3080快了9%,比RTX 2080 Ti快了44%。
與AMD的旗艦RX 6900 XT比起來,RTX 3080 Ti也能夠領先5%。
七、溫度與功耗測試:烤機時顯存輕松過100度
1、溫度測試
使用Furmark來對七彩虹RTX 3080 Ti進行烤機測試,測試是室溫為28度。
Furmark的參數設定為1920*1080解析度、0AA。運行22分鍾之後, RTX 3080 Ti的溫度穩定在73度附近,Hot Spot溫度則有80度,不過顯存溫度輕松達到了100度。顯卡的功耗穩定在330~350W區間跳動。
2、功耗測試
分別測試待機、與Furmark烤機功耗,另外我們還會加上遊戲功耗測試,測試的遊戲項目為《巫師3》。
測試所用的電源為ROG THOR 1200W白金牌電源。
在5.2GHz i9-10900K + 皇家戟F4-4000C15D 8GBx4平台上,幾款顯卡的待機功耗都差不多,在90W左右。
至於滿載功耗,RTX 3080 Ti與RTX 3090比較接近。不過雖然2者的TDP同為350W,但是記得是由於RTX 3080 Ti的性能稍低,對系統的需求要少,整體功耗還是比RTX 3090要低幾瓦。
八、光線追蹤測試
為了方便與此前的測試結果進行對比,我們依然選擇《堡壘之夜》、《德軍總部:新血脈》、《古墓奇兵:暗影》、《光明記憶:無限》、《控制》、《戰地5》這6款遊戲進行光線追蹤與DLSS性能測試。
1、堡壘之夜
2、古墓奇兵:暗影
3、光明記憶
4、控制
5、賽博朋克2077
6、戰地5
測試成績匯總如下:
RTX 3080 Ti的光追效率與其他圖靈GPU維持一致,開啟光追之後,幀率性能會從204%掉到100%,跌幅約為52%。
在開啟DLSS之後,性能則能提升84%。
九、總結:專為遊戲玩家打造的頂級遊戲GPU
本次測試內容簡述如下:
1、挖礦
按照NV的說法,RTX 3080 Ti是在驅動、硬體以及BIOS三個層面同時對挖礦做了限制,想要全部破解幾乎不可能。不過考慮到RTX 3090以太坊哈希算力值高達120MH/,RTX 3080 Ti帶寬與之接近,就算被限制了一半挖礦能力,應該也還有50~60MH/的算力。
不過我們測試時,只要系統檢測到挖礦行為,電腦就會立刻黑屏。也就是說,RTX 3080 Ti完全無法挖礦!
2、超頻
此前RTX 3090的超頻能力令人刮目顯卡,核心可以超200MHz,顯存則可以從19.5Gbps超頻到21Gbps。
但是我們對公版RTX 3080 Ti反復進行超頻測試,發現顯存頻率幾乎無法提升,因此放棄了超頻。
3、遊戲性能
其實RTX 3080 Ti的規格參數就能知曉其性能,實際測試的數據也大致如此。
RTX 3080 Ti的性能非常接近於RTX 3090,二者僅在4K解析度下有2%的差距,在1080P和2K解析度下,差距則只有1%。
與AMD的旗艦RX 6900 XT相比,RTX 3080 Ti在1080P解析度下落後對手3%,2K解析度持平,4K解析度則能反超5%。考慮到旗艦顯卡的使用環境,整理來說,RTX 3080 Ti還是強於RX 6900 XT。
4、功耗
RTX 3080 Ti與RTX 3090的TDP同為350W,二者的功耗表現也非常接近。在運行《巫師3》時,整機功耗接近500W。如果其他隊CPU性能需求稍高的遊戲,整機功耗還會進一步提升。
因此對於電源的選購,最好是單路750W以上的金牌電源,或者900W以上的雙路電源。
5、Resizable BAR
RTX 3080 Ti是繼RTX 3060之後,NVIDIA第二款正式支持Resizable BAR技術的GPU。此前我們曾測試過RTX 3060開啟Resizable BAR後的幀率,結果就是絕大多數遊戲都會出現幀率下降的情況。
不過在新版GeForce 466.54驅動的支持下,這一情況在一定程度上有了好轉,有相當多的遊戲在開啟Resizable BAR技術之後,幀率都會有一些提升,不過還是有不少遊戲會出現幀率下降的情況。
這一點Resizable BAR與AMD的Smart Access Memory (SAM)還存在著一定的差距。
6、售價
RTX 3080 Ti的官方的售價是8999元,與上代的RTX 2080 Ti持平,不過性能上則有了40%左右的提升。在被限制了挖礦算力之後,礦工基本上都會無視這款顯卡了。但由於大量的遊戲玩家這邊還有大量的需求空缺,預計市面上的非公RTX 3080 Ti會出現供不應求的情況,想要到手可能需要加價1000~2000元。
來源:快科技