GPU | 搜資訊

AMD Zen4蝶變 8核5.2GHz銳龍7000處理器現身：首次集成GPU實錘了

就目前的爆料來看，Zen 4架構對於AMD銳龍處理器來說，將是一次蝶變。除了5nm工藝、AM5接口、僅支持DDR5記憶體、新增對PCIe 5.0/USB 4支持等特性外，傳言甚廣的首次集成GPU單元也得到證實了。在Phoronix的測試套件中出現了一款8核AMD銳龍7000處理器，識別型號100-000000666，隸屬於Raphael桌面產品線。這顆晶片看點不少，除了頻率高達5.21GHz，特別的是，集成了GFX1036圖形單元，顯存512MB。不過，進一步的挖掘發現，圖形單元是RDNA2架構，這也是為什麼音頻部分出現了Rembrandt Radeon Audio，Rembrandt（倫勃朗）是6nm銳龍6000 APU的代號。可能是因為工程型號調試不完全、頻率保守的緣故，GPU單元實際性能比不上Vega/Xe_LP，甚至不如Van Gogh（Steam Deck）。到底Zen 4神秘面紗下是怎樣的怪獸，要等到5月23日下午14點蘇姿豐博士在台北電腦展上親自揭開了。來源：快科技

配備80GB顯存 NVIDIA H100 Hopper加速計算卡上市：價格超24萬元

今天，Videocardz報導稱，日本一零售商以4745950日元（約合人民幣24.16萬元）的價格，掛出了NVIDIA最新的H100 Hopper加速計算卡。這款加速卡是NVDIA首款採用採用台積電4nm製程工藝的GPU，它採用CoWoS 2.5D晶圓級封裝，單晶片設計，集成高達800億個電晶體。完整版有8組GPC(圖形處理器集群)、72組TPC(紋理處理器集群)、144組SM(流式多處理器單元)，而每組SM有128個FP32 CUDA核心，總計18432個。此外，它還有著高達80GB的HBM2e顯存，擁有2TB/的帶寬，並是第一款採用PCIe Express 5.0的NVIDIA卡。根據此前消息，這款H100 Hopper預計要在今年的下半年才會正式上市。來源：快科技

性能脫胎換骨 AMD Zen4更強大了：新架構有望集成GPU/NPU單元

年初的CES上，AMD正式預覽了Zen 4，並承諾銳龍7000處理器將在下半年登場。根據硬體達人Greymon55的爆料，銳龍7000會在本月底投入量產，三季度晚些時候正式上市，也就是8~9月的樣子。當然，考慮到當前半導體行業供需依然緊張的局面，上市時間很難有什麼定數，即便官宣也有跳票的可能。不妨讓我們更多關注處理器底層架構，畢竟，現在肯定已經完全敲定。 Zen 4銳龍7000家族代號Raphael（拉斐爾），對應16世紀義大利藝術家Raffaello Sanzio da Urbino。此前AMD曾透露，Zen 4之於Zen 3的架構變化和IPC增幅，不會遜色於Zen 3之於Zen 2，那麼至少就是19%，這里的前提是核心數保持一致。但考慮到5nm工藝加之更大的AM5插槽，CPU晶片多出來的空間都分給誰了呢？之前有說法是，銳龍7000將首次集成GPU單元，現在有細心媒體從AMD 2020年提交，最近才公開的一項專利中發現新端倪，其中提到為處理器3D堆疊AI加速器的內容。一種猜測是這種AI加速器就是GPU，集成在6nm的I/O Die內，也有分析認為，AI加速器的形式多樣，還可以是NPU或者FPGA。事實上，此前在AMD的加速卡Instinct MI250X就已經有AI加速模塊，對手Intel更是早早就在至強上引入DLBoost。CPU作為計算機的大腦，看來AMD要非常重視AI專門單元的重要性了。至於3D堆疊，具體實現方式可能類似於已經在銳龍7 5800X3D上3D緩存。來源：快科技

NVIDIA最新一代GPU Hopper發布：堆不動料了

Nvidia不久前發布了下一代GPU架構，架構名字為「Hopper」（為了紀念計算機科學領域的先驅之一Grace Hopper）。根據Nvidia發布的具體GPU規格，我們認為Nvidia對於Hopper的主要定位是進一步加強對於人工智慧方面的算力，而其算力升級依靠的不僅僅是硬體部分，還有不少算法和軟體協同設計部分，本文將為讀者做詳細分析。我們認為，在Nvidia更下一代的GPU中，我們有望看到芯粒技術成為新的亮點來突破其瓶頸。 Hopper的性能有多強根據Nvidia公布的數據，基於Hopper架構的GPU（H100）使用TSMC的4nm工藝設計，將會是Ampere架構（使用TSMC 7nm工藝）之後的又一次重大升級，其16位浮點數峰值算力（FP16）將會由之前的312 TFLOPS增加到1000 TFLOPS，INT8峰值算力則由之前的624TOPS增加到2000TOPS。由此可見FP16（常用於人工智慧訓練）和INT8（常用於人工智慧推理）的峰值算力基本上都是翻了三倍，這個H100相對A100峰值算力提升的比例基本符合A100和再上一代GPU V100的提升數字。而根據Nvidia官方公布的具體任務性能提升，我們也可以看到大多數人工智慧相關任務的性能提升基本在2-4倍之間（尤其是使用transformer類模型的性能提升較為突出，接近4倍），初看也和峰值算力提升三倍基本吻合。但是如果我們仔細分析Nvidia H100具體晶片指標，我們認為在人工智慧任務中，H100的提升不僅僅是來自於一些硬體指標（例如核心數量，DRAM帶寬，片上存儲器）的提升，更是來自於Nvidia做了算法硬體協同設計。例如，Nvidia在Hopper架構中引入了為Transformer系列模型專門設計的八位浮點數（FP8）計算支持，並且還加入了專門的Transformer engine硬體模塊來確保transformer模型的運行效率。因此，我們看到在Nvidia公布的人工智慧任務性能提升中，使用transformer的任務（如GPT-3）的性能提升要高於傳統的基於CNN（如Mask R-CNN）的性能提升。存儲方面提升相對較小在人工智慧等高性能計算中，存儲（包括DRAM接口帶寬和片上存儲容量）和計算單元一樣重要，在很多時候存儲甚至會成為整體性能的瓶頸，例如峰值算力無法持續，導致平均計算能力遠低於峰值算力。在Hopper架構中，我們看到了峰值算力提升大約是Ampere的三倍，然而在DRAM帶寬和片上存儲方面，Hopper相對於Ampere的提升較小，只有1.5倍和1.25倍。在DRAM帶寬方面，我們看到H100有兩個版本，其中使用最新一代HBM3的版本的記憶體帶寬是3TB/，相比於A100（2TB/）的提升為1.5倍，相比峰值算力的三倍提升相對較小。反觀A100相對更上一代V100的記憶體帶寬提升為2.2倍，因此我們認為H100的HBM3記憶體帶寬提升幅度確實相對上一代來說較小。我們認為，HBM3帶寬提升較小可能和功耗有關。仔細分析Hopper發布的GPU，我們發現Hopper架構的GPU目前有兩個品類，一個是使用HBM3記憶體的版本，而另一個是仍然使用HBM2e的版本。 HBM3版本的H100相對於使用HBM2e版本的H100在其他晶片架構上（包括計算單元）的差距不過10%（HBM3版本的計算單元較多），但是在功耗（TDP）上面，HBM3版本的H100的TDP比HBM2e版本H100整整高出兩倍（700W vs. 350W）。即使是相對於上一代使用7nm的Ampere架構，其功耗也提高了近兩倍，因此能效比方面提升並不多，或者說即使更先進的晶片工藝也沒法解決HBM3的功耗問題。因此，我們認為H100 HBM3版本DRAM記憶體帶寬增加可能是受限於整體功耗。而當DRAM帶寬提升較小時，如何確保DRAM帶寬不成為性能瓶頸就是一個重要的問題，因此Nvidia會提出FP4和Transformer Engine等算法-硬體協同設計的解決方案，來確保在執行下游任務的時候仍然效率不會受限。除了DRAM帶寬之外，另一個值得注意的點是Hopper GPU的片上存儲增長僅僅是從A100的40MB增長到了H100的50MB；相對來說，A100的片上存儲相對於更上一代V100則是增加了6倍。我們目前尚不清楚H100上片上存儲增長這麼少的主要原因，究竟是因為Nvidia認為40-50MB對於絕大部分任務已經夠用，還是因為工藝良率的原因導致再加SRAM會大大提升成本。但是，無論如何，隨著人工智慧模型越來越復雜，對於片上存儲的需求越來越高，片上存儲容量較小就會需要有更好的人工智慧模型編譯器和底層軟體庫來確保模型執行過程中能有最高的效率（例如，確保能把模型數據更好地劃分以盡量在片上存儲中執行，而盡可能少地使用DRAM）。 Nvidia在這一點上確實已經有了很深厚的積累，各種高性能相關的軟體庫已經有很好的成熟度。我們估計Nvidia有強大的軟體生態作為後盾也是它有能力在設計中放較少片上存儲（以及較小的DRAM帶寬）的重要原因。這一點結合之前Nvidia在Hopper引入的新模型-晶片結合設計技術，例如能大大降低記憶體需求的FP4技術，以及為了Transformer模型專門設計的Transformer Engine，這些其實從正反兩面論證了我們的觀點，即Hopper架構很多的性能提升事實上是來自於軟硬體結合設計，而並非僅僅是晶片/硬體性能提升。 Nvidia下一步突破點在哪里？如前所述，Nvidia的Hopper架構GPU的晶片領域的突破相比上一代Ampere架構並沒有特別大，而是主要由軟硬體結合設計實現性能提升。我們看到在存儲領域（包括DRAM接口和片上存儲容量）的提升尤其小，而這可能也會是Nvidia進一步提升GPU性能的一個重要瓶頸，當然突破了之後也會成為一個重要的技術壁壘。如前所述，HBM3的功耗可能是一個尚未解決的問題，而如何在晶片上放入更多的片上存儲器則將會被良率和成本所限制。在存儲成為瓶頸的時候，晶片粒（chiplet）將會成為突破瓶頸的重要技術。正如之前所討論的，當片上存儲容量更大時，GPU對於DRAM等片外存儲的需求就會越來越少，而片上存儲的瓶頸則是良率和成本。一般來說，晶片的良率和其晶片面積成負相關，當晶片面積越大時，則晶片良率會相應下降，尤其是在先進工藝中，良率更是一個重要考量。而晶片粒則是可以大大改善這個問題：晶片粒技術並不是簡單地增加晶片的面積（例如更多片上存儲），而是把這些模塊分散在不同的晶片粒中，這樣一來整個晶片粒的晶片面積就會大大下降，從而改善良率。此外，隨著GPU規模越來越大，為了能更好地控制整體良率，使用晶片粒技術也是一個自然地選擇。我們認為，在今天HBM3技術的功耗遇到瓶頸的時候，或者說HBM技術整體從功耗上遇到挑戰的時候，下一步的重要方向一定是從簡單地增加DRAM帶寬和在單個晶片上放更多電晶體變到更精細地設計架構和片上存儲，這也就讓晶片粒占到了舞台中央。事實上晶片粒和GPU的結合對於業界來說並不陌生。事實上Nvidia最有力地競爭對手AMD已經把晶片粒技術使用在GPU上，此外在片上存儲部分AMD也發布了3D V-Cache，可望成為下一代繼續增加片上存儲的重要技術。 Nvidia在晶片粒方面也有相關布局，這次與Hopper同時間發布的用於晶片粒互聯的UCIe標準也意味著Nvidia在晶片粒領域的投資。我們認為，在Nvidia未來公布的GPU中，非常有可能可以看到晶片粒技術的大量應用，而這結合Nvidia的軟硬體協同優化技術有可能會成為下一代Nvidia GPU的最大亮點。來源：快科技

微軟的反擊？傳金會員服務或將被砍強勢插入XGPU

微軟遊戲目前的核心業務就是Xbox Game Pass訂閱服務，而索尼最近也公布了全新的PS Plus訂閱服務，顯示了遊戲訂閱服務時代正在悄然降臨。而現在，根據記者Brad Sams的爆料，看起來Xbox Live金會員服務（一項收費訂閱服務：訂閱該服務後才能遊玩XBOX主機在線多人遊戲）可能很快就會與Xbox Game Pass終極版訂閱服務永久合並了。目前金會員服務已經是最高等級Game Pass服務的一部分了，但根據Brad Sams的說法，微軟正在考慮完全砍掉這項服務，而將其作為獨占內容加入到Game Pass終極版服務中去。這意味著如果你想要在線遊玩付費遊戲，你就需要訂閱Game Pass。這已經不是我們第一次聽到類似傳聞了，此前一直有報導稱微軟將會永久下線Xbox Live金會員服務，但微軟後來表示它並沒有這樣的計劃。來源：遊俠網

地球上最快GPU終於上線售價1萬5也被瞬秒

經過幾個月的等待，地球上最快的GPU，NVIDIA RTX3090Ti終於與大家見面了。作為現世最強，它的一連串數字讓玩家們分泌著腎上腺激素，滿血的GA102核心，打開全部17052個CUDA核心、84個光追核心，默認核心頻率提高到1560-1860MHz，搭配384-bit 24GB GDDR6X顯存，頻率提高到史無前例的21GHz，帶寬突破1TB/，整卡功耗450W。當然，還有14999元的官方發售價格。在遊戲性能方面，NVIDIA聲稱RTX 3090 Ti將比RTX 2080 Ti平均快64%，比RTX 3090快9%。與此同時，AIC品牌們也第一時間發布了自己的非公新卡，目前已有華碩、七彩虹、微星、影馳、技嘉、耕升、同德、KAF、EVGA、PNY等十大品牌的21款不同產品，且不乏水冷。雖然價值不菲，最低也要14999元，部分型號甚至要16499元，不過高玩們的購買力可真是讓人大開眼界，剛剛上線一天多的時間，多個型號已經售罄，當然一些人可能也是害怕缺芯導致之後顯卡價格直線上升。來源：快科技

XGPU玩EA遊戲可以解鎖成就了可繼承到Origin帳號中

眾所周知，訂閱了XGPU的用戶雖然可享有EA Play特權，遊玩該遊戲庫中的所有遊戲，但在之前通過這種方式遊戲是無法解鎖成就的，讓成就黨很是苦惱。如今，微軟為XGPU加入新功能，讓玩家可以直接獲得EA Play的對應成就。這些成就並不會計算到用戶的Xbox玩家分數里，但可以通過多種設備繼承到玩家的Origin帳號中。現在《雙人成行》、《星球大戰絕地：隕落的武士團》、《質量效應：傳奇版》和《戰地》系列都可以享受這一待遇。除此之外，XGP訂閱用戶最近還得到了派拉蒙+的30天免費會員福利，方便玩家收看新上映的《光環》電視劇。來源：遊俠網

感受英雄故事 XGPU會員可領取3個月《漫威無限漫畫》會員

今日（3月24日），《漫威無限漫畫》宣布與Xbox展開合作，Xbox Game Pass Ultimate用戶可免費領取3個月《漫威無限漫畫》會員，感受漫威宇宙中超級英雄們的故事。宣傳視頻：視頻截圖：來源：3DMGAME

97%遊戲性能沒了 NVIDIA閹割H100 GPU圖形功能：1.8萬核心砍到512核心

昨晚的GTC 2022大會上，，也是萬眾期待的Hopper新架構，跳過5nm直接上了台積電4nm工藝，800億電晶體，功耗最高可達700W，各方面性能很好很強大。完整版有8組GPC(圖形處理器集群)、72組TPC(紋理處理器集群)、144組SM(流式多處理器單元)，而每組SM有128個FP32 CUDA核心，總計18432個。相比目前的Ampere GPU架構的1萬個CUDA核心，Hoper的1.8萬CUDA核心提升很大，但是大家不要期待H100的遊戲性能了，因為NVIDIA這次一刀砍到底，閹割得非常厲害。從NVIDIA的白皮書中可以確認，H100砍掉了大量GPU相關功能，不論是PCIe 5.0版還是SMX版的H100核心中，只有2組TPC單元才可以支持圖形運算，包括矢量、幾何及像素渲染。 2組TPC單元也就是4組SM單元，總計512個CUDA核心是可以跑遊戲的，相比完整的1.8萬核心來說微不足道，性能只相當於完整版H100核心的1/36，也就3%左右，97%的遊戲性能沒了。 NVIDIA解釋說H100是專為AI、HPC及數據分析而生的，並不是為了遊戲而設計的。考慮到H100在AI、HPC等性能上的提升，NVIDIA閹割大量遊戲功能以便減少設計難度也是可以理解的，畢竟加速卡也不會用來玩遊戲。針對遊戲玩家的是Ada Lovelace架構，此前爆料也是最多18432個流處理器，但是它會大量閹割計算單元，保留完整的圖形及光追單元，跟H100的設計理念反過來。來源：快科技

銳龍7000系列將集成GPU：不再局限於APU

隨著市面上關於銳龍7000系列處理器的消息越來越多，越來越多的重磅消息也出現在公眾視野當中。據爆料大神KOMACHI_ENSAKA爆料，AMD的下一代銳龍7000「Raphael」CPU將集成全新的RDNA 2圖形核心架構，而且不再局限於APU。據悉，即將推出的銳龍7000系列處理器允許GPU集成4個RDNA 2計算單元，作為參考，銳龍6000系列處理器最多有12個RDNA 2計算單元。此外爆料大神還表示，AMD Raphael系列對GPU的性能要求並不高，其推出目的更多的是讓用戶作為基礎圖形處理工具使用，說直白點就是亮機用的，但後續並不排除AMD有升級計劃。來源：快科技

出走8年老將從AMD回歸 Intel GPU取經路能否「通關」

根據國外科技媒體TomsHardware2月21日報導，英特爾「老將」Rohit Verma將從AMD回到英特爾，擔任英特爾GPU部門首席產品架構師。在過去的八年間，Rohit Verma在AMD參與了台式機和筆記本的獨顯設計以及CPU、GPU、電源等更廣泛的SoC架構設計。出走八年，「老馬」重回最初的起點其實英特爾與Rohit Verma原本就有著千絲萬縷的緣分。Rohit Verma原是英特爾的老將，他在2013年出走AMD後，歷任獨立GPU高級設計師和首席SoC架構師，在AMD中地位匪淺。 Rohit Verma回歸英特爾後，在社交媒體上表示：「我懷著非常激動的心情向你們分享我已經回歸英特爾擔任GPU部門的SoC首席架構師一事，我非常期待和我的同事們為新一代GPU帶來革命性的改變。」 Rohit Verma曾經在1999年至2013年在英特爾擔任首席SoC設計師。巧合的是他在英特爾的工作時間與英特爾現任CEO Pat Gelsinger有過短暫重合。這使得本次Rohit Verma的回歸頗有些戰友重聚的意味。 Rohit Verma是2013年離開英特爾的，彼時的英特爾正處於內憂外患之中。在世紀之交英特爾沒有抓住新興的筆記本電腦市場所帶來的機遇，在晶片上過度關注性能而忽視功耗，使得業務遭遇重大挫折。 2005年，已經拿下蘋果Mac訂單的英特爾又因為錯估了移動網際網路的前景，拒絕為蘋果公司正在籌劃的Iphone手機項目設計晶片，錯失移動網際網路市場。在這種情況下，英特爾的士氣也受到嚴重影響，人才不斷出走。Rohit Verma就是在這一時期離開英特爾的。而此次他從在GPU行業深耕多年的AMD離職，回到在GPU市場還是一名「小學生」的英特爾，無疑需要巨大的決心。而他的決心似乎和英特爾這位風格獨特的新任CEO Pat有著非常緊密的聯系。「船長」一支穿雲箭，千軍萬馬來相見自Pat Gelsinger2021年重返英特爾出任CEO以來，英特爾已經發生了翻天覆地的變化。Pat提出的IDM2.0計劃已經成為了英特爾新時代發展的主要路徑，圍繞IDM2.0計劃的宏偉藍圖而開展的IFS業務在這兩年間也得到了迅猛發展。在過去的一年間，英特爾圍繞這一主線動作不斷。無論是砸下十億基金發展先進位程工藝，還是入局RISC-V，成為基金會高級成員。都可以看出英特爾對走IDM2.0之路堅定不移的決心。英特爾在上周的投資人大會上宣布了未來五年英特爾的發展規劃。發展規劃中不僅確定了英特爾未來埃米級先進位程投產的具體時間，還披露了有關於英特爾GPU的時間表。這使得英特爾IDM2.0落地的道路看起來愈加清晰。而在英特爾努力向IDM2.0這一宏願邁進的同時，許多老將也正在回歸英特爾。前幾年，英特爾曾面臨過非常嚴重的人才流失問題。2020年，英特爾AI平台事業部負責人Naveen Rao和晶片工程部門總負責人Jim Keller先後宣布離開英特爾。後者曾經為AMD設計過著名的Ryzen系列晶片，使AMD能夠在晶片業務上與英特爾分庭抗禮，地位可見一斑。這些重要技術人才的離開對英特爾造成的損害不言而喻。 2021年新上任的CEO Pat在視事之初正面臨著這樣的「危急存亡之秋」。這使得他不得不對英特爾進行大刀闊斧的改革。在不少業內人士預測英特爾即將放棄晶片製造產業的大背景下，提出IDM2.0的規劃和堅持推動英特爾的晶片代工IFS業務的舉措都讓這位新船長享受了無數閃光燈的同時飽受質疑。在這種情況下，Pat招募了數名英特爾曾經的老將，頗有組建「老兵聯盟」的意味。分析人士指出，英特爾要實現IDM2.0規劃的真正落地，Pat對團隊的掌控力是至關重要的。在公司面臨轉型的挑戰時，這位新船長必須要依仗值得自己信賴的老水手。 Pat出任英特爾CEO以來，其雷厲風行的管理風格和頗具野心的未來規劃已經吸引了許多蟄伏已久的老將回到英特爾。 2021年，曾經一手創造了酷睿i7系列晶片的Glenn Ginton重返英特爾，並直言Pat的上任是他回歸的主要原因。Glenn曾在英特爾任職長達35年之久，在任期間催生了Intel酷睿處理器系列，並使其成為了高性能處理器的代表。 2014年離職的老將Sunil Shenoy也於同年回歸英特爾擔任設計工程部高級副總裁。據悉，Sunil離開英特爾後任職於SiFive公司，並負責RISC-V相關項目。他的回歸也使得英特爾獲得了在RISC-V領域許多寶貴經驗。再到如今Rohit的回歸，英特爾已經重新贏回了不少老將對公司未來的信心。英特爾CEO Pat對此評價到：「英特爾人才流失的情況已經發生了根本性的轉變，我們的人才現在都已經回到了公司的懷抱。」群雄再聚首，牙膏廠是否真能「牙膏擠爆」曾幾何時，英特爾由於在製程工藝和晶片功耗上止步不前，創新能力遭到質疑，被賜諢名「牙膏廠」。而如今，隨著老將的紛紛回歸，已經憋屈了數年的「牙膏廠」似乎真的要重振當年雄風，干出一番驚天動地的事業來。在幾天前的英特爾投資人大會上，英特爾公布了不少「猛料」。按照英特爾的計劃，未來四年間，英特爾將跨過五個製程節點。其使用EUV技術製造的Intel4製程晶片最快將於2022年下半年投產，製程更先進的Intel3晶片則將會在2023年投產。而在2024年，英特爾將會全面進入埃米時代。基於這樣的藍圖，英特爾甚至大膽做出了摩爾定律還會持續十年的論斷。如果說在晶片上製程的前進是Glenn、Sunil等元老級人物回歸的契機，英特爾發布的GPU相關規劃也許就是本次Rohit重回英特爾的原因之一。 Pat在前幾日投資者大會上闡述英特爾未來戰略方向時將英特爾的業務分為了「傳統業務」和「新興業務」。而Rohit本次回歸任職的GPU部門下屬加速計算系統與圖形事業部（AXG），就屬於新興業務。根據英特爾的規劃，幾年後新興業務的總收入將占據英特爾營收的一半以上。其中AXG部門將在2026年營收超過100億。這樣的規劃足見英特爾對於GPU部門發展的重視程度。與此同時，英特爾在GPU領域的發展狀況也相當喜人。根據Pat在投資人大會上的說法，搭載英特爾的獨立顯卡「銳炫」的筆記本最早能在2022年的第一季度出貨。此外，英特爾還規劃了面向超級發燒友市場的Celestial項目，該GPU的架構研發工作已經開始。並且，英特爾的雲電腦項目Endgame也在持續推進中。這項服務將能使用戶通過雲服務訪問Intel獨顯在雲端的算力，以獲得低成本，高能效的遊戲體驗。英特爾透露該項目不僅面對遊戲玩家，還能夠提供基於遠程託管的串流服務。有相關人士指出，英特爾在GPU領域的動作，是英特爾今年最大的「豪賭」。如果英特爾顯卡的性能足夠強大，也許就能一舉改變英偉達和AMD在GPU領域兩分天下的局面。在這種情況下，「顯卡大師」Rohit的回歸無疑是英特爾的一劑強心針。Rohit回歸英特爾後，將可能參與英特爾Battlemage和Celestial等GPU的開發，這些項目是英特爾下一階段在GPU市場站穩腳跟的關鍵。隨著越來越多的老將回歸，我們欣喜地看到，英特爾似乎真的有望拋卻「牙膏廠」名號，以全新的姿態揚帆起航。來源：快科技

英特爾新GPU專利感受下：顯卡將用MCM封裝技術

最近幾年，先進封裝技術逐漸得到半導體廠商的關注。英特爾在幾年前提到多種先進封裝工藝，推出包括Foveros、EMIB等多種封裝技術。英特爾最近公布一項封裝專利，可能是英特爾未來圖形加速器設計的基石，該專利描述了如何利用多晶片模塊(MCM：Multi-Chip Module) 方法，實現一系列協同工作以提供單幀的圖形處理器。英特爾的設計指向工作負載的層次結構，將MCM構造成一個整體的方法，主圖形處理器協調整個工作負載。防止晶片設計人員在追求性能的過程中，不斷增加裸片尺寸，並帶來可製造性、可擴展性和供電問題等一系列問題。但英特爾似乎從AMD的描述中吸取教訓，解釋說他們的MCM設計的「中心」。根據英特爾專利的描述，把多個圖形繪制指令傳送到「多個」圖形處理器。第一圖形處理器實質上運行整個場景的初始繪制通道，創建可見性和障礙數據，並決定渲染哪些內容。在第一圖形處理器生成的一些圖塊會轉到其他可用的圖形處理器，負責准確地渲染與其tiles相對應的場景，顯示每個tile中的圖元或顯示沒有要渲染。英特爾似乎在考慮將基於圖塊的棋盤渲染與分布式頂點位置計算集成在一起，當所有圖形處理器都渲染好單幀拼圖(包括著色、照明和光線跟蹤)時，第一圖形處理器將它們的成果拼接起來，並最終在螢幕上呈現。按照英特爾的說法，基於圖塊渲染的單幀被分成多個圖塊。根據專利的描述，圖塊將經過第一圖形處理器，指出對應的圖形單元在哪些地方可見，並為每個圖塊提供多個圖形處理器的渲染框架，直到獲得Destiny 2幀。理想情況下，渲染的過程每秒會發生60、120甚至500次。英特爾對多晶片性能擴展的希望就這樣擺在我們面前。英特爾用AMD和NVIDIA顯卡在SLI或Crossfire模式下的性能報告，說明經典多GPU配置的潛在性能提升，但性能肯定不如真正MCM設計的晶片。不過，英特爾在專利中對架構層面的細節相當模糊，並且涵蓋盡可能多的領域，甚至包括多個協同工作的圖形處理器或只是圖形處理器的一部分。這個方法適用於「單處理器桌面系統、多處理器工作站系統、伺服器系統」以及用於移動的片上系統設計 (SoC)，這項技術能夠接受來自RISC-V、CISC或VLIW命令的指令。從英特爾的專利描述可以看到，英特爾希望在MCM設計的GPU實現多晶片同步渲染，不同於NVIDIA和AMD曾經的速力(SLI)和交火(Crossfire)。英特爾希望通過MCM封裝的方法，讓多個圖形單元能夠在「第一圖形處理器」的協同下，在多個不同的專用晶片或圖形單元上進行計算、渲染，再通過第一圖形處理器「組合」成最終畫面。編輯點評：在製造工藝進展越發緩慢的當下，封裝技術受到各大半導體廠商重視。當下應用最成功的莫過於AMD的銳龍、線程撕裂者等處理器產品，AMD通過Chiplet的晶片設計，將產品的不良品率影響降至最低。英特爾的MCM技術與AMD的Chiplet有很多相似之處，但又略有不同;隨著AMD在Intinsct圖形加速卡中使用多晶片設計，也可以為英特爾提供一定的參考。不僅如此，MCM多晶片封裝技術除了帶來更好的成本控制和更高的靈活性外，它同時還能解決高性能工藝產品的一大難題，那就是積熱。當下普遍認為，產生積熱的原因在於電晶體過度集中，散熱器與晶片之間的熱傳遞效率因為熱源過度集中，無法快速將熱量導出造成的。 MCM封裝的晶片能夠啦心晶片之間的距離，能更充分的使用到散熱器的全部性能，降低積熱帶來的影響。來源：快科技

《末日之戰：重製版》PC最後更新上線改進CPU和GPU

《末日之戰：重製版》PC版新修正檔上線，大大改進了GPU和CPU的表現。根據Crytek，這是《末日之戰：重製版》PC版發售以來所推出的最有影響力的一次更新，基於玩家的反饋，這也是該作最後的更新。除了以上提到的GPU和CPU改進外，更新還改善了遊戲穩定性，修復了Steam成就，音頻，貼圖，美術和渲染。此外，Steam交易卡牌也被加入進來。《末日之戰：重製版》代理項目負責人Steffen Halbig說：「自重新製作的三部曲發售以來，我們非常感謝所有的支持和社區反饋。你們的投入非常寶貴。感謝你們的熱情和持續的支持！」最近Crytek官宣了《末日之戰4》，目前正在積極開發中。來源：3DMGAME

《消逝的光芒2》XSS只有30幀 Techland解釋說GPU拖後腿

除了合作問題外，《消逝的光芒2》粉絲還在抱怨運動眩暈的問題，這是因為本作缺乏FOV滑動條和動態模糊。一名國外玩家發推說：「我和隊友變得惡心，不得不停下遊玩《消逝的光芒2》，因為Xbox Series X|S上的動態模糊，缺乏FOV滑條，30fps和頭部晃動。很多玩家在Reddit上也抱怨同樣的問題。有關於這個問題的解決方法的消息嗎？謝謝。」首席設計師Tymon Smektala回復說：「我們首先正在修復合作問題，玩家的大量需求打破了索尼/微軟/Epic的伺服器負載。運動暈眩會在首個即將到來的修正檔中修復。Xbox Series S的30幀問題會被關注，但主機的GPU正在拖後腿。」《消逝的光芒2》在Xbox Series S上為30幀，相比來說，該作在Xbox Series X上支持動態4K/60FPS以及光追。而在Xbox One S上，該作以900P/30FPS運行。考慮到Xbox Series S比Xbox One S性能更強大，很多國外網友不理解為什麼Xbox Series S還不能實現60FPS。來源：3DMGAME

Steam Deck上手視頻曝光：通吃PC遊戲可自定義GPU性能

據此前消息，Steam Deck掌機已經正式定檔2月25日發售，起售價399美元（約為2525元人民幣）。近日，關於這款設備的消息也格外引人關注，一位B站UP主就帶來了真機的上手視頻，提前展示了該設備的一些設計。 ...

Steam Deck上手視頻你可以自定義GPU的性能

B站UP主「牛頭人萌新」今日發布了33秒Steam Deck上手視頻，根據視頻，Steam Deck允許玩家自定義GPU性能。通過視頻我們可以一窺Steam Deck的電池管理系統，這包括電池續航時間，性能界面水平，GPU性能水平，基礎視圖和高級視圖。玩家可以調整這些參數來延長續航時間。 GPU性能水平分為自動和手動，手動又包括低和高。高級視圖包括限制幀率，可變解析度（動態調整渲染解析度），動態刷新率，TDP（功耗）限制，FSR等。來源：3DMGAME

華擎mini-ITX版RX 6400 GPU曝光：或僅供OEM渠道無需外接供電

作為AMD GPU的 AIB 合作夥伴的華擎，准備推出的mini-ITX 版Radeon RX 6400 Challenger 入門獨顯，出現在EEC（歐亞經濟委員會）網站的資料庫中。據悉，Radeon RX 6400 GPU為RX 6500 XT的精簡版，基於RDNA2架構的Navi 24核心，規格為12組計算單元，共768個流處理器，主頻為2039MHz，加速頻率可高達2321MHz，12個光追單元，保留完整的16MB無限緩存，擁有4GB的顯存、64bit位寬、16Gbps速率，功耗僅為53W，無需外接電源供電。不過，RX 6500 XT並不會針對消費市場而推出，很可能只會向OEM（原始設備製造商）供貨。此外，還有曝料者曝光了的四款顯卡新品，分別是RX 6500 XT Phantom Gaming D OC、RX 6500...

新「核彈」來了 NVIDIA下一代5nm GPU曝光：龐然大物

多方爆料顯示，Hopper將是NVIDIA下一代GPU，主要用於數據中心領域。達人kopite7kimi稱，GH100核心的面積可能僅比1000mm²小一點，這樣就比GA100安培大核心大了超20%，可以說是非常恐怖的規模。畢竟，GA100的面積已經達到826mm2，集成542億電晶體，是7nm工藝下最大的晶片之一了。這似乎驗證了此前的傳言，即Hopper採用的是MCM多芯互聯設計，功耗甚至能摸到1000W，也就是一小時一度電。當然，考慮到Hopper用的地方是高性能計算或者數據中心，功耗高應該並不是很大的問題，性能更重要。至於遊戲顯卡RTX 40系列，據說對應Ada Lovelace核心，AD102核心將擁有18432個CUDA，頻率2.5GHz，算力90T，功耗超450W。來源：快科技

取代安培 NVIDIA下一代GPU產品Hopper尷尬了：沒發布就攤上商標糾紛

NVIDIA的下代GPU據說包含Ada Lovelace和Hopper兩款，這都是歷史上西方奠基性的女科學家，前者被稱為電腦程式第一人，預計對應RTX 40系顯卡，後者則是編譯之母，預計對應數據中心GPU。不過，對於NVIDIA來說，一個現實性的尷尬問題在於，Hopper商標還不在自己手里。原來，2019年，網絡公司Dish稱，Hopper已被用於旗下DVR和衛星接受設備，盡管看起來其品類和顯卡/加速卡很難混為一談，可Dish還是不依不饒。雙方的法律糾葛開始於2021年4月，Dish網絡向美國專利局申請駁回NV的Hopper商標。5月份開始，雙方開始進行和解談判，可至今沒有達成。下一個關鍵的時間點是2022年2月22日，如果還無法和解或者沒有暫停訴訟的動議，那麼可能會影響Hopper面市。爆料稱，Hopper基於台積電5nm工藝，採用MCM多芯設計，算力規模非常可觀。來源：快科技

Xbox台服XGP、XGPU等訂閱服務降價 1個月約46元起

微軟宣布，台服Xbox Game Pass及Xbox Live Gold服務預計從2月起開始下調。整體調降幅度約1/3，例如主力的Xbox Game Pass Ultimate價格從原本的1個月新台幣459元降低至新台幣299元，Xbox Game Pass（PC/主機）從原本的1個月新台幣320元降低至新台幣199元。官方表示，Xbox會定期評估Xbox Game Pass 及Xbox Live Gold在各個市場當地的價格，以為各地區的會員及玩家帶來最好的服務。這些價格調整會根據每個市場的情況而訂定，也是微軟去年底開始在一些地區進行價格調整的延續。其中Xbox Game Pass Ultimate包含Xbox Live Gold會員的權益、最先進的多人遊戲網路、以及上百款適用於主機與PC的高品質遊戲，更包含EA Play會員。 Xbox台服訂閱服務價格調整表（時間、原價、現價、降幅） Xbox Game Pass Ultimate 1個月 459 299 -34.86% 3個月 1359 899 -33.85% 6個月 2754 1799 -34.68% 12個月 5508 3589 -34.84% 24個月 11016 7179 -34.83% PC...

微軟公布2022年1月Xbox金會員及XGPU免費遊戲名單

2022年即將到來，今天（12月24日）Xbox官方公布了2022年1月為金會員免費送上的遊戲名單和日程表，一起來看看預告視頻吧。2022年1月Xbox金會員免費遊戲： ...

《碧血狂殺2》cpu和gpu占用為0解決方法

《碧血狂殺2》中，有玩家遇到了cpu和gpu占用為0的情況，不少玩家不知道該怎麼辦，下面就給大家帶來解決方法，希望可以幫助到大家，更多內容如下。 cpu和gpu占用為0解決方法步驟如下： 1. 正常啟動遊戲。 2. 打開任務管理器，切換到「詳細信息」標簽，找到RDR2.exe行，點右鍵，選「設置相關性」 3. 點「所有處理器」前面的勾，以便快速取消打鉤。再把 CPU 0 打鉤，確定關閉對話來源：3DMGAME

NVIDIA論文自曝下一代GPU：單浮點性能提升24%

NVIDIA的下一代GPU依然神秘，日前有網友發現一份NV的研究論文，其中提到的「GPU-N」似乎是GPU-Next的縮寫，猜測真身是Hopper。提到的參數包括134組SM（8576個CUDA），核心頻率1.4GHz，60MB二級緩存，最大233GB HBM2e顯存，配合3.5Gbps針腳帶寬或者說顯存速度和6144bit位寬，總帶寬能到6.3TB/。性能指標方面，單精度浮點24.2T，半精度779T，比較有參考意義的單精度比NVIDIA A100也就是安培大核心的19.5T提升了24%。有趣的是，CUDA規模的增加也是同比例，更別說L2增加了59%、顯存帶寬增加了135%。不過，根據此前的說法，Hopper最終有望採用MCM多芯封裝，雙芯對應的就是268組SM+。另外，Hopper最終大機率用於專業市場，而遊戲市場的主角會是5nm Ada Lovelace。NVIDIA在GTC大會上已經給出路線圖明確表態，Ampere下一代會在2022年登場，且拭目以待。來源：快科技

AMD GPU新專利曝光：未來RDNA顯卡可集成機器學習專用晶片

相比NVIDIA的顯卡在AI人工智慧及深度學習ML上的狂熱，AMD旗下的GPU加速卡依然偏重傳統計算，最新的Insinct MI200系列也是如此，不過AMD未來的RDNA架構顯卡會大改，集成專用的APD單元，專門加速ML性能。日前美國商標局公布了AMD最新的GPU專利，AMD描述了一種新的架構，可以將額外的晶片集成在GPU頂部，稱之為APD（accelerated processing device）加速處理器，主要用於提升ML性能，內部包括記憶體及1個或者多個ML加速器。通過這種方式，AMD表示該架構可以獲得ML性能優勢，記憶體可以配置為緩存或者直接訪問的記憶體模式，還可以包括MLU邏輯運算單元，可以執行矩陣算法以提高ML性能。簡單來說，AMD做ML加速器的思路跟NVIDIA是不同的，後者是把ML做到了現在的GPU內核中，而AMD則是尋求通過專用單元的方式來提高性能，這樣做性能優勢比較明顯。考慮到AMD在小晶片設計上的豐富經驗，顯然GPU中也會堆棧更多的單元了，此前AMD在銳龍/霄龍處理器中實現了計算+IO核心堆棧，即將發布的3D V-Cache版銳龍/霄龍則是增加了緩存單元，GPU中增加ML單元也是順理成章的。這個GPU專利無疑會用於未來的RDNA顯卡，目前還不確定是否趕得上明年底的RDNA3架構，要麼就是再等一代到RDNA4架構顯卡了。來源：快科技

如何應對GPU供應不足？英偉達：明年下半年將改善局面

由於疫情、供應鏈、晶片短缺等原因，在過去的一年里，人們想要以常規的價格買到顯卡可以說是相當困難的，想入手只能加價，有些甚至是加錢都買不到。不過根據媒體的最新報導，英偉達NVIDIA官方表示GPU的供應問題將會在2022年下半年得到改善。英偉達NVIDIA財務長Colette Kress在前幾天的瑞銀全球TMT會議上發表了GPU供應問題的演講，其表示目前英偉達正在採取相應措施來改善全球晶片短缺所造成的顯卡供應問題。她表示目前英偉達將會繼續采購更多的晶片來緩解這一局面。但其實從前幾天媒體公布的三季度全球顯卡市場報告的情況來看，其實顯卡的出貨量是在不斷好轉的，總出貨量達到1270萬張顯卡，比上季度增多了100多萬張，同比增長25.7%，其中英偉達NVIDIA的獨顯上季度出貨環比增長9.3%，同比增長27.1%。對於黃牛黨、加密貨幣礦工等干擾因素，Colette Kress也作出了表態。Kress表示要讓更多的GPU進入市場是第一步要做的。要想降低價格，就必須在市場上提供合理的供應量，而不是像今天這樣的短缺，最後她表示英偉達的顯卡供應將會在2022年的下半年得到改善。對於今年英偉達的業績情況，Colette Kress表示「我們在今年的前三個季度里都能保持增長狀態，我們也確信會在第四季度保持做到這一點。所以我們將能夠在供應方面處於更好的狀態下，來面對明年下半年。」 ...

美國公布新超算：採用NV下一代GPU

NVIDIA的下一代GPU，終於含蓄地揭開了神秘面紗。本周三，美國可再生能源實驗室（NREL）宣布將建造新超算Kestrel，合作方是HPE（惠與）。配置上，這套超算的CPU選用Intel Xeon Scalable Sapphire Rapids，也就是預計明年上半年發布的新一代至強可擴展處理器，GPU則是NVIDIA A100Next，掛載75PB容量的硬碟。性能指標是雙精度44 PetaFLOPS（億億次），大約能在目前超算TOP500中排進前七，2023年投入使用。仔細觀察可發現，這個A100Next很有說法，實際就是NV下一代GPU，因為保密的緣故還不能公開。就爆料來看，Turing的下一代產品分為伺服器/企業級和遊戲級，前者是Hopper，後者是Ada Lovelace，雖然都是5nm，但架構截然不同，Hopper據說是MCM多晶片設計，暴力堆核心，這對伺服器產品來說倒是也順理成章。至於下一代至強Sapphire Rapids，最大56核，支持8通道DDR5-4400記憶體，112條PCIe 5.0，熱設計功耗350W。來源：快科技

曝AMD通知非公廠商：將對RX 6000 GPU提價10%

當前的顯卡價格依然高企，然而，壞消息是，接下來，降價不僅沒有甚至可能還會更貴。據消息，上游透露，AMD已經通知全球AIB以及所有品牌商，RX 6000系列將全面進行拉漲，幅度約10%左右，也就是20~40美元。注意，這里所說的是RX 6000 GPU，也就是非公廠商拿到的套片價格。顯然，作為成本中最重要的一塊，最終的終端顯卡大機率也要進入上漲通道了。關於此次漲價的原因，據稱是AMD考慮台積電代工成本上揚所致。不完全統計顯示，RX 6000系列顯卡在11月的市場均價大概比建議零售價至少高出59%，至多則有144%，前者是RX 6900 XT，後者是RX 6800。來源：快科技

聽說過CPU、GPU 琳琅滿目的XPU到底是什麼？

在 AI 崛起的這幾年來，大家經常會看到「TPU、IPU、NPU」之類的名字，這些「XPU」有什麼分別？是真的有那麼多不同的架構？還是廠商的概念營銷？為了解答這個問題，媒體SemiEngineering搜集了大量業內人的看法並匯總成文，我們進行精簡和編譯，原文連結：https://emiengineering.com/what-is-an-xpu 從 CPU 及其發展方式的角度來看，這些「XPU」中的大部分都不是真正的處理器。機器學習加速器是一類處理器，但它們用來加速的處理部分卻多種多樣。它們更像是 GPU，是用於執行特殊工作負載的加速器，而且它們本身就有很多類型。處理器的本質可以歸結為三件事，最後還是回到指令集架構 (ISA)：首先定義要做的事，然後是 I/O 和記憶體（支持 ISA 和它試圖完成的任務）。而未來我們將看到比過去兩、三年更多的創新和變化。許多新架構都不是單一處理器，它們是不同類型的處理器或可編程引擎的組合，它們存在於同一個 SoC 或同一個系統中，將軟體任務分派到不同的硬體或可靈活變動的可編程引擎上。所有這些處理器可能共享一個公共 API，但執行域有所不同。在這個層面，確實是有各種類型的不同架構。但現實情況是，大部分「XPU」的命名都是營銷，而且這些命名和縮寫，同時指代兩種東西：一種是用於解釋處理器的架構，例如 SIMD（單指令多數據），而另一種定義了它正在尋址的應用程式段。所以它既可以用來定義處理器架構，也可以用作如「張量處理單元（TPU）」這樣的品牌名，畢竟廠商們不是在為單個處理器命名，而是在為他們的架構命名。歷史在40 年前，命名的問題要簡單很多。首先是中央處理器(CPU)，雖然它有很多演變版本，但它們基本上都是馮諾依曼架構，是圖靈完備的處理器。每個都有不同的指令集來提升處理效率，當年還針對復雜指令集 (CISC) 與精簡指令集 (RISC) 優缺點，有過非常廣泛的討論。後來的 RISC-V 的出現給 ISA 帶來了很多關注。...

NVIDIA GPU核心CUDA要開源？黃仁勛：絕無可能

NVIDIA是一家實力極其強大的GPU公司，不僅遊戲卡做得好，基於CUDA的加速卡也同樣受到業界歡迎，這已經是NVIDIA的核心競爭力了。那麼NVIDIA有沒有可能將CUDA開源呢？NVIDIA CEO黃仁勛斬釘截鐵否認了這種可能性。大家關心CUDA是否開源的問題，主要是因為NVIDIA被認為是一家生態封閉的公司，不夠開放，對開源更沒多大興趣，但是NVIDIA也有這樣的實力，CUDA不論硬體還是配套的軟體開發環境都是同類中最優秀的，可能沒有什麼之一。 NVIDIA CEO黃仁勛在日前的GTC大會上接受了采訪，談到了CUDA開放的問題，這事要分幾個方面來說。首先是NVIDAI自己開放CUDA硬體，以便其他廠商將CUDA集成到自己的晶片中，並運行自己為CUDA開發的軟體，這種可能性是沒有的，黃仁勛已經徹底否定了，畢竟CUDA在這方面是領先對手的，NVIDIA不可能將自己的優勢開放給其他廠商甚至對手。另一種開放是NVIDIA不開源CUDA，其他廠商自己構建一套為CUDA開發的軟體，甚至自己開發CUDA晶片，NVIDIA也不會反對這種想法，只是目前還沒有廠商提出過這樣的要求。這個方向雖然有開放的意味，NVIDIA不反對，但是NVIDIA不開放CUDA源碼的情況下，其他廠商也沒可能自己構建一套CUDA軟體或者晶片，這就是沒有廠商提出過這種要求的原因。不過NVIDIA對開放性的表態也不是完全沒意義，Tirias Research的首席分析師Jim McGrego表示，如果有公司願意開發定製版的CUDA晶片，NVIDIA倒是有可能有興趣。來源：快科技

《侏羅紀世界：進化2》GPU驅動問題解決方法

《侏羅紀世界：進化2》剛發售不久，購買的玩家就遇到了這樣那樣的問題，下面就給大家帶來GPU驅動問題解決方法，希望可以幫助到大家，更多如下。 GPU驅動問題解決方法想要解決GPU的相關問題，我們需要前往英偉達顯卡的官方網站，在網站內安裝相應顯卡的驅動程序。官網的驅動程序是最新的，別的軟體的驅動程序都不如這里。來源：3DMGAME

《決勝時刻18：先鋒》GPU不支持運行解決方法

《決勝時刻18：先鋒》有些玩家在遊玩過程中，會遇到GPU驅動程序不支持運行遊戲的彈窗，有玩家對此下載了一些網上的驅動程序，但還是無濟於事，下面就給大家帶來解決方法，希望可以幫助到大家。 GPU不支持運行解決方法遊戲自動退出後應該會自動打開動視官網，選擇你的顯卡型號（and，英偉達），然後進入相應的顯卡官網，找你的顯卡型號下載，我的是1060，已完美解決（就是下載有點慢）。來源：3DMGAME

《決勝時刻18：先鋒》GPU相關問題解決方法

《決勝時刻18：先鋒》今天解鎖了正式版本，有些玩家剛想進入遊戲，體驗一下，就出現了彈窗，上面說到玩家的gpu不滿足運行遊戲的標準。下面就給大家帶來GPU相關問題解決方法，希望可以幫助到大家。 GPU相關問題解決遇到以下問題，我們需要去顯卡官網，下載最新顯卡驅動，安裝上即可。來源：3DMGAME

M1 Max GPU跑分曝光：性能殘暴

新的14英寸和16英寸MacBook Pro已經正式發售，它們配備了新的M1 Pro和M1 Max晶片。今天，使用Affinity的工具進行的一項新的跑分測試顯示，M1 Max的GPU在某些任務上擊敗了售價45000元的AMD Radeon Pro W6900X。這些測試是由Andy Somerfield進行的，他是廣受歡迎的圖片編輯器Affinity Photo的首席開發者。由於單一的跑分測試不一定能表明GPU的速度，Affinity已經開發了自己的工具來衡量與其應用相關任務的性能，比如Affinity Photo和Affity Designer。開發人員解釋說，Affinity Photo在計算性能高、帶寬快、上下傳輸速度快的GPU上運行得最好。團隊在他們的測試工具中測試過的最快的GPU是昂貴的AMD Radeon Pro W6900X，蘋果將其作為Mac Pro的MPX模塊出售，售價45000元。 Radeon Pro W6900X擁有32GB的GDDR6記憶體，可提供高達512GB/的記憶體帶寬。盡管如此，它的表現還是被蘋果的M1 Max GPU超越了，後者擁有32個內核和400GB/的統一記憶體帶寬。在「Raster(單一圖形處理器)」測試中，蘋果的圖形處理器得分為32891分，而AMD的圖形處理器則以32580分緊隨其後。當然，正如開發人員解釋的那樣，這並不意味著M1 Max GPU在每項任務上都會表現得更好。但這無疑表明了蘋果晶片的能力有多強，而且它們在圖像編輯方面比專用的高端GPU要更好。來源：快科技

Arm介紹下一代GPU架構，相比前代產品性能翻倍

近日，Arm在為股東和開發人員在線舉辦的Arm Limited DevSummit上，展示了下一代圖形處理技術，新款GPU架構預計會在2022年發布。Arm表示，與目前的Mali-G710相比，FP32計算性能提升了一倍，與2018年時候的Mali-G76相比，FP32 ML性能提高了4.7倍，幅度非常明顯。 Arm的ML業務部門的高級技術總監Ian Bratt首次演示了Arm最新的ML性能，不過並沒有具體說明新的規范的功耗和遊戲整體性能情況。與Mali-G78相比，Mali G-710在ISO進程節點GPU配置中，ML性能提高35%，圖形性能提高20%。而未命名的新款GPU架構要到明年才公布，主要針對Chromebook和高端智慧型手機，暫時缺乏更多的細節，Arm的GPU一般都傾向於宣布後的第二年才出貨。 Arm表示，新的GPU架構不僅僅是添加指令和改進硬體IP，還必須提供軟體、工具和庫來實現ML性能，這才能使其處理能力得到大幅度提升。為了加快機器學習任務和其他專業工作的推進速度，近期Arm正在招募相關開發的人員，以創建自己的項目團隊。據The Register報導，Arm正在將其GPU重點放在神經網絡加速的方向上，這會增加計算量，需要正確的計算類型，以及創建工具來探索新的神經網絡架構。英偉達也意識到GPU在處理AI任務的時候非常有效，收購Arm可以進一步增強其實力，不但能加強浮點和整數運算的操作，通過軟體可以利用這些操作來識別數據集的模式，更快地生成結果。 ...

真的「炸場」了蘋果M1 Max晶片GPU性能超越PS5

在昨天的蘋果秋季發布會上，M1晶片的兩位後繼者M1 Pro和M1 Max正式亮相，這兩款晶片卓越的性能引起了不少用戶的關注。從參數上來看M1 Max晶片在圖形處理性能上甚至超越了索尼的專業遊戲主機PS5。這塊被蘋果稱為「快得太嚇人」的M1 Max晶片在M1晶片的基礎上對晶片架構進行了大量的拓展與優化調整，從而使M1 Max晶片擁有了最高10核CPU以及最高32核GPU的強大性能，也使得M1 Max晶片在核心數大幅上升的前提下實現了比配置獨立顯卡的筆記本電腦低70%左右的功耗。根據蘋果放出的信息進行推算可以得出，M1 Max晶片在32核GPU的情況下理論最高浮點運算性能能夠達到10.4Teraflop/，這一數值甚至超過了PS5理論最高10.28Teraflop/的浮點運算性能。如果僅從理論數據來看的話我們甚至可以說M1 Max晶片在GPU性能上已經超越了PS5。此外也有媒體根據就官方數據推算後指出，M1 Max晶片的讀取速度最高能夠達到7.4GB/，這一數據同樣遠超PS5最高5.5GB/的讀取速度。 M1 Max晶片之所以能夠擁有如此強勁性能不僅是因為其堪稱龐大的核心數量，更是因為其採用的SoC架構以及高速統一記憶體技術能夠在實現對功耗精確控制的同時實現相當出色的能效表現。根據蘋果官方放出的相關資料顯示，M1 Max晶片的記憶體帶寬最大能夠達到400GB/，這一數值是M1晶片的6倍，M1 Pro晶片的2倍；同時M1 Max晶片還具有高達64GB的統一記憶體空間，這使得它在進行高迸發圖形處理任務的時候有著不亞於高端獨立顯卡的強大潛能。不過需要注意的是，現在所有關於M1 Max晶片的測試結果還都僅僅是根據理論數據進行推算之後得到的理論結果，在現實環境中M1 Max晶片將要面臨的挑戰遠比理論環境中復雜，因此M1 Max晶片是否能夠隨時發揮出如此強大的性能仍沒有定論。但無論如何M1 Max晶片毫無疑問都會是蘋果當下打造的最為優秀，最為強勁的處理器。來源：快科技

CPU、GPU價格飆升中小PC企業新品「難產」

PC零部件價格再次呈現上漲趨勢，在此背景下，8月起，中小PC企業紛紛放棄新產品的開發或無法供應現有產品。據韓媒ETNews報導，過去的兩個月里，CPU和GPU的價格上漲了兩倍，雖然由於PC需求的增加，昂貴的零件被購買和供應，但隨著盈利能力下降，部分公司放棄了購買。中小PC企業A公司於去年首次推出了筆記本電腦，原本今年計劃發布八款新品，但只發布了兩款。這是因為，隨著GPU價格的飆升，成品的價格無法被滿足。今年年底之前，其與一家家電分銷商合作推出的一款產品也因無法獲得GPU而推遲了幾個月發布。除了零部件價格飆升外，B公司還受到了中國限電的影響。該公司表示，在英特爾下個月推出新的CPU之前，盡管面臨困難，公司即將發布的新產品仍獲得了零部件供應，但由於中國主板生產廠的利用率下降導致短缺，該產品發布時間被推遲了一個月。《電子時報》於10月第2周分析了主要PC配件的價格，結果顯示，與8月第1周相比，GPU和CPU的平均價格分別上漲了33.9%和8.9%。「EM Tech GeForce RTX 3060 Storm X Dual OC D6 (12gb)」等部分產品的價格達到了100萬韓元，比8月初上漲了近一倍。這主要是由於從去年開始持續的半導體短缺導致供應不暢。導致GPU價格上漲的比特幣挖礦，由於中國政府的監管，一度處於低位，但隨著挖礦主力軍轉移到其他國家，使得GPU需求再次上升。韓國政府采購計算機協會會長Dong soo Kim表示:「從今年年初開始，政府采購將交貨時間延長了2周，但由於零件供應不順利，因此很難交貨。協會正在討論相關對策。」來源：cnBeta

PCIe 5.0外接供電高達600W，將用於下一代GPU

在上周，有消息指英偉達明年初推出的GeForce RTX 3090 Ti將採用GA102-350核心，擁有完整的規格，也就是10752個流處理器，配備24GB的GDDR6X顯存，速率達到了更高的21 Gbps，採用新款2GB模塊替代現有的1GB模塊。更讓人印象深刻的是高達450W，為此很可能會採用新的16Pin外接電源接口，取代之前的12Pin接口。近日，Igor'sLAB得到了新款供電接口的設計信息，確認將會有新標準，可能會適用於2022年所有新顯卡。這款16Pin外接電源接口共有16個通道，包括12個用於供電和4個用於通信，不過這並不是Micro-Fit Molex的標準，而且全新的設計，名為PCI-SIG 12VHPWR H+。其標準定義里，比現有外接電源接口更小的間距，從4.2毫米變成3毫米，整個接口的寬度為18.85毫米。雖然體積算不上小，但仍比雙8Pin或三個8Pin的配置小，這將簡化電路和PCB的設計，節省更多的空間。目前已經有相關製造商列出了這款16Pin外接電源接口的規格信息，比如Amphenol。根據介紹，每個引腳電流最高為9.2A，意味著總電流達到了55.2A，理論最大功率達到662W，但規范里限制為600W。至於4個用於通信的通道具體用途仍不清楚，不知道是否是必要的配備。據了解，第一款採用16Pin外接電源接口的顯卡將是英偉達GeForce RTX 3090 Ti，暫時還沒有其他顯卡採用的消息。這很可能意味著，英偉達在GeForce RTX 30系列上使用的12Pin外接電源接口將會被淘汰。具體詳細規格見下圖： ...

下一代顯卡的PCIe 5.0大功率接口現身可為GPU提供高達600W供電

Igor's Lab拍攝了即將推出的用於PCIe 5.0兼容顯卡的高功率連接器的第一張圖片，為下一代顯卡設計的電源連接器的示意圖顯示，它可以直接向GPU輸送高達600W的電力。隨著GPU變得更加耗電，現有的電源傳輸系統正在變得過時。在這一代，NVIDIA和AMD的顯卡採用了最多的3個8針連接器接口。雖然NVIDIA為自己的創始版變種選擇了12針Microfit解決方案，但AIB不願意使用新的電源標準，但這種權宜之計使他們為真正的標準做好了准備，這就是即將推出的PCI Express 12VHPWR連接器。我們將在下個月從英特爾處看到PCIe Gen 5.0平台，而AMD預計也會在2022年的某個時候跳上這班列車。英特爾也可能在新的PCI Gen 5.0標準上推出其ARC系列，所以這意味著我們肯定會在顯卡領域看到一些升級到PCIe Gen 5.0的行動。有傳言說，英偉達和AMD的旗艦產品將提供高達2.5-3倍的性能提升，但這也意味著功耗也將得到大幅提升。因此一個新的電源連接器是必要的，這就是專門與PCIe 5.0接口一起設計的12V高功率連接器的作用。新標準據說可以通過一個12V通道提供55A的連續功率，這將允許向顯卡提供高達600W的功率。該連接器有一個有趣的外形，它看起來像一個稍大的MicroFit連接器，有12個針腳，但它在底部多出4個額外的針腳。它的間距也比傳統的電源連接器小，為3.0毫米對4.2毫米，但總的來說，容納16個針腳意味著它最終會變大，但它實現了一個連接器來完成三個8針腳連接器的工作（600W對450W）。安費諾集成電路公司發布了新電源連接器的其他細節，你可以看到，該連接器的額定功率為600W，與PCIe Gen 5.0兼容，不是為傳統的PCIe Gen 2或Gen 3卡設計的。第5代Minitek Pwr PCIe連接器新推出的CEM 5.0 PCI Express 12VHPWR輔助混合連接器和電纜組件支持600W GPU卡。12VHPWR連接器的設計不是為了與傳統的PCI Express...

AMD正式發布GPUFORT：將CUDA應用轉換

英偉達在高性能計算領域的主導地位很大程度上依賴基於CUDA的解決方案，為此AMD通過一個名為GPUFORT的項目提供了代碼。據itsfoss介紹，該項目屬於Radeon Open eCosystem（ROCm），以幫助大型CUDA代碼庫可以在英偉達生態系統之外工作。英偉達的解決方案極大地限制了開發人員尋找替代方案，影響遷移工作，AMD很長時間內一直在努力，幫助開發人員將盡可能多的CUDA特定代碼遷移到Radeon開源計算堆棧支持的接口。AMD在此前的項目里同時使用了C和C++代碼，GPUFORT不同之處在於將基於基於OpenACC的CUDA Fortran和Fortan代碼轉換為OpenMP 4.5+，以便在GPU或Fortran + HIP C++ 代碼上執行。據介紹，GPUFORT不是編譯器本身，而是執行源到源轉換的Python代碼庫。同時GPUFORT不是一個完整的自動化解決方案，需要審查和手動更正基於CUDA的編碼生成的內容。在當前狀態下，僅用於將高性能計算（HPC）應用程式轉換為AMD ROCm生態系統支持的兼容代碼格式。AMD的工程師承認，目前還在分析代碼的構成，以提高編譯的准確性，暫時沒有實現完整的OpenACC標準。 AMD在GitHub上發布了GPUFORT，顯示了代碼示例及其處理方式，以及用戶安裝指南。 ...

亞馬遜表示其網游《新世界》並不會在正常情況下使你的GPU變磚

亞馬遜的《新世界》網路遊戲幾天前剛剛推出，它受到了玩家的一致好評。用戶喜歡其製作系統、戰鬥和武器升級，但對故事情節或缺乏坐騎的設定並不熱衷。而有一些玩家則比較慘，在某些情況下，他們昂貴的頂級NVIDIA RTX 30系列GPU僅僅因為玩遊戲甚至進入遊戲就被燒毀。早在7月，一些擁有EVGA高端RTX 3090 GPU的用戶發現，該卡會在菜單螢幕上達到極高的負載和溫度--有時顯卡甚至在他們有機會調整遊戲的設置之前就會直接燒掉。亞馬遜後來表示，遊戲與硬體故障無關，但還是選擇在主菜單上設置了FPS上限。當時，EVGA承認，一些RTX 3090包含裝配上的質量問題，在某些情況下可能導致災難性的硬體故障。該公司迅速向受影響的客戶發送了替換卡，有些拿到新卡的用戶甚至都沒有來得及發還損壞的產品。不幸的是，盡管這些早期的問題發生在三個月前，但《新世界》與癱瘓的GPU相關的問題似乎仍然存在。雖然不是所有有新世界相關硬體問題的玩家都遇到了卡死的問題--有些人只是遇到了GPU崩潰的情況。例如，據稱一名玩家的GPU在玩《新世界》期間發生系統崩潰後，重新啟動機器時顯卡開始冒煙。不少用戶在《新世界》的英文支持論壇上討論他們在遊戲中遇到的硬體問題，包括小問題和大問題，即使是低端的EVGA顯卡也在一定程度上受到了影響。亞馬遜方面仍然堅持認為《新世界》不是原因所在。在給PC Gamer的一份聲明中，該公司表示其網游《新世界》並不會在正常情況下使你的GPU變磚，在遊戲方面也沒有"不尋常的行為"會導致這些問題，且只收到了受影響玩家的"少量"報告。也許這是真的。也許《新世界》只是給已經有缺陷的GPU施加了一定程度的壓力，而這些壓力是他們無法應對的，也是他們通常不會面對的。然後，也許遊戲中存在一些奇怪的破壞組件的軟體錯誤，但還沒有被發現。無論錯在亞馬遜還是GPU製造商，有一件事是清楚的，這個問題需要盡早解決。不管是誰的責任，消費者不應該因為啟動一個華麗的新MMO遊戲而導致硬體冒煙或產生其他缺陷，尤其是RTX 3090這樣的高端硬體。來源：cnBeta

1 234...8 Page 3 of 8

Tag: GPU