Home Tags GPU

Tag: GPU

Intel重回高性能GPU市場 Xe HPG微架構潛力無窮

2022年Intel接連發力,在6月份率先推出了旗下首款高性能桌面級GPU A380,雖然定位入門級,卻也初具規模。 而在同年10月再次推出了中高性能的A750/A770桌面級GPU,本次的兩款顯卡一躍達到了市場主流產品的水準,雖然尚未達到旗艦級發燒性能,但其潛力可見一斑。 下面則為大家簡單解析一下Intel的Xe HPG微架構,到底有何玄妙之處。 Xe HPG微架構淺析 本代Intel 3款顯卡採用了Xe HPG微架構設計,最初發布的入門級A380顯卡包含8個Xe內核(Xe Core),即兩個渲染切片(Rendering Slice),下面我們從最小的Xe Core逐步為大家講解。 Xe Core 每個Xe Core包含16個256位寬的(XVE)矢量引擎,它主要負責傳統圖像處理計算的任務,且提供大部分運算。 同時由於AI算法核心幾乎完全圍繞著一系列大型矩陣算法和累加算法,所以每個Xe Core還包含16個1024位寬的矩陣引擎(XMX),主要為加速AI運算而生。 為了滿足矩陣、矢量和光線追蹤單元的高帶寬需求,每個Xe Core中還構建了一個192KB的大型本地內存。它可以根據每個工作負載的需要在L1緩存和共享本地內存(SLM) 之間動態分配。 Render slice 綜上所述,每4個微小的Xe Core,將構成一個Render slice(渲染切片)。除此之外,每個Render slice還集成了幾何處理、光柵化、紋理采樣、像素處理和光線跟蹤等主流圖形技術。 新的光線追蹤單元架構可為DirectXRaytracing和Vulkan RT提供全面支持,通過加速光線遍歷、光線盒交叉點和光線基元交叉點實現逼真的閃電和視覺保真度。 Xe HPG Xe HPG架構最大的特點就是出色的靈活性,Intel可通過疊加渲染切片的方法來構建不同核心,目前最少為2個(8 Xe Core),最大可以做到8個(32 Xe...

NV的750張顯卡 看完73萬條遊戲視頻後:學會了玩《我的世界》

750張NVIDIA的頂級顯卡,可以做什麼創意工作? MineDojo項目的答案是,學會玩最受歡迎的遊戲之一《我的世界(Minecraft)》。 NVIDIA的一批工程師,使用32張A100、720張Tesla V100 GPU,在為AI模型輸入了73萬條遊戲視頻、7000頁百科文檔、34萬網友發帖以及660萬玩家互動評論後,達成了創舉。 操控AI模型的方法很簡單,你只需要用直白的語言下達命令,就比如“在沙漠中發現金字塔”“建造下界傳送門(nether portal)並進入”等。 當AI模型可以在不到4分鍾的時間里造出一把鑽石鎬的時候,研究人員知道,他們的付出沒有白費。 據悉,MineDojo的相關論文還獲得了NeurlPS 2022獎項,包括MineCLIP交互模型也上傳GitHub了。 來源:快科技

NVIDIA AD104 GPU核心現身:RTX 4070 Ti或將用上

今天,根據VideoCardz方面消息,爆料人MEGAsizeGPU曝光了NVIDIA AD140 GPU的外觀,不出意外,這顆CPU將被用在RTX 4070 Ti身上。 據悉,此次曝光的AD140-400應該是滿血版本,共計擁有7680個CUDA核心、240個Tensor內核和60個用於光線追蹤的內核。 尺寸上,這款GPU約為 295 平方毫米,是旗艦AD102 GPU的一半,比上代GA104 GPU小約100平方毫米。 同時,AD104不僅內核更少,其192位寬總線也僅支持6GB或12GB等內存配置。 由此來看,這顆新的GPU主要針對的是性能相對較差的顯卡,我們很可能會在RTX 4070 Ti,以及其他RTX 40系中端顯卡中見到它的身影。 目前,NVIDIA還未放出關於RTX 4070 Ti的相關消息,但從目前的情況來看,它大機率會在明年年初的CES 2023上亮相。 來源:快科技

Intel正式發布Max GPU:1000+億電晶體、600W峰值功耗

新一屆超算大會到來之際,Intel正式發布了兩款全新的HPC/AI計算產品,並劃入全新的Max系列,明年1月上市。 一個是至強CPU Max系列,代號Sapphire Rapids HBM;一個是數據中心GPU Max系列,代號Ponte Vecchio。 關注硬體的朋友對這兩個代號名字應該很熟悉了,磨嘰了幾年終於要落地了,將攜手用於美國能源部阿拉貢國家實驗室的百億億次級超算“Aurora”,和AMD EPYC處理器、Instinct計算卡組成的“Frontier”一個性質。 這一篇先說說Max GPU。 這是Intel針對高性能計算加速設計的第一款GPU產品,基於全新的Xe HPC架構,和桌面上的Arc系列顯卡同源,但面向計算而非圖形。 Max GPU採用了多工藝、多晶片整合製造,5種製造工藝,總計擁有恐怖的1000多億個電晶體,集成多達47個模塊(tile),包括基礎單元、計算單元、Foveros封裝單元、EMIB封裝單元、Rambo緩存單元、HBM內存單元、Xe鏈路單元,等等。 最多擁有128個Xe-HPC核心、128個光追核心,一級緩存就有64MB,可提升吞吐和性能,二級緩存更是多達408MB二級緩存,業內密度最高,還集成最多128GB HBM高帶寬內存。 Max GPU是業界唯一支持光追的HPC/AI GPU,可用於科學視覺、動畫等工作的加速。 具體分為三款型號: - Max 1550: 滿血狀態,128核心,128GB HBM,OAM形態,最高功耗達600W,最多八路並聯。 - Max 1350: 112核心,96GB HBM,OAM形態,450W功耗,最多八路並聯。 - Max 1100: 56核心,48MB HBM2e,PCIe形態,300W功耗,可通過Xe Link橋接器最多四卡並聯。 性能方面,Intel宣稱,對比NVIDIA A100,Riskfuel金融分析性能領先最多2.4倍,NekRS核模擬物理性能領先最多1.5倍。 至於為何不對比最新的NVIDIA...

NVIDIA GPU被封鎖出口 將向中國推出定製的A800

今年8月,美政府對NVIDIA A100、H100兩款加速計算GPU實施禁令,不得銷售給中國。NVIDIA創始人兼CEO黃仁勛隨後表示,會推出替代版本。 據《每日經濟新聞》報導稱,NVIDIA將面向中國用戶推出新的A800 GPU,用於替代A100,其符合美政府出口管制政策。 根據美政府的政策,用於出口的晶片數據傳輸率不得超過600GB/,NVIDIA A800則設定在400GB/。 但其他規格尚不清楚,比如核心數量、運行頻率、顯存、功耗等。 NVIDIA A100 GPU採用全新Ampere安培架構的超大核心GA100,7nm工藝,542億電晶體,826平方毫米麵積,6912個核心,搭載5120-bit 40/80GB HBM2顯存,帶寬近1.6TB/,功耗400W。 對於NVIDIA來說,中國市場同樣異常重要。 根據財報數據,NVIDIA過去一年在中國市場收入達71.11億美元,占總收入的26.4%。 但是眼下,NVIDIA的業績正面臨嚴峻挑戰,尤其是“礦卡”需求已經不再。 第二財季,NVIDIA總收入67億美元,環比下跌19%,淨利潤6.56億美元,環比下跌59%。 其中遊戲業務收入僅為20.4億美元,同比減少33%,環比減少44%,預計第三季度總收入將再次下跌17%。 雙11紅包活動推薦: 來源:快科技

DirectStorage 1.1現已可用於PC,能使用GPU進行解壓縮

據wccftech報導,微軟現已正式宣布DirectStorage 1.1適用於PC。現在DirectStorage 1.1可供任何希望在遊戲中使用該技術的開發人員使用。DirectStorage API允許PC開發人員更高效地從NVMe固態硬碟傳輸數據,從而減少處理耗時,這個也是Xbox Series X/S的「Velocity Architecture」宣傳點之一,現在通過DirectStorage也能在PC上面得到實現。 微軟開發人員Cassie Hoef也對DirectStorage 1.1進行了詳細的描述: 「遊戲需要大量數據來構建沉浸式世界——每個角色、物體和風景...加起來多達數百GB的數據。為了減小遊戲的整體包大小,這些數據將被壓縮。運行遊戲時,這些數據將傳輸到系統內存,CPU在將數據復制到 GPU內存並根據需要對相關數據進行解壓縮。這些數據在遊戲設備上的傳輸和解壓縮極大地增加了加載時間,也限制了開放世界場景中可以存在的細節。 DirectStorage 1.0改進了此過程的數據傳輸部分。Windows 11的進步與DirectStorage相結合,使開發人員能夠利用NVMe驅動器的更高帶寬。這樣,安裝在NVMe驅動器上並啟用DirectStorage的遊戲預計加載時間最多可減少 40%。在增強數據傳輸的這一部分之後,開發人員接下來將希望提高解壓縮性能。 通常,解壓縮工作是在CPU上完成的,因為壓縮格式過去只針對CPU進行了優化。我們在DirectStorage 1.1中提供了一種替代方法,將這些數據的解壓縮轉移到GPU進行,稱為「GPU解壓縮」圖形卡在並行執行可重復任務方面效率極高,我們可以利用這種能力以及高速NVMe驅動器的帶寬來同時完成更多工作。因此,加載數據所需的時間會減少,從而減少關卡的加載時間並改善開放世界流式傳輸。" 基於微軟高度優化的測試,具有GPU解壓縮功能的DirectStorage 1.1的加載速度比DirectStorage 1.0快3倍。 雖然DirectStorage表現出了巨大的潛力,但是目前還很少軟體或遊戲對其進行適配,不過Square Enix將於明年一月份發布的新作《Forspoken》將會是第一個適配DirectStorage的遊戲,希望未來會有更多廠家適配DirectStorage。 ...

Phat!: 1/7 優秀素質 原型圖

【フィギュア情報!】 ファット・カンパニーから発売予定の1/7スケールフィギュア「ナイスネイチャ」の開発が進行中! 製作中のフィギュア原型を公開しました! 詳細は続報をお待ちください♪來源:78動漫

GPU大亂斗:蘋果A16竟超越AMD銳龍9 Intel小勝M1 Pro

無論是台式機、筆記本,還是手機、遊戲機,GPU圖形晶片無處不在,但跨平台對比它們的性能並不容易,因為技術路線各不相同,很難統一衡量。 Basemark近日推出了全新的GPU測試工具“Sacred Path”(神聖之路),可以考察幾乎所有平台GPU的性能。 當然,因為系統、API的差異,測試成績可能會有很大的波動,同一設備的結果可能高低相差50%,但依然可以作為很好的參考。 Tom's Hardware從官方資料庫中,選取了大量設備的最高成績,將它們分成不同級別進行對比,最有趣的當屬手機、掌機、集成顯卡這一組。 蘋果M系列、A系列一枝獨秀,A16的表現已經超過了Steam Deck掌機里AMD Van Gogh定製處理器的RNDA2 8單元(1.6GHz),也超過了銳龍9 5900HX集成的Vega 8單元(2.1GHz),蘋果A15甚至都能非常接近後者。 可惜沒有加入銳龍6000H系列集成的RDNA2 12單元,它應該能幹掉蘋果M1。 另外,高通驍龍8 Gen1略微領先三星基於AMD RDNA2架構自研的Xclipse 920,並碾壓聯發科天璣9000集成的Mali-G710 MC10。 再看入門級組別,Intel Arc A380竟然只是勉強超過蘋果M1 Pro,同時還遠不如移動版的RTX 3050,對比M1 Max更是低了幾乎一半。 新發布的Intel Arc A770/A750沒有列出,它們和RTX 3060基本同一檔次。 中高端和旗艦組都是Intel、AMD的桌面和筆記本顯卡,就不多說了。 來源:快科技

Basemark推出GPUScore Sacred Path:跨平台GPU基準測試套件

Basemark在今年3月份發布了GPUScore,這是一種全新的GPU性能基準測試套件,適用於智慧型手機到高端遊戲PC。GPUScore支持所有現代圖形API,包括了Vulkan、Metal和DirectX,支持Windows、Linux、macOS、Android和iOS等作業系統。 GPUScore包含三個不同的測試套件,當時推出的是第一個套件,名為Relic of Life,可以單獨使用。Relic of Life主要針對高端遊戲PC的獨立顯卡進行基準測試使用,要求支持硬體加速的光線追蹤功能,支持Vulkan和DirectX,並適用於Windows和Linux作業系統。到了今年8月份,Basemark推出了第二個套件,名為The Expedition,針對的是Android和iOS的高端智慧型手機和其他移動設備。 今天Basemark宣布推出第三個套件,名為Sacred Path。Basemark稱,這是目前唯一一個跨平台GPU基準測試,其中包含了最新的GPU技術,比如可變速率著色(VRS)。GPUScore:Sacred Path支持所有相關的設備類別,從高端智慧型手機到高端遊戲PC的獨立顯卡,對主要作業系統也做了全面支持,包括了Android、iOS、Linux、macOS和Windows。 Basemark表示,如果期望GPU基準測試結果能用於比較且誤差最小,那麼使用GPUScore是一個很好的選擇,滿足支持不同GPU的需求。GPUScore的三個測試套件在開發過程中,與其開發計劃成員有著密切的技術合作,其中包括了Arm、Imagination Technologies、聯發科、英偉達、高通和三星等。通過與行業領導者的密切合作,可確保基準測試的質量和使用圖形行業最新的技術。 ...

NVIDIA 4nm GPU性能首秀:4.5倍提升

9月9日,MLCommons社區發布了最新的MLPerf 2.1基準測試結果,新一輪基準測試擁有近5300個性能結果和2400個功耗測量結果,分別比上一輪提升了1.37倍和1.09倍,MLPerf的適用范圍進一步擴大。 阿里巴巴、華碩、Azure、壁仞科技、戴爾、富士通、技嘉、H3C、HPE、浪潮、Intel、Krai、聯想、Moffett、Nettrix、Neural Magic、NVIDIA、OctoML、高通、SAPEON 和 Supermicro 均是本輪測試的貢獻者。 其中,NVIDIA表現依然亮眼,首次攜H100參加MLPerf測試,並在所有工作負載中刷新世界紀錄。 H100打破世界記錄,較A100性能提升4.5倍 ,與兩年前推出的NVIDIA Ampere架構相比,實現了數量級的性能飛躍。 黃仁勛曾在 GTC 2022 上表示,20個H100 GPU便可以承托相當於全球網際網路的流量,能夠幫助客戶推出先進的推薦系統及實時運行數據推理的大型語言模型。 令一眾AI從業者期待的H100原本定於2022年第三季度正式發貨,目前處於接受預定狀態,用戶的真實使用情況和H100的實際性能尚不可知,因此可以通過最新一輪的MLPerf測試得分提前感受H100的性能。 在本輪測試中,對比Intel Sapphire Rapids、Qualcomm Cloud AI 100、Biren BR104、SAPEON X220-enterprise,NVIDIA H100不僅提交了數據中心所有六個神經網絡模型的測試成績,且在單個伺服器和離線場景中均展現出吞吐量和速度方面的領先優勢。 以NVIDIA A100相比,H100在MLPerf模型規模最大且對性能要求最高的模型之一——用於自然語言處理的BERT模型中表現出4.5倍的性能提升,在其他五個模型中也都有1至3倍的性能提升。 H100之所以能夠在BERT模型上表現初出色,主要歸功於其Transformer Engine。 其他同樣提交了成績的產品中,只有Biren BR104在離線場景中的ResNet50和BERT-Large模型下,相比NVIDIA A100有一倍多的性能提升,其他提交成績的產品均未在性能上超越A100。 而在數據中心和邊緣計算類別的場景中,A100 GPU的測試成績依然不俗,得益於NVIDIA...

別再給GPU均勻塗抹矽脂了:溫度不減反增5℃

PC老鳥們,你們是如何給CPU或者GPU頂蓋塗抹矽脂的? 硬體發燒友Igor Wallossek最近的一個發現是,至少就GPU而言,那種看起來非常隨意的“香腸式”塗抹法,也就是簡單地擠成一條線,比點陣法以及均勻塗抹對散熱更奏效。 表中的結果非常直觀,在室溫20~22攝氏度的環境中,對RTX 3080公版卡測試發現,“香腸法”可以比在整個表面均勻塗抹的手法平均降溫5℃。 其實解釋起來並不復雜,因為GPU表面發熱並不均勻,通常是中間部分發熱最多,也容易受熱膨脹。雖然看似裝散熱器前塗抹均勻了,但隨著熱脹冷縮以及散熱器接觸擴散塗抹區域,實際會讓中間部分的矽脂變少,降低散熱效果。 另外,作者還推薦使用Alphacools(阿爾法酷) Apex、Gelid(捷領) PC Extreme、Subzero等幾家的矽脂,不建議名聲更大的Arctic MX-2、Arctic MX-4等。 來源:快科技

AMD下代三大GPU核心靚照公布:瘦成一道閃電

推特博主Wild_C近日又製作了一組AMD下一代三大GPU核心的渲染圖,,畢竟信息更新了。 Navi 31大核心採用一個GCD、六個MCD的小晶片組合,之前傳聞面積分別是369、44平方毫米,合計達633平方毫米,但最新說法變成了308、37.5平方毫米,總計僅為533平方毫米,小了近16%。 規格上,96組計算單元、12288個流處理器沒變,但是(太大了作用不明顯),顯存搭配384-bit 24GB GDDR6顯存,帶寬864GB/,功耗或達450W。 Navi 32中等核心是一個GCD、四個MCD的組合,前者面積之前說是263平方毫米,總面積為439平方毫米,現在變成了350平方毫米,小了超過20%。 規格上,流處理器數量從8192個減少到7680個,無限緩存64MB,顯存配256-bit 16GB GDDR6。 Navi 33小核心則是單晶片設計,面積從之前說的400平方毫米變成了203平方毫米,小了足足一半。 4096個流處理器、128-bit 8GB緩存,都正好是Navi 32的一半。 值得一提的是,Navi 33核心可能只會使用PCIe 5.0 x8的系統總線,這也是AMD小核心的慣例,當然完全不影響性能,還能節省成本。 同樣慣例,Navi 33核心會採用45度傾斜的布局。 來源:快科技

AMD下代GPU核心縮小33% 但多了6個小夥伴

AMD早已官宣將在下半年推出下一代顯卡,基於Navi 3x系列核心,預計命名RX 7000系列。 Navi 3x系列將一改往日的單晶片設計,採用多個小晶片組合,與銳龍、霄龍處理器如出一轍,其中頂級的Navi 31包括一個GCD(Graphics Complex Die),台積電5nm,主要是圖形處理相關單元,搭配六個MCD(Memory Complex Die),台積電6nm,主要是顯存控制器等其他單元。 根據權威曝料高手@Greymon55的說法,Navi 31核心的GCD部分面積為350平方毫米多一點。 這對比RX 6900/6800系列用的Navi 21核心的520平方毫米小了足足33%,但後者是單獨一個核心,因此缺乏直接可比性。 Navi 13 MCD部分的面積暫時不詳,六個加起來也會很可觀,總面積幾乎必然會大於Navi 21,不然也不會分離設計。 假設每個MCD 40平方毫米,那麼總面積將達590平方毫米,幾乎和NVIDIA AD102核心差不多,後者據傳600平方毫米左右。 非等比例對比 不過值得一提的是,Navi 31核心會取消一些非必要的和過時的模塊,比如用於多卡並聯的XGMI總線、GDS(全局數據共享)、幾何流水線、掃描轉換器等等,這也能節省不少電晶體和面積。 另外,Navi 32核心也會是類似的小晶片設計,MCD預計減少到4個,Navi 33則是繼續單晶片。 來源:快科技

龍芯3號處理器晶片組7A2000發布:首次自研GPU 零的突破

據龍芯中科官方消息,與龍芯3號系列處理器配套的橋片(即晶片組)正式發布了,型號為“龍芯7A2000”,不但高速I/O接口達到市場主流水平,還首次集成了自研的GPU核心。 橋片(晶片組)是連接CPU、外圍接口/外設擴展接口的晶片,一側與CPU直接進行數據交換,另一側與硬碟、網絡、顯示等外設進行通訊,決定著I/O傳輸的帶寬、圖形信息的處理能力。 龍芯7A2000橋片可與龍芯3A5000、龍芯3C5000處理器搭檔,提升龍芯平台在桌面、伺服器的整體性能表現。 7A2000橋片首次集成龍芯自研的統一渲染架構GPU模塊,核心頻率400-500MHz,API圖形接口支持OpenGL 2.1、OpenGL ES 2.0。 顯存搭檔DDR4,頻率2.0-2.4GHz,最大容量16GB。GPU模塊搭配獨立顯存,還可形成獨顯方案。 支持雙屏顯示,典型解析度1080p60Hz,最高支持2K30Hz。 性能方面,glmark2可以超過300FPS,glxgears可以超過1800FPS,滿足桌面辦公需求是沒問題的。 功能方面,龍芯7A2000內部集成了PCIe 3.0、SATA 3.0、USB 3.0/2.0、千兆網PHY、HDMI、I2C、UART、GPIO等接口,可為龍芯處理器提供豐富的南北橋功能。 其中,顯示接口升級為雙路HDMI、一路VGA,可直連顯示器,而內置的網絡PHY物理層,可直接提供網口輸出。 配合龍芯7A2000,龍芯3A5000處理器的讀寫性能、傳輸速度也再次顯著提升: - HyperTransport總線頻率達到3.2GHz,DDR4內存頻率達到2400MHz - 與上代龍芯7A1000對比,SATA讀取性能提升82%,寫入性能提升97% - 與上代龍芯7A1000對比,PCIe性能提升1.4倍 目前,多家板卡、ODM廠商已經就龍芯3A5000+7A2000、龍芯3C5000/3C5000L+7A2000,進行單路、雙路、四路的開發,各類硬體產品將應用於政務辦公、金融、網安、教育、通信、工控、交通、醫療等領域,以及數據中心、雲計算中心。 在龍芯3A5000+7A2000電腦上進行拷貝測試 來源:快科技

自研GPU看齊GTX1050 景嘉微JM9系列第二款圖形晶片完成初測等

景嘉微今天(6月28日)給出消息稱,公司的JM9系列第二款圖形處理晶片已完成初步測試等工作。 據景嘉微公告,公司JM9系列第二款圖形處理晶片已完成流片、封裝階段工作及初步測試工作;根據公司測試結果,該圖形處理晶片滿足地理信息系統、媒體處理、CAD 輔助設計、遊戲、虛擬化等高性能顯示需求和人工智慧計算需求。 此前報導,2021年12月10日,景嘉微發布了GPU旗艦新品JH920,JH920採用14nm工藝,關鍵指標上,該晶片像素填充率為32G Pixels/,單精度浮點性能為1.5TFlops,功耗為30W。 與之可比的是NVIDIA的GeForce GTX 1050,該GPU同樣採用14nm工藝,像素填充率為36.43G Pixels/,浮點性能為1.733TFlops,功耗為75W。 按照景嘉微的說法,2021年公司晶片領域產品實現收入4.47億元,同比增長517.46%,為公司未來在通用市場的長遠發展創下了良好開端。 圖形顯控領域產品方面,景嘉微成功研發了具有完全自主智慧財產權的系列GPU晶片,並以公司自主研發的GPU晶片為核心開發了系列圖形顯控模塊產品,顯著提升了公司產品競爭力。 來源:快科技

85萬核心的世界最大AI晶片打破記錄:要”殺死” GPU

以造出世界上最大加速器晶片CS-2 Wafer Scale Engine聞名的公司Cerebras宣布,他們已經在利用「巨芯」進行人工智慧訓練上走出了重要的一步,訓練出了單晶片上全世界最大的NLP(自然語言處理)AI模型。 該模型具有20億個參數,基於CS-2晶片進行訓練。 這塊全世界最大的加速器晶片採用7nm製程工藝,由一整塊方形的晶圓刻蝕而成。 它的大小數百倍於主流晶片,具有15KW的功率,集成了2.6萬億個7nm電晶體,封裝了850000個內核和40GB內存。 圖1 CS-2 Wafer Scale Engine晶片 單晶片訓練AI大模型新紀錄 NLP模型的開發是人工智慧中的一個重要領域。利用NLP模型,人工智慧可以「理解」文字含義,並進行相應的動作。OpenAI的DALL.E模型就是一個典型的NLP模型。這個模型可以將使用者的輸入的文字信息轉化為圖片輸出。 比如當使用者輸入「牛油果形狀的扶手椅」後,AI就會自動生成若干與這句話對應的圖像。 圖:AI接收信息後生成的「牛油果形狀扶手椅」圖片 不止於此,該模型還能夠使AI理解物種、幾何、歷史時代等復雜的知識。 但要實現這一切並不容易,NLP模型的傳統開發具有極高的算力成本和技術門檻。 實際上,如果只討論數字,Cerebras開發的這一模型20億的參數量在同行的襯托下,顯得有些平平無奇。 前面提到的DALL.E模型具有120億個參數,而目前最大的模型是DeepMind於去年年底推出的Gopher,具有2800億個參數。 但除去驚人的數字外,Cerebras開發的NLP還有一個巨大的突破:它降低了NLP模型的開發難度。 「巨芯」如何打敗GPU? 按照傳統流程,開發NLP模型需要開發者將巨大的NLP模型切分若干個功能部分,並將他們的工作負載分散到成百上千個圖形處理單元上。 數以千百計的圖形處理單元對廠商來說意味著巨大的成本。 技術上的困難也同樣使廠商們痛苦不堪。 切分模型是一個定製的問題,每個神經網絡、每個GPU的規格、以及將他們連接(或互聯)在一起的網絡都是獨一無二的,並且不能跨系統移植。 廠商必須在第一次訓練前將這些因素統統考慮清楚。 這項工作極其復雜,有時候甚至需要幾個月的時間才能完成。 Cerebras表示,這是NLP模型訓練中「最痛苦的方面之一」,只有極少數公司擁有開發NLP所必要的資源和專業知識。對於人工智慧行業中的其他公司而言,NLP的訓練則太昂貴、太耗時且無法使用。 但如果單個晶片就能夠支持20億個參數的模型,就意味著不需要使用海量的GPU分散訓練模型的工作量。這可以為廠商節省數千個GPU的訓練成本和相關的硬體、擴展要求,同時這也使廠商不必經歷切分模型並將其工作負載分配給數千個GPU的痛苦。 Cerebras也並未僅僅執拗於數字,評價一個模型的好壞,參數的數量並不是唯一標准。 比起希望誕生於「巨芯」上的模型「努力」,Cerebras更希望的是模型「聰明」。 之所以Cerebras能夠在參數量上取得爆炸式增長,是因為利用了權重流技術。這項技術可以將計算和內存的占用量解耦,並允許將內存擴展到足以存儲AI工作負載中增加的任何數量的參數。 由於這項突破,設置模型的時間從幾個月減少到了幾分鍾,並且開發者在GPT-J和GPT-Neo等型號之間「只需幾次按鍵」就可以完成切換。這讓NLP的開發變得更加簡單。 這使得NLP領域出現了新的變化。 正如Intersect360 Research 首席研究官 Dan Olds 對Cerebras取得成就的評價:「Cerebras 能夠以具有成本效益、易於訪問的方式將大型語言模型帶給大眾,這為人工智慧開辟了一個激動人心的新時代。」 來源:快科技

EA將《FIFA 22》加入EA Play服務 XGPU用戶也可遊玩

EA宣布《FIFA 22》即將於6月23日加入EA Play服務,會員可享受更多遊戲福利,包括《FIFA 22》中定期的會員專屬獎勵,例如VOLTA服裝和金幣、Ultimate Team賽季經驗值提升和球場套裝。 由於XGPU包含EA Play服務,所以這意味著XGPU的用戶也可以遊玩《FIFA 22》。來源:遊俠網

《FIFA 22》即將加入EA Play服務 XGPU用戶可玩

EA宣布《FIFA 22》即將於6月23日加入EA Play服務,會員可享受更多遊戲福利,包括《FIFA 22》中定期的會員專屬獎勵,例如VOLTA服裝和金幣、Ultimate Team賽季經驗值提升和球場套裝。 由於XGPU包含EA Play服務,所以這意味著XGPU的用戶也可以遊玩《FIFA 22》。 來源:3DMGAME

XGPU功能拓展:將支持Demo和串流遊玩已購買過的遊戲

微軟宣布他們將擴展Xbox Game Pass Ultimate所提供的內容,這包括遊戲Demo以及通過雲串流遊玩用戶已經購買的遊戲,這包括用戶已經擁有的部分遊戲或是在Xbox Game Pass遊戲庫之外購買的遊戲。 Xbox遊戲體驗兼平台副總裁Ashley McKissick解釋說:「玩家告訴我們的其中一個事情是他們想串流他們所擁有的遊戲,甚至這些遊戲並不在Game Pass遊戲庫中。所以今年晚些時候,如果你是Game Pass Ultimate會員,你將能夠從你購買的雲遊戲和你已經擁有的遊戲中串流,只要它們在目錄中是支持雲的。」 微軟還公布了Project Moorcroft項目,Xbox Game Pass會員可以遊玩即將發售遊戲的Demo。該項目將在明年推出,一開始會專注於為全世界的獨立開發者提供更多的機會為他們的遊戲打造興奮點。 參與的開發者將能看到他們的Demo表現如何並獲得補償。 微軟Sarah Bond解釋說:「這就像你以前去E3,去PAX,你會參觀一些你最喜歡的開發者,他們會給你提供一個遊戲的關卡,讓你坐在那裡遊玩。工作室的人就在你旁邊......你可以體驗遊戲,他們可以讓他們正在打造的東西和即將到來的東西產生興奮。 但這些機會越來越小,越來越難以復制。 所以我們說,"為什麼我們不把Game Pass變成一個展示廳?我們為什麼不讓開發者把他們遊戲的一部分發布到Game Pass中呢,為即將到來的遊戲預熱,並在他們調整和准備發售他們的遊戲時獲得真正有價值的反饋?" 最後,微軟表示他們將在世界各地新增「數千個」定製Xbox Series X機架,使其雲遊戲容量增加125%。來源:遊俠網
AMD即將發布Q3財報 300億美元收購賽靈思最快2周內確定

涉嫌GPU專利侵權 「小螃蟹」瑞昱被AMD告了

AMD最近突然在專利官司上發難,在美國ITC國際貿易委員會上起訴了多家公司,其中就包括「小螃蟹」瑞昱電子,理由是他們的晶片中包含了未授權的AMD圖形專利。 日前有報導稱,AMD和ATI於5月5日對TCL電子、瑞昱半導體等據美國關稅法的「337條款」發起投訴,指控TCL、瑞昱等被告銷售到美國境內的圖形系統及其組件和包含該系統的數位電視侵犯了AMD持有的5項美國專利。 AMD訴請美國國際貿易委員會在60天的調查期內對被指控的侵權產品發出政令禁止其進口到美國,並徵收保證金。 對於起訴,瑞昱電子方面回應稱,對公司營運無影響。 據悉,AMD發起的訴訟仍處於未立案階段,而且電視SoC占瑞昱整體營收比重小,預計今年電視SoC的營收比重僅為9%,低於前年的13%,且瑞昱擁有多家電視客戶,TCL並不是最大的一家,預估影響有限。 來源:快科技

AMD Zen4蝶變 8核5.2GHz銳龍7000處理器現身:首次集成GPU實錘了

就目前的爆料來看,Zen 4架構對於AMD銳龍處理器來說,將是一次蝶變。 除了5nm工藝、AM5接口、僅支持DDR5內存、新增對PCIe 5.0/USB 4支持等特性外,傳言甚廣的首次集成GPU單元也得到證實了。 在Phoronix的測試套件中出現了一款8核AMD銳龍7000處理器,識別型號100-000000666,隸屬於Raphael桌面產品線。 這顆晶片看點不少,除了頻率高達5.21GHz,特別的是,集成了GFX1036圖形單元,顯存512MB。 不過,進一步的挖掘發現,圖形單元是RDNA2架構,這也是為什麼音頻部分出現了Rembrandt Radeon Audio,Rembrandt(倫勃朗)是6nm銳龍6000 APU的代號。 可能是因為工程型號調試不完全、頻率保守的緣故,GPU單元實際性能比不上Vega/Xe_LP,甚至不如Van Gogh(Steam Deck)。 到底Zen 4神秘面紗下是怎樣的怪獸,要等到5月23日下午14點蘇姿豐博士在台北電腦展上親自揭開了。 來源:快科技

配備80GB顯存 NVIDIA H100 Hopper加速計算卡上市:價格超24萬元

今天,Videocardz報導稱,日本一零售商以4745950日元(約合人民幣24.16萬元)的價格,掛出了NVIDIA最新的H100 Hopper加速計算卡。 這款加速卡是NVDIA首款採用採用台積電4nm製程工藝的GPU,它採用CoWoS 2.5D晶圓級封裝,單晶片設計,集成高達800億個電晶體。 完整版有8組GPC(圖形處理器集群)、72組TPC(紋理處理器集群)、144組SM(流式多處理器單元),而每組SM有128個FP32 CUDA核心,總計18432個。 此外,它還有著高達80GB的HBM2e顯存,擁有2TB/的帶寬,並是第一款採用PCIe Express 5.0的NVIDIA卡。 根據此前消息,這款H100 Hopper預計要在今年的下半年才會正式上市。 來源:快科技

性能脫胎換骨 AMD Zen4更強大了:新架構有望集成GPU/NPU單元

年初的CES上,AMD正式預覽了Zen 4,並承諾銳龍7000處理器將在下半年登場。 根據硬體達人Greymon55的爆料,銳龍7000會在本月底投入量產,三季度晚些時候正式上市,也就是8~9月的樣子。 當然,考慮到當前半導體行業供需依然緊張的局面,上市時間很難有什麼定數,即便官宣也有跳票的可能。不妨讓我們更多關注處理器底層架構,畢竟,現在肯定已經完全敲定。 Zen 4銳龍7000家族代號Raphael(拉斐爾),對應16世紀義大利藝術家Raffaello Sanzio da Urbino。此前AMD曾透露,Zen 4之於Zen 3的架構變化和IPC增幅,不會遜色於Zen 3之於Zen 2,那麼至少就是19%,這里的前提是核心數保持一致。 但考慮到5nm工藝加之更大的AM5插槽,CPU晶片多出來的空間都分給誰了呢? 之前有說法是,銳龍7000將首次集成GPU單元,現在有細心媒體從AMD 2020年提交,最近才公開的一項專利中發現新端倪,其中提到為處理器3D堆疊AI加速器的內容。 一種猜測是這種AI加速器就是GPU,集成在6nm的I/O Die內,也有分析認為,AI加速器的形式多樣,還可以是NPU或者FPGA。 事實上,此前在AMD的加速卡Instinct MI250X就已經有AI加速模塊,對手Intel更是早早就在至強上引入DLBoost。CPU作為計算機的大腦,看來AMD要非常重視AI專門單元的重要性了。 至於3D堆疊,具體實現方式可能類似於已經在銳龍7 5800X3D上3D緩存。 來源:快科技

NVIDIA最新一代GPU Hopper發布:堆不動料了

Nvidia不久前發布了下一代GPU架構,架構名字為「Hopper」(為了紀念計算機科學領域的先驅之一Grace Hopper)。 根據Nvidia發布的具體GPU規格,我們認為Nvidia對於Hopper的主要定位是進一步加強對於人工智慧方面的算力,而其算力升級依靠的不僅僅是硬體部分,還有不少算法和軟體協同設計部分,本文將為讀者做詳細分析。 我們認為,在Nvidia更下一代的GPU中,我們有望看到芯粒技術成為新的亮點來突破其瓶頸。 Hopper的性能有多強 根據Nvidia公布的數據,基於Hopper架構的GPU(H100)使用TSMC的4nm工藝設計,將會是Ampere架構(使用TSMC 7nm工藝)之後的又一次重大升級,其16位浮點數峰值算力(FP16)將會由之前的312 TFLOPS增加到1000 TFLOPS,INT8峰值算力則由之前的624TOPS增加到2000TOPS。 由此可見FP16(常用於人工智慧訓練)和INT8(常用於人工智慧推理)的峰值算力基本上都是翻了三倍,這個H100相對A100峰值算力提升的比例基本符合A100和再上一代GPU V100的提升數字。 而根據Nvidia官方公布的具體任務性能提升,我們也可以看到大多數人工智慧相關任務的性能提升基本在2-4倍之間(尤其是使用transformer類模型的性能提升較為突出,接近4倍),初看也和峰值算力提升三倍基本吻合。 但是如果我們仔細分析Nvidia H100具體晶片指標,我們認為在人工智慧任務中,H100的提升不僅僅是來自於一些硬體指標(例如核心數量,DRAM帶寬,片上存儲器)的提升,更是來自於Nvidia做了算法硬體協同設計。 例如,Nvidia在Hopper架構中引入了為Transformer系列模型專門設計的八位浮點數(FP8)計算支持,並且還加入了專門的Transformer engine硬體模塊來確保transformer模型的運行效率。因此,我們看到在Nvidia公布的人工智慧任務性能提升中,使用transformer的任務(如GPT-3)的性能提升要高於傳統的基於CNN(如Mask R-CNN)的性能提升。 存儲方面提升相對較小 在人工智慧等高性能計算中,存儲(包括DRAM接口帶寬和片上存儲容量)和計算單元一樣重要,在很多時候存儲甚至會成為整體性能的瓶頸,例如峰值算力無法持續,導致平均計算能力遠低於峰值算力。 在Hopper架構中,我們看到了峰值算力提升大約是Ampere的三倍,然而在DRAM帶寬和片上存儲方面,Hopper相對於Ampere的提升較小,只有1.5倍和1.25倍。 在DRAM帶寬方面,我們看到H100有兩個版本,其中使用最新一代HBM3的版本的內存帶寬是3TB/,相比於A100(2TB/)的提升為1.5倍,相比峰值算力的三倍提升相對較小。 反觀A100相對更上一代V100的內存帶寬提升為2.2倍,因此我們認為H100的HBM3內存帶寬提升幅度確實相對上一代來說較小。我們認為,HBM3帶寬提升較小可能和功耗有關。 仔細分析Hopper發布的GPU,我們發現Hopper架構的GPU目前有兩個品類,一個是使用HBM3內存的版本,而另一個是仍然使用HBM2e的版本。 HBM3版本的H100相對於使用HBM2e版本的H100在其他晶片架構上(包括計算單元)的差距不過10%(HBM3版本的計算單元較多),但是在功耗(TDP)上面,HBM3版本的H100的TDP比HBM2e版本H100整整高出兩倍(700W vs. 350W)。即使是相對於上一代使用7nm的Ampere架構,其功耗也提高了近兩倍,因此能效比方面提升並不多,或者說即使更先進的晶片工藝也沒法解決HBM3的功耗問題。 因此,我們認為H100 HBM3版本DRAM內存帶寬增加可能是受限於整體功耗。而當DRAM帶寬提升較小時,如何確保DRAM帶寬不成為性能瓶頸就是一個重要的問題,因此Nvidia會提出FP4和Transformer Engine等算法-硬體協同設計的解決方案,來確保在執行下游任務的時候仍然效率不會受限。 除了DRAM帶寬之外,另一個值得注意的點是Hopper GPU的片上存儲增長僅僅是從A100的40MB增長到了H100的50MB;相對來說,A100的片上存儲相對於更上一代V100則是增加了6倍。 我們目前尚不清楚H100上片上存儲增長這麼少的主要原因,究竟是因為Nvidia認為40-50MB對於絕大部分任務已經夠用,還是因為工藝良率的原因導致再加SRAM會大大提升成本。 但是,無論如何,隨著人工智慧模型越來越復雜, 對於片上存儲的需求越來越高,片上存儲容量較小就會需要有更好的人工智慧模型編譯器和底層軟體庫來確保模型執行過程中能有最高的效率(例如,確保能把模型數據更好地劃分以盡量在片上存儲中執行,而盡可能少地使用DRAM)。 Nvidia在這一點上確實已經有了很深厚的積累,各種高性能相關的軟體庫已經有很好的成熟度。 我們估計Nvidia有強大的軟體生態作為後盾也是它有能力在設計中放較少片上存儲(以及較小的DRAM帶寬)的重要原因。 這一點結合之前Nvidia在Hopper引入的新模型-晶片結合設計技術,例如能大大降低內存需求的FP4技術,以及為了Transformer模型專門設計的Transformer Engine,這些其實從正反兩面論證了我們的觀點,即Hopper架構很多的性能提升事實上是來自於軟硬體結合設計,而並非僅僅是晶片/硬體性能提升。 Nvidia下一步突破點在哪裡? 如前所述,Nvidia的Hopper架構GPU的晶片領域的突破相比上一代Ampere架構並沒有特別大,而是主要由軟硬體結合設計實現性能提升。 我們看到在存儲領域(包括DRAM接口和片上存儲容量)的提升尤其小,而這可能也會是Nvidia進一步提升GPU性能的一個重要瓶頸,當然突破了之後也會成為一個重要的技術壁壘。 如前所述,HBM3的功耗可能是一個尚未解決的問題,而如何在晶片上放入更多的片上存儲器則將會被良率和成本所限制。 在存儲成為瓶頸的時候,晶片粒(chiplet)將會成為突破瓶頸的重要技術。正如之前所討論的,當片上存儲容量更大時,GPU對於DRAM等片外存儲的需求就會越來越少,而片上存儲的瓶頸則是良率和成本。 一般來說,晶片的良率和其晶片面積成負相關,當晶片面積越大時,則晶片良率會相應下降,尤其是在先進工藝中,良率更是一個重要考量。 而晶片粒則是可以大大改善這個問題:晶片粒技術並不是簡單地增加晶片的面積(例如更多片上存儲),而是把這些模塊分散在不同的晶片粒中,這樣一來整個晶片粒的晶片面積就會大大下降,從而改善良率。 此外,隨著GPU規模越來越大,為了能更好地控制整體良率,使用晶片粒技術也是一個自然地選擇。 我們認為,在今天HBM3技術的功耗遇到瓶頸的時候,或者說HBM技術整體從功耗上遇到挑戰的時候,下一步的重要方向一定是從簡單地增加DRAM帶寬和在單個晶片上放更多電晶體變到更精細地設計架構和片上存儲,這也就讓晶片粒占到了舞台中央。 事實上晶片粒和GPU的結合對於業界來說並不陌生。事實上Nvidia最有力地競爭對手AMD已經把晶片粒技術使用在GPU上,此外在片上存儲部分AMD也發布了3D V-Cache,可望成為下一代繼續增加片上存儲的重要技術。 Nvidia在晶片粒方面也有相關布局,這次與Hopper同時間發布的用於晶片粒互聯的UCIe標准也意味著Nvidia在晶片粒領域的投資。 我們認為,在Nvidia未來公布的GPU中,非常有可能可以看到晶片粒技術的大量應用,而這結合Nvidia的軟硬體協同優化技術有可能會成為下一代Nvidia GPU的最大亮點。 來源:快科技

微軟的反擊?傳金會員服務或將被砍 強勢插入XGPU

微軟遊戲目前的核心業務就是Xbox Game Pass訂閱服務,而索尼最近也公布了全新的PS Plus訂閱服務,顯示了遊戲訂閱服務時代正在悄然降臨。 而現在,根據記者Brad Sams的爆料,看起來Xbox Live金會員服務(一項收費訂閱服務:訂閱該服務後才能遊玩XBOX主機在線多人遊戲)可能很快就會與Xbox Game Pass終極版訂閱服務永久合並了。 目前金會員服務已經是最高等級Game Pass服務的一部分了,但根據Brad Sams的說法,微軟正在考慮完全砍掉這項服務,而將其作為獨占內容加入到Game Pass終極版服務中去。這意味著如果你想要在線遊玩付費遊戲,你就需要訂閱Game Pass。 這已經不是我們第一次聽到類似傳聞了,此前一直有報導稱微軟將會永久下線Xbox Live金會員服務,但微軟後來表示它並沒有這樣的計劃。 來源:遊俠網

地球上最快GPU終於上線 售價1萬5也被瞬秒

經過幾個月的等待,地球上最快的GPU,NVIDIA RTX3090Ti終於與大家見面了。 作為現世最強,它的一連串數字讓玩家們分泌著腎上腺激素,滿血的GA102核心,打開全部17052個CUDA核心、84個光追核心,默認核心頻率提高到1560-1860MHz,搭配384-bit 24GB GDDR6X顯存,頻率提高到史無前例的21GHz,帶寬突破1TB/,整卡功耗450W。 當然,還有14999元的官方發售價格。 在遊戲性能方面,NVIDIA聲稱RTX 3090 Ti將比RTX 2080 Ti平均快64%,比RTX 3090快9%。 與此同時,AIC品牌們也第一時間發布了自己的非公新卡,目前已有華碩、七彩虹、微星、影馳、技嘉、耕升、同德、KAF、EVGA、PNY等十大品牌的21款不同產品,且不乏水冷。 雖然價值不菲,最低也要14999元,部分型號甚至要16499元,不過高玩們的購買力可真是讓人大開眼界,剛剛上線一天多的時間,多個型號已經售罄,當然一些人可能也是害怕缺芯導致之後顯卡價格直線上升。 來源:快科技

XGPU玩EA遊戲可以解鎖成就了 可繼承到Origin帳號中

      眾所周知,訂閱了XGPU的用戶雖然可享有EA Play特權,遊玩該遊戲庫中的所有遊戲,但在之前通過這種方式遊戲是無法解鎖成就的,讓成就黨很是苦惱。       如今,微軟為XGPU加入新功能,讓玩家可以直接獲得EA Play的對應成就。這些成就並不會計算到用戶的Xbox玩家分數里,但可以通過多種設備繼承到玩家的Origin帳號中。現在《雙人成行》、《星球大戰絕地:隕落的武士團》、《質量效應:傳奇版》和《戰地》系列都可以享受這一待遇。       除此之外,XGP訂閱用戶最近還得到了派拉蒙+的30天免費會員福利,方便玩家收看新上映的《光環》電視劇。來源:遊俠網

感受英雄故事 XGPU會員可領取3個月《漫威無限漫畫》會員

今日(3月24日),《漫威無限漫畫》宣布與Xbox展開合作,Xbox Game Pass Ultimate用戶可免費領取3個月《漫威無限漫畫》會員,感受漫威宇宙中超級英雄們的故事。 宣傳視頻: 視頻截圖: 來源:3DMGAME

97%遊戲性能沒了 NVIDIA閹割H100 GPU圖形功能:1.8萬核心砍到512核心

昨晚的GTC 2022大會上,,也是萬眾期待的Hopper新架構,跳過5nm直接上了台積電4nm工藝,800億電晶體,功耗最高可達700W,各方面性能很好很強大。 完整版有8組GPC(圖形處理器集群)、72組TPC(紋理處理器集群)、144組SM(流式多處理器單元),而每組SM有128個FP32 CUDA核心,總計18432個。 相比目前的Ampere GPU架構的1萬個CUDA核心,Hoper的1.8萬CUDA核心提升很大,但是大家不要期待H100的遊戲性能了,因為NVIDIA這次一刀砍到底,閹割得非常厲害。 從NVIDIA的白皮書中可以確認,H100砍掉了大量GPU相關功能,不論是PCIe 5.0版還是SMX版的H100核心中,只有2組TPC單元才可以支持圖形運算,包括矢量、幾何及像素渲染。 2組TPC單元也就是4組SM單元,總計512個CUDA核心是可以跑遊戲的,相比完整的1.8萬核心來說微不足道,性能只相當於完整版H100核心的1/36,也就3%左右,97%的遊戲性能沒了。 NVIDIA解釋說H100是專為AI、HPC及數據分析而生的,並不是為了遊戲而設計的。 考慮到H100在AI、HPC等性能上的提升,NVIDIA閹割大量遊戲功能以便減少設計難度也是可以理解的,畢竟加速卡也不會用來玩遊戲。 針對遊戲玩家的是Ada Lovelace架構,此前爆料也是最多18432個流處理器,但是它會大量閹割計算單元,保留完整的圖形及光追單元,跟H100的設計理念反過來。 來源:快科技
主板偷電、銳龍折壽 AMD官方回應

銳龍7000系列將集成GPU:不再局限於APU

隨著市面上關於銳龍7000系列處理器的消息越來越多,越來越多的重磅消息也出現在公眾視野當中。 據爆料大神KOMACHI_ENSAKA爆料,AMD的下一代銳龍7000「Raphael」CPU將集成全新的RDNA 2圖形核心架構,而且不再局限於APU。 據悉,即將推出的銳龍7000系列處理器允許GPU集成4個RDNA 2計算單元,作為參考,銳龍6000系列處理器最多有12個RDNA 2計算單元。 此外爆料大神還表示,AMD Raphael系列對GPU的性能要求並不高,其推出目的更多的是讓用戶作為基礎圖形處理工具使用,說直白點就是亮機用的,但後續並不排除AMD有升級計劃。 來源:快科技

出走8年老將從AMD回歸 Intel GPU取經路能否「通關」

根據國外科技媒體TomsHardware2月21日報導,英特爾「老將」Rohit Verma將從AMD回到英特爾,擔任英特爾GPU部門首席產品架構師。在過去的八年間,Rohit Verma在AMD參與了台式機和筆記本的獨顯設計以及CPU、GPU、電源等更廣泛的SoC架構設計。 出走八年,「老馬」重回最初的起點 其實英特爾與Rohit Verma原本就有著千絲萬縷的緣分。Rohit Verma原是英特爾的老將,他在2013年出走AMD後,歷任獨立GPU高級設計師和首席SoC架構師,在AMD中地位匪淺。 Rohit Verma回歸英特爾後,在社交媒體上表示:「我懷著非常激動的心情向你們分享我已經回歸英特爾擔任GPU部門的SoC首席架構師一事,我非常期待和我的同事們為新一代GPU帶來革命性的改變。」 Rohit Verma曾經在1999年至2013年在英特爾擔任首席SoC設計師。巧合的是他在英特爾的工作時間與英特爾現任CEO Pat Gelsinger有過短暫重合。這使得本次Rohit Verma的回歸頗有些戰友重聚的意味。 Rohit Verma是2013年離開英特爾的,彼時的英特爾正處於內憂外患之中。 在世紀之交英特爾沒有抓住新興的筆記本電腦市場所帶來的機遇,在晶片上過度關注性能而忽視功耗,使得業務遭遇重大挫折。 2005年,已經拿下蘋果Mac訂單的英特爾又因為錯估了移動網際網路的前景,拒絕為蘋果公司正在籌劃的Iphone手機項目設計晶片,錯失移動網際網路市場。 在這種情況下,英特爾的士氣也受到嚴重影響,人才不斷出走。Rohit Verma就是在這一時期離開英特爾的。而此次他從在GPU行業深耕多年的AMD離職,回到在GPU市場還是一名「小學生」的英特爾,無疑需要巨大的決心。 而他的決心似乎和英特爾這位風格獨特的新任CEO Pat有著非常緊密的聯系。 「船長」一支穿雲箭,千軍萬馬來相見 自Pat Gelsinger2021年重返英特爾出任CEO以來,英特爾已經發生了翻天覆地的變化。Pat提出的IDM2.0計劃已經成為了英特爾新時代發展的主要路徑,圍繞IDM2.0計劃的宏偉藍圖而開展的IFS業務在這兩年間也得到了迅猛發展。在過去的一年間,英特爾圍繞這一主線動作不斷。無論是砸下十億基金發展先進位程工藝,還是入局RISC-V,成為基金會高級成員。都可以看出英特爾對走IDM2.0之路堅定不移的決心。 英特爾在上周的投資人大會上宣布了未來五年英特爾的發展規劃。發展規劃中不僅確定了英特爾未來埃米級先進位程投產的具體時間,還披露了有關於英特爾GPU的時間表。這使得英特爾IDM2.0落地的道路看起來愈加清晰。 而在英特爾努力向IDM2.0這一宏願邁進的同時,許多老將也正在回歸英特爾。前幾年,英特爾曾面臨過非常嚴重的人才流失問題。2020年,英特爾AI平台事業部負責人Naveen Rao和晶片工程部門總負責人Jim Keller先後宣布離開英特爾。後者曾經為AMD設計過著名的Ryzen系列晶片,使AMD能夠在晶片業務上與英特爾分庭抗禮,地位可見一斑。這些重要技術人才的離開對英特爾造成的損害不言而喻。 2021年新上任的CEO Pat在視事之初正面臨著這樣的「危急存亡之秋」。這使得他不得不對英特爾進行大刀闊斧的改革。 在不少業內人士預測英特爾即將放棄晶片製造產業的大背景下,提出IDM2.0的規劃和堅持推動英特爾的晶片代工IFS業務的舉措都讓這位新船長享受了無數閃光燈的同時飽受質疑。在這種情況下,Pat招募了數名英特爾曾經的老將,頗有組建「老兵聯盟」的意味。分析人士指出,英特爾要實現IDM2.0規劃的真正落地,Pat對團隊的掌控力是至關重要的。在公司面臨轉型的挑戰時,這位新船長必須要依仗值得自己信賴的老水手。 Pat出任英特爾CEO以來,其雷厲風行的管理風格和頗具野心的未來規劃已經吸引了許多蟄伏已久的老將回到英特爾。 2021年,曾經一手創造了酷睿i7系列晶片的Glenn Ginton重返英特爾,並直言Pat的上任是他回歸的主要原因。Glenn曾在英特爾任職長達35年之久,在任期間催生了Intel酷睿處理器系列,並使其成為了高性能處理器的代表。 2014年離職的老將Sunil Shenoy也於同年回歸英特爾擔任設計工程部高級副總裁。據悉,Sunil離開英特爾後任職於SiFive公司,並負責RISC-V相關項目。他的回歸也使得英特爾獲得了在RISC-V領域許多寶貴經驗。 再到如今Rohit的回歸,英特爾已經重新贏回了不少老將對公司未來的信心。英特爾CEO Pat對此評價到:「英特爾人才流失的情況已經發生了根本性的轉變,我們的人才現在都已經回到了公司的懷抱。」 群雄再聚首,牙膏廠是否真能「牙膏擠爆」 曾幾何時,英特爾由於在製程工藝和晶片功耗上止步不前,創新能力遭到質疑,被賜諢名「牙膏廠」。而如今,隨著老將的紛紛回歸,已經憋屈了數年的「牙膏廠」似乎真的要重振當年雄風,干出一番驚天動地的事業來。 在幾天前的英特爾投資人大會上,英特爾公布了不少「猛料」。按照英特爾的計劃,未來四年間,英特爾將跨過五個製程節點。其使用EUV技術製造的Intel4製程晶片最快將於2022年下半年投產,製程更先進的Intel3晶片則將會在2023年投產。而在2024年,英特爾將會全面進入埃米時代。基於這樣的藍圖,英特爾甚至大膽做出了摩爾定律還會持續十年的論斷。 如果說在晶片上製程的前進是Glenn、Sunil等元老級人物回歸的契機,英特爾發布的GPU相關規劃也許就是本次Rohit重回英特爾的原因之一。 Pat在前幾日投資者大會上闡述英特爾未來戰略方向時將英特爾的業務分為了「傳統業務」和「新興業務」。而Rohit本次回歸任職的GPU部門下屬加速計算系統與圖形事業部(AXG),就屬於新興業務。根據英特爾的規劃,幾年後新興業務的總收入將占據英特爾營收的一半以上。其中AXG部門將在2026年營收超過100億。這樣的規劃足見英特爾對於GPU部門發展的重視程度。 與此同時,英特爾在GPU領域的發展狀況也相當喜人。根據Pat在投資人大會上的說法,搭載英特爾的獨立顯卡「銳炫」的筆記本最早能在2022年的第一季度出貨。此外,英特爾還規劃了面向超級發燒友市場的Celestial項目,該GPU的架構研發工作已經開始。 並且,英特爾的雲電腦項目Endgame也在持續推進中。這項服務將能使用戶通過雲服務訪問Intel獨顯在雲端的算力,以獲得低成本,高能效的遊戲體驗。英特爾透露該項目不僅面對遊戲玩家,還能夠提供基於遠程託管的串流服務。有相關人士指出,英特爾在GPU領域的動作,是英特爾今年最大的「豪賭」。如果英特爾顯卡的性能足夠強大,也許就能一舉改變英偉達和AMD在GPU領域兩分天下的局面。 在這種情況下,「顯卡大師」Rohit的回歸無疑是英特爾的一劑強心針。Rohit回歸英特爾後,將可能參與英特爾Battlemage和Celestial等GPU的開發,這些項目是英特爾下一階段在GPU市場站穩腳跟的關鍵。 隨著越來越多的老將回歸,我們欣喜地看到,英特爾似乎真的有望拋卻「牙膏廠」名號,以全新的姿態揚帆起航。 來源:快科技

英特爾新GPU專利感受下:顯卡將用MCM封裝技術

最近幾年,先進封裝技術逐漸得到半導體廠商的關注。英特爾在幾年前提到多種先進封裝工藝,推出包括Foveros、EMIB等多種封裝技術。 英特爾最近公布一項封裝專利,可能是英特爾未來圖形加速器設計的基石,該專利描述了如何利用多晶片模塊(MCM:Multi-Chip Module) 方法,實現一系列協同工作以提供單幀的圖形處理器。 英特爾的設計指向工作負載的層次結構,將MCM構造成一個整體的方法,主圖形處理器協調整個工作負載。 防止晶片設計人員在追求性能的過程中,不斷增加裸片尺寸,並帶來可製造性、可擴展性和供電問題等一系列問題。但英特爾似乎從AMD的描述中吸取教訓,解釋說他們的MCM設計的「中心」。 根據英特爾專利的描述,把多個圖形繪制指令傳送到「多個」圖形處理器。第一圖形處理器實質上運行整個場景的初始繪制通道,創建可見性和障礙數據,並決定渲染哪些內容。 在第一圖形處理器生成的一些圖塊會轉到其他可用的圖形處理器,負責准確地渲染與其tiles相對應的場景,顯示每個tile中的圖元或顯示沒有要渲染。 英特爾似乎在考慮將基於圖塊的棋盤渲染與分布式頂點位置計算集成在一起,當所有圖形處理器都渲染好單幀拼圖(包括著色、照明和光線跟蹤)時,第一圖形處理器將它們的成果拼接起來,並最終在螢幕上呈現。 按照英特爾的說法,基於圖塊渲染的單幀被分成多個圖塊。根據專利的描述,圖塊將經過第一圖形處理器,指出對應的圖形單元在哪些地方可見,並為每個圖塊提供多個圖形處理器的渲染框架,直到獲得Destiny 2幀。 理想情況下,渲染的過程每秒會發生60、120甚至500次。英特爾對多晶片性能擴展的希望就這樣擺在我們面前。 英特爾用AMD和NVIDIA顯卡在SLI或Crossfire模式下的性能報告,說明經典多GPU配置的潛在性能提升,但性能肯定不如真正MCM設計的晶片。 不過,英特爾在專利中對架構層面的細節相當模糊,並且涵蓋盡可能多的領域,甚至包括多個協同工作的圖形處理器或只是圖形處理器的一部分。 這個方法適用於「單處理器桌面系統、多處理器工作站系統、伺服器系統」以及用於移動的片上系統設計 (SoC),這項技術能夠接受來自RISC-V、CISC或VLIW命令的指令。 從英特爾的專利描述可以看到,英特爾希望在MCM設計的GPU實現多晶片同步渲染,不同於NVIDIA和AMD曾經的速力(SLI)和交火(Crossfire)。 英特爾希望通過MCM封裝的方法,讓多個圖形單元能夠在「第一圖形處理器」的協同下,在多個不同的專用晶片或圖形單元上進行計算、渲染,再通過第一圖形處理器「組合」成最終畫面。 編輯點評:在製造工藝進展越發緩慢的當下,封裝技術受到各大半導體廠商重視。 當下應用最成功的莫過於AMD的銳龍、線程撕裂者等處理器產品,AMD通過Chiplet的晶片設計,將產品的不良品率影響降至最低。 英特爾的MCM技術與AMD的Chiplet有很多相似之處,但又略有不同;隨著AMD在Intinsct圖形加速卡中使用多晶片設計,也可以為英特爾提供一定的參考。 不僅如此,MCM多晶片封裝技術除了帶來更好的成本控制和更高的靈活性外,它同時還能解決高性能工藝產品的一大難題,那就是積熱。 當下普遍認為,產生積熱的原因在於電晶體過度集中,散熱器與晶片之間的熱傳遞效率因為熱源過度集中,無法快速將熱量導出造成的。 MCM封裝的晶片能夠啦心晶片之間的距離,能更充分的使用到散熱器的全部性能,降低積熱帶來的影響。 來源:快科技

《孤島危機:重製版》PC最後更新上線 改進CPU和GPU

《孤島危機:重製版》PC版新補丁上線,大大改進了GPU和CPU的表現。 根據Crytek,這是《孤島危機:重製版》PC版發售以來所推出的最有影響力的一次更新,基於玩家的反饋,這也是該作最後的更新。 除了以上提到的GPU和CPU改進外,更新還改善了遊戲穩定性,修復了Steam成就,音頻,貼圖,美術和渲染。此外,Steam交易卡牌也被加入進來。 《孤島危機:重製版》代理項目負責人Steffen Halbig說:「自重新製作的三部曲發售以來,我們非常感謝所有的支持和社區反饋。你們的投入非常寶貴。感謝你們的熱情和持續的支持!」 最近Crytek官宣了《孤島危機4》,目前正在積極開發中。 來源:3DMGAME

《消逝的光芒2》XSS只有30幀 Techland解釋說GPU拖後腿

除了合作問題外,《消逝的光芒2》粉絲還在抱怨運動眩暈的問題,這是因為本作缺乏FOV滑動條和動態模糊。 一名國外玩家發推說:「我和隊友變得惡心,不得不停下遊玩《消逝的光芒2》,因為Xbox Series X|S上的動態模糊,缺乏FOV滑條,30fps和頭部晃動。很多玩家在Reddit上也抱怨同樣的問題。有關於這個問題的解決方法的消息嗎?謝謝。」 首席設計師Tymon Smektala回復說:「我們首先正在修復合作問題,玩家的大量需求打破了索尼/微軟/Epic的伺服器負載。運動暈眩會在首個即將到來的補丁中修復。Xbox Series S的30幀問題會被關注,但主機的GPU正在拖後腿。」 《消逝的光芒2》在Xbox Series S上為30幀,相比來說,該作在Xbox Series X上支持動態4K/60FPS以及光追。而在Xbox One S上,該作以900P/30FPS運行。 考慮到Xbox Series S比Xbox One S性能更強大,很多國外網友不理解為什麼Xbox Series S還不能實現60FPS。 來源:3DMGAME

Steam Deck上手視頻曝光:通吃PC遊戲 可自定義GPU性能

據此前消息,Steam Deck掌機已經正式定檔2月25日發售,起售價399美元(約為2525元人民幣)。近日,關於這款設備的消息也格外引人關注,一位B站UP主就帶來了真機的上手視頻,提前展示了該設備的一些設計。 ...

Steam Deck上手視頻 你可以自定義GPU的性能

B站UP主「牛頭人萌新」今日發布了33秒Steam Deck上手視頻,根據視頻,Steam Deck允許玩家自定義GPU性能。 通過視頻我們可以一窺Steam Deck的電池管理系統,這包括電池續航時間,性能界面水平,GPU性能水平,基礎視圖和高級視圖。玩家可以調整這些參數來延長續航時間。 GPU性能水平分為自動和手動,手動又包括低和高。 高級視圖包括限制幀率,可變解析度(動態調整渲染解析度),動態刷新率,TDP(功耗)限制,FSR等。 來源:3DMGAME

華擎mini-ITX版RX 6400 GPU曝光:或僅供OEM渠道 無需外接供電

作為AMD GPU的 AIB 合作夥伴的華擎,准備推出的mini-ITX 版Radeon RX 6400 Challenger 入門獨顯,出現在EEC(歐亞經濟委員會)網站的資料庫中。 據悉,Radeon RX 6400 GPU為RX 6500 XT的精簡版,基於RDNA2架構的Navi 24核心,規格為12組計算單元,共768個流處理器,主頻為2039MHz,加速頻率可高達2321MHz,12個光追單元,保留完整的16MB無限緩存,擁有4GB的顯存、64bit位寬、16Gbps速率,功耗僅為53W,無需外接電源供電。 不過,RX 6500 XT並不會針對消費市場而推出,很可能只會向OEM(原始設備製造商)供貨。 此外,還有曝料者曝光了的四款顯卡新品,分別是RX 6500 XT Phantom Gaming D OC、RX 6500...
黃氏刀法 眼花繚亂NVIDIA官方確認7nm安培首發割了一刀

新「核彈」來了 NVIDIA下一代5nm GPU曝光:龐然大物

多方爆料顯示,Hopper將是NVIDIA下一代GPU,主要用於數據中心領域。 達人kopite7kimi稱,GH100核心的面積可能僅比1000mm²小一點,這樣就比GA100安培大核心大了超20%,可以說是非常恐怖的規模。 畢竟,GA100的面積已經達到826mm2,集成542億電晶體,是7nm工藝下最大的晶片之一了。 這似乎驗證了此前的傳言,即Hopper採用的是MCM多芯互聯設計,功耗甚至能摸到1000W,也就是一小時一度電。 當然,考慮到Hopper用的地方是高性能計算或者數據中心,功耗高應該並不是很大的問題,性能更重要。 至於遊戲顯卡RTX 40系列,據說對應Ada Lovelace核心,AD102核心將擁有18432個CUDA,頻率2.5GHz,算力90T,功耗超450W。 來源:快科技

取代安培 NVIDIA下一代GPU產品Hopper尷尬了:沒發布就攤上商標糾紛

NVIDIA的下代GPU據說包含Ada Lovelace和Hopper兩款,這都是歷史上西方奠基性的女科學家,前者被稱為電腦程式第一人,預計對應RTX 40系顯卡,後者則是編譯之母,預計對應數據中心GPU。 不過,對於NVIDIA來說,一個現實性的尷尬問題在於,Hopper商標還不在自己手裡。 原來,2019年,網絡公司Dish稱,Hopper已被用於旗下DVR和衛星接受設備,盡管看起來其品類和顯卡/加速卡很難混為一談,可Dish還是不依不饒。 雙方的法律糾葛開始於2021年4月,Dish網絡向美國專利局申請駁回NV的Hopper商標。5月份開始,雙方開始進行和解談判,可至今沒有達成。 下一個關鍵的時間點是2022年2月22日,如果還無法和解或者沒有暫停訴訟的動議,那麼可能會影響Hopper面市。 爆料稱,Hopper基於台積電5nm工藝,採用MCM多芯設計,算力規模非常可觀。 來源:快科技

Xbox台服XGP、XGPU等訂閱服務降價 1個月約46元起

微軟宣布,台服Xbox Game Pass及Xbox Live Gold服務預計從2月起開始下調。整體調降幅度約1/3,例如主力的Xbox Game Pass Ultimate價格從原本的1個月新台幣459元降低至新台幣299元,Xbox Game Pass(PC/主機)從原本的1個月新台幣320元降低至新台幣199元。 官方表示,Xbox會定期評估Xbox Game Pass 及Xbox Live Gold在各個市場當地的價格,以為各地區的會員及玩家帶來最好的服務。這些價格調整會根據每個市場的情況而訂定,也是微軟去年底開始在一些地區進行價格調整的延續。其中Xbox Game Pass Ultimate包含Xbox Live Gold會員的權益、最先進的多人遊戲網路、以及上百款適用於主機與PC的高品質遊戲,更包含EA Play會員。 Xbox台服訂閱服務價格調整表(時間、原價、現價、降幅) Xbox Game Pass Ultimate 1個月 459 299 -34.86% 3個月 1359 899 -33.85% 6個月 2754 1799 -34.68% 12個月 5508 3589 -34.84% 24個月 11016 7179 -34.83% PC...