Home Tags 王啟尚

Tag: 王啟尚

獨家專訪AMD高級副總裁王啟尚:打造開放生態鏈 擁抱AI大時代

台北電腦展2024活動期間,文Q有幸獨家采訪了AMD GPU技術與工程研發高級副總裁王啟尚(David Wang)。 王啟尚先生有著30多年的顯卡和晶片工程研發經驗,目前在AMD負責架構、IP和軟體等GPU技術開發,同時領導著AMD顯卡、數據中心GPU、客戶端和半定製業務SoC的工程研發。 與王啟尚先生的合影 訪談從AI LLM大語言模型開始。 王啟尚在此前3月份北京舉辦的AMD AI PC創新峰會上就開門見山地分析了LLM的發展趨勢,大型閉源模型越來越龐大,比如GPT-4的參數量已經達到1.76萬億;即便是相對小型的開源模型也在膨脹,Llama 2參數量達700億,阿里通義千問2達到720億。 如此龐大的LLM,對於算力的需求是十分“飢渴”的,同樣需要海量的電力去支撐,遠超一般數據中心的承受能力,越發引起行業的擔憂。 對此,王啟尚分析指出,基礎大模型的參數規模成長曲線比摩爾定律來得還要猛烈,幾乎每兩年就增長多達5-10倍,所以誕生了新的“混合專家模型”(MOE)策略,將單一大模型變為眾多專家模型的集合,每一個都有自己專門擅長的領域,因此不需要超級龐大甚至無限制,相信未來會越來越流行。 在硬體方面,每一年都在更新換代,匹配大模型的快速進化趨勢,重點就是提升算力和算法、內存容量和帶寬。 其中,算力和精度密切相關,趨勢是越來越低,前幾年需要16位,現在逐漸轉向8位精度,AMD下一代CDNA4 MI350會進一步降至6位或者4位,而最終可能會走向2位或者1位——人腦就是1位或者2位的。 當然,這個精度也要看模型的設計,有時可能需要量化和重新訓練。 目前來看,沒什麼“魔法”大幅降低硬體的功耗,能做的就是努力提升能效。 比如AMD的下一代產品,性能可以提升35倍,但功耗不會增加這麼多,客戶依然願意購買越來越多的GPU,畢竟算力依然不夠。 王啟尚承認,電力的問題會一直存在,未來數據中心可能真的需要自建發電廠。 回到距離我們更近的AI產品,比如說Strix Point的下一代移動處理器銳龍AI 300系列,NPU的算力達到了50TOPS,可以滿足更多對算力有需求的場景,更多地接手CPU、GPU的工作。 王啟尚表示,每一種AI引擎都有適合自己的工作,比如CPU主要做通用運算,GPU可以快速訓練大模型,NPU則可以達成最低的功耗和最高的能效,當然將負載遷移到NPU上都需要一定的優化和時間。 特別是在GPU、NPU之間,存在著折衷和妥協,取決於你看中高速度還是高能效。 另一方面,在未來,AMD希望通過多層的Graph Compile 編譯器,根據系統里的AI引擎類別,可以將不同的負載分配給不同的AI引擎,讓CPU、GPU、NPU同時跑起來,達到最高效率。 不過這方面還需要一定的時間,目前仍是將全部的工作負載放在同一個編譯器里執行,我們能做的是讓整個模型變得更成熟,使其簡單地進行編譯最佳化,但這仍需要一定的人力成本。 當筆者問到,說起CPU、GPU、NPU的多引擎組合,Intel也已經具備全線實力,NVIDIA也在嘗試做自己的CPU,AMD又該怎麼辦呢? 王啟尚認為,每一家廠商都有自己的獨特優勢,AMD的三種引擎在業內都是非常好的,也非常均衡。 未來,AMD將繼續發揮三種引擎都可以提供最佳狀態的優勢,每一樣都要做好,同時延續AMD一貫的企業文化,在軟體方面堅持開源,和行業夥伴共同創新,打造開放的生態鏈,擁抱AI大時代。 比如AMD聯合博通、思科、谷歌、慧與、Intel、Meta、微軟共同宣布了開放的行業標准UALink(Ultra Accelerator Link),共同推進AI基礎設施建設。 在這八大創始成員中,谷歌、慧與、Meta、微軟都是數據中心客戶,都非常高興能有這樣的開放標准,可以更標准化、更容易地擴建大規模數據中心,不會被限制在專有方案中。 最後聊到了王啟尚的專長,也就是GPU發展,包括銳龍AI 300系列核顯使用的RDNA 3.5(或者叫RDNA 3+),以及下一代顯卡將會使用的RDNA 4。 具體細節目前肯定無法公開,不過王啟尚透露,RDNA 3.5重點針對APU環境做了優化,比如集成圖形核心規模從12個CU單元增加到最多提供16個CU單元(筆者換算為增幅33%),對於APU來說是非常強悍的,可以更好地用於遊戲。 RDNA 4在遊戲方面的重點就是通過AI增強遊戲體驗,包括更強的光線追蹤,更多的AI加速畫質和幀率。 事實上,這也是RDNA GPU家族發展的大方向。 根據王啟尚先生的精彩分享,我們拭目以待AMD在未來的AI進擊! 文章內容舉報 來源:快科技

AMD RDNA架構技術傳奇王啟尚專訪:專注每瓦性能 小晶片有大優勢

隨著NVIDIA RTX 40系列、AMD RX 7000系列的陸續登場,新一輪顯卡大戰漸入高潮。那麼,“後發制人”的AMD RX 7900系列有什麼特異之處呢? 近日,被業界譽為“RDNA架構技術傳奇的”AMD Radeon技術事業部工程研發高級副總裁王啟尚(David Wang)先生,接受了快科技的專訪,暢聊了多個有關AMD RX 7900系列顯卡的前沿技術話題。 王啟尚在美國華盛頓大學獲得電子工程碩士學位,曾先後就職於LSI Logic、Axil、SGI、ArtX等半導體晶片企業,2000年加入ATI,2006年隨著ATI被收購而進入AMD。 王啟尚具備極其豐富的圖形晶片設計、開發與管理經驗,在AMD(ATI)眾多GPU產品的研發中起到了不可替代的領導作用,尤其是RDNA系列GPU架構,以超高能效而聞名。 ↑↑↑王啟尚 ——HYPR-RX:一鍵開啟大禮包 AMD Adrenalin驅動軟體中提供了豐富、強大的功能,但事實上,很多遊戲玩家拿到卡之後直接就開始玩了,很少會去仔細研究一些特別的功能會帶來什麼樣的好處,造成浪費,也不利於發揮顯卡的全部實力和潛力。 為此,AMD開發了HYPR-RX,將Adrenalin驅動內的多個功能與技術整合在一起,包括Radeon Boost性能加速、Radeon Anti-Lag抗延遲、RSR超解析度等,可以一鍵開啟。 這樣,它們就能協同,由此能夠降低延遲也能提供相比原來設置最高達85%的更強性能。 該功能預計2023年上半年正式上線,目前僅支持RX 7000系列顯卡,暫時不會支持RX 6000系列或更老的型號。 ——FSR:從超解析度到補幀 截止10月底,AMD FSR超解析度技術已經獲得超過216款遊戲的支持,其中85款已支持FSR 2。 FRS技術的下一個版本是FSR 2.2,重點進一步改善了畫質,比如減少快速移動物體的重影。 它和FSR 2.1/2.0同樣基於時域放大算法,不需要依靠AI或者專用的AI硬體,就可以實現出色的畫質和性能。 據介紹,AMD和3DMark所屬公司UL Solutions也有很好的合作。目前,3DMark有針對NVIDIA DLSS和Intel XeSS的功能進行測試,正在擴展功能測試項目,其中就會包括一項專門針對AMD...

AMD RDNA3架構深入揭秘:一大分七小、AI/光追飛躍

一、RDNA3三大核心模塊解析 作為各家新處理器、新顯卡平台中最後一個登場的,AMD RDNA3架構的RX 7000系列顯卡終於來了! 新品正式解禁上市前,AMD也向快科技分享了諸多細節,包括晶片設計、架構布局、技術特性等,一起先睹為快! AMD高級副總裁、大中華區總裁潘曉明先生(Spencer Pan)表示,AMD一直致力於將優異的Radeon顯卡帶給發燒友和遊戲市場,用不斷精進的圖形能力令用戶收獲極致體驗,用一款又一款的優秀產品引領行業進入一個全新高性能時代。 對於全新的RX 7000系列顯卡,潘曉明一樣充滿了期待與憧憬,並強調,AMD將一如既往的為廣大玩家和行業帶來優秀的產品,滿足時代的需求。 AMD Radeon技術事業部工程研發高級副總裁王啟尚表示,AMD的願景是為全世界數十億的遊戲玩家能夠提供更卓越的遊戲體驗,包括銳龍處理器、Radeon顯卡、雲遊戲服務,以及PS5、Xbox Series X/、Valve Steam Deck新一代的遊戲機,還有最新的特斯拉電動汽車,把遊戲體驗帶進汽車市場。 OK,接下來進入RDNA3的奇妙世界。 眾所周知,如今的高端GPU越發復雜、龐大,電晶體數量動輒幾百億,盡管有更先進工藝的加持,但在性能提升的同時,功耗也急劇飆升,不得設計夸張的散熱方案,甚至離不開水冷,導致能效比(每瓦性能)非常差。 AMD RDNA則從誕生開始就是一個極其高能效的GPU架構。初代就比此前的Vega架構在能效提升了多達50%,RDNA2又提升了54%,如今的RDNA3居然再次提升了54%,又一次超越了原定的設計目標! 三代RDNA架構發展下來,能效累計提升幅度已經超過350%,在整個GPU歷史上都堪稱一個奇跡。 RDNA3架構最大的創新之一,就是將AMD銳龍、EPYC上大獲成功的chiplet小晶片設計,第一次引入到了GPU之上。 AMD將一顆完整的大晶片按照功能模塊劃分成不同的小晶片,各自使用最合適的製造工藝,再通過帶寬高達5.3TB/的高性能扇出型封裝互連,組合成一個有機的整體。 RDNA3家族的頂級核心Navi 31,一共包括一個GCD、六個MCD。 其中,GCD也就是Graphics Compute Die,包括計算單元、顯示單元、媒體單元等,採用先進、昂貴的5nm製造工藝,面積約306平方毫米。 MCD也就是Memory Cache Die,包括顯存、Infinity Cache無限緩存,採用成熟的6nm製造工藝,單個面積約37.5平方毫米。 Navi 31核心總面積約531平方毫米,共有577億個電晶體,集成密度約1.1億個電晶體/平方毫米。 相比之下,RX 6900系列所用的Navi 21核心為單晶片設計,台積電7nm,268億電晶體,面積519平方毫米,集成密度約5160萬電晶體/平方毫米。 換言之,Navi 31在總面積幾乎不變的情況下,電晶體數量翻番,密度也翻了一倍。 作為對比,NVIDIA RTX 4090 AD102核心仍是單晶片,台積電4N工藝(本質也是5nm),608平方毫米,763億電晶體,集成密度1.26億個/平方毫米。 MCD部分比較簡單,每顆內部集成一個64-bit...

獨家 AMD RX 7900 XTX顯卡真身首曝:盡顯曲柔之美

AMD RDNA3家族的首批兩個成員RX 7900 XT、RX 7900 XTX已經正式發布,將於12月13日正式上市。 現在,AMD Radeon技術事業部工程研發高級副總裁王啟尚向我們快科技親自展示了公版RX 7900 XTX的真身,趕緊欣賞一下: 公版的RX 7900 XTX延續了近兩代的設計風格,依然是三風扇、2.5插槽體積,但細節做了不少調整和優化。 比如整體風格從剛直變得更溫柔,更有曲線之美,比如風扇尺寸更大,散熱更強,中央造型更豐富,比如燈帶變了。 長度尺寸從276毫米略微增加到287毫米,對於機箱安裝不會有太大壓力。 值得一提的是,RX 7900 XTX的功耗只有355W,遠低於RTX 4090 450W,因此沒有使用RTX 40系列的16針供電接口,而是延續傳統的雙8針,只是最大供電能力從330W增至355W,兼容性更好,安全性更高。 至於RX 7900 XTX內部什麼樣,請期待快科技的首發評測! 雙11紅包活動推薦: 來源:快科技