CUDA | 搜資訊

NVIDIA封殺轉譯兼容CUDA 摩爾線程官方：MUSA、MUSIFY不受影響

快科技3月5日消息，近日，NVIDIA更新了CUDA 11.6版本安裝程序中的EULA協議條款，我們知道，不僅是Intel、AMD這樣的國際巨頭，不少中國GPU廠商也在通過各種方案支持CUDA，包括摩爾線程、壁仞科技、沐曦科技等，它們是否會受影響呢？ 3月5日晚間，摩爾線程發表官方聲明回應稱，旗下的MUSA、MUSIFY技術均未受影響！摩爾線程強調，MUSA、MUSIFY不涉及NVIDIA EULA相關條款，開發者可放心使用。據介紹，MUSA是摩爾線程自主研發、擁有全部智慧財產權、軟硬一體的全功能GPU先進計算統一系統架構，與CUDA無任何依賴關系。 MUSIFY是摩爾線程面向MUSA開發者提供的開發工具，方便在MUSA計算平台上進行應用移植與開發。它可以讓開發者將自己的C++原始碼，轉換成MUSA C++原始碼，再通過MUSA編譯器MCC編譯生成基於MUSA指令集的二進位代碼，最終運行在摩爾線程的全功能GPU上。摩爾線程還向開發者提供MUSA SDK，這是摩爾線程GPU並行計算開發SDK的集合，包含了MUSAToolkits（內置運行時/編譯器/GPU加速計算庫/遷移/優化工具）及計算庫、神經網絡加速庫、通信庫等一系列開發工具，可讓開發者快速開發出針對摩爾線程GPU優化的並行計算應用。摩爾線程強調，將充分發揮從晶片到顯卡到集群的智算產品優勢，繼續打磨MUSA，持續為大模型訓練與推理提供高性能算力支撐。來源：快科技

NVIDIA出手封殺不允許其他晶片模擬跑CUDA

快科技3月5日消息，強大的硬體之外，CUDA開發與生態系統才是NVIDIA牢不可破的護城河，其他廠商和平台經常通過模擬轉譯的方式兼容，但這招以後可能行不通了。其實自從2021年開始，NVIDIA就禁止其他硬體平台使用模擬層運行CUDA軟體，但只是在在線EULA用戶協議中提出警告。如今，CUDA 11.6版本開始，安裝的時候就會在EULA協議中看到相關警告條款。其中一條是這麼寫的：“你不能逆向工程、反編譯或反彙編使用此SKD生成的任何結果，並在非NVIDIA平台上進行轉譯。” 這一招，應該是針對Intel、AMD都有參與的ZLUDA等第三方項目，以及登臨科技GPU+、沐曦科技等中國廠商的兼容方案。目前，NVIDIA尚未明確指向誰，而且只是在協議中警告，並未採取實際行動，但不排除未來採取進一步措施。來源：快科技

晶片大神Jim Keller痛斥NVIDIA CUDA：不是護城河是沼澤

對於x86、Arm、MISC 和 RISC-V 等處理器架構都有深入研究的傳奇處理器架構師Jim Keller批評了被外界認為是英偉達（NVIDIA）“護城河”的 CUDA架構和軟體堆棧，並將其比作x86，稱之為“沼澤”。他指出，就連英偉達本身也有多個專用軟體包，出於性能原因，這些軟體包依賴於開源框架。 “CUDA 是沼澤，而不是護城河，”凱勒在 X 帖子中寫道。“x86 也是一片沼澤。 CUDA 並不漂亮。它是通過一次堆積一件東西來構建的。” 確實，就像x86一樣，CUDA在保持軟體和硬體向後兼容性的同時逐漸增加了功能。這使得英偉達的平台完整且向後兼容，但它影響了性能並使程序開發變得更加困難。同時，很多開源軟體開發框架可以比CUDA更高效地使用。 “基本上沒有人編寫 CUDA，”Jim Keller在後續帖子中寫道。“如果你確實編寫 CUDA，它可能不會很快。 Triton、Tensor RT、Neon 和 Mojo 的存在是有充分理由的。” 甚至NVIDIA本身也有不完全依賴 CUDA 的工具。例如，Triton Inference Server...

AMD顯卡可以原生跑NVIDIA CUDA應用了速度還挺快

快科技2月16日消息，NVIDIA CUDA通過多年耕耘，鑄就了牢不可破的生態壁壘，外人各種嘗試都無法進入，包括AMD ROCm開發平台，但其實也不是沒有辦法。開發者Andrzej Janik就憑借一己之力，藉助Intel oneAPI，開發了CUDA兼容方案“ZLUDA”，能夠在Intel硬體上原生運行CUDA應用，後來就被停了，原因你懂的。之後在AMD的支持下，ZLUDA重啟了該項目，能夠讓AMD顯卡原生運行CUDA應用，不需要任何轉移，也不需要調整代碼。唯一要做的，就是用ZLUDA庫替代CUDA。雖然它不能保證每一款CUDA應用都跑起來，但已經是以一個巨大的突破。非常可惜，AMD支持這一項目做了兩年，也給停了——不知道是不是受到了NVIDIA的壓力。幸運的是，ZLUDA項目並未徹底消散，已經免費開源，感興趣有能力的開發者都可以使用，而且確認可以在AMD ROCm平台上無縫運行CUDA應用。比如說，可以將CUDA作為Blender 4.0或者V-Ray的渲染API，尤其是Blender本來就有Radeon HIP計算渲染器，如今跑在ZLUDA上速度還會更快。 Andrzej Janik也在繼續研究ZLUDA，其中一個目標就是要讓AMD顯卡運行NVIDIA DLSS。內部測試表明，對比OpenCL方案，其性能大部分時候都更好，最多可以領先超過75％，但因為還在開發之中，部分時候效率反而更低。來源：快科技

抄NVIDIA老家 AMD推出神級HIP：遊戲卡也能跑計算

快科技7月29日消息，在GPU顯卡領域，AMD不僅在遊戲顯卡的光追等技術上比NVIDIA落後，在HPC計算及當前大火的AI領域中，更是被NVIDIA甩開，一個重要原因就是後者的CUDA環境極受歡迎。 NVIDIA的CUDA得到了400多萬開發者的支持，從大廠的AI大模型再到日常的AI畫圖，對NVIDIA顯卡的支持都很順利，而AMD主推的ROCm支持度就少多了。 AMD現在也加油追趕了，不僅擴大了ROCm的支持范圍，現在更是開放了面向Windows平台的HIP SDK，開始支持Radeon遊戲顯卡。這個SDK可以簡化開發者的工作，不用糾結是支持NVIDIA的CUDA還是AMD的ROCm，底層都是基於C++的，因此可以快速將用於CUDA的平台轉移到AMD的平台上來。簡單來說就是AMD抄底NVIDIA老家了，藉助這個SDK把原本只能用於CUDA平台的代碼輕松遷移到自家平台，解決了適配少的問題。這個HIP SDK支持多個Windows系統，包括Win10 22H2、Win11 22H2及Windows Server 2022及之後的版本，對A卡的支持則是從移動版APU到遊戲卡再到工作站顯卡都可以。目前已經有10款顯卡在兼容列表中，包括工作站級別的Radeon Pro W7900，W7800和W6800，還有消費級的Radeon RX 7900 XTX、RX 7900 XT、RX 7600、RX 6950 XT、RX 6900 XT、RX 6800 XT 和 RX 6800等。後續還會有更多的產品支持，AMD在計算及AI上最弱的一環正在填坑。來源：快科技

7年了 AMD CUDA殺手ROCm終於登陸Windows、支持遊戲顯卡

快科技4月14日消息，AMD今天意外分享了一個重磅消息：Radeon開放計算平台“ROCm”正式登陸Windows系統平台，同時首次支持Radeon遊戲顯卡。很多人可能不知道AMD ROCm，但對於NVIDIA CUDA肯定如雷貫耳，這正是AMD針對NVIDIA CUDA的一個競爭方能。相信不少人購買NVIDIA顯卡，不僅僅是因為它往往性能更好，遊戲支持更佳，CUDA也是一個重要因素，有了它的加速，無論是日常遊戲娛樂，還是大量專業創作，都能獲益匪淺，而且發展至今，CUDA的生態系統已經異常繁榮、牢不可破。其實，AMD早在2016年4月就發布了ROCm平台，迄今已經整整7年，但因為起步太晚，而且官方支持力度有限，盡管開源，卻一直沒能發展開來。尤其是它一直僅支持Linux系統，硬體支持也盡顯Radeon Pro專業卡、Radeon Instinct加速計算卡，讓很多開發者和用戶望而卻步。如今，AMD ROCm終於來到了Windows平台，也開始加入對遊戲顯卡的支持，但是在Windows下首批支持型號非常有限，只有專業級的Radeon Pro W6800，以及遊戲級的RX 6900 XT、RX 6600，都來自於RDNA2架構家族，暫時還不支持Instinct加速卡。軟體支持層面也不完整，RX 6900 XT僅限於HIP SDK開發包，RX 6600則僅支持HIP Runtime運行時。然後還有一個特殊的R9 Fury值得一提，八年前的老卡，軟體層面完整支持ROCm，但是在Linux下僅限社區級別支持，沒有官方服務，Windows下則完全不支持。事實上，ROCm如今在Linux下支持的產品也不算多，加速卡有MI250X、MI250、MI210、MI100、MI50，專業卡有Radeon Pro W6800、V620。無論如何，AMD終於邁出了早就該邁出的一步，真心希望能繼續大力投入做好，不讓CUDA過於獨美。來源：快科技

NVIDIA獨家絕技 CUDA正在被趕下神壇？

在過去十年中，機器學習軟體開發的格局發生了重大變化。許多框架來來去去，但大多數都嚴重依賴於利用 Nvidia 的 CUDA，並且在 Nvidia GPU 上表現最佳。然而，隨著 PyTorch 2.0 和 OpenAI 的 Triton 的到來，英偉達在該領域主要依靠其軟體護城河的主導地位正在被打破。筆者認為，機器學習模型的默認軟體堆棧將不再是 Nvidia 的閉源 CUDA。球在 Nvidia 的球場上，他們讓 OpenAI 和 Meta 控制了軟體堆棧。由於 Nvidia...

AMD正式發布GPUFORT：將CUDA應用轉換

英偉達在高性能計算領域的主導地位很大程度上依賴基於CUDA的解決方案，為此AMD通過一個名為GPUFORT的項目提供了代碼。據itsfoss介紹，該項目屬於Radeon Open eCosystem（ROCm），以幫助大型CUDA代碼庫可以在英偉達生態系統之外工作。英偉達的解決方案極大地限制了開發人員尋找替代方案，影響遷移工作，AMD很長時間內一直在努力，幫助開發人員將盡可能多的CUDA特定代碼遷移到Radeon開源計算堆棧支持的接口。AMD在此前的項目里同時使用了C和C++代碼，GPUFORT不同之處在於將基於基於OpenACC的CUDA Fortran和Fortan代碼轉換為OpenMP 4.5+，以便在GPU或Fortran + HIP C++ 代碼上執行。據介紹，GPUFORT不是編譯器本身，而是執行源到源轉換的Python代碼庫。同時GPUFORT不是一個完整的自動化解決方案，需要審查和手動更正基於CUDA的編碼生成的內容。在當前狀態下，僅用於將高性能計算（HPC）應用程式轉換為AMD ROCm生態系統支持的兼容代碼格式。AMD的工程師承認，目前還在分析代碼的構成，以提高編譯的准確性，暫時沒有實現完整的OpenACC標準。 AMD在GitHub上發布了GPUFORT，顯示了代碼示例及其處理方式，以及用戶安裝指南。 ...

Razer發布Barracuda X遊戲耳機支持四平台快速切換

Razer 今日宣布推出 Barracuda X 遊戲耳機，特點是能夠在 PC 與移動設備之間進行無縫切換。除了 Android 智能機，它還兼容任天堂 Switch 和索尼 PS5 主機。通過隨附的 HyperSpeed 無線 USB-C 適配器，用戶將能夠在上述四個平台之間自在遊走。有趣的是，Barracuda X 似乎並不依賴藍牙無線連接。當無法在主機上插入 USB-C 無線適配器時（比如放在了底座上），RAZER 還為它提供了傳統 3.5...

微星推出具有3584個CUDA核心的CMP 50HX MINER礦卡

板卡大廠微星剛剛推出了採用英偉達 CMP 50HX 加密貨幣挖礦專用 GPU 的礦卡，並將之簡單命名為 MSI CMP 50HX MINER 。作為 CMP 產品線中的第三位成員，其特點是擁有 3584 個 CUDA 核心。與 CMP 30HX 和 CMP 40HX 相比，CMP 50HX...

英特爾核顯利用插件可實現CUDA加速，現任CEO曾嘲笑CUDA無足輕重

在英特爾的GPU上實現英偉達的CUDA加速，聽起來有點不靠譜，不過這確實是真的。 GPU可以完成的不僅僅是3D圖形渲染工作，這也是英偉達在數據中心領域賺取數十億美元的方式。一直以來，CUDA以及其API是英偉達GPU的專屬。現在已經有工具將CUDA應用移植到OpenCL等環境中使用，但即便是HIPCL這樣的半自動化工具，也需要手動干預。據HotHardware報導，最近一款名為ZLUDA的新工具誕生了，可直接在英特爾第6代酷睿（Skylake）系列處理器及以上的核顯使用CUDA加速，而且不需要任何修改，並同時支持Windows和Linux系統。根據開發者的說法，ZLUDA應該可以達到接近原生的性能，不過功能是有限的，目前可以真正運行的只有Geekbench，並提醒用戶暫時不要依賴ZLUDA來開發任何生產力軟體。在Linux系統上，ZLUDA的開發者已經使用英特爾酷睿i5-8700K處理器通過了GeekBench 5.2.3的基準測試，其UHD 630核顯開啟CUDA加速後的成績為6333分，總成績雖然比原生OpenCL的6482分差一些，但在個別單項測試中可以看到幫助是非常大的，大約有52%左右幅度的提升。 ZLUDA現在還處於早期版本，還有很長的路要走，不過會是一個有趣的項目。英特爾的DG1獨立顯卡已經開始提供給OEM廠商，性能更加強大的DG2獨立顯卡也即將到來。相比於集顯的性能，未來英特爾的獨立顯卡市場才是ZLUDA大展拳腳的地方。有趣的是，英特爾現任CEO帕特-基爾辛格（Pat Gelsinger）曾在2008年7月份，也就是還沒離開英特爾之前，擔任英特爾高級副總裁期間，接受媒體采訪的時候表示，英偉達的CUDA只是計算歷史長河中是無足輕重的一項技術，最多掀起一朵小浪花罷了。 ...

Intel核顯能開啟NVIDIA CUDA加速了跑分高了52%

NVIDIA CUDA鼎鼎大名，不過，從一開始，該技術就為N卡獨享。盡管已經有一些工具能讓CUDA為OpenCL環境所用，但即便先進如HIPCL也還是一款半自動化工具，需要開發者手動干預。好消息是，名為ZLUDA的新工具誕生了，簡單來說可依然配置Intel核顯（6代酷睿Skylake及以上）的系統使用上CUDA加速。盡管號稱效率和本地化幾乎無異，但似乎僅被較好地用在Geekbench上。官方基於Linux的測試顯示，UHD 630核顯（Core i5-8700K）開啟CUDA後跑分能到6333，雖然分數比原生OpenCL的6482低，但部分測試子項中，CUDA加速還是起到了不小的buff加成作用，幅度最高有52%。遺憾的是，有媒體嘗試從GitHub頁面下載ZLUDA後，在Tiger Lake筆記本上操作，Geekbench 5報錯了…… 作者：萬南來源：快科技

想用Intel核顯運行CUDA程序？這個叫ZLUDA的項目可能會幫到你

現在Intel的處理器大部分都會整合核顯，在台式機上這傢伙大多數時間都被關閉了，即使把它打開你也會發現他長期處於閒置狀態，那麼有沒有人挖掘一下它的利用價值呢？還真有，現在github上有一個叫ZLUDA的項目，它的目的就是用Intel的GPU運行CUDA程序，而且目標是無需對程序進行任何修改就能運行。該項目基於Intel的oneAPI零級規范，這是一個個人項目，與Intel和NVIDIA沒有直接關系。項目的創建者聲稱它可以提供近乎原生的性能，讓Intel的GPU在沒有性能損失的情況下運行CUDA程序。當然目前該項目只是出於起步狀態，缺乏對CUDA的全面支持，實際上作者只展示了用Core i7-8700K上的UHD Graphics 630使用ZLUDA和OpenCL運行GeekBench 5的情況，ZLUDA讓GeekBench認為UHD 630是一個慢速的NVIDIA GPU，從而走了CUDA API來運算，上面就是ZLUDA和OpenCL的運行結果，6個項目里面有4個是比OpenCL更快，整體來說快了10%。目前ZLUDA支持Intel的Gen 9以及更新版本的核顯，但目前測試是基於Gen 9核顯的，不知道它在Ice Lake上的Gen 11與Tiger Lake上的Xe有怎麼樣的表現。至於AMD的GPU，目前是不支持的，但技術上是可行的，以後可能會支持。其實Intel有自己的DPC++，AMD也有HIP，但這兩個都需程式設計師在開發時就套用特定的API工具，而ZLUDA不需要任何額外的工作就能讓CUDA的程序在Intel GPU上運行，當然如果想運行效率高就需要GPU支持對應的硬體指令，沒有的也就會改用軟體進行運算，這對性能會有明顯影響，上面GeekBench 5那兩個跑得比OpenCL慢的項目就很能說明問題。當然這個ZLUDA項目會威脅到NVIDIA的CUDA生態系統，估計NVIDIA對它會不太滿意，但其他人應該會很樂意看到它的誕生。 ...

OpenCL 3.0最終版規范發布老牌圖形API開倒車式自救

日前，行業組織Khronos發布了，從而將4月份的臨時規范轉正。作為老牌的GPU並行計算標準，它希望藉此煥發第二春，但能行嗎？ OpenCL最早由蘋果開發，後經NVIDIA、AMD等完善並提交給Khronos轉為跨平台的開放標準。最新的3.0在某種程度上開了倒車，其核心API其實是2011年OpenCL 1.2的一個分支。 OpenCL 2.x的諸多開發功能在3.0上變成了可選，再次呼應其失敗。實際上，2017年的OpenCL 2.2迄今為止都沒有人使用，包括但不限於Intel、NVIDIA和AMD，尷尬不？簡單來說，OpenCL 3.0增加了對異步DMA傳輸執行的支持，也支持了SPIR-V 1.3。為了鼓勵開發者升級，無論是從1.2還是從2.x版本升級，都幾乎不需要做代碼變動。 Khronos對於OpenCL仍舊寄予厚望，並提出了整合Vulkan、支持SPIR-V 1.4、1.5以及發布OpenCL Next的想法，盡管這看起來仍舊很零碎。就目前而言，蘋果macOS 10.14棄用了OpenCL，力推自家Metal API。NVIDIA有更加成熟和對開發者友好的CUDA API，AMD僅支持OpenCL 1.2，且驅動一團糟，現在OpenCL唯一的大靠山似乎就是Intel了。 - THE END - 轉載請註明出處：快科技 #NVIDIA#OpenCL#顯卡#CUDA 責任主編：萬南作者：萬南來源：快科技

NVIDIA正式發布CUDA 11工具包專為安培架構優化

作為GPU加速應用領域最強大的軟件開發平台，NVIDIA近日了發布全新的CUDA 11版本工具包，特別為新誕生的安培架構進行了優化。 CUDA 11完全支持在安培新架構上進行開發，包括A100 GPU，以及基於它的DGX A100、HGX A100等多路系統，並支持安培架構的第三代Tensor張量核心，可針對不同數據類型加速混合精度矩陣計算，比如TF32、Bfloat16。其他新技能：－多實例GPU虛擬化和GPU分區，提升GPU利用率－優化庫性能，包括線性代數、快速傅里葉變換(FFT)、矩陣乘法、JPEG解碼等等－改進編程與API，包括任務圖表、異步數據轉移、精細同步、二級緩存駐留管理等等－增強Nsight開發工具集，包括跟蹤、編譯、調試分析－完整支持各種主要CPU架構，包括x86、ARM64、Power － CUDA C++改進編譯器性能和穩定性、支持新的主編譯器和語言標準(包括C++17)、支持Parallel C++ STL －更新操作系統支持更詳細介紹請參閱： https://devblogs.nvidia.com/cuda-11-features-revealed/ 作者：上方文Q來源：快科技

NVIDIA、蘋果徹底決裂 CUDA不再支持macOS

NVIDIA和蘋果的關系一直很糟糕，十幾年沒有過合作，現在雙方的最後一絲關系也破裂了。 NVIDIA今天公布了CUDA並行計算開發平台的更新規劃說明，其中特別提到，CUDA 10.2(包括工具包和驅動)將是最後一個支持蘋果macOS系統開發、運行CUDA程序的版本，未來CUDA將與蘋果平台無關。十多年前，一批採用NVIDIA GPU顯卡的蘋果MacBook Pro筆記本出現瑕疵，雙方為此向客戶賠償了一大筆錢，並且鬧得非常不愉快，從此蘋果無論筆記本還是台式機，一律只用AMD顯卡。即便是NVIDIA顯卡更流行，性能更好，技術更先進，蘋果也從未考慮過，比如現在NVIDIA已經支持硬件加速光線追蹤，AMD還得等一段時間，蘋果也絕不動搖。當然，AMD也是竭力服務蘋果，提供各種定製產品，比如最新的RX 5500M移動顯卡就是由蘋果16英寸MacBook Pro首發的。其實，蘋果在去年的macOS 10.14 Mojave版本中就悄然停止了對於NVIDIA CUDA的支持，迫使Adobe創意套裝等支持CUDA硬件加速的軟件不得不提醒用戶，不要再開啟此功能。既然蘋果已經絕情，NVIDIA也沒必要繼續維持，終止CUDA對於蘋果的支持也在意料之中。文章糾錯作者：上方文Q來源：快科技

NVIDIA宣布CUDA Toolkit 10.2將會是最後一個支持macOS的版本

蘋果的Mac系列遠離NVIDIA的顯卡已經快有5年時間了，我們最後一次看到搭載GeForce顯卡的iMac和MacBook Pro，都已經是2013年末到2014年中的事情了，而後蘋果就去用AMD的顯卡產品了。不過NVIDIA仍然一直在給macOS提供著顯卡驅動和CUDA 工具集，雖然蘋果官方不用，但是自己搞個外接N卡用CUDA計算點東西的用戶還是挺多的。不過NVIDIA官方在最近一次CUDA工具集的更新日誌中指出，CUDA Toolkit 10.2將會是macOS上面最後一版CUDA工具集。 CUDA Toolkit包含了針對CUDA的編譯器、開發環境以及各類運行庫，其實它就是CUDA的SDK（軟體開發工具集），如果想要將自己的非圖形計算程序搬上顯卡去跑，那麼這套工具集是必須的。而它一直以來都是跨平台的，你在Windows、Linux以及macOS上都可以使用它。NVIDIA與蘋果之間的關系裂痕越拉越大了，在去年的macOS Mojave更新中，NVIDIA就遭遇了蘋果「故意」拖延其新驅動的簽名，導致用戶無法在新版本macOS上面正常安裝NVIDIA官方顯卡驅動的事件，所以這次僅針對macOS停止發布這套工具集可能說明NVIDIA與蘋果之間徹底撕破臉皮。沒有了新的CUDA Toolkit，意味著macOS開發者將不能夠在macOS上面使用未來的CUDA新特性，這兩年的機器學習熱潮讓不少開發者都使用N卡搭建起了自己的機器學習硬體平台，可能未來這些開發者為了CUDA的新特性而不得不放棄界面友好的macOS而轉投Windows或Linux了。需要注意的是，本次停止更新的軟體只是CUDA Toolkit這套開發工具集，而不是針對macOS的CUDA驅動，對於後者是否會停止更新，NVIDIA暫時還沒有給出官方態度。 ...

Tag: CUDA