Home Tags CUDA

Tag: CUDA

NVIDIA封殺轉譯兼容CUDA 摩爾線程官方:MUSA、MUSIFY不受影響

快科技3月5日消息,近日,NVIDIA更新了CUDA 11.6版本安裝程序中的EULA協議條款, 我們知道,不僅是Intel、AMD這樣的國際巨頭,不少中國GPU廠商也在通過各種方案支持CUDA,包括摩爾線程、壁仞科技、沐曦科技等,它們是否會受影響呢? 3月5日晚間,摩爾線程發表官方聲明回應稱,旗下的MUSA、MUSIFY技術均未受影響! 摩爾線程強調,MUSA、MUSIFY不涉及NVIDIA EULA相關條款,開發者可放心使用。 據介紹,MUSA是摩爾線程自主研發、擁有全部智慧財產權、軟硬一體的全功能GPU先進計算統一系統架構,與CUDA無任何依賴關系。 MUSIFY是摩爾線程面向MUSA開發者提供的開發工具,方便在MUSA計算平台上進行應用移植與開發。 它可以讓開發者將自己的C++原始碼,轉換成MUSA C++原始碼,再通過MUSA編譯器MCC編譯生成基於MUSA指令集的二進位代碼,最終運行在摩爾線程的全功能GPU上。 摩爾線程還向開發者提供MUSA SDK,這是摩爾線程GPU並行計算開發SDK的集合,包含了MUSAToolkits(內置運行時/編譯器/GPU加速計算庫/遷移/優化工具)及計算庫、神經網絡加速庫、通信庫等一系列開發工具,可讓開發者快速開發出針對摩爾線程GPU優化的並行計算應用。 摩爾線程強調,將充分發揮從晶片到顯卡到集群的智算產品優勢,繼續打磨MUSA,持續為大模型訓練與推理提供高性能算力支撐。 來源:快科技

NVIDIA出手封殺 不允許其他晶片模擬跑CUDA

快科技3月5日消息,強大的硬體之外,CUDA開發與生態系統才是NVIDIA牢不可破的護城河,其他廠商和平台經常通過模擬轉譯的方式兼容,但這招以後可能行不通了。 其實自從2021年開始,NVIDIA就禁止其他硬體平台使用模擬層運行CUDA軟體,但只是在在線EULA用戶協議中提出警告。 如今,CUDA 11.6版本開始,安裝的時候就會在EULA協議中看到相關警告條款。 其中一條是這麼寫的:“你不能逆向工程、反編譯或反彙編使用此SKD生成的任何結果,並在非NVIDIA平台上進行轉譯。” 這一招,應該是針對Intel、AMD都有參與的ZLUDA等第三方項目,以及登臨科技GPU+、沐曦科技等中國廠商的兼容方案。 目前,NVIDIA尚未明確指向誰,而且只是在協議中警告,並未採取實際行動,但不排除未來採取進一步措施。 來源:快科技

晶片大神Jim Keller痛斥NVIDIA CUDA:不是護城河 是沼澤

對於x86、Arm、MISC 和 RISC-V 等處理器架構都有深入研究的傳奇處理器架構師Jim Keller批評了被外界認為是英偉達(NVIDIA)“護城河”的 CUDA架構和軟體堆棧,並將其比作x86,稱之為“沼澤”。 他指出,就連英偉達本身也有多個專用軟體包,出於性能原因,這些軟體包依賴於開源框架。 “CUDA 是沼澤,而不是護城河,”凱勒在 X 帖子中寫道。“x86 也是一片沼澤。 CUDA 並不漂亮。它是通過一次堆積一件東西來構建的。” 確實,就像x86一樣,CUDA在保持軟體和硬體向後兼容性的同時逐漸增加了功能。 這使得英偉達的平台完整且向後兼容,但它影響了性能並使程序開發變得更加困難。 同時,很多開源軟體開發框架可以比CUDA更高效地使用。 “基本上沒有人編寫 CUDA,”Jim Keller在後續帖子中寫道。“如果你確實編寫 CUDA,它可能不會很快。 Triton、Tensor RT、Neon 和 Mojo 的存在是有充分理由的。” 甚至NVIDIA本身也有不完全依賴 CUDA 的工具。 例如,Triton Inference Server...

AMD顯卡可以原生跑NVIDIA CUDA應用了 速度還挺快

快科技2月16日消息,NVIDIA CUDA通過多年耕耘,鑄就了牢不可破的生態壁壘,外人各種嘗試都無法進入,包括AMD ROCm開發平台,但其實也不是沒有辦法。 開發者Andrzej Janik就憑借一己之力,藉助Intel oneAPI,開發了CUDA兼容方案“ZLUDA”,能夠在Intel硬體上原生運行CUDA應用,後來就被停了,原因你懂的。 之後在AMD的支持下,ZLUDA重啟了該項目,能夠讓AMD顯卡原生運行CUDA應用,不需要任何轉移,也不需要調整代碼。 唯一要做的,就是用ZLUDA庫替代CUDA。 雖然它不能保證每一款CUDA應用都跑起來,但已經是以一個巨大的突破。 非常可惜,AMD支持這一項目做了兩年,也給停了——不知道是不是受到了NVIDIA的壓力。 幸運的是,ZLUDA項目並未徹底消散,已經免費開源,感興趣有能力的開發者都可以使用,而且確認可以在AMD ROCm平台上無縫運行CUDA應用。 比如說,可以將CUDA作為Blender 4.0或者V-Ray的渲染API,尤其是Blender本來就有Radeon HIP計算渲染器,如今跑在ZLUDA上速度還會更快。 Andrzej Janik也在繼續研究ZLUDA,其中一個目標就是要讓AMD顯卡運行NVIDIA DLSS。 內部測試表明,對比OpenCL方案,其性能大部分時候都更好,最多可以領先超過75%,但因為還在開發之中,部分時候效率反而更低。 來源:快科技

抄NVIDIA老家 AMD推出神級HIP:遊戲卡也能跑計算

快科技7月29日消息,在GPU顯卡領域,AMD不僅在遊戲顯卡的光追等技術上比NVIDIA落後,在HPC計算及當前大火的AI領域中,更是被NVIDIA甩開,一個重要原因就是後者的CUDA環境極受歡迎。 NVIDIA的CUDA得到了400多萬開發者的支持,從大廠的AI大模型再到日常的AI畫圖,對NVIDIA顯卡的支持都很順利,而AMD主推的ROCm支持度就少多了。 AMD現在也加油追趕了,不僅擴大了ROCm的支持范圍,現在更是開放了面向Windows平台的HIP SDK,開始支持Radeon遊戲顯卡。 這個SDK可以簡化開發者的工作,不用糾結是支持NVIDIA的CUDA還是AMD的ROCm,底層都是基於C++的,因此可以快速將用於CUDA的平台轉移到AMD的平台上來。 簡單來說就是AMD抄底NVIDIA老家了,藉助這個SDK把原本只能用於CUDA平台的代碼輕松遷移到自家平台,解決了適配少的問題。 這個HIP SDK支持多個Windows系統,包括Win10 22H2、Win11 22H2及Windows Server 2022及之後的版本,對A卡的支持則是從移動版APU到遊戲卡再到工作站顯卡都可以。 目前已經有10款顯卡在兼容列表中,包括工作站級別的Radeon Pro W7900,W7800和W6800,還有消費級的Radeon RX 7900 XTX、RX 7900 XT、RX 7600、RX 6950 XT、RX 6900 XT、RX 6800 XT 和 RX 6800等。 後續還會有更多的產品支持,AMD在計算及AI上最弱的一環正在填坑。 來源:快科技

7年了 AMD CUDA殺手ROCm終於登陸Windows、支持遊戲顯卡

快科技4月14日消息,AMD今天意外分享了一個重磅消息:Radeon開放計算平台“ROCm”正式登陸Windows系統平台,同時首次支持Radeon遊戲顯卡。 很多人可能不知道AMD ROCm,但對於NVIDIA CUDA肯定如雷貫耳,這正是AMD針對NVIDIA CUDA的一個競爭方能。 相信不少人購買NVIDIA顯卡,不僅僅是因為它往往性能更好,遊戲支持更佳,CUDA也是一個重要因素,有了它的加速,無論是日常遊戲娛樂,還是大量專業創作,都能獲益匪淺,而且發展至今,CUDA的生態系統已經異常繁榮、牢不可破。 其實,AMD早在2016年4月就發布了ROCm平台,迄今已經整整7年,但因為起步太晚,而且官方支持力度有限,盡管開源,卻一直沒能發展開來。 尤其是它一直僅支持Linux系統,硬體支持也盡顯Radeon Pro專業卡、Radeon Instinct加速計算卡,讓很多開發者和用戶望而卻步。 如今,AMD ROCm終於來到了Windows平台,也開始加入對遊戲顯卡的支持,但是在Windows下首批支持型號非常有限,只有專業級的Radeon Pro W6800,以及遊戲級的RX 6900 XT、RX 6600,都來自於RDNA2架構家族,暫時還不支持Instinct加速卡。 軟體支持層面也不完整,RX 6900 XT僅限於HIP SDK開發包,RX 6600則僅支持HIP Runtime運行時。 然後還有一個特殊的R9 Fury值得一提,八年前的老卡,軟體層面完整支持ROCm,但是在Linux下僅限社區級別支持,沒有官方服務,Windows下則完全不支持。 事實上,ROCm如今在Linux下支持的產品也不算多,加速卡有MI250X、MI250、MI210、MI100、MI50,專業卡有Radeon Pro W6800、V620。 無論如何,AMD終於邁出了早就該邁出的一步,真心希望能繼續大力投入做好,不讓CUDA過於獨美。 來源:快科技

NVIDIA獨家絕技 CUDA正在被趕下神壇?

在過去十年中,機器學習軟體開發的格局發生了重大變化。許多框架來來去去,但大多數都嚴重依賴於利用 Nvidia 的 CUDA,並且在 Nvidia GPU 上表現最佳。 然而,隨著 PyTorch 2.0 和 OpenAI 的 Triton 的到來,英偉達在該領域主要依靠其軟體護城河的主導地位正在被打破。 筆者認為,機器學習模型的默認軟體堆棧將不再是 Nvidia 的閉源 CUDA。球在 Nvidia 的球場上,他們讓 OpenAI 和 Meta 控制了軟體堆棧。 由於 Nvidia...

AMD正式發布GPUFORT:將CUDA應用轉換

英偉達在高性能計算領域的主導地位很大程度上依賴基於CUDA的解決方案,為此AMD通過一個名為GPUFORT的項目提供了代碼。據itsfoss介紹,該項目屬於Radeon Open eCosystem(ROCm),以幫助大型CUDA代碼庫可以在英偉達生態系統之外工作。 英偉達的解決方案極大地限制了開發人員尋找替代方案,影響遷移工作,AMD很長時間內一直在努力,幫助開發人員將盡可能多的CUDA特定代碼遷移到Radeon開源計算堆棧支持的接口。AMD在此前的項目里同時使用了C和C++代碼,GPUFORT不同之處在於將基於基於OpenACC的CUDA Fortran和Fortan代碼轉換為OpenMP 4.5+,以便在GPU或Fortran + HIP C++ 代碼上執行。 據介紹,GPUFORT不是編譯器本身,而是執行源到源轉換的Python代碼庫。同時GPUFORT不是一個完整的自動化解決方案,需要審查和手動更正基於CUDA的編碼生成的內容。在當前狀態下,僅用於將高性能計算(HPC)應用程式轉換為AMD ROCm生態系統支持的兼容代碼格式。AMD的工程師承認,目前還在分析代碼的構成,以提高編譯的准確性,暫時沒有實現完整的OpenACC標準。 AMD在GitHub上發布了GPUFORT,顯示了代碼示例及其處理方式,以及用戶安裝指南。 ...

Razer發布Barracuda X遊戲耳機 支持四平台快速切換

Razer 今日宣布推出 Barracuda X 遊戲耳機,特點是能夠在 PC 與移動設備之間進行無縫切換。除了 Android 智能機,它還兼容任天堂 Switch 和索尼 PS5 主機。通過隨附的 HyperSpeed 無線 USB-C 適配器,用戶將能夠在上述四個平台之間自在遊走。 有趣的是,Barracuda X 似乎並不依賴藍牙無線連接。當無法在主機上插入 USB-C 無線適配器時(比如放在了底座上),RAZER 還為它提供了傳統 3.5...

微星推出具有3584個CUDA核心的CMP 50HX MINER礦卡

板卡大廠微星剛剛推出了採用英偉達 CMP 50HX 加密貨幣挖礦專用 GPU 的礦卡,並將之簡單命名為 MSI CMP 50HX MINER 。作為 CMP 產品線中的第三位成員,其特點是擁有 3584 個 CUDA 核心。與 CMP 30HX 和 CMP 40HX 相比,CMP 50HX...

英特爾核顯利用插件可實現CUDA加速,現任CEO曾嘲笑CUDA無足輕重

在英特爾的GPU上實現英偉達的CUDA加速,聽起來有點不靠譜,不過這確實是真的。 GPU可以完成的不僅僅是3D圖形渲染工作,這也是英偉達在數據中心領域賺取數十億美元的方式。一直以來,CUDA以及其API是英偉達GPU的專屬。現在已經有工具將CUDA應用移植到OpenCL等環境中使用,但即便是HIPCL這樣的半自動化工具,也需要手動干預。 據HotHardware報導,最近一款名為ZLUDA的新工具誕生了,可直接在英特爾第6代酷睿(Skylake)系列處理器及以上的核顯使用CUDA加速,而且不需要任何修改,並同時支持Windows和Linux系統。根據開發者的說法,ZLUDA應該可以達到接近原生的性能,不過功能是有限的,目前可以真正運行的只有Geekbench,並提醒用戶暫時不要依賴ZLUDA來開發任何生產力軟體。 在Linux系統上,ZLUDA的開發者已經使用英特爾酷睿i5-8700K處理器通過了GeekBench 5.2.3的基準測試,其UHD 630核顯開啟CUDA加速後的成績為6333分,總成績雖然比原生OpenCL的6482分差一些,但在個別單項測試中可以看到幫助是非常大的,大約有52%左右幅度的提升。 ZLUDA現在還處於早期版本,還有很長的路要走,不過會是一個有趣的項目。英特爾的DG1獨立顯卡已經開始提供給OEM廠商,性能更加強大的DG2獨立顯卡也即將到來。相比於集顯的性能,未來英特爾的獨立顯卡市場才是ZLUDA大展拳腳的地方。 有趣的是,英特爾現任CEO帕特-基爾辛格(Pat Gelsinger)曾在2008年7月份,也就是還沒離開英特爾之前,擔任英特爾高級副總裁期間,接受媒體采訪的時候表示,英偉達的CUDA只是計算歷史長河中是無足輕重的一項技術,最多掀起一朵小浪花罷了。 ...
Intel核顯能開啟NVIDIA CUDA加速了跑分高了52%

Intel核顯能開啟NVIDIA CUDA加速了跑分高了52%

NVIDIA CUDA鼎鼎大名,不過,從一開始,該技術就為N卡獨享。 盡管已經有一些工具能讓CUDA為OpenCL環境所用,但即便先進如HIPCL也還是一款半自動化工具,需要開發者手動干預。 好消息是,名為ZLUDA的新工具誕生了,簡單來說可依然配置Intel核顯(6代酷睿Skylake及以上)的系統使用上CUDA加速。 盡管號稱效率和本地化幾乎無異,但似乎僅被較好地用在Geekbench上。官方基於Linux的測試顯示,UHD 630核顯(Core i5-8700K)開啟CUDA後跑分能到6333,雖然分數比原生OpenCL的6482低,但部分測試子項中,CUDA加速還是起到了不小的buff加成作用,幅度最高有52%。 遺憾的是,有媒體嘗試從GitHub頁面下載ZLUDA後,在Tiger Lake筆記本上操作,Geekbench 5報錯了…… 作者:萬南來源:快科技

想用Intel核顯運行CUDA程序?這個叫ZLUDA的項目可能會幫到你

現在Intel的處理器大部分都會整合核顯,在台式機上這傢伙大多數時間都被關閉了,即使把它打開你也會發現他長期處於閒置狀態,那麼有沒有人挖掘一下它的利用價值呢?還真有,現在github上有一個叫ZLUDA的項目,它的目的就是用Intel的GPU運行CUDA程序,而且目標是無需對程序進行任何修改就能運行。 該項目基於Intel的oneAPI零級規范,這是一個個人項目,與Intel和NVIDIA沒有直接關系。項目的創建者聲稱它可以提供近乎原生的性能,讓Intel的GPU在沒有性能損失的情況下運行CUDA程序。當然目前該項目只是出於起步狀態,缺乏對CUDA的全面支持,實際上作者只展示了用Core i7-8700K上的UHD Graphics 630使用ZLUDA和OpenCL運行GeekBench 5的情況,ZLUDA讓GeekBench認為UHD 630是一個慢速的NVIDIA GPU,從而走了CUDA API來運算,上面就是ZLUDA和OpenCL的運行結果,6個項目里面有4個是比OpenCL更快,整體來說快了10%。 目前ZLUDA支持Intel的Gen 9以及更新版本的核顯,但目前測試是基於Gen 9核顯的,不知道它在Ice Lake上的Gen 11與Tiger Lake上的Xe有怎麼樣的表現。至於AMD的GPU,目前是不支持的,但技術上是可行的,以後可能會支持。 其實Intel有自己的DPC++,AMD也有HIP,但這兩個都需程式設計師在開發時就套用特定的API工具,而ZLUDA不需要任何額外的工作就能讓CUDA的程序在Intel GPU上運行,當然如果想運行效率高就需要GPU支持對應的硬體指令,沒有的也就會改用軟體進行運算,這對性能會有明顯影響,上面GeekBench 5那兩個跑得比OpenCL慢的項目就很能說明問題。 當然這個ZLUDA項目會威脅到NVIDIA的CUDA生態系統,估計NVIDIA對它會不太滿意,但其他人應該會很樂意看到它的誕生。 ...
OpenCL 3.0最終版規范發布 老牌圖形API開倒車式自救

OpenCL 3.0最終版規范發布 老牌圖形API開倒車式自救

日前,行業組織Khronos發布了,從而將4月份的臨時規范轉正。作為老牌的GPU並行計算標準,它希望藉此煥發第二春,但能行嗎? OpenCL最早由蘋果開發,後經NVIDIA、AMD等完善並提交給Khronos轉為跨平台的開放標準。最新的3.0在某種程度上開了倒車,其核心API其實是2011年OpenCL 1.2的一個分支。 OpenCL 2.x的諸多開發功能在3.0上變成了可選,再次呼應其失敗。實際上,2017年的OpenCL 2.2迄今為止都沒有人使用,包括但不限於Intel、NVIDIA和AMD,尷尬不? 簡單來說,OpenCL 3.0增加了對異步DMA傳輸執行的支持,也支持了SPIR-V 1.3。為了鼓勵開發者升級,無論是從1.2還是從2.x版本升級,都幾乎不需要做代碼變動。 Khronos對於OpenCL仍舊寄予厚望,並提出了整合Vulkan、支持SPIR-V 1.4、1.5以及發布OpenCL Next的想法,盡管這看起來仍舊很零碎。 就目前而言,蘋果macOS 10.14棄用了OpenCL,力推自家Metal API。NVIDIA有更加成熟和對開發者友好的CUDA API,AMD僅支持OpenCL 1.2,且驅動一團糟,現在OpenCL唯一的大靠山似乎就是Intel了。 - THE END - 轉載請註明出處:快科技 #NVIDIA#OpenCL#顯卡#CUDA 責任主編:萬南作者:萬南來源:快科技
NVIDIA正式發布CUDA 11工具包 專為安培架構優化

NVIDIA正式發布CUDA 11工具包 專為安培架構優化

作為GPU加速應用領域最強大的軟件開發平台,NVIDIA近日了發布全新的CUDA 11版本工具包,特別為新誕生的安培架構進行了優化。 CUDA 11完全支持在安培新架構上進行開發,包括A100 GPU,以及基於它的DGX A100、HGX A100等多路系統,並支持安培架構的第三代Tensor張量核心,可針對不同數據類型加速混合精度矩陣計算,比如TF32、Bfloat16。 其他新技能: - 多實例GPU虛擬化和GPU分區,提升GPU利用率 - 優化庫性能,包括線性代數、快速傅里葉變換(FFT)、矩陣乘法、JPEG解碼等等 - 改進編程與API,包括任務圖表、異步數據轉移、精細同步、二級緩存駐留管理等等 - 增強Nsight開發工具集,包括跟蹤、編譯、調試分析 - 完整支持各種主要CPU架構,包括x86、ARM64、Power - CUDA C++改進編譯器性能和穩定性、支持新的主編譯器和語言標準(包括C++17)、支持Parallel C++ STL - 更新操作系統支持 更詳細介紹請參閱: https://devblogs.nvidia.com/cuda-11-features-revealed/ 作者:上方文Q來源:快科技
NVIDIA、蘋果徹底決裂 CUDA不再支持macOS

NVIDIA、蘋果徹底決裂 CUDA不再支持macOS

NVIDIA和蘋果的關系一直很糟糕,十幾年沒有過合作,現在雙方的最後一絲關系也破裂了。 NVIDIA今天公布了CUDA並行計算開發平台的更新規劃說明,其中特別提到,CUDA 10.2(包括工具包和驅動)將是最後一個支持蘋果macOS系統開發、運行CUDA程序的版本,未來CUDA將與蘋果平台無關。 十多年前,一批採用NVIDIA GPU顯卡的蘋果MacBook Pro筆記本出現瑕疵,雙方為此向客戶賠償了一大筆錢,並且鬧得非常不愉快,從此蘋果無論筆記本還是台式機,一律只用AMD顯卡。 即便是NVIDIA顯卡更流行,性能更好,技術更先進,蘋果也從未考慮過,比如現在NVIDIA已經支持硬件加速光線追蹤,AMD還得等一段時間,蘋果也絕不動搖。 當然,AMD也是竭力服務蘋果,提供各種定製產品,比如最新的RX 5500M移動顯卡就是由蘋果16英寸MacBook Pro首發的。 其實,蘋果在去年的macOS 10.14 Mojave版本中就悄然停止了對於NVIDIA CUDA的支持,迫使Adobe創意套裝等支持CUDA硬件加速的軟件不得不提醒用戶,不要再開啟此功能。 既然蘋果已經絕情,NVIDIA也沒必要繼續維持,終止CUDA對於蘋果的支持也在意料之中。 文章糾錯 作者:上方文Q來源:快科技
NVIDIA宣布CUDA Toolkit 10.2將會是最後一個支持macOS的版本

NVIDIA宣布CUDA Toolkit 10.2將會是最後一個支持macOS的版本

蘋果的Mac系列遠離NVIDIA的顯卡已經快有5年時間了,我們最後一次看到搭載GeForce顯卡的iMac和MacBook Pro,都已經是2013年末到2014年中的事情了,而後蘋果就去用AMD的顯卡產品了。不過NVIDIA仍然一直在給macOS提供著顯卡驅動和CUDA 工具集,雖然蘋果官方不用,但是自己搞個外接N卡用CUDA計算點東西的用戶還是挺多的。不過NVIDIA官方在最近一次CUDA工具集的更新日誌中指出,CUDA Toolkit 10.2將會是macOS上面最後一版CUDA工具集。 CUDA Toolkit包含了針對CUDA的編譯器、開發環境以及各類運行庫,其實它就是CUDA的SDK(軟體開發工具集),如果想要將自己的非圖形計算程序搬上顯卡去跑,那麼這套工具集是必須的。而它一直以來都是跨平台的,你在Windows、Linux以及macOS上都可以使用它。NVIDIA與蘋果之間的關系裂痕越拉越大了,在去年的macOS Mojave更新中,NVIDIA就遭遇了蘋果「故意」拖延其新驅動的簽名,導致用戶無法在新版本macOS上面正常安裝NVIDIA官方顯卡驅動的事件,所以這次僅針對macOS停止發布這套工具集可能說明NVIDIA與蘋果之間徹底撕破臉皮。 沒有了新的CUDA Toolkit,意味著macOS開發者將不能夠在macOS上面使用未來的CUDA新特性,這兩年的機器學習熱潮讓不少開發者都使用N卡搭建起了自己的機器學習硬體平台,可能未來這些開發者為了CUDA的新特性而不得不放棄界面友好的macOS而轉投Windows或Linux了。 需要注意的是,本次停止更新的軟體只是CUDA Toolkit這套開發工具集,而不是針對macOS的CUDA驅動,對於後者是否會停止更新,NVIDIA暫時還沒有給出官方態度。 ...