Home Tags 算力

Tag: 算力

黃仁勛焦慮 被英偉達列為對手實力 華為:為全球提供第二個算力選擇

快科技3月16日消息,英偉達首次將中國科技巨頭華為列為競爭對手,在很多人看來兩家公司似乎相隔有點遠,但在AI時代卻開始相互競爭起來了。 在這之前,黃仁勛接受采訪是表示,華為是一家好公司,技術實力非常過硬,願意為他們點贊。 英偉達稱華為在五個領域中的四個領域是其當前的競爭對手,包括AI相關圖形處理器、擁有內部團隊設計AI相關晶片的大型雲服務公司、基於Arm的中央處理器和網絡產品。 事實上也確實如此,華為董事、ICT產品與解決方案總裁楊超斌指出,華為的目標就是為全世界提供第二個算力選擇。 在華為看來,到2028年預計ARM伺服器中國占比將超80%、全球占比將超50%。 同時,截至2023年底,開源歐拉openEuler已占中國伺服器作業系統36.8%的市場份額,成為全國第一,預計今年將保持飛速增長的態勢,中國市場占有率將超50%。 來源:快科技
破千億聯想收入、利潤創紀錄 PC穩居全球第一

十二連冠 聯想169套超級計算機殺入TOP500榜單 獨占超1/3

快科技11月22日消息,近日,最新全球超級計算機(HPC)TOP500榜單揭曉,聯想以169套的成績,第12次問鼎HPC TOP500榜單份額榜首。 據了解,HPC TOP500榜單用於衡量全球高性能計算機的算力性能,於每年6月和11月發布。 在本次發布的HPC TOP500榜單中,聯想共計入圍169套科學計算集群,以33.8%的占有率連續12次摘得榜單份額的榜首。 不僅如此,聯想的科學計算集群分布在全球19個國家和地區,並在其中11個市場占有率位居首位。 聯想共有58套在中國部署打造的科學計算集群入圍本次HPC TOP500榜單。 超級計算,又稱高性能計算 ( HPC ) ,指利用並行工作的多台計算機系統 ( 即“超級計算機”) 的集中式計算資源。 超算能力是衡量一個國家或地區科技核心競爭力和綜合國力的重要標志。 超級計算機可不是攢機“攢”出來的,數十萬計的CPU和GPGPU(通用計算圖形處理器)需要低延遲數據互通,如何分發與存儲數據,怎樣為系統散熱與節能都是大課題。 聯想自主研發的海神溫水水冷技術可將PUE值降低至1.1,散熱效率可高達98%。此外,聯想液冷技術還覆蓋了風液冷混合、全液冷、整機櫃液冷、單相浸沒式液冷主流液冷技術。 來源:快科技

突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡

快科技9月22日消息,在華為全聯接大會2023期間,華為正式發布全新架構的昇騰AI計算集群——Atlas 900 SuperCluster,可支持超萬億參數的大模型訓練。 華為常務董事、ICT基礎設施業務管理委員會主任、企業BG總裁汪濤介紹,新集群採用全新的華為星河AI智算交換機CloudEngine XH16800,藉助其高密的800GE埠能力,兩層交換網絡即可實現2250節點(等效於18000張卡)超大規模無收斂集群組網。 新集群同時使用了創新的超節點架構,大大提升了大模型訓練能力。 此外,發揮華為在計算、網絡、存儲、能源等領域的綜合優勢,從器件級、節點級、集群級和業務級全面提升系統可靠性,將大模型訓練穩定性從天級提升到月級。 為了加速大模型創新,華為發布了更開放、更易用的CANN7.0,不僅全面兼容業界的AI框架、加速庫和主流大模型,還深度開放底層能力,讓AI框架和加速庫可以更直接地調用和管理計算資源,使能開發者自定義高性能算子。 汪濤表示,隨著人工智慧進入大模型時代,大算力正在成為人工智慧發展的核心引擎。華為改變傳統的伺服器堆疊模式,以系統架構創新打造AI集群,實現算力、運力、存力的一體化設計,突破大算力瓶頸。 來源:快科技

李彥宏內部演講:算力可以買來,創新能力買不來

大語言模型,正在掀起一場新的工業革命。 被譽為「深度學習教父」的 Geoffrey Hinton 雖然開始警告 AI 的風險,但也認為它在規模上與工業革命、電力、甚至是輪子的發明相當。 一場全球的 AI 競爭已經開啟,在中國做大模型最值得期待的還是大廠們,他們有著龐大且必要的算力和數據資源,不過最為關鍵的還是「創新力」。 今天百度創始人、董事長兼執行長李彥宏在內部進行了一次演講,他表示「算力不能保證我們能夠在通用人工智慧技術上領先,算力是可以買來的,創新的能力是買不來的,是需要自建的。」 他號召員工培養 AI 原生應用思維方式,用新理念重構現有的每一個產品和業務。相信在你看完後會對百度在 AI 時代的創新會有更深的理解。 以下是演講全文: 各位百度同學, 在這樣一個特殊的日子,見到大家非常的開心,首先我要祝賀我們獲獎團隊的每一位同學,你們是百度的驕傲,也是我的驕傲!還要感謝今天到場的百度家屬,感謝你們在背後的默默奉獻和支持! 6 年前的今天,也是在這里,我們正式發布了百度的新使命,用科技讓復雜的世界更簡單,正式吹響了百度向人工智慧公司轉型的號角。但我要說的是,我們對於創新的執著是一貫的,我們對於技術的投入是長期的,是從來沒有動搖過的。 10 年前,也就是 2013 年,我們意識到,人工智慧技術的發展,會讓無人駕駛有一天可以實現,從此我們開始了對自動駕駛技術的十年如一日的壓強投入。今天,蘿卜快跑單量已經遠超 200 萬單,是世界最大的無人駕駛運營商。也是在那一年,我們參與了 Geoffrey Hinton 和他的兩位博士生 Alex 和 Ilya...

算力提升 N卡畫的小姐姐們越發逼真:想把AI女友帶回家

隨著GPT的爆火,每個企業、組織、個人都看到了利用Ai來提升生產效率的可能,這其中,以Ai繪畫為代表正在快速席捲著設計、繪畫、動漫行業,個人用戶也可以通過stablediffusion等引擎來訓練自己的Ai人物形象或者設計物品。 而stablediffusion依賴的正是本地顯卡算力,所以如果想要擁有快速、精準的Ai圖像生成,一張算力強勁的顯卡是必不可少的。 最近,RTX4070發布,早就聽聞RTX40系在Ai算力上的提升,所以問DIY大佬借了20繫到40系的主流顯卡,來讓它們華山論劍,看看誰在Ai繪畫上的能力更強。 Ai作品 首先介紹一下出戰的選手們,老當益壯組的20系顯卡:RTX2070、RTX2070S、RTX2080。正值壯年的30系顯卡:RTX3050、RTX306012GB、RTX3060Ti、RTX3070、RTX3070Ti、RTX3080、RTX3080Ti、RTX3090Ti。 青春無限的40系顯卡:RTX4070、RTX4070Ti、RTX4080、RTX4090。 賽前首先是選手們的身份信息大公布: 對於本次的Ai繪畫能力對決,區別選手們的主要點是顯卡的架構、CUDA核心數量、顯存與Tensor核心。 其中Tensor核心是NVIDIA部分顯卡中專門用於加速深度學習任務的處理單元。Tensor核心針對深度學習中的矩陣運算進行了優化,能夠顯著提高神經網絡模型的訓練和推理速度。在後續的對比中,我們也能看出Tensor核心的代數與核心數與成績的關系。 第一代Tensor核心首次出現在Volta架構顯卡中,針對混合精度矩陣乘法進行優化。第二代Tensor核心引入Turing架構顯卡,增加了對INT8和INT4整數精度的支持,並引入了RT核心用於實時光線追蹤計算。 第三代Tensor核心出現在Ampere架構顯卡,提高了FP16混合精度矩陣乘法的FLOPs,並支持稀疏性計算。 而第四代Tensor核心隨著RTX40系的發布而更新,在全新的NVIDIAAda架構中,通過引入DLSS技術和OpticalFlowAccelerator等新技術,為Ai提供了顯著的性能提升。並通過TensorCores加速器(專門用於深度學習任務的硬體加速器)大幅提高深度學習模型訓練和推理性能,並且支持FP16、BF16和TF32精度。 此外,AdaGPU架構還支持CUDA-XAI軟體庫,這是一套用於加速AI應用的軟體工具包。CUDA-XAI包括TensorRT、cuDNN、cuBLAS等組件,可以提高深度學習推理性能和訓練速度。 好的,簡單介紹完參戰選手們的基本信息,就來到本次比賽的第一關,基礎性能參數對比,將由“AIDA64GPGPU”考官出題,考察選手們的綜合實力。想看Ai美女的觀眾先別急,先放出一張美女墊胃口。 stablediffusionAi繪畫;來自RTX2080顯卡,1024*1024解析度,單張耗時:1.14分鍾 第一道題是Single-Precision,這個測試項目評估顯卡在單精度浮點數運算(32位浮點數)上的性能,單精度浮點數通常用於表示小數,以GFLOPS為單位,其表示每秒千億次浮點運算。 第二道題是Double-Precision,評估顯卡處理另一種稱為"雙精度浮點數"的數據時的計算能力。雙精度浮點數比單精度浮點數更精確,常用於科學計算等要求高精度的場景。以GFLOPS為單位,其表示每秒千億次浮點運算。 第三道題是24-BitInteger,這個測試項目評估顯卡在24位整數運算上的性能。整數是沒有小數部分的數字,如1、2、3等。以GFLOPS為單位,其表示每秒千億次浮點運算。IOPS表示每秒整數運算次數,GIOPS表示每秒千億次整數運算(GigaIOPS),以GIOPS為單位。 第四道題和第五道題分別是32-BitInteger、64-BitInteger,聰明的大家都知道這是跟上面24-BitInteger是一組組合題,考察顯卡32位整數運算、64位整數運算能力。 第六題是AES-256計算能力,評估顯卡處理一種名為AES-256的加密任務時的性能。加密是為了保護數據安全而對數據進行編碼的過程。 第七題是SHA-1Hash編碼能力,這個可能很多玩家都比較熟悉,這就是挖礦佬喜歡的哈希算力,哈希算法是一種將數據轉換成固定長度的唯一字符串的過程,通常用於校驗數據完整性和安全應用,常用於區塊鏈應用中。 第八題是Single-Precisionjulia,這個測試項目評估顯卡在渲染單精度Julia分形圖像時的性能。Julia分形是一種復雜數學對象,需要大量計算資源進行渲染。測試結果以FPS表示。 最後一題便是Double-PrecisionMandel;雙精度Mandelbrot分形渲染,評估顯卡渲染一種名為Mandelbrot分形的復雜數學圖形時的性能。類似於Julia分形渲染,但使用更高精度的數據進行計算。 對於AIDA64GPGPU的測試,我們可以看出,除了頂級的RTX4090外,剩下顯卡之間都存在著明顯的遞進關系,等級森嚴,與售價與定位嚴格掛鉤,此外,數據測試僅能作為Ai制圖的一個參考項目,旨在對比不同顯卡之間的數據。 參戰選手的首發價格對比 接下來就進入正式的Ai繪畫環節,首先是畫NVIDIA官方指定的小房子,看看效果。畫圖的參數是:使用v2-1768-emapruned模型;768*768的尺寸;Steps:50;CFGscale:7.5,共畫10組,每組2張。 Ai作品 Ai作品 從測試結果來看,各位參戰選手的Ai繪畫表現與他們在AIDA64GPGPU中的各項考試表現類似,柱狀圖的分布幾乎一致,其中低於5張/min的選手有RTX2070、RTX3050、RTX3060,雖然RTX3060配有12GB的大顯存,但在Ai畫圖所需要的高算力面前還是只能甘拜下風,112核心的第三代Tensor沒能讓它在Ai畫圖中繼續“甜品”下去。 而超過了優秀水平10張/min的選手就比較多了,RTX3080Ti、RTX3090Ti、RTX4070Ti、RTX4080、RTX4090,以及兩個9張/min的差點成為優秀水平的RTX3080和RTX4070,這兩位選手的用時幾乎一致,但RTX4070隻搭載了184核心的第四代Tensor,而RTX3080則是使用了272核心的第三代Tensor,這33%的核心數差距,就是通過技術疊代來彌補的。 接下來看一下選手們在畫NVIDIA小屋時的顯存占用情況,為了方便比賽公平起見,我們按照顯存容量進行了分組: 8GB顯存組 12GB顯存組 其他顯存組 整體表現情況 通過圖表與數據情況可知,在畫NVIDIA小屋的時候,面對768*768解析度的Ai畫圖情況,顯卡的顯存普遍占用都在8GB左右,如果只是搭載了8GB顯存的顯卡,就會有跑滿的風險,從而拖累運算速度。 接下來就是大家期待的畫Ai小姐姐,在畫小姐姐的選擇上,我們使用了chilloutmixNiPrunedFp32Fix模型,匹配3個不同的LORA人體素材庫,調整了各素材的比重,最終繪制出獨一無二的小姐姐,單幅尺寸為1024*1024,一組5張。 首先來欣賞一下小姐姐的美貌: stablediffusionAi繪畫 stablediffusionAi繪畫 stablediffusionAi繪畫 stablediffusionAi繪畫 stablediffusionAi繪畫 具體的Prompt以及模型配置如圖,喜歡的大家可以直接Copy,把小姐姐帶回家 由於畫小姐姐的模型和配置以及尺寸較大,對各位選手也造成了巨大的考驗,就連算力最為強勁的RTX4090,也只保持不到3張每分鍾的成績,可見對於畫高清人像來說,遊戲顯卡還是有著較高的壓力,來看一下各位選手們的成績吧。 面對巨大的算力挑戰,各位參賽選手出現了明顯的性能吃緊,不少選手們的繪畫時間只能保持在一分鍾一張左右,而特別出色的旗艦選手們才能碰到2張每分鍾的門檻。甚至還有的選手(RTX3050)只能維持2分鍾畫一張的水平。 在畫NVIDIA小屋時旗鼓相當的RTX3080和RTX4070終於在這輪拉開了差距,RTX3080以近20%的實力差距絕殺了RTX4070,也以10%的優勢超過了RTX4070Ti,穩住了80顯卡的尊嚴與威望。 而在顯存占用上,NVIDIA小屋比賽時還有能漏網之魚的8GB顯存組,在本輪測試中,無一例外,全部顯存跑滿,集體出現顯存不足的情況。 在12GB顯存組選手中,雖然沒有跑滿顯存,但是在RTX40系顯卡中也出現了顯存吃緊的情況,RTX40系兩兄弟顯存都被Ai吃掉了95%左右。 與RTX3090Ti同樣使用24GB顯存的RTX4090,在Ai畫圖時就比前者多占用了17%左右的顯存空間,讓Ai引擎吃到了17GB左右的顯存空間,配合一騎絕塵的512核心第四代Tensor核心,無疑問鼎了本次Ai繪畫算力對比之巔。 整體表現情況 顯卡Ai繪圖最大功耗一覽 顯卡能耗比情況一覽 總結: 顯卡與AI繪畫的關系就像是畫家的手與畫筆之間的緊密配合,在這個關系中,顯卡是高效處理大量並行計算任務的關鍵硬體,而AI繪畫則是依賴顯卡強大計算能力實現的一種先進的藝術形式。 AI繪畫技術通常採用生成對抗網絡(GANs)或變分自編碼器(VAEs)等深度學習模型來生成具有特定風格或特徵的圖像。而顯卡也已經從單純的圖像處理器,逐漸演變成了復雜的計算平台。二者相輔相成,相互促進Ai生成、深度學習、顯卡領域的不斷發展,成為硬體市場上為數不多仍然煥發活力的領域。 在本期的【AI時刻】中,我們對15款NVIDIA顯卡的stablediffusionAI繪畫能力進行了深入評測。從測試結果中,我們明顯看到顯卡在AI和深度學習算力上的持續進步。 尤其是在RTX40系列顯卡中,得益於全新的架構和更加先進的Tensor核心技術,使得RTX4070不僅能與前代RTX3080在AI算力上一較高下,同時在保持中上游AI性能的情況下,功耗更加優越。 因此,如果你對AI計算(如畫AI小姐姐)感興趣,並希望擁有一款性能與功耗兼顧的顯卡,那麼RTX4070無疑是一個理想的選擇。 而如果你打算通過遊戲顯卡(由於各種原因,NVIDIAA100/H100難以購買)來搭建一個小型AI伺服器,那麼選擇多張RTX4090則毫無疑問是最佳方案。無論是從性能、功耗還是擴展性的角度,RTX40系列顯卡為遊戲玩家、AI領域的開發者提供了更多可能性,展示了顯卡技術在未來的發展潛力。 來源:快科技

現實超越科幻 《終結者》天網的算力等於0.6張RTX 4090顯卡

天網是電影《終結者》里一個人類於20世紀後期創造的以計算機為基礎的人工智慧防禦系統。 其最初是研究用於軍事的發展,後自我意識覺醒,視全人類為威脅,以誘發核彈攻擊為起步發動了將整個人類置於滅絕邊緣的審判日。 電影劇情中,公元2029年,經過核毀滅的地球已由電腦“天網”統治,人類幾乎被消滅殆盡。一個叫約翰·康納的軍事領袖召集倖存者一起對抗天網,組建了反抗軍組織。 電影當中顯示,天網的算力是60Tflop/,也就是每秒60萬億次浮點運算。而英偉達最新發布的RTX 4090在3.15 GHz頻率下算力可以達到100Tflop。 網友調侃:看起來無所不能的天網,算力只相當於0.6張RTX 4090顯卡。 不過要知道,《終結者》電影上映時間是1984年,而世界上第一塊顯卡發明於1981年,還是8位ISA顯卡。 如今38年過去了,以摩爾定律(性能每兩年翻一倍)來說,已經實現了2的19次方提升。 也就是說,把天網算力設定成60Tflop/,在當時來看,絕對是天文數字了。 來源:快科技

一圖看懂Intel算力進化論:50多年不斷突破摩爾定律

今天,Intel中國分享了算力進化論。 從1965年提出摩爾定律、到1966年第一塊集成電路,到首款32位微處理器誕生,一直到今天的英特爾Evo平台第三代規范。過去50多年的計算機進化史和摩爾定律突破,Intel功不可沒。 1966年,基爾比和英特爾創始人諾伊斯共同發明了“第一塊集成電路”,他被稱為矽谷之父。 1969年,英特爾工程師霍夫發明了“第一代微處理器”,被英國《經濟學家》雜誌稱為“第二次世界大戰以來最有影響的科學家之一。” 1971年,英特爾推出4004處理器,標志著第一代微處理器問世,從此開啟了微處理和微機時代。 1993年,無人不曉的英特爾奔騰( Pentium )處理器問世,能夠讓電腦更加輕松地整合“真實世界"中的數據(如講話、聲音、筆跡和圖片)。 2003年,一款專為筆記本電腦打造的節能高效處理器——奔騰M微處理器面市,更以其為核心的英特爾迅馳計算平台,將筆記本引入無線時代。 2006年,英特爾推出全新的酷睿品牌,其特點是在性能提升40%的同時,能耗降低40%。該系列產品標志著在追求CPU高性能的同時,降低功耗也成為英特爾創新的重點之一,並開啟了PC的多核時代。 2020年,英特爾Evo品牌正式推出。它重新定義了高性能輕薄筆記本電腦的行業新標準,為輕薄筆記本市場樹立了嚴苛的行業標杆,推動著PC產業整體的進化與變革。 來源:快科技