共耀光芒: Google Gemma 優化後可在NVIDIA GPU上運行

藉助TensorRT-LLM,Google全新開放語言模型可在NVIDIAAI平台(包括本地RTXAIPC)上加速運行

2024年2月21日,NVIDIA攜手Google在所有NVIDIAAI平台上發布面向Gemma的優化功能,Gemma是Google最先進的新型輕量級2B和7B開放語言模型,可在任何地方運行,從而降低成本並加快特定領域用戶案例的創新工作。

NVIDIA 和 Google的團隊緊密合作,利用NVIDIATensorRT-LLM(用於優化大語言模型推理性能的開源庫),在數據中心的NVIDIAGPU、雲計算和搭載NVIDIARTXGPU的PC上運行時,加速Gemma性能(Gemma由創建Gemini模型的相同研究和技術構建)。

這使開發者能將全球高性能AIPC中超過1億台搭載NVIDIA RTX GPU的用戶作為潛在用戶進行開發。

開發者還可在搭載 NVIDIAGPU 的雲端運行Gemma,該實例擁有141GBHBM3e顯存,速度為4.8TB/秒,Google將於今年部署該實例。

此外,企業級開發者還可利用NVIDIA豐富的工具生態系統(包括依託NeMo框架的NVIDIAAIEnterprise和TensorRT-LLM),對Gemma進行微調,並將優化後的模型部署到生產應用中。

詳細了解有關TensorRT-LLM如何加快Gemma推理速度的更多信息,以及面向開發者的其他信息:包括Gemma的多個模型文件和模型的FP8量化版本,以上這些都使用TensorRT-LLM進行優化。

您可在NVIDIAAIPlayground上直接通過瀏覽器體驗Gemma2B和Gemma7B。

Gemma即將上線ChatwithRTX

NVIDIAChatwithRTX 技術演示版也即將支持Gemma,該Demo使用檢索增強生成(RAG)和TensorRT-LLM軟體,為用戶提供在本地Windows RTXPC上的生成式AI功能。

共耀光芒: Google Gemma 優化後可在NVIDIA GPU上運行

視頻連結:https://www.bilibili.com/video/BV1Ky421z7PT/

藉助ChatwithRTX,用戶可將PC上的本地文件輕松連接到大語言模型,利用自己的數據打造個性化聊天機器人。

由於模型在本地運行,因此可快速生成結果,而用戶數據則保留在本地設備上。與依賴基於雲的LLM服務不同,ChatwithRTX可讓用戶在本地PC上處理敏感數據,而無需與第三方共享這些數據或連接網際網路。

來源:快科技