共耀光芒： Google Gemma 優化後可在NVIDIA GPU上運行

藉助TensorRT-LLM，Google全新開放語言模型可在NVIDIAAI平台(包括本地RTXAIPC)上加速運行

2024年2月21日，NVIDIA攜手Google在所有NVIDIAAI平台上發布面向Gemma的優化功能，Gemma是Google最先進的新型輕量級2B和7B開放語言模型，可在任何地方運行，從而降低成本並加快特定領域用戶案例的創新工作。

NVIDIA 和 Google的團隊緊密合作，利用NVIDIATensorRT-LLM(用於優化大語言模型推理性能的開源庫)，在數據中心的NVIDIAGPU、雲計算和搭載NVIDIARTXGPU的PC上運行時，加速Gemma性能(Gemma由創建Gemini模型的相同研究和技術構建)。

這使開發者能將全球高性能AIPC中超過1億台搭載NVIDIA RTX GPU的用戶作為潛在用戶進行開發。

開發者還可在搭載 NVIDIAGPU 的雲端運行Gemma，該實例擁有141GBHBM3e顯存，速度為4.8TB/秒，Google將於今年部署該實例。

此外，企業級開發者還可利用NVIDIA豐富的工具生態系統(包括依託NeMo框架的NVIDIAAIEnterprise和TensorRT-LLM)，對Gemma進行微調，並將優化後的模型部署到生產應用中。

詳細了解有關TensorRT-LLM如何加快Gemma推理速度的更多信息，以及面向開發者的其他信息：包括Gemma的多個模型文件和模型的FP8量化版本，以上這些都使用TensorRT-LLM進行優化。

您可在NVIDIAAIPlayground上直接通過瀏覽器體驗Gemma2B和Gemma7B。

Gemma即將上線ChatwithRTX

NVIDIAChatwithRTX 技術演示版也即將支持Gemma，該Demo使用檢索增強生成(RAG)和TensorRT-LLM軟體，為用戶提供在本地Windows RTXPC上的生成式AI功能。

視頻連結：https://www.bilibili.com/video/BV1Ky421z7PT/

藉助ChatwithRTX，用戶可將PC上的本地文件輕松連接到大語言模型，利用自己的數據打造個性化聊天機器人。

由於模型在本地運行，因此可快速生成結果，而用戶數據則保留在本地設備上。與依賴基於雲的LLM服務不同，ChatwithRTX可讓用戶在本地PC上處理敏感數據，而無需與第三方共享這些數據或連接網際網路。

來源：快科技