輝達(NVIDIA)19日宣布與Meta合作,針對旗下最新開源的大型語言模型Llama 3進行了全面優化,使其能夠在NVIDIA GPU上高效運行推理任務。無論是雲端服務、數據中心、邊緣設備還是個人電腦,Llama 3現在都可以充分發揮NVIDIA硬體的加速能力。

作為下一代開創性的大型語言模型,Llama 3具有超過700億個參數,具備出色的自然語言理解和生成能力。Meta的工程團隊利用NVIDIA的AI超級電腦集群,搭載了2.4萬顆H100 Tensor Core GPU,進行了Llama 3的訓練工作。在NVIDIA的支援下,Meta針對網絡、軟件和模型架構做了專門的調整。

Llama 3推理版本將借助NVIDIA的GPU加速技術,大幅提升在生產環境中的推理性能和效率。開發者可以直接在ai.nvidia.com的瀏覽器中體驗Llama 3。它被封裝為標準微服務,擁有通用API接口,可輕鬆部署於任何環境。

企業用戶也能夠基於自身數據,使用NVIDIA開源的NeMo框架對Llama 3進行微調,將其應用於實際業務場景。客製化模型還可利用NVIDIA TensorRT-LLM進行推理優化,並通過NVIDIA Triton推理服務器進行部署。

更令人興奮的是,NVIDIA將Llama 3優化部署在業界領先的Jetson邊緣AI平台上,為機器人、物聯網等賦能。同時,Llama 3在NVIDIA的RTX和GeForce GPU上也可實現高效加速,直接讓過億消費級GPU設備受益。

針對實際應用場景,NVIDIA進行了詳細的性能測試。結果顯示,在配備單張H200 GPU的系統上,能夠同時為300位用戶提供基於Llama 3的聊天機器人服務,每秒處理3000個詞元。而在Jetson AGX Orin和Nano邊緣平台上,Llama 3的推理速度也可達到每秒15-40個詞元。

通過與Meta等合作夥伴的緊密協作,NVIDIA正在為開源AI社區注入强勁動力,推動大型語言模型在各行各業的應用落地,塑造AI的未來。

#NVIDIA #Meta #大型語言模型 #Llama3