【時報記者張漢綺台北報導】Nvidia將在2024年底前推出新一代平台Blackwell,大型CSP廠也會開始建置Blackwell新平台的AI server資料中心,TrendForce表示,Nvidia Blackwell高耗能驅動散熱需求,預估2024年底液冷方案滲透率可望達10%。
Nvidia將在2024年底前推出新一代平台Blackwell,屆時大型CSP也會開始建置Blackwell新平台的AI server資料中心,TrendForce指出,2025年Nvidia將以HGX、GB200 Rack及MGX等多元組態AI server,分攻CSPs及企業型客戶,預估這3個機種的出貨比例約為5:4:1;HGX平台可較無痛接軌既有Hopper平台設計,CSPs或大型企業客戶能迅速採用;GB200整櫃AI sever方案將以超大型CSPs為主打,預期Nvidia將於2024年底先導入NVL36組態,以求快速進入市場,NVL72因其AI server整體設計及散熱系統較為複雜,預計將於2025年推出。
在Nvidia大力擴展CSPs客群的情況下,TrendForce預估,2025年GB200折算NVL36出貨量可望達6萬櫃,而GB200的Blackwell GPU用量可望達210-220萬顆。
高速運算需求成長,更有效的AI server散熱方案也受到重視,隨著Nvidia Blackwell平台將於2025年正式放量,取代既有的Hopper平台、成為Nvidia高階GPU主力方案,占整體高階產品近83%;在B200和GB200等追求高效能的AI server機種,單顆GPU功耗可達1,000W以上,HGX機種每台裝載8顆GPU,NVL機種每櫃達36顆或72顆GPU,可觀的能耗將促進AI server散熱液冷供應鏈的成長。
TrendForce表示,server晶片的熱設計功耗(Thermal Design Power, TDP)持續提高,如B200晶片的TDP將達1000W,傳統氣冷散熱方案不足以應付需求;GB200 NVL36及NVL72整機櫃的TDP甚至將高達70kW及近140kW,需要搭配液冷方案方以有效解決散熱問題。
據TrendForce了解, GB200 NVL36架構初期將以氣冷、液冷並行方案為主;NVL72因有更高散熱能力需求,原則上優先使用液冷方案。
觀察現行GB200機櫃系統液冷散熱供應鏈,主要可分水冷板(Cold Plate)、冷卻分配系統(Coolant Distribution Unit, CDU)、分歧管(Manifold)、快接頭(Quick Disconnect, QD)和風扇背門(Rear Door Heat Exchanger, RDHx)等五大零組件; TrendForce指出,CDU為其中的關鍵系統,負責調節冷卻劑的流量至整個系統,確保機櫃溫度控制在預設的TDP範圍內,TrendForce觀察,目前針對Nvidia AI方案,以Vertiv為主力CDU供應商,奇鋐(3017)、雙鴻(3324)、台達電(2308)和CoolIT等持續測試驗證中。
不過,終端客戶採用GB200 Rack的過程仍有幾項變數。TrendForce指出,NVL72需較完善的液冷散熱方案,難度亦高。而液冷機櫃設計較適合新建資料中心,但會牽涉土地建物規劃等複雜程序。此外,CSPs可能不希望被單一供應商綁住規格,而並採HGX或MGX等搭載x86 CPU架構的機種,或擴大自研ASIC AI server基礎設施,以因應更低成本或特定AI應用情境。
發表意見
當您使用本網站留言服務時,視為已承諾願意遵守中華民國相關法令及一切使用網際網路之國際慣例。若您是中華民國以外之使用者,並同意遵守所屬國家或地域之法令。
您同意並保證不得利用本留言服務從事侵害本公司或他人權益及相關違法或未經本公司事前同意之行為(以下簡稱禁止行為),否則您除應自負文責外,並同意本公司逕行移除或修訂您的留言內容或限制您的留言權利或封鎖您的帳號,絕無異議。前述禁止之行為,包括但不限於: