浸沒式液冷(Immersion Cooling)—AI 資料中心的散熱新標準
什麼是浸沒式液冷(Immersion Cooling)?
將整台伺服器、主機板、GPU、SSD 等 IT 設備,直接浸泡於「不導電」的絕緣冷卻液(Dielectric Fluid)中,利用液體高效導熱特性進行散熱。液體帶走熱量的能力是氣體的 1000 倍,且電力消耗量卻只有氣體的 10 分之1。由於液體的導熱效率遠高於空氣,因此能快速帶走高熱密度 AI 運算所產生的大量熱能。相較於傳統氣冷架構,浸沒式液冷初期建置價格較高,但具備最佳的散熱效果,能夠:
- 大幅降低散熱能耗:傳統資料中心的冷卻系統約佔總能耗的 40% - 50%,而浸沒式液冷最高可節省 90% 的冷卻能源消耗,使整體機房 IT 散熱功耗降低約 50%
- 提升伺服器密度
- 改善資料中心 PUE(Power Usage Effectiveness)
- 降低 Thermal Throttling,確保 AI 運算穩定
為什麼 AI 資料中心必須導入液冷技術?
AI 運算正在推升前所未有的資料中心熱密度。傳統資料中心單一機櫃(Rack)的功耗大約5–10kW;而AI 伺服器機櫃功耗已達 40-100kW,部分高密度配置甚至超過 120kW。以訓練一次 GPT-3 模型為例,約需消耗 19 萬度電。若能透過液冷技術將資料中心的 PUE 由 1.5 降至 1.1,約可節省 30%(即 5 萬度)的耗電量。
當熱量暴增數倍,傳統氣冷架構將面臨風量與噪音限制,以及熱點(Hot Spot)無法排除等問題。因此,液冷技術已從過去的「選配」轉變為 AI 資料中心的「必要基礎建設」。
| 比較項目 | 傳統氣冷 (Air Cooling) | 浸沒式液冷 (Immersion Cooling) |
| 散熱介質與方式 |
冷空氣循環對流 |
絕緣液體直接接觸吸熱 |
| 散熱效率 |
較低,易受環境溫度影響 |
極高,熱傳導速度快 |
| PUE 表現 |
通常> 1.5 |
可降至 1.02~1.1 |
| 適用場景 |
一般企業機房 |
AI 訓練中心.HPC 運算.超大規模資料中心 |
液冷技術有哪些種類?
1. 冷水板液冷(Cold Plate Liquid Cooling)
運作原理:透過冷水板與高熱元件(如 GPU、CPU)直接接觸,利用接觸傳導將熱量由冷水板中的液體傳走
特點:
- AI 應用佔比約 70~85%
- PUE 可達 1.1~1.15
- 安裝相對簡單,與現有架構相容性高
- 適合多數企業級 AI 部署
2. 浸沒式液冷(Immersion Cooling)
運作原理:元件直接浸泡於絕緣冷卻液中,液體直接接觸所有元件表面將熱傳走
- AI 應用佔比約 5~15%
- PUE 可達 1.02~1.05,為目前最低
- 散熱效率最高,適合極高密度部署
- 隨著次世代 GPU(如 NVIDIA GB300)功耗持續攀升,導入佔比將持續提升
浸沒式液冷又可細分為:
-
單相浸沒式液冷(Single-Phase immersion cooling)
吸收熱能的冷卻液經由熱交換器輸送到外部冷卻塔,再把降溫後的冷卻液透過泵浦循環回流。系統結構簡單、維護相對容易。 -
兩相/雙相浸沒式液冷(Two-Phase immersion cooling)
設備安裝在浸沒式密封槽體,使用低沸點不導電液體,吸熱後沸騰汽化,在冷凝管凝結成液態回流。散熱效率極高但系統設計複雜,建置成本較高。
為什麼 SSD 也需要支援浸沒式液冷?
在 AI 訓練與推論工作負載中,SSD需做到:
- 訓練資料集的高速讀取
- 模型檢查點(Checkpoint)的頻繁寫入
- TB 級參數檔案的儲存
- 高 IOPS 與高吞吐量需求
這使得SSD 在高負載下,同樣會產生大量熱能,成為 AI Server 中不可忽視的散熱源。
傳統 SSD 在液冷環境的挑戰
傳統 SSD 在浸沒式環境中面臨諸多材料相容性風險,例如:
- 標籤脫落與資訊遺失:傳統膠水與油墨會溶於冷卻液中,需改用防護膠帶覆蓋或直接使用蝕刻標籤
- 電容膨脹:傳統鋁電容內的 EPDM 密封材質會與液體反應導致膨脹變形,需改用不含 EPDM 的電容
- 散熱器不適用:原本針對氣冷設計的散熱器在液體中效能不佳,可能需要移除或重新設計
因此,並非所有 SSD 都適合長期浸泡於液冷液中,需要專門針對浸沒式環境進行設計與驗證。
結語:為液冷時代準備好的企業級儲存
隨著 AI 模型參數與算力需求呈爆發式成長,未來資料中心全面走向「高密度、高效率、低碳排」已是不可逆的趨勢。AI 時代的基礎建設升級, 企業在導入浸沒式液冷時,必須確保儲存設備經過完整的液冷環境驗證。
SSSTC針對浸沒式冷卻環境進行SSD相容性優化,透過材料選用、元件保護與結構設計,強化耐腐蝕能力。產品涵蓋SATA ER3、ER4系列,以及PCIe® U.2 PJ1、EJ5系列。以 ER3 產品為例,經投入 3M FC-40 氟化液進行整機測試,已成功通過嚴格的 3 年與 5 年浸泡可靠度驗證。測試結果顯示,其電容衰減率僅約 10~13%,符合小於 20% 的規範標準,助力資料中心優化電力使用效率(PUE)並提升整體系統可靠度。
