AI帶起新浪潮,除伺服器代工廠之外,散熱族群更是漲翻天!但說到散熱產業,會出現很多讓人混亂、感到複雜的名詞!
但其實只要知道,客戶是因為考量很多:熱設計功耗(TDP)、成本、風險、能源使用效率(PUE)等因素,才要綜合尋求散熱最佳解方,而事實就是無論是客戶還是散熱業者大家都還在摸索!
不過可以肯定的是,散熱產業迎來前所未有的獲利成長機會,一起一邊認識最基本的名詞,一邊試著用客戶需求角度來思考散熱產業!
裝置熱功耗越來越大、散熱需求提升
當我們使用電子產品時,往往可以感受到其運作時的發熱,這正是需要散熱零組件的原因。而散熱模組設計到多少單位才能解熱要看TDP。
TDP(Thermal Design Power)熱設計功耗,單位瓦W
指CPU/GPU在最大負荷下能發出多少熱量,假設有100W,其散熱系統必須「至少」能解熱100W,此時的TDP就是100W。
以伺服器CPU新平台為例,2019年之前,AMD與Intel所設計的伺服器CPU,TDP大多介於200-270W之間,當時的散熱設計只要靠風扇、傳統熱導管或均溫板就足夠解熱了!
所以散熱以前真的很不被重視,但在需求基本盤支撐下,台廠過去即使獲利沒有明顯成長,但也不致虧損。
2020年開始,疫情引發的遠距工作需求加上5G和伺服器技術的進步,都使電子裝置的功耗增加。這導致更高的發熱,因此對散熱技術的需求和標準也逐步提升。
2022年AMD與Inte的新伺服器平台CPU耗能,更是增加到350W至400W,2023年甚至更有提升到500W的產品。
由於TDP持續增加,傳統的散熱技術如風扇和熱導管不再足以滿足需求。因此,散熱產品需要進行升級,其平均銷售價格(ASP)也相應上升,進一步促使散熱產業的明確成長。
AI帶動TDP大幅跳升
AI時代來臨後,小小的晶片要有更大大的運算能力,但因為半導體技術升級放緩了,晶片大小受物理限制(就是常聽的摩爾定律)還有成本限制,會使晶片產生更多功耗與熱能、使TDP上升得更快。
有多快?目前AI伺服器晶片主流NVIDIA的A100,散熱設計功耗可達400W。
NVIDIA更高階的H100則高達700W!
伺服器CPU/GPU熱設計功耗演進:
●2019年以前不超過300W
●2020-2022年發展至400W
●2023年高階AI晶片達700W
也正是H100晶片讓功耗大幅提讓大家開始意識到,散熱需求開始明顯上升,這就會帶給產業不同以往的前景!
那不同的散熱產品可以解多少的熱能?散熱方案隨技術演進有什麼變化?
散熱方案適用的發熱功率範圍會持續演進
利用風扇,搭配散熱片、熱導管來將熱氣排出為氣冷散熱,這也是過去至今的散熱方案主流。
AI運算提升熱功耗趨勢下,延伸需求產生液冷散熱方案,與更高階的浸沒式液冷。
液冷散熱(Liquid Cooling)
因為液體比氣體更容易導熱的特性,利用特殊冷卻液體再透過水管輸送,進入機台靠近晶片循環一圈,再透過導熱片帶走將熱能、釋放到外部。
浸沒式液冷散熱(Immersion Cooling)
將晶片或整個伺服器直接浸入非導電液體中,產生的熱能直接讓液體吸收,不需要再透過散熱片或導管;又分為單相式和兩相式。
浸沒式水冷散熱雖有題材性,但尚未成熟,之後文章會再介紹。
建準(2421-TW)在近期法說會上表示,目前粗略區分三種散熱解決方案適用的熱功率範圍(下圖):
350W以下用氣冷,350-1000W用液冷,超過1000W要用到浸沒式液冷。
建準法說還有說一個很重要的關鍵:這三種技術都會隨時間進步!
雖然目前氣冷主要用來解熱350W以下的裝置,雙鴻董事長也曾說過,氣冷散熱最大的臨界點將會落500W;最新法人報告更進一步修正,氣冷散熱最高最高其實能處理到1000W的熱能,但要到500W以上的程度,就必須用到3D VC(待會會說明)。
這些對於氣冷解熱範圍不斷修正的數據,都在透露:使是較簡單的氣冷,技術仍然會依客戶需求持續進步!
客戶會依照應用面來選擇價格與功用平衡的最優解,看似是廢話,但要知道,實務上所謂的最優解並沒有固定模式,所以會進一步產生更多元的客製方案、延伸氣體和液體混和轉換等新模式,3D VC就是像這種方式。
3D VC是目前中高階的主流選擇
3D VC(Vapor Chamber)
原本傳統熱板的變化形態,熱板結合熱管成為一個立體的圓柱體,內部不論是氣體、還是液體都可自由移動,來做為熱傳導,是目前氣冷散熱裡的最高階的產品。
Intel Eagle Stream 和 AMD Genoa 兩大伺服器平台都有導入3D VC,目前NVIDIA的主流AI晶片,也多以3D VC為主要散熱解決方案。
所以在發熱功耗500-800W的中高間區段,對於想要有好的散熱方案、但又想要省成本的客戶,目前被歸類在氣冷散熱的3D VC,就有可能是最優解!3D VC也被看好是中短期的主流解決方案。
但前面提到,NVIDIA高階的H100 熱功耗達700W,那是不是也可以直接用氣冷的3D VC就好?為何現在還延伸到液冷散熱?
因為3D VC被市場認為有一個明顯的弱勢:需要加上大量風扇等空氣調節系統,又產生耗電問題!
延伸液冷散熱技術是讓客戶有更多元的選擇
優分析之前文章(見此連結)就提過,運算越強、能耗越大,所以對使用高階AI晶片的資料中心,國際上會進行能源使用效率(PUE)限制。
PUE(Power Usage Effectiveness)電力使用效率
國際通用衡量資料中心能源效率標準,是總用電量與用於IT設備電量之間的比例,越接近1就代表IT設備以外的空調、照明等其他系統耗電量更少,就意味著資料中心的電力更用在運算力的刀口上。
3D VC因為需要更多空氣調節系統、很有可能過不了能源限制那關,因此延伸了液冷散熱方案!(之後會有對液冷散熱的討論文章)
但是!3D VC價格是傳統熱管、熱板的2倍左右,而液冷散熱比3D VC還高出幾十倍!3D VC反而有成本優勢。
所以客戶一方面要考量PUE、一方面要考量成本等諸多問題,也因此目前NVIDIA的高階H100晶片,無論是3D VC、液冷結合氣冷、浸沒式液冷等方案,客戶都有與業者做調整嘗試。
這也再次說明:新技術與應用想要找到最優解並沒有固定模式,能提供全面適合的方案最為重要。
小結:優分析這樣看散熱
1. 散熱產業因為AI晶片帶動發熱設計功率(TDP)大幅跳升,產品ASP全面升級、產業全面受惠
2. 氣冷散熱適用的TDP範圍持續演進,掌握液冷散熱不一定最優,業者的客戶群與客戶掌握度高較有優勢
3. 客戶要的是最適合的散熱解決方案,能與客戶進行各種方式的討論與嘗試,受惠會最大
4. 散熱產品要有擴大採用才能成為趨勢,目前3D VC中短期較有被擴大採用的機會
5. 參考業者過去營運能力誰比較好,對於目前散熱轉折混亂階段,營運靈活度也容易比較好