CPO & 矽光子｜隨著 AI 運算叢集規模持續擴大，光發收模組將迎來強勁成長動能 ( 上 )

2025年01月06日 17:00 - 優分析產業數據中心

圖片來源 : ChatGPT

AI 運算叢集是什麼 ?

運算節點 ( Compute Node ) 是指處理和儲存數據的一個基本單位，例如 AI 伺服器，每個 AI 伺服器都會配置高效能 AI 晶片、記憶體和存儲系統，提供強大的運算能力。

AI 運算叢集 ( AI Computing Cluster ) 是1種分散式運算系統，是由多個運算節點組成，透過高速網絡互聯互通，形成 1個大型運算系統，除了能夠為 AI 模型提供強大的運算能力，更擁有以下 3 個運算優勢。

第一，高效能優勢，可將大規模的複雜任務拆解成多個小規模任務，並分配給多個節點同時進運算，這種類似平行運算的概念，能夠大幅提升運算效率。

第二，可擴展優勢，可透過快速增加或減少運算節點，因應不同的運算需求，AI 運算叢集可說是具有相當良好的可擴展性。

第三，低延遲優勢，可透過優化網絡架構和任務調度算法，大幅降低運算任務的響應時間 ( 接收處理訊號到輸出結果所花費的時間 )。

AI 運算叢集規模正在快速提升 !

近2年，大型語言模型 ( LLM ) 發展迅速，對 AI 算力需求激增，全球科技巨頭為提高運算能力，都在積極打造超級電腦，目前超級電腦的規模多為萬卡叢集 ( 由數萬張 GPU 組成的運算叢集 )，例如 Chat GPT4 就是在 1 個包含 25,000 個 GPU 的叢集上進行訓練，AI 叢集規模愈大，運算能力愈強，訓練出來的 AI 模型也就愈厲害。

但隨著算力需求持續增加，AI 叢集規模未來將持續提升到十萬卡規模，例如 2024 年 9 月特斯拉執行長馬斯克宣布，旗下 AI 新創公司 xAI 集結 10 萬顆 H100 GPU 的超級電腦「Colossus」已經正式上線，這是目前全球已知最強大的 AI 訓練系統，未來也會持續擴增至 30 萬卡規模，提供更強大的運算能力。

Microsoft ( MSFT-US ) 更是與 Open AI 策劃 1 項超級資料中心專案，預計花費 6 年時間和 1150 億美元打造 1 個使用上百萬顆 GPU 的超級電腦「Stargate」，目標是為 Open AI 的人工智慧系統提供強大的算力支援，預計將在 2028 年正式上線。

光互連需求將迎來爆發式成長 !

2023 年前，互連速度主要由資料中心伺服器升級的速度驅動，大約每 4 年會進行一次升級，因此互連速度每 4 年會同時翻倍，2023 年後，生成式 AI 需求爆發，推動互連速度邁向每 2 年就要翻倍的目標。

Marvell ( MRVL-US ) 在官網上表示，Chat GPT3 是在千卡規模的 AI 叢集上進行訓練，需要 2,000 個光互連， Chat GPT4 是在 25,000 卡規模的 AI 叢集上進行訓練，需要 75,000 個光互連。到十萬卡規模的 AI 叢集，甚至將會實現 50 萬個光互連，這段文字背後隱藏了一些重大訊息。

我們來做個簡單的數學計算，千卡規模的 AI 叢集需要 2,000 個光互連，十萬卡規模則是需要 50 萬個光互連，換句話說，AI 叢集規模成長 100 倍，光互連將會成長約 250 倍，這是一個相當驚人的成長數據。

( 資料來源 : Marvell 官網 )

重要結論

光互連需求不僅成長空間巨大，成長速度也明顯比 AI 運算叢集規模更快，而想要全面提高光互連數量，或者是持續提升互連速度，最核心的產品將會是光收發模組 ( Optical Transceiver )，換句話說，光收發模組產業將迎來強勁的成長動能，而其中具有關鍵競爭優勢的企業，股價也在近期有非常亮眼的表現，下一篇文章，優分析將會介紹光收發模組產業的發展趨勢和重點企業。

這篇文章對你來說實用嗎？