《2024Google OCS技術應用場景、解決方案及產業鏈投資機會分析報告(31頁).pdf》由會員分享,可在線閱讀,更多相關《2024Google OCS技術應用場景、解決方案及產業鏈投資機會分析報告(31頁).pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、2023 年深度行業分析研究報告 目目 錄錄 一、一、Google 位居位居 AI 行業第一梯隊,有望進一步加強行業第一梯隊,有望進一步加強 AI 領域投資領域投資.6(一)Google 為大模型領域奠基者,最新發布的 Gemini 彰顯深厚底蘊.6 1、超前提出 AI First 戰略,長期深耕大模型和算力設施.6 2、自研的 AI 芯片 TPU,支撐 Google AI 技術及業務發展的重要利器.8(二)Google Cloud 支撐公司業績向好,AI 領域投資有望進一步加強.11 二、二、自研基于自研基于 OCS 的光連接新方案,進一步提升的光連接新方案,進一步提升 TPU 集群性能集群
2、性能.14(一)OCS 的應用場景 1:Jupiter 數據中心.14(二)OCS 的應用場景 2:TPUv4 計算中心.17 三、三、深度剖析深度剖析 Google OCS 解決方案:器件高度定制化解決方案:器件高度定制化.20(一)基于 MEMS 器件的 OCS 成為新的光交換方案.20(二)適配 OCS 需求,定制化設計光模塊.22(三)光模塊內創新性引入環形器,傳輸效率進一步提升.24(四)更高鏈路預算需求帶來的光芯片與電芯片配套升級.26(五)兩層連接釋放大量銅纜與光纖需求.28 四、四、AI 浪潮加速算力基礎設施的演進,重點關注產業演變趨勢帶來的機遇浪潮加速算力基礎設施的演進,重點
3、關注產業演變趨勢帶來的機遇.29(一)趨勢 1:自研低成本算力部署方案或成為新選擇,有助于算力基礎設施的快速建設.29(二)趨勢 2:AI 巨頭的算力需求景氣度高,進一步推動高度定制化成為新商業模式.30(三)趨勢 3:網絡架構升級將催生如 OCS 等新型設備的落地應用,帶來產業格局變化.31 圖表目錄圖表目錄 圖表 1 2017 年以來,Google 在 AI 大模型方向的重要里程碑.6 圖表 2 Gemini Ultra 與 GPT-4 的性能對比.7 圖表 3 Gemini 專為多模態用例而設計.7 圖表 4 SGE 應用 AI 提升用戶搜索體驗.8 圖表 5 Google Engine
4、 提供可掛載 GPU 的虛擬機服務.8 圖表 6 TPUv4 芯片的邏輯架構.8 圖表 7 CPU、GPU、TPU 工作原理對比.9 圖表 8 TPU 采用脈動陣列以提升計算吞吐量.9 圖表 9 TPU 性能逐步提升.10 圖表 10 Google 的 TPU 訓練負載分配情況.11 圖表 11 Google 分季度營業收入及利潤率.11 圖表 12 Google 分季度各業務收入占比.12 圖表 13 Google Cloud 業務季度收入持續增長.12 圖表 14 海外主要云廠商近年各季度資本開支情況.13 圖表 15 Google 歷代數據中心網絡的演進.14 圖表 16 Google
5、第五代網絡架構 Jupiter 的內部結構.15 圖表 17 傳統 CLOS 架構與引入 OCS 網絡架構的對比.16 圖表 18 在 OCS 基礎上引入 WDM、環形器等技術的 Jupiter 網絡.16 圖表 19 TPUv4 單芯片封裝(左)和 Tray(右).17 圖表 20 單個 TPUv4 Rack 由 16 個 TPUv4 Tray 組成.17 圖表 21 8 8 Rack 構成整個 TPUv4 計算機系統.18 圖表 22 一個 cube(rack)由 64 個 TPU 節點組成.19 圖表 23 每個 cube 都需要和三個方向的 OCS 連接,組成 3D Torus 拓撲.
6、19 圖表 24 64 個 TPUv4 rack 與 48 個 OCS 之間需要 6144 條光纖連接.19 圖表 25 OCS 的內部構造及實際布局.20 圖表 26 MEMS 反射鏡結構和核心組成.21 圖表 27 OCS 的整體架構.21 圖表 28 MEMS 在電信領域的市場增長較快.22 圖表 29 2012-2021 年度全球 MEMS 代工廠排名.22 圖表 30 數據中心網絡中 WDM 光模塊的演進.22 圖表 31 CWDM4(上)和 CWDM8(下)的光模塊.22 圖表 32 中國企業已占據全球光模塊 Top10 榜單最多數量.23 圖表 33 部分光模塊企業在 800G/
7、1.6T 產品布局.23 圖表 34 環形器可實現單光纖的雙工通信.25 圖表 35 環形器基于光偏振的實現原理.25 圖表 36 騰景科技可提供光模塊中的環形器.26 圖表 37 OCS 配套光模塊需改動的光芯片與電芯片設計.27 圖表 38 Credo 面向 800G 的單向 PAM4 DSP.27 圖表 39 TPUv4 板間通過 4 個 OSFP 連接器實現互聯.28 圖表 40 TPUv4 超級計算機中使用了大量的光纜連接.28 圖表 41 TPUv4 與 A100 在 MLPerf 測試的表現對比.29 圖表 42 TPUv4 與 A100 在 MLPerf 測試的功耗對比.29
8、圖表 43 Omdia 測算 2023Q3 A100 和 H100 出貨量約為 500K.30 圖表 44 Google 推出的零樣本視頻生成應用 Video Poet.30 圖表 45 技術能力和客戶關系奠定供應鏈企業的受益確定性.31 圖表 46 數據中心拓撲架構演進.32 圖表 47 在 Dragonfly 拓撲中應用 OCS.32 一、一、Google 位居位居 AI 行業第一梯隊行業第一梯隊,有望進一步加強有望進一步加強 AI 領域投資領域投資(一)(一)Google 為大模型領域奠基者,為大模型領域奠基者,最新發布最新發布的的 Gemini 彰顯深厚底蘊彰顯深厚底蘊 1、超前提出超
9、前提出 AI First 戰略,長期深耕戰略,長期深耕大模型大模型和算力設施和算力設施 Google 深耕深耕 AI 技術多年,技術多年,為大模型領域奠基者。為大模型領域奠基者。早在 2017 年,Google 就已經把發展戰略從 Mobile First 轉變為 AI First。同年 Google 發布 NLP 模型 Transformer,該模型通過引入 Self-Attention 機制,利用注意力機制來提高模型訓練速度,使得模型可以并行化訓練,這也為后續大語言模型的升級迭代奠定了基礎。2018 年,Google 發布大規模預訓練模型 BERT,可以進行雙向預測,該模型進一步提升了自然
10、語言理解及處理的精度。2022年,Google 推出模型 PaLM,該模型在語言理解、邏輯推理、代碼生成等方面均實現了出色表現。2023 年以來,Google 先后推出 PaLM2 及 Gemini,模型能力進一步提升。圖表圖表 1 2017 年以來,年以來,Google 在在 AI 大模型大模型方向的重要里程碑方向的重要里程碑 資料來源:飛哥說AI公眾號OpenAI 何以掀翻 Google 布局多年的AI大棋?,華創證券 最新發布最新發布 Gemini 多模態模型,多模態模型,Google 彰顯彰顯 AI 深厚底蘊深厚底蘊。美國時間 2023 年 12 月 6日,Google 正式發布該公司
11、“規模最大、功能最強”的多模態大模型 Gemini,引發市場高度關注。根據 Google 披露,Gemini 是基于 Transformer decoder 構建的原生多模態模型,其性能較原有的單一模型更為全面,支持 32K 的 contex 長度。在大型語言模型(LLM)研發中使用的 32 個廣泛使用的學術基準中,Gemini Ultra 性能有 30 個都超過了當前最先進的結果,其中 Gemini Ultra 的 MMLU(大規模多任務語言理解)得分為 90.0%,是第一個優于人類專家的模型,多個任務性能表現也都超過 GPT-4。Google 未來會將 Gemini 融入到自身業務中,例如
12、搜索、廣告、Chrome 和 Duet AI等。圖表圖表 2 Gemini Ultra 與與 GPT-4 的的性能對比性能對比 圖表圖表 3 Gemini 專為多模態用例而設計專為多模態用例而設計 資料來源:Google官網,華創證券 資料來源:Gemini Team,GoogleGemini:A Family of Highly Capable Multimodal Models,華創證券 為滿足為滿足內外部內外部業務業務需求,需求,Google持續持續加強加強算力算力建設建設。除了在大模型領域引領行業發展外,Google 在算力設施方面也有持續的布局,以滿足企業內外部的業務需求。對內,Go
13、ogle將 AI 技術深度賦能公司各項業務,包括搜索、地圖、廣告等公司傳統的優勢業務,例如公司推出了 SGE(Search Generative Experience)搜索引擎,利用 AI 改進用戶搜索體驗;對外,Google 通過 Google Cloud 可以提供從 IaaS 到 PaaS 到 SaaS 的 AI 相關一系列服務,其中Compute Engine是Google Cloud的計算托管服務,提供可添加到虛擬機實例的GPU,實現智算算力的對外供應。為了滿足以上對內對外的算力需求,Google 一方面通過部署成熟的 GPU 資源提供算力服務,如最新發布的 A3 超級計算機即可提供
14、Nvdia H100 GPU算力;另一方面采取自研 TPU 的方式,滿足自身如大模型訓練/推理等相關的算力需求,同時也可對外提供算力支持。圖表圖表 4 SGE 應用應用 AI 提升用戶搜索體驗提升用戶搜索體驗 圖表圖表 5 Google Engine 提供可掛載提供可掛載 GPU 的虛擬機服務的虛擬機服務 資料來源:blog.google,華創證券 資料來源:科技云報道,華創證券 2、自研自研的的 AI 芯片芯片 TPU,支撐支撐 Google AI 技術技術及業務及業務發展的發展的重要重要利器利器 TPU(張(張量量處理器)為處理器)為 Google 推出推出的用于的用于機器學習機器學習的的
15、專用專用處理器。處理器。為提升處理器訓練和學習神經網絡的計算能力,Google 用 15 個月的時間成功設計第一款張量處理器 TPU,并于 2016 年正式發布。該處理器專用于機器學習,擅長大型矩陣運算,可以更高效地訓練模型,芯片內集成的 HBM 也有助于更大規模的模型訓練,此外多個 TPU 可以組成 Pod集群,極大地提升了神經網絡工作負載的效率。TPU 芯片在不同的版本中會包含一個或多個 TensorCore,每個 TensorCore 都由一個或多個矩陣乘法單元(MXU)、一個向量處理單元(VPU)和一個向量存儲器(VMEM)。其中 MXU 由收縮陣列中的 128128 乘法累加器組成,
16、是供應算力的主要引擎,在每個周期能夠執行 16K 乘法累加運算。圖表圖表 6 TPUv4 芯片的邏輯架構芯片的邏輯架構 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 TPU 采用脈動陣列采用脈動陣列可加速可加速大矩陣大矩陣計算,更適合計算,更適合 AI 應用應用場景。場景。TPU 為專用于神經網絡工 作負載的矩陣處理器,相較于 CPU 和 GPU,TPU 的功率更低、物理占用空間更小。TPU采用了脈動陣列的
17、方式以規避馮諾依曼瓶頸。在傳統的計算架構下由于需要對存儲器進行高頻訪問,系統的處理能力會極大地受限于其訪存能力。而脈動陣列的本質就是在訪問存儲器之前將更多的工作留存在處理單元內完成。在脈動陣列實現矩陣運算的過程中(Y=WX+b),權重 W/像素 X 分別從上向下/從左至右地流入數組,每次執行乘法時各個單元的乘數結果將被直接傳遞累加至此前的計算結果中,直至數據不再流入。在脈動計算和數據傳遞的過程中 TPU 無需再訪問內存。TPU 雖然犧牲了通用性,但基于對脈動陣列的應用大幅提升了其計算吞吐量,顯著優化了矩陣與卷積運算過程,而大模型的訓練和推理過程中,主要涉及的就是矩陣及卷積計算,因此 TPU 作
18、為專用型芯片特別適用于 AI 的應用場景中。圖表圖表 7 CPU、GPU、TPU 工作原理對比工作原理對比 圖表圖表 8 TPU 采用脈動陣列以提升計算吞吐量采用脈動陣列以提升計算吞吐量 資料來源:EITC,華創證券 資料來源:Norman P.Jouppi,Cliff Young,Nishant Patil,et al.In-Datacenter Performance Analysis of a Tensor Processing Unit,矽說,華創證券 歷經歷經多代的多代的持續持續更迭更迭,最新發布的最新發布的 TPUv5p 性能性能尤為強大尤為強大。2016 年 Google 推出的
19、 TPUv1定位為推理芯片,為 AlphaGo 提供過重要的算力支撐,此后 Google 持續優化并迭代 TPU芯片的整體性能。2017 年發布的 TPUv2 兼顧了推理和訓練的功能,相較于 TPUv1,TPUv2不再固定功能單元之間的緩沖區和激活管道,而是采用了向量存儲器和向量單元的方式實現功能。TPUv3 的改動較為溫和,整體與 TPUv2 采用相同技術,但將 MXU 和 HBM容量增加了兩倍。2021 年發布的 TPUv4 則首次引入光交換機(OCS)以解決規模和可靠性的障礙。2023 年 Google 先后推出 TPUv5e 及 TPUv5p 兩款芯片。其中 TPU v5e,可在 同樣
20、成本情況下,為大語言模型和生成式 AI 模型提供相較于 TPUv4 高達 2 倍的訓練性能和 2.5 倍的推理性能;TPUv5p 則是 Google 有史以來功能最強大、可擴展性最強、靈活性最高的 AI 芯片,其訓練大型 LLM 模型的速度為 TPUv4 的 2.8 倍,較 TPUv5e 有近50%的提升。圖表圖表 9 TPU 性能逐步提升性能逐步提升 TPUv1 TPUv2 TPUv3 TPUv4 TPUv5e TPUv5p 發布時間 2016 2017 2018 2020 2023 2023 制程 28 nm 16 nm 16 nm 7 nm 未公布 未公布 HBM 內存(GB)N/A 1
21、6 32 32 16 95 HBM 內存帶寬(GB/s)34 600 900 1200 820 2765 峰值算力(Bf16,TFLOPs)N/A 46 123 275 197 459 峰值算力(Int8,TOPs)92 N/A N/A N/A 393 918 單芯片 ICI 帶寬(Gb/s)N/A 1984 2624 2400 1600 4800 集群 Pod 芯片數 N/A 256 1024 4096 256 8960 資料來源:IT之家 Norman P.Jouppi,Doe Hyun Yoon,et al.Ten Lessons From ThreeGenerations Shaped
22、 Googles TPUv4i,華創證券整理 TPU 已成已成為為 Google 大模型訓練的主力軍。大模型訓練的主力軍。從 TPU 的使用情況來看,目前 Google 90%以上的模型訓練均在 TPU 上進行。根據 Norman P.Jouppi 等人的TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings數據,Google 已經部署了數十臺 TPUv4 超級計算機,其中有 8 臺會通過 Google Cloud 供外部使用。其中最新發
23、布的多模態大模型 Gemini 主要就是通過 TPUv4 以及 TPUv5e 訓練的,而此前發布的 5400 億參數語言模型 PaLM 則是用兩個 TPUv4 pods 訓練的。userid:93117,docid:152588,date:2024-01-29, 圖表圖表 10 Google 的的 TPU 訓練負載訓練負載分配情況分配情況 資料來源:Norman P.Jouppi,George Kurian,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Supp
24、ort for Embeddings,華創證券 (二)(二)Google Cloud 支撐公司業績向好,支撐公司業績向好,AI 領域投資領域投資有望有望進一步加強進一步加強 AI 賦能下賦能下 Google 利潤率及營收增速迎來拐點利潤率及營收增速迎來拐點。根據 Google 公司公告數據,2022 年公司收入為 2828 億美元,同比+9.8%,對應 2019-2022 年 CAGR 達 20.4%。2023Q1-3 公司收入為 2211 億美元,同比+6.9%。2022Q4 以來公司營收加速增長的趨勢主要系 AI 賦能下公司服務類業務及云業務快速增長所致。同期公司利潤率有所改善則主要因為:
25、1)AI 的應用降低了員工人數的增幅;2)AI 優化了工作流程,加強了運營效率;3)良好的費用管控成效及其他原因。圖表圖表 11 Google 分季度營業收入及利潤率分季度營業收入及利潤率 資料來源:Google公司公告,華創證券-10%0%10%20%30%40%50%60%70%01002003004005006007008009002019Q12019Q32020Q12020Q32021Q12021Q32022Q12022Q32023Q12023Q3營業收入(億美元)營業總收入同比(右軸)毛利率(右軸)凈利率(右軸)Google Cloud 業務占比提升迅速,業務占比提升迅速,有望成為公
26、司第二成長曲線有望成為公司第二成長曲線。從收入結構來看,主要包括廣告業務、云業務及其他業務。其中廣告業務主要包括搜索、網絡及 You Tube 廣告業務,云業務則主要包括云平臺、工作區及其他企業服務。近年來云業務受益云平臺和工作區業務的增長,收入占比呈快速上漲趨勢,2022/2023Q1-3 公司云業務收入占比分別為 9.3%/10.8%,同比分別+1.8/1.6pcts。其中云平臺實現高增主要系客戶人均營收有所增加及基礎設施和平臺服務有所增長所致。根據公司 IR 公告,目前全球最大的 1000 家公司中超過 60%的企業均為 Google Cloud 的客戶。公司認為目前其在 AI 解決方案
27、 Vertex AI、Duet 及 GCP、Workspace 的客戶參與度上都具有較高的潛力,未來公司將繼續積極地保持對相關業務的投資,云業務有望成為公司的第二成長曲線。圖表圖表 12 Google 分季度分季度各各業務收入占比業務收入占比 圖表圖表 13 Google Cloud 業務業務季度季度收入收入持續增長持續增長 資料來源:Google公司公告,華創證券 資料來源:Google公司公告,華創證券 Google 資本開支進入向上通道,有望進一步加強資本開支進入向上通道,有望進一步加強 AI 領域投資領域投資。2022 年,微軟、Google、亞馬遜、蘋果、Meta 資本開支同比分別+
28、3%/28%/5%/13%/67%,Google 資本開支增速居于行業前列。具體來看,Google 資本開支主要由服務器及網絡設備投資組成,其中包括AI、數據中心及配套建筑等項目的建設。2022/2023Q1-3 Google 資本開支分別為 315/212億美元,同比分別+27.8%/-11.1%。公司單 Q3 資本開支為 80.6 億美元,同比/環比分別+10.7%/+16.9%。Q3 資本開支環比顯著回暖主要系 AI 計算需求大幅增長下服務器及數據中心投資快速增長所致。根據公司 IR 公告,2023Q4 及 2024 公司資本開支將持續增長,但整體增速將低于公司營收增速。在資本開支投向方
29、面,公告顯示 Google 將著力加強在AI 領域的相關投資,未來公司資本開支有望實現高質量增長,預計到 2025 年,Google在 AI 領域的總投入將達到 1000 億美元。5%5%6%6%7%8%7%7%7%7%8%7%9%9%10%10%11%11%11%0%10%20%30%40%50%60%70%80%90%100%2019Q12019Q42020Q32021Q22022Q12022Q42023Q3Google廣告業務Google云業務Google其他業務其他業務0%10%20%30%40%50%60%01020304050607080902019Q12019Q42020Q320
30、21Q22022Q12022Q42023Q3Google云業務Google云業務收入同比(右軸)圖表圖表 14 海外主要云廠商近年各季度資本開支情況海外主要云廠商近年各季度資本開支情況 資料來源:公司公告,華創證券 -50%0%50%100%150%200%250%0501001502002503003504004502019Q1 2019Q3 2020Q1 2020Q3 2021Q1 2021Q3 2022Q1 2022Q3 2023Q1 2023Q3META蘋果亞馬遜微軟谷歌YoY-谷歌(右軸)YoY-微軟(右軸)YoY-亞馬遜(右軸)YoY-蘋果(右軸)二、二、自研自研基于基于 OCS
31、的光連接新方案的光連接新方案,進一步提升,進一步提升 TPU 集群性能集群性能 需求推動需求推動 OCS 技術落地,深度賦能兩大應用場景。技術落地,深度賦能兩大應用場景。OCS(Optical circuit switches),即光電路交換機,是在光層動態地配置互連拓撲,類似于傳統的交換機在電層交換的作用。Google 在建設自己的數據中心過程中,由于在部署規模、靈活可用、模塊化部署、安全性、功耗和性能等方面有更高要求,傳統電交換不滿足相關的互聯需求,因此引入了 OCS形成新的解決方案。根據 Google 論文的數據,在搭建 TPUv4 的集群時,與傳統 Infiniband交換機方案相比,
32、OCS 方案成本更低,功耗更低,部署更快,其中 OCS 和其他光學組件的成本在系統總成本的占比低于 5%,功耗占比低于 3%。目前 OCS 在 Google 基礎設施中主要有 Jupiter 數據中心和 TPU 數據中心兩大應用場景,其中后者為專注于 AI 算力的數據中心。(一)(一)OCS 的應用場景的應用場景 1:Jupiter 數據中心數據中心 Jupiter:Google 自研的自研的第五代第五代網絡網絡架構。架構。早期 Google 的數據中心里使用的是一種非常簡易的網絡集群架構,由 4 個商用路由器串聯成環構成,512 臺 ToR 交換機與每個商用路由器都連接,每臺 ToR 交換機
33、與 40 臺服務器相連,從而形成了一個 51240,約 2 萬臺服務器的集群。這種架構缺點很明顯,可擴展性差,同時也不適用于大帶寬應用場景。由于其業務對帶寬需求和數據中心分布式計算基礎設施的規模要求較高,從 2005 年開始,Google 即推出第一代自研網絡架構 Firehose,通過定制數據中心網絡硬件和軟件去實現所需規模大小的集群構建。隨后歷經了五代架構的演進后,逐步形成目前的 Jupiter架構。圖表圖表 15 Google 歷代數據中心網絡的演進歷代數據中心網絡的演進 數據網絡架數據網絡架構構 發布發布時間時間 商用交換芯片商用交換芯片 ToR 交換機配交換機配置置 匯聚層匯聚層交換
34、機交換機配置配置 Spine 層層交換機交換機配配置置 網絡速率網絡速率 服務器端口速服務器端口速率率 網絡網絡帶寬帶寬 Four-Post CRs 2004 vendor 48x1G -10G 1G 2T Firehose 1.0 2005 8x10G 4x10G(ToR)2x10G 上行 24x1G 下行 2x32x10G(有阻塞)32x10G(非阻塞)10G 1G 10T Firehose 1.1 2006 8x10G 4x10G 上行 48x1G 下行 64x10G(有阻塞)32x10G(非阻塞)10G 1G 10T Watchtower 2008 16x10G 4x10G 上行 48
35、x1G 下行 4x128x10G(非阻塞)128x10G(非阻塞)10G nx1G 82T Saturn 2009 24x10G 24x10G 4x288x10G(非阻塞)288x10G(非阻塞)10G nx10G 207T Jupiter 2012 16x40G 16x40G 8x128x40G(有阻塞)128x40G(非阻塞)10/40G nx10G/nx40G 1.3P 資料來源:Arjun Singh,Joon Ong,Amit Agarwal,et al.Jupiter Rising:A Decade of Clos Topologies and Centralized Contro
36、l in Googles Datacenter Network,華創證券 初代初代 Jupiter 一鳴驚人,最大可支持超過一鳴驚人,最大可支持超過 3 萬臺服務器組網萬臺服務器組網。在 2015 年論文Jupiter Rising:A Decade of Clos Topologies and Centralized Control in Google s Datacenter Network中,可以看到 Jupiter 主要應用 CLOS 架構,由 ToR、Spine 塊和 Aggregation 塊三大部分組成,其中最基礎的交換單元都是商用交換芯片,單芯片可提供 16x40G 或者 64
37、x10G 的端口連接。4 個交換芯片是通過一臺 Centauri 交換機來提供。Spine 塊:內部由 6 臺 Centauri 交換機組成。邏輯上會再分成兩層,上層由 4 臺Centauri 交換機的一半交換芯片組成,向下可提供 32x40G 端口;下層由 2 臺完整的 Centauri 交換機以及 4 臺 Centauri 交換機剩下一半的交換芯片所組成,可向 上行的上層 Spine 交換機和下行的 Aggregation 交換機分別提供 128x40G 端口;Aggregation 塊:內部由 8 個中間(Middle)塊組成,每個中間塊由 4 臺 Centauri交換機組成,每個中間塊
38、可向上行的上層 Spine 交換機提供 64x40G 端口和下行的 ToR 交換機分別提供 256x10G 端口;ToR 交換機:即 Centauri 交換機,由兩組共 4 個交換芯片所組成,單個交換芯片被配置為 48x10G 的下行與服務器連接和 8x2x10G 的上行與 8 個中間塊交換機連接。在最大的配置環境中,Jupiter 可為服務器提供總共 1.3 Pbps 的網絡帶寬,即可支持超過3 萬臺端口速率為 40Gbps 的服務器接入。圖表圖表 16 Google 第五代網絡架構第五代網絡架構 Jupiter 的內部結構的內部結構 資料來源:Arjun Singh,Joon Ong,Am
39、it Agarwal,et al.Jupiter Rising:A Decade of Clos Topologies and Centralized Control in Googles Datacenter Network,華創證券 Jupiter 網絡架構持續升級,網絡架構持續升級,引入引入 OCS 實現能力實現能力的的躍升躍升。在初代 Jupiter 的基礎上,Google對網絡架構進行持續升級,通過引入 OCS(Optical Circuit Switches,光交換機)取代 Spine層傳統電交換機,將網絡邏輯拓撲由 CLOS 架構演進到 Aggregation 塊的直接光互聯。由
40、于 OCS 采用光交換,對傳輸的速率無感,通過進一步引入 WDM(波分復用)和環形器等技術可以實現在單根光纖上傳輸通道數的增加以及 Tx/RX 雙路信號,提升單光纖的數據傳輸速率,實現整個 Jupiter 網絡互聯帶寬的數倍增長?;谝陨系募夹g革新,Jupiter已實現超過 6 Pbps 帶寬容量,即相對于初代實現約 5 倍帶寬提升的同時,電力消耗減少了 41%,成本降低 30%。圖表圖表 17 傳統傳統 CLOS 架構與引入架構與引入 OCS 網絡架構的對比網絡架構的對比 傳統傳統 CLOS 架構架構 引入引入 OCS 的網絡架構的網絡架構 拓撲圖 技術原理 Spine 層為電交換機,在交換
41、 Aggregation 塊傳輸過來的數據時,需要對數據進行電層的接收、拆包、解析、計算確認路徑、封包、發送等一系列操作,才能最終完成數據的交換傳輸。用 OCS 取代 Spine 層電交換機,OCS 內部由 Mems 反射鏡組成,通過提前路徑規劃和配置,實現各端口在光層的互聯,因此可直接進行光交換,無需進行電層的處理,可看成是 Aggregation 塊之間直接實現互聯。交換方式 電交換 光交換 交換處理時延 長 短 是否支持異速率接入 否,電交換需交換機匹配傳輸速率 是,光交換對傳輸速率無感 網絡帶寬升級難度 高,需要采購安裝更高端口速率的電交換機 低,無需更換 OCS 設備 功耗 高 低
42、資料來源:Ryohei Urata,Hong Liu,Kevin Yasumura,et al.Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale,華創證券整理 圖表圖表 18 在在 OCS 基礎上引入基礎上引入 WDM、環形器等技術的、環形器等技術的 Jupiter 網絡網絡 資料來源:Leon Poutievski,Omid Mashayekhi,Joon Ong,et al.Jupiter Evolving:Transforming Googles DatacenterNetwork via Optic
43、al Circuit Switches andSoftware-Defined Networking,華創證券 (二)(二)OCS 的應用場景的應用場景 2:TPUv4 計算中心計算中心 Google 自研的低成本高性能自研的低成本高性能 TPUv4 超級計算機集群超級計算機集群。TPUv4 的超級計算機自 2020 年開始在 Google 得到大規模應用,系統由 4096 個 TPUv4 芯片組成,共享 256 TiB 的 HBM內存,總算力超過 1 ExaFLOP。網絡架構中引入了 OCS 等 Jupiter 的核心技術。目前 Google已經部署了數十臺 TPU v4 超級計算機,供內部
44、使用和外部通過 Google Cloud 使用。在TPUv4 超級計算機中,最基礎的物理算力單元是 TPU 芯片,系統的設備組成路徑如下:TPUv4 Package:即單芯片,主要由 1 個 ASIC+4 個 HBM 堆棧封裝 TPUv4 Tray:即單板卡,由 4 個 TPUv4 芯片組成,每個 TPUv4 芯片會出 6 條鏈路,其中兩條用于板內連接,四條用于板間連接。TPUv4 芯片在板卡內以 mesh方式連接,在板卡間則以 3D Torus 連接。板塊前面板分布有 4 個 PCIE 連接器和16 個用于在板卡間核間互聯(ICI,Inter-Core Interconnect)連接的 OS
45、FP 接口,即每個 TPUv4 芯片對應 1 個 PCIE 3x16 接口和 4 個支持 400G 雙工的 OSFP 接口。板卡采用液冷散熱方式。TPUv4 Rack:即單機柜,由 16 個 TPUv4 Tray 組成,共計 64 顆 TPUv4 芯片,因此也稱為 444 Cube。機柜內的兩個 TPUv4 Tray 之間通過無源電纜(銅纜)進行連接,形成 444 的 3D mesh 結構。每個 Rack 都需要和每個 OCS 交換機連接,光模塊用于 Rack 與 OCS 之間的連接,主要為單模光模塊。TPUv4 Supercomputer:也稱為 Pod,由 64 個 TPUv4 Rack
46、組成,共計 6464=4096顆 TPUv4 芯片。每個 Rack 都需要和每個 OCS 交換機一一連接。圖表圖表 19 TPUv4 單芯片封裝(左)和單芯片封裝(左)和 Tray(右)(右)圖表圖表 20 單個單個 TPUv4 Rack 由由 16 個個 TPUv4 Tray 組成組成 資料來源:Norman P.Jouppi,George Kurian,Sheng Li,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embedding
47、s,華創證券 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 圖表圖表 21 88 Rack 構成整個構成整個 TPUv4 計算機系統計算機系統 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 系統使用的系統使用的光模塊數量
48、為光模塊數量為 TPU 數量的數量的 1.5 倍。倍。一個 Rack 即為一個 444 的 Cube 立方體,由 64 個 TPUv4 芯片組成。立方體內部的連接較為簡單,節點主要通過銅纜進行連接,組成 3D mesh 拓撲。立方體外部連接較復雜,共有三個維度 6 個面,每個面 16 個節點,每個節點都需與 OCS 交換機連接,即每個面都會與一組 16 臺 OCS 交換機連接。同一個維度相對的兩面(上下、左右、前后)都需要連接到同一組的 OCS 交換機連接,形成 3D Torus 拓撲。光路系統的成本控制得很低,在整個 TPU v4 超級計算機成本中占 5%以下??梢运愠雒颗_ TPUv4 超級
49、計算機中,相關器件的用量:TPU 芯片數量:4096 個;OCS 交換機數量:XYZ 三個維度,每個維度 16 臺,共 48 臺;光通路數量:每個 cube 需要 6(面)16(節點)=96 個對外的光通路連接,因此 64 個 cube 對應 6496=6144 個光通路;光模塊數量:每個光通路需要 1 個光模塊實現 Cube 側的電光/光電轉換,因此整個系統需要 6144 個光模塊。即光模塊數量為 TPU 數量的 1.5 倍。內部銅纜連接數量:Rack 內部的板卡間是通過銅纜連接,因此每個 Rack 內部 16塊 TPUv4 板卡之間需要 80 條銅纜連接,64 個 Cube 對應 6480
50、=5120 條銅纜。圖表圖表 22 一個一個 cube(rack)由)由 64 個個 TPU 節點組成節點組成 圖表圖表 23 每個每個 cube 都需要和三個方向的都需要和三個方向的 OCS 連接,連接,組成組成 3D Torus 拓撲拓撲 資料來源:Norman P.Jouppi,George Kurian,Sheng Li,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,華創證券 資料來源:Norman P.Jo
51、uppi,George Kurian,Sheng Li,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,華創證券 圖表圖表 24 64 個個 TPUv4 rack 與與 48 個個 OCS 之間需要之間需要 6144 條光纖連接條光纖連接 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect a
52、nd Embeddings Support,華創證券 三、三、深度剖析深度剖析 Google OCS 解決方案解決方案:器件高度定制化:器件高度定制化(一)(一)基于基于 MEMS 器件的器件的 OCS 成為新的光交換方案成為新的光交換方案 OCS 是是簡單高效的光交換解決方案。簡單高效的光交換解決方案。業界對于光交換的技術研究比較早,此前包括壓電光開關、機械式光開關和 MEMS 系統等都有過一定的商業應用。Google 認為相對于電交換,基于 MEMS 的光交換方案在對數據速率及波長不敏感、低功耗、低延遲等方面都具備優勢,因此選擇了自研 OCS、光模塊和光環形器三大主要器件,以構成一個低成本
53、高效益的大規模光交換系統。OCS 的結構較為簡單,大體上可以分成兩套子系統:子系統 1:主要用于檢測控制。由 2 個 850nm 激光發射模組、3 個 850nm 激光可穿透的二向色鏡、2 個 MEMS 反射鏡陣列、2 個攝像模組所組成,主要的功能是通過檢測 850nm 激光在光交互通道中的傳輸狀態,調整 MEMS 反射鏡的相關參數,從而實現路徑上光信號損耗最??;子系統 2:光交換的實際鏈路。由 2 個 136 通道的光纖準直器陣列、3 個二向色鏡、2 個 MEMS 反射鏡陣列所組成,通過 MEMS 反射鏡的調整控制,實現經過兩個光纖準直器所接入的光通路之間的互聯互通。圖表圖表 25 OCS
54、的內部構造及實際布局的內部構造及實際布局 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 MEMS 反射鏡是反射鏡是 OCS 的核心組成器件。的核心組成器件。每個 MEMS 反射鏡模組采用陶瓷封裝,內部在一塊 MEMS 芯片上制作了 176 個微鏡,每個鏡子都可以單獨可控,鏡子表面鍍金以最大程度減少光路上的損耗,在最終完全校準后的系統中將有 136 個微鏡用于實際光開關中。每個微鏡可通過四個梳狀驅動進行調整,
55、在 X 軸和 Y 軸兩個自由度上旋轉從而實現所需的角度形成光通路。在這個 MEMS 的光交換核心之外,還有配置 272 個 LC/APC 連接器的前面板、12 塊高壓驅動板、CPU 控制板、電源及風扇等,共同組成了一個完整的具備136136 雙工端口的 OCS。據論文Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale數據,已有數萬個 OCS 已經制造并被部署。圖表圖表 26 MEMS 反射鏡結構和核心組成反射鏡結構和核心組成 圖表圖表 27 OCS 的整體架構的整體架構 資料來源:Ryohei Urata,H
56、ong Liu,et al.Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale,華創證券 資料來源:Ryohei Urata,Hong Liu,et al.Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale,華創證券 OCS 的創新性應用,有助于的創新性應用,有助于 MEMS 代工業務的拓展代工業務的拓展。結合 Google 相關論文的描述,我們判斷其 OCS 為自研產品,內部相關器件主要都為定制化開發和代工生產,如 MEM
57、S 反射鏡模組。根據 Yole 的預測,MEMS 器件在電信領域的市場將由 2022 年的 2 億美元增長至 2028 年的 8 億美元,CAGR 達到 28%,是各主要的 MEMS 應用市場中增長最快的細分方向,產品具體包括光學 MEMS 和基于 MEMS 的振蕩器。此外 MEMS 代工廠的商業模式增長較快,MEMS 代工業務的總收入同比增長 6%,達到近 7.7 億美元,一些 IDM由于運營成本高昂而正在重新考慮其商業模式,并轉向無晶圓廠模式,此外主要 MEMS代工廠的客戶數量也在激增,尋求新 MEMS 技術的合作,Google 的 OCS 業務正是其中的重要場景。全球 MEMS 代工廠近
58、幾年的排名相對穩定,其中賽微電子的全資控股子公司 silex 已連續數年保持排名第一。根據賽微電子在投資者問答平臺披露的信息,公司向客戶提供的產品包括 OCS(Optical Circuit Switch,MEMS 型光開關),MEMS-OCS 是基于 8 英寸 MEMS 工藝和設計技術制造,對于大模型所使用的 MEMS-OCS,公司瑞典工廠歷經 7 年研發已實現量產,公司北京工廠已進行約 2 年時間的工藝開發,希望后續能夠盡快推進風險試產及量產。圖表圖表 28 MEMS 在電信領域的市場增長較快在電信領域的市場增長較快 圖表圖表 29 2012-2021 年度全球年度全球 MEMS 代工廠排
59、名代工廠排名 資料來源:Yole,華創證券 資料來源:Yole Development 轉引自賽微電子2022年報,華創證券(二)(二)適配適配 OCS 需求,需求,定制化設計定制化設計光模塊光模塊 針對針對OCS的特定應用的特定應用,Google定制化定制化最新最新光模塊設計。光模塊設計。Google在論文 Lightwave Fabrics:At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems中認為,相較于數據中心網絡連接,用于機器學習系統網絡的光模塊在高帶寬、低延遲和同步特性有更高的要
60、求,與傳統光模塊有較大的差異,因此 Google 對光模塊中的關鍵組件,如激光器,環行器,跨阻放大器(TIA),光電探測器(PD),數字信號處理(DSP)ASIC 等進行了重新設計或者加強集成,以實現更低成本,提高可制造性。目前 Google 在基于 OCS 的TPUv4 Pod 中所使用的,是使用環形器+CWDM4/8 的最新一代 Bidi OSFP 封裝光模塊,分別是支持雙工 2400G(CWDM4,20nm 波長間隔)和雙工 800G(CWDM8,10nm 波長間隔)的傳輸速率。圖表圖表 30 數據中心網絡中數據中心網絡中 WDM 光模塊的演進光模塊的演進 圖表圖表 31 CWDM4(上
61、)和(上)和 CWDM8(下)的光模塊(下)的光模塊 資料來源:Hong Liu,Ryohei Urata,et al.Lightwave Fabrics:At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems,華創證券 資料來源:Hong Liu,Ryohei Urata,et al.Lightwave Fabrics:At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems,華創證券 光模塊
62、光模塊國內企業具有較強競爭力,未來應用技術難度更高,客戶粘性有望持續提升國內企業具有較強競爭力,未來應用技術難度更高,客戶粘性有望持續提升。根據 Google 論文所披露的信息,目前 OCS 中主要使用的新一代光模塊以 800G 端口速率為主,并且在 2024-2025 年有望引入 1.6T 速率光模塊。目前我國的光模塊企業在全球范圍具有較強競爭力,而且在 800G/1.6T 等高端高速產品上具有領先布局。我們認為,Google 應用于 OCS 的光模塊在性能上要求較高,因此其在選擇 800G 光模塊的供應商時應該會重點考慮供應商的綜合實力,此外光模塊具有較高的定制化要求,故也會優先選擇有較強
63、研發能力和良好合作關系的光模塊企業。在面向下一代更高速度,如 1.6T 的光模塊,由于速率提升后,技術、產品和穩定性的門檻更高,我們判斷,已有 800G 光模塊供應經驗的公司將具有先發卡位優勢,延續強者恒強的趨勢。圖表圖表 32 中國企業中國企業已占據已占據全球光模塊全球光模塊 Top10 榜單最多數量榜單最多數量 資料來源:LightCountingAI Clusters,Data Centers,Optical Networks,華創證券 圖表圖表 33 部分部分光模塊企業在光模塊企業在 800G/1.6T 產品布局產品布局 公司公司 800G 產品情況產品情況 1.6T 產品情況產品情況
64、 中際旭創 800G 光模塊現有 4x100Gx2 和 8X100G 兩種架構方案,包括分立式及硅光兩類技術路徑;預計 24Q1 后相關產能交付爬坡會有顯現。具體產品包括 800G OSFP-T-OP8CNT-N00:模塊傳輸速率達800Gbps,工作溫度為 0-70,功耗低于 16W,可支持 2 公里的傳輸距離。已有客戶需求,若順利將于 24 年通過驗證并下單,25 年上量;具體產品包括 1.6T OSFP-XDDR8+:模塊傳輸速率達 1.6Tbps,工作溫度為 0-70,功耗低于 32W,可支持 2 公里的傳輸距離。Finisar 公司預計 2024 年 800G 出貨量將迎來指數級增長
65、;具體產品包括 800G DR8 QSFP-DD:模塊設計用于 800 千兆以太網鏈路,光纖傳輸距離為 500 米。公司認為第一批 1.6T 產品預計將于未來幾年出貨 新易盛 800G 產品包括硅光、LPO 兩類技術路徑,部分產品已實現小批量出貨,2023 年 OFC 期間公司曾推出 800G LPO 系列產品;具體產品包括 800G OSFP-DD:800G 單波 200G 光模塊符合QSFPDD800MSA 的最新版本;固件支持 CMIS5.0 和更新版本;涵蓋 DR4+、1xDR4、1xFR4 和 2xFR2 傳輸接口 2023OFC 期間公司曾推出 1.6T 相關光模塊產品;具體產品包
66、括 1.6T OSFP-DD:采用 4xFR2 規格、OSFP-DD 封裝,采用 4XSN 連接器光接口,16X100Gbps 電接口,可支持最遠 2 公里傳輸,支持1.6T 點對點以及 2x800G,4X400G 的扇出式點對多點應用 云暉(cloudlight)客戶目前對 800G 的反饋非常積極,截止至 2023 年 10 月,云暉過去 12 個月 400G 收入占比高于 90%,最近一個季度公司 800G 收入占比已過半;具體產品包括 800G QSFP-DD DR8:每個通道可支持106.25Gb/s(PAM4)的數據傳輸,單模光纖傳輸長度為 500 米。-光迅科技 800G 多模和
67、單模的進展均較順利,送樣后陸續獲得訂單;具體產品包括 800G OSFP 2xLR4:設計用于 10 公里單模光纖上的800 千兆以太網鏈路。2023 年 OFC 期間公司曾推出 1.6Tdemo 版本;具體產品包括 1.6T OSFP-XD DR8+:設計用于在單模光纖上通過 PAM4 調制格式傳輸和接收高達 212.5 Gb/s 數據速率(每信道)的串行光學數據鏈路,采用熱插拔方式并集成了 EML 激光器 博創科技 公司將加大 800G 硅光模塊的開發進度,盡快實現 800G 產品的送樣 產品正在開發中 劍橋科技 一款硅光 800G 產品已進入小批量發貨,其他硅光、LPO 產品也在測試中。
68、此外,截止至 2023 年 10 月公司 800G 模塊思科已認證通過,準備量產。具體產品包括 800G QSFP-DD 2xFR4 EML:雙工 LC 單模光纖可達2 公里,工作溫度為 0-70 攝氏度 2023 年 OFC 期間公司曾展示使用 200G Lumentum激光器構建的 1.6T 光模塊原型;具體產品包括 1.6T OSFP-XD 2xDR4 EML:單模光纖傳輸距離為 500 米,工作溫度為 0-70。華工科技 2022Q3 公司 800G 硅光模塊已正式推出市場。截止至 2023 年 11 月公司 400G/800G DSP 系列模塊已經開始批量出貨。預計 24Q1 末80
69、0G LPO 產品也會批量出貨。具體產品包括 800G OSFP DR8 SiPh:自研的硅光芯片具備高調制效率支持 7 nm;DSP 內置驅動器直驅;無需使用 TEC 控溫,模塊全溫功耗小于 15W。產品處于研發中 聯特科技 截止至 2023 年 5 月公司 800G 光模塊處于客戶驗證階段。同時公司表示基于 SIP(硅光)和 TFLN(薄膜鈮酸鋰)調制技術的 800G 產品也會相繼推出。具體產品包括 800G QSFP-DD 2DR4:功耗低于 14W,8 通道 PIN 接收機,單模光纖傳輸距離可達 500m 產品處于研發中 索爾思光電 800G 數據中心光模塊已實現量產;具體產品包括 8
70、00G FR4(4x200G)OSFP:采用自主開發高功率激光器和先進 3D 密集光電混合封裝提升高速射頻性能,搭配收端高集成度多通道 PIN/TIA 接收機并配合最新工藝 5nm DSP 高性能均衡算法,傳輸距離可滿足 2km 應用需求。2023OFC 期間公司曾推出用于 1.6T 光模塊的單波200G PAM4 EML 激光器。AAOI 公司認為未來幾年 400G+800G 產品的營收可能超過 3 億美元;截止至 2023Q3 公司已向兩家客戶進行 800G 產品的送樣,未來還將繼續為另外兩家數據中心客戶送樣,公司預計 24Q2 或 Q3 公司 800G光模塊有望放量。-資料來源:公司公告
71、,公司官網等,華創證券 (三)(三)光模塊內創新光模塊內創新性引入環形器,傳輸效率進一步提升性引入環形器,傳輸效率進一步提升 引入引入環形器環形器,單光纖傳輸帶寬再提升。,單光纖傳輸帶寬再提升。此前環形器在電信系統中已有一定的應用,但數量規模有限,未形成大批量的穩定生態系統。此外也考慮到在機器學習的應用場景中要增加端口間的回波損耗和減少串擾等需要,Google 同樣選擇了對環形器的重新設計。使用環形器可實現單根光纖的雙工傳輸,主要作用是限制光的傳輸方向,如光由端口 1 輸入時,可以幾乎無損失地從端口 2 輸出,但不可從端口 3 輸出;當光從端口 2 輸入時,可以幾乎無損地從端口 3 輸出,但不
72、可從端口 1 輸出。環形器的實現原理主要是基于光的偏振特性。環形器主要由三個組件構成,分別是:PBS,偏振分束器,可實現 P 偏振光的透傳,S 偏振光的反射;FR,法拉第旋光器,具有非互易性,正向傳輸和反向傳輸偏振態旋轉方向一致 HWP,半波片,具有互易性,正向傳輸和反向傳輸偏振態旋轉方向相反 通過以上器件的疊加作用,可以限定光路的傳輸路徑:發射端到光纖:光由端口 1 進入環形器后,僅有 P 偏振態的光可以通過 PBS,經過 FR 后偏振態旋轉-45,再經過 HWP 后偏振態旋轉 45,抵消了 FR 的旋轉,仍為 P 偏振態,最終通過 PBS 傳輸到光纖處;光纖到接收端:光由光纖進入環形器后,
73、經過 PBS 會分成 S 偏振態和 P 偏振態兩部分的光,其中 P 偏振態光會穿透 PBS,經過 HWP 和 FR 兩次偏振態 45旋轉后成為 S 偏振態的光,經過 PBS 兩次反射后到達接收端口 3;S 偏振態光先經過 PBS 兩次發射后再經過 HWP 和 FR 兩次偏振態 45旋轉后成為 P 偏振態的光,到達接收端口 3。因此光信號經過環形器可以幾乎無損地傳輸到接收端。圖表圖表 34 環形器可實現單光纖的雙工通信環形器可實現單光纖的雙工通信 圖表圖表 35 環形器環形器基于光偏振基于光偏振的實現原理的實現原理 資料來源:Hong Liu,Ryohei Urata,et al.Lightwa
74、ve Fabrics:At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems,華創證券 資料來源:Hong Liu,Ryohei Urata,et al.Lightwave Fabrics:At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems,華創證券 環形器環形器供應鏈較為成熟供應鏈較為成熟,核心器件法拉第旋轉片國產化程度較低,核心器件法拉第旋轉片國產化程度較低。環形器此前比較多是應用在摻
75、鉺光纖放大器中,并且一般用在光模塊的外部,在 Google 的 OCS 應用場景中則被集成到光模塊內部,以獲得更高的性能、更小尺寸和更低成本。傳統獨立形態的環形器較為成熟,供應商較多,其中主要的供應商包括珠海光聯(Oplink)、II-VI(高意)、珠海三石園等,此外騰景科技可以提供可集成在光模塊中的環形器產品。在環形器內部,法拉第旋轉片是關鍵器件之一。根據光隆科技披露信息,目前法拉第旋轉片主要供應商為日本的 GRANOPT 和美國的 II-VI,二者在法拉第旋轉片市場的占有率合計超過 90%。國內的福晶科技、長飛光纖、東田微和飛銳特等公司在法拉第旋轉片晶體材料有布局,部分公司產品已通過下游大
76、客戶驗證,達到商業化標準。此外 PBS 偏振分束器近年國內廠商不斷突破關鍵技術,如福晶科技、騰景科技、萊擇光電等均已具備量產能力。圖表圖表 36 騰景科技可提供光模塊中的環形器騰景科技可提供光模塊中的環形器 資料來源:騰景科技官網,華創證券(四)(四)更高鏈路預算更高鏈路預算需求需求帶來的帶來的光芯片與電芯片配套升級光芯片與電芯片配套升級 配合配合 OCS 的應用環境,光模塊內光電芯片需進行較大的應用環境,光模塊內光電芯片需進行較大改變改變。由于 OCS 和環行器的使用,鏈路需要提供更高的損耗預算,因此配套的光模塊需要更少的光學元件和更低的封裝損耗,光模塊內部設計需進行較大改動:光芯片:Goo
77、gle 與業界合作開發了更快的光學元件(激光器/光電探測器),同時由于更高的速率和更大的消光比要求,為了減輕雙向通信帶來的多光路干擾(MPI)效應,光模塊所使用的激光器芯片需從 DML 演進為外部調制激光器 EML;電芯片:對于高速 IC/電氣技術,Google 用 DSP 方案替換了原來基于模擬的時鐘數據恢復(CDR)方案。使用 DSP 雖然增加了功耗和延遲,但是方案降低了對光器件和模擬電子元件的要求,通過算法降低雙工鏈路固有的多路干擾,應用 FEC 支持更高的鏈路預算,具有更高的魯棒性和可擴展性。圖表圖表 37 OCS 配套光模塊需改動的光芯片與電芯片設計配套光模塊需改動的光芯片與電芯片設
78、計 資料來源:Ryohei Urata,Hong Liu,Kevin Yasumura,et al.Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale,華創證券 EML 及及 DSP 芯片均以海外供應商為主,國產化程度較低。芯片均以海外供應商為主,國產化程度較低。根據源杰科技招股說明書,2021 年 25G 光芯片的國產化率約 20%,但 25G 以上光芯片的國產化率仍較低約為 5%,目前仍以海外光芯片廠商為主。800G 光模塊中主要使用 100G PAM4 EML 激光器,海外企業如 Lumemtum、II
79、-VI 和三菱等公司較早實現了產品布局,國內企業如源杰科技、長光華芯等正全力追趕,其中源杰科技在投資者平臺披露其 100G PAM4 EML 產品特性可以與海外產品對標,目前已在客戶端測試;長光華芯披露其單波 100G EML(56GBd EML 通過 PAM4 調制)產品已量產。DSP 也主要以海外企業為主,其中已被 Marvell 收購的Inphi 在 PAM4 DSP 領域占據較大市場份額,此外還有 Broadcom、Credo 和 Max Linear 等企業也提供 PAM4 DSP 產品。其中 Credo(默升科技)成立于 2008 年,由 3 名海歸華人在中國上海創立,目前可提供
80、Dove 800D/800/801/802/850 等適用于不同場景的 800G PAM4 DSP。圖表圖表 38 Credo 面向面向 800G 的單向的單向 PAM4 DSP 資料來源:Credo官網,華創證券 (五)(五)兩兩層連接釋放大量層連接釋放大量銅纜與銅纜與光纖需求光纖需求 Rack 內采用銅纜連接,內采用銅纜連接,Rack 外采用光纖連接外采用光纖連接。在 TPUv4 的系統設計中,每個 Rack 由4x4x4 個 TPUv4 芯片組成,其中 4 個 TPUv4 組成一張板卡,同一個 Rack 內的板卡間通過銅纜連接,Rack 和 OCS 之間使用光互聯,需要使用光模塊進行光電
81、轉換。TPUv4 的核間互聯 ICI 帶寬為 2400 Gb/s,每個 TPUv4 對外有 6 條 ICI 鏈路,因此每條 ICI 鏈路端口速率為 400Gb/s;TPUv5p 的 ICI 帶寬為 4800 Gb/s,同樣采用 3D Torus 拓撲,我們判斷其同樣有 6 條 ICI 鏈路,因此每條 ICI 鏈路端口速率為 800Gb/s。結合此前的測算,每個TPUv4 Pod 將釋放 6144 條光纜和 5120 條銅纜的連接需求,官方未公開 TPUv5p Pod 的具體硬件網絡設計,但其芯片數量為 8960 個,超過 TPUv4 Pod 芯片數量的兩倍,我們認為 TPUv5p Pod 集群
82、的光纜和銅纜的數量將大幅提升,同時接口速率也將達到 800 Gb/s。圖表圖表 39 TPUv4 板間板間通過通過 4 個個 OSFP 連接器實現互聯連接器實現互聯 圖表圖表 40 TPUv4 超級計算機中使用了大量的光纜連接超級計算機中使用了大量的光纜連接 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 資料來源:GoogleA Machine Learning Supercomputer With An
83、Optically Reconfigurable Interconnect and Embeddings Support,華創證券 四、四、AI 浪潮加速浪潮加速算力算力基礎設施的演進,重點關注基礎設施的演進,重點關注產業產業演變演變趨勢趨勢帶來的帶來的機遇機遇(一)(一)趨勢趨勢 1:自研自研低成本低成本算力算力部署部署方案方案或成為或成為新新選擇,有助于算力基礎設施的快速建選擇,有助于算力基礎設施的快速建設設 自研芯片有助于低成本高性能算力部署自研芯片有助于低成本高性能算力部署,或成為產業發展新趨勢,或成為產業發展新趨勢。Google 的 TPUv4 相較于 A100 性能更佳、成本更低、
84、功耗更低,下游客戶擁有更多高性價比選擇。根據 Google論文披露,對于類似大小的系統,TPUv4 的 BERT 訓練速度比 A100 快 1.15 倍;對于ResNet,TPUv4 表現為 A100 的 1.67 倍。而在部分測試中,A100 的功耗是 TPUv4 的 1.3-1.9 倍。對于 TPUv4 和 A100 的使用成本,我們參考 Google Cloud 的相關報價進行對比,TPUv4 Pod 在 us-centra2 區域按需/1 年租/3 年租的單芯片每小時使用價格分別約為 3.22美元、2.03 美元、1.45 美元,而 Google 提供向虛擬機(VM)實例掛接 GPU
85、的服務,其中 A100 80G GPU 在 us-central1 區域的每小時價格約為 1.57 美元。綜合以上數據,TPUv4在性能表現和功耗成本上,相較于 A100 都具有一定的優勢。這為下游客戶提供了更多的選擇,有望助力原本受制于成本和供應因素而未完全釋放的下游需求得到進一步加快加大的釋放,利好算力基礎設施產業鏈。Google 的客戶如 Anthropic、Hugging Face 和AssemblyAI 等就已在廣泛應用 TPU 所提供的算力服務。圖表圖表 41 TPUv4 與與 A100 在在 MLPerf 測試的表現對比測試的表現對比 圖表圖表 42 TPUv4 與與 A100
86、在在 MLPerf 測試的功耗對比測試的功耗對比 資料來源:Norman P.Jouppi,George Kurian,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,華創證券 資料來源:Norman P.Jouppi,George Kurian,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardwa
87、re Support for Embeddings,華創證券 降低核心芯片供應風險,降低核心芯片供應風險,AI 巨頭積極布局自研芯片。巨頭積極布局自研芯片。目前 Nvidia 的 GPU 因算力軍備競賽而需求大增,但其產能受限于 HBM、CoWos 封裝等的供應,因此 H100 芯片存在大量缺口,各 AI 巨頭能分到的 GPU 數量有限,根據 GPU Utils 預測,H100 的短缺情況或將持續至 2024 年。在此背景下 H100 的售價已達 3.5 萬美元左右,對應毛利率水平已超過90%。Google 通過自研 TPU,可降低算力核心芯片的供應風險,同時減少算力部署成本。除 Google
88、 以外,眾多 AI 巨頭公司也都在布局自研 AI 算力芯片,比如 Amazon 的 Trainium和 Inferentia、微軟的 Athena、META 的 MTIA 等。圖表圖表 43 Omdia 測算測算 2023Q3 A100 和和 H100 出貨量出貨量約為約為 500K 資料來源:Omdia Research 轉引自科技每日推送谷歌大模型,把李彥宏當成了創始人,華創證券(二)(二)趨勢趨勢 2:AI 巨頭的巨頭的算力需求算力需求景氣度高景氣度高,進一步推動進一步推動高度定制化高度定制化成為成為新新商業模式商業模式 AI 巨頭巨頭持續投入算力設施建設,持續投入算力設施建設,或更傾向
89、定制化算力解決方案?;蚋鼉A向定制化算力解決方案。Google、微軟兩大 AI 巨頭近兩個季度的 Capex 保持上升趨勢,對 24 年的投入預期也較為樂觀。目前 AI 產業中前端包括 Gemini、GPT-5 等更多參數量更大的大模型持續在訓練和發布,后端類似 Video Poet、Pika 等更多新穎 AI 應用持續推出,行業對于算力的需求仍在持續釋放中。由于大模型對算力的要求高,存在很多新技術難點,比如集群傳輸帶寬的提升等。Google 等 AI巨頭本身就具有很強的技術實力,作為最終用戶,對需求的理解也更為深入,配合著對核心 AI 算力芯片的自研,對整體解決方案高度定制化開發或成為合理有效
90、的解決方式。圖表圖表 44 Google 推出的零樣本視頻生成推出的零樣本視頻生成應用應用 Video Poet 資料來源:Dan Kondratyuk,Lijun Yu,Xiuye Gu,et al.VideoPoet:A Large Language Model for Zero-Shot Video Generation,華創證券 與與客戶客戶深度綁定的供應鏈企業,深度綁定的供應鏈企業,有望有望核心核心享受享受定制化帶來的高價值紅利定制化帶來的高價值紅利。我們認為,當定制化成為新商業模式時,將核心利好具備技術能力,同時與下游客戶具有深厚合作關系的供應企業。他們在產品形態持續升級過程中,有
91、望緊跟客戶研發步伐,率先進入客戶供應鏈,提前鎖定客戶需求,從而在產品代際更迭時率先享受紅利。例如 Google 為適配其 OCS 架構,對光模塊進行了定制設計,增加了環形器等器件,因此應用于 OCS 中的光模塊的價值量較一般應用場景的光模塊有較大提升,而且競爭門檻也有所提升,對于早期已切入 Google 供應鏈的相關光模塊企業以及上游的環形器等光學器件企業,受益利好的確定性高,享受紅利的周期長。圖表圖表 45 技術能力和客戶關系奠定供應鏈企技術能力和客戶關系奠定供應鏈企業的受益確定性業的受益確定性 資料來源:華創證券整理 (三)(三)趨勢趨勢 3:網絡架構升級網絡架構升級將催生如將催生如 OC
92、S 等新型設備的落地應用,帶來產業格局變化等新型設備的落地應用,帶來產業格局變化 高性能計算領域的拓撲結構高性能計算領域的拓撲結構正正被引入到智能算力中心被引入到智能算力中心。由傳統的三層網絡架構到適合大規模擴展的 CLOS 架構,目前數據中心應用較多的 CLOS 架構包括 Fat-tree 三層無帶寬收斂架構和 Spine-Leaf 二層 Fabric 架構兩種。隨著 AI 產業的快速發展,目前大型 AI 模型的參數數量級從幾百億躍升到幾萬億級別,對計算能力和內存資源的需求也隨之急劇增長,業界普遍采用構建算力集群的方式去滿足相應需求。如英偉達的 DGX 系列 AI 超級計算機,服務器間的 I
93、nfiniBand 網絡和服務器內 GPU 間的 NVLink 網絡均是采用 Fat-tree 架構。但傳統的 Fat-tree 架構在擴展性、跳轉延遲和成本等方面存在瓶頸,因此如Torus、Dragonfly 等高性能計算領域的拓撲結構也逐步被引入到智能算力中心,以提供大規模、低延遲、高帶寬的多算力芯片間互聯,比如 Google 在 TPUv4 超級計算機中所應用的 3D-Torus 拓撲。圖表圖表 46 數據中心拓撲架構演進數據中心拓撲架構演進 資料來源:開放數據中心委員會總線級數據中心網絡技術白皮書,華創證券 拓撲的演進必然會帶來使用設備的更新,拓撲的演進必然會帶來使用設備的更新,或或推
94、動推動產業格局產業格局變革變革。拓撲演進將帶來網絡設備的更新,OCS 就是最有代表性的案例。除了 Google 在 TPUv4 超級計算機中應用了 OCS以外,Nvidia 研發高級副總裁兼首席科學家 Bill Dally 在 Hoti 2023 年的主旨演講中也分享了其在 Dragonfly 拓撲中應用 OCS 的案例。通過引入 OCS 技術,可以有效解決網絡規模擴展時重新布線的難點,提高網絡的靈活性和可管理性,實現資源的靈活分配。同時通過 OCS 的靈活切換,可實現冗余節點對故障節點的輕松替換,進一步提高系統的可靠性。而 OCS 的供應鏈和傳統電交換機的有較大差異,因此在網絡拓撲演進促進 OCS 得到更多應用的趨勢下,產業格局或出現變革。圖表圖表 47 在在 Dragonfly 拓撲中應用拓撲中應用 OCS 資料來源:Sharada YeluriGPU Fabrics for GenAI Workloads轉引自SDNLAB,華創證券