《光通信產業系列報告之一新技術巡禮:深度拆解Google OCS及其產業鏈演進的投資機遇-240125(35頁).pdf》由會員分享,可在線閱讀,更多相關《光通信產業系列報告之一新技術巡禮:深度拆解Google OCS及其產業鏈演進的投資機遇-240125(35頁).pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、 證 券 研 究 報證 券 研 究 報 告告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 未經許可,禁止轉載未經許可,禁止轉載 行業研究行業研究 通信通信 2024 年年 01 月月 25 日日 光通信產業系列報告之一 推薦推薦(維持)(維持)新技術巡禮:深度新技術巡禮:深度拆解拆解 Google OCS 及其產及其產業鏈演進的投資機遇業鏈演進的投資機遇 Google 位居位居 AI 行業第一梯隊,有望進一步加強行業第一梯隊,有望進一步加強 AI 領域投資領域投資。Google 深耕 AI技術多年,為大模型領域奠基者,最新發布 Gemini 多模態模型,彰顯其在
2、 AI領域的深厚底蘊。為滿足內外部業務需求,Google 持續加強算力建設,特別是采取自研 TPU(張量處理器)的方式,滿足自身如大模型訓練/推理等相關的算力需求,同時也對外提供算力支持。TPU 為 Google 推出的用于機器學習的專用處理器,采用脈動陣列可加速大矩陣計算,更適合 AI 應用場景。TPU 歷經多代的持續更迭,已成為 Google 大模型訓練的主力軍。AI 賦能下 Google 利潤率及營收增速迎來拐點,其中 Google Cloud 業務占比提升迅速,有望成為公司第二成長曲線。AI 計算需求大幅增長下服務器及數據中心投資快速增長,推動 Google 資本開支進入向上通道,有望
3、進一步加強 AI 領域投資。自研基于自研基于 OCS 的光連接新方案,進一步提升的光連接新方案,進一步提升 TPU 集群性能。集群性能。Google 在建設自己的數據中心過程中,由于在部署規模、靈活可用、模塊化部署、安全性、功耗和性能等方面有更高要求,傳統電交換不滿足相關的互聯需求,因此引入了 OCS 形成新的解決方案。在搭建 TPUv4 的集群時,與傳統 Infiniband 交換機方案相比,OCS 方案成本更低,功耗更低,部署更快,其中 OCS 和其他光學組件的成本在系統總成本的占比低于 5%,功耗占比低于 3%。目前 OCS 在Google 基礎設施中主要有 Jupiter 數據中心和
4、TPU 數據中心兩大應用場景,其中后者為專注于 AI 算力的數據中心。深度剖析深度剖析 Google OCS 解決方案:器件高度定制化。解決方案:器件高度定制化?;?MEMS 的光交換方案在對數據速率及波長不敏感、低功耗、低延遲等方面都具備優勢,Google 選擇自研 OCS、光模塊和光環形器三大主要器件,以構成一個低成本高效益的大規模光交換系統。其中:1)MEMS 反射鏡是 OCS 的核心組成器件,OCS 的創新性應用,有助于 MEMS 代工業務的拓展。全球 MEMS 代工廠排名近幾年的排名相對穩定,其中賽微電子的全資控股子公司 silex 已連續數年保持排名第一;2)光模塊為適配 OCS
5、 需求,被重新定制化設計為使用環形器+CWDM4/8的最新一代 Bidi OSFP 封裝。光模塊國內企業具有較強競爭力,未來應用技術難度更高,客戶粘性有望持續提升;3)環形器被創新性引入光模塊內,傳輸效率進一步提升。環形器供應鏈較為成熟,核心器件法拉第旋轉片國產化程度較低,偏振分束器近年國內廠商如騰景科技等已具備量產能力;4)光芯片與電芯片因更高鏈路預算需求而配套升級,EML 及 DSP 芯片均以海外供應商為主,國產化程度較低;5)銅纜與光纖受益 Rack 內外連接,帶來較大需求。AI 浪潮加速浪潮加速算力算力基礎設施的演進,重點關注產業演變趨勢帶來的機遇?;A設施的演進,重點關注產業演變趨勢
6、帶來的機遇。AI 浪潮將帶來算力基礎設施建設的加速,同時也催生如 Google OCS 等新型技術的成熟和落地部署,有望推動產業的演進趨勢:1)自研低成本算力部署方案或成為新選擇,有助于算力基礎設施的快速建設;2)AI 巨頭的算力需求景氣度高,進一步推動高度定制化成為新商業模式;3)網絡架構升級將催生如 OCS等新型設備的落地應用,帶來產業格局變化。投資建議:投資建議:隨著 AI 行業成熟度逐步提升,海量算力需求將持續釋放,給光模塊光器件光芯片的整條光互聯產業鏈都將帶來長期而有力的拉動。以 Google OCS 為代表的新型算力光互聯解決方案有望得到更多應用,產業格局因此而出現新的變化,更多的
7、產業機遇將逐步明晰。建議關注算力釋放帶來的全產業鏈機遇,并重點關注新技術新方案從 0 到 1 演進帶來的產業預期差。建議核心關注中際旭創中際旭創、天孚通信天孚通信、騰景科技騰景科技、源杰科技源杰科技。風險提示風險提示:全球宏觀經濟發展不及預期,國際貿易局勢進一步緊張,AI 產業發展不及預期,產業供應格局出現較大變化 證券分析師:歐子興證券分析師:歐子興 郵箱: 執業編號:S0360523080007 行業基本數據行業基本數據 占比%股票家數(只)126 0.02 總市值(億元)36,584.08 4.56 流通市值(億元)11,530.53 1.86 相對指數表現相對指數表現%1M 6M 12
8、M 絕對表現-6.3%-17.3%3.8%相對表現-3.2%-1.9%26.5%相關研究報相關研究報告告 空天信息產業系列報告之一:奇點將至:論我國低軌衛星通信產業化落地 2024-01-10 通信行業周報(20231211-20231217):AI 領域光通信需求向上趨勢明顯,星鏈“直連小區”衛星發射在即 2023-12-17 通信行業 2024 年度投資策略:緊抓衛星通信+光模塊雙主線投資機會 2023-12-14 -23%-2%19%40%23/0123/0423/0623/0823/1124/012023-01-302024-01-23通信滬深300華創證券研究華創證券研究所所 通信行
9、業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 未經許可,禁止轉載未經許可,禁止轉載 投資投資主題主題 報告亮點報告亮點 本報告針對 Google 的 OCS 光互聯解決方案進行深度剖析,對其中的技術原理、設備結構、元器件產業鏈格局進行深入分析,并對由此可能帶來的算力基礎設施演進做出趨勢判斷,前瞻性提出應重點關注新技術新方案從 0 到 1演進帶來的投資機會。報告主體部分主要分成四個章節。第一章節先是介紹Google 在 AI 領域的領導地位,對其大模型和算力設施布局進行梳理,重點對其自研 AI 芯片 TPU 進行介紹,并結合業績表
10、現和資本開支預判其在 AI 領域的投資有望進一步加強;第二章節則對 OCS 解決方案的兩大應用場景,Jupiter 數據中心和 TPUv4 數據中心進行介紹;第三章則對 OCS 解決方案的系統構成和產業格局進行分析,深入拆解 OCS 的各部分組成元器件,并對各元器件產業鏈進行梳理;第四章則是根據以 OCS 為代表的新型光互聯解決方案的發展模式,歸納出三點行業發展的趨勢判斷,指引投資選擇。投資邏輯投資邏輯 隨著 AI 行業成熟度逐步提升,海量算力需求將持續釋放,給光模塊光器件光芯片的整條光互聯產業鏈都將帶來長期而有力的拉動。以 Google OCS 為代表的新型算力互聯解決方案有望得到更多應用,
11、產業格局因此而出現新的變化,更多的產業機遇將逐步明晰。建議關注算力釋放帶來的全產業鏈機遇,并重點關注新技術新方案從 0 到 1 演進帶來的產業預期差。建議核心關注以下標的:中際旭創(中際旭創(300308):全球知名的光模塊頭部供應商。):全球知名的光模塊頭部供應商。公司憑借行業領先的技術研發能力、低成本產品制造能力和全面可靠的交付能力等優勢,贏得了海內外客戶的廣泛認可,并保持在數通光模塊細分市場的領先優勢和份額。天孚通天孚通信(信(300394):業界領先的光器件整體解決方案提供商。):業界領先的光器件整體解決方案提供商。公司通過自主研發和外延并購,在精密陶瓷、工程塑料、復合金屬、光學玻璃等
12、基礎材料領域積累沉淀了多項全球領先的核心工藝技術,為全球客戶提供多種垂直整合一站式產品解決方案。騰景科技(騰景科技(688195):深耕定制化精密光學元件。):深耕定制化精密光學元件。公司基于核心技術,為客戶提供定制化的光電子元器件產品,已與全球主要的光模塊/設備廠商和光纖激光器廠商建立了合作關系,同時優勢產品在細分領域具有較高的市場影響力。源杰科技(源杰科技(600498):稀缺的高端光芯片國產代表企業。):稀缺的高端光芯片國產代表企業。公司目前產品包括2.5G、10G、25G、50G、100G 光芯片產品、CW 光源、車載激光雷達光源等產品,在境內外市場開拓了眾多的直接或間接優質客戶。dV
13、xUMAhXnUaUpW7NdN6MnPpPnPnRiNpPpOlOnPrPaQqQyRMYnPnRuOpMxO 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 3 目目 錄錄 一、一、Google 位居位居 AI 行業第一梯隊,有望進一步加強行業第一梯隊,有望進一步加強 AI 領域投資領域投資.6(一)Google 為大模型領域奠基者,最新發布的 Gemini 彰顯深厚底蘊.6 1、超前提出 AI First 戰略,長期深耕大模型和算力設施.6 2、自研的 AI 芯片 TPU,支撐 Google AI 技術及業務發展的重要
14、利器.8(二)Google Cloud 支撐公司業績向好,AI 領域投資有望進一步加強.11 二、二、自研基于自研基于 OCS 的光連接新方案,進一步提升的光連接新方案,進一步提升 TPU 集群性能集群性能.14(一)OCS 的應用場景 1:Jupiter 數據中心.14(二)OCS 的應用場景 2:TPUv4 計算中心.17 三、三、深度剖析深度剖析 Google OCS 解決方案:器件高度定制化解決方案:器件高度定制化.20(一)基于 MEMS 器件的 OCS 成為新的光交換方案.20(二)適配 OCS 需求,定制化設計光模塊.22(三)光模塊內創新性引入環形器,傳輸效率進一步提升.24(
15、四)更高鏈路預算需求帶來的光芯片與電芯片配套升級.26(五)兩層連接釋放大量銅纜與光纖需求.28 四、四、AI 浪潮加速算力基礎設施的演進,重點關注產業演變趨勢帶來的機遇浪潮加速算力基礎設施的演進,重點關注產業演變趨勢帶來的機遇.29(一)趨勢 1:自研低成本算力部署方案或成為新選擇,有助于算力基礎設施的快速建設.29(二)趨勢 2:AI 巨頭的算力需求景氣度高,進一步推動高度定制化成為新商業模式.30(三)趨勢 3:網絡架構升級將催生如 OCS 等新型設備的落地應用,帶來產業格局變化.31 五、五、投資建議投資建議.33 六、六、風險提示風險提示.33 通信行業深度研究報告通信行業深度研究報
16、告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 4 圖表目錄圖表目錄 圖表 1 2017 年以來,Google 在 AI 大模型方向的重要里程碑.6 圖表 2 Gemini Ultra 與 GPT-4 的性能對比.7 圖表 3 Gemini 專為多模態用例而設計.7 圖表 4 SGE 應用 AI 提升用戶搜索體驗.8 圖表 5 Google Engine 提供可掛載 GPU 的虛擬機服務.8 圖表 6 TPUv4 芯片的邏輯架構.8 圖表 7 CPU、GPU、TPU 工作原理對比.9 圖表 8 TPU 采用脈動陣列以提升計算吞吐量.9 圖表 9 TPU 性能逐步
17、提升.10 圖表 10 Google 的 TPU 訓練負載分配情況.11 圖表 11 Google 分季度營業收入及利潤率.11 圖表 12 Google 分季度各業務收入占比.12 圖表 13 Google Cloud 業務季度收入持續增長.12 圖表 14 海外主要云廠商近年各季度資本開支情況.13 圖表 15 Google 歷代數據中心網絡的演進.14 圖表 16 Google 第五代網絡架構 Jupiter 的內部結構.15 圖表 17 傳統 CLOS 架構與引入 OCS 網絡架構的對比.16 圖表 18 在 OCS 基礎上引入 WDM、環形器等技術的 Jupiter 網絡.16 圖表
18、 19 TPUv4 單芯片封裝(左)和 Tray(右).17 圖表 20 單個 TPUv4 Rack 由 16 個 TPUv4 Tray 組成.17 圖表 21 8 8 Rack 構成整個 TPUv4 計算機系統.18 圖表 22 一個 cube(rack)由 64 個 TPU 節點組成.19 圖表 23 每個 cube 都需要和三個方向的 OCS 連接,組成 3D Torus 拓撲.19 圖表 24 64 個 TPUv4 rack 與 48 個 OCS 之間需要 6144 條光纖連接.19 圖表 25 OCS 的內部構造及實際布局.20 圖表 26 MEMS 反射鏡結構和核心組成.21 圖表
19、 27 OCS 的整體架構.21 圖表 28 MEMS 在電信領域的市場增長較快.22 圖表 29 2012-2021 年度全球 MEMS 代工廠排名.22 圖表 30 數據中心網絡中 WDM 光模塊的演進.22 圖表 31 CWDM4(上)和 CWDM8(下)的光模塊.22 圖表 32 中國企業已占據全球光模塊 Top10 榜單最多數量.23 圖表 33 部分光模塊企業在 800G/1.6T 產品布局.23 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 5 圖表 34 環形器可實現單光纖的雙工通信.25 圖表 35 環形
20、器基于光偏振的實現原理.25 圖表 36 騰景科技可提供光模塊中的環形器.26 圖表 37 OCS 配套光模塊需改動的光芯片與電芯片設計.27 圖表 38 Credo 面向 800G 的單向 PAM4 DSP.27 圖表 39 TPUv4 板間通過 4 個 OSFP 連接器實現互聯.28 圖表 40 TPUv4 超級計算機中使用了大量的光纜連接.28 圖表 41 TPUv4 與 A100 在 MLPerf 測試的表現對比.29 圖表 42 TPUv4 與 A100 在 MLPerf 測試的功耗對比.29 圖表 43 Omdia 測算 2023Q3 A100 和 H100 出貨量約為 500K.
21、30 圖表 44 Google 推出的零樣本視頻生成應用 Video Poet.30 圖表 45 技術能力和客戶關系奠定供應鏈企業的受益確定性.31 圖表 46 數據中心拓撲架構演進.32 圖表 47 在 Dragonfly 拓撲中應用 OCS.32 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 6 一、一、Google 位居位居 AI 行業第一梯隊行業第一梯隊,有望進一步加強有望進一步加強 AI 領域投資領域投資(一)(一)Google 為大模型領域奠基者,為大模型領域奠基者,最新發布最新發布的的 Gemini 彰顯深厚
22、底蘊彰顯深厚底蘊 1、超前提出超前提出 AI First 戰略,長期深耕戰略,長期深耕大模型大模型和算力設施和算力設施 Google 深耕深耕 AI 技術多年,技術多年,為大模型領域奠基者。為大模型領域奠基者。早在 2017 年,Google 就已經把發展戰略從 Mobile First 轉變為 AI First。同年 Google 發布 NLP 模型 Transformer,該模型通過引入 Self-Attention 機制,利用注意力機制來提高模型訓練速度,使得模型可以并行化訓練,這也為后續大語言模型的升級迭代奠定了基礎。2018 年,Google 發布大規模預訓練模型 BERT,可以進行
23、雙向預測,該模型進一步提升了自然語言理解及處理的精度。2022年,Google 推出模型 PaLM,該模型在語言理解、邏輯推理、代碼生成等方面均實現了出色表現。2023 年以來,Google 先后推出 PaLM2 及 Gemini,模型能力進一步提升。圖表圖表 1 2017 年以來,年以來,Google 在在 AI 大模型大模型方向的重要里程碑方向的重要里程碑 資料來源:飛哥說AI公眾號OpenAI 何以掀翻 Google 布局多年的AI大棋?,華創證券 最新發布最新發布 Gemini 多模態模型,多模態模型,Google 彰顯彰顯 AI 深厚底蘊深厚底蘊。美國時間 2023 年 12 月 6
24、日,Google 正式發布該公司“規模最大、功能最強”的多模態大模型 Gemini,引發市場高度關注。根據 Google 披露,Gemini 是基于 Transformer decoder 構建的原生多模態模型,其性能較原有的單一模型更為全面,支持 32K 的 contex 長度。在大型語言模型(LLM)研發中使用的 32 個廣泛使用的學術基準中,Gemini Ultra 性能有 30 個都超過了當前最先進的結果,其中 Gemini Ultra 的 MMLU(大規模多任務語言理解)得分為 90.0%,是第一個優于人類專家的模型,多個任務性能表現也都超過 GPT-4。Google 未來會將 Ge
25、mini 融入到自身業務中,例如搜索、廣告、Chrome 和 Duet AI等。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 7 圖表圖表 2 Gemini Ultra 與與 GPT-4 的的性能對比性能對比 圖表圖表 3 Gemini 專為多模態用例而設計專為多模態用例而設計 資料來源:Google官網,華創證券 資料來源:Gemini Team,GoogleGemini:A Family of Highly Capable Multimodal Models,華創證券 為滿足為滿足內外部內外部業務業務需求,需求,Goo
26、gle持續持續加強加強算力算力建設建設。除了在大模型領域引領行業發展外,Google 在算力設施方面也有持續的布局,以滿足企業內外部的業務需求。對內,Google將 AI 技術深度賦能公司各項業務,包括搜索、地圖、廣告等公司傳統的優勢業務,例如公司推出了 SGE(Search Generative Experience)搜索引擎,利用 AI 改進用戶搜索體驗;對外,Google 通過 Google Cloud 可以提供從 IaaS 到 PaaS 到 SaaS 的 AI 相關一系列服務,其中Compute Engine是Google Cloud的計算托管服務,提供可添加到虛擬機實例的GPU,實現
27、智算算力的對外供應。為了滿足以上對內對外的算力需求,Google 一方面通過部署成熟的 GPU 資源提供算力服務,如最新發布的 A3 超級計算機即可提供 Nvdia H100 GPU算力;另一方面采取自研 TPU 的方式,滿足自身如大模型訓練/推理等相關的算力需求,同時也可對外提供算力支持。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 8 圖表圖表 4 SGE 應用應用 AI 提升用戶搜索體驗提升用戶搜索體驗 圖表圖表 5 Google Engine 提供可掛載提供可掛載 GPU 的虛擬機服務的虛擬機服務 資料來源:blo
28、g.google,華創證券 資料來源:科技云報道,華創證券 2、自研自研的的 AI 芯片芯片 TPU,支撐支撐 Google AI 技術技術及業務及業務發展的發展的重要重要利器利器 TPU(張(張量量處理器)為處理器)為 Google 推出推出的用于的用于機器學習機器學習的的專用專用處理器。處理器。為提升處理器訓練和學習神經網絡的計算能力,Google 用 15 個月的時間成功設計第一款張量處理器 TPU,并于 2016 年正式發布。該處理器專用于機器學習,擅長大型矩陣運算,可以更高效地訓練模型,芯片內集成的 HBM 也有助于更大規模的模型訓練,此外多個 TPU 可以組成 Pod集群,極大地提
29、升了神經網絡工作負載的效率。TPU 芯片在不同的版本中會包含一個或多個 TensorCore,每個 TensorCore 都由一個或多個矩陣乘法單元(MXU)、一個向量處理單元(VPU)和一個向量存儲器(VMEM)。其中 MXU 由收縮陣列中的 128128 乘法累加器組成,是供應算力的主要引擎,在每個周期能夠執行 16K 乘法累加運算。圖表圖表 6 TPUv4 芯片的邏輯架構芯片的邏輯架構 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddin
30、gs Support,華創證券 TPU 采用脈動陣列采用脈動陣列可加速可加速大矩陣大矩陣計算,更適合計算,更適合 AI 應用應用場景。場景。TPU 為專用于神經網絡工 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 9 作負載的矩陣處理器,相較于 CPU 和 GPU,TPU 的功率更低、物理占用空間更小。TPU采用了脈動陣列的方式以規避馮諾依曼瓶頸。在傳統的計算架構下由于需要對存儲器進行高頻訪問,系統的處理能力會極大地受限于其訪存能力。而脈動陣列的本質就是在訪問存儲器之前將更多的工作留存在處理單元內完成。在脈動陣列實現矩陣運
31、算的過程中(Y=WX+b),權重 W/像素 X 分別從上向下/從左至右地流入數組,每次執行乘法時各個單元的乘數結果將被直接傳遞累加至此前的計算結果中,直至數據不再流入。在脈動計算和數據傳遞的過程中 TPU 無需再訪問內存。TPU 雖然犧牲了通用性,但基于對脈動陣列的應用大幅提升了其計算吞吐量,顯著優化了矩陣與卷積運算過程,而大模型的訓練和推理過程中,主要涉及的就是矩陣及卷積計算,因此 TPU 作為專用型芯片特別適用于 AI 的應用場景中。圖表圖表 7 CPU、GPU、TPU 工作原理對比工作原理對比 圖表圖表 8 TPU 采用脈動陣列以提升計算吞吐量采用脈動陣列以提升計算吞吐量 資料來源:EI
32、TC,華創證券 資料來源:Norman P.Jouppi,Cliff Young,Nishant Patil,et al.In-Datacenter Performance Analysis of a Tensor Processing Unit,矽說,華創證券 歷經歷經多代的多代的持續持續更迭更迭,最新發布的最新發布的 TPUv5p 性能性能尤為強大尤為強大。2016 年 Google 推出的 TPUv1定位為推理芯片,為 AlphaGo 提供過重要的算力支撐,此后 Google 持續優化并迭代 TPU芯片的整體性能。2017 年發布的 TPUv2 兼顧了推理和訓練的功能,相較于 TPUv1
33、,TPUv2不再固定功能單元之間的緩沖區和激活管道,而是采用了向量存儲器和向量單元的方式實現功能。TPUv3 的改動較為溫和,整體與 TPUv2 采用相同技術,但將 MXU 和 HBM容量增加了兩倍。2021 年發布的 TPUv4 則首次引入光交換機(OCS)以解決規模和可靠性的障礙。2023 年 Google 先后推出 TPUv5e 及 TPUv5p 兩款芯片。其中 TPU v5e,可在 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 10 同樣成本情況下,為大語言模型和生成式 AI 模型提供相較于 TPUv4 高達 2
34、倍的訓練性能和 2.5 倍的推理性能;TPUv5p 則是 Google 有史以來功能最強大、可擴展性最強、靈活性最高的 AI 芯片,其訓練大型 LLM 模型的速度為 TPUv4 的 2.8 倍,較 TPUv5e 有近50%的提升。圖表圖表 9 TPU 性能逐步提升性能逐步提升 TPUv1 TPUv2 TPUv3 TPUv4 TPUv5e TPUv5p 發布時間 2016 2017 2018 2020 2023 2023 制程 28 nm 16 nm 16 nm 7 nm 未公布 未公布 HBM 內存(GB)N/A 16 32 32 16 95 HBM 內存帶寬(GB/s)34 600 900
35、1200 820 2765 峰值算力(Bf16,TFLOPs)N/A 46 123 275 197 459 峰值算力(Int8,TOPs)92 N/A N/A N/A 393 918 單芯片 ICI 帶寬(Gb/s)N/A 1984 2624 2400 1600 4800 集群 Pod 芯片數 N/A 256 1024 4096 256 8960 資料來源:IT之家 Norman P.Jouppi,Doe Hyun Yoon,et al.Ten Lessons From ThreeGenerations Shaped Googles TPUv4i,華創證券整理 TPU 已成已成為為 Googl
36、e 大模型訓練的主力軍。大模型訓練的主力軍。從 TPU 的使用情況來看,目前 Google 90%以上的模型訓練均在 TPU 上進行。根據 Norman P.Jouppi 等人的TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings數據,Google 已經部署了數十臺 TPUv4 超級計算機,其中有 8 臺會通過 Google Cloud 供外部使用。其中最新發布的多模態大模型 Gemini 主要就是通過 TPUv4 以及 TPUv5e
37、訓練的,而此前發布的 5400 億參數語言模型 PaLM 則是用兩個 TPUv4 pods 訓練的。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 11 圖表圖表 10 Google 的的 TPU 訓練負載訓練負載分配情況分配情況 資料來源:Norman P.Jouppi,George Kurian,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,華
38、創證券 (二)(二)Google Cloud 支撐公司業績向好,支撐公司業績向好,AI 領域投資領域投資有望有望進一步加強進一步加強 AI 賦能下賦能下 Google 利潤率及營收增速迎來拐點利潤率及營收增速迎來拐點。根據 Google 公司公告數據,2022 年公司收入為 2828 億美元,同比+9.8%,對應 2019-2022 年 CAGR 達 20.4%。2023Q1-3 公司收入為 2211 億美元,同比+6.9%。2022Q4 以來公司營收加速增長的趨勢主要系 AI 賦能下公司服務類業務及云業務快速增長所致。同期公司利潤率有所改善則主要因為:1)AI 的應用降低了員工人數的增幅;2
39、)AI 優化了工作流程,加強了運營效率;3)良好的費用管控成效及其他原因。圖表圖表 11 Google 分季度營業收入及利潤率分季度營業收入及利潤率 資料來源:Google公司公告,華創證券-10%0%10%20%30%40%50%60%70%01002003004005006007008009002019Q12019Q32020Q12020Q32021Q12021Q32022Q12022Q32023Q12023Q3營業收入(億美元)營業總收入同比(右軸)毛利率(右軸)凈利率(右軸)通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210
40、 號 12 Google Cloud 業務占比提升迅速,業務占比提升迅速,有望成為公司第二成長曲線有望成為公司第二成長曲線。從收入結構來看,主要包括廣告業務、云業務及其他業務。其中廣告業務主要包括搜索、網絡及 You Tube 廣告業務,云業務則主要包括云平臺、工作區及其他企業服務。近年來云業務受益云平臺和工作區業務的增長,收入占比呈快速上漲趨勢,2022/2023Q1-3 公司云業務收入占比分別為 9.3%/10.8%,同比分別+1.8/1.6pcts。其中云平臺實現高增主要系客戶人均營收有所增加及基礎設施和平臺服務有所增長所致。根據公司 IR 公告,目前全球最大的 1000 家公司中超過
41、60%的企業均為 Google Cloud 的客戶。公司認為目前其在 AI 解決方案 Vertex AI、Duet 及 GCP、Workspace 的客戶參與度上都具有較高的潛力,未來公司將繼續積極地保持對相關業務的投資,云業務有望成為公司的第二成長曲線。圖表圖表 12 Google 分季度分季度各各業務收入占比業務收入占比 圖表圖表 13 Google Cloud 業務業務季度季度收入收入持續增長持續增長 資料來源:Google公司公告,華創證券 資料來源:Google公司公告,華創證券 Google 資本開支進入向上通道,有望進一步加強資本開支進入向上通道,有望進一步加強 AI 領域投資領
42、域投資。2022 年,微軟、Google、亞馬遜、蘋果、Meta 資本開支同比分別+3%/28%/5%/13%/67%,Google 資本開支增速居于行業前列。具體來看,Google 資本開支主要由服務器及網絡設備投資組成,其中包括AI、數據中心及配套建筑等項目的建設。2022/2023Q1-3 Google 資本開支分別為 315/212億美元,同比分別+27.8%/-11.1%。公司單 Q3 資本開支為 80.6 億美元,同比/環比分別+10.7%/+16.9%。Q3 資本開支環比顯著回暖主要系 AI 計算需求大幅增長下服務器及數據中心投資快速增長所致。根據公司 IR 公告,2023Q4
43、及 2024 公司資本開支將持續增長,但整體增速將低于公司營收增速。在資本開支投向方面,公告顯示 Google 將著力加強在AI 領域的相關投資,未來公司資本開支有望實現高質量增長,預計到 2025 年,Google在 AI 領域的總投入將達到 1000 億美元。5%5%6%6%7%8%7%7%7%7%8%7%9%9%10%10%11%11%11%0%10%20%30%40%50%60%70%80%90%100%2019Q12019Q42020Q32021Q22022Q12022Q42023Q3Google廣告業務Google云業務Google其他業務其他業務0%10%20%30%40%50%
44、60%01020304050607080902019Q12019Q42020Q32021Q22022Q12022Q42023Q3Google云業務Google云業務收入同比(右軸)通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 13 圖表圖表 14 海外主要云廠商近年各季度資本開支情況海外主要云廠商近年各季度資本開支情況 資料來源:公司公告,華創證券 -50%0%50%100%150%200%250%0501001502002503003504004502019Q1 2019Q3 2020Q1 2020Q3 2021Q1 2
45、021Q3 2022Q1 2022Q3 2023Q1 2023Q3META蘋果亞馬遜微軟谷歌YoY-谷歌(右軸)YoY-微軟(右軸)YoY-亞馬遜(右軸)YoY-蘋果(右軸)通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 14 二、二、自研自研基于基于 OCS 的光連接新方案的光連接新方案,進一步提升,進一步提升 TPU 集群性能集群性能 需求推動需求推動 OCS 技術落地,深度賦能兩大應用場景。技術落地,深度賦能兩大應用場景。OCS(Optical circuit switches),即光電路交換機,是在光層動態地配置互連
46、拓撲,類似于傳統的交換機在電層交換的作用。Google 在建設自己的數據中心過程中,由于在部署規模、靈活可用、模塊化部署、安全性、功耗和性能等方面有更高要求,傳統電交換不滿足相關的互聯需求,因此引入了 OCS形成新的解決方案。根據 Google 論文的數據,在搭建 TPUv4 的集群時,與傳統 Infiniband交換機方案相比,OCS 方案成本更低,功耗更低,部署更快,其中 OCS 和其他光學組件的成本在系統總成本的占比低于 5%,功耗占比低于 3%。目前 OCS 在 Google 基礎設施中主要有 Jupiter 數據中心和 TPU 數據中心兩大應用場景,其中后者為專注于 AI 算力的數據
47、中心。(一)(一)OCS 的應用場景的應用場景 1:Jupiter 數據中心數據中心 Jupiter:Google 自研的自研的第五代第五代網絡網絡架構。架構。早期 Google 的數據中心里使用的是一種非常簡易的網絡集群架構,由 4 個商用路由器串聯成環構成,512 臺 ToR 交換機與每個商用路由器都連接,每臺 ToR 交換機與 40 臺服務器相連,從而形成了一個 51240,約 2 萬臺服務器的集群。這種架構缺點很明顯,可擴展性差,同時也不適用于大帶寬應用場景。由于其業務對帶寬需求和數據中心分布式計算基礎設施的規模要求較高,從 2005 年開始,Google 即推出第一代自研網絡架構 F
48、irehose,通過定制數據中心網絡硬件和軟件去實現所需規模大小的集群構建。隨后歷經了五代架構的演進后,逐步形成目前的 Jupiter架構。圖表圖表 15 Google 歷代數據中心網絡的演進歷代數據中心網絡的演進 數據網絡架數據網絡架構構 發布發布時間時間 商用交換芯片商用交換芯片 ToR 交換機配交換機配置置 匯聚層匯聚層交換機交換機配置配置 Spine 層層交換機交換機配配置置 網絡速率網絡速率 服務器端口速服務器端口速率率 網絡網絡帶寬帶寬 Four-Post CRs 2004 vendor 48x1G -10G 1G 2T Firehose 1.0 2005 8x10G 4x10G(
49、ToR)2x10G 上行 24x1G 下行 2x32x10G(有阻塞)32x10G(非阻塞)10G 1G 10T Firehose 1.1 2006 8x10G 4x10G 上行 48x1G 下行 64x10G(有阻塞)32x10G(非阻塞)10G 1G 10T Watchtower 2008 16x10G 4x10G 上行 48x1G 下行 4x128x10G(非阻塞)128x10G(非阻塞)10G nx1G 82T Saturn 2009 24x10G 24x10G 4x288x10G(非阻塞)288x10G(非阻塞)10G nx10G 207T Jupiter 2012 16x40G 1
50、6x40G 8x128x40G(有阻塞)128x40G(非阻塞)10/40G nx10G/nx40G 1.3P 資料來源:Arjun Singh,Joon Ong,Amit Agarwal,et al.Jupiter Rising:A Decade of Clos Topologies and Centralized Control in Googles Datacenter Network,華創證券 初代初代 Jupiter 一鳴驚人,最大可支持超過一鳴驚人,最大可支持超過 3 萬臺服務器組網萬臺服務器組網。在 2015 年論文Jupiter Rising:A Decade of Clos
51、Topologies and Centralized Control in Google s Datacenter Network中,可以看到 Jupiter 主要應用 CLOS 架構,由 ToR、Spine 塊和 Aggregation 塊三大部分組成,其中最基礎的交換單元都是商用交換芯片,單芯片可提供 16x40G 或者 64x10G 的端口連接。4 個交換芯片是通過一臺 Centauri 交換機來提供。Spine 塊:內部由 6 臺 Centauri 交換機組成。邏輯上會再分成兩層,上層由 4 臺Centauri 交換機的一半交換芯片組成,向下可提供 32x40G 端口;下層由 2 臺完
52、整的 Centauri 交換機以及 4 臺 Centauri 交換機剩下一半的交換芯片所組成,可向 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 15 上行的上層 Spine 交換機和下行的 Aggregation 交換機分別提供 128x40G 端口;Aggregation 塊:內部由 8 個中間(Middle)塊組成,每個中間塊由 4 臺 Centauri交換機組成,每個中間塊可向上行的上層 Spine 交換機提供 64x40G 端口和下行的 ToR 交換機分別提供 256x10G 端口;ToR 交換機:即 Centa
53、uri 交換機,由兩組共 4 個交換芯片所組成,單個交換芯片被配置為 48x10G 的下行與服務器連接和 8x2x10G 的上行與 8 個中間塊交換機連接。在最大的配置環境中,Jupiter 可為服務器提供總共 1.3 Pbps 的網絡帶寬,即可支持超過3 萬臺端口速率為 40Gbps 的服務器接入。圖表圖表 16 Google 第五代網絡架構第五代網絡架構 Jupiter 的內部結構的內部結構 資料來源:Arjun Singh,Joon Ong,Amit Agarwal,et al.Jupiter Rising:A Decade of Clos Topologies and Centrali
54、zed Control in Googles Datacenter Network,華創證券 Jupiter 網絡架構持續升級,網絡架構持續升級,引入引入 OCS 實現能力實現能力的的躍升躍升。在初代 Jupiter 的基礎上,Google對網絡架構進行持續升級,通過引入 OCS(Optical Circuit Switches,光交換機)取代 Spine層傳統電交換機,將網絡邏輯拓撲由 CLOS 架構演進到 Aggregation 塊的直接光互聯。由于 OCS 采用光交換,對傳輸的速率無感,通過進一步引入 WDM(波分復用)和環形器等技術可以實現在單根光纖上傳輸通道數的增加以及 Tx/RX
55、雙路信號,提升單光纖的數據傳輸速率,實現整個 Jupiter 網絡互聯帶寬的數倍增長?;谝陨系募夹g革新,Jupiter已實現超過 6 Pbps 帶寬容量,即相對于初代實現約 5 倍帶寬提升的同時,電力消耗減少了 41%,成本降低 30%。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 16 圖表圖表 17 傳統傳統 CLOS 架構與引入架構與引入 OCS 網絡架構的對比網絡架構的對比 傳統傳統 CLOS 架構架構 引入引入 OCS 的網絡架構的網絡架構 拓撲圖 技術原理 Spine 層為電交換機,在交換 Aggregati
56、on 塊傳輸過來的數據時,需要對數據進行電層的接收、拆包、解析、計算確認路徑、封包、發送等一系列操作,才能最終完成數據的交換傳輸。用 OCS 取代 Spine 層電交換機,OCS 內部由 Mems 反射鏡組成,通過提前路徑規劃和配置,實現各端口在光層的互聯,因此可直接進行光交換,無需進行電層的處理,可看成是 Aggregation 塊之間直接實現互聯。交換方式 電交換 光交換 交換處理時延 長 短 是否支持異速率接入 否,電交換需交換機匹配傳輸速率 是,光交換對傳輸速率無感 網絡帶寬升級難度 高,需要采購安裝更高端口速率的電交換機 低,無需更換 OCS 設備 功耗 高 低 資料來源:Ryohe
57、i Urata,Hong Liu,Kevin Yasumura,et al.Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale,華創證券整理 圖表圖表 18 在在 OCS 基礎上引入基礎上引入 WDM、環形器等技術的、環形器等技術的 Jupiter 網絡網絡 資料來源:Leon Poutievski,Omid Mashayekhi,Joon Ong,et al.Jupiter Evolving:Transforming Googles DatacenterNetwork via Optical Circuit
58、 Switches andSoftware-Defined Networking,華創證券 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 17 (二)(二)OCS 的應用場景的應用場景 2:TPUv4 計算中心計算中心 Google 自研的低成本高性能自研的低成本高性能 TPUv4 超級計算機集群超級計算機集群。TPUv4 的超級計算機自 2020 年開始在 Google 得到大規模應用,系統由 4096 個 TPUv4 芯片組成,共享 256 TiB 的 HBM內存,總算力超過 1 ExaFLOP。網絡架構中引入了 OC
59、S 等 Jupiter 的核心技術。目前 Google已經部署了數十臺 TPU v4 超級計算機,供內部使用和外部通過 Google Cloud 使用。在TPUv4 超級計算機中,最基礎的物理算力單元是 TPU 芯片,系統的設備組成路徑如下:TPUv4 Package:即單芯片,主要由 1 個 ASIC+4 個 HBM 堆棧封裝 TPUv4 Tray:即單板卡,由 4 個 TPUv4 芯片組成,每個 TPUv4 芯片會出 6 條鏈路,其中兩條用于板內連接,四條用于板間連接。TPUv4 芯片在板卡內以 mesh方式連接,在板卡間則以 3D Torus 連接。板塊前面板分布有 4 個 PCIE 連
60、接器和16 個用于在板卡間核間互聯(ICI,Inter-Core Interconnect)連接的 OSFP 接口,即每個 TPUv4 芯片對應 1 個 PCIE 3x16 接口和 4 個支持 400G 雙工的 OSFP 接口。板卡采用液冷散熱方式。TPUv4 Rack:即單機柜,由 16 個 TPUv4 Tray 組成,共計 64 顆 TPUv4 芯片,因此也稱為 444 Cube。機柜內的兩個 TPUv4 Tray 之間通過無源電纜(銅纜)進行連接,形成 444 的 3D mesh 結構。每個 Rack 都需要和每個 OCS 交換機連接,光模塊用于 Rack 與 OCS 之間的連接,主要為
61、單模光模塊。TPUv4 Supercomputer:也稱為 Pod,由 64 個 TPUv4 Rack 組成,共計 6464=4096顆 TPUv4 芯片。每個 Rack 都需要和每個 OCS 交換機一一連接。圖表圖表 19 TPUv4 單芯片封裝(左)和單芯片封裝(左)和 Tray(右)(右)圖表圖表 20 單個單個 TPUv4 Rack 由由 16 個個 TPUv4 Tray 組成組成 資料來源:Norman P.Jouppi,George Kurian,Sheng Li,et al.TPU v4:An Optically Reconfigurable Supercomputer for
62、Machine Learning with Hardware Support for Embeddings,華創證券 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 18 圖表圖表 21 88 Rack 構成整個構成整個 TPUv4 計算機系統計算機系統 資料來源:GoogleA Machin
63、e Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 系統使用的系統使用的光模塊數量為光模塊數量為 TPU 數量的數量的 1.5 倍。倍。一個 Rack 即為一個 444 的 Cube 立方體,由 64 個 TPUv4 芯片組成。立方體內部的連接較為簡單,節點主要通過銅纜進行連接,組成 3D mesh 拓撲。立方體外部連接較復雜,共有三個維度 6 個面,每個面 16 個節點,每個節點都需與 OCS 交換機連接,即每個面都會與一組 16 臺 OCS 交換
64、機連接。同一個維度相對的兩面(上下、左右、前后)都需要連接到同一組的 OCS 交換機連接,形成 3D Torus 拓撲。光路系統的成本控制得很低,在整個 TPU v4 超級計算機成本中占 5%以下??梢运愠雒颗_ TPUv4 超級計算機中,相關器件的用量:TPU 芯片數量:4096 個;OCS 交換機數量:XYZ 三個維度,每個維度 16 臺,共 48 臺;光通路數量:每個 cube 需要 6(面)16(節點)=96 個對外的光通路連接,因此 64 個 cube 對應 6496=6144 個光通路;光模塊數量:每個光通路需要 1 個光模塊實現 Cube 側的電光/光電轉換,因此整個系統需要 61
65、44 個光模塊。即光模塊數量為 TPU 數量的 1.5 倍。內部銅纜連接數量:Rack 內部的板卡間是通過銅纜連接,因此每個 Rack 內部 16塊 TPUv4 板卡之間需要 80 條銅纜連接,64 個 Cube 對應 6480=5120 條銅纜。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 19 圖表圖表 22 一個一個 cube(rack)由)由 64 個個 TPU 節點組成節點組成 圖表圖表 23 每個每個 cube 都需要和三個方向的都需要和三個方向的 OCS 連接,連接,組成組成 3D Torus 拓撲拓撲 資料
66、來源:Norman P.Jouppi,George Kurian,Sheng Li,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,華創證券 資料來源:Norman P.Jouppi,George Kurian,Sheng Li,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Suppor
67、t for Embeddings,華創證券 圖表圖表 24 64 個個 TPUv4 rack 與與 48 個個 OCS 之間需要之間需要 6144 條光纖連接條光纖連接 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 20 三、三、深度剖析深度剖析 Google OCS 解決方案解決方案:器件
68、高度定制化:器件高度定制化(一)(一)基于基于 MEMS 器件的器件的 OCS 成為新的光交換方案成為新的光交換方案 OCS 是是簡單高效的光交換解決方案。簡單高效的光交換解決方案。業界對于光交換的技術研究比較早,此前包括壓電光開關、機械式光開關和 MEMS 系統等都有過一定的商業應用。Google 認為相對于電交換,基于 MEMS 的光交換方案在對數據速率及波長不敏感、低功耗、低延遲等方面都具備優勢,因此選擇了自研 OCS、光模塊和光環形器三大主要器件,以構成一個低成本高效益的大規模光交換系統。OCS 的結構較為簡單,大體上可以分成兩套子系統:子系統 1:主要用于檢測控制。由 2 個 850
69、nm 激光發射模組、3 個 850nm 激光可穿透的二向色鏡、2 個 MEMS 反射鏡陣列、2 個攝像模組所組成,主要的功能是通過檢測 850nm 激光在光交互通道中的傳輸狀態,調整 MEMS 反射鏡的相關參數,從而實現路徑上光信號損耗最??;子系統 2:光交換的實際鏈路。由 2 個 136 通道的光纖準直器陣列、3 個二向色鏡、2 個 MEMS 反射鏡陣列所組成,通過 MEMS 反射鏡的調整控制,實現經過兩個光纖準直器所接入的光通路之間的互聯互通。圖表圖表 25 OCS 的內部構造及實際布局的內部構造及實際布局 資料來源:GoogleA Machine Learning Supercomput
70、er With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 MEMS 反射鏡是反射鏡是 OCS 的核心組成器件。的核心組成器件。每個 MEMS 反射鏡模組采用陶瓷封裝,內部在一塊 MEMS 芯片上制作了 176 個微鏡,每個鏡子都可以單獨可控,鏡子表面鍍金以最大程度減少光路上的損耗,在最終完全校準后的系統中將有 136 個微鏡用于實際光開關中。每個微鏡可通過四個梳狀驅動進行調整,在 X 軸和 Y 軸兩個自由度上旋轉從而實現所需的角度形成光通路。在這個 MEMS 的光交換核心之外,還有配置 272 個
71、LC/APC 連接器的前面板、12 塊高壓驅動板、CPU 控制板、電源及風扇等,共同組成了一個完整的具備136136 雙工端口的 OCS。據論文Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale數據,已有數萬個 OCS 已經制造并被部署。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 21 圖表圖表 26 MEMS 反射鏡結構和核心組成反射鏡結構和核心組成 圖表圖表 27 OCS 的整體架構的整體架構 資料來源:Ryohei Urata,H
72、ong Liu,et al.Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale,華創證券 資料來源:Ryohei Urata,Hong Liu,et al.Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale,華創證券 OCS 的創新性應用,有助于的創新性應用,有助于 MEMS 代工業務的拓展代工業務的拓展。結合 Google 相關論文的描述,我們判斷其 OCS 為自研產品,內部相關器件主要都為定制化開發和代工生產,如 MEM
73、S 反射鏡模組。根據 Yole 的預測,MEMS 器件在電信領域的市場將由 2022 年的 2 億美元增長至 2028 年的 8 億美元,CAGR 達到 28%,是各主要的 MEMS 應用市場中增長最快的細分方向,產品具體包括光學 MEMS 和基于 MEMS 的振蕩器。此外 MEMS 代工廠的商業模式增長較快,MEMS 代工業務的總收入同比增長 6%,達到近 7.7 億美元,一些 IDM由于運營成本高昂而正在重新考慮其商業模式,并轉向無晶圓廠模式,此外主要 MEMS代工廠的客戶數量也在激增,尋求新 MEMS 技術的合作,Google 的 OCS 業務正是其中的重要場景。全球 MEMS 代工廠近
74、幾年的排名相對穩定,其中賽微電子的全資控股子公司 silex 已連續數年保持排名第一。根據賽微電子在投資者問答平臺披露的信息,公司向客戶提供的產品包括 OCS(Optical Circuit Switch,MEMS 型光開關),MEMS-OCS 是基于 8 英寸 MEMS 工藝和設計技術制造,對于大模型所使用的 MEMS-OCS,公司瑞典工廠歷經 7 年研發已實現量產,公司北京工廠已進行約 2 年時間的工藝開發,希望后續能夠盡快推進風險試產及量產。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 22 圖表圖表 28 MEMS
75、 在電信領域的市場增長較快在電信領域的市場增長較快 圖表圖表 29 2012-2021 年度全球年度全球 MEMS 代工廠排名代工廠排名 資料來源:Yole,華創證券 資料來源:Yole Development 轉引自賽微電子2022年報,華創證券(二)(二)適配適配 OCS 需求,需求,定制化設計定制化設計光模塊光模塊 針對針對OCS的特定應用的特定應用,Google定制化定制化最新最新光模塊設計。光模塊設計。Google在論文 Lightwave Fabrics:At-Scale Optical Circuit Switching for Datacenter and Machine Le
76、arning Systems中認為,相較于數據中心網絡連接,用于機器學習系統網絡的光模塊在高帶寬、低延遲和同步特性有更高的要求,與傳統光模塊有較大的差異,因此 Google 對光模塊中的關鍵組件,如激光器,環行器,跨阻放大器(TIA),光電探測器(PD),數字信號處理(DSP)ASIC 等進行了重新設計或者加強集成,以實現更低成本,提高可制造性。目前 Google 在基于 OCS 的TPUv4 Pod 中所使用的,是使用環形器+CWDM4/8 的最新一代 Bidi OSFP 封裝光模塊,分別是支持雙工 2400G(CWDM4,20nm 波長間隔)和雙工 800G(CWDM8,10nm 波長間隔
77、)的傳輸速率。圖表圖表 30 數據中心網絡中數據中心網絡中 WDM 光模塊的演進光模塊的演進 圖表圖表 31 CWDM4(上)和(上)和 CWDM8(下)的光模塊(下)的光模塊 資料來源:Hong Liu,Ryohei Urata,et al.Lightwave Fabrics:At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems,華創證券 資料來源:Hong Liu,Ryohei Urata,et al.Lightwave Fabrics:At-Scale Optical Circuit
78、Switching for Datacenter and Machine Learning Systems,華創證券 光模塊光模塊國內企業具有較強競爭力,未來應用技術難度更高,客戶粘性有望持續提升國內企業具有較強競爭力,未來應用技術難度更高,客戶粘性有望持續提升。根據 Google 論文所披露的信息,目前 OCS 中主要使用的新一代光模塊以 800G 端口速率為主,并且在 2024-2025 年有望引入 1.6T 速率光模塊。目前我國的光模塊企業在全球范圍具有較強競爭力,而且在 800G/1.6T 等高端高速產品上具有領先布局。我們認為,Google 通信行業深度研究報告通信行業深度研究報告
79、證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 23 應用于 OCS 的光模塊在性能上要求較高,因此其在選擇 800G 光模塊的供應商時應該會重點考慮供應商的綜合實力,此外光模塊具有較高的定制化要求,故也會優先選擇有較強研發能力和良好合作關系的光模塊企業。在面向下一代更高速度,如 1.6T 的光模塊,由于速率提升后,技術、產品和穩定性的門檻更高,我們判斷,已有 800G 光模塊供應經驗的公司將具有先發卡位優勢,延續強者恒強的趨勢。圖表圖表 32 中國企業中國企業已占據已占據全球光模塊全球光模塊 Top10 榜單最多數量榜單最多數量 資料來源:LightCountin
80、gAI Clusters,Data Centers,Optical Networks,華創證券 圖表圖表 33 部分部分光模塊企業在光模塊企業在 800G/1.6T 產品布局產品布局 公司公司 800G 產品情況產品情況 1.6T 產品情況產品情況 中際旭創 800G 光模塊現有 4x100Gx2 和 8X100G 兩種架構方案,包括分立式及硅光兩類技術路徑;預計 24Q1 后相關產能交付爬坡會有顯現。具體產品包括 800G OSFP-T-OP8CNT-N00:模塊傳輸速率達800Gbps,工作溫度為 0-70,功耗低于 16W,可支持 2 公里的傳輸距離。已有客戶需求,若順利將于 24 年通
81、過驗證并下單,25 年上量;具體產品包括 1.6T OSFP-XDDR8+:模塊傳輸速率達 1.6Tbps,工作溫度為 0-70,功耗低于 32W,可支持 2 公里的傳輸距離。Finisar 公司預計 2024 年 800G 出貨量將迎來指數級增長;具體產品包括 800G DR8 QSFP-DD:模塊設計用于 800 千兆以太網鏈路,光纖傳輸距離為 500 米。公司認為第一批 1.6T 產品預計將于未來幾年出貨 新易盛 800G 產品包括硅光、LPO 兩類技術路徑,部分產品已實現小批量出貨,2023 年 OFC 期間公司曾推出 800G LPO 系列產品;具體產品包括 800G OSFP-DD
82、:800G 單波 200G 光模塊符合QSFPDD800MSA 的最新版本;固件支持 CMIS5.0 和更新版本;涵蓋 DR4+、1xDR4、1xFR4 和 2xFR2 傳輸接口 2023OFC 期間公司曾推出 1.6T 相關光模塊產品;具體產品包括 1.6T OSFP-DD:采用 4xFR2 規格、OSFP-DD 封裝,采用 4XSN 連接器光接口,16X100Gbps 電接口,可支持最遠 2 公里傳輸,支持1.6T 點對點以及 2x800G,4X400G 的扇出式點對多點應用 云暉(cloudlight)客戶目前對 800G 的反饋非常積極,截止至 2023 年 10 月,云暉過去 12
83、個月 400G 收入占比高于 90%,最近一個季度公司 800G 收入占比已過半;具體產品包括 800G QSFP-DD DR8:每個通道可支持106.25Gb/s(PAM4)的數據傳輸,單模光纖傳輸長度為 500 米。-通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 24 光迅科技 800G 多模和單模的進展均較順利,送樣后陸續獲得訂單;具體產品包括 800G OSFP 2xLR4:設計用于 10 公里單模光纖上的800 千兆以太網鏈路。2023 年 OFC 期間公司曾推出 1.6Tdemo 版本;具體產品包括 1.6T
84、OSFP-XD DR8+:設計用于在單模光纖上通過 PAM4 調制格式傳輸和接收高達 212.5 Gb/s 數據速率(每信道)的串行光學數據鏈路,采用熱插拔方式并集成了 EML 激光器 博創科技 公司將加大 800G 硅光模塊的開發進度,盡快實現 800G 產品的送樣 產品正在開發中 劍橋科技 一款硅光 800G 產品已進入小批量發貨,其他硅光、LPO 產品也在測試中。此外,截止至 2023 年 10 月公司 800G 模塊思科已認證通過,準備量產。具體產品包括 800G QSFP-DD 2xFR4 EML:雙工 LC 單模光纖可達2 公里,工作溫度為 0-70 攝氏度 2023 年 OFC
85、期間公司曾展示使用 200G Lumentum激光器構建的 1.6T 光模塊原型;具體產品包括 1.6T OSFP-XD 2xDR4 EML:單模光纖傳輸距離為 500 米,工作溫度為 0-70。華工科技 2022Q3 公司 800G 硅光模塊已正式推出市場。截止至 2023 年 11 月公司 400G/800G DSP 系列模塊已經開始批量出貨。預計 24Q1 末800G LPO 產品也會批量出貨。具體產品包括 800G OSFP DR8 SiPh:自研的硅光芯片具備高調制效率支持 7 nm;DSP 內置驅動器直驅;無需使用 TEC 控溫,模塊全溫功耗小于 15W。產品處于研發中 聯特科技
86、截止至 2023 年 5 月公司 800G 光模塊處于客戶驗證階段。同時公司表示基于 SIP(硅光)和 TFLN(薄膜鈮酸鋰)調制技術的 800G 產品也會相繼推出。具體產品包括 800G QSFP-DD 2DR4:功耗低于 14W,8 通道 PIN 接收機,單模光纖傳輸距離可達 500m 產品處于研發中 索爾思光電 800G 數據中心光模塊已實現量產;具體產品包括 800G FR4(4x200G)OSFP:采用自主開發高功率激光器和先進 3D 密集光電混合封裝提升高速射頻性能,搭配收端高集成度多通道 PIN/TIA 接收機并配合最新工藝 5nm DSP 高性能均衡算法,傳輸距離可滿足 2km
87、 應用需求。2023OFC 期間公司曾推出用于 1.6T 光模塊的單波200G PAM4 EML 激光器。AAOI 公司認為未來幾年 400G+800G 產品的營收可能超過 3 億美元;截止至 2023Q3 公司已向兩家客戶進行 800G 產品的送樣,未來還將繼續為另外兩家數據中心客戶送樣,公司預計 24Q2 或 Q3 公司 800G光模塊有望放量。-資料來源:公司公告,公司官網等,華創證券 (三)(三)光模塊內創新光模塊內創新性引入環形器,傳輸效率進一步提升性引入環形器,傳輸效率進一步提升 引入引入環形器環形器,單光纖傳輸帶寬再提升。,單光纖傳輸帶寬再提升。此前環形器在電信系統中已有一定的應
88、用,但數量規模有限,未形成大批量的穩定生態系統。此外也考慮到在機器學習的應用場景中要增加端口間的回波損耗和減少串擾等需要,Google 同樣選擇了對環形器的重新設計。使用環形器可實現單根光纖的雙工傳輸,主要作用是限制光的傳輸方向,如光由端口 1 輸入時,可以幾乎無損失地從端口 2 輸出,但不可從端口 3 輸出;當光從端口 2 輸入時,可以幾乎無損地從端口 3 輸出,但不可從端口 1 輸出。環形器的實現原理主要是基于光的偏振特性。環形器主要由三個組件構成,分別是:PBS,偏振分束器,可實現 P 偏振光的透傳,S 偏振光的反射;通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業
89、務資格批文號:證監許可(2009)1210 號 25 FR,法拉第旋光器,具有非互易性,正向傳輸和反向傳輸偏振態旋轉方向一致 HWP,半波片,具有互易性,正向傳輸和反向傳輸偏振態旋轉方向相反 通過以上器件的疊加作用,可以限定光路的傳輸路徑:發射端到光纖:光由端口 1 進入環形器后,僅有 P 偏振態的光可以通過 PBS,經過 FR 后偏振態旋轉-45,再經過 HWP 后偏振態旋轉 45,抵消了 FR 的旋轉,仍為 P 偏振態,最終通過 PBS 傳輸到光纖處;光纖到接收端:光由光纖進入環形器后,經過 PBS 會分成 S 偏振態和 P 偏振態兩部分的光,其中 P 偏振態光會穿透 PBS,經過 HWP
90、 和 FR 兩次偏振態 45旋轉后成為 S 偏振態的光,經過 PBS 兩次反射后到達接收端口 3;S 偏振態光先經過 PBS 兩次發射后再經過 HWP 和 FR 兩次偏振態 45旋轉后成為 P 偏振態的光,到達接收端口 3。因此光信號經過環形器可以幾乎無損地傳輸到接收端。圖表圖表 34 環形器可實現單光纖的雙工通信環形器可實現單光纖的雙工通信 圖表圖表 35 環形器環形器基于光偏振基于光偏振的實現原理的實現原理 資料來源:Hong Liu,Ryohei Urata,et al.Lightwave Fabrics:At-Scale Optical Circuit Switching for Da
91、tacenter and Machine Learning Systems,華創證券 資料來源:Hong Liu,Ryohei Urata,et al.Lightwave Fabrics:At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems,華創證券 環形器環形器供應鏈較為成熟供應鏈較為成熟,核心器件法拉第旋轉片國產化程度較低,核心器件法拉第旋轉片國產化程度較低。環形器此前比較多是應用在摻鉺光纖放大器中,并且一般用在光模塊的外部,在 Google 的 OCS 應用場景中則被集成到光模塊內部,
92、以獲得更高的性能、更小尺寸和更低成本。傳統獨立形態的環形器較為成熟,供應商較多,其中主要的供應商包括珠海光聯(Oplink)、II-VI(高意)、珠海三石園等,此外騰景科技可以提供可集成在光模塊中的環形器產品。在環形器內部,法拉第旋轉片是關鍵器件之一。根據光隆科技披露信息,目前法拉第旋轉片主要供應商為日本的 GRANOPT 和美國的 II-VI,二者在法拉第旋轉片市場的占有率合計超過 90%。國內的福晶科技、長飛光纖、東田微和飛銳特等公司在法拉第旋轉片晶體材料有布局,部分公司產品已通過下游大客戶驗證,達到商業化標準。此外 PBS 偏振分束器近年國內廠商不斷突破關鍵技術,如福晶科技、騰景科技、萊
93、擇光電等均已具備量產能力。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 26 圖表圖表 36 騰景科技可提供光模塊中的環形器騰景科技可提供光模塊中的環形器 資料來源:騰景科技官網,華創證券(四)(四)更高鏈路預算更高鏈路預算需求需求帶來的帶來的光芯片與電芯片配套升級光芯片與電芯片配套升級 配合配合 OCS 的應用環境,光模塊內光電芯片需進行較大的應用環境,光模塊內光電芯片需進行較大改變改變。由于 OCS 和環行器的使用,鏈路需要提供更高的損耗預算,因此配套的光模塊需要更少的光學元件和更低的封裝損耗,光模塊內部設計需進行較大
94、改動:光芯片:Google 與業界合作開發了更快的光學元件(激光器/光電探測器),同時由于更高的速率和更大的消光比要求,為了減輕雙向通信帶來的多光路干擾(MPI)效應,光模塊所使用的激光器芯片需從 DML 演進為外部調制激光器 EML;電芯片:對于高速 IC/電氣技術,Google 用 DSP 方案替換了原來基于模擬的時鐘數據恢復(CDR)方案。使用 DSP 雖然增加了功耗和延遲,但是方案降低了對光器件和模擬電子元件的要求,通過算法降低雙工鏈路固有的多路干擾,應用 FEC 支持更高的鏈路預算,具有更高的魯棒性和可擴展性。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資
95、格批文號:證監許可(2009)1210 號 27 圖表圖表 37 OCS 配套光模塊需改動的光芯片與電芯片設計配套光模塊需改動的光芯片與電芯片設計 資料來源:Ryohei Urata,Hong Liu,Kevin Yasumura,et al.Mission Apollo:Landing Optical Circuit Switching at Datacenter Scale,華創證券 EML 及及 DSP 芯片均以海外供應商為主,國產化程度較低。芯片均以海外供應商為主,國產化程度較低。根據源杰科技招股說明書,2021 年 25G 光芯片的國產化率約 20%,但 25G 以上光芯片的國產化率
96、仍較低約為 5%,目前仍以海外光芯片廠商為主。800G 光模塊中主要使用 100G PAM4 EML 激光器,海外企業如 Lumemtum、II-VI 和三菱等公司較早實現了產品布局,國內企業如源杰科技、長光華芯等正全力追趕,其中源杰科技在投資者平臺披露其 100G PAM4 EML 產品特性可以與海外產品對標,目前已在客戶端測試;長光華芯披露其單波 100G EML(56GBd EML 通過 PAM4 調制)產品已量產。DSP 也主要以海外企業為主,其中已被 Marvell 收購的Inphi 在 PAM4 DSP 領域占據較大市場份額,此外還有 Broadcom、Credo 和 Max Li
97、near 等企業也提供 PAM4 DSP 產品。其中 Credo(默升科技)成立于 2008 年,由 3 名海歸華人在中國上海創立,目前可提供 Dove 800D/800/801/802/850 等適用于不同場景的 800G PAM4 DSP。圖表圖表 38 Credo 面向面向 800G 的單向的單向 PAM4 DSP 資料來源:Credo官網,華創證券 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 28 (五)(五)兩兩層連接釋放大量層連接釋放大量銅纜與銅纜與光纖需求光纖需求 Rack 內采用銅纜連接,內采用銅纜連接,
98、Rack 外采用光纖連接外采用光纖連接。在 TPUv4 的系統設計中,每個 Rack 由4x4x4 個 TPUv4 芯片組成,其中 4 個 TPUv4 組成一張板卡,同一個 Rack 內的板卡間通過銅纜連接,Rack 和 OCS 之間使用光互聯,需要使用光模塊進行光電轉換。TPUv4 的核間互聯 ICI 帶寬為 2400 Gb/s,每個 TPUv4 對外有 6 條 ICI 鏈路,因此每條 ICI 鏈路端口速率為 400Gb/s;TPUv5p 的 ICI 帶寬為 4800 Gb/s,同樣采用 3D Torus 拓撲,我們判斷其同樣有 6 條 ICI 鏈路,因此每條 ICI 鏈路端口速率為 800
99、Gb/s。結合此前的測算,每個TPUv4 Pod 將釋放 6144 條光纜和 5120 條銅纜的連接需求,官方未公開 TPUv5p Pod 的具體硬件網絡設計,但其芯片數量為 8960 個,超過 TPUv4 Pod 芯片數量的兩倍,我們認為 TPUv5p Pod 集群的光纜和銅纜的數量將大幅提升,同時接口速率也將達到 800 Gb/s。圖表圖表 39 TPUv4 板間板間通過通過 4 個個 OSFP 連接器實現互聯連接器實現互聯 圖表圖表 40 TPUv4 超級計算機中使用了大量的光纜連接超級計算機中使用了大量的光纜連接 資料來源:GoogleA Machine Learning Superc
100、omputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 資料來源:GoogleA Machine Learning Supercomputer With An Optically Reconfigurable Interconnect and Embeddings Support,華創證券 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 29 四、四、AI 浪潮加速浪潮加速算力算力基礎設施的演進,重點關注基礎設施的演進
101、,重點關注產業產業演變演變趨勢趨勢帶來的帶來的機遇機遇(一)(一)趨勢趨勢 1:自研自研低成本低成本算力算力部署部署方案方案或成為或成為新新選擇,有助于算力基礎設施的快速建選擇,有助于算力基礎設施的快速建設設 自研芯片有助于低成本高性能算力部署自研芯片有助于低成本高性能算力部署,或成為產業發展新趨勢,或成為產業發展新趨勢。Google 的 TPUv4 相較于 A100 性能更佳、成本更低、功耗更低,下游客戶擁有更多高性價比選擇。根據 Google論文披露,對于類似大小的系統,TPUv4 的 BERT 訓練速度比 A100 快 1.15 倍;對于ResNet,TPUv4 表現為 A100 的 1
102、.67 倍。而在部分測試中,A100 的功耗是 TPUv4 的 1.3-1.9 倍。對于 TPUv4 和 A100 的使用成本,我們參考 Google Cloud 的相關報價進行對比,TPUv4 Pod 在 us-centra2 區域按需/1 年租/3 年租的單芯片每小時使用價格分別約為 3.22美元、2.03 美元、1.45 美元,而 Google 提供向虛擬機(VM)實例掛接 GPU 的服務,其中 A100 80G GPU 在 us-central1 區域的每小時價格約為 1.57 美元。綜合以上數據,TPUv4在性能表現和功耗成本上,相較于 A100 都具有一定的優勢。這為下游客戶提供了
103、更多的選擇,有望助力原本受制于成本和供應因素而未完全釋放的下游需求得到進一步加快加大的釋放,利好算力基礎設施產業鏈。Google 的客戶如 Anthropic、Hugging Face 和AssemblyAI 等就已在廣泛應用 TPU 所提供的算力服務。圖表圖表 41 TPUv4 與與 A100 在在 MLPerf 測試的表現對比測試的表現對比 圖表圖表 42 TPUv4 與與 A100 在在 MLPerf 測試的功耗對比測試的功耗對比 資料來源:Norman P.Jouppi,George Kurian,et al.TPU v4:An Optically Reconfigurable Sup
104、ercomputer for Machine Learning with Hardware Support for Embeddings,華創證券 資料來源:Norman P.Jouppi,George Kurian,et al.TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,華創證券 降低核心芯片供應風險,降低核心芯片供應風險,AI 巨頭積極布局自研芯片。巨頭積極布局自研芯片。目前 Nvidia 的 GPU 因算力軍備競賽而需求
105、大增,但其產能受限于 HBM、CoWos 封裝等的供應,因此 H100 芯片存在大量缺口,各 AI 巨頭能分到的 GPU 數量有限,根據 GPU Utils 預測,H100 的短缺情況或將持續至 2024 年。在此背景下 H100 的售價已達 3.5 萬美元左右,對應毛利率水平已超過90%。Google 通過自研 TPU,可降低算力核心芯片的供應風險,同時減少算力部署成本。除 Google 以外,眾多 AI 巨頭公司也都在布局自研 AI 算力芯片,比如 Amazon 的 Trainium和 Inferentia、微軟的 Athena、META 的 MTIA 等。通信行業深度研究報告通信行業深度
106、研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 30 圖表圖表 43 Omdia 測算測算 2023Q3 A100 和和 H100 出貨量出貨量約為約為 500K 資料來源:Omdia Research 轉引自科技每日推送谷歌大模型,把李彥宏當成了創始人,華創證券(二)(二)趨勢趨勢 2:AI 巨頭的巨頭的算力需求算力需求景氣度高景氣度高,進一步推動進一步推動高度定制化高度定制化成為成為新新商業模式商業模式 AI 巨頭巨頭持續投入算力設施建設,持續投入算力設施建設,或更傾向定制化算力解決方案?;蚋鼉A向定制化算力解決方案。Google、微軟兩大 AI 巨頭近
107、兩個季度的 Capex 保持上升趨勢,對 24 年的投入預期也較為樂觀。目前 AI 產業中前端包括 Gemini、GPT-5 等更多參數量更大的大模型持續在訓練和發布,后端類似 Video Poet、Pika 等更多新穎 AI 應用持續推出,行業對于算力的需求仍在持續釋放中。由于大模型對算力的要求高,存在很多新技術難點,比如集群傳輸帶寬的提升等。Google 等 AI巨頭本身就具有很強的技術實力,作為最終用戶,對需求的理解也更為深入,配合著對核心 AI 算力芯片的自研,對整體解決方案高度定制化開發或成為合理有效的解決方式。圖表圖表 44 Google 推出的零樣本視頻生成推出的零樣本視頻生成應
108、用應用 Video Poet 資料來源:Dan Kondratyuk,Lijun Yu,Xiuye Gu,et al.VideoPoet:A Large Language Model for Zero-Shot Video Generation,華創證券 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 31 與與客戶客戶深度綁定的供應鏈企業,深度綁定的供應鏈企業,有望有望核心核心享受享受定制化帶來的高價值紅利定制化帶來的高價值紅利。我們認為,當定制化成為新商業模式時,將核心利好具備技術能力,同時與下游客戶具有深厚合作關系的供
109、應企業。他們在產品形態持續升級過程中,有望緊跟客戶研發步伐,率先進入客戶供應鏈,提前鎖定客戶需求,從而在產品代際更迭時率先享受紅利。例如 Google 為適配其 OCS 架構,對光模塊進行了定制設計,增加了環形器等器件,因此應用于 OCS 中的光模塊的價值量較一般應用場景的光模塊有較大提升,而且競爭門檻也有所提升,對于早期已切入 Google 供應鏈的相關光模塊企業以及上游的環形器等光學器件企業,受益利好的確定性高,享受紅利的周期長。圖表圖表 45 技術能力和客戶關系奠定供應鏈企技術能力和客戶關系奠定供應鏈企業的受益確定性業的受益確定性 資料來源:華創證券整理 (三)(三)趨勢趨勢 3:網絡架
110、構升級網絡架構升級將催生如將催生如 OCS 等新型設備的落地應用,帶來產業格局變化等新型設備的落地應用,帶來產業格局變化 高性能計算領域的拓撲結構高性能計算領域的拓撲結構正正被引入到智能算力中心被引入到智能算力中心。由傳統的三層網絡架構到適合大規模擴展的 CLOS 架構,目前數據中心應用較多的 CLOS 架構包括 Fat-tree 三層無帶寬收斂架構和 Spine-Leaf 二層 Fabric 架構兩種。隨著 AI 產業的快速發展,目前大型 AI 模型的參數數量級從幾百億躍升到幾萬億級別,對計算能力和內存資源的需求也隨之急劇增長,業界普遍采用構建算力集群的方式去滿足相應需求。如英偉達的 DGX
111、 系列 AI 超級計算機,服務器間的 InfiniBand 網絡和服務器內 GPU 間的 NVLink 網絡均是采用 Fat-tree 架構。但傳統的 Fat-tree 架構在擴展性、跳轉延遲和成本等方面存在瓶頸,因此如Torus、Dragonfly 等高性能計算領域的拓撲結構也逐步被引入到智能算力中心,以提供大規模、低延遲、高帶寬的多算力芯片間互聯,比如 Google 在 TPUv4 超級計算機中所應用的 3D-Torus 拓撲。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 32 圖表圖表 46 數據中心拓撲架構演進數據
112、中心拓撲架構演進 資料來源:開放數據中心委員會總線級數據中心網絡技術白皮書,華創證券 拓撲的演進必然會帶來使用設備的更新,拓撲的演進必然會帶來使用設備的更新,或或推動推動產業格局產業格局變革變革。拓撲演進將帶來網絡設備的更新,OCS 就是最有代表性的案例。除了 Google 在 TPUv4 超級計算機中應用了 OCS以外,Nvidia 研發高級副總裁兼首席科學家 Bill Dally 在 Hoti 2023 年的主旨演講中也分享了其在 Dragonfly 拓撲中應用 OCS 的案例。通過引入 OCS 技術,可以有效解決網絡規模擴展時重新布線的難點,提高網絡的靈活性和可管理性,實現資源的靈活分配
113、。同時通過 OCS 的靈活切換,可實現冗余節點對故障節點的輕松替換,進一步提高系統的可靠性。而 OCS 的供應鏈和傳統電交換機的有較大差異,因此在網絡拓撲演進促進 OCS 得到更多應用的趨勢下,產業格局或出現變革。圖表圖表 47 在在 Dragonfly 拓撲中應用拓撲中應用 OCS 資料來源:Sharada YeluriGPU Fabrics for GenAI Workloads轉引自SDNLAB,華創證券 通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 33 五、五、投資建議投資建議 隨著 AI 行業成熟度逐步提升,海
114、量算力需求將持續釋放,給光模塊光器件光芯片的整條光互聯產業鏈都將帶來長期而有力的拉動。以 Google OCS 為代表的新型算力互聯解決方案有望得到更多應用,產業格局因此而出現新的變化,更多的產業機遇將逐步明晰。建議關注算力釋放帶來的全產業鏈機遇,并重點關注新技術新方案從 0到 1 演進帶來的產業預期差。建議核心關注以下標的:中際旭創(中際旭創(300308):全球知名的光模塊頭部供應商。):全球知名的光模塊頭部供應商。公司憑借行業領先的技術研發能力、低成本產品制造能力和全面可靠的交付能力等優勢,贏得了海內外客戶的廣泛認可,并保持在數通光模塊細分市場的領先優勢和份額。天孚通信(天孚通信(300
115、394):業界領先的光器件整體解決方案提供商。):業界領先的光器件整體解決方案提供商。公司通過自主研發和外延并購,在精密陶瓷、工程塑料、復合金屬、光學玻璃等基礎材料領域積累沉淀了多項全球領先的核心工藝技術,為全球客戶提供多種垂直整合一站式產品解決方案。騰景科技(騰景科技(688195):):深耕定制化精密光學元件。深耕定制化精密光學元件。公司基于核心技術,為客戶提供定制化的光電子元器件產品,已與全球主要的光模塊/設備廠商和光纖激光器廠商建立了合作關系,同時優勢產品在細分領域具有較高的市場影響力。源杰科技(源杰科技(600498):稀缺的高端光芯片國產代表企業。:稀缺的高端光芯片國產代表企業。公
116、司目前產品包括 2.5G、10G、25G、50G、100G 光芯片產品、CW 光源、車載激光雷達光源等產品,在境內外市場開拓了眾多的直接或間接優質客戶。六、六、風險提示風險提示 全球宏觀經濟發展不及預期,國際貿易局勢進一步緊張,AI 產業發展不及預期,產業供應格局出現較大變化。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 34 通信組團隊介紹通信組團隊介紹 組長、首席分析師:歐子興組長、首席分析師:歐子興 北京郵電大學碩士&學士,通信專業,6 年中國移動集團采購和供應鏈管理經驗,曾任職于招商證券,2023 年加入華創證券研
117、究所,研究領域覆蓋通信全行業。通信行業深度研究報告通信行業深度研究報告 證監會審核華創證券投資咨詢業務資格批文號:證監許可(2009)1210 號 36 華創行業公司投資評級體系華創行業公司投資評級體系 基準指數說明:基準指數說明:A 股市場基準為滬深 300 指數,香港市場基準為恒生指數,美國市場基準為標普 500/納斯達克指數。公司投資評級說明:公司投資評級說明:強推:預期未來 6 個月內超越基準指數 20%以上;推薦:預期未來 6 個月內超越基準指數 10%20%;中性:預期未來 6 個月內相對基準指數變動幅度在-10%10%之間;回避:預期未來 6 個月內相對基準指數跌幅在 10%20
118、%之間。行業投資評級說明:行業投資評級說明:推薦:預期未來 3-6 個月內該行業指數漲幅超過基準指數 5%以上;中性:預期未來 3-6 個月內該行業指數變動幅度相對基準指數-5%5%;回避:預期未來 3-6 個月內該行業指數跌幅超過基準指數 5%以上。分析師聲分析師聲明明 每位負責撰寫本研究報告全部或部分內容的分析師在此作以下聲明:分析師在本報告中對所提及的證券或發行人發表的任何建議和觀點均準確地反映了其個人對該證券或發行人的看法和判斷;分析師對任何其他券商發布的所有可能存在雷同的研究報告不負有任何直接或者間接的可能責任。免責聲明免責聲明 。本公司不會因接收人收到本報告而視其為客戶。本報告所載
119、資料的來源被認為是可靠的,但本公司不保證其準確性或完整性。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司在知曉范圍內履行披露義務。報告中的內容和意見僅供參考,并不構成本公司對具體證券買賣的出價或詢價。本報告所載信息不構成對所涉及證券的個人投資建議,也未考慮到個別客戶特殊的投資目標、財務狀況或需求??蛻魬紤]本報告中的任何意見或建議是否符合其特定狀況,自主作出投資決策并自行承擔投資風險,任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。本報告中提及的投資價格和價值以及這些投資帶來的預期
120、收入可能會波動。本報告版權僅為本公司所有,本公司對本報告保留一切權利。未經本公司事先書面許可,任何機構和個人不得以任何形式翻版、復制、發表、轉發或引用本報告的任何部分。如征得本公司許可進行引用、刊發的,需在允許的范圍內使用,并注明出處為“華創證券研究”,且不得對本報告進行任何有悖原意的引用、刪節和修改。證券市場是一個風險無時不在的市場,請您務必對盈虧風險有清醒的認識,認真考慮是否進行證券交易。市場有風險,投資需謹慎。華創證券研究所華創證券研究所 北京總部北京總部 廣深分部廣深分部 上海分部上海分部 地址:北京市西城區錦什坊街 26 號 恒奧中心 C 座 3A 地址:深圳市福田區香梅路 1061 號 中投國際商務中心 A 座 19 樓 地址:上海市浦東新區花園石橋路 33 號 花旗大廈 12 層 郵編:100033 郵編:518034 郵編:200120 傳真:010-66500801 傳真:0755-82027731 傳真:021-20572500 會議室:010-66500900 會議室:0755-82828562 會議室:021-20572522