1、 證證 券券 研研 究究 報報 告告 AlAl算力軟件生態:算力軟件生態:難以突破嗎難以突破嗎?華為系列深度之十五證券分析師:黃忠煌 A0230519110001洪依真 A0230519060003楊海晏 A0230518070003李國盛 A0230521080003研究支持:崔航 A0230524080005聯系人:曹崢 A0230123040004 2024.9.19SWSRESEARCH結論和投資分析意見結論和投資分析意見 2024H2,國 內AI芯片廠商產品密集迭代,軟件生態是核心競爭要素之一,兼容CUDA路線海 光信息、以及自成體系路線華為昇騰為國產廠商中進展最快,用戶使用體驗佳,
2、新產品有望 更快放量。原因及邏輯原因及邏輯Al 開發框架:Pytorch、Tensorflow雙寡頭,且逐漸與AI芯片解耦。GPU 編程平臺:訓練端,每家AI芯片均自有GPU 編程平臺軟件,其中英偉達CUDA 具備先發 優勢,形成一定的生態壁壘。其他廠商與英偉達競爭采用2類方式:1)兼容英偉達CUDA,典型代表是AMD、海光信息;2)自成體系:代表廠商華為昇騰、寒武紀。有別于大眾的認識有別于大眾的認識 市場認為,英偉達CUDA 生態壁壘難以突破,一方面是其與AI開發框架廠商的緊密支持,另一方面是CUDA中眾多的針對性優化,和龐大的用戶群體(遷移其他平臺需要學習成本)。我們認為,1)AI開發框架
3、正在逐漸與英偉達CUDA/硬件解耦,開始原生支持AMD、華為等 廠商產品,這一方面的壁壘逐漸瓦解;2)GPU 編程平臺的學習成本和針對性優化,確實仍需 要人才、用戶、資金和時間的積累,但并非堅不可摧,且國產廠商如華為昇騰、海光信息均 已有較快進展。風險提示:險提示:AIAI 芯片產品迭代進芯片產品迭代進展不及預期;國產廠商軟件工具用戶習慣培育周期長;展不及預期;國產廠商軟件工具用戶習慣培育周期長;AIAI應用長時間無爆款,影響應用長時間無爆款,影響AlAl算力需求。算力需求。證券研究報告 2投資案件投資案件1 兼容兼容CUDA解決用戶學習成本問題,實現無痛切換1)上層轉換器,如ROCmHipi
4、fy Tools2)底層二進制機器碼實時轉譯,已被禁止,有法律風險2 自成體系自成體系對廠商人才、技術、資金、品牌實力 要求較高,需要以非市場化途徑切入 市場,培育用戶習慣和生態難點在于其更新迭代速度永遠跟不 上CUDA 并且很難做到完全兼容華為:人才供給充足,各類算子開 發進展較快,但由于開放較多底層 優化,開發難度大,用戶不友好谷歌:Tensorflow提供強耦合支持,但芯片設計過于專用,非谷歌人員 使用有壁壘芯片本身性能以及算子庫豐富程度 還有追趕空間生態壁壘產生的根源在于軟硬件的高度耦合AI芯片公司需要投入的優化 最大的工作量是對海量算子和特定芯片的支持突破突破CUDA的兩類方式的兩類
5、方式AIAI芯片公司所采取的不同突圍路線芯片公司所采取的不同突圍路線 優劣勢優劣勢兼容CUDA 的路線,借力 英偉達生態深度學習框架+AI芯片”自研路線自行維護Pytorch、Tensorflow后端算子,開發者共建算子生態 證券研究報告 3AMD&海光海光 信息信息華為華為谷歌谷歌寒武寒武 紀紀&其其他總結總結:兩條路徑,各自突:兩條路徑,各自突破破AI芯片的整體性能=AI芯片硬件性能(GPUGPU 編程平臺編程平臺+深度學習框架支持深度學習框架支持)主要內容主要內容1.軟件工具:AI 芯片的“大管家”2.訓練端:后進入者競爭CUDA兩類方式3.推理端:ONNX 為“中間人”,軟件生 態百花
6、齊放4.相關公司5.風險提示SWSAIAI 開發框架開發框架x2h =ai.matmul(wx,x)h2h=ai.matmul(wh,h)next_h=x2h +h2hnext_h=ai.tanh()next_h=next_h.sum(b)GPU 編程平臺編程平臺Developer Tools Runtime二 二=二 二二二二二=Driver API(User Mode)Driver(Kernel Mode)數學表達計算圖1)張量計算引擎+2)自 動求導機制=高層算子,例如全連接、卷積、科學庫和實用程序庫例如cuDNN最基礎庫,包 含前向、后向卷積、激活 函數、歸一化、張量變換 等開發者工具
7、例如優化器、調解器等運行時運行時(工作臺工作臺)封裝了Driver API,設備管理 流管理、內存管理、時間管 理、統一尋址等驅動驅動與 Runtime功能類似,但能 進行更底層控制內核驅動內核驅動驅動GPU 計算單元執行Kernel核函數功能,完成計算wX X wh hmatmul matmuladdtarnhLibrary庫庫二=Hostl主機主機Device 設備設備Toolkit工具工具 (容器容器Docker)Docker)編譯編譯器二 二二 證券研究報告 資料來源:英偉達官網,CSDN (中國開發者網絡),申萬宏源研究 51.11.1軟件工具棧:軟件工具棧:AI芯片的大管家芯片的大
8、管家H=WXH=WhHH=H+HH=tanh(H)Hs=H+boptimizerAI開發框架:Meta 維護的開源項目Pytorch、谷歌Tensorflow 雙寡頭,原生支持Nvidia,AMD、華為、寒武紀等陸續支持(非原生),逐漸解耦。GPU 編程平臺:各家都有自有硬件+自有GPU 編程平臺產品,且基本上為綁定狀態。100%其他其他75%百Pytorch比25%Tensorflow0%2019 20201.21.2開發框架寡頭壟斷但逐漸解耦,開發框架寡頭壟斷但逐漸解耦,GPU 編程平編程平臺各居一隅臺各居一隅 證券研究報告 資料來源:51CTO (無憂創想數字化人才學習平臺),申萬宏源研
9、究 6OpenCLVulkan緊耦合 半耦合AMDROCmAMD MI系系列強支持(后端生態)弱支持(前端生態)-=Paper with code網站論文使用網站論文使用Pytorch比例快速提升比例快速提升寒武紀BANG寒武紀寒武紀MLU海光信息海光信息 DTK海光海光DCUDCU華為昇騰華為昇騰 CANN華為昇騰華為昇騰NVidia CUDANvidia 芯片芯片華為華為Mindspore谷歌谷歌TensorflowCaffe 百度飛槳百度飛槳MetaPytorch分分50%50%20212018英偉達英偉達AMDAMD谷歌谷歌TPUTPU華為昇騰華為昇騰寒武紀寒武紀海光信息海光信息GPU
10、編程平臺CUDAROCmXLACANNBANGDTKC語言編譯器NVCCHCC傳統編譯器 畢昇編譯器CNCCLLVM匯編語言SASS?Ascend CLMLISA?指令集PTX(閉源)?(技術文檔已公開)CISC?MLU?指令集不同指令集不同 匯編語言不同匯編語言不同 智能編程語言不同智能編程語言不同 工具不兼容工具不兼容深度學習框架廠商僅支持一家深度學習框架廠商僅支持一家A AI I芯片就要投入巨大工程量,芯片就要投入巨大工程量,因此導致其最終只選擇市占率最大的因此導致其最終只選擇市占率最大的1-21-2家進家進行深度支持行深度支持英偉達英偉達H100 硬件計算單元硬件計算單元(左左)和華為
11、昇騰和華為昇騰910910硬件計硬件計算單元算單元(右右)架構差異較大架構差異較大Da Vinci CoreBuffer L0A32-bl Cube Buffer L0CBuffer LOB1.31.3出現這么多出現這么多GPU編程平臺的原因編程平臺的原因?指令集、硬件架指令集、硬件架構不構不同皆 留 SFU 出留皆皆 留 出Sru 證券研究報告 資料來源:英偉達官網,HuaweiCUDA獲得Pytorch、Tensorflow 原生支持每家一個每家一個GPU編編 程平臺程平臺Vector UnitUnified BufferCUDACUDA 生態自生態自 我強化我強化Research(華 為
12、 研 究),CSDN(中 國開發者網絡),申萬宏源研究ScalarUnit AGU/Mask GenTENSoRcoRGENERATIONSMPPGPRSPR71.4 4 非非NV AI芯片廠商的競爭策略:開源開放芯片廠商的競爭策略:開源開放or 自成體系自成體系 其其 他他AI芯片硬件與英偉達競爭,有兩種方芯片硬件與英偉達競爭,有兩種方式式開放開源:盡可能方便開發者,兼容CUDA,同時其他(如指令集等)盡可能開放 自成一派:從AI開發框架-GPU編程平臺-底層硬件完全走自己的路線工具鏈完善程度工具鏈完善程度 證券研究報告 資料來源:申萬宏源研究 8兼容兼容CUDAAMD海光信息Intel摩爾
13、線程、沐 曦等自成體系自成體系華為 谷歌TPU寒武紀百度昆侖芯阿里平頭哥燧原科技Nvidia玩家玩家AlAl芯片軟硬件工具層次芯片軟硬件工具層次 功能功能海外海外1 1海外海外2 2國國 內內特點特點AI開發框架直接面向AI應用開發者,將神經網絡模型轉為計算圖,再進行圖優化、算子優化(例如算子融合等)PytorchTensorflow華為Mindspore百度PaddlePaddle、清華JitterPytorch、Tensorflow雙 寡頭,過往與 CUDA緊耦合,正逐漸解耦程平臺Host(主機 CPU+內存)Library提供計算庫函數(算子)CUDA寡頭 壟斷,Runtime管理設備內
14、存、調度并行任務和 進行數據傳輸,提供運行期組件Driver直接控制底層Device GPU硬件 資源,并與Host端對接Device(設 備GPU)Kernel控制每個硬件計算單元CUDAROCm、OpenCL華為CANN寒武紀CUDA、C A N N與 硬 件緊耦合,其他解耦AI芯片硬件提供并行計算算力和存儲、通信、控制等硬件資源1.51.5當前當前AI芯片軟件工具??偨Y芯片軟件工具??偨Y 證券研究報告 資料來源:申萬宏源研究 9GP U編主要內容主要內容1.軟件工具:Al 芯片的“大管家”2.訓練端:后進入者競爭CUDA兩類方式3.推理端:ONNX 為“中間人”,軟件生 態百花齊放4.相
15、關公司5.風險提示SWSCUDACUDA 文件編譯過程文件編譯過程兼容兼容CUDA路線路線兼容兼容CUDA路線路線.cUCUDA Source CodeC+Preprocessor.cpp.ii轉換器轉換器 Source Codecicc.cpp.i.ptx特定編譯器ptxas轉換轉換API.cubinfatbinary二進制機器碼二進制機器碼(指令集指令集)二進制機器碼二進制機器碼(指令集指令集).fatbin.c非Nvidia GPU非非Nvidia GPU GPUGPU 編程文件的編譯分為編程文件的編譯分為HostHost 主機端主機端(CPU),(CPU),和和 DevDev ice設
16、備端(GPU)Host 端的編譯過程和中間文件是通用的,Device端兼容兩類方式,第二類已被禁止 2.12.1路線路線1:1:兼容兼容CUDA,兩種兩種方式方式 證券研究報告 資 料 來 源:CSDN (中 國 開 發 者 網 絡),申 萬 宏 源 研 究 11C+PreprocessorHIPify tool完成轉換的兩種方式完成轉換的兩種方式1)Hipify Clang based ClangCUDA Source code抽象語法樹HIP Source Code基于Clang(C/C+編譯器),無縫支持新 版本CUDA,因 為Clang 前端靜態鏈接到CUDA源,NVIDIA 也把 N
17、VCC其中一部分 邏輯貢獻給了Clang2)Hipify Perl基于Perl 的腳本類似于查找替換,將APl名稱中的 CUDA 替換為HIPAMD定義API,接口規范、名稱與CUDA完 全一致,功能不完全支持,不可拓展2.2 AMD ROCm:開放開放+開源,開源,HIPify tool完成兼容完成兼容 最 新ROCm 架構,與大多GPU編程平臺類似,分 為庫、運行時、驅動等Frameworks JAX,ONNX-RT,PyTorch,TensorFlowSystem ManagementPerformanceROCTracer ROCProfilerDevelopmentMachine L
18、earning&Computer VisionMathCommunicationPrimitives 證券研究報告 資料來源:AMD 官網,申萬宏源研究 12LLVM (amdclang,amdflang,OpenMP),hipCC AMD CLR,HIP,ROCrHipCC:編譯HIP Source code,可 以 調 用clang 或 者NVCCHPC FocusedAI FocusedROCr Debug Agent HIPIFYCompilersRuntimesLibrariesTools應用程序應用程序Tools用戶態驅動用戶態驅動RocTracerRocProfiler通過通過R
19、OCm兼容兼容CUDA,但是由于但是由于CUDA閉源閉源特性及更新速度快,通過指令翻譯等特性及更新速度快,通過指令翻譯等方 式完美兼容有一定困難,可能存在性能損失式完美兼容有一定困難,可能存在性能損失DPUDPU 擁有擁有HIPHIP軟件棧,軟件棧,支持支持HIP異異構計算構計算封裝封裝ROCm 相關組件相關組件ROC Kernel Driver(ROCk)OS海光海光DCUApplicationProgramHIP LibrariesROC Thunk Interface 證券研究報告 資料來源:AMD 官網,申萬宏源研究 13內核態驅動內核態驅動硬件硬件2.32.3海光海光DTK,共享共享
20、ROCm生態生態GPUHIPMathLibrariesHIP并行編程模型并行編程模型HIP Runtime基于基于AMD 硬件架構硬件架構 redesignMIGrapghXRCCLMIOpenMIVisionXCUDACUDA LibraryLibraryHIPHIP LibraLibraryryTERMTERMCUDACUDAHIPHIPDeviceint devicedint devicedCuBLAShipBLASQueuecudaStream_thipStream_tcuBLASLthipBLASLtEventcudaEvent_thipEvent_tMemoryvoid*void*
21、cuFFThipFFTGrid of ThreadsgridgridcuSPARSEhipSPARSESubgroup of ThreadsblockblockcuSOLVERhipSOLVERThreadthreadthread2.4 4開發者學習開發者學習/遷移成本遷移成本顯著降低,但顯著降低,但“難畫骨難畫骨”1.5 Inference Training1.01,MI210 表現好;1,A100 表現好 證券研究報告申萬宏源研究兼兼 容容CUDA 解決了開發者習慣的問題,無學習成本,編程語法和邏解決了開發者習慣的問題,無學習成本,編程語法和邏輯一致資料來源:StreamHPC(高性能計算
22、流),TorchBench:Benchmarking PyTorch with High APISurface Coverage(TorchBench:對具有高API覆蓋率的 PyTorch 進行基準測試,AMD官網,多數模型在英偉達多數模型在英偉達A100 上訓推效果上訓推效果仍然好于仍然好于M1210條形:每個模型的訓推運行時間T_Nvdia/T_AMD然謂容的可 與EdeeprecommenderLeamingTopain用量的hf BigBirdspeechtmobilenet v3 largech mam l omniglotph lippe-densenetd2_fasterrcn
23、n_r_101_c4resnext50_32x4dtimm effcientnetv is ion maskrcnnsqueezenet1_1hf pig1 larged2_fasterrcnn_r_50_dc5mam l omniglottimm vision tlennard jonesfastNLP Bethf Bert largetimm resnestalexnettimm_vovnethf Reformermnasnet1_0d2_maskrcnrtimm-regnetshuflenet_v2_x1_0timm nfnettt s angulard2_maskrcnn_r_50_f
24、pn_maskrcnn_r_50_04Comparison0.50.0d2_maskrcnn_r_101_fpnd2_fasterrcnn_r_50_04Super_SloMoresnet152hf ptgld2_fasterrcnn_r_50_fpnyolov3aiaynpuebopsoft_actor_criticresnet18resnet50widiatimm_efficientdetv9916hf_DistiBertpacpBEFmocohf_Albertp ytorch_unethf_Lfunctorp hlipp i g 1 ZLUDA 是一個由是一個由AMD 和和Intel 支
25、持的開源項目,能夠支持的開源項目,能夠幫助幫助CUDA 代碼原裝運行在非 Nvidia GPU上上 運行機制:將實時編譯生成的PTX機器碼轉換為其他二進制機器碼目前英偉達僅在用戶許可中增加限制條例,沒有明確限制目前英偉達僅在用戶許可中增加限制條例,沒有明確限制措施措施CUDA 11.6中加入條款“You may not reverse engineer decompile or disassemble any portion of the output generated using SDK elements for the purpose of translating such output
26、 artifacts to targeta non-NVIDIA platform.”英偉達是否能夠封禁英偉達是否能夠封禁?有可能性,將編譯器編譯生成的中間文件進行加密,防止第三方捕獲即可目前仍使用目前仍使用ZLUDA者,面臨者,面臨的主要是法律風險的主要是法律風險5.5.1,Radeon R6800 T,individual benchmarks normalized to OpenCL(higher is better)Overall ZLUDA performance:101%175.34%OpenCL zLUDA145.55%127.51%100%50%Msatrhing Deptho
27、t Detection FMe ttcuhri g Paricle 新 智 元ne 證券研究報告 資料來源:新智元,英偉達官網,申萬宏源研究資料來源:新智元,英偉達官網,申萬宏源研究 152.5 ZLUDA:正在被禁正在被禁止止GeekBench0%CaffeCaffe Parser統一中間圖IR GraphGraph Optmizer圖拆分 圖優化 圖編譯 單算子編譯離線模型(.om)執行單算子驗證一致功能一致,參數名不同 存在差異功能一致,參數數據類型不一致功能一致,參數個數或順序不一致功能一致,默認值不同功能一致,參數名不一致功能一致,參數默認值不一致Pytorch:Pytorch:覆覆
28、蓋蓋95%95%的的APIAPI 自有自有Mindspore框架框架框架適配器:其他框架的轉換框架適配器:其他框架的轉換 證券研究報告 資料來源:華為官網,申萬宏源研究 16Mindspore 中已有算子中已有算子973973個,其個,其 中中173173個實現了完全對齊個實現了完全對齊 華為昇騰打造了從華為昇騰打造了從AIAI開發框架開發框架-GPUGPU 編程平編程平臺臺-底層硬件全自棧生態底層硬件全自棧生態2.62.6華為:破釜沉舟,堅定自有華為:破釜沉舟,堅定自有Caffe/Paddle Paddle等等AdapterTensorflow華為華為Mindspore華為框架適配器運行華為
29、框架適配器運行邏輯邏輯FrameworkAI開發框架開發框架Pytorch基于Ascend IR定義 的單算子描述文件ATC 工工 具具MindSporeONNX Parser執行推理TensorFlow圖準備TF ParserONNX-CANN 異構計算異構計算-GE Ascend C AOL HCCL圖引擎圖引擎 算子編程語言算子編程語言 算子加速庫算子加速庫 集合通信庫集合通信庫畢昇編譯器畢昇編譯器運行時運行時驅動驅動CANNCANN算子算子Atlas A系列Atlas A2系列2238 23462346TensorflowTensorflow算子算子249ONON NXNX算子算子15
30、9CaffeCaffe算子算子79支持算子個數算子總數2346 2000+160網 ModelArtsA HiAI Service 第三第三方平臺方平臺&服務服務MindX昇騰應用使能MindX SDK領域套件回 MindX DL MindX Edge 晶 MindSpeed 心 MindIEAI生態社區 使能平臺畢昇編譯器畢昇編譯器昇騰算子代碼編譯成二進 制可執行文件和動態庫Runtime資源抽象與管理、媒體預 處理、深度學習推理無論是無論是AI開發框架高層算子,還是開發框架高層算子,還是CANN 底底層算子,華為人才、生態優勢明顯,進層算子,華為人才、生態優勢明顯,進展較快 證券研究報告
31、資料來源:華為官網,申萬宏源研究 17AI應用開發層面,華為提供了便捷工具,如應用開發層面,華為提供了便捷工具,如MindX、ModelZoo 等等2.62.6華為:算子適配進展迅速華為:算子適配進展迅速PytorchPytorch APIAPI1055TensorfloTensorflow w APlAPl503BANGBANGCNNL(深度學CNNL_Extra融自開發算子 81寒武紀習庫)327合算子41整體20452000+/AI加速庫通信庫CNCLCNCL視覺庫BANG語言MagicMindMagicMind CNNCNNL LCNCVBANG BANGBANG PyPyCNTool
32、kit(編譯/運行/調試/性能剖析)&Driver(性能監控/虛擬化/跨平臺)寒武紀擁有完整的軟有完整的軟件堆棧,件堆棧,SDK 中包含各類庫,以及自有智能編程語言中包含各類庫,以及自有智能編程語言BANGAl 開發框架,公司自行維護Pytorch、Tensorflow后端,與Pytorch的適配進展較好 BANG 語言底層算子,公司目前擁有327+41+81個,處于國產算力第一梯隊(略少于華為)2.72.7寒武紀:寒武紀:AI框架適配框架適配+開發者共建算子生態開發者共建算子生態 證券研究報告 資料來源:寒武紀開發者官網,申萬宏源研究 18Al/Al/分布式框架分布式框架作 TensorFl
33、ow OPyTorch Cafferp 戶飛槳CambriconCambricon SDKSDKC/C+OthersOpenCL(Open Computing Language)是一個為異構平臺(CPU/GPU/DSP/FPGA 等)編程設計的開源框架 OpenCL由一門編寫 kernel的語言(基于C99)和一組用于定義和控制平臺的API 組成OpenCLOpenCL 的問題在于的問題在于“性能稅性能稅”、“優化妥協優化妥協”和和“用戶不友好用戶不友好”OpenCL 僅能實現所有受支持的設備中公開功能的“最小公分母”在NVIDIA GPU上運行時,OpenCL實現的運行速度通常比CUDA 等
34、效產品低20-60%目目 前前OpenCL已經已經成為一種標準,被多類硬件集成在自身成為一種標準,被多類硬件集成在自身SDK中中,如 CUDA SDK、AMD HIPC/C+Programming myapplication.c/can also be a C+filehotspot 1For (int i=0;iN,i+)hotspot 2For (int i-0;iN,i+)mCPU2.82.8其他:其他:OpenCL 等,可移植性與最佳等,可移植性與最佳性能間的蹺蹺板性能間的蹺蹺板 證券研究報告 資料來源:OpenCL官網,騰訊云,申萬宏源研究 19CPU AcceleratorOpen
35、CL Programmingdevice_code.cl/OpenCLC-a C99 dialectmyapplication.c/can also be aC+file_kernel vold k10ents from hot_kernel void k20entsfromclEnqueNDRangeKernel(-);clEnqueNDRangeKernel();AMDAMD ROCmROCm較完善Pytorch、Tensorflow原生適配基本對齊CUDA?華為昇騰華為昇騰較完善Pytorch已原生適配,其余對齊較快較高150萬海光信息海光信息DTKDTK完善同 A M D同 A M D
36、?寒武紀寒武紀完善Pytorch API覆蓋度高合計近500個?谷歌谷歌垂直耦合Tensorflow深度適配?1)1)軟件工具鏈完備程度:是否各層需要用到的軟件工具鏈完備程度:是否各層需要用到的工具都具備;工具都具備;2)2)與各類與各類AIAI開發框架的支持、適配程度開發框架的支持、適配程度:越多越好,能夠覆蓋包含主流:越多越好,能夠覆蓋包含主流、小眾開發 者的各類需求;者的各類需求;3)3)算子豐富程度,算子豐富程度,且可以通過算子深度融合且可以通過算子深度融合(合并幾個基礎合并幾個基礎算子形成新算子)等方式,進一步提升進一步提升LibraryLibrary好用程度;好用程度;4)Runt
37、ime:4)Runtime:是否能最高效地分配和釋放內存、使用核函數是否能最高效地分配和釋放內存、使用核函數、布局線程等;、布局線程等;5)5)完善的技術文檔完善的技術文檔和活躍的社區,以及龐大的用戶群體和活躍的社區,以及龐大的用戶群體。廠商廠商 是否開源是否開源 軟件工軟件工具完備程度具完備程度AlAl框架適配情況框架適配情況L Libraryibrary庫函數豐富度自定義算子庫函數豐富度自定義算子 用戶數用戶數量量英偉達英偉達CUDACUDA 最完善 強 最高 200萬+證券研究報告 資料來源:英偉達官網,每日經濟新聞,各公司官網,申萬宏源研究 202.92.9評價生態的五大指評價生態的五
38、大指標標主要內容主要內容1.軟件工具:Al 芯片的“大管家”2.訓練端:后進入者競爭CUDA兩類方式3.推理端:ONNX 為“中間人”,軟件生 態百花齊放4.相關公司5.風險提示SWSTensorflow、PyTorch、MindSpore、MXNet需要將它們轉換到統一的數據結構上,即ONNX前端解析前端解析模型優化模型優化推理引擎組織推理引擎組織前處理前處理模型推理模型推理后處理后處理ONNXONNX 正逐漸成為正逐漸成為AlAl模型標準格式。模型標準格式。ONNXONNX (開開發神經網絡交換協議,發神經網絡交換協議,O O penNeuralNeural NetworkNetwork
39、Exchange)Exchange)是機器學習和深度學習模是機器學習和深度學習模型的開放格式型的開放格式結構。ONNXONNX oror自定義模自定義模型上層優化上層優化/圖優化圖優化底層優化底層優化Pytorchtf其他其他量量化化算子融合算子融合算算子子替替換換其其他他編編譯優化譯優化向量向量化化循循環拆分環拆分其他其他數據加載數據加載resize歸二歸二其他其他異步異步/同步同步序列化序列化/反反 序序列化列化 nmsyolo其他其他 證券研究報告 資料來源:極智視界,申萬宏源研究 223.13.1從訓到推:工具豐富,生態優從訓到推:工具豐富,生態優于訓練于訓練各自定義了自己的模型的數據
40、結構,推理系統推理框架推理框架主導者主導者 底層底層優勢優勢 劣勢劣勢使用場景使用場景OpenVINOIntel /支持多種推理引擎和底層硬件不支持ONNX中的所以CPU為 有算子 主自TensorRT英偉達 /配套CUDA,工具完善 只支持英偉達GPU廣泛的Al 場景華為昇騰華為參考 TVM底層優化開放 開發難度略高HPC Al模 型寒武紀寒武紀 /自定義算子方便,不同形態硬件間框架通用 性強豐富度不足NCNN騰訊開源端側模型部署和推理,尤其手機端性能好,適配所有OS云端性能 移動端通用TVM華盛頓大學的SAMPL 組開源/效率高,跨硬件平臺性能好 學習成本高ONNXRuntimeMeta、
41、微軟開源 /跨平臺、易用性高 有精度損失問題ONNXONNX 是模型轉換的中間人,因此推理框架差異主要來自于開發難度和優化性能是模型轉換的中間人,因此推理框架差異主要來自于開發難度和優化性能 將模型保存為ONNX格式后,可使用任何一種推理框架進行優化。證券研究報告 資料來源:極智視界,各產品官網,申萬宏源研究 233.23.2推理端軟件:各有千秋,推理端軟件:各有千秋,不斷進化不斷進化模式用主要內容主要內容1.軟件工具:Al 芯片的“大管家”2.訓練端:后進入者競爭CUDA兩類方式3.推理端:ONNX 為“中間人”,軟件生 態百花齊放4.相關公司5.風險提示SWS 華為昇騰鏈華為昇騰鏈服務器合
42、作伙伴:神州數碼、軟通動力、高新發展 零部件供應商:泰嘉股份算力運營/調優合作伙伴:軟通動力、中國軟件國際(H)、科大訊飛 其他國產算力其他國產算力 海光信息海光信息 寒武紀-U AIAI 應用應用 辦公類應用:金山辦公、福昕軟件 其 他Al:萬興科技、虹軟科技、云從科技-UW、新致軟件等 算力調優算力調優首都在線、恒為科技 證券研究報告 254.4.相關公司相關公司股票代碼股票代碼股票簡稱股票簡稱2024/9/182024/9/18歸母凈利潤歸母凈利潤(億元億元)PEPE總市值(億元)2023A 2024E 2025E 2026E 2023A 2024E 2025E 2026E688041.
43、SH海光信息 1,737 12.6 17.4 24.1 32.0 138 100 72 54688111.SH金山辦公 850 13.2 15.6 19.7 24.9 65 54 43 34688088.SH虹軟科技 94 0.9 1.4 1.9 2.6 107 67 49 37002230.SZ科大訊飛 782 6.6 6.6 10.0 13.6 119 119 78 58301236.SZ軟通動力 320 5.3 7.0 9.0 11.2 60 46 36 29000034.SZ神州數碼 158 11.7 14.1 17.0 20.2 14 11 9 8 證券研究報告 資料來源:Wind,
44、申萬宏源研究;注:盈利預測來自Wind致預期 264.4.重點公司估值表重點公司估值表主要內容主要內容1.軟件工具:Al 芯片的“大管家”2.訓練端:后進入者競爭CUDA兩類方式3.推理端:ONNX 為“中間人”,軟件生 態百花齊放4.相關公司5.風險提示SWS AI 芯片產品迭代進展不及預期。芯片產品迭代進展不及預期。由于AI芯片設計-流片-修改-迭代持續時間周期較長,且任一環節都可能出現問題,因此各AI 芯片廠商新一代產品可能無法如期推出,影響自身產品的放量。國產廠商軟件工具用戶習慣國產廠商軟件工具用戶習慣培育周期長。培育周期長。由于AI芯片開發工具之AI開發框架、GPU 編程平臺對專業知
45、識要求較高,學習成本高,可能 出現用戶對英偉達CUDA 較為依賴,不愿學習新語言、軟件工具的可能性,從而導致培育周 期長的問題出現。AI 應用長時間無爆款,影響應用長時間無爆款,影響Al 算力需求。算力需求。AI應用的突破需要基座模型能力的提升、產品設計和體驗的提升,而無論是模型能力還是產 品設計,迭代升級存在不確定性,同時,由于AI應用開發者需要考慮“投入-產出”比,即 ROI,若長時間無爆款應用出現,廠商對于Al算力的采購可能放緩。證券研究報告 285.5.風險提示風險提示本報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,以勤勉的職業態度、專業審慎的研究方法,
46、使用合法合規的信息,獨立、客觀地出具本報告,并 對本報告的內容和觀點負責。本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。與與 公公 司司 有有 關關 的的 信信 息息 披披 露露本公司隸屬于申萬宏源證券有限公司。本公司經中國證券監督管理委員會核準,取得證券投資咨詢業務許可。本公司關聯機構在法律許可情況下可能持有或交易本報告提到的投資標的,還可能為或爭取為這些標的提供投資銀行服務。本公司在知曉范圍內依法合規地履行披露義務??蛻艨赏ㄟ^ 索取有關披露資料或登錄 信息披露欄目查詢從業人員資質情況、靜默期安排及其他有關的信息披露。機機 構構 銷銷 售售 團團 隊
47、隊 聯聯 系系 人人我們在此提醒經,不同證券研究機構采用不同的評級術語及評級標準,我們采用的是相對評級體系,表示投資的相對此重建議;投資者采入或者賣出證卷的決定取決于個人的實際情況比如當前的持倉結構以及其他 需要考慮的因素。投資者應閱讀整篇報告,以獲取比較完整的觀點與信息,不應僅僅依靠投資評級來推斷結論。申銀萬國使用自己的行業分類體系,如果您對我們的行業分類有興趣,可以向我們的銷售員索取。29華 東A 組華 東B 組華 北 組華 南 組華 北 創 新 團 隊華 東 創 新 團 隊A A 股股 投投 資資 評評 級級 說說 明明證券的投資評級: :股價預計將上漲20%以上;:股價預計將上漲10-
48、20%;:股價變動幅度預計在-10%和+10%之間;:股價預計將下跌10-20%;:股價預計將下跌20%以上。:相對強于市場表現20%以上;:相對強于市場表現5%20%;:相對市場表現在-5%+5%之間波動;:相對弱于市場表現5%以下??春?Overweight)中 性(Neutral)看淡(Underweight)本報告采用的基準指數港港 股股 投投 資資 評評 級級 說說 明明證券的投資評級:買入(BUY):增持(Outperform)持有(Hold)減持(Underperform)賣 出(SELL)行業的投資評級::行業超越整體市場表現;:行業與整體市場表現基本持平;:行業弱于整體市場表
49、現。:恒生中國企業指數(HSCEI):行業超越整體市場表現;:行業與整體市場表現基本持平;:行業弱于整體市場表現。:滬深300指數買 入(Buy)增持(Outperform)中 性(Neutral)減持(Underperform)行業的投資評級:021-333884881801796320615724767486159141291691520191012318702179817看好(Overweight)中 性(Neutral)看淡(Underweight)本報告采用的基準指數以報告日后的6個月內,證券相對于市場基準指數的漲跌幅為標準,定義如下:以報告日后的6個月內,行業相對于市場基準指數的漲
50、跌幅為標準,定義如下:以報告日后的6個月內,證券相對于市場基準指數的漲跌幅為標準,定義如下:以報告日后的6個月內,行業相對于市場基準指數的漲跌幅為標準,定義如下:信息披露證 券 分 析 師 承 諾霞霞昇昇燁燁 明明曉 藝茅茅 李李 肖肖 李李 潘潘 朱炯炯 慶慶法律聲明法律聲明本報告由上海申銀萬國證券研究所有限公司(隸屬于申萬宏源證券有限公司,以下簡稱“本公司”)在中華人民共和國內地(香港、澳門、臺灣除 外)發布,僅供本公司的客戶(包括合格的境外機構投資者等合法合規的客戶)使用。本公司不會因接收人收到本報告而視其為客戶。有關本報告 的短信提示、電話推薦等只是研究觀點的簡要溝通,需以本公司網站刊
51、載的完整報告為準,本公司并接受客戶的后 續問詢。本報告首頁列示的聯系人,除非另有說明,僅作為本公司就本報告與客戶的聯絡人,承擔聯絡工作,不從事任何證券投資咨詢服務業務。本報告是基于已公開信息撰寫,但本公司不保證該等信息的準確性或完整性。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,并 非作為或被視為出售或購買證券或其他投資標的的邀請或向人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告??蛻魬斂紤]到本公司可能存在可能影響本報告客觀性
52、的利益沖突,不應視本報告為作出投資決策的惟一因素??蛻魬灾髯鞒鐾顿Y決策并自行承 擔投資風險。本公司特別提示,本公司不會與任何客戶以任何形式分享證券投資收益或分擔證券投資損失,任何形式的分享證券投資收益或者分擔證 券投資損失的書面或口頭承諾均為無效。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。本公司未確保本報告充分考 慮到個別客戶特殊的投資目標、財務狀況或需要。本公司建議客戶應考慮本報告的任何意見或建議是否符合其特定狀況,以及(若有必要)咨詢獨 立投資顧問。在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議。在任何情況下,本公司不對任何人因使用本報告中
53、的 任何內容所引致的任何損失負任何責任。市場有風險,投資需謹慎。若本報告的接收人非本公司的客戶,應在基于本報告作出任何投資決定或就本 報告要求任何解釋前咨詢獨立投資顧問。本報告的版權歸本公司所有,屬于非公開資料。本公司對本報告保留一切權利。除非另有書面顯示,否則本報告中的所有材料的版權均屬本公司。未經本公司事先書面授權,本報告的任何部分均不得以任何方式制作任何形式的拷貝、復印件或復制品,或再次分發給任何其他人,或以任何侵犯 本公司版權的其他方式使用。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記,未獲本公司同意,任何人均無權在 任何情況下使用他們。30簡單金融簡單金融 成就夢想成就夢想A Virtue of Simple Finance上海申銀萬國證券研究所有限公司(隸屬于申萬宏源證券有限公司)31申萬宏源研究微信訂閱號申萬宏源研究微信訂閱號 申萬宏源研究微信服務號申萬宏源研究微信服務號