1、華為算力框架報告昇騰鯤鵬構筑國內算力第二極行業評級:看好2023年12月1證券研究報告分析師劉雯蜀分析師李佩京郵箱郵箱證書編號S1230523020002證書編號S1230522060001投資要點2AI算力有望在未來三年實現加速國產化,2024年國產AI服務器總規模有望達到400億復盤我國超算、普通云計算算力發展史可以發現,從8年前開始,我國的關鍵芯片行業已從幕后到臺前;我們認為整體發展規律上,國產AI算力有望在未來三年實現從“可用”到“好用”再到“主動用”的發展階段,我們預計2024年國內AI算力總需求有望達到211.50EFlops,其中國產算力需求為98.24EFlops,國產化比例為
2、46.45%,對應國產AI芯片出貨量為30.7萬張,潛在市場規模約為307億,折合8卡AI服務器3.84萬臺,潛在市場規模為409.33億。華為昇騰對標英偉達,有望成為國內第二AI算力生態自2006年推出至今,CUDA已擁有超400萬開發人員,下載量累計4000萬,在超過3000個應用程序中被廣泛部署;華為對標CUDA打造了自己的昇騰生態,憑借完善的生態體系和全場景互聯兼容能力,華為昇騰在國產AI芯片中的市占率遙遙領先,IDC數據顯示,2022年中國AI加速卡(公開市場)出貨量約為109萬張,其中英偉達在中國AI加速卡市場份額為85%,華為市占率為10%,百度市占率為2%、寒武紀和燧原科技均為
3、1%,我們預計未來華為昇騰有望成為國內第二AI算力生態。昇騰生態合作伙伴主要基于華為主板進行迭代,關注現金流更充足、具備多G端場景的標的基于Atlas系列模組板卡,華為整機伙伴推出了自有品牌服務器,我們認為整機伙伴已經從從“春秋”進入到“戰國”階段,現金流、股東背景、客戶資源是關鍵,具備持續且充足的現金流的公司有望在長期占據第一梯隊,可以拿到更多大額訂單和頭部優質客戶的份額,集中度有望上升;一體機可以很大程度上降低軟硬件投資成本以及安裝維護技術門檻,并且從物理層面上解決了數據安全問題,未來政府端的私有化部署將成為首先放量的需求,具備G端真實場景積累的標的有望獲益。相關標的(1)關鍵零部件:華豐
4、科技、卓易信息等;(2)服務器:四川長虹、高新發展、神州數碼、中國長城、烽火通信、拓維信息、廣電運通、特發信息、同方股份、軟通動力等;(3)一體機:云從科技、科大訊飛、醫渡科技、安恒信息、中軟國際、恒為科技、中軟國際、開普云等;(4)軟件生態及盤古大模型應用:云天勵飛、格靈深瞳、軟通動力、北路智控、能科科技、航天宏圖、中科星圖、超圖軟件等;風險提示國際形勢變化風險、芯片等關鍵部件供應風險、下游客戶需求總額或釋放節奏不及預期、國產替代進程不及預期、技術風險、競爭加劇風險等oXgUcZvZmZoX8VuWvXjYbR8Q9PpNmMmOmPfQoPnPkPoMoQ8OnMnNxNpNqQuOtOt
5、O2024年國產AI服務器總規模有望達到400億01Partone34復盤我國超算、普通云計算算力發展史可以發現,從8年前開始,我國的關鍵芯片行業已從幕后到臺前:1)超算領域,2015年4月美國商務部就開始拒絕Intel、AMD等主要廠商向中國出口CPU芯片,此后我國的“十三五”國家科技創新規劃明確提出要突破超級計算機中央處理器(CPU)架構設計技術,根據前瞻經濟學人,2022年中國TOP100高性能計算機中自主研發的集群占95%,至今我國超算行業已進入互聯互通及使用率提升階段;2)云計算領域,2019年開始,我國黨政信創大規模啟動,以PC為載體的國產算力經歷了“可用”到“好用”的政策驅動+產
6、品磨合迭代期,目前已進入八大行業信創客戶“主動用”的半政策半市場驅動+性價比提升期。我國關鍵芯片行業已從幕后逐步走向臺前我國信創產業發展進程:“2+8+N”逐步滲透資料來源:前瞻經濟學人、億歐智庫、浙商證券研究所5我們認為,我國AI算力有望在未來三年實現加速國產化:1)整體發展規律上,國產AI算力有望類似超算、云計算,在未來經歷從產品打磨到性價比提升的步驟,以及從“可用”到“好用”再到“主動用”的發展階段;2)驅動因素上,由于AI的巨大商業化潛力,在美國不斷加緊制裁的背景下,市場化驅動力更強;3)產品迭代周期上,以華為海思、海光、寒武紀為代表的國產算力廠商基于云計算信創積累的經驗,有望實現產品
7、的加速迭代;AI算力有望在未來三年實現加速國產化超算云計算AI計算當前發展階段基本國產化部分國產化開始國產化技術積累較難相對難有一定積累國產化驅動因素純政策政策+市場化市場化為主從受限到規?;黄频闹芷?0年左右5年左右3年(預期)資料來源:浙商證券研究所整理2024年國產AI服務器市場規模有望達到400億6根據我們的算力框架報告測算,考慮到我國國產AI芯片供應商的產能供應、生態適配、綜合性價比等情況,國內AI芯片與英偉達H100芯片相比仍有一定差距,因此我們認為政策性客戶有望逐步全面轉向國產AI芯片,商用客戶如互聯網有望將百億參數模型的部分訓練和推理需求轉向國產AI芯片,2024年我國國產芯
8、片主要需求將包括:政府智算中心、運營商、金融、第三方大模型廠商、互聯網廠商,我們預計2024年國產AI芯片出貨量為30.7萬張,潛在市場規模約為307億,折合AI服務器3.84萬臺,潛在市場規模為409.33億。資料來源:根據公開資料整理測算,存在四舍五入情況,計算過程請見后幾頁,浙商證券研究所;注:根據華為認證公眾號,昇騰910在FP16下算力為320T、INT8下算力為640T2024年新增總算力需求(EFlops)國產化比例(%)國產算力需求(EFlops)單卡算力(Tflops)卡數(萬)假設單臺AI服務器卡數(張)AI服務器臺數(萬)政府智算中心(FP16)23.00 100%23.
9、00 3207.19 80.90 運營商(FP16)43.63 80%34.90 32010.91 81.36 金融(FP16)10.69 60%6.41 3202.00 80.25 第三方大模型廠商-訓練(FP16)79.37 25%19.84 3206.20 80.78 互聯網廠商-百億訓練(FP16)49.60 20%9.92 3203.10 80.39 互聯網廠商-百億推理(INT8)10.42 80%8.33 640 1.30 80.16 合計211.5098.2430.70 3.84 華為昇騰世界AI算力新星02Partone78生態:英偉達基于CUDA構筑堅固生態護城河CUDA(
10、Compute Unified Device Architecture)生態為從CUDA編程框架發展出的一系列軟硬件及擴展體系。底層硬件包括主要負責向量運算的CUDA Core(FP32/FP64)以及主要負責低精度浮點運算的Tensor Core(FP16、INT8),軟件則包括中層API接口、驅動、編譯器以及上層CUDA-X系列算法庫(包括cuDNN、cuML、TensorRT、cuDF、cuGraph及其他13個以及超過 13 個的其他庫),基于CUDA軟件棧進行第三方應用及工具擴展就形成了廣義的CUDA生態體系;生態優勢凸顯。自2006年推出至今,CUDA已擁有超400萬開發人員,下載
11、量累計4000萬,在超過3000個應用程序中被廣泛部署,目前已經成為全球領先的AI加速計算生態。資料來源:CSDN、汽車人參考、英偉達、芯語、COMPUTEX 2023、21Tech、快科技、Wikipedia、khronos、run.ai、AMD、浙商證券研究所特性CUDAOpenCLROCm發起者NVIDIAApple等多家公司AMD生態特點封閉,配備完整工具包、針對單一供應商(NVIDIA)的成熟的開發平臺面向異構系統,支持NVIDIA、AMD和Intel的GPU,以及CPU、FPGA等,是一個開放的行業標準封閉,用于AMD的GPU編程語言C,C+,Fortran,Python,MATL
12、AB等類似C的編程語言HIP(類CUDA)和OpenCL運行性能在NVIDIA GPU上,CUDA比OpenCL快30%通常比CUDA慢-社區成員數量超過400萬開發人員,超過3,000個應用程序-其他專為并行計算設計,可以在GPU上并行化計算,加速處理密集型應用可以在運行時編譯,使得OpenCL程序可以在不同的主機設備之間移植專為高性能計算(HPC)和人工智能(AI)工作負載優化,支持AMD Infinity Hub上的人工智能框架容器,包括TensorFlow 1.x、PyTorch 1.8、MXNet等CUDA、OpenCl、ROCm比較CUDA生態架構及迭代飛輪生態:對標英偉達,華為昇
13、騰為世界提供AI算力的第二選擇9資料來源:鯤鵬社區、昇騰社區、浙商證券研究所華為昇騰AI產業生態昇騰計算產業:基于昇騰系列(HUAWEI Ascend)處理器和基礎軟件構建的全棧AI計算基礎設施、行業應用及服務,包括昇騰系列處理器、系列硬件、CANN(Compute Architecture for Neural Networks,異構計算架構)、AI計算框架、應用使能、開發工具鏈、管理運維工具、行業應用及服務等全產業鏈。華為昇騰AI產業生態包括昇騰AI基礎軟硬件平臺,即Atlas系列硬件、異構計算架構CANN、全場景AI框架昇思MindSpore、昇騰應用使能MindX以及一站式開發平臺Mo
14、delArts等?;跁N騰910系列板卡,華為推出了AI訓練集群Atlas900、AI訓練服務器Atlas800、智能小站Atlas500、AI推理與訓練卡Atlas300和AI加速模塊Atlas200,完成了Atlas全系列產品布局,支持萬億參數大模型訓練,同時覆蓋云、邊、端全場景。華為提出了具備分層開放、體系協同、敏捷高效、安全可信等特征的,全行業通用的行業智能化參考架構。其中智能底座提供大規模 AI 算力、海量存儲及并行計算框架,支撐大模型訓練,提升訓練效率,提供高性能的存算網協同。根據場景需求不同,提供系列化的算力能力。適應不同場景,提供系列化、分層、友好的開放能力。另外,智能底座層還
15、包含品類多樣的邊緣計算設備,支撐邊緣推理和數據分析等業務場景。華為行業智能化參考架構處理器:神經網絡擬合過程需要芯片具備大規模簡單計算能力10類GPU芯片更強調并行計算能力,適用于大規模簡單計算場景。CPU為順序執行指令,重點是減少指令執行延遲,將大量芯片面積專門用于可減少指令延遲的功能,例如大緩存、更少的ALU和更多的控制單元;GPU專為大規模并行性和高吞吐量而設計,使用大量SM(流式多處理器)來最大化其計算能力和吞吐量,它們使用非常少量的芯片區域作為緩存和控制單元,使得其具有很高的延遲;神經網絡的擬合過程涉及海量的函數運算、對計算資源的要求非常高,類GPU芯片為目前性價比首選。在AI運算中
16、,像素、字符等經常會被轉化成為矢量數據進行處理,處理方式主要是MAC(乘積累加)運算,即先做乘法然后再把結果相加循環往復,如在圖像識別中每個像素都有一個向量值,這個值要跟權重信息不斷相乘相加最終提取出圖像特征;GPU由于運算核心為CPU的上百倍,因而更適用于AI運算,如Intel2023年初推出的最新的數據中心處理器第四代至強可擴展處理器(代號 Sapphire Rapids)最多支持 60 核,而Nvidia H100 GPU則有132個SM,每個SM有64個Core,總共有8448個Core;CPU和GPU架構區別GPU的計算架構(左圖綠色部分)資料來源:英偉達、芯師爺、IT之家、浙商證券
17、研究所處理器:英偉達的核心技術快速設計迭代的微架構11微架構(microarchitecture),是指一種計算機硬件的設計和實現方法,它描述了處理器是如何執行指令集(指令集,即芯片中用來計算和控制計算機系統的一套指令的集合)的,因為同一指令可以通過不同的電路單元或組合來實現,所以同一指令集可以有不同的微架構;英偉達的核心技術之一為微架構的設計和迭代能力。英偉達自2006年首次提出首個通用GPU計算架構Tesla以來,不斷加大研發投入和迭代速度,平均1-2年推出一版新架構;根據JPR,在獨立顯卡市場中,2023年Q2英偉達市場份額達到了87%。英偉達微架構演進史資料來源:英偉達、騰訊云、芯智訊
18、、JPR、半導體行業觀察、浙商證券研究所架構代號TeslaFermiKeplerMaxwellPascalVoltaTuringAmpereHopper中文代號特斯拉費米開普勒麥克斯韋帕斯卡伏特圖靈安培赫柏時間200620092012201420162017201820202022制程40nm28nm28nm16nm12nm12nm8nm4nm核數128個16個SM*32CUDA Core,共計512個CUDA Core15個SMX*(192個單精度+64個雙精度CUDA core)具有3072個CUDA核心 3840個CUDA核心5120個CUDA核心,新增了640個張量核心具有4608個C
19、UDA核心、576個張量核心具有6912個CUDA核心、432個張量核心具有18432個FP32 CUDA核心、576個張量核心特點首個通用GPU計算架構,采用全新的CUDA架構,支持使用C語言進行GPU編程,可以用于通用數據并行計算,標志著GPU開始從專用圖形處理器轉變為通用數據并行處理器引入L1/L2快速緩存、錯誤修復功能和GPU Direct技術首個支持超級計算和雙精度計算的GPU架構,計算能力比Fermi架構提高3-4倍,GPU開始成為高性能計算的關注點在功耗效率、計算密度上獲得重大提升,計算密度是Kepler的兩倍,標志著GPU的節能計算時代到來增強了GPU的能效比和計算密度,功耗只
20、有300W,比Maxwell架構提高50%以上,使GPU可以進入更廣泛的人工智能、汽車等新興應用市場。AI計算能力達到112 TFLOPS,比Pascal架構提高了近3倍,可以大大加速人工智能和深度學習的訓練與推理新增了Ray Tracing核心(RT Core),可硬件加速光線追蹤運算在人工智能、光線追蹤和圖形渲染等方面性能大幅躍升,功耗卻只有400W,能效比顯著提高Hopper Transformer引擎可以做到FP16和FP8之間逐層交換,利用NVIDIA提供的啟發算法來降低所需精度華為昇騰芯片架構處理器:華為基于自研達芬奇微架構形成面向AI計算的NPU芯片12昇騰AI處理器為華為以面向
21、AI計算為設計理念的自研達芬奇微架構NPU芯片。與基于存儲和處理分離的經典馮 諾伊曼結構GPU(如英偉達A100)不同,華為昇騰芯片將存儲和處理一體化,用電路模擬人類的神經元和突觸結構,將每個神經元抽象為一個激勵函數,該函數的輸入由與其相連的神經元的輸出以及連接神經元的突觸共同決定,使用者通常需要(通過某些特定的算法)調整人工神經網絡中突觸的取值、網絡的拓撲結構等,該過程稱為“學習”;因而昇騰AI系列芯片既是NPU(神經網絡處理器),也是一個集成了 CPU、DVPP以及任務管理器的Soc(高度集成的片上系統),基于該設計理念,單顆昇騰910可以獨立完成整個AI的訓練流程,最小化與Host的交互
22、,從而充分發揮其算力。昇騰處理器的AI Core計算單元專門為AI而生。主要包含矩陣計算單元、向量計算單元、標量計算單元和累加器,分別負責完成張量、向量和標量運算:1)矩陣計算單元特意對矩陣計算進行了深度的優化并定制了相應的矩陣計算單元來支持高吞吐量的矩陣處理,可以用一條指令完成兩個16*16矩陣的相乘運算,即163=4096個乘加運算(因而也稱為達芬奇3D Cube技術),并且可以實現FP16的運算精度;2)向量計算單元能夠實現向量和標量,或雙向量之間的計算,功能覆蓋各種基本和多種定制的計算類型,主要包括FP32、FP16、INT32和INT8等數據類型,全面完善了AI Core對非矩陣類型
23、數據計算的能力;3)標量計算單元則相當于一個微型CPU,控制整個AI Core的運行,可以對程序中的循環進行控制,可以實現分支判斷,其結果可以通過在事件同步模塊中插入同步符的方式來控制AI Core中其它功能性單元的執行流水。標量/向量/矩陣計算單元資料來源:華為云社區、新智元、浙商證券研究所處理器:昇騰支持全場景,性能接近A100,市占率國內領先13昇騰處理器支持全場景。昇騰處理器是全球首個覆蓋全場景AI芯片,基于統一的達芬奇架構,可以支持端邊云不同場景的差異化算力需求,并具備從幾十毫瓦IP到幾百瓦芯片的平滑擴展,覆蓋了端邊云全場景部署的能力:昇騰910訓練處理器具有超高算力,FP16下性能
24、最高可達320TFLOPS。昇騰910集成了CPU Core、DVPP 和任務調度器(Task Scheduler),可以減少和Host CPU的交互,充分發揮其高算力的優勢;還集成了HCCS、PCle 4.0和ROCE v2 接口,為構建橫向擴展(Scale Out)和縱向擴展(Scale Up)系統提供了靈活高效的方法,科大訊飛創始人、董事長劉慶峰表示華為的GPU能力可以對標英偉達A100;昇騰310推理處理器高效、靈活、可編程,能效比高?;诘湫团渲?,性能可達到 22TOPS(INT8)或11TFLOPS(FP16),在功耗和計算能力等方面突破了傳統設計的約束,其功耗僅為 8W。隨著能效
25、比的大幅提升,將AI從數據中心延伸到邊緣設備,為平安城市、自動駕駛、云服務和智能制造、機器人等應用場景提供了全新解決方案;國產芯片中,華為昇騰市占率遙遙領先。IDC數據顯示,2022年中國AI加速卡(公開市場)出貨量約為109萬張,其中英偉達在中國AI加速卡市場份額為85%,華為市占率為10%,百度市占率為2%、寒武紀和燧原科技均為1%;2023年上半年,中國AI服務器使用了50萬塊本地采購/開發的AI加速器芯片,占中國整個服務器市場的10%。昇騰芯片迭代計劃資料來源:華為、新智元、199it、科大訊飛、IDC、AMD、英偉達、海光招股書、IT之家、浙商證券研究所主流AI芯片AMD英偉達華為昇
26、騰海光信息寒武紀MI300XL40sA100 SXMH100 SXM昇騰310昇騰910DCU思元370算力指標FP6447.9T-9.7T34T-11.5T-FP3247.9T183T19.5T67T-24TFP16383T362.05T312T989.5T11T320T-96TINT8-733T624T1979T22T640T-256T內存容量192GB48GB80GB80GB-32GB24GB內存帶寬5.05TB/s 864GB/s1.99TB/s3.35TB/s-1TB/s307.2 GB/s功耗600w350W400w700w8W310W260-350W150W系列硬件:從單卡到集群
27、,具備完善的硬件體系14Atlas 900 AI集群Atlas 900 PoDAtlas 800 訓練服務器Atlas 800 訓練服務器Atlas 800 推理服務器Atlas 800 推理服務器Atlas 300T 訓練卡Atlas 300I 推理卡型號90009000900090103000301090003000/3010圖示形態-47U機柜4U服務器4U服務器2U服務器2U服務器全高,3/4長,雙槽位半高半長PCIe卡CPU-32*鯤鵬9204*鯤鵬9202*Intel V5 Cascaded Lake處理器2*鯤鵬9201/2個Intel Xeon SP Skylake 或 Cas
28、cade Lake處理器,最高205W-AI處理器數千顆昇騰910 AI處理器互聯64*昇騰9108*昇騰9108*昇騰910最大支持8個Atlas 300I 推理卡最大支持7個Atlas 300I 推理卡昇騰 910昇騰310HBM-2048 GB32 GB,1228GB/s 32GB,1228GB/s-AI算力256 1024 PFLOPSFP1614.08 20.48 PFLOPS FP16,最大可擴展至1 EFLOPS FP162.24 PFLOPS FP161.76 PFLOPS FP162.24 PFLOPS FP161.76 PFLOPS FP16最大704 TOPS INT8最
29、大616 TOPS INT8內置30個達芬奇AI Core280 TFLOPS FP16(Pro)220 TFLOPS FP1688 TOPS INT8網絡及接口集成HCCS、PCIe 和100G RoCE三種高速接口-8*100GE+4*25GE/2*100GE8*100GE1*OCP NIC 3.0標卡,支持2*25GE最多支持9個PCIe4.0 PCIe接口10個PCIe Gen3.0接口1*100GE QSFP-DD接口,出口總帶寬56.5 Gb/sPCIe x16 Gen3.0功耗單柜50KW單柜46 kW,根據采購的設備配置不同,功耗會有所差異最大功耗5.6 kW最大功耗5.6 k
30、W-最大300W最大67W散熱方式混合液冷液冷風冷/液冷風冷風冷風冷被動風冷-資料來源:華為官網、浙商證券研究所計算架構:英偉達基于CUDA編程架構構筑深厚護城河15狹義的CUDA是NVIDIA以“軟件定義硬件”的思路,專為圖形處理單元(GPU)上的通用計算開發的并行計算平臺和編程模型,包含有一個指令集架構和相應的硬件引擎,不同領域的開發者可以通過API接口訪問GPU的計算資源;CUDA的優勢在于其低門檻及高易用性。CUDA具備易部署(用戶開箱即用)、開發接口層次靈活(OpenCL、OpenGL類似的一種API)、滿足不同領域開發者編程語言(C、C+、Fortran、Python、MATLAB
31、)、品類齊全的工具集(GDB、Nsight、Memcheck等)、眾多第三方工具和軟件庫,大大減少了開發者的編程難度、提升了軟硬件計算效率。CUDA數據中心平臺解決方案架構CUDA-X加速庫資料來源:英偉達、CNSD、智東西、run.ai、浙商證券研究所大類簡介加速庫數學庫GPU 加速的數學庫為分子動力學、計算流體+B1:Q38力學、計算化學、醫學成像和地震勘探等領域的計算密集型應用奠定了基礎。cuBLAS、cuFFT、CUDA數學庫、cuRAND、cuSOLVER、cuSPARSE、cuTENSOR、AmgX并行算法庫GPU 加速的高效并行算法庫,用于 C+中的多項運算,并在研究自然科學、物
32、流、旅行規劃等領域的關系時與圖形一起使用。Thrust圖像和視頻庫GPU加速庫,用于通過CUDA和GPU的專用硬件組件來進行圖像和視頻解碼、編碼和處理nvJPEG、NVIDIA性能基元、NVIDIA視頻編解碼器SDK、NVIDIA光流SDK通信庫性能經過優化的多 GPU 和多節點通信基元NVSHMEM、NCCL深度學習庫GPU加速庫,用于利用CUDA和專用GPU硬件組件的深度學習應用。NVIDIA cuDNN、NVIDIA TensorRT、NVIDIA Riva、NVIDIA DeepStream SDK、NVIDIA DALI合作伙伴庫合作伙伴共建OpenCV、FFmpeg、ArrayFi
33、re、MAGMA、IMSL Fortran數值庫、Gunrock、CHOLMOD、Triton Ocean SDK、CUVIlib計算架構:CANN對標CUDA,開發靈活性好、兼容性強16華為異構計算架構(CANN)是對標英偉達的CUDA+CuDNN的開發體系,包含了編程語言,編譯及調試工具和編程模型。具備各種引擎、編譯器、執行器、算子庫等,對上支持多種AI框架,對下負責算子的調度、加速和執行,調度分配計算到對應的硬件上,發揮了重要的承上啟下的關鍵作用;CANN具備開發靈活性好、兼容性強的優點:1)CANN提供的DSL算子開發方式可自動實現數據的切分和調度,提升70%的開發效率;TIK算子開發
34、方式支持開發者指令級編程和調優,可更好發揮芯片性能;2)CANN已升級7.0,兼容業界主流的AI框架、加速庫和大模型;支持端邊云全場景協同,支持超過10種設備形態、EMUI、Andriod、openEuler、UOS、Ubuntu、Debian、Suse 等超過14 種操作系統和多種 AI計算框架,對于上層應用,無需關注關注操作系統的變化和硬件的演進;支持多種計算架構和計算框架,一套體系支持 CPU、NPU 等架構和多種 AI 計算框架。CANNAI框架計算資源適配支持基礎服務圖引擎計算語言Driver實現硬件和操作系統的適配和支持Runtime運行時庫Graph Engine架構的核心模塊,
35、實現了大計算圖的拆分、圖融合,最大化芯片算力利用率AscendCL對開發者屏蔽底層多種處理器差異,開放支持多種不同的 Al計算框架,幫助基于不同框架的應用進行遷移DVPP數字視覺預處理AIPP人工智能預處理HCCL華為集合通信庫提供板間以及框間通信能力,發揮100G的 ROCE 接寬帶連接能力昇騰AI處理器昇思 MindSpore 開源AI框架TensorFlow/PyTorch 等第三方框架CANN結構資料來源:華為昇騰社區、CSDN、IT之家、浙商證券研究所17AI框架是AI技術生態中的操作系統,是為Al算法模型設計訓練和驗證提供的一套標準接口特性庫和工具包,集成了算法的封裝、數據的調用以
36、及計算資源的使用,同時面向開發者提供了開發界面和高效的執行平臺;MindSpore是華為推出的面向“端-邊-云”全場景設計的AI框架,在算法研究階段,為開發者提供動靜統一的編程體驗以提升算法的開發效率;在生產階段,自動并行可以極大加快分布式訓練的開發和調試效率,同時充分挖掘異構硬件的算力;在部署階段,基于“端-邊-云”統一架構,應對企業級部署和安全可信方面的挑戰。昇思MindSpore可以原生實現大模型訓練,是目前業內大模型訓練的最佳框架之一。1)向上,1.0版本實現了業界首個全場景AI框架,1.5版本開始原生支持大模型,2.0版本新增支持LLaMA、Bloom、GLM、GPT等百億大模型,2
37、.2版本支持20+熱門預訓練大模型和52+典型規格開箱即用,基于昇思MindSpore,國內外的廠商已經訓練22+個大模型,參數規模從百億萬億之間;向下,MindSpore已兼容適配20余家芯片廠商伙伴的硬件設備,覆蓋 NPU、GPGPU、CPU 等主流計算架構;根據Omdia,MindSpore在國內AI框架中的份額為11%,處于第一梯隊;MindSpore四層架構模 型 層表 達 層編 譯 層部 署運 行 層MindSpore實現了訓練推理全流程技術閉環資料來源:華為昇思社區、昇思MindSpore、Omdia、199it、CSDN、浙商證券研究所MindSpore社區生態蓬勃發展框架:M
38、indSpore開發態友好、運行態高效、全場景按需協同框架:加入Pytorch社區,加速構建開源生態18目前國際主流AI框架為Google-TensorFlow和Meta-PyTorch,產業界以TensorFlow為主,學術界以PyTorch為主,呈現雙寡頭格局,國產框架MindSpore緊隨其后。根據Omdia,開發者選擇人工智能框架最重要的因素是易用性、其次是性能,同時在超大規模模型訓練能力上,TensorFlow、PyTorch、MindSpore、PaddlePaddle表現較為優秀,均超過其他框架;MindSpore社區生態國內領先。過去三年,昇思社區幫助業界完成了紫東太初、鵬程系
39、列等百億、千億級大模型,根據中國人工智能大模型地圖研究報告中的數據,基于昇思孵化的產業落地大模型,占到國內總數的 40%,昇思的開源生態匯集了超過 1.3 萬貢獻者,基于 MindSpore 的頂會論文如今已超過 900 篇,據Papers with Code統計,2022 年使用 MindSpore 的頂級會議論文在國內 AI 框架中排名第一,全球范圍內僅次于 PyTorch,位列第二;支持國際主流框架,加速生態優勢。昇騰CANN具備AI框架適配器Framework Adaptor,可支持TensorFlow、PyTorch等國際主流AI框架;此外,10月18日,華為還作為Premier最高
40、級別會員正式加入全球AI開源框架PyTorch社區,目前PyTorch2.1版本已同步支持昇騰NPU,開發者可直接在PyTorch2.1上基于昇騰進行模型開發,基于PyTorch,昇騰已經適配了BLOOM、GPT-3、LLaMA等業界主流大模型,深度優化后性能可持平業界;排名AI 框架開源代碼提交次數(次)代碼復刻與分叉次數(次)點贊數(個)貢獻者(個)國外1TensorFlow15159288700+177000+34102PyTorch6255919000+694002864國內1Mindspore6995664536004652PaddlePaddle42793530020700815截
41、至2023年8月主流AI框架在GitHub上的情況資料來源:Github、前瞻產業研究院、機器之心、自主可控新鮮事、CSDN、Omdia、199it、浙商證券研究所63.20%36.80%37.30%20.10%42.60%61.20%38.80%0%10%20%30%40%50%60%70%TensorFlow PyTorchTensorFlow PyTorch其他TensorFlow PyTorch份額2023年細分市場份額對比(%)人工智能機器學習深度學習PyTorch,34%TensorFlow,30%PaddlePaddle,11%MindSpore,11%OneFlow,3%MXN
42、et,2%MegEngine,2%Jittor,1%其他,6%中國開發者主流人工智能框架使用率排名MindStudio:訓練性能提升340%,實現分鐘級遷移19MindStudio是華為面向昇騰AI開發者提供的一站式開發環境和工具集,為客戶提供端到端的昇騰AI應用開發解決方案,使開發者能夠在一個工具上高效完成算子開發、訓練開發和推理開發;模型遷移:從GPU訓練腳本平滑過渡到昇騰生態。針對已在GPU上運行的PyTorch模型,通過MindStudio遷移工具,只需要兩行代碼,分鐘級即可將特有的torch GPU API遷移至torch NPU API,整個遷移過程在運行態完成,底層無感知;Aut
43、oML自動調優:化繁為簡的模型生成、訓練與推理利器。AutoML自動調優覆蓋MindSpore、PyTorch框架,實現昇騰親和模型對分類、檢測、分割、NLP等全場景通用模型的自動調優,以自動化工具持續優化模型性能,改善用戶推理體驗訓練腳本遷移后的模型性能精度自動調優,可將推理性能提升20%。資料來源:華為、昇騰AI開發者創享日大會、IT創事記、浙商證券研究所客戶需求解決方案收益訓練業務涉及語音識別、語音合成、OCR圖文識別、多語種等算力需求達萬核級,遷移到昇騰平臺關注訓練、推理性能MindStudio性能調優工具為用戶提供端到端Profiling能力能夠準確定位系統的軟硬件性能瓶頸,以最小的
44、代價和成本實現業務場景的極致性能,提高開發者性能分析的效率模型性能提升340%+調優效率提升300%+推理追求極致性能,模型遷移自動化,離線推理,專注CV、語音場景,兼有OCR、NLP等希望以CV類模型遷移作為試點,后續逐步遷移其它應用模型基于Pytorch GPU2Ascend的遷移工具實現模型遷移:YOLOV3,centernet,DBNet等網絡分鐘級完成主流模型遷移,保證業務快速上線提高了客戶向昇騰遷移的信心,業務系統未來逐步遷移至昇騰平臺訓練及推理案例模型遷移及自動調優功能產業鏈:華為搭建基礎設施,合作伙伴構建中上游軟硬生態20資料來源:華為昇騰社區、浙商證券研究所行業應用及服務應用
45、使能基礎軟件硬件Model ArtsHiAI Service第三方平臺MindXMindSporeTensorFlow/PyTorch/.異構計算架構 CANNNPU 驅動系列硬件昇騰系列處理器開發工具鏈管理端工具MindstudioFusionDirector/Smartkits合作伙伴終端客戶銷售參考設計賦能認證開源貢獻教學科研算子眾籌賦能認證開源貢獻產品銷售開源開放開源貢獻銷售參考設計IHV初創公司高校開發者ISVOEM ODMC&SI集成IHV硬件伙伴-基于昇騰部件二次開發形成自有品牌硬件優選級:凌華科技認證級:研揚科技、研華科技、飛途、樂聲智能、全愛科技整機硬件伙伴-基于昇騰芯片形成
46、自有品牌服務器整機領先級:寶德、華鯤振宇優選級:百信、長江計算、神州鯤泰、廣電五舟、湘江鯤鵬認證級:安擎、北聯國芯、新華三、黃河、昆侖、清華同方應用軟件伙伴-對接昇騰開發、銷售自有知識產權的應用程序、軟件、垂直細分應用優選級:華雁智科、以薩技術、云天勵飛、格靈深瞳、云從科技、智洋創新等一體機解決方案伙伴-基于昇騰整機嵌入軟件形成一體機認證級:以薩技術生態運營伙伴-可運營區域內智算中心等業務認證級:極視角科技、中軟國際黨政客戶央國企行業客戶,如運營商、金融、互聯網、能源交通、教育、醫療等大模型廠商產業鏈:華為搭建基礎設施,合作伙伴構建中上游軟硬生態21資料來源:華為昇騰社區、昇騰開發者、華為開發
47、者大會、華為、訊飛星火認知大模型發布會、億歐、智東西、證券時報、中軟國際官網等、浙商證券研究所CPU:鯤鵬920處理器模組板卡等二次開發硬件及整機終端客戶GPU:昇騰910bGPU:昇騰310Atlas 200 AI加速模塊(INT8,22T)Atlas 200 AI加速模塊(INT8,22T)Atlas 500智能小站Atlas 500Pro智能邊緣服務器(INT8,352T)Atlas 300I 推理卡(INT8,88T)Atlas 800推理服務器(INT8,704T)Atlas 300T 訓練卡(FP16,320T)Atlas800訓練服務器(FP16,2.24P)Atlas 900
48、AI集群云邊端整機合作伙伴華鯤振宇、寶德、昆侖、神州鯤泰、長江計算、湘江鯤鵬、廣電五舟、同方計算機等IHV凌華科技、研揚科技、研華科技、飛途昇騰、東聲智能、全愛科技等一體機以薩技術、華鯤振宇、軟通動力、云從科技、科大訊飛、智譜AI、醫渡科技、安恒信息、中軟國際、恒為科技、開普云等應用軟件華雁智科、以薩技術、云天勵飛、格靈深瞳、云從科技、智洋創新等生態運營伙伴極視角、中軟國際等黨政客戶華 為合 作 伙 伴央國企行業客戶,如運營商、金融、互聯網、能源交通、教育、醫療等大模型廠商整機伙伴:從“春秋”到“戰國”,現金流、股東背景、客戶資源是關鍵22服務器業務的本質是需要較高資金的周轉類業務,需要公司具
49、備充足的現金流來向上游芯片廠商囤貨,并向下游客戶快速周轉和銷售,因此我們認為未來華為服務器合作伙伴將根據現金流情況逐步分層,形成三個梯隊:具備持續且充足的現金流的公司有望在長期占據第一梯隊,可以拿到更多大額訂單和頭部優質客戶的份額,集中度有望上升;現金流稍弱的公司將占據第二梯隊,拿到中小客戶份額;其他公司將處于第三梯隊,并可能逐步退出競爭。資料來源:wind、各公司公告、中國電子公眾號、云頭條,浙商證券研究所上市公司股權路徑業務主體占電信AI服務器招采中G系列的份額上市公司2022年總收入(億)上市公司23Q3末貨幣資金(億)上市公司23前三季度現金凈流量(億)四川長虹共同控制&間接持股:華鯤
50、振宇31%925226.533.89長虹集團23.22%-四川長虹長虹集團25.00%-華鯤振宇四川長虹48.39%-申萬長虹5%-華鯤振宇高新發展擬定收購華鯤振宇70%的股權華鯤振宇同上668.03-19.37寶德計算機-寶德計算機12%未上市-超聚變-昆侖22%未上市-神州數碼間接持股100%神州鯤泰4%115929.75.64拓維信息拓維信息70.00%-湘江鯤鵬湘江鯤鵬5%229.49-5.07拓維信息74.95%-云上鯤鵬云上鯤鵬拓維信息66.60%-九霄鯤鵬九霄鯤鵬烽火通信間接持股長江計算16%30931-42.91中國長城-14044.97-7.1廣電運通聯營企業廣電五舟-759
51、3.25-7.91東華軟件間接持股100%東華鵬霄-11812.41-6.16同方股份直接持股100%同方計算機-23861.33-15.94特發信息-特發信息-426.16-3.74百信信息-百信信息-一體機:聯合訊飛發布星火一體機,實現業務場景開箱即用23一體機的本質為將IT基礎軟硬件高度集成于一套完整的硬件設備上的解決方案,與其他方案相比,類似直接購買裝好系統的筆記本電腦與自行購買軟硬件攢機之間的區別??蛻粼谶M行AI訓練推理基礎設施搭建時,需要采購訓練推理服務器、存儲設備、網絡設備等硬件系統以及操作系統、AI框架、數據庫、模型訓練和部署工具等軟件系統,由于采購規模相對較小,因而在進行單品
52、類采購時的議價能力相對較弱因而整體成本較高,并且不同軟硬件系統之間的銜接與調優要求隨系統復雜程度提升因而技術門檻較高;一體機將大量軟硬件系統進行了高度集成,可以很大程度上降低軟硬件投資成本以及安裝維護技術門檻,并且從物理層面上解決了數據安全問題,因而我們認為未來政府端的私有化部署將成為首先放量的需求,具備G端真實場景積累的標的有望獲益。訊飛星火和華為昇騰聯合發布了星火一體機,基于華為鯤鵬CPU+昇騰GPU,具備2.5PFP16智能算力,支持訓練和推理,該設備可提供對話開發、任務編排、插件執行、知識接入、提示工程等5種定制優化模式,以及辦公、代碼、客服、運維、營銷、采購等10種以上即開即用的豐富
53、場景包,目前訊飛正和華為一道打造面向超大規模大模型的訓練國產算力的集群。資料來源:快科技、昇騰開發者、華鯤振宇、浙商證券研究所AI訓練開發一體機架構一體機降低了客戶的使用門檻及投入成本計算集群:支持萬億參數大模型訓練,訓練時長縮短至半天24Atlas 900 AI集群代表了當今全球的算力巔峰,它由數千顆昇騰處理器構成,通過華為集群通信庫和作業調度平臺,整合HCCS、PCIe 4.0 和100G RoCE三種高速接口,充分釋放昇騰處理器的強大性能,新推出的Atlas 900 SuperCluster可支持超萬億參數大模型訓練;超大規模:新集群采用了全新的華為星河AI智算交換機CloudEngin
54、e XH16800,借助其高密的800GE端口能力,兩層交換網絡即可實現2250節點(等效于18000張卡)超大規模無收斂集群組網;超節點架構:實現內存的統一編址,實現算力的資源統一調度,采用液冷設計,以最小的體積實現更強的算力;超高可靠:可靠性提升10倍以上,發揮華為在計算、網絡、存儲、能源等領域的綜合優勢,從器件級、節點級、集群級和業務級全面提升系統可靠性,大模型訓練穩定性從天級提升到月級;資料來源:華為、36Kr、網易科技報道、浙商證券研究所050001000015000200002020.62023.62023.12集群規模(卡)集群規模(卡)2020.62023.62023.1202
55、4681012業界SOTAAtlas 900(8K集群)Atlas 900(16K集群)收斂時長(天)收斂時長(天)業界SOTAAtlas 900(8K集群)Atlas 900(16K集群)1天0.5天05101520253035業界SOTAAtlas 900穩定訓練(天)穩定訓練(天)業界SOTAAtlas 900Atlas 900 AI集群具備更大規模、更快訓練速度、更高集群穩定性4K8K16K10天3天30天智算中心:提供輕量化、云、全棧三種規模解決方案25華為可為客戶提供輕量化、云、全棧三種規模的解決方案,目前鵬城云腦二期以Atlas 900 AI 集群為底座,結合 AI 集群軟件,可
56、以實現 AI算力自由擴展至E級的 AI計算系統,通過多樣化的異構計算平臺、多源算法平臺和多態智能應用,支撐 AI重大應用的模型訓練及推理,可用于自動駕駛、城市大腦、智慧醫療、智慧交通、語音識別自然語言處理等應用場景。1)全棧方案:面向有全棧搭建需求的智能計算中心,提供多樣化算力L0-L3全棧交付。以應用驅動的多樣性算力融合、超高密硬件架構創新、應用感知的存算協同全棧能效管理,獲取倍數級全棧優勢;2)云方案:面向需要搭建硬件、軟件平臺的智能計算中心,提供Atlas硬件和華為云HCSO(ModelArts)軟件,為客戶提供高效、可知識復用的一站式AI模型開發平臺。在數據處理階段可節省50%80%的
57、人力、智能標注可使得標注效率提升70%,基于圖像分類的AI訓練性能可達到業界的4.5倍、推理性能可達到業界的1.8倍;3)輕量化方案:面向軟件平臺需要聚焦行業屬性的智能計算中心,提供合作伙伴基于MindXDL的具有行業屬性的深度學習平臺,具有web頁面,一鍵安裝部署,操作簡單,510步即可完成訓練。智算中心中,華為市占率遙遙領先。全國處于建成/在建狀態的智算中心共有40個,主要由地方政府出資,單次規劃算力均在100P以上,根據華為,昇騰算力集群已在華為云、東數西算的樞紐節點貴州和內蒙、中國28個城市的AI智算中心大規模商用部署,其中7個城市公共算力平臺入選首批國家“新一代人工智能公共算力開放創
58、新平臺”。資料來源:華為昇騰社區、浙商證券研究所全棧 AI 計算中心解決方案云 AI 計算中心解決方案輕量化 AI 計算中心解決方案L4 應用平臺AI 應用(合作伙伴/開發者/高校)L3 軟件平臺應用使能、AI 框架、芯片使能華為云 HCSO(ModelArts)合作伙伴深度學習平臺L2 硬件平臺通用計算:鯤鵬、X86;AI 計算:昇騰、GPUAtlas 800 訓練服務器、Atlas 900 AI 集群Altas 800 訓練服務器、Atlas 900 AI 集群L1 機房設施機柜/電源/冷機/油機可選可選L0 樓宇平臺預制式機房可選可選華為可提供輕量化、云、全棧三種規模的智算中心解決方案智
59、算中心:華為市占率遙遙領先26資料來源:置頂智庫、各中心官網等,浙商證券研究所序號省份智算中心名稱出資主體 規劃總算力 規劃總投資額(億)芯片供應商序號省份智算中心名稱出資主體 規劃總算力 規劃總投資額(億)芯片供應商1廣東深圳鵬城云腦政府華為昇騰21上海上海有孚臨港云計算數據中心政府102北京北京昇騰人工智能計算中心政府1000P華為昇騰22上海阿里云華東智算中心企業180阿里3天津天津人工智能計算中心政府300P12.7華為昇騰23山西山西先進計算中心政府寒武紀4河北河北人工智能計算中心政府5.9華為昇騰24山西百度陽泉智算中心企業400061百度5山東濟南人工智能計算中心政府400P5.
60、47華為昇騰25河南中原人工智能計算中心政府300P15華為昇騰6山東青島人工智能計算中心政府100P3.9華為昇騰26湖南湖南人工智能算力數據中心政府2000P50.5寒武紀7江蘇南京鯤鵬昇騰人工智能計算中心政府140P5.7華為昇騰27湖南長沙昇騰人工智能創新中心政府1000P180華為昇騰、寒武紀8江蘇南京智能計算中心政府1250P13寒武紀28湖北武漢人工智能計算中心政府400P10華為昇騰9江蘇太湖量子智算中心高校/企業圖靈智算、上海交大29廣東橫琴先進智能計算中心企業18寒武紀10上海騰訊長三角人工智能超算中心企業450騰訊30安徽合肥先進計算中心政府11上海商湯人工智能計算中心企
61、業96商湯科技31安徽合肥人工智能計算中心政府華海智匯12浙江杭州人工智能計算中心政府140P3.3華為昇騰32安徽合肥智算中心企業8.5中貝通信13安徽淮海智算中心政府300P10浪潮信息33四川成都人工智能計算中心政府1000P109華為昇騰14廣西中國-東盟人工智能計算中心政府華為昇騰34四川新川人工智能創新中心政府15福建福建人工智能計算中心政府400P福州電信集團35陜西未來人工智能計算中心政府19華為昇騰16廣東深圳人工智能融合賦能中心政府華為昇騰36重慶重慶人工智能創新中心11.8華為昇騰17廣東廣州人工智能公共算力中心政府1000P華為昇騰37甘肅甘肅慶陽智算中心政府1.971
62、8江蘇昆山智能計算中心政府寒武紀38遼寧大連人工智能計算中心政府華為昇騰19河北阿里云張北超級智算中心企業12000P阿里云39黑龍江 哈爾濱人工智能先進計算中心政府5.5P4.3華為昇騰20浙江浙江省青田縣元宇宙智算中心政府100P浪潮信息、谷梵科技40遼寧沈陽人工智能計算中心政府300P10.6華為昇騰華為鯤鵬信創服務器王者02Partone27鯤鵬生態:涵蓋軟硬件應用全鏈條28鯤鵬計算產業是基于鯤鵬處理器的基礎軟硬件設施、行業應用及服務,涵蓋從底層硬件、基礎軟件到上層行業應用的全產業鏈條:硬件方面,圍繞鯤鵬處理器,涵蓋包括昇騰AI芯片、智能網卡芯片、底板管理控制器(BMC)芯片、固態硬盤
63、(SSD)、磁盤陣列卡(RAID卡)、主板等部件以及個人計算機、服務器、存儲等整機產品;基礎軟件方面,涵蓋操作系統、虛擬化軟件、數據庫、中間件、存儲軟件、大數據平臺、數據保護和云服務等基礎軟件及平臺軟件;行業應用方面,鯤鵬計算產業生態覆蓋政府、金融、電信、能源、大企業等各大行行業應用,提供全面、完整、一體化的信息化解決方案。資料來源:鯤鵬社區、浙商證券研究所鯤鵬全棧開放,使能全產業伙伴創新鯤鵬生態:硬件開放、軟件開源、使能伙伴、發展人才29華為作為鯤鵬計算產業的成員,基于“硬件開放、軟件開源、使能伙伴、發展人才”的策略推動鯤鵬計算產業的發展:硬件開放:華為利用自己的硬件能力,對外提供鯤鵬主板、
64、SSD、網卡、模組和板卡,優先支持合作伙伴發展服務器和PC等計算產品;軟件開源:華為通過軟件開源的方式,共享在基礎軟件領域的多年積累,使能伙伴發行openEuler和openGauss商業版,繁榮基礎軟件產業生態;使能伙伴:華為提供鯤鵬開發套件與應用使能套件,幫助開發者加速原生應用開發,使能應用極致性能,構建競爭力領先的行業解決方案;發展人才:華為提供產教融合服務,支持高?;邛H鵬、歐拉、高斯等計算產業根技術開展教學改革,建立人才培養新模式,孕育新一代產業亟需人才;資料來源:鯤鵬社區、浙商證券研究所鯤鵬計算產業生態策略鯤鵬處理器:ARM屬于精簡指令集,具備低功耗優勢30資料來源:wind、海光
65、信息招股書、集微網、浙商證券研究所CPU的本質是超大規模集成電路,用于解釋計算機指令和處理計算機軟件中的數據,并負責控制、調配計算機的所有軟硬件資源。CPU 承擔耦合系統軟硬件資源的中樞作用:1)計算機系統中所有軟件層的操作,最終都將通過指令系統映射為 CPU 的操作;2)CPU 控制、調配所有硬件資源(如存儲器、輸入輸出單元),由控制單元實現指令讀取、指令譯碼,并通過運算單元執行數據加載、計算和回存任務;指令系統是生態底層邏輯,可分為復雜指令集(CISC)和精簡指令集(RISC)。復雜指令集架構與精簡指令集架構是基于兩種不同的指令集思路進行設計,這兩種架構有著各自不同的特點:復雜指令集指令豐
66、富、尋址方式靈活,以微程序控制器為核心,指令長度可變,功能強大,復雜程序執行效率高,主要為Intel推出的X86架構;精簡指令集指令結構簡單、易于設計,具有較高的執行能效比,包括ARM、MIPS、RISC-V、LoongArch等架構。項目復雜指令集(CISC)精簡指令集(RISC)主要架構x86ARMMIPSAlpha 架構特征1、指令系統龐大,功能復雜,尋址方式多樣,且長度可變,有多種格式2、各種指令均可訪問內存數據3、一部分指令需多個機器周期完成4、復雜指令采用微程序實現5、系統兼容能力較強1、指令長度固定,易于譯碼執行2、大部分指令可以條件式地執行,降低在分支時產生的開銷,彌補分支預測
67、器的不足3、算術指令只會在要求時更改條件編碼1、采用32位寄存器2、大多數指令在一個周期內執行3、所有指令都是32位,且采用定長編碼的指令集和流水線模式執行指令4、具有高性能高速緩存能力,且內存管理方案相對靈活1、采用32位定長指令集,使用低字節寄存器占用低內存地址線2、分支指令無延遲槽,使用無條件分支碼寄存器架構優勢x86架構兼容性強,配套軟件及開發工具相對成熟,且x86架構功能強大,高效使用主儲存器,因此在處理復雜指令和商業計算的運用方面有較大優勢ARM結構具有低功耗、小體積的特點,聚焦移動端市場,在消費類電子產品中具有優勢MIPS結構設計簡單、功耗較低,在嵌入式應用場景具有優勢Alpha
68、結構簡單,易于實現超標量和高主頻計算主要應用領域或使用場景服務器、工作站和個人計算機等智能手機、平板電腦、工業控制、網絡應用、消費類電子產品等桌面終端、工業、汽車、消費電子系統和無線電通信等專用設備等嵌入式設備、服務器等主要芯片Intel、AMD、海光、兆芯華為海思、飛騰君正申威主要的指令系統鯤鵬處理器:基于ARM v8架構,主打高性能和低功耗31資料來源:鯤鵬社區、問芯Voice、海光招股書、浙商證券研究所功耗更小+近年來性能提升帶動Arm向服務器領域滲透。根據Ampere,堆疊了128核的Ampere Computing在性能上超越傳統 x86 處理器3倍多,在性能功耗比上領先近4倍,同時
69、做到了以 50%的能耗,實現200%的性能,由于設計簡便、功耗小,Arm已經占據移動端超過90%的份額,并在數據中心中廣泛應用;鯤鵬920是華為自研的面向數據中心的核心CPU,主打高性能和低功耗?;贏RM v8.2架構,由華為自主設計完成,主頻可達2.6GHz,單芯片可支持64核,支持8通道DDR4、100G RoCE以太網卡,具備PCle4.0及CCIX接口,可提供640Gbps總帶寬,通過優化分支預測算法、提升運算單元數量、改進內存子系統架構等一系列微架構設計,大幅提高處理器性能,SPECint Benchmark評分超過930,超出業界標桿25%。鯤鵬920主打高性能和低功耗Intel
70、AMD海光兆芯華為海思飛騰龍芯申威品牌Xeon6354 EPYC7542 海光7285開勝KH-30000鯤鵬920-7260S2500企業級3C5000L申威1621指令集x86x86x86x86ARMARMLoongArchSW_64核心數183232864641616超線程366464不支持不支持不支持不支持不支持主頻3.0GHz2.9GHz2.0GHz3.0GHz2.6GHz2.2GHz2.2GHz2.0GHz內存類型DDR4DDR4DDR4DDR4DDR4DDR4DDR4DDR3內存通道數88828848最高內存頻率3200MHz3200MHz2666MHz 2666 MHz 293
71、3MHz3200MHz3200MHz2133MHzPCIe通道數641281281640173216各主流CPU性能參數對比鯤鵬主板:硬件開放2.0,賦能伙伴32資料來源:華為邁向智能世界白皮書計算、浙商證券研究所已進入主板開放2.0階段,助力伙伴主導創新:2019年,華為面向伙伴開放基于鯤鵬處理器的主 板、網卡、硬盤等標準部件,幫助整機合作伙 伴快速推出自有品牌的服務器產品;2020年,華為發布了主板開放2.0,通過基礎板+擴展板的開放模式,基礎板沉淀共性,減少伙伴重復開發;擴展板實現創新,使能伙伴差異化競爭力;同時結合BIOS/BMC軟件開放,支持伙伴自行開發差異化部件,打造創新整機產品;
72、華為僅聚焦“CPU+內存”最小計算單元,通過全量組件化方式,實現 從使能伙伴創新走向伙伴主導創新;華為已進入主板開放2.0階段DevKit開發套件:助力2700+伙伴遷移/開發8600+應用33資料來源:華為云社區、浙商證券研究所鯤鵬開發套件DevKit面向不同計算平臺間的應用遷移以及鯤鵬平臺原生開發,包括代碼遷移、開發調試、編譯、測試、調優&診斷等一系列工具套件,2023年鯤鵬DevKit 23.0版本實現了組件化、服務化、增強了遷移能力和原生開發能力,已助力 2700+伙伴遷移/開發了8600+應用:極速遷移:針對有源碼應用的遷移,鯤鵬DevKit能夠自動識別TOP 10 常用語言的不兼容
73、的代碼和依賴文件,并且快速修改替換,實現解釋型應用Hour級遷移,編譯型應用Day級遷移;針對無源碼應用,鯤鵬DevKit提供動態二進制指令翻譯工具ExaGear,在軟件執行過程中把x86二進制指令翻譯成鯤鵬指令,性能損耗最低在10%;極簡開發:鯤鵬DevKit針對原生開發場景提供豐富的SDK、啟發式編程、鯤鵬親和分析、畢昇編譯器、鯤鵬調試器、以及全場景調優等能力,引導用戶在開發過程中充分應用鯤鵬架構優勢,快速開發出高性能的鯤鵬原生應用;DevKit 23.0 版本讓應用遷移和開發更便捷BoostKit應用套件:90%主流開源軟件支持鯤鵬開箱即用34資料來源:鯤鵬社區、浙商證券研究所鯤鵬Boo
74、stKit主要面向伙伴和客戶的開發者,提供高性能開源組件、基礎加速軟件包、應用加速軟件包,使能應用極致性能。其中,高性能開源組件由伙伴從開源社區、鯤鵬社區獲取,直接編譯/部署,目前90%主流開源軟件已支持鯤鵬,實現開源軟件在鯤鵬上開箱即用;基礎加速軟件包,面向伙伴開源、開放豐富的基礎性能優化方法、加速庫、加速算法,釋放鯤鵬算力;應用加速軟件包,聯合伙伴開展解決方案創新,提供業界領先的加速組件、算法,實現應用性能倍增。鯤鵬BoostKit 23.0,全面升級5大場景化應用性能加速能力。大數據場景、HPC場景、機密計算場景、數據庫場景、分布式存儲場景,驅動鯤鵬全棧性能持續提升,面向行業細分領域,推
75、出了“開箱即用”、“性能卓越”、“安全可靠”的一體化解決方案。鯤鵬BoostKit:“數據親和”五大加速組件,使能應用性能倍增風險提示04Partone35風險提示361、國際形勢變化風險:關鍵核心部件供應受國際局勢變化影響較大;2、芯片等關鍵部件供應風險:芯片設計、生產、銷售等供應風險制約國產芯片實際出貨情況;3、下游客戶需求總額或釋放節奏不及預期:下游政府、央國企、互聯網等主要客戶預算、采購節奏可能不及市場預期;4、國產替代進程不及預期:關鍵芯片國產化同時受政策、商業化因素影響,進程可能不及市場預期;4、技術風險:AI芯片仍處于快速迭代期,設計理念、迭代速度等影響實際出貨情況;5、競爭加劇
76、風險:AI服務器價值量高,存在競爭加劇的風險;點擊此處添加標題添加標題點擊此處添加標題點擊此處添加標題點擊此處添加標題點擊此處添加標題點擊此處添加標題添加標題點擊此處添加標題點擊此處添加標題添加標題點擊此處添加標題添加標題95%行業評級與免責聲明行業的投資評級以報告日后的6個月內,行業指數相對于滬深300指數的漲跌幅為標準,定義如下:1、看好:行業指數相對于滬深300指數表現10%以上;2、中性:行業指數相對于滬深300指數表現10%10%以上;3、看淡:行業指數相對于滬深300指數表現10%以下。我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重。建議:投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者不應僅僅依靠投資評級來推斷結論 37