《電子行業AI系列之NPU:專為端側AI而生的神經網絡加速器-250420(60頁).pdf》由會員分享,可在線閱讀,更多相關《電子行業AI系列之NPU:專為端側AI而生的神經網絡加速器-250420(60頁).pdf(60頁珍藏版)》請在三個皮匠報告上搜索。
1、分析師:分析師:王芳 S0740521120002,楊旭 S0740521120001,李雪峰 S0740522080004,丁貝渝 S0740524090001證券研究報告證券研究報告日期:日期:2025年年4月月20日日【中泰電子中泰電子】AI系列之系列之NPU:專為端側專為端側AI而生的神經網絡加速器而生的神經網絡加速器1目目 錄錄一、一、專為端側專為端側AI而生的神經網絡加速器而生的神經網絡加速器1.1、與、與GPU定位云端定位云端AI不同,不同,NPU是端側是端側AI時代新需求時代新需求1.2、NPU是專用加速芯片,適用于乘法累加運算是專用加速芯片,適用于乘法累加運算1.3、NPU顯
2、著提升顯著提升AI模型運行效率模型運行效率二、卡位端側下游,迎需求爆發二、卡位端側下游,迎需求爆發三、產業趨勢:近存計算大趨勢,三、產業趨勢:近存計算大趨勢,3D DRAM+NPU方案有望受益方案有望受益四、海外大廠持續迭代推動端側四、海外大廠持續迭代推動端側AI布局,國產廠商加速布局布局,國產廠商加速布局五、投資建議及風險提示五、投資建議及風險提示2xVyWlYkZpMsPpNrQ9PaOaQsQoOnPsPlOnNqMfQpNmObRrRuNuOsQnRxNoNuN3來源:AI芯片:前沿技術與創新未來,中泰證券研究所人工智能的發展主要依賴兩個領域的創新和演進:一是模仿人腦建立起來的數學模型
3、和算法人工智能的發展主要依賴兩個領域的創新和演進:一是模仿人腦建立起來的數學模型和算法,其次是半導體集成電路其次是半導體集成電路AI芯芯片片。AI的發展一直伴隨著半導體芯片的演進,1989年貝爾實驗室的楊立昆(Yann LeCun)等人一起開發了可以通過訓練來識別手寫郵政編碼的神經網絡,但那個時期訓練一個深度學習卷積神經網絡(Convolutional Neural Network,CNN)需要長達3天,因此無法實際使用。硬件計算能力的不足,導致了當時AI科技泡沫的破滅。更高效的架構有利于推動更高效的架構有利于推動AI加速成熟加速成熟。英偉達早在1999年就發明了GPU,但直到2009年斯坦福
4、大學才發表論文介紹了如何利用現代GPU實現遠超過多核CPU的計算能力(超過70倍),把AI訓練時間從幾周縮短到了幾小時。算力算力、模型一直是模型一直是AI發展的要素發展的要素,而芯片所代表的算力則是人工智能的底層基石而芯片所代表的算力則是人工智能的底層基石。圖表:圖表:AI人工智能與半導體計算芯片發展歷程人工智能與半導體計算芯片發展歷程19401960198020002020突破模型突破模型“學習”的心理學習”的心理研究研究視覺皮層視覺皮層海馬位置細胞海馬位置細胞的時間編碼的時間編碼第一個晶體管感知器第一塊芯片第一塊CPU(MCU)Hopfield網絡第一塊FPGA神經網絡芯片第一塊GPU新的
5、DNN算法基于深度學習的AI芯片類腦芯片1.1、與、與GPU定位云端定位云端AI不同,不同,NPU是端側是端側AI時代新需求時代新需求4來源:Competition and innovation in the microprocessor industry:Does AMD spur Intel to innovate more,JPR,Gartner,IDC,中泰證券研究所時間時間1970s-1980s1990s2000s2010s2020s階段階段性能提升初期性能提升初期競爭加劇,應用拓展至個人競爭加劇,應用拓展至個人/家用家用進入多核時代,云服務興起進入多核時代,云服務興起異構興起,數據
6、中心需求增長異構興起,數據中心需求增長架構創新,架構創新,ARM進軍進軍PC和服務器和服務器技術技術/供供給端給端CPU由由4位發展至位發展至32位,位,晶體管數量發展至晶體管數量發展至120萬,傳統處理器架構基萬,傳統處理器架構基本完善。本完善。1971-Intel4004-CPU誕生;1978-Intel8086-奠定X86指令集架構;1989-Intel80486實現了5級標量流水線-CPU初步成熟。增至增至64位,晶體管數量發展至千萬級;位,晶體管數量發展至千萬級;高速緩存技術取得突破。高速緩存技術取得突破。1993年Intel 推出Pentium系列采用了超標量架構,能夠同時執行多條
7、指令,顯著提高了處理速度;1996年Intel增加MMX技術以增強對多媒體數據的處理能力;首次采用超標量指令流水結構,被后續AMD銳龍和Intel酷睿等沿用;多家廠商加入競爭;1995年AMD推出支持X86的K5處理器,1994年IBM推出PowerPC 601 處理器被應用于蘋果電腦,95年起PowerPC 603e被廣泛應用于筆電。進入多核時代,工藝制程進步至納米級進入多核時代,工藝制程進步至納米級(最高至(最高至32nm),主頻突破),主頻突破1Ghz,采用,采用多級緩存、超線程等技術,計算性能大多級緩存、超線程等技術,計算性能大幅提升。幅提升。2000年Intel發布Pentium 4
8、,AMD 發布Athlon,突破1GHz;2001年IBM發布首款多核處理器;2002年我國發布首枚通用CPU;05-06年AMD/Intel 陸續推出雙核/多核處理器;07-10年,從雙核發展至八核乃至更多。工藝制程由工藝制程由32nm進步至進步至2020年的年的10nm;CPU 主頻突破主頻突破3GHz,提升至,提升至16核心、核心、32線程;線程;CPU趨于模塊化的設計理念;趨于模塊化的設計理念;CPU與與GPU走向集成。走向集成。2010年Intel推出首款桌面級6核處理器2011年AMD推出Bulldozer架構FX系列,采用模塊化設計;2016年左右多核技術走向普及(Intel/A
9、MD堆核心數);2017年AMD推出了Ryzen系列處理器,采用全新Zen架構(chiplet設計),在高性能市場與Intel激烈競爭AMD市占率觸底。架構繼續優化,架構繼續優化,ARM應用至應用至PC,工藝制,工藝制程進步至程進步至5nm;2020年Intel工藝瓶頸(7nm延期),導致Tick-Tock放緩,推動行業轉向架構優化;2020年蘋果M1發布,5nm工藝,采用ARM架構,能效超越同期Intel筆記本CPU;2021年Arm發布Cortex-X2/A710架構,支持v9指令集,性能提升30%;2022年龍芯中科發布3A6000系列,基于LoongArch自主指令集,國產CPU擺脫X
10、86/ARM依賴;2024年,高通發布驍龍X Elite,應用ARM架構,能效優勢顯著。應用應用/需需求端求端PC-B端為主,少數走向小型企業乃至消費者PC在家庭與辦公場景廣泛使用Windows 操作系統普及,辦公軟件和游戲高速發展云服務興起(06年誕生,09年起步入快速發展階段)促進服務器需求并行計算軟件發展人工智能、深度學習等需求帶動數據中心高增長。AI端側加速發展AI服務器需求爆發出貨量出貨量CAGR*/+22%(1993-2000)+8%2010-2016:-2.4%2016-2020:+7.5%-8.9%(2020-2023)圖表:圖表:CPU發展脈絡梳理發展脈絡梳理1.1、與、與G
11、PU定位云端定位云端AI不同,不同,NPU是端側是端側AI時代新需求時代新需求*出貨量數據口徑:2016年以前為PC-based CPU,2016年以后為PC+服務器 CPUCPU(Central Processing Unit)中央處理器:中央處理器:是計算機的運算和控制核心(Control Unit),是信息處理、程序運行的最終執行單元,主要功能是完成計算機的數據運算以及系統控制功能。CPU早期的高增長主要源自技術進步以及由此帶來的應用拓展早期的高增長主要源自技術進步以及由此帶來的應用拓展,2010年后則由需求端整體帶動年后則由需求端整體帶動。CPU歷史上增速最高的時期是1990s,出貨量
12、CAGR達到22%。供給端:AMD、IBM等芯片大廠加入競爭,多項核心技術取得重要突破;應用端:PC由商用為主,向家庭場景普及,生產力(辦公軟件)與娛樂(游戲)應用均蓬勃發展。2000s時代亦有良好增長,CAGR 8%,技術的加速迭代帶來應用場景突破,云服務興起。2010年以后,CPU的增長主要在2020-2021年,疫情期間遠程辦公場景帶來的PC和服務器需求增加。5來源:The history of GPUEras and Environment,中泰證券研究所與與CPU串行計算不同,串行計算不同,GPU側重并行計算。側重并行計算。GPU(Graphics Processing Unit)最
13、初是為了滿足計算機游戲等圖形處理需求而開發的,但憑借高并行計算和大規模數據處理能力,逐漸開始用于通用計算;GPGPU(通用GPU)減弱了GPU圖形顯示部分的能力,將其余部分全部投入到通用計算中,同時增加了專用向量、張量、矩陣運算指令,提升了浮點運算的精度和性能,以實現人工智能、專業計算等加速應用。早期傳統圖形處理器階段(早期傳統圖形處理器階段(1980s-1990s中期以前):中期以前):內置了一系列專用運算模塊,如視頻編解碼加速引擎、2D加速引擎、圖像渲染等;固定功能階段(固定功能階段(1999年):年):NV發布GeForce 256,首次提出首次提出GPU概念概念,接管CPU的坐標變換和
14、光照計算功能;可編程可編程shader階段(階段(2000-2005):):NV率先引入了可編程的頂點和像素shader,標志著 GPU 從固定功能向可編程轉變從固定功能向可編程轉變;通用轉型階段(通用轉型階段(2006-2009):):2006年NV推出CUDA平臺,支持GPU通用編程,開啟開啟GPGPU時代時代,Tesla架構首次采用統一shader模型,標志著GPU從獨立功能單元轉變為通用浮點處理器,能執行更廣泛的任務;計算計算shader階段(階段(2009-2015):):GPU突破傳統圖形處理的范疇,在非圖形任務中發揮作用,如流處理和物理加速,采用SIMD架構與多線程管理;GPU在
15、科學計算等領域得到應用,軟件生態蓬勃發展,GPU成為一種重要的通用計算設備;光線追蹤與光線追蹤與AI階段(階段(2015-2020):):光線追蹤是一種高質量渲染方法,隨著 GPU 性能的大幅提升和硬件架構的改進,得以在實時渲染中得到應用,能呈現更逼真的圖像,以 NV為代表的公司將深度學習超級采樣(DLSS)技術引入 GPU,通過 AI 技術實現了在保持高質量圖像的同時提高渲染速度,廠商在 GPU 中增加了專門的光線追蹤加速器核心(如 NV的 RT 核心)和 AI 處理核心(如 NV的 Tensor 核心);Mesh shader階段(階段(2020-2023):):GPU算力提升至新臺階算力
16、提升至新臺階,Mesh使 GPU 能夠更高效地處理復雜的幾何圖形,通過線程協作生成緊湊的網格(meshlets),減少了傳統方法中的冗余計算和數據的傳輸,在游戲、VR、AR等方面有重要應用前景。1.1、與、與GPU定位云端定位云端AI不同,不同,NPU是端側是端側AI時代新需求時代新需求6來源:The history of GPUEras and Environment,中泰證券研究所圖表:圖表:GPU演變的六階段劃分演變的六階段劃分圖表:圖表:Mesh shader開啟時的幀率(開啟時的幀率(FPS)提升)提升730%1.1、與、與GPU定位云端定位云端AI不同,不同,NPU是端側是端側AI
17、時代新需求時代新需求來源:53AI,OneFlow公眾號,中泰證券研究所7傳統傳統CPU及及GPU架構在處理架構在處理AI任務時面臨的瓶頸包括:算力、功耗、成本、內存任務時面臨的瓶頸包括:算力、功耗、成本、內存/帶寬瓶頸等。帶寬瓶頸等。CPU的主要局限在于計算并行能力不足:的主要局限在于計算并行能力不足:傳統的 CPU 架構在設計上更側重于順序執行和復雜邏輯控制,其核心數量和并行處理能力相對有限,在處理 AI 相關任務時速度較慢,無法滿足AI 應用的需求。GPU的主要局限在于功耗和成本:的主要局限在于功耗和成本:GPU擅長云端的大數據集計算,端側的計算數據量相對云端更小,同時對功耗有嚴格限制,
18、疊加成本因素,端側應用受限。CPU與與GPU均有內存及批處理限制問題:均有內存及批處理限制問題:CPU和GPU計算過程均存在內存瓶頸,需要采用批處理方式加載數據和權重進行計算,難以同時滿足高吞吐量和低延遲的需求。特性特性NPUGPU設計初衷專用于神經網絡計算最初用于圖形渲染,現廣泛用于通用計算計算能力高效的神經網絡推理強大的并行計算能力,主要用于云端靈活性專用硬件,較低的靈活性通用性高,可以編程實現各種計算任務能效比高相對較低典型應用深度學習推理,邊緣計算,實時處理圖形渲染,深度學習訓練和推理,科學計算圖表:圖表:NPU與與GPU區別區別1.1、與、與GPU定位云端定位云端AI不同,不同,NP
19、U是端側是端側AI時代新需求時代新需求來源:IDC,中泰證券研究所圖表:圖表:CPU與與NPU架構架構8NPU是是專門的神經網絡加速器,主要用于專門的神經網絡加速器,主要用于AI相關計算加速。相關計算加速。NPU(Neural Processing Unit)即神經網絡處理單元,采用專門優化的神經網絡計算架構,來處理特定的任務,主要被用于加速計算。通過對NPU硬件層面優化,能高效處理神經網絡算法中矩陣乘法、卷積等數學運算。相較于GPU和CPU,NPU在AI計算上性能和能效有了明顯提升,用來提高AI算法運行效率。NPU最早來自最早來自FPGA,大廠持續更新迭代。,大廠持續更新迭代。早期NPU主要
20、基于高度靈活性和可編程性的FPGA實現。2010年,斯坦福大學研究人員提出了一種基于FPGA的神經網絡加速器,可以實現高效的神經網絡計算,隨后使用FPGA設計NPU成為趨勢。2013年,谷歌論文中介紹一款名為“Tensor Processing Unit”(TPU)的定制ASIC芯片,推動NPU發展。2018年,華為隨后也推出了Ascend NPU,其獨特的“達芬奇架構”支持廣泛的AI應用場景。后續蘋果于2017年發布首款端側NPU芯片A11。1.1、與、與GPU定位云端定位云端AI不同,不同,NPU是端側是端側AI時代新需求時代新需求來源:高通官網,chipsandcheese,中泰證券研究
21、所9NPU泛指專門用于加速神經網絡計算的處理器,主要用于推理場景,以高通泛指專門用于加速神經網絡計算的處理器,主要用于推理場景,以高通NPU舉例,主要架構資源包括:舉例,主要架構資源包括:1)處理器執行的三種指令集(Scalar、Vector、Tensor)、2)緊密耦合內存(TCM)、3)DMA/BUS 和 L2 緩存:標量指令集(標量指令集(Scalar):):用于控制流和通用計算;32 位標量單元,每線程上下文 32 個寄存器,功能強大,能夠獨立處理輕量級DSP任務向量指令集(向量指令集(Vector):):用于通用數據并行計算,應用于DNN工作負載;有 32 個 1024 位向量寄存器
22、和對應執行管道,線程需請求訪問,減少寄存器文件需求和功耗張量指令集(張量指令集(Tensor):):用于矩陣乘法和卷積層計算,為優化機器學習矩陣乘法,加入張量協處理器,每秒可完成 16K 乘累加(MAC)操作,通過優化數據局部性提升計算效率,如輸出固定、卷積激活重用等,軟件負責組織數據。緊密耦合內存(緊密耦合內存(TCM):):位于多線程區域和張量計算區域之間,用于數據快速交互,帶寬高、可避免 DDR 延遲。DMA/BUS 和和 L2 緩存:緩存:位于左側,用于數據的傳輸和存儲。1.2、NPU是專用加速芯片,適用于乘法累加運算是專用加速芯片,適用于乘法累加運算圖表:圖表:Hexagon NPU
23、 經典架構經典架構來源:基于多塊卷積變分信息瓶頸的多變量動態過程故障診斷,中泰證券研究所圖表:圖表:CNN網絡結構圖網絡結構圖10NPU專用于專用于AI運算,核心是矩陣乘法運算,運算,核心是矩陣乘法運算,CNN是主要算法之一,本質上由大量的乘法累加計算組成。是主要算法之一,本質上由大量的乘法累加計算組成。CNN是一種專門用于處理具有網格狀結構數據的深度學習算法,廣泛應用于圖像分類、目標檢測和語義分割等,包含卷積是一種專門用于處理具有網格狀結構數據的深度學習算法,廣泛應用于圖像分類、目標檢測和語義分割等,包含卷積層、池化層和全連接層。層、池化層和全連接層。以圖像處理為例,卷積神經網絡需要將大數據
24、量的圖片降維成小數據量。神經網絡卷積層通過卷積核掃描圖片,提取圖片局部特征。再通過池化層對數據進行降維和防止過擬合,最后在全連接層輸出。如圖所示,卷積的本質就是簡單乘積和運算,小矩陣(卷積核)上的元素和輸入矩陣對應數據相乘并求和,輸出矩陣單個值,這個過程在輸入的矩陣上移動進行,從而生成整個更低維的輸出矩陣。相應處理這種運算的單元被稱為乘積累加器,MAC運算的操作就是計算兩個數的乘積并將該乘積添加到累加器中,即a a+(b c)。圖表:卷積層運算步驟,由圖表:卷積層運算步驟,由5*5轉換成轉換成3*3矩陣矩陣1.2、NPU是專用加速芯片,適用于乘法累加運算是專用加速芯片,適用于乘法累加運算來源:
25、百度智能云千帆社區,Easyai,中泰證券研究所圖表:輸入矩陣和小矩陣相乘,生成輸出矩陣圖表:輸入矩陣和小矩陣相乘,生成輸出矩陣11NPU指令集(指令集(ISA)契合神經網絡任務。)契合神經網絡任務。NPU指令集經過了專門的優化,包含ADD加法、MULT矩陣乘法、DOT矩陣點乘、CONV卷積操作等指令,適合神經網絡任務,指令的執行效率和吞吐量更高。卷積神經網絡本質是卷積神經網絡本質是MAC計算。計算。卷積神經網絡需要將大數據量的圖片降維成小數據量。神經網絡卷積層通過卷積核掃描圖片,提取圖片局部特征。再通過池化層對數據進行降維和防止過擬合,最后在全連接層輸出。如下圖所示,卷積的本質就是簡單乘積和
26、運算,小矩陣(卷積核)上的元素和輸入矩陣對應數據相乘并求和,輸出矩陣單個值,這個過程在輸入的矩陣上移動進行,從而生成整個更低維的輸出矩陣。相應處理這種運算的單元被稱為乘積累加器,MAC運算的操作就是計算兩個數的乘積并將該乘積添加到累加器中。圖表:圖表:CNN的矩陣乘加運算示意的矩陣乘加運算示意1.2、NPU是專用加速芯片,適用于乘法累加運算是專用加速芯片,適用于乘法累加運算來源:基于多塊卷積變分信息瓶頸的多變量動態過程故障診斷,中泰證券研究所圖表:矩陣相乘示意圖圖表:矩陣相乘示意圖12MAC(Multiply-Accumulate)是)是NPU中的基本單元,主要反應中的基本單元,主要反應NPU
27、的算力水平,占芯片主要面積。的算力水平,占芯片主要面積。MAC是相乘和相加的兩個過程(即a a+(b c)),在硬件電路單元中稱為“乘數累加器”,因此可以通過一個MAC指令完成乘加兩個指令操作,適用于卷積運算、點積運算、矩陣運算等,廣泛使用于神經網絡加速以及其他需要高效數學計算的領域,本質上MAC的運算能力即反應NPU的算力水平。一個典型的一個典型的MAC陣列由多個陣列由多個MAC單元組成,每個單元組成,每個MAC單元會獨立進行乘法累加運算,通過并行及流水線技術提升整體性單元會獨立進行乘法累加運算,通過并行及流水線技術提升整體性能。能。假設一個4*4的MAC陣列,則表示4行4列共計16個MAC
28、單元,如昇騰310包含64*64陣列即4096 MACs矩陣,特斯拉FSD為96*96陣列即9216 MACs。NPU使用MAC陣列做神經網絡加速時,如卷積運算、矩陣運算、點積運算等均可分解成數個MAC指令從而提升效率。圖表:特斯拉圖表:特斯拉Dojo Core架構架構1.2、NPU是專用加速芯片,適用于乘法累加運算是專用加速芯片,適用于乘法累加運算來源:CSDN,中泰證券研究所圖表:不同數據格式的構成與應用圖表:不同數據格式的構成與應用13FLOPS(Floating Point Operations Per Second)即每秒浮點運算次數,代表浮點運算速度。)即每秒浮點運算次數,代表浮點
29、運算速度。浮點計數是利用浮動小數點的方式,使用不同長度的二進制來表示一個數字,一般采用4個字節即32位二進制來表達一個數字,因此FP32/FP64/FP16分別代表單精度、雙精度、半精度。FP64常用于對精度要求高的科學計算或超算,AI深度學習主要用FP32或FP16。算力(算力(Tops)是衡量)是衡量NPU性能的常見指標,理論峰值性能的常見指標,理論峰值=MAC矩陣行矩陣行*MAC矩陣列矩陣列*主頻主頻*2。MAC直接反映NPU算力水平:假設NPU內置一個N*Y的MAC矩陣,則算力理論峰值=MAC矩陣行*MAC矩陣列*主頻*2,其中2為兩次運算,即一次乘法加一次加法,主頻決定NPU及其MA
30、C單元運算的時鐘速度。以特斯拉FSD為例,每個NPU擁有96x96 MAC,主頻為2GHz,則單個NPU的TOPs為96*96*2*2G=36.86TOPS。圖表:不同格式浮點表示圖表:不同格式浮點表示數據格式數據格式構成構成用途用途FP641位符號、11位指數、52位尾數常用于對精度要求高的科學計算FP321位符號、8位指數、23位尾數深度學習模型訓練的常見格式TF321位符號、8位指數、10位尾數替代FP32數據格式實現深度學習和HPC計算加速FP161位符號、5位指數、10位尾數深度學習越來越偏向使用FP16BF161位符號、5位指數、7位尾數提升AI模型的推理速度和布置零后續INT88
31、個bit表示一個字INT8精度相對較低,常用于AI模型的端側推理1.2、NPU是專用加速芯片,適用于乘法累加運算是專用加速芯片,適用于乘法累加運算*圖中VGG/VocNet/YOLO 均為DNN(深度學習模型),分別用于人臉識別/多目標識別/檢測圖像中的物體。來源:Efficient Execution of Deep Neural Networks on Mobile Devices with NPU,中泰證券研究所14圖表:對比圖表:對比CPU和和NPU運行運行3種種DNN模型模型*的表現的表現1.3、NPU顯著提升顯著提升AI模型運行效率模型運行效率對于部分對于部分DNN模型,模型,NP
32、U單獨運行即可在保持精度幾乎無損的同時顯著減少處理時間;單獨運行即可在保持精度幾乎無損的同時顯著減少處理時間;三星三星NPU案例:案例:運行3種DNN模型,NPU 運行速度比 CPU 快 95%甚至以上。但不同模型在 NPU 上的精度損失不同,VGG模型幾乎沒有損失,VocNet 精度損失 30%,YOLO 損失50%以上。精度損失一是因為精度損失一是因為NPU特性,二也取決于模型種類。特性,二也取決于模型種類。NPU 僅支持 FP16 運算,并使用 FP16 存儲每一層的中間結果,浮點溢出或下溢會引起使用FP16 時的數值不穩定性;VocNet 模型和 Yolo 模型比 VGG 模型更復雜,
33、VGG 模型是比較從人臉圖像中提取的兩個特征向量之間的相似度,NPU 引入的小誤差可能會改變特征向量中的值,但絕大多數情況下不會影響結果,但VocNet 和 Yolo 特征向量中的每個值都代表一個物體的類別、位置或大小,NPU 引入的一個小誤差就可能完全改變預測結果。來源:Efficient Execution of Deep Neural Networks on Mobile Devices with NPU,中泰證券研究所15圖表:圖表:NPU在在YOLO模型各層上運行的表現模型各層上運行的表現圖表:利用圖表:利用MLMP算法分區運行算法分區運行YOLO模型可兼容效率與精度模型可兼容效率與
34、精度Min-TimeMax-Accuracy對于精度影響較大的模型,采用分區運行方案,仍能控制精度且減少處理時間:對于精度影響較大的模型,采用分區運行方案,仍能控制精度且減少處理時間:將NPU運行精度較差的YOLO模型拆解至各層,NPU在其中很多層上的運行仍具備較高性價比(時間大幅減少的同時精度影響很?。?。采用MLMP(Machine Learning based Model Partition)算法將不同層分區在CPU和NPU上分別運行,無論是對精度要求較高的應用(Max-Accuracy,如安全識別類應用),還是對處理時間敏感的應用(Min-Time,如實時視頻處理),都能提供較好的支持。
35、Min-Time場景:場景:算法從所有層均從CPU上運行開始,逐漸將處理時間長的層移到 NPU 上以減少整體處理時間,NPU 承擔的負載會逐漸增加,直到達到精度要求的邊界;Max-Accuracy場景:場景:算法從所有層在 NPU 上運行開始,隨著時間約束的變化,將部分對精度影響較大且在 NPU 上運行精度損失不可接受的層移到 CPU 上。1.3、NPU顯著提升顯著提升AI模型運行效率模型運行效率目目 錄錄一、專為端側一、專為端側AI而生的神經網絡加速器而生的神經網絡加速器二、卡位端側下游,迎需求爆發二、卡位端側下游,迎需求爆發2.1 Al端側爆發在即,端側爆發在即,NPU有望快速上量有望快速
36、上量2.2 GenAI手機:手機:AI算力提升帶來需求端爆發算力提升帶來需求端爆發2.3 AI PC:個人大模型最佳載體之一,:個人大模型最佳載體之一,NPU滲透率望快速提升滲透率望快速提升2.4 汽車:智駕滲透率提升汽車:智駕滲透率提升+GenAI模型應用,驅動更高算力需求模型應用,驅動更高算力需求2.5 機器人:技術創新與需求共振迎爆發機器人:技術創新與需求共振迎爆發三、產業趨勢:近存計算大趨勢,三、產業趨勢:近存計算大趨勢,3D DRAM+NPU方案有望受益方案有望受益四、海外大廠持續迭代推動端側四、海外大廠持續迭代推動端側AI布局,國產廠商加速布局布局,國產廠商加速布局五、投資建議及風
37、險提示五、投資建議及風險提示16來源:高通官網,中泰證券研究所172.1 Al端側爆發在即,端側爆發在即,NPU有望快速上量有望快速上量NPU專為實現以低功耗加速專為實現以低功耗加速AI推理而設計,伴隨新推理而設計,伴隨新AI應用、模型與需求的發展,應用、模型與需求的發展,NPU有望快速上量。有望快速上量。早期(2015年前)NPU面向音頻和語音AI,基于簡單卷積神經網絡(CNN),主要需要標量和向量標量和向量數學運算;2016 年起,順應圖像和視頻 AI 需求,出現基于 Transformer、循環神經網絡(RNN)、長短期記憶網絡(LSTM)和更高維度 CNN 等復雜新模型,工作負載需大量
38、張量數學運算,NPU 增加張量加速器和卷積加速,增加張量加速器和卷積加速,配置大共享內存和專用硬件提升性能,降低內存帶寬占用和能耗;2023年后,LLM和LVM(大視覺)模型提升至百億級參數以上,除計算需求外,NPU還需考慮內存和系統設計,內存和系統設計,提高性能和能效提高性能和能效。圖表:圖表:NPU迭代伴隨迭代伴隨AI應用場景的持續演進應用場景的持續演進來源:基于多塊卷積變分信息瓶頸的多變量動態過程故障診斷,IDC,Counterpoint,中泰證券研究所182.2 GenAI手機:手機:AI算力提升帶來需求端爆發算力提升帶來需求端爆發363.6%73.1%69.8%20.1%10.3%-
39、50%0%50%100%150%200%250%300%350%400%020040060080010001200140020232024E2025E2026E2027E2028EGenAI smartphoneBasic smartphoneyoy-GenAI(右軸)yoy-Basic(右軸)圖表圖表:GenAI/Basic smartphone出貨量(百萬臺)出貨量(百萬臺)在智能手機上運行端側生成式AI(如Stable Diffusion和部分LLM)的AI 算力門檻約為30TOPS,旗艦智能機在2021-22年逐步達到這一標準、且仍在進步,預計2025年將達到60TOPS以上。根據ID
40、C預測,全球生成式AI智能手機的出貨量在2023-2028的CAGR將達到78%,2028年出貨量將增長至9.1億部;2024年是GenAI手機爆發元年(yoy:364%)。生成式AI應用的繁榮,將驅動所需算力的實質性增長。根據高通白皮書,每天基于生成式AI的搜索查詢超過100億次,其中移動端占比超過60%;智能手機基于精準的端側用戶畫像,與大模型結合,伴隨對話功能的不斷改進,將逐步成為真正的個人助手。據Counterpoint預測,2027年GenAI手機端側整體AI算力將會達到50000EOPS以上。圖表圖表:旗艦智能手機:旗艦智能手機AI峰值算力(峰值算力(TOPS)來源:Oppo官網,
41、中國三星公眾號,OriginOS原系統,安第斯智能云,IT之家,新浪財經,中國基金報,上海證券報,澎湃新聞,中泰證券研究所2023年起,國內外手機廠商均逐步開始測試接入AI大模型。2024年端側內嵌的大模型參數多數在30億左右,最高可跑通百億級以上。19圖表圖表:手機廠商已普遍內嵌:手機廠商已普遍內嵌AI大模型。大模型。202320242025OriginOS4搭載藍心大模型ColorOS14搭載AndesGPT大模型MagicOS 9.0支持30億參數的端側大語言模型iOS18發布Apple Intelligence大模型(端側30億),并積極與OPENAI和谷歌接觸YOYO智能體商店上線
42、DeepSeek-R1嘗鮮版宣布折疊旗艦 OPPO Find N5 接入 DeepSeek-R1Origin OS5搭載全新藍心大模型矩陣(最高端側跑通130億參數)OriginOS官宣將深度融合滿血版DeepSeekGalaxy Z 系列首次引入谷歌Gemini Nano大模型(端側約30億)推出自有生成式多模態AI模型Gauss2;Bixby接入智譜智能AI宣布年內國行機引入通義大模型自研大模型Gauss與中國多廠商測試大模型大模型升級為AndesGPT-2.0(端側70億)逐步開始引入Harmony OS4接入盤古大模型小藝接入DeepSeekHarmonyOS NEXT搭載盤古大模型5
43、.0(端側15-70億)2.2 GenAI手機:手機:AI算力提升帶來需求端爆發算力提升帶來需求端爆發來源:高通官網,中泰證券研究所20如何分配工作負載:如何分配工作負載:1、高通傳感器中樞:用戶與 AI 助手交談時,語音通過 OpenAI 的自動語音識別(ASR)生成式 AI 模型 Whisper 轉化為文本。2、NPU:AI 助手使用大語言模型 Llama 2-7B 生成文本回復。3、CPU:運行的開源 TTS 模型,將文本轉化為語音。4、NPU:虛擬化身渲染須與語音輸出同步以實現真實用戶交互界面,借助音頻創建融合變形動畫(blendshape)為嘴形和面部表情帶來合適動畫效果。5、GPU
44、:最終的虛擬化身渲染。圖表:圖表:AI助手如何利用高通助手如何利用高通AI引擎的多樣化處理器引擎的多樣化處理器2.2 GenAI手機:手機:AI算力提升帶來需求端爆發算力提升帶來需求端爆發來源:高通官網,中泰證券研究所21生成式生成式AI用例分三類,且新應用場景在不斷迭代出現用例分三類,且新應用場景在不斷迭代出現:1、按需型,由用戶觸發、需立即響應,如拍照、圖像編輯、代碼生成、文本創作等;2、持續型,運行時間較長,如語音識別、實時翻譯、視頻通話的音視頻處理等;3、泛化型,后臺持續運行,如始終開啟的預測性AI助手等。不同處理器的優勢:不同處理器的優勢:CPU:順序控制和即時性-小模型GPU:并行
45、數據流處理NPU:標量、向量、和張量的數學運算,可用于核心AI工作負載。疊加考慮手機、疊加考慮手機、PC等終端的功耗和散熱限制,支持處理多樣性的異構計算架構能發揮不同處理器的優勢。等終端的功耗和散熱限制,支持處理多樣性的異構計算架構能發揮不同處理器的優勢。圖表:圖表:NPU主要承接低功耗下需要高峰值性能的主要承接低功耗下需要高峰值性能的AI功能功能2.2 GenAI手機:手機:AI算力提升帶來需求端爆發算力提升帶來需求端爆發*新款芯片部分數據來自訪談口徑來源:IDC,高通/蘋果官網,中泰證券研究所22圖表圖表:主流:主流智能手機的智能手機的NPU芯片參數芯片參數公司公司型號型號SOC NPU發
46、布年份發布年份制程制程核心數核心數峰值算力峰值算力(TOPS)所用內存所用內存 內存容量內存容量(GB)峰值內存帶寬峰值內存帶寬(GB/s)驍龍 8Gen5-暫未正式發布3nm860(AI綜合算力:綜合算力:90)24/32-驍龍 8Gen4Hexagon Tensor NPU20243nm840(AI綜合算力:綜合算力:80)LPDDR5x24-高通驍龍 8Gen3Hexagon 8th Gen20227nm830(AI綜合算力:綜合算力:78)LPDDR4X3296驍龍 888Hexagon 78020215nm815LPDDR52451 驍龍 8Gen2Hexagon 78020217n
47、m815LPDDR4X1668 驍龍 865Hexagon 69820197nm87LPDDR51644 驍龍 855Hexagon 69020187nm83LPDDR4X 1634 驍龍 820Hexagon 680201514nm40.5LPDDR4826 蘋果A18 Pro20243nm1635LPDDR5X860A1820243nm1635LPDDR5X860A17 Pro20233nm1635LPDDR5851A1620224nm1617LPDDR5651A1520215nm1615.8LPDDR4X434A1420205nm1611LPDDR4X434A1320197nm86LPD
48、DR4X434A1220187nm85LPDDR4X334A11201710nm20.6LPDDR4X234開始支持端側百億以上參數模型以順暢運行GenAI模型的算力門檻30TOPS計,高通/蘋果分別自2022/2023年起發布的芯片達到這一標準。2024年推出的Apple Intelligence,有望成為蘋果AI創新大周期起點。1)大模型研發持續推進:從Core ML架構到MM1大模型再到端側OpenELM;2)芯片:A/M芯片均采用CPU+GPU+NPU架構,AI算力提升為端側AI提供硬件支持;3)強大AI技術體系:2010年以來收購了30+家AI初創公司。Apple Intellige
49、nce元年,望成蘋果AI大周期起點2.2 GenAI手機:手機:AI算力提升帶來需求端爆發算力提升帶來需求端爆發來源:IDC,AI PC產業(中國)白皮書,中泰證券研究所23AI PC加速滲透。加速滲透。隨大模型計算負載部分下沉至本地,個人大模型的需求日益增長,其普惠要求正契合PC端優勢。AI PC是包含AI模型、應用以及硬件設備的混合體,能為用戶提供通用場景下的個性化服務,提升生產力,同時降低大模型使用成本,并提升隱私保障度,據IDC預測,至28年預計AI PC滲透率98%,當年出貨量達到2.67億臺。NPU在在AI PC中的滲透率預計快速提升:中的滲透率預計快速提升:根據IDC預測,23-
50、28年 AI PC 的CAGR 為42%,按搭載AI的加速器品種分類,同時搭載NPU和GPU的AI PC的CAGR將達156%,僅搭載NPU的CAGR為58%,到2028年,將僅有5.2%的PC不配備NPU,NPU在PC中的滲透率達到94.8%。2.3 AI PC:個人大模型最佳載體之一,:個人大模型最佳載體之一,NPU滲透率望快速提升滲透率望快速提升圖表圖表:AI PC出貨量(百萬臺)預測出貨量(百萬臺)預測-按加速器分類按加速器分類05010015020025030020232024E2025E2026E2027E2028ENPU OnlyGPU OnlyNPU+GPUNPU+GPU CA
51、GR:156%NPU only CAGR:58%GPU only CAGR:-17%圖表:個人大模型助推圖表:個人大模型助推PC產業生態迭代產業生態迭代來源:IDC,高通/蘋果/intel官網,中泰證券研究所24公司公司型號型號SOC NPU發布年份發布年份制程制程核心數核心數NPU峰值算力峰值算力(TOPS)所用內存所用內存內存容量內存容量(GB)峰值內存帶寬峰值內存帶寬(GB/s)NPU在在SOC中中的面積占比的面積占比高通驍龍 X PlusHexagon 8th Gen20244nm8/1045LPDDR5x64GB136驍龍 X EliteHexagon 8th Gen20244nm1
52、245LPDDR5x64GB136蘋果M4 Max20243nm1638LPDDR5X128546M4 Pro20243nm1638LPDDR5X64273M420243nm1638LPDDR5X24120M3 Max20233nm1618LPDDR5128410M3 Pro20233nm1618LPDDR536154M320233nm1618LPDDR5241023%M2 Ultra20235nm3231.6LPDDR5192800M2 Max20235nm1615.8LPDDR596410M2 Pro20235nm1615.8LPDDR532205M220225nm1615.8LPDDR5
53、241024%M1 Ultra20225nm3222LPDDR5128819M1 Max20215nm1611LPDDR564410M1 Pro20215nm1611LPDDR532200M120205nm1611LPDDR4X16686%Intellunar lake第四代npu20243nm2248LPDDR5x32136meteor lake第三代npu20237nm1411.5LPDDR5/5x64/96120AMDStrix PointAMD XDNA 220244nm1250LPDDR5x6451.2Hawk Point 銳龍804020234nm816LPDDR56451.2Ph
54、oenix 銳龍704020234nm810LPDDR5/5x6451.2圖表圖表:主流:主流PC NPU芯片參數芯片參數AI算力增加的同時,NPU面積占比縮小算力:算力:AI PC算力至少算力至少40TOPS,PC芯片算力提升趨勢明確。芯片算力提升趨勢明確。根據微軟定義,AI PC(Copilot+能本地運行)的AI 算力至少要達到40 TOPS。高通驍龍X Elite總算力高達75TOPS,NPU算力45TOPS,可在端側運行130億參數模型;AMD 銳龍8040總算力39TOPS,基本符合微軟要求,NPU算力16TOPS;蘋果最新發布的M4芯片NPU算力已提升至38TOPS;24年英特爾
55、Lunar Lake、AMD Strix Point算力突破40TOPS。2.3 AI PC:個人大模型最佳載體之一,:個人大模型最佳載體之一,NPU滲透率望快速提升滲透率望快速提升來源:高通官網,黑芝麻智能招股書,中泰證券研究所252.4 汽車:智駕滲透率提升汽車:智駕滲透率提升+GenAI模型應用,驅動更高算力需求模型應用,驅動更高算力需求智駕滲透率快速攀升。智駕滲透率快速攀升。全球/中國智能駕駛乘用車滲透率預計2028年達到88%/94%,銷量在23-28年間CAGR 6.4%/6.9%。智駕:以高通智駕系統為例,其感知軟件棧和駕駛策略軟件棧需始終于本地運行,因為智駕對時延的要求極其嚴苛
56、,云端無法針對此類工作負載發揮任何作用,隨著智駕解決方案支持GenAI模型,汽車對端側算力的要求還會進一步提升(傳統視覺模型如特斯拉Transformer模型僅10億參數,而生成式大模型參數規模在1000億以上)。AI驅動座艙:類似AI手機或PC內的個人助手,車內數字助手通過訪問用戶數據及車輛傳感器數據,為用戶提供對應定制化的駕乘和娛樂體驗。圖表圖表:全球及中國智能駕駛乘用車銷量及滲透率:全球及中國智能駕駛乘用車銷量及滲透率0%10%20%30%40%50%60%70%80%90%100%01020304050607080201920202021202220232024E2025E2026E2
57、027E2028E全球銷量(百萬)中國銷量(百萬)全球滲透率(右軸)中國滲透率(右軸)圖表圖表:GenAI用于用于ADAS/AD,預,預測軌跡測軌跡/行為以改進駕駛策略行為以改進駕駛策略來源:高通官網,中泰證券研究所*新款芯片部分數據來自訪談口徑26高通在高通在2024年末發布的座艙與智駕芯片,應用了增強的年末發布的座艙與智駕芯片,應用了增強的 Hexagon NPU,較此前一代,較此前一代AI算力有大幅提升,且后期可繼續通過外算力有大幅提升,且后期可繼續通過外掛掛NPU的方式繼續擴展算力。的方式繼續擴展算力。Ride Elite不再需要額外配備加速芯片,算力可以支持多達40個傳感器,包括20
58、多個具有360 視野的16MP攝像頭和面向乘客的紅外攝像頭,確保了標志、車道、物體以及手勢識別的精確性;支持從視覺感知到路徑規劃、定位和車輛控制在內的完整端到端自動駕駛系統,這些功能可以同時且獨立地運行。NPU 中集成的 Transformer 加速器和矢量引擎保證了低延遲和高精度的同時,實現了功耗的優化。Cockpit Elite作為座艙芯片,可以在車輛本地處理具有數十億個參數的大型語言模型(LLM),與Ride Elite配對使用。圖表圖表:高通車載:高通車載NPU 芯片參數芯片參數公司公司類別類別型號型號發布年份發布年份制程制程核心數核心數場景場景高通座艙驍龍Cockpit Elite(
59、8397)20244nm-配對Ride Elite驍龍 SA829520235nm8驍龍 SA815520217nm8智駕驍龍Ride Elite(8797)(艙駕一體)20244nm-針對L2+L3驍龍865020234nm8已應用于零跑、大疆車載“成行平臺”,本田、通用、大眾、寶馬等預計25-26年逐步搭載。驍龍854020235nm16未量產2.4 汽車:智駕滲透率提升汽車:智駕滲透率提升+GenAI模型應用,驅動更高算力需求模型應用,驅動更高算力需求來源:各公司官網,中泰證券研究所圖表:宇樹科技機器人機器狗圖表:宇樹科技機器人機器狗機器人產業進入快速發展期,技術創新與市場需求共振驅動行
60、業爆發機器人產業進入快速發展期,技術創新與市場需求共振驅動行業爆發。國產機器人發展迅速,宇樹科技在機器狗方面全球領先,據智研瞻產業研究院的數據,2024 年前三個季度,我國機器狗的銷量達到 2.33 萬臺,同比增長 72.22%,關注國產供應鏈發展機遇。NPU是機器人是機器人AI加速計算的重要芯片。加速計算的重要芯片。NPU在機器人使用廣泛,有加速計算、降低系統功耗、實現實時交互和決策等優勢。在機器人使用廣泛,有加速計算、降低系統功耗、實現實時交互和決策等優勢。在機器人進行深度學習任務,如語音識別、圖像分類、目標跟蹤時,NPU 能顯著加快計算速度,比傳統 CPU 和 GPU 更高效地處理大量數
61、據。以家庭清潔機器人為例,通過 NPU 快速處理攝像頭采集的圖像數據,識別家具、障礙物等物體,實現自主避障和路徑規劃。如宇樹科技在Go2中就使用一顆“國產6T芯片”。27圖表:圖表:Go2機器狗內置“國產機器狗內置“國產6T芯片”芯片”2.5 機器人:技術創新與需求共振迎爆發機器人:技術創新與需求共振迎爆發目目 錄錄一、專為端側一、專為端側AI而生的神經網絡加速器而生的神經網絡加速器二、卡位端側下游,迎需求爆發二、卡位端側下游,迎需求爆發三、產業趨勢:近存計算大趨勢,三、產業趨勢:近存計算大趨勢,3D DRAM+NPU方案有望受益方案有望受益3.1 存算一體是存算一體是NPU打破計算瓶頸的主要
62、方式打破計算瓶頸的主要方式3.2 存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向3.3 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案四、海外大廠持續迭代推動端側四、海外大廠持續迭代推動端側AI布局,國產廠商加速布局布局,國產廠商加速布局五、投資建議及風險提示五、投資建議及風險提示28來源:中泰證券研究所29除算力指標外,內存墻、功耗墻也影響除算力指標外,內存墻、功耗墻也影響NPU實際利用率。實際利用率。內存墻是指在實際應用中,NPU堆MAC單元能夠拉高算力指標,但會受內存帶寬限制,導致數據的傳輸速率不足,MA
63、C單元不斷等待,實際處理性能下降的現象;功耗墻是指計算單元存算分離設計導致數據重復搬移,共享困難,數據在多級存儲間傳輸,能耗大。隨著AI發展,端側數據量逐步提升,數據的傳輸速度不足以及能耗高也逐步成為限制NPU性能的瓶頸。存算一體及混合精度是解決存算一體及混合精度是解決NPU在在AI計算瓶頸的主要方式。計算瓶頸的主要方式?;旌暇仁峭ㄟ^軟件技術,將不同精度的浮點數進行數值計算,從而減少數據搬運,可以一定程度提高NPU效率。而存算一體則是從底層架構上,徹底解決NPU的算力瓶頸,其核心是將計算和存儲融合,降低“內存墻”問題,實現計算能效的數量級提升。谷歌基于邊緣設備運行神經網絡模型,發現1)62.
64、7%的系統能耗是花費在數據移動上;2)數據移動主要來自內存中的簡單函數,如乘累加等,因此解決內存墻,核心是因此解決內存墻,核心是要將計算函數搬移到數據存儲的地方,而非把數據搬移到處理器中進行計算。要將計算函數搬移到數據存儲的地方,而非把數據搬移到處理器中進行計算。3.1 存算一體是存算一體是NPU打破計算瓶頸的主要方式打破計算瓶頸的主要方式來源:知存科技,中泰證券研究所303.2 存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向存儲速度滯后于計算器速度,存儲速度滯后于計算器速度,AI時代存儲帶寬制約算力芯片性能發揮。時代存儲帶寬制約算力芯片性能發揮。在過
65、去二十年,處理器性能以每年大約55%的速度提升,內存性能的提升速度每年只有10%左右。結果長期下來,不均衡的發展速度造成了當前的存儲速度嚴重滯后于處理器的計算速度。雖然多核(例如CPU)/眾核(例如GPU)并行加速技術提升算力,AI時代處理器計算技術能力大幅提升,同時大型 Transformer 模型的參數數量呈指數級增長,每兩年增加 410 倍,而單個 GPU 內存僅以每兩年 2 倍的速度擴展,存儲帶寬制約了計算系統的有效帶寬,限制算力芯片性能發揮。圖表:處理器和存儲器速度失衡圖表:處理器和存儲器速度失衡圖表:圖表:AI時代計算能力大幅提升時代計算能力大幅提升圖表:每單元算力使用的帶寬和內存
66、均處于下降趨勢圖表:每單元算力使用的帶寬和內存均處于下降趨勢來源:知存科技,中泰證券研究所313.2 存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向傳統存算分離架構帶來存儲墻問題。傳統存算分離架構帶來存儲墻問題。上世紀40年代開始計算機使用馮諾伊曼架構存算分離,即處理器和存儲器相互獨立,兩者通過總線連接。1)存算分離,數據存算間傳輸造成延遲。處理器從外部存儲中調取數據,計算完成后再傳輸到內存中,一來一回都會造成延遲。2)數據在多級存儲間傳輸。為了提升速度,馮諾依曼架構對存儲進行分級,越往外的存儲介質密度越大、速度越慢,越往內的存儲密度越小,速度越快,因
67、此數據需要在多級存儲之間搬運,能耗大。通常第一級存儲是速度最快、容量低,主要是SRAM片上緩存,第二級是傳統DDR。3)存儲制程推進慢于邏輯。目前DRAM制程最先進仍在10-15nm左右,而邏輯制程已進入3nm,主要是因存儲器制程縮小難度更大。隨著近幾年云計算和AI應用發展,面對計算中心的數據洪流,存算分離架構下數據搬運慢、搬運能耗大等問題成為了計算的關鍵瓶頸,“存儲墻”問題更加顯著。圖表:圖表:數據的傳輸速度慢數據的傳輸速度慢圖表:圖表:數據的傳輸數據的傳輸功耗大功耗大圖表:圖表:存算分離架構存算分離架構來源:中國移動研究院,中泰證券研究所32存算一體可有效克服馮諾依曼架構,可有效提升帶寬、
68、緩解存儲墻問題,迎合存算一體可有效克服馮諾依曼架構,可有效提升帶寬、緩解存儲墻問題,迎合AI時代需求。時代需求。存算一體是一種新的架構,其核心理念是將計算和存儲融合,降低“存儲墻”問題,實現計算能效的數量級提升。從廣義而言,存算一體可分為三種:近存計算(PNM)、存內處理(PIM)、存內計算(CIM),狹義的存算一體主要指存內計算。目前近存計算和存內處理已開始商業化應用,但存內計算因設計等難度大,目前暫未商業化大規模使用。近存計算:存算分離,通過封裝拉近存儲和計算單元的距離。存內計算:在存儲單元內加了部分計算單元,存儲芯片有部分計算能力。存內計算:真正的存算一體,存儲單元和計算單位完全融合。3
69、.2 存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向圖表:存算一體三個類別圖表:存算一體三個類別來源:Rambus,中泰證券研究所33近存計算:近存計算:通過封裝工藝拉近存儲單元和計算單元距離,目前已大規模使用通過封裝工藝拉近存儲單元和計算單元距離,目前已大規模使用。近存計算不改變計算單元和存儲單元本身設計功能,通過采用先進的封裝方式及合理的硬件布局和結構優化,通過芯片封裝和板卡組裝的方式,將存儲和計算單元集成,增強二者間通信寬帶,增大傳輸速率,近存計算本質上屬于傳統馮諾依曼的存算分離架構,通過拉近存儲單元和計算單元的距離,對“存儲墻”進行優化。典型產
70、品:HBM、3D堆疊DRAM和華邦CUBE產品均屬于近存計算。圖表:圖表:HBM是近存計算是近存計算3.2 存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向圖表:圖表:HBM VS GDDR來源:紫光國芯,中泰證券研究所34WOW 3D堆疊堆疊DRAM與邏輯芯片是與邏輯芯片是3D結構,屬于近存計算。結構,屬于近存計算。結構:屬于近存計算,DRAM與邏輯芯片采用3D堆疊工藝封裝在一起,在1片邏輯芯片上堆疊多層DRAM芯片,邏輯芯片指GPU、CPU、NPU等計算芯片、右圖中為紫色的Logic Die,DRAM芯片圖中僅只有1層,實際可堆疊多層。技術:使用TS
71、V硅通孔技術、Wafer on Wafer的混合鍵合工藝(Hybrid Bonding)實現多層芯片之間的電氣連接。性能特點:以紫光國芯的WOW 3D堆疊DRAM產品 SeDRAM為例,通孔間距(Pitch)達到10m以內的級別,HBM的Pitch目前為幾十微米,因此WoW 3D堆疊DRAM的帶寬更高,另外功耗更低,屬于定制化產品,容量拓展性一般。3.3 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案圖表:圖表:紫光國芯的紫光國芯的WOW 3D堆疊堆疊DRAM圖表:圖表:紫光國芯的紫光國芯的WOW 3D堆疊堆疊DRAM性能特點性能特點相關內容詳見中泰電
72、子團隊2025/2/20發布的報告AI系列之存儲:近存計算3D DRAM,AI應用星辰大海目目 錄錄一、專為端側一、專為端側AI而生的神經網絡加速器而生的神經網絡加速器二、卡位端側下游,迎需求爆發二、卡位端側下游,迎需求爆發三、產業趨勢:近存計算大趨勢,三、產業趨勢:近存計算大趨勢,3D DRAM+NPU方案有望受益方案有望受益四、海外大廠持續迭代推動端側四、海外大廠持續迭代推動端側AI布局,國產廠商加速布局布局,國產廠商加速布局4.1 NPU發展歷程:算力攀升,場景突破發展歷程:算力攀升,場景突破4.2 高通經典架構:增加并行,加速特定硬件高通經典架構:增加并行,加速特定硬件4.3 三星三星
73、NPU迭代:算法優化迭代:算法優化+更多更多MAC集成集成4.4 Intel NPU迭代:增加計算引擎數和內存帶寬迭代:增加計算引擎數和內存帶寬4.5 多數端側多數端側NPU應用集成應用集成SOC方案方案4.6 分立分立NPU:易于擴展,適用汽車和工業端側:易于擴展,適用汽車和工業端側AI工作負載工作負載4.7 華為昇騰華為昇騰NPU:自研達芬奇架構:自研達芬奇架構4.8 瑞芯微:瑞芯微:RKNPU端側算力龍頭端側算力龍頭4.9 國產廠商加速端側國產廠商加速端側NPU布局布局五、投資建議及風險提示五、投資建議及風險提示35來源:高通官網,中泰證券研究所364.1 NPU發展歷程:算力攀升,場景
74、突破發展歷程:算力攀升,場景突破DSP架構奠定基礎:架構奠定基礎:首款Hexagon DSP亮相驍龍平臺,其DSP控制和標量架構是高通未來多代NPU的基礎。2007初代初代NPU:首款量產采用創新架構設計的處理器 Zeroth,更接近于用電路對生物神經細胞進行模擬2013首次集成首次集成AI引擎:引擎:推出驍龍 820,支持成像、音頻和傳感器運算,集成了標量和向量運算。2015早期基礎階段早期基礎階段2018201920202022增加張量加速器:增加張量加速器:驍龍 855 增加了張量加速器(HTA),支持多元數學運算、非線性方程、INT16/INT8與混合精度整數運算,以應對圖片和視頻處理
75、的需求。關鍵技術加強:關鍵技術加強:驍龍 8 Gen2 中NPU 使用專用電源傳輸軌道、微切片推理、int4 以提升能效和內存帶寬效率、Transformer 網絡加速以及優化的分組卷積等特殊硬件。性能提升至支持百億參數模型:性能提升至支持百億參數模型:驍龍 8 Gen3 中進一步升級了 NPU 微架構及相關能力,性能提升98%,能效提升40%;支持 LLM 和 LVM,增加更多的硬件加速單元,增加大共享內存,支持4.8GHz 頻率的 LPDDR5X,可運行 百億參數模型。架構變革架構變革:融合了向量、張量、標量加速器,疊加專用大共享內存,實現更好的性能功耗表現,Hexagon 780加速器的
76、AI算力達到26TOPS。AI算力增加、拓展端側用例:算力增加、拓展端側用例:驍龍 865拓展AI成像、AI視頻、AI語音和始終在線的感知功能,AI性能從7TFLOPS提升到了15TFLOPS。張量加速,端側應用拓展張量加速,端側應用拓展20232024AI性能持續提升:性能持續提升:推出驍龍 X Elite 平臺,NPU算力45TOPs,AI引擎達75TOPS,支持設備端運行超過130億的大模型,支持多模態生成式AI和更長的token輸入。關鍵技術增強,跑通百億參數關鍵技術增強,跑通百億參數智駕、智駕、PC端突破端突破高通是高通是NPU研發起步最早的公司之一,其發展歷程具備一定代表性:研發起
77、步最早的公司之一,其發展歷程具備一定代表性:NPU從初代探索、至發展優化,都在順應從初代探索、至發展優化,都在順應AI的發展需要,經的發展需要,經歷了架構迭代、算力攀升,而實現在多種終端場景的應用。歷了架構迭代、算力攀升,而實現在多種終端場景的應用。架構:早期由DSP架構奠基,逐步集成標量、向量、張量加速單元,并引入Transformer支持。性能:持續優化,至最新一代PC芯片AI算力達75TOPS,智駕芯片AI算力達720TOPS。應用:從基礎語音/圖像處理到支持超百億參數大模型,覆蓋手機、PC、智駕等多終端場景。圖表:圖表:高通高通NPU發展歷程發展歷程來源:Toms hardware,中
78、泰證券研究所374.1 NPU發展歷程:算力攀升,場景突破發展歷程:算力攀升,場景突破Intel的NPU發展起步相對高通較晚,與其在傳統CPU上的路徑依賴以及早期對移動市場的相對忽視(前CEO 保羅歐德寧拒絕了將英特爾處理器應用于第一代蘋果 iPhone 的機會)有一定關系。Intel近兩年近兩年NPU的迭代速度較快。的迭代速度較快。2023年推出的NPU 3 是Intel第一代真正意義上的NPU產品,2024年的NPU 4便達到48TOPS的峰值AI性能,是前代的約4倍??紤]功耗,NPU 4在同等功耗下的表現是前代的2倍。圖表:圖表:Intel NPU算力迭代歷程算力迭代歷程圖表:圖表:In
79、tel NPU 4&3性能對比性能對比來源:Toms hardware,中泰證券研究所38圖表:圖表:stable diffusion運行案例運行案例NPU在大模型運行中承擔的工作負載增加。在大模型運行中承擔的工作負載增加。以Intel處理器運行stable diffusion模型為案例,其中的文本語義理解步驟,在2024年的Lunar Lake 上,于NPU4上運行,而在前代處理器平臺(2023年的Meteor Lake)上,該功能在CPU上運行。預計預計NPU在終端承載的算力比重繼續增加。在終端承載的算力比重繼續增加。根據Intel的判斷,在AI PC的算力分配中,2024年/2025年,
80、NPU將分別承擔其中的25%/30%,CPU算力負載占比下降,GPU維持不變。圖表:圖表:AI PC算力負載分配算力負載分配4.1 NPU發展歷程:算力攀升,場景突破發展歷程:算力攀升,場景突破來源:高通官網,chipsandcheese,中泰證券研究所394.2 高通經典架構:增加并行,加速特定硬件高通經典架構:增加并行,加速特定硬件高通第三代驍龍高通第三代驍龍 8 中的中的 Hexagon NPU 是面向端側生成式是面向端側生成式 AI 的代表性設計之一的代表性設計之一,便于快速設計和擴展,適用異構計算,較前代平臺,性能提升98%,能效提升40%??傮w是按序、多線并行的超長指令集架構(VL
81、IW)處理器,具專門信號處理能力,采用同步多線程(SMT),利用線程級并行、隱藏延遲,向量和張量單元用協處理器模型,能提供高每時鐘周期吞吐量;獨立電源軌道:讓需要不同標量、向量和張量處理規模的 AI 模型能夠實現最高性能和效率;大共享內存增至2倍帶寬;微切片推理技術:利用標量能力,將網絡劃分為可獨立執行的小微切片,減少內存流量,提升標量、向量和張量加速器的利用率;特定硬件加速:配備改進的群卷積、激活函數加速等特殊硬件,針對生成式 AI,還加速了變換器網絡,顯著加快多頭注意力的推理速度。圖表:圖表:高通第三代驍龍高通第三代驍龍8 Hexagon NPU圖表:圖表:Hexagon v73+Tens
82、or整體架構示意圖整體架構示意圖來源:A Multi-Mode 8k-MAC HW-Utilization-Aware Neural Processing Unit With a Unified Multi-Precision Datapath in 4-nm Flagship Mobile SoC,中泰證券研究所40以三星為例,第以三星為例,第1代代&第第2代:代:性能提升關鍵在于“權重剪枝”性能提升關鍵在于“權重剪枝”,NPU中典型權重張量的稀疏度可超 50%,NPU 會利用這種權重稀疏性進行零跳躍操作(預先識別哪些權重為0,跳過其對應輸入特征圖(Feature Map)的計算過程),提高
83、計算效率。MAC結構:為基于累加器的點積形式,在輸入通道方向4 路并行,但每個輸入通道單獨計算,最終結果合并前各自獨立,缺乏加法樹,無歸約操作,需大量寄存器存儲部分和(PSUM)值。數據處理和傳輸:整體 FM 可在空間方向預先分區為基本數據交易單元 Cell,隨著輸入和輸出通道方向并行度的增加,用于選取和組合 FM 單元的多路復用器開銷會不斷增大;并且在網絡中存在許多寬度和高度較小的層時,利用大規??臻g并行性可能會導致計算利用率低下。圖表:第一代圖表:第一代NPU利用權重稀疏性進行零跳躍利用權重稀疏性進行零跳躍4.3 三星三星NPU迭代:算法優化迭代:算法優化+更多更多MAC集成集成傳統卷積計
84、算要16個周期利用權重稀疏性的卷積計算只要4個周期41來源:A Multi-Mode 8k-MAC HW-Utilization-Aware Neural Processing Unit With a Unified Multi-Precision Datapath in 4-nm Flagship Mobile SoC,Sparsity-Aware and Re-configurable NPU Architecture for Samsung Flagship Mobile SoC,中泰證券研究所 第第3代:代:設計思路轉變,更通用:設計思路轉變,更通用:從權重稀疏性感知零跳躍轉向 FM
85、稀疏性感知零跳躍。因權重稀疏性感知零跳躍非行業標準,在基準測試中權重剪枝難以實施,且當時多數深度學習框架不支持,客戶應用不便。而 FM 因 ReLU(Rectified Linear Unit)激活函數常含大量零值,可利用其稀疏性提升性能,但需專用硬件確定零值位置,且在非 ReLU 激活函數網絡中性能提升受限。架構改進:采用基于加法樹的點積和新架構。架構改進:采用基于加法樹的點積和新架構。加法樹結構在面積和能效上優于基于累加器的點積;在選取非零 FM 時,硬件向量可廣播和復用,降低了多路復用器的有效開銷;將最小處理單元設為 1132,可適應不同卷積核,保持高利用率。圖表:圖表:MAC-base
86、d(a)和)和adder-tree-based(b)架構及能效對比(右表)架構及能效對比(右表)4.3 三星三星NPU迭代:算法優化迭代:算法優化+更多更多MAC集成集成42第第4代:代:集成更多集成更多 MAC 提升性能,提升性能,同時維持與前代相近面積同時維持與前代相近面積;提高能效以應對功率管理提高能效以應對功率管理 IC 限制限制;滿足市場對浮點(;滿足市場對浮點(FP)運算)運算的需求,改善深度卷積和小輸入通道淺層的利用率,并支持動態操作模式以適應不同功耗和延遲場景。的需求,改善深度卷積和小輸入通道淺層的利用率,并支持動態操作模式以適應不同功耗和延遲場景。性能提升與優勢:性能提升與優
87、勢:相比第一代,第四代NPU的算力(TOPS)、能效(TOPS/W)和單位面積能效等指標上有顯著進步,分別提升至首代的11.5/3.3/4.8 倍。圖表:四代圖表:四代NPU性能對比性能對比來源:A Multi-Mode 8k-MAC HW-Utilization-Aware Neural Processing Unit With a Unified Multi-Precision Datapath in 4-nm Flagship Mobile SoC,Sparsity-Aware and Re-configurable NPU Architecture for Samsung Flagsh
88、ip Mobile SoC,中泰證券研究所4.3 三星三星NPU迭代:算法優化迭代:算法優化+更多更多MAC集成集成43具體架構:具體架構:NPU 包含兩個核心,每個 NPU 核心都有其獨立的結構和功能組件,具備可擴展性和獨立運行的高效性,能夠適應不同的計算需求和處理各種復雜的深度學習任務;NPU 控制器負責管理數據在片上暫存器內存(on-chip scratchpad memory)和外部內存之間的傳輸,小型 CPU 核心用于執行固件,神經張量壓縮機(NTC)通過專用的直接內存訪問(DMA)通道、與 NPU 核心相連。NPU核核中包括一個超大乘累加陣列(XMAA,含 3232 個 MAC),
89、由4個 MAA 組(MAAG)組成,每個 MAAG 總共包含 328 個 MAC。來源:A Multi-Mode 8k-MAC HW-Utilization-Aware Neural Processing Unit With a Unified Multi-Precision Datapath in 4-nm Flagship Mobile SoC,Sparsity-Aware and Re-configurable NPU Architecture for Samsung Flagship Mobile SoC,中泰證券研究所圖表:圖表:NPU核核圖表:第四代可擴展圖表:第四代可擴展NPU頂
90、層架構頂層架構4.3 三星三星NPU迭代:算法優化迭代:算法優化+更多更多MAC集成集成來源:Intel官網,the chipletter,中泰證券研究所444.4 Intel NPU迭代:增加計算引擎數和內存帶寬迭代:增加計算引擎數和內存帶寬Intel NPU 4,較前代NPU3,提升神經計算引擎數至12個,內存帶寬增至2倍,同時可訪問計算模塊上的8MB共享端緩存,共同提升了效率。每個神經計算引擎中,都嵌入了推理鏈路包括 MAC 陣列和專用 DSP,專為眾多并行操作而構建,NPU4上的SHAVE DSP 經過優化,單個矢量計算能力是上一代的四倍,可以處理更復雜的神經網絡。圖表:圖表:Inte
91、l NPU 4 VS NPU 3架構架構控制NPU運行和與CPU的通信控制內存訪問用于NPU和緩存的RAM存儲6個神經計算引擎,每個分別包括:1、2個DSP(數字信號處理器)2、一個MAC3、激活函數4、數據轉換5、加載/存儲來源:高通官網,sNPU:Trusted Execution Environments on Integrated NPUs,中泰證券研究所454.5 多數端側多數端側NPU應用集成應用集成SOC方案方案大多數的移動大多數的移動SOC采用集成采用集成NPU的設計的設計,即 NPU與其它處理器(CPU、GPU等)集成于SOC中,較分立式設計,有三個方面較分立式設計,有三個方
92、面的優勢:的優勢:1、集成式NPU可以共享統一地址空間的系統緩存,無需在CPU和分立式NPU之間進行額外的內存傳輸或加密;2、集成的NPU可以實現更好的帶寬和更低的系統內存訪問延遲,從而提高整體性;3、與分立式NPU相比,NPU的集成設計顯著降低了能耗和芯片尺寸。圖表:圖表:SOC在單個在單個DIE中集成包括中集成包括NPU在內的多種處理器在內的多種處理器來源:Intel官網,ANADTECH,EET,快科技,中泰證券研究所46圖表:圖表:NPU 3在在Meteor Lake上的集成方式上的集成方式在最近在最近2代代Intel處理器中,處理器中,NPU尺寸增加,集成度增加:尺寸增加,集成度增加
93、:Intel Meteor Lake(2023)處理器采用分離式模塊架構,分別是計算模塊、SOC 模塊、圖形模塊、IO 模塊等,并通過英特爾 Foveros 3D 封裝技術連接,NPU在其中 SoC 模塊內,有別于傳統意義上的SoC,其中集成的是低功耗E核(LPE)、NPU AI獨立引擎、內存控制器、無線控制器、媒體引擎、顯示引擎等;CPU與GPU分別位于另外的計算/圖形模塊中。Lunar Lake(2024)架構中,NPU 與CPU和GPU均集成在 Compute Tile 上,通過全新升級的 NoC 總線連接,以實現更高速的帶寬與更低的延時;NPU4增加了尺寸,以適應下一代AI負載。圖表:
94、圖表:NPU 4在在Lunar Lake上的集成方式上的集成方式4.5 多數端側多數端側NPU應用集成應用集成SOC方案:方案:Intel來源:蘋果官網,中泰證券研究所47蘋果蘋果NPU芯片的集成度高,硬件軟件深度融合,兼容和可擴展性是相對劣勢。芯片的集成度高,硬件軟件深度融合,兼容和可擴展性是相對劣勢。蘋果生態目前核心硬件均自研,NPU與CPU和GPU協同工作,實現高效異構計算。與高通、Intel等芯片大廠相比,蘋果NPU在算力上不具備優勢,以AI PC最新一代為例,蘋果/高通/Intel的NPU算力分別為38/45/48 TOPS。但因其針對自有軟件生態定制、深度融合,能夠實現性能的最大化
95、利用。系統生態封閉,架構設計相對獨立,限制了與非蘋果外部硬件的兼容性和可擴展性,無法像通用NPU集成到其它硬件平臺進行擴展應用。不同于Intel迭代過程中的NPU面積提升,蘋果NPU在M1/M2/M3中的面積占比分別為6%,4%,3%,在算力提升的同時,面積占比縮小,我們判斷原因可能包括:制程提升(5nm至3nm)、芯片資源再分配(CPU緩存增大、GPU核心數從8核增至18核、提升共享內存容量)等。圖表:圖表:蘋果蘋果A18&M4芯片架構芯片架構4.5 多數端側多數端側NPU應用集成應用集成SOC方案:蘋果方案:蘋果來源:NXP、Kinara官網,EETimes,中泰證券研究所484.6 分立
96、分立NPU:易于擴展,適用汽車和工業端側:易于擴展,適用汽車和工業端側AI工作負載工作負載分立分立NPU可以可以USB或或Pcle接入主控,較接入主控,較SOC(或(或compute tile集成)方案,擴展簡易。集成)方案,擴展簡易。2025/2/10,恩智浦宣布以3.07億美元的價格,收購Kinara高性能、低功耗和可編程的分立NPU行業領導者,以加強在端側設備的AI能力。應用定位于工業物聯網和汽車邊緣計算。應用定位于工業物聯網和汽車邊緣計算。Kinara的NPU可嵌入恩智浦的智能邊緣平臺,NPU模塊獨立承載多模態大語言模型的運行。未來將推出更多“分立NPU+處理器”靈活組合。Kinara
97、核心產品分立NPU:Ara-1 和 Ara-2,支持廣泛的邊緣 AI 應用,包括多模態生成式 AI 模型,可編程性確保了未來 AI 算法能夠適配從 CNN 向生成式 AI 和代理 AI 等的轉變。Ara-2 算力達到40TOPS,功耗在6W之內,支持300億參數的INT4模型,運行表現:Llama2-7B:12 output tokens/sec,Stable Diffusion 1.4:7 sec/image。恩智浦表示,在可能轉向完整的在可能轉向完整的 SoC 之前,未來的集成也可能以共同封裝的晶片或模塊的形式出現,之前,未來的集成也可能以共同封裝的晶片或模塊的形式出現,通過外接多個Ara
98、-2,可以實現多倍40TOPS的快速擴展,以滿足客戶需要,這是SOC方案無法快速做到的。圖表:圖表:Ara-2接入接入NXP FRDM*i.MX 95中,可運行中,可運行LLaVA*Flexible and Rapid Development for MCUXpresso,是恩智浦為MCU打造的低成本、可擴展開發平臺*Large Language and Vision Assistant,結合了語言和視覺功能的多模態模型注:右圖中M.2為以Ara-2提供AI算力的專用模塊來源:Kinara官網,中泰證券研究所49分立分立NPU通過通過USB連接,即可從連接,即可從NXP處理器中卸載處理器中卸載
99、AI工作負載。工作負載。在IP攝像頭的端側AI工作流中,設備包含 NXP i.MX 8M Quad 芯片,作為主機處理器,通過 USB 接口與一個或多個 Ara-1 NPU芯片相連,NXP 芯片負責接收和初步處理來自 IP 攝像頭的視頻流,Ara-1 用于執行神經網絡推理任務,在該工作流中,體現為通過 AI 算法從視頻數據中提取有用的信息。在一個基于主處理器和NPU芯片的AI應用軟件架構中,Ara-1 NPU芯片通過 USB 或 PCIe 接口與主機處理器相連,主機處理器通過對應的軟件組件和驅動程序來控制和分立NPU的 AI 計算能力。圖表:分立圖表:分立NPU如何從如何從NXP處理器中卸載處
100、理器中卸載AI工作負載工作負載圖表:基于主處理器和圖表:基于主處理器和分立分立NPU芯片的芯片的AI應用軟件架構應用軟件架構4.6 分立分立NPU:易于擴展,適用汽車和工業端側:易于擴展,適用汽車和工業端側AI工作負載工作負載來源:華為昇騰,中泰證券研究所圖表:達芬奇架構內核拆解圖表:達芬奇架構內核拆解50達芬奇架構是華為昇騰自研的面向達芬奇架構是華為昇騰自研的面向AI特征的全新計算特征的全新計算NPU架構。架構。華為2017年發布NPU架構,除支持標量運算、矢量運算外,還引入3D Cube來加速矩陣運算,具備高算力、高能效、靈活可裁剪的特征,能夠大幅提升單位面積下的AI算力,其中每個AI C
101、ore在一個時鐘周期內實現4096個FP16的MAC操作,相較CPU、GPU實現數量級提升。華為NPU應用廣泛,覆蓋從端側到邊緣側的全場景部署。智能手機領域,麒麟990內置達芬奇NPU,賦能華為P40帶來AI功能,如AI路人移除等;端側領域:昇騰310為智慧城市、自動駕駛、智能制造、機器人等應用場景提供解決方案。4.7 華為昇騰華為昇騰NPU:自研達芬奇架構:自研達芬奇架構圖表:圖表:Scalar、Vector、Cube參數參數Unit NameScalarVectorCubePerformance(FLOPS)2G256G8TPower(W)/0.46 3.13 Area(mm2,7nm)0
102、.04 0.70 2.57 Perf./Power(TFLOPS/W)/0.56 2.56 Perf./Area(TFLOPS/mm2)0.05 0.36 3.11 來源:華為昇騰,中泰證券研究所圖表:華為達芬奇圖表:華為達芬奇NPU架構圖架構圖51達芬奇達芬奇NPU架構主要包含架構主要包含3類單元:類單元:1)計算單元;)計算單元;2)存儲系統;)存儲系統;3)控制單元)控制單元。計算單元包含矩陣計算單元(DaVinci Core)、向量計算單元(Vector)及標量計算單元(Scalar);存儲控制是AI Core 片上存儲單元和相應數據通路構成存儲系統;控制單元為計算過程提供指令控制,負
103、責AI Core的運行。其中AI core每次可執行完成fp16的矩陣乘,大的矩陣運算需要在L1 Buffer中對矩陣進行分塊;Vector靈活度高,所有計算的源數據和目標會存儲在Unified Buffer中;Scalar負責各類型標量數據運算和程序流程控制,三者算力依次遞減,最終累加器把當前矩陣乘的結果與上一次計算結果相加。4.7 華為昇騰華為昇騰NPU:自研達芬奇架構:自研達芬奇架構來源:瑞芯微,中泰證券研究所圖表:瑞芯微圖表:瑞芯微NPU架構發展歷程架構發展歷程52公司是國產端側公司是國產端側NPU先行者先行者。2018年在國內AI端側發展初期,瑞芯微發布RK3399pro芯片,首次引
104、入RKNPU,在RK3399基礎上新增一個NPU核,內置3Tops算力,在深度學習運算能力上有大幅提升;20年在RV1126/1109中發布RKNPU 2.0,定位機器視覺下游,算力分別達到2.0Tops和1.2Tops,同年發布RKNPU3.0,采用全新自研架構,支持Per Channel量化,量化精度大幅提升,應用于RK3566和RK3568;21年公司發布第四代具有完全自主知識產權的NPU引擎,算力達到6TOPs,帶寬大幅提升,支持多核擴展。4.8 瑞芯微:瑞芯微:RKNPU端側算力龍頭端側算力龍頭來源:瑞芯微,中泰證券研究所圖表:瑞芯微圖表:瑞芯微NPU架構圖架構圖53RK3588算力
105、國產端側芯片領先,卡位高端下游市場算力國產端側芯片領先,卡位高端下游市場。RK3588內置RKNPU4.0,內置3核架構,每個核心有384KB內部緩存,可支持TensorFlow、Caffe、Pytorch等推理模型。以int8數據類型為例,3588每個周期可進行1024*3個int8 MAC操作,其NPU頻率為1G HZ,理論算力峰值為1024*3*1G*2=6Tops。目前公司旗艦RK3588及RK3576均搭配6T NPU,國產端側算力領先。4.8 瑞芯微:瑞芯微:RKNPU端側算力龍頭端側算力龍頭來源:瑞芯微,中泰證券研究所圖表:瑞芯微主要產品系列及下游分布圖表:瑞芯微主要產品系列及下
106、游分布54持續提升芯片持續提升芯片AI支持,迭代支持,迭代NPU賦能大模型邊緣落地賦能大模型邊緣落地。NPU 作為公司核心自研 IP,在過去幾年已經過多代迭代,對于神經網絡模型的支持和計算單元的利用效率持續提升,并具有良好的可擴展性,方便模型、算法的快速移植和部署。公司持續升級NPU IP和相關工具鏈,提升對Transformer架構為代表的主流模型架構支持效率,具有更快的運行速度、更低的能耗和更高效的內存使用,助力模型在邊緣側、端側的部署,賦能多場景邊緣側、端側的AIoT產品應用,如機器視覺、語音識別、自然語言處理、汽車電子、工業應用等下游。4.8 瑞芯微:瑞芯微:RKNPU端側算力龍頭端側
107、算力龍頭類別類別主要特點主要特點主要產品系列主要產品系列主要應用領域主要應用領域高性能應用處理器采用高性能 CPU 和 GPU內核,新一代芯片還增加了 NPU 處理單元,具有強大的AI處理能力。RK3588系列ARM PC、平板、高端攝像頭、NVR.8K 和大屏設備、汽車智能座艙、云服務設備及邊緣計算、AR/VR 等RK3399系列無人機、人臉識別及支付、開發板及工控、ARM 服務器、視頻會議系統、商業顯示、行業平板和電子白板、自助設備等RK3288系列商業顯示、收銀機、人臉識別及測溫,行業平板、開發板及工控、自助設備、云終端、電紙書、汽車電子、視頻會議系統等RK3568/RK3566系列平板
108、電腦、NVR、NAS、電紙書、云終端、網關等通用應用處理器具有適當的處理能力,價格適中,適合消費電子及一般控制類產品的需求。RK3368 系列教育電子、收銀機、智能家電、智能門禁RK3326 系列平板電腦、智能音箱、掃地機器人、翻譯筆、家居中控等RK3188 系列平板電腦、工控板、云終端等RK312X系列平板電腦、數碼相框等機器視覺處理器主打安防類市場,匹配下游機器視覺國產替代需求RV1109/RV1126智能攝像頭、智能門禁、行車記彔儀等RV1106/RV1103普惠級智能攝像頭,智能門禁,視頻監控等RV1108系列掃地機器人、行車記錄儀、智能門禁等RV16xx系列結構先模組產品、智能門禁,
109、視覺增強等來源:Contrive Datum Insights,中泰證券研究所55國產廠商加速國產廠商加速NPU端側布局,卡位端側布局,卡位AIoT下游下游。除華為、瑞芯微外,國產SoC廠商加速NPU布局。如晶晨股份,已成功推出超 15 款帶 NPU 算力的芯片,算力覆蓋 1T 到 5T,應用于智能電視場景,具備智能語音交互功能,此外對畫面進行實時優化,提升畫質效果;全志NPU主要應用于下游AIoT行業,如智能家電等,提供家電更強大端側算力實現智能調溫,智能識別等功能。產業趨勢向上,端側產業趨勢向上,端側AI是重要落地場景。是重要落地場景。如AI陪伴:AI陪伴類硬件面向to C下游成長潛力大,
110、能夠滿足對話、早教、兒童互動等場景需求。據Contrive Datum Insights,2030年全球AI玩具市場市場規模達351.1億美元。端側AI產業趨勢向上,核心SoC有望量價齊升。4.9 國產廠商加速端側國產廠商加速端側NPU布局布局來源:相關公司官網,中泰證券研究所564.9 國產廠商加速端側國產廠商加速端側NPU布局布局芯片類型芯片類型CPUNPU算力算力多媒體顯示顯示制程制程高通驍龍81554*A72(2*2.15GHz+2*1.59GHz)7TOPS4K120FPS decoding4K最多支持2屏7nm驍龍8551*A76(2.84GHz)+3*A76(2.41GHz)+4
111、*A55(1.78GHz)7TOPS-7nm驍龍8s Gen31*X4(3.0GHz)+4*A720(2.8GHz)+3*A520(2.0GHz)73TOPS4K60FPS encoding1080p240FPS decoding-4nm驍龍8 Elite2*Prime Core(4.47GHz)+6*Performance Core(3.53GHZ)80TOPS4K60FPS de/encoding4K最多支持16屏3nm瑞芯微RK35884*A76(2.4GHz)+4*A55(1.8GHz)6TOPS8K60FPS decoding8K最多支持4屏8nm8K30FPS encodingRK
112、35764*A73(2.3GHz)+4*A53(2.2GHz)6TOPS4K120FPS decoding4K最多支持3屏8nm4K30FPS encoding晶晨A311D4*A73(-)+2*A53(-)5TOPS4K75FPS decoding-12nm1080P60FPS encodingS928X1*A76(-)+4*A55(-)4TOPS8K60FPS decoding4K最多支持4屏12nm4K60FPS encodingS905X54*A55(2.0GHz)5TOPS1080p60FPS encoding4K60FPS decoding4K6nm紫光展銳T7704*A76(Ma
113、x 2.5GHz)+4*A55(-)4.8TOPS4K60FPS de/encoding-6nmT8200(T765)2*A76(2.3GHz)+6*A55(2.1GHz)8TOPS4K30fps de/encoding4K6nmT9100(T820)2*A76(2,3GHz)+6*A55(2.1GHz)8TOPS4K30FPS de/encoding4K支持多屏6nm海思麒麟9904*A76(2*2.86GHz+2*2.09GHz)+4*A55(1.8GHz)3.5TOPS4K60FPS de/encoding4K最多支持2屏7nm麒麟9000S1*泰山大核(2.62GHz)+3*泰山中核(
114、2.15GHz)+4*泰山小核(1.5GHz)24TOPS-7nm麒麟90201*泰山大核(2.5GHz)+3*泰山中核(2.15GHz)+4*泰山小核(1.6GHz)-4nm富瀚微FH88983*Master Processor(1GHz)+1*Slave Processor(0.8GHz)2.0TOPSH.264/H.265 de/encoding 8MP30FPS-FH8862V10032bit CPU(0.6GHz)0.5TOPSH.265 encoding 8MP30FPS-全志T5278*A55(1.8GHz)2TOPS 4K25FPS encoding 4K60FPS decod
115、ing4K+1080P雙屏異顯55nmT5364*A55(1.6GHz)2TOPS 4K30FPS encoding 4K15FPS decoding1080p60顯示-目目 錄錄一、專為端側一、專為端側AI而生的神經網絡加速器而生的神經網絡加速器二、卡位端側下游,迎需求爆發二、卡位端側下游,迎需求爆發三、產業趨勢:近存計算大趨勢,三、產業趨勢:近存計算大趨勢,3D DRAM+NPU方案有望受益方案有望受益四、海外大廠持續迭代推動端側四、海外大廠持續迭代推動端側AI布局,國產廠商加速布局布局,國產廠商加速布局五、投資建議及風險提示五、投資建議及風險提示5758AI創新趨勢確定,創新趨勢確定,N
116、PU核心卡位產業前景廣闊,建議關注:核心卡位產業前景廣闊,建議關注:1)端側算力/存力:瑞芯微、兆易創新、北京君正等;2)先進封裝相關:長電科技、通富微電、甬矽電子、晶方科技、精智達、拓荊科技、芯源微、華海誠科等。投資建議投資建議59行業需求不及預期的風險:若包括手機、PC、可穿戴等終端產品需求不及預期,則產業鏈相關公司的業績增長可能不及預期。大陸廠商技術進步不及預期、中美貿易摩擦加劇、研報使用的信息更新不及時的風險、報告中各行業相關業績增速測算未剔除負值影響,計算結果存在與實際情況偏差的風險、行業數據或因存在主觀篩選導致與行業實際情況存在偏差風險。風險風險提示提示重要聲明重要聲明中泰證券股份
117、有限公司(以下簡稱“本公司”)具有中國證券監督管理委員會許可的證券投資咨詢業務資格。本報告中泰證券股份有限公司(以下簡稱“本公司”)具有中國證券監督管理委員會許可的證券投資咨詢業務資格。本報告僅供本公司的客戶使用。本公司不會因接收人收到本報告而視其為客戶。僅供本公司的客戶使用。本公司不會因接收人收到本報告而視其為客戶。本報告基于本公司及其研究人員認為可信的公開資料或實地調研資料,反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響。本公司力求但不保證這些信息的準確性和完整性,且本報告中的資料、意見、預測均反映報告初次公開發布時的判斷,可能會隨時調整。本公司對本報告所含信息
118、可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告所載的資料、工具、意見、信息及推測只提供給客戶作參考之用,不構成任何投資、法律、會計或稅務的最終操作建議,本公司不就報告中的內容對最終操作建議做出任何擔保。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。市場有風險,投資需謹慎。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者應注意,在法律允許的情況下,本公司及其本公司的關聯機構可能會持有報告中涉及的公司所發行的證券并進行交易,并可能為這些公司正在提供或爭取提供投資銀行、財務顧問和金融產品等各種金融服務。本公司及其本公司的關聯機構或個人可能在本報告公開發布之前已經使用或了解其中的信息。本報告版權歸“中泰證券股份有限公司”所有。事先未經本公司書面授權,任何機構和個人,不得對本報告進行任何形式的翻版、發布、復制、轉載、刊登、篡改,且不得對本報告進行有悖原意的刪節或修改60