電子行業:端側大模型近存計算定制化存儲研究框架-250219(67頁).pdf

編號:613916 PDF  PPTX 67頁 4.17MB 下載積分:VIP專享
下載報告請您先登錄!

電子行業:端側大模型近存計算定制化存儲研究框架-250219(67頁).pdf

1、1中郵證券2025年2月19日端側大模型近存計算,定制化存儲研究框架行業研究報告中郵證券研究所 電子團隊行業投資評級:強大于市|維持分析師:吳文吉研究助理:翟一夢S1340523050004S13401230400202投資要點請參閱附注免責聲明 大模型賦能端側AI。在人工智能的飛速發展中,大型語言模型(LLMs)以其在自然語言處理(NLP)領域的革命性突破,引領著技術進步的新浪潮。自2017年Transformer架構的誕生以來,OpenAI的GPT系列到Meta的LLaMA系列等一系列模型崛起。這些模型傳統上主要部署在云端服務器上,這種做法雖然保證了強大的計算力支持,卻也帶來了一系列挑戰:

2、網絡延遲、數據安全、持續的聯網要求等。這些問題在一定程度上限制了LLMs的廣泛應用和用戶的即時體驗。正因如此,將LLMs部署在端側設備上的探索應運而生,不僅能夠提供更快的響應速度,還能在保護用戶隱私的同時,實現個性化的用戶體驗。端側AI市場的全球規模正以驚人的速度增長,預計從2022年的152億美元增長到2032年的1436億美元,這一近十倍的增長不僅反映了市場對邊緣AI解決方案的迫切需求,也預示著在制造、汽車、消費品等多個行業中,端側AI技術將發揮越來越重要的作用。存算一體技術的成熟為端側AI大模型的商業化落地提供了技術基礎。作為一種新的計算架構,存算一體的核心是將存儲與計算完全融合,存儲器

3、中疊加計算能力,以新的高效運算架構進行二維和三維矩陣計算,結合后摩爾時代先進封裝、新型存儲器件等技術,能有效克服馮諾依曼架構瓶頸,實現計算能效的數量級提升。存算一體可分為近存計算(PNM)、存內處理(PIM)以及存內計算(CIM)。1)近存計算通過將計算單元靠近內存單元,減少數據傳輸路徑,提升訪存帶寬和效率,適合需要大規模并行處理和優化內存帶寬的應用;2)存內處理將計算單元嵌入存儲芯片中,使存儲器本身具備一定的計算能力,適合數據密集型任務,能夠顯著提升數據處理效率和能效比;3)存內計算將存儲單元和計算單元深度融合,使存儲單元直接參與數據處理,適合高并行性計算和定制化硬件優化,能夠消除數據訪存延

4、遲;在端側AI大模型的商業化落地中,選擇哪種技術取決于具體的應用需求和性能優化目標。NPU賦能端側大模型。智能手機SoC自多年前就開始利用NPU(神經網絡處理器)改善日常用戶體驗,賦能出色影像和音頻,以及增強的連接和安全。不同之處在于,生成式AI用例需求在有著多樣化要求和計算需求的垂直領域不斷增加,這些AI用例面臨兩大共同的關鍵挑戰:1)在功耗和散熱受限的終端上使用通用CPU和GPU服務平臺的不同需求,難以滿足這些AI用例嚴苛且多樣化的計算需求;2)這些AI用例在不斷演進,在功能完全固定的硬件上部署這些用例不切實際。因此,支持處理多樣性的異構計算架構能夠發揮每個處理器的優勢,例如以AI為中心定

5、制設計的NPU,以及CPU和GPU。CPU擅長順序控制和即時性,GPU適合并行數據流處理,NPU擅長標量、向量和張量數學運算,可用于核心AI工作負載。NPU降低部分易編程性以實現更高的峰值性能、能效和面積效率,從而運行機器學習所需的大量乘法、加法和其他運算。通過使用合適的處理器,異構計算能夠實現最佳應用性能、能效和電池續航,賦能全新增強的生成式 AI 體驗。異構計算架構的實現需要先進封裝技術的支持。異構計算架構通過將不同功能的芯片(如CPU、GPU、FPGA、DSP等)或不同制程工藝的芯片集成在一起,實現高性能、高能效和多功能的計算系統,這種架構的實現需要先進的封裝技術來支持。先進封裝技術旨在

6、通過創新的封裝架構和工藝,提升芯片性能、降低功耗、減小尺寸,并優化成本。后文參考SiP與先進封裝技術,將先進封裝分為兩大類梳理:基于XY平面延伸的先進封裝技術,主要通過RDL進行信號的延伸和互連;基于Z軸延伸的先進封裝技術,主要是通過TSV進行信號延伸和互連。資料來源:Jiajun Xu et al.,”On-Device Language Models:A Comprehensive Review”,機器之心,存算一體白皮書(2022年)(中國移動研究院),通過NPU和異構計算開啟終端側生成式AI(Qualcomm),SiP與先進封裝技術,中郵證券研究所3投資要點請參閱附注免責聲明 CUBE

7、技術助力變革邊緣AI計算。華邦電子開發的創新型CUBE(Customized Ultra Bandwidth Element,定制化超高帶寬元件)技術,作為客制化的高寬帶存儲芯片3D TSV DRAM,專門為邊緣AI運算裝置所設計的存儲架構,利用3D堆疊技術并結合異質鍵合技術以提供高帶寬、低功耗、單顆256Mb至8Gb的存儲芯片,并且可供模組制造商和SoC廠商直接部署。CUBE架構:CUBE是將SoC die置上(散熱較好),DRAM die置下,可以省去SoC中的TSV工藝,進而降低了SoC die的尺寸與成本。同時,3D DRAM TSV工藝可以將SoC信號引至外部,使它們成為同一顆芯片,

8、進一步縮減了封裝尺寸。CUBE制造:由聯電推動,聯電負責CMOS晶圓制造和晶圓對晶圓混合封裝技術,華邦電導入客制化CUBE架構,智原提供全面的3D先進封裝一站式服務,以及存儲IP和ASIC小芯片設計服務,日月光則提供晶圓切割、封裝和測試服務,另外還有Cadence負責晶圓對晶圓設計流程,提取TSV特性和簽核認證。CUBE容量及主要特性:1)基于D20工藝(20nm)的CUBE可以設計為1-8Gb/die 容量,基于D16工藝的為16Gb/die 容量。非TSV和TSV堆疊均可用,這為各種應用提供了優化內存帶寬的靈活性。2)CUBE具有出色的能效,在D20工藝中功耗低于1pJ/bit。3)CUB

9、E的IO速度于1K I/O可高達2Gbps,提供從16GB/s 至256GB/s 的總帶寬。通過這種方式,CUBE能夠確保帶來高于行業標準的性能提升,并通過uBump或混合鍵合增強電源和信號完整性。4)基于D20標準的1-8Gb/die 產品,以及靈活的設計和3D堆疊選擇,使得CUBE能夠適應更小的外形尺寸。TSV的引入也進一步提高了性能,改善了信號完整性、電源完整性和散熱性能。TSV技術以及uBump/混合鍵合可降低功耗并節省SoC設計面積,從而實現高效且極具成本效益的解決方案。利用TSV實現高效的3D堆疊,簡化了與先進封裝技術的集成難度。通過減小芯片尺寸,CUBE能以更短的電源路徑以及更緊

10、湊、更輕巧的設計來降低器件成本、提高能效。建議關注:存儲:兆易創新 數字:瑞芯微,寒武紀,國科微,北京君正,全志科技,炬芯科技 IP:芯原股份 封裝:長電科技,通富微電,華天科技,甬矽電子,晶方科技 風險提示:AI端側發展不及預期風險。資料來源:Winbond,問芯,中郵證券研究所4目錄一端側大模型二近存計算三NPU四DRAM技術發展路徑五先進封裝六定制化存儲:華邦CUBE介紹七相關標的5一端側大模型6端側大型語言模型演進請參閱附注免責聲明資料來源:Jiajun Xu et al.,”On-Device Language Models:A Comprehensive Review”,機器之心,

11、中郵證券研究所圖表1:端側大型語言模型演進 在人工智能的浪潮中,端側大型語言模型(On-DeviceLLMs)迅猛發展且具備廣泛的應用前景。自2023年起,隨著參數量低于10B的模型系列如Meta的LLaMA、Microsoft的Phi系列等的涌現,LLMs在邊緣設備上運行的可行性和重要性逐漸被驗證。這些模型不僅在性能上取得了長足的進步,更通過混合專家、量化和壓縮等技術,保持了參數量的優化,為邊緣設備的多樣化應用場景提供了強大支持。進入2024年,新模型的推出愈發 密 集,如 左 圖 所 示,Nexa AI的Octopus系列、Google的Gemma系列等,不僅在文本處理上有所增強,更在多模

12、態能力上展現了新的可能性,如結合文本與圖像等多模態輸入,以適應更復雜的用戶交互需求。7大語言模型架構基礎請參閱附注免責聲明資料來源:Jiajun Xu et al.,”On-Device Language Models:A Comprehensive Review”,小窗幽記機器學習,中郵證券研究所 傳統文本大型語言模型:從Transformer架構發展而來,最初由編碼器和解碼器組成。如今,流行的模型如GPT和LLaMA主要使用僅解碼器架構。GPT模型在自注意力機制后應用層歸一化,而LLaMA在每個子層前應用歸一化以提高訓練穩定性。在注意力機制方面,GPT模型使用標準自注意力機制,允許模型在生

13、成序列時考慮輸入序列中所有位置的信息,而LLaMA使用分組查詢注意力(GQA),優化計算和內存效率?;旌蠈<遥∕oE)概念最早于1991年提出,在現代語言模型預訓練中關鍵。MoE使用稀疏層減少計算資源,包含多個獨立的“專家”網絡和一個門控網絡,以確定token的路由。多模態大型語言模型:依托Transformer強大的學習能力,這些模型可以同時處理文本、圖像、聲音等多種模態。其內部運作機制如下:A)使用標準交叉注意力層在模型內部層對多模態輸入進行深度融合(如MultiModal-GPT);B)使用定制設計的層在模型內部層對多模態輸入進行深度融合(LLaMA-Adapter,MoE-LLaVa)

14、;C)在模型輸入階段對多模態輸入進行早期融合,使用特定模態的編碼器(LLaVa,Qwen-VL);D)在輸入階段進行早期融合,但使用tokenization技術(如分詞器)處理不同模態。在資源有限的設備上部署大型語言模型面臨內存和計算能力的挑戰。為解決這些問題,采用協作和分層模型方法分配計算負載。在資源受限設備上進行訓練的經典方法包括量化感知縮放、稀疏更新、微型訓練引擎(TTE)以及貢獻分析。圖表2:端側大語言模型訓練的經典方法方法介紹量化感知縮放量化感知縮放:通過自動縮放不同位精度張量的梯度來穩定訓練過程,解決量化圖中不同位寬張量梯度尺度不一致的問題,使量化模型的訓練精度與浮點模型相當稀疏更

15、新選擇性地更新網絡中部分層的權重,跳過不太重要的層和子張量的梯度計算,從而減少內存使用和計算成本微型訓練引擎(TTE)包括反向圖中的冗余節點,如凍結權重的梯度節點,并重新排序操作以實現原位更新貢獻分析自動確定稀疏更新方案,即確定哪些參數(權重/偏置)對下游精度貢獻最大,以便在有限內存預算下選擇應更新哪些層或張量部分8端側大語言模型的性能指標請參閱附注免責聲明 在評估設備端大型語言模型的性能時,有幾個關鍵指標需要考慮:延遲、推理速度、內存使用以及存儲和能耗,通過優化這些性能指標,設備端大型語言模型能夠在更廣泛的場景中高效運行,為用戶提供更好的體驗。同時硬件技術的持續進步顯著影響了設備端大語言模型

16、的部署和性能。圖表3:端側大語言模型的性能指標指標介紹延遲是指從用戶輸入請求到系統開始響應所需的時間。通常使用TTFT(首次生成token時間)來衡量。延遲越低,用戶體驗越流暢。推理速度指模型基于已生成的所有token來預測下一個token的速度。由于每個新token都依賴于先前生成的token,因此推理速度對于用戶對話的流暢性至關重要。內存使用使用的RAM/VRAM大小也是語言模型運行的性能指標之一。由于語言模型的運行機制,它們在推理過程中會根據模型參數的大小消耗相應的RAM。例如,在個人辦公筆記本電腦上部署70B參數的模型是不切實際的。對于內存有限的設備,工程師需采用模型壓縮技術來減少內存

17、占用。存儲和能耗模型占用的存儲空間和推理過程中能耗對邊緣設備尤為重要。在大多數情況下,大型語言模型推理會使處理器處于滿負荷工作狀態。如果運行時間過長,將嚴重消耗移動設備的電池。推理過程中的高能耗可能影響設備的電池壽命。例如,一個7B參數模型推理每個token將消耗約0.7J。對于電池容量約為50kJ的iPhone來說,這意味著與模型的對話最多只能持續兩個小時。此外,模型推理引起的設備發熱也是需要解決的問題。圖表4:端側大語言模型硬件介紹硬件介紹GPU憑借其大規模并行能力和高內存帶寬,GPU已成為訓練和加速大型語言模型的標準。NVIDIA的Tensor Cores在Volta架構中引入,并在后續

18、幾代中改進,為混合精度矩陣乘加運算提供了專門的硬件支持,這對基于Transformer的模型至關重要。NVIDIA的A100 GPU,配備80GB HBM2e內存,使得在單個設備上訓練具有數十億參數的模型成為可能??蚣苋鏜egatron-LM中實現的張量并行和流水線并行等技術,允許大語言模型在多個GPU上高效擴展。使用混合精度訓練,特別是FP16和BF16格式,顯著減少了內存占用,并增加了現代GPU上的計算吞吐量。NPU神經處理單元(NPU),也稱為AI加速器,是專為機器學習工作負載設計的專用芯片。Google的張量處理單元(TPU)是一個突出的例子,v4版本每個芯片提供275 TFLOPS的

19、BF16性能。TPU利用脈動陣列架構進行高效的矩陣乘法,特別適合大語言模型中的Transformer層。TPU Pod配置允許擴展到數千個芯片,使得訓練如GPT-3和PaLM等大規模模型成為可能。其他NPU,如華為的昇騰AI處理器和Apple的Neural Engine,也通過量化和剪枝等技術為較小的大語言模型的設備端推理提供加速。FPGA現場可編程門陣列(FPGA)為加速大語言模型提供了靈活的硬件平臺,尤其是在推理方面。最近的研究展示了在FPGA上高效實現Transformer層,利用稀疏矩陣乘法和量化等技術。例如,微軟的Project Brainwave使用Intel Stratix 10

20、 FPGA加速BERT推理,實現了低延遲和高吞吐量。FPGA在能效方面表現出色,可以針對特定模型架構進行優化,使其適合較小大語言模型的邊緣部署。然而,與GPU和ASIC相比,FPGA的計算密度較低,限制了其在訓練大規模模型方面的應用。資料來源:Jiajun Xu et al.,”On-Device Language Models:A Comprehensive Review”,小窗幽記機器學習,中郵證券研究所9邊緣智能的新紀元請參閱附注免責聲明 在人工智能的飛速發展中,大型語言模型(LLMs)以其在自然語言處理(NLP)領域的革命性突破,引領著技術進步的新浪潮。自2017年Transforme

21、r架構的誕生以來,OpenAI的GPT系列到Meta的LLaMA系列等一系列模型崛起。這些模型傳統上主要部署在云端服務器上,這種做法雖然保證了強大的計算力支持,卻也帶來了一系列挑戰:網絡延遲、數據安全、持續的聯網要求等。這些問題在一定程度上限制了LLMs的廣泛應用和用戶的即時體驗。正因如此,將LLMs部署在端側設備上的探索應運而生,不僅能夠提供更快的響應速度,還能在保護用戶隱私的同時,實現個性化的用戶體驗。圖表5:2022 年至 2032 年按終端用戶劃分的端側 AI 全球市場規模(單位:十億美元)隨著技術的不斷進步,端側AI市場的全球規模正以驚人的速度增長,預計從2022年的152億美元增長

22、到2032年的1436億美元,這一近十倍的增長不僅反映了市場對邊緣AI解決方案的迫切需求,也預示著在制造、汽車、消費品等多個行業中,端側AI技術將發揮越來越重要的作用。資料來源:Jiajun Xu et al.,”On-Device Language Models:A Comprehensive Review”,機器之心,中郵證券研究所10端側AI出貨量請參閱附注免責聲明資料來源:Canalys,Gartner,C114通信網,中郵證券研究所 AI手機:在定義AI手機時,有幾項核心硬件能力至關重要。對專用處理器,如ASIC、GPU以及其他零部件進行優化,以高效運行端側AI模型和應用。根據Can

23、alys預測,2024年,全球16%的智能手機出貨為AI手機,到2028年,這一比例將激增至54%。受消費者對AI助手和端側處理等增強功能需求的推動,2023年至2028年間,AI手機市場以63%的年均復合增長率(CAGR)增長。預計這一轉變將先出現在高端機型上,然后逐漸為中端智能手機所采用,反映出端側生成式AI作為更普適性的先進技術滲透整體手機市場的趨勢。AI PC:Gartner將AI PC定義為帶有嵌入式神經處理單元(NPU)的 PC,并以此為基礎進行預測。AI PC包括在Windows on Arm、macOS on Arm和x86 on Windows PC上安裝NPU的PC。根據G

24、artner,2024年AI PC的出貨量將達到4300萬臺,較2023年增長99.8%,2025年全球AI PC出貨量將達到1.14億臺,較2024年增長165.5%,2025年,AI PC出貨量在PC總出貨量中的占比將從2024年的17%增長至43%;預計AI筆記本電腦的需求將高于AI臺式電腦,2025年AI筆記本電腦的出貨量將占到筆記本電腦總出貨量的51%。圖表7:2023-2025年全球AI PC出貨量(千臺)圖表6:2023-2028年全球AI手機出貨量/份額預測數據20,136 40,520 102,421 1,396 2,507 11,804 020,00040,00060,00

25、080,000100,000120,000202320242025AI筆記本電腦AI臺式電腦合計來源:Gartner(2024年9月)來源:Canalys(2024年5月)11二近存計算12 作為一種新的計算架構,存算一體的核心是將存儲與計算完全融合,存儲器中疊加計算能力,以新的高效運算架構進行二維和三維矩陣計算,結合后摩爾時代先進封裝、新型存儲器件等技術,能有效克服馮諾依曼架構瓶頸,實現計算能效的數量級提升。存算一體可分為近存計算(PNM)、存內處理(PIM)以及存內計算(CIM)。存算一體技術分類請參閱附注免責聲明資料來源:存算一體白皮書(2022年)(中國移動研究院),中郵證券研究所圖表

26、8:存算一體技術分類存算一體技術分類介紹圖示近存計算(PNM)近存計算通過芯片封裝和板卡組裝等方式,將存儲單元和計算單元集成,增加訪存帶寬、減少數據搬移,提升整體計算效率。近存計算仍是存算分離架構,本質上計算操作由位于存儲外部、獨立的計算單元完成其技術成熟度較高,主要包括存儲上移、計算下移兩種方式。近存計算已應用于人工智能、大數據、邊緣計算等場景因其基本保持原有計算架構,產品化方案可較快投入使用。存內處理(PIM)存內處理是在芯片制造的過程中,將存和算集成在同一個晶粒(Die)中,使存儲器本身具備了一定算的能力。存內處理本質上仍是存算分離相比于近存計算,“存”與“算”距離更近。當前存內處理方案

27、大多在內存(DRAM)芯片中實現部分數據處理,較為典型的產品形態為HBM-PIM和PIM-DIMM,在DRAM Die中內置處理單元,提供大吞吐低延遲片上處理能力,可應用于語音識別、數據庫索引搜索、基因匹配等場景。存內計算(CIM)存內計算即狹義的存算一體。在芯片設計過程中,不再區分存儲單元和計算單元,真正實現存算融合。存內計算是計算新范式的研究熱點,其本質是利用不同存儲介質的物理特性,對存儲電路進行重新設計使其同時具備計算和存儲能力,直接消除“存”“算”界限,使計算能效達到數量級提升的目標。存內計算最典型的場景是為AI算法提供向量矩陣乘的算子加速,目前已經在神經網絡領域開展大量研究,如卷積神

28、經網絡(Convolutional Neural Network,CNN)、循環神經網絡(Recurrent Neural Network,RNN)等。高帶寬內存方案可計算存儲方案存&算存&算存&算存&算存&算存&算存&算存&算存&算CIM存內計算在存儲原位上實現計算基于DRAM的PIM方案實例13 根據存儲單元與計算單元融合的程度,可以分為近存計算和存內計算兩類。雖然兩類沒有具體的界限,一個簡單的分類如下:(1)近存計算設計,存儲陣列一般無需改動,仍舊只提供數據的訪存功能,而計算模塊通常安放在存儲陣列的附近;(2)存內計算設計,存儲器件可以參與計算操作,這通常意味著存儲陣列(memory c

29、ell array)需要改動來支持計算??梢园凑沾鎯ζ骷に噭澐植煌募夹g路線,成熟存儲工藝包括SRAM、DRAM、Flash等,新型存儲工藝包括ReRAM、MRAM、PCRAM、FeRAM等。近存計算請參閱附注免責聲明資料來源:后摩智能,中郵證券研究所圖表9:存算一體技術路徑按照成熟存儲工藝劃分SRAMDRAMFlash優勢是基于CMOS工藝,可以采用最先進的工藝節點,讀寫速度快;但是有存儲密度低、靜態漏電流高的缺點?;赟RAM的存算技術路線大致有三類:優勢是存儲密度高于SRAM,適合數據中心等處理大容量模型的場景;但與CMOS工藝不兼容,訪存性能和能效不如SRAM,其次設計需要DRAM

30、vendor的支持?;贒RAM的存算技術路線大致有四類:優勢是存儲密度高,但讀寫速度慢、擦寫次數受限明顯,基于Flash的存算技術路線大致有兩類:基于SRAM的近存計算:通常指采用大量片上SRAM作為緩存的計算架構,計算采用數字方式、精度較高、通常面向大算力場景,代表:Graphcore、Tenstorrent等;基于SRAM的數字存內計算:改造SRAM陣列,加入數字計算邏輯單元,在SRAM陣列中支持MAC計算,進一步提升Tensor計算的性能、減少功耗,適合AI大算力場景,代表:后摩智能、蘋芯、TSMC等;基于SRAM的模擬存內計算:改造SRAM宏單元,利用電流、電荷累計等模擬計算方式,支

31、持MAC計算,在低精度計算場景有低功耗的優勢,適合邊緣/物聯網等低算力、低功耗的場景。代表:九天睿芯;基于2D DRAM的近存計算:在DRAM芯片內部加入定制計算單元或者通用處理器,能夠顯著提升訪存帶寬,減少能耗,這種2D設計的好處是性價比高、可擴展性好,但是由于DRAM工藝的限制,能提供的計算密度受限,而且跨芯片間的通信帶寬依舊受限,代表:Upmem、三星、海力士等;基于2.5D DRAM的近存計算:利用2.5D集成技術,高性能計算芯片將HBM與處理單元集成在一起,提供大訪存帶寬,適用于大算力的場景,主要挑戰是價格昂貴,功耗較高,代表:GPU、TPU、寒武紀等?;?D DRAM的近存計算:

32、將計算單元與DRAM進行堆疊,甚至對HBM內部進行改造,把其中部分存儲替換為計算單元,從而進一步提升帶寬并減少訪存功耗,相應的代價是增加了功耗密度、減少了存儲容量等,代表:三星、平頭哥等;基于DRAM的存內計算:修改DRAM的存儲陣列,來支持基本的計算邏輯,因為對DRAM修改較大,主要在學術界提出一些原型設計;基于SSD的近存計算:也稱為計算存儲設備(Computational Storage Drive,CSD),在SSD控制器內/附近加入計算單元或者處理器,主要面向數據中心的大規模數據密集應用(如數據庫,大數據分析等),代表:三星/Xilinx,ScaleFlux,NGD Systems等

33、;基于Flash的模擬存內計算:基于Flash的模擬存內計算功耗低,但是由于寫入速度慢,且高精度(即每個cell存儲多比特)數值寫入有挑戰,適合模型固定的低功耗應用場景,代表:知存科技、Mythic、閃憶科技等;14 近存計算(PNM)主要包括存儲上移、計算下移兩種方式。存儲上移指采用先進封裝技術將存儲器向處理器(如CPU、GPU)靠近,增加計算和存儲間的鏈路數量,提供更高訪存帶寬。典型的產品形態為高帶寬內存(High Bandwidth Memory,HBM),將內存顆粒通過硅通孔(Through Silicon Via,TSV)多層堆疊實現存儲容量提升,同時基于硅中介板的高速接口與計算單元

34、互聯提供高帶寬存儲服務。計算下移指采用板卡集成技術將數據處理能力卸載到存儲器,由近端處理器進行數據處理,有效減少存儲器與遠端處理器的數據搬移開銷。典型的方案為可計算存儲(Computational Storage Drives,CSD),通過在存儲設備引入計算引擎承擔如數據壓縮、搜索、視頻文件轉碼等本地處理,減少遠端處理器(如CPU)的負載?;贖BM和3D封裝的AI芯片由于成本高、功耗高等因素,不適合端側,CUBE作為一款高帶寬、低功耗、緊湊尺寸、極具成本效益,以及可定制化的為近存計算解決方案,可供模組制造商和SoC廠商直接部署,可以滿足端側AI應用日益增長的需求。CUBE:近存計算的一種方

35、案,適合端側AI請參閱附注免責聲明資料來源:存算一體白皮書(2022年)(中國移動研究院),炬芯科技,Winbond,中郵證券研究所圖表10:基于HBM和3D封裝的AI芯片-近存計算圖表11:CUBE 3D堆疊15三NPU16 GPU,即圖形處理器(Graphics Processing Unit),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。根據應用端,可將GPU分為移動端和桌面端,其中桌面端又分為服務器GPU和PC端GPU。從結構看,GPU通常包括圖形顯存控制器、壓縮單元、BIOS、圖

36、形和計算整列、總線接口、電源管理單元、視頻管理單元、顯示界面。GPU的出現使計算機減少了對CPU的依賴,并解放了部分原本CPU的工作。最初,GPU負責渲染2D和3D圖像、動畫和視頻,現已發展成為人工智能領域重要的核心硬件。GPU&GPGPU請參閱附注免責聲明資料來源:與非網,智研咨詢,中郵證券研究所圖表12:GPU行業發展歷程 對GPU通用計算進行深入研究從2003年開始,并出現了GPGPU概念,”GP”表示通用目的(General Purpose),GPGPU一般也被稱為通用圖形處理器或通用 GPU。NVIDIA于2007年率先推出了獨立GPU(獨顯),使其作為“協處理器”在PC和服務器端負

37、責加速計算,承接CPU計算密集部分的工作負載,同時由CPU繼續運行其余程序代碼。在GPU走向通用計算的過程中,統一渲染架構的出現非常關鍵。統一渲染單元是一個高性能的浮點和矢量計算邏輯,它具有通用和可編程屬性。由此,GPU不再有單獨的頂端渲染單元和像素渲染單元,而是由一個通用的渲染單元同時完成頂點和像素渲染任務?;诮y一渲染架構,GPU中的可編程計算單元Shader(著色器)core被挖掘出了更多的使用方法,比如通用計算。GPU從若干專用的固定功能單元(Fixed Function Unit)組成的專用并行處理器,進化為以通用計算資源為主、固定功能單元為輔的架構,這一架構的出現奠定了GPGPU的

38、發展基礎。時間類型相關標準代表產品基本特征80年代圖形顯示CGA,VGAIBM S150光柵生成器80年代末2D加速GD1,DirectFB86C9112D圖元加速90年代初部分3D加速OpenGL(1.1-4.1),DirectX(6.0-11)Glint300sX硬件T&L90年代后期固定管線GeForce256shader功能固定2004-2010年統一渲染G80多功能shader2011年至今通用計算CUDA,OpenCL1.2-2.0TESLA完成與圖形處理無關的科學計算17 雖然都是由GPU架構演進而來,但關注的重點有明顯區別,GPU的核心價值體現在圖形圖像渲染,GPGPU的重點在

39、于算力。GPGPU架構設計時,去掉了為圖形處理而設計的硬件加速單元,保留了GPU的SIMT架構和通用計算單元,使之更適合高性能并行計算,并能使用更高級別的編程語言,在性能、易用性和通用性上更加強大。從技術架構上看,GPU包含多個GPC,每個GPC包含多個TPC,TPC中包含多個SM,SM中包含CUDA核心和張量核心。GPGPU在GPU的基礎上,增加專用向量、張量及矩陣運算指令,強化浮點運算的精度和性能。隨著人工智能大模型的快速發展,算力需求呈現出爆發式增長,傳統的CPU芯片已經無法滿足算力增長的需求,異構加速卡成為當前大模型領域最常用的計算硬件。當前大模型主要是使用的加速卡從架構上可以分為GP

40、GPU和NPU兩大陣營,其中GPGPU以國際大廠NVIDIA為代表,而NPU以國內廠商寒武紀MLU、華為Ascend系列等加速卡為代表。GPU&GPGPU請參閱附注免責聲明資料來源:與非網,CSDN,中郵證券研究所圖表13:人工智能基礎硬件:GPGPU和NPUGPGPUNPUGPGPU源自于圖形計算領域,其發展較早,具有如下特點:NPU最初是專為深度學習和人工智能任務設計的專用處理器。與GPGPU不同,NPU在設計之初便專注于加速神經網絡的推理和訓練過程,其架構特點如下:GPGPU具備強大的并行計算能力,特別適合于處理AI計算中大量的矩陣運算任務。例如,在Transformer模型的訓練和推理

41、過程中,GPGPU能夠顯著加速計算過程,滿足模型對高性能計算的需求;由于發展較早GPGPU在深度學習領域擁有成熟的軟件生態和編譯工具鏈。這些工具和庫為研究人員和工程師提供了豐富的API和框架,極大地方便了模型的開發和優化;GPGPU具有廣泛的泛用性,其不僅適用于AI領域,還可以用于其他計算密集型任務,如大規模數據集的科學和工程計算等,這使得GPGPU具有更廣泛的應用前景和市場需求。專門為加速神經網絡計算而設計的芯片,能夠高效地處理AI計算中的大量神經網絡推理和訓練任務。NPU通過集成大量的乘加單元和加大片內緩存,減少了數據IO瓶頸;由于專注于特定任務,NPU的功耗通常比GPGPU更低,而在特定

42、深度學習任務上的性能表現可能更優;NPU通常配備更多的片上內存(On-Chip Memory),以減少數據傳輸的延遲,提高數據處理效率。18 智能手機SoC自多年前就開始利用NPU(神經網絡處理器)改善日常用戶體驗,賦能出色影像和音頻,以及增強的連接和安全。不同之處在于,生成式AI用例需求在有著多樣化要求和計算需求的垂直領域不斷增加,這些用例可分為按需型用例、持續型用例以及泛在型用例。這些AI用例面臨兩大共同的關鍵挑戰:1)在功耗和散熱受限的終端上使用通用CPU和GPU服務平臺的不同需求,難以滿足這些AI用例嚴苛且多樣化的計算需求;2)這些 AI用例在不斷演進,在功能完全固定的硬件上部署這些用

43、例不切實際。因此,支持處理多樣性的異構計算架構能夠發揮每個處理器的優勢,例如以AI為中心定制設計的NPU,以及CPU和GPU。每個處理器擅長不同的任務:CPU擅長順序控制和即時性,GPU適合并行數據流處理,NPU擅長標量、向量和張量數學運算,可用于核心AI工作負載。CPU和GPU是通用處理器,為靈活性而設計,非常易于編程,“本職工作”是負責運行操作系統、游戲和其他應用等。而這些“本職工作”同時也會隨時限制他們運行AI工作負載的可用容量。NPU專為AI打造,AI就是它的“本職工作”。NPU降低部分易編程性以實現更高的峰值性能、能效和面積效率,從而運行機器學習所需的大量乘法、加法和其他運算。通過使

44、用合適的處理器,異構計算能夠實現最佳應用性能、能效和電池續航,賦能全新增強的生成式 AI 體驗。NPU:賦能端側、邊緣側大模型請參閱附注免責聲明資料來源:通過NPU和異構計算開啟終端側生成式AI(Qualcomm),中郵證券研究所圖表14:生成式AI用例需求生成式AI用例需求介紹按需型按需型用例由用戶觸發,需要立即響應,包括照片/視頻拍攝、圖像生成/編輯、代碼生成、錄音轉錄/摘要和文本(電子郵件、文檔等)創作/摘要。這包括用戶用手機輸入文字創作自定義圖像、在 PC 上生成會議摘要,或在開車時用語音查詢最近的加油站。持續型持續型用例運行時間較長,包括語音識別、游戲和視頻的超級分辨率、視頻通話的音

45、頻視頻處理以及實時翻譯。這包括用戶在海外出差時使用手機作為實時對話翻譯器,以及在 PC 上玩游戲時逐幀運行超級分辨率。泛在型泛在型用例在后臺持續運行,包括始終開啟的預測性A1助手、基于情境感知的 A1個性化和高級文本自動填充。例如手機可以根據用戶的對話內容自動建議與同事的會議、PC端的學習輔導助手則能夠根據用戶的答題情況實時調整學習資料。圖表15:SoC示意圖19 NPU專為實現以低功耗加速AI推理而全新打造,并隨著新AI用例、模型和需求的發展不斷演進。對整體SoC系統設計、內存訪問模式和其他處理器架構運行AI工作負載時的瓶頸進行的分析會深刻影響NPU設計。這些AI工作負載主要包括由標量、向量

46、和張量數學組成的神經網絡層計算,以及隨后的非線性激活函數。2015年,早期的NPU面向音頻和語音AI用例而設計,這些用例基于簡單卷積神經網絡(CNN)并且主要需要標量和向量數學運算。從2016年開始,拍照和視頻AI用例大受歡迎,出現了基于Transformer、循環神經網絡(RNN)、長短期記憶網絡(LSTM)和更高維度的卷積神經網絡(CNN)等更復雜的全新模型。這些工作負載需要大量張量數學運算,因此NPU增加了張量加速器和卷積加速,讓處理效率大幅提升。有了面向張量乘法的大共享內存配置和專用硬件,不僅能夠顯著提高性能,而且可以降低內存帶寬占用和能耗。例如,一個NxN矩陣和另一個NxN 矩陣相乘

47、,需要讀取2N2個值并進行2N3次運算(單個乘法和加法)。在張量加速器中,每次內存訪問的計算操作比率為N:1,而對于標量和向量加速器,這一比率要小得多。2023年,大語言模型(LLM)-比如Llama 2-7B,和大視覺模型(LVM)-比如Stable Diffusion 賦能的生成式AI使得典型模型的大小提升超過了一個數量級。除計算需求之外,還需要重點考慮內存和系統設計,通過減少內存數據傳輸以提高性能和能效。2024年,NPU在多模態大模型中的應用逐漸普及,支持更高效的推理和更自然的交互。隨著AI持續快速演進,必須在性能、功耗、效率、可編程性和面積之間進行權衡取舍。一個專用的定制化設計NPU

48、能夠做出正確的選擇,與AI行業方向保持高度一致。請參閱附注免責聲明資料來源:通過NPU和異構計算開啟終端側生成式AI(Qualcomm),中郵證券研究所圖表16:NPU隨著不斷變化的AI用例和模型持續演進,實現高性能低功耗NPU:賦能端側、邊緣側大模型20 正如前述,大多數生成式 AI用例可分類為按需型、持續型或泛在型用例。按需型應用的關鍵性能指標是時延,因為用戶不想等待。這些應用使用小模型時,CPU通常是正確的選擇。當模型變大(比如數十億參數)時,GPU和NPU往往更合適。電池續航和能效對于持續和泛在型用例至關重要,因此 NPU 是最佳選擇。另一個關鍵區別在于AI模型為內存限制型(即性能表現

49、受限于內存帶寬),還是計算限制型(即性能表現受限于處理器性能)。當前的大語言模型在生成文本時受內存限制,因此需要關注CPU、GPU 或 NPU的內存效率。對于可能受計算或內存限制的大視覺模型,可使用 GPU或NPU,但 NPU 可提供最佳的能效。提供自然語音用戶界面(UI)以提高生產力并增強用戶體驗的個人助手預計將成為一類流行的生成式AI應用。語音識別、大語言模型和語音模型必將以某種并行方式運行,因此理想的情況是在NPU、GPU、CPU和傳感處理器之間分布處理模型。對于PC來說,個人助手預計將始終開啟且無處不在地運行,考慮到性能和能效,應當盡可能在 NPU 上運行。請參閱附注免責聲明資料來源:

50、通過NPU和異構計算開啟終端側生成式AI(Qualcomm),中郵證券研究所圖表17:正如在工具箱中選擇合適的工具,選擇合適的處理器取決于諸多因素異構計算:利用全部處理器支持生成式AI 適合終端側執行的生成式AI模型日益復雜,參數規模也在不斷提升,從10億參數到100億,甚至700億參數。其多模態趨勢日益增強,這意味著模型能夠接受多種輸入形式-比如文本、語音或圖像,并生成多種輸出結果。此外,許多用例需要同時運行多個模型。例如,個人助手應用采用語音輸入輸出,這需要運行一個支持語音生成文本的自動語音識別(ASR)模型、一個支持文本生成文本的大語言模型、和一個作為語音輸出的文本生成語音(TTS)模型

51、。生成式AI工作負載的復雜性、并發性和多樣性需要利用SoC中所有處理器的能力。最佳的解決方案要求:1)跨處理器和處理器內核擴展生成式AI 處理;2)將生成式AI模型和用例映射至一個或多個處理器及內核。選擇合適的處理器取決于眾多因素,包括用例、終端類型、終端層級、開發時間、關鍵性能指標(KPI)和開發者的技術專長。制定決策需要在眾多因素之間進行權衡,針對不同用例的KPI目標可能是功耗、性能、時延或可獲取性。21四DRAM技術發展路徑22 制程技術的持續微縮:制程技術的微縮是DRAM發展的核心方向之一。目前,三星、SK海力士和美光等主要廠商已經進入1Znm(10-14nm)制程,并計劃在未來幾年內

52、進一步縮小至1nm(10nm以下)。2月18日,TechInsights發布最新報告,揭示了DRAM技術的未來發展趨勢:到2027年底,DRAM預計將邁入個位數納米技術節點,如D0a、D0b和D0c世代。這一突破將為AI和數據中心帶來革命性的變革。3D DRAM架構的興起:為了進一步提升存儲密度,3D DRAM架構成為未來的關鍵發展方向。3D DRAM通過垂直堆疊存儲單元,能夠在不增加芯片面積的情況下顯著提高存儲密度。主要技術包括4F垂直溝道晶體管(VCT)、IGZO DRAM單元和3D堆疊DRAM單元等,這些技術將在10nm以下級別實現產品化。長期DRAM技術發展請參閱附注免責聲明資料來源:

53、Next-Generation DRAM 2024 Focus on HBM and 3D DRAM(Yole),TechInsights,中郵證券研究所圖表18:長期DRAM技術路線圖(來源:Yole)23 高性能內存標準的演進:DDR內存技術一直是主流的高性能內存標準,從DDR1到DDR5,每一代都顯著提升了數據傳輸速率、降低了功耗,并優化了性能。作為最新一代標準,DDR5的傳輸速率從4800MT/s起步,相比DDR4的3200MT/s,帶寬提升了50%。與DDR4相比,DDR5具有更高的速度、更大的容量和更低的功耗。此外,DDR5還集成了電源管理IC(PMIC),改善了信號完整性和功耗表

54、現。隨著AI和數據中心對內存帶寬需求的增加,DDR6等下一代標準也在研發中,預計將進一步提升數據傳輸速率和容量。請參閱附注免責聲明資料來源:Next-Generation DRAM 2024 Focus on HBM and 3D DRAM(Yole),Kingston官網,中郵證券研究所長期DRAM技術發展圖表19:DDR DRAM bit 出貨量(來源:Yole)24 高帶寬內存(HBM)的發展:HBM(高帶寬內存)技術通過將多個DRAM裸片堆疊并與GPU封裝在一起,本質上是一種3D DRAM,通過將多層DRAM芯片垂直堆疊,并利用TSV技術實現層間互連,實現了大容量、高位寬的內存組合。H

55、BM技術在高性能計算、人工智能等領域具有顯著優勢。未來,HBM將集成更多創新特性,例如采用新型材料(如IGZO,氧化銦鎵鋅)和更先進的3D堆疊技術(如垂直溝道晶體管VCT和無電容3D DRAM)。此外,HBM的未來發展還包括更高的堆疊層數、更低的功耗以及更廣泛的應用場景。請參閱附注免責聲明資料來源:Next-Generation DRAM 2024 Focus on HBM and 3D DRAM(Yole),華經產業研究院,中郵證券研究所圖表20:HBM市場相關預測(來源:Yole)長期DRAM技術發展25 新型材料與工藝的應用:新型材料如IGZO(氧化銦鎵鋅)和相變材料的應用,將有助于降低

56、DRAM的功耗并提升性能。先進制造工藝,如極紫外光刻(EUV)技術,也將成為實現更高密度DRAM的關鍵。請參閱附注免責聲明資料來源:半導體行業觀察,36Kr,芯師爺,應用材料官網,中郵證券研究所圖表21:DRAM新型材料介紹長期DRAM技術發展新型材料介紹IGZO(銦鎵鋅氧化物)SK海力士正在研究將IGZO作為3D DRAM的新一代溝道材料。IGZO是一種金屬氧化物材料,具有低待機功耗和穩定的物理、化學特性,適合長續航時間的DRAM應用。高k介電材料高k材料(如氧化鉿)通過提高電介質的介電常數,可以在不增加電容器尺寸的情況下提升其電容值,從而緩解由于電介質厚度減少帶來的電容下降問題。此外,高k

57、金屬柵極(HKMG)晶體管正在被引入到先進的DRAM中,以優化性能、功率、面積和成本。低k介電材料(如Black Diamond)應用材料公司推出的Black Diamond是一種低k介電材料,用于減少互連布線所需的晶粒面積,防止金屬線之間的電容耦合,從而降低功率損耗、提高性能和可靠性。新型工藝介紹極紫外光刻(EUV)技術EUV光刻技術通過使用極短波長的光束,能夠在更小的尺度上進行精確的圖案刻蝕,使得更高密度的晶體管布局成為可能。垂直通道晶體管(VCT)三星正在研究垂直通道晶體管技術,將傳統水平方向的通道改為垂直方向,并采用柵極包裹通道的設計。這種設計可以顯著減小器件面積,提高存儲密度和性能。

58、3D堆疊技術3D DRAM通過垂直堆疊存儲單元,顯著提高了存儲密度和性能。例如,NEO半導體推出的3D X-DRAM技術,采用類似于3D NAND的單元陣列結構,通過多層掩模形成垂直堆疊的存儲單元,實現了更高的存儲密度和更低的制造成本。先進刻蝕工藝應用材料公司推出的Draco硬掩模材料和Sym3Y刻蝕系統,通過協同優化提高了刻蝕選擇比,使掩模更薄,并實現了更均勻的刻蝕效果。圖表22:DRAM新型工藝介紹26 定制化與細分市場:隨著應用場景的多樣化,DRAM市場將更加注重定制化解決方案。例如,服務器專用、汽車電子用和消費電子用DRAM將更加豐富多樣。數據安全需求的提升也將推動具備內置加密功能的D

59、RAM成為市場關注的焦點。請參閱附注免責聲明資料來源:半導體產業縱橫,EET,半導體行業觀察,36Kr,Winbond,中郵證券研究所圖表23:DRAM定制化發展案例長期DRAM技術發展應用市場舉例車規級DRAM市場北京君正通過并購ISSI(Integrated Silicon Solution,Inc.)進入車規級存儲芯片市場。ISSI的DRAM產品涵蓋從16M到16G等多種容量規格,能夠滿足工業、消費、通訊等級和車規等級的要求,具備在極端環境下穩定工作以及節能降耗的特點。這種定制化的產品策略使其在汽車電子領域獲得了顯著的市場份額。數據中心與服務器DRAM隨著數據中心對帶寬和性能的需求增長,

60、DRAM廠商正在開發定制化的高性能內存解決方案。例如,SK海力士推出了MCR-DIMM(多路復用器組合等級雙列直插式內存模塊),該技術允許高端服務器DIMM以最低8Gbps的數據速率運行,相比現有DDR5內存(4.8Gbps)帶寬提高了80%。這種定制化產品專門針對數據中心和高性能計算場景,滿足了對高帶寬和低延遲的需求。移動設備與XR應用三星電子正在開發LLW DRAM(低延遲寬I/O DRAM),這種新型DRAM通過增加輸入/輸出端子數量來提升帶寬,具有128GB/s的高性能和低延遲特性。LLW DRAM有望應用于端側AI和下一代XR設備,如蘋果的Vision Pro,取代現有的LPDDR產

61、品。這種定制化DRAM能夠滿足移動設備和XR設備對高性能、低延遲內存的需求。華邦電子開發的創新型CUBE(Customized Ultra Bandwidth Element,定制化超高帶寬元件)技術,旨在大幅提升內存接口帶寬,以滿足邊緣計算平臺上快速增長的AI應用需求。CUBE作為一款高帶寬、低功耗、緊湊尺寸、極具成本效益,以及可定制化的內存解決方案,可以滿足AI應用日益增長的需求,并且可供模組制造商和SoC廠商直接部署。27五先進封裝28封裝技術介紹FOWLP FOWLP(Fan-out Wafer Level Package)是WLP(Wafer Level Package)晶圓級封裝的

62、一種。在WLP技術出現之前,傳統封裝工藝步驟主要在裸片切割分片后進行,先對晶圓(Wafer)進行切割分片(Dicing),然后再封裝(Packaging)成各種形式。WLP于2000年左右問世,有兩種類型:Fan-in(扇入式)和Fan-Out(扇出式),WLP晶圓級封裝和傳統封裝不同,在封裝過程中大部分工藝過程都是對晶圓進行操作,即在晶圓上進行整體封裝(Packaging),封裝完成后再進行切割分片。因為封裝完成后再進行切割分片,因此,封裝后的芯片尺寸和裸芯片幾乎一致,因此也被稱為CSP(Chip Scale Package)或者WLCSP(Wafer Level Chip Scale Pa

63、ckaging),此類封裝符合消費類電子產品輕、小、短、薄化的市場趨勢,寄生電容、電感都比較小,并具有低成本、散熱佳等優點。開始WLP多采用Fan-in型態,可稱之為Fan-in WLP 或者FIWLP,主要應用于面積較小、引腳數量少的芯片。隨著IC工藝的提升,芯片面積縮小,芯片面積內無法容納足夠的引腳數量,因此衍生出Fan-Out WLP 封裝形態,也稱為FOWLP,實現在芯片面積范圍外充分利用RDL做連接,以獲取更多的引腳數。FOWLP,由于要將RDL和Bump引出到裸芯片的外圍,因此需要先進行裸芯片晶圓的劃片分割,然后將獨立的裸芯片重新配置到晶圓工藝中,并以此為基礎,通過批量處理、金屬化

64、布線互連,形成最終封裝?;赬Y平面的先進封裝,主要通過RDL進行信號延伸和互連請參閱附注免責聲明資料來源:SiP與先進封裝技術,中郵證券研究所 先進封裝技術是半導體行業近年來的重要發展方向,旨在通過創新的封裝架構和工藝,提升芯片性能、降低功耗、減小尺寸,并優化成本??梢粤谐龅南冗M封裝相關的名稱至少有幾十種,為了便于區分,我們將先進封裝分為兩大類:基于XY平面延伸的先進封裝技術,主要通過RDL進行信號的延伸和互連;基于Z軸延伸的先進封裝技術,主要是通過TSV進行信號延伸和互連。這里的XY平面指的是Wafer或者芯片的XY平面,這類封裝的鮮明特點就是沒有TSV硅通孔,其信號延伸的手段或技術主要通

65、過RDL層來實現,通常沒有基板,其RDL布線時是依附在芯片的硅體上,或者在附加的Molding上。因為最終的封裝產品沒有基板,所以此類封裝都比較薄,在智能手機中得到廣泛的應用。圖表24:基于XY平面延伸的先進封裝技術FOWLP封裝流程29請參閱附注免責聲明圖表24:基于XY平面延伸的先進封裝技術(接上表)封裝技術介紹FOWLP FOWLP受到很多公司的支持,不同公司有不同的命名方法。無論是采用Fan-in還是Fan-out,WLP晶圓級封裝和PCB的連接都是采用倒裝芯片形式,芯片有源面朝下對著印刷電路板,可以實現最短的電路徑,這也保證了更高的速度和更少的寄生效應。另一方面,由于采用批量封裝,整

66、個晶圓能夠實現一次全部封裝,成本的降低也是晶圓級封裝的另一個推動力量。INFO InFO(Integrated Fan-out)是臺積電(TSMC)于2017年開發出來的FOWLP先進封裝技術,是在FOWLP工藝上的集成,可以理解為多個芯片Fan-Out工藝的集成,而FOWLP則偏重于Fan-Out封裝工藝本身。InFO給予了多個芯片集成的空間,可應用于射頻和無線芯片的封裝,處理器和基帶芯片封裝,圖形處理器和網絡芯片的封裝。蘋果iPhone處理器早年一直是三星來生產,但臺積電卻從蘋果A11 開始,接連獨拿兩代iPhone處理器訂單,關鍵之一,就在于臺積電全新封裝技術InFO,能讓芯片與芯片之間

67、直接互連,減少厚度,騰出寶貴的空間給電池或其他零件使用。蘋果和臺積電的加入改變了FOWLP技術的應用狀況,將使市場開始逐漸接受并普遍應用FOWLP(InFO)封裝技術。提出扇出晶圓級封裝的公司FIWLP,FOWLP和InFO對比示意圖基于XY平面的先進封裝,主要通過RDL進行信號延伸和互連資料來源:SiP與先進封裝技術,中郵證券研究所30請參閱附注免責聲明圖表24:基于XY平面延伸的先進封裝技術(接上表)封裝技術介紹FOPLP FOPLP(Fan-out Panel Level Package)面板級封裝,借鑒了FOWLP的思路和技術,但采用了更大的面板,因此可以量產出數倍于 300 毫米硅晶

68、圓芯片的封裝產品。FOPLP技術是FOWLP 技術的延伸,在更大面積的方形載板上進行Fan-Out制程,因此被稱為 FOPLP 封裝技術,其Panel載板可以采用PCB載板,或者液晶面板用的玻璃載板。目前而言,FOPLP采用了如 2418英寸(610457mm)的PCB載板,其面積大約是 300 mm硅晶圓的4 倍,因而可以簡單的視為在一次的制程下,就可以量產出 4 倍于300 mm硅晶圓的先進封裝產品。和FOWLP工藝相同,FOPLP 技術可以將封裝前后段制程整合進行,可以將其視為一次的封裝制程,因此可大幅降低生產與材料等各項成本。FOPLP采用了PCB上的生產技術進行RDL的生產,其線寬、

69、線間距目前均大于10um,采用SMT設備進行芯片和無源器件的貼裝,由于其面板面積遠大于晶圓面積,因而可以一次封裝更多的產品。相對FOWLP,FOPLP具有更大的成本優勢。目前,全球各大封裝業者包括三星電子、日月光均積極投入到FOPLP 制程技術中。FOWLP和FOPLP比較基于XY平面的先進封裝,主要通過RDL進行信號延伸和互連資料來源:SiP與先進封裝技術,中郵證券研究所31請參閱附注免責聲明圖表24:基于XY平面延伸的先進封裝技術(接上表)封裝技術介紹EMIB EMIB(Embedded Multi-Die Interconnect Bridge)嵌入式多芯片互連橋先進封裝技術是由英特爾提

70、出并積極應用的,和前面描述的3種先進封裝不同,EMIB是屬于有基板類封裝,因為EMIB也沒有TSV,因此也被劃分到基于XY平面延伸的先進封裝技術。EMIB理念跟基于硅中介層的2.5D封裝類似,是通過硅片進行局部高密度互連。與傳統2.5封裝的相比,因為沒有TSV,因此EMIB技術具有正常的封裝良率、無需額外工藝和設計簡單等優點。傳統的SoC芯片,CPU、GPU、內存控制器及IO控制器都只能使用一種工藝制造。采用EMIB技術,CPU、GPU對工藝要求高,可以使用10nm工藝,IO單元、通訊單元可以使用14nm工藝,內存部分則可以使用22nm工藝,采用EMIB先進封裝技術可以把三種不同工藝整合到一起

71、成為一個處理器。和硅中介層(interposer)相比,EMIB硅片面積更微小、更靈活、更經濟。EMIB封裝技術可以根據需要將CPU、IO、GPU甚至FPGA、AI等芯片封裝到一起,能夠把10nm、14nm、22nm等多種不同工藝的芯片封裝在一起做成單一芯片,適應靈活的業務的需求。通過EMIB方式,KBL-G平臺將英特爾酷睿處理器與AMD Radeon RX Vega M GPU整合在一起,同時具備了英特爾處理器強大的計算能力與AMD GPU出色的圖形能力,并且還有著極佳的散熱體驗。EMIB示意圖基于XY平面的先進封裝,主要通過RDL進行信號延伸和互連資料來源:SiP與先進封裝技術,中郵證券研

72、究所32基于Z軸延伸的先進封裝,主要通過TSV進行信號延伸和互連請參閱附注免責聲明圖表25:基于Z軸延伸的先進封裝技術封裝技術介紹CoWoS CoWoS(Chip-on-Wafer-on-Substrate)是臺積電推出的 2.5D封裝技術,CoWoS是把芯片封裝到硅轉接板(中介層)上,并使用硅轉接板上的高密度布線進行互連,然后再安裝在封裝基板上,如下圖所示。CoWoS和前面講到的InFO都來自臺積電,CoWoS有硅轉接板Silicon Interposer,InFO則沒有。CoWoS針對高端市場,連線數量和封裝尺寸都比較大。InFO針對性價比市場,封裝尺寸較小,連線數量也比較少。臺積電201

73、2年就開始量產CoWoS,通過該技術把多顆芯片封裝到一起,通過Silicon Interposer高密度互連,達到了封裝體積小,性能高、功耗低,引腳少的效果。CoWoS示意圖 基于Z軸延伸的先進封裝技術主要是通過TSV進行信號延伸和互連,TSV可分為2.5D TSV和3D TSV,通過TSV技術,可以將多個芯片進行垂直堆疊并互連。在3D TSV技術中,芯片相互靠得很近,所以延遲會更少,此外互連長度的縮短,能減少相關寄生效應,使器件以更高的頻率運行,從而轉化為性能改進,并更大程度的降低成本。TSV技術是三維封裝的關鍵技術,包括半導體集成制造商、集成電路制造代工廠、封裝代工廠、新興技術開發商、大學

74、與研究所以及技術聯盟等研究機構都對 TSV 的工藝進行了多方面的研發。雖然基于Z軸延伸的先進封裝技術主要是通過TSV進行信號延伸和互連,但RDL同樣是不可或缺的,例如,如果上下層芯片的TSV無法對齊時,就需要通過RDL進行局部互連。資料來源:SiP與先進封裝技術,中郵證券研究所33請參閱附注免責聲明圖表25:基于Z軸延伸的先進封裝技術(接上表)封裝技術介紹HBM HBM(High-Bandwidth Memory)高帶寬內存,主要針對高端顯卡市場。HBM使用了3D TSV和2.5D TSV技術,通過3D TSV把多塊內存芯片堆疊在一起,并使用2.5D TSV技術把堆疊內存芯片和GPU在載板上實

75、現互連。HMC HMC(Hybrid Memory Cube)混合存儲立方體,其標準由美光主推,目標市場是高端服務器市場,尤其是針對多處理器架構。HMC使用堆疊的DRAM芯片實現更大的內存帶寬。另外HMC通過3D TSV集成技術把內存控制器(Memory Controller)集成到DRAM堆疊封裝里。對比HBM和HMC,兩者都是將DRAM芯片堆疊并通過3D TSV互連,并且其下方都有邏輯控制芯片,兩者的不同在于:HBM通過Interposer和GPU互連,而HMC則是直接安裝在Substrate上,中間缺少了Interposer和2.5D TSV。在HMC堆疊中,3D TSV的直徑約為56u

76、m,數量超過了2000+,DRAM芯片通常減薄到50um,之間通過20um的MicroBump將芯片相連。以往內存控制器都做在處理器里,所以在高端服務器里,當需要使用大量內存模塊時,內存控制器的設計非常復雜?,F在把內存控制器集成到內存模塊內,則內存控制器的設計大大簡化。此外,HMC使用高速串行接口(SerDes)來實現高速接口,適合處理器和內存距離較遠的情況。HMC示意圖HBM示意圖基于Z軸延伸的先進封裝,主要通過TSV進行信號延伸和互連資料來源:SiP與先進封裝技術,中郵證券研究所34請參閱附注免責聲明圖表25:基于Z軸延伸的先進封裝技術(接上表)封裝技術介紹Wide-IO Wide-IO(

77、Wide Input Output)寬帶輸入輸出技術由三星主推,目前已經到了第二代,可以實現最多512bit的內存接口位寬,內存接口操作頻率最高可達1GHz,總的內存帶寬可達68GBps,是DDR4接口帶寬(34GBps)的兩倍。Wide-IO通過將Memory芯片堆疊在Logic芯片上來實現,Memory芯片通過3D TSV和Logic芯片及基板相連接,如下圖所示。Wide-IO具備TSV架構的垂直堆疊封裝優勢,有助打造兼具速度、容量與功率特性的移動存儲器,滿足智能手機、平板電腦、掌上型游戲機等行動裝置的需求,其主要目標市場是要求低功耗的移動設備。Foveros 除了EMIB之外,Intel

78、還推出了Foveros有源板載技術。在Intel的技術介紹中,Foveros被稱作3D Face to Face Chip Stack for heterogeneous integration,三維面對面異構集成芯片堆疊。EMIB與Foveros的區別在于前者是2D封裝技術,而后者則是3D堆疊封裝技術,與2D的EMIB封裝方式相比,Foveros更適用于小尺寸產品或對內存帶寬要求更高的產品。EMIB和Foveros在芯片性能、功能方面的差異不大,都是將不同規格、不同功能的芯片集成在一起,但在體積、功耗等方面,Foveros3D堆疊的優勢就顯現了出來。Foveros每比特傳輸的數據的功率非常低

79、,Foveros技術要處理的是Bump間距減小、密度增大以及芯片堆疊技術。從Meteor Lake開始,Intel將Foveros技術引入客戶端產品,如第13代酷睿處理器。這些處理器將多種功能(如CPU、GPU、PCH)整合到一個SoC中,利用Foveros實現高性能、高密度和低功耗。Intel計劃到2025年將其3D Foveros封裝產能提升四倍。Foveros示意圖Wide-IO示意圖基于Z軸延伸的先進封裝,主要通過TSV進行信號延伸和互連資料來源:SiP與先進封裝技術,芯智訊,中郵證券研究所35請參閱附注免責聲明圖表25:基于Z軸延伸的先進封裝技術(接上表)封裝技術介紹Co-EMIB(

80、Foveros+EMIB)Co-EMIB(Combined Embedded Multi-die Interconnect Bridge)是英特爾推出的一種先進封裝技術,結合了2.5D的EMIB和3D的Foveros封裝技術,EMIB主要是負責橫向的連結,讓不同內核的芯片像拼圖一樣拼接起來,Foveros則是縱向堆棧,就像蓋高樓一樣,每層樓都可以有完全不同的設計。該技術可以將多個3D Foveros芯片通過EMIB拼接在一起,以制造更大的芯片系統,實現高性能、低功耗和高帶寬。達成Co-EMIB技術的關鍵,是ODI(Omni-Directional Interconnect)全向互連技術。ODI

81、具有兩種不同型態,除了打通不同層的電梯型態連接外,也有連通不同立體結構的天橋,以及層之間的夾層,讓不同的芯片組合可以有極高的彈性。SoIC 臺積電的SoIC(System on Integrated Chips)集成片上系統封裝技術正在快速發展,其3D堆疊技術的凸塊間距預計到2027年將從目前的9m縮小至3m。SoIC是一種創新的多芯片堆棧技術,能對10納米以下的制程進行晶圓級的集成。SoIC-X的特點是沒有凸點(no-Bump)的鍵合結構,因此具有有更高的集成密度和更佳的運行性能。SoIC包含CoW(Chip-on-wafer)和WoW(Wafer-on-wafer)兩種技術形態,從TSMC

82、的描述來看,SoIC就一種WoW晶圓對晶圓或CoW芯片對晶圓的直接鍵合(Bonding)技術,屬于Front-End 3D技術(FE 3D),而前面提到的InFO和CoWoS則屬于Back-End 3D技術(BE 3D)。SoIC和3D IC的制程有些類似,SoIC的關鍵在于實現沒有凸點的接合結構,并且其TSV的密度也比傳統的3D IC密度更高,直接通過極微小的TSV來實現多層芯片之間的互聯。如右圖所示是3D IC和SoIC兩者中TSV密度和Bump尺寸的比較??梢钥闯?,SoIC的TSV密度要遠遠高于3D IC,同時其芯片間的互聯也采用no-Bump的直接鍵合技術,芯片間距更小,集成密度更高。

83、Wide-IO示意圖3D IC和SoIC的比較基于Z軸延伸的先進封裝,主要通過TSV進行信號延伸和互連資料來源:SiP與先進封裝技術,中國出海半導體,中郵證券研究所36請參閱附注免責聲明圖表25:基于Z軸延伸的先進封裝技術(接上表)封裝技術介紹X-Cube X-Cube(eXtended-Cube)是三星宣布推出的一項3D集成技術,可以在較小的空間中容納更多的內存,并縮短單元之間的信號距離。X-Cube用于需要高性能和帶寬的工藝,例如5G,人工智能以及可穿戴或移動設備以及需要高計算能力的應用中。X-Cube利用TSV技術將SRAM堆疊在邏輯單元頂部,可以在更小的空間中容納更多的存儲器。從X-C

84、ube技術展示圖可以看到,不同于以往多個芯片2D平行封裝,X-Cube 3D封裝允許多枚芯片堆疊封裝,使得成品芯片結構更加緊湊。芯片之間采用了TSV技術連接,降低功耗的同時提高了傳輸的速率。該技術應用于最前沿的5G、AI、AR、HPC、移動芯片以及VR等領域。X-Cube技術大幅縮短了芯片間的信號傳輸距離,提高數據傳輸速度,降低功耗,并且還可以按客戶需求定制內存帶寬及密度。目前X-Cube技術已經可以支持7nm及5nm工藝,三星將繼續與全球半導體公司合作,將該技術部署在新一代高性能芯片中。X-Cube示意圖基于Z軸延伸的先進封裝,主要通過TSV進行信號延伸和互連資料來源:SiP與先進封裝技術,

85、中郵證券研究所37六定制化存儲:華邦CUBE介紹38 華邦電子開發的創新型CUBE(Customized Ultra Bandwidth Element,定制化超高帶寬元件)技術,旨在大幅提升內存接口帶寬,以滿足邊緣計算平臺上快速增長的AI應用需求。CUBE作為一款高帶寬、低功耗、緊湊尺寸、極具成本效益,以及可定制化的內存解決方案,可以滿足AI應用日益增長的需求,并且可供模組制造商和SoC廠商直接部署。CUBE:用于邊緣計算且具備可擴展性圖表26:CUBE用于邊緣計算且具備可擴展性請參閱附注免責聲明資料來源:Winbond,中郵證券研究所39 CUBE是客制化的高寬帶存儲芯片3D TSV DR

86、AM,專門為邊緣AI運算裝置所設計的存儲架構,利用3D堆疊技術并結合異質鍵合技術以提供高帶寬、低功耗、單顆256Mb至8Gb的存儲芯片。架構:CUBE是將SoC裸片置上,DRAM裸片置下,可以省去SoC中的TSV工藝,進而降低了SoC裸片的尺寸與成本。同時,3D DRAM TSV工藝可以將SoC信號引至外部,使它們成為同一顆芯片,進一步縮減了封裝尺寸。而因為SoC裸片在上方也可以有比較好的散熱效果。制造:據了解,這個專案當時由聯電推動,目標是鎖定邊緣運算AI應用在穿戴式裝置、家用和工業物聯網、安全和智慧基礎設備等,提供中高階算力、可客制的存儲模組和較低功耗需求的解決方案。聯電負責CMOS晶圓制

87、造和晶圓對晶圓混合封裝技術,華邦電導入客制化CUBE架構,智原提供全面的3D先進封裝一站式服務,以及存儲IP和ASIC小芯片設計服務,日月光則提供晶圓切割、封裝和測試服務,另外還有Cadence負責晶圓對晶圓設計流程,提取TSV特性和簽核認證。CUBE:小號HBM,客制化高寬帶3D TSV DRAM圖表27:HBM和CUBE對比請參閱附注免責聲明資料來源:Winbond,問芯,中郵證券研究所HBM1HBM2HBM2EHBM3HBM3EHBM4CUBEX堆疊層數4層8層8層/12層8層/12層8層/12層12層/16層4層I/O傳輸速率1Gb/s2Gb/s3.6Gb/s6.4Gb/s9.2Gb/

88、s9.2Gb/s2Gb/s整體封裝帶寬128GB/s256GB/s460GB/s819GB/s1.2TB/s2.4TB/s1TB/s封裝容量4GB8GB16GB/24GB16GB/24GB24GB/36GB36/48GB2-4GB數據位寬1024102410241024102420484096功耗6pJ/bit5pJ/bit5pJ/bit4pJ/bit4pJ/bit4pJ/bit1pJ/bit應用數據中心中的AI/機器學習,高性能計算,加速器系統SoC L4緩存,AI-ISP,可穿戴設備40KGD 1.0(SiP)KGD 2.0(3D Stacking)DRAM Die Thickness10

89、0-150um50um(TSV)D2D IO Path Length1000um(wire)40um(ubump)SI/PIGoodBetterPower EfficiencyLP4x35pJ/Byte(D20)8pJ/Byte(D20)B.W.X32 LP4x,17GB/s16-256GB/s請參閱附注免責聲明CUBE:演進至KGD 2.0(3D Stacking)演進:CUBE 的超高帶寬實現和 HBM 比較相似,主要是通過大量并行的 IO 口,以相對較低的頻率達成。大量 IO 連接也決定了 CUBE 需以 3D 堆疊的方式,藉由 TSV(硅過孔)與 SoC die 互聯。所以華邦與主芯片

90、廠之間的合作,也從過去的 KGD 1.0(Known Good Die)升級到了 KGD 2.0。KGD 1.0:指芯片SIP合封,即DRAM和SOC芯片堆疊或并排封裝,這種模式在業界已成熟多年,尤其在中小容量DRAM產品(如1Gbit以下)的封裝中,具有低成本和小占板面積的優勢。KGD 2.0:在KGD 2.0模式下,華邦銷售測試好的wafer(晶圓)給客戶,由客戶選擇封裝廠進行封裝。華邦電子產品總監朱迪指出,未來商業模式中封裝廠的角色將更重要。華邦將繼續專注于提供DRAM wafer,并可能提供更多服務,如測試等。圖表28:華邦電子KGD 2.0演進歷程資料來源:Winbond,與非網,中

91、郵證券研究所41請參閱附注免責聲明資料來源:Max Maxfield,Winbonds CUBE Memory Is Anything but Square,中郵證券研究所 傳統SOC封裝:SoC設計人員以盡可能小的封裝為目標,傳統解決方案(a)是將memory翻轉過來,并將其裝在SoC的正面。反過來,這要求SoC采用TSV(硅通孔),這會消耗寶貴的硅空間。華邦電子CUBE:CUBE(b)技術中,SoC被翻轉并連接到CUBE晶片上,1)SoC芯片置于頂部可提供更好的功耗;2)SoC 芯片中沒有TSV可以降低成本、復雜性和面積;3)CUBE可以包括硅電容器(Si-Cap)等集成無源器件(IPD)

92、,有助于為SoC提供穩定的電源,而無需無數的分立多層陶瓷電容器(MLCC),附加值是CUBE充當DRAM+硅電容+硅中介的角色存在故稱其為“element”。每個內核SRAM單元需要6個晶體管,每個核心DRAM單元只需要1個晶體管。因此,使用相對便宜的20nm工藝,CUBE的密度是采用相對昂貴的14nm工藝實現的SRAM芯片的5倍。圖表29:傳統SOC封裝與華邦電子CUBE技術的比較CUBE:可使用成熟制程,降低成本、減小功耗、獲得高帶寬42請參閱附注免責聲明資料來源:Winbond,中郵證券研究所 CUBE通過增加I/O數量、提高數據速度、支持TSV(可選)、提供散熱優秀的3D架構,解決了傳

93、統內存IC和模組解決方案的痛點。圖表30:當前內存市場存在的問題以及CUBE的主要特性當前內存市場存在的問題CUBE的主要特性為滿足運行AI應用的系統需求,內存芯片和模組需要滿足多方面的性能需求,不僅僅是高帶寬,包括低能耗、合理的尺寸,以及散熱管理。較小尺寸基于D20標準的1-8Gb/die 產品,以及靈活的設計和3D堆疊選擇,使得CUBE能夠適應更小的外形尺寸。TSV的引入也進一步提高了性能,改善了信號完整性、電源完整性和散熱性能?,F有內存解決方案在帶寬方面存在限制,直接影響了系統的性能。IC引腳數量、數據傳輸速率和內存總線寬度等物理特性,在決定接口帶寬方面也起著重要作用。高經濟效益、高帶寬

94、基于D20工藝的CUBE可以設計為1-8Gb/die 容量,基于D16工藝的為16Gb/die 容量。非TSV和TSV堆疊均可用,這為各種應用提供了優化內存帶寬的靈活性。內存芯片和模塊設計師還須應對設計和制造工藝的限制,這些限制會影響所提供的帶寬。此外,隨著速度提升,信號完整性也是一個關鍵問題,因為衰減、干擾和反射等因素也會限制可實現的帶寬。SoC 芯片尺寸減小TSV技術以及uBump/混合鍵合可降低功耗并節省SoC設計面積,從而實現高效且極具成本效益的解決方案。利用TSV實現高效的3D堆疊,簡化了與先進封裝技術的集成難度。通過減小芯片尺寸,CUBE能以更短的電源路徑以及更緊湊、更輕巧的設計來

95、降低器件成本、提高能效。另一方面,增加帶寬可能會造成功耗上升或效率降低,這會給散熱管理帶來很大挑戰,并影響依靠電池供電的邊緣設備運行。此外,一些解決方案會導致內存模塊體積增大,限制其在緊湊型設備中的應用。節省電耗CUBE具有出色的能效,在D20工藝中功耗低于1pJ/bit,能夠延長設備運行時間、優化電源消耗。隨著用戶日益依賴人工智能應用,特別是依賴大模型的應用,帶寬、功耗和外形尺寸等限制將對所有內存技術構成更大挑戰。這些不斷涌現并快速發展的工作負載需要更高效節能的計算能力來滿足需求。性能卓越CUBE的IO速度于1K I/O可高達2Gbps,提供從16GB/s 至256GB/s 的總帶寬。通過這

96、種方式,CUBE能夠確保帶來高于行業標準的性能提升,并通過uBump或混合鍵合增強電源和信號完整性。CUBE:可使用成熟制程,降低成本、減小功耗、獲得高帶寬43請參閱附注免責聲明 華邦的CUBE解決方案主要面向低功耗、高帶寬,以及中低容量的內存需求,適合于邊緣計算和生成式AI等應用。例如在AI-ISP架構中,如下圖所示,灰色部分屬于神經網絡處理器(NPU),如果AI-ISP要實現大算力,需要很大的帶寬,或者是SPRAM。但是在AI-ISP上使用SPRAM的成本非常高,不太可行。如果使用LPDDR4就需要4-8顆,無論是合封還是外置,成本同樣相當高昂。此外,還有可能會用到傳輸速度為4266Mhz

97、的高速LPDDR4,而這樣的產品需要依賴7nm或12nm的先進制程工藝生產。華邦的CUBE解決方案可以允許客戶使用成熟制程(例如28、22nm)的SoC,獲得類似的高速帶寬。華邦的CUBE解決方案可以通過多個I/O(256或者512個)結合28nm SoC提供的500MHz的運行頻率,以此實現更高帶寬,帶寬最高可增至256GB/s。不僅如此,華邦在未來可能會和客戶探討64GB/s帶寬的合作,I/O數可以減少,裸片的尺寸也會進一步縮小。圖表31:華邦的CUBE在AI-ISP架構的替代性解決方案資料來源:電子發燒友,中郵證券研究所CUBE應用:AI-ISP44請參閱附注免責聲明CUBE應用:SoC

98、 L4 Cache 隨著CPU高速運算需求對制程的要求越來越高,可以看到16nm、7nm、5nm到3nm的CPU,SRAM占比(如下圖中紅色部分所示)并不會同比例縮小,因此當需要實現AI運算或者進行高速運算的情況下,就需要把L3的緩存SRAM容量加大,即便可以使用堆疊的方式達到幾百MB,也會導致高昂的成本。華邦的方案是把L3緩存縮小,轉而使用L4緩存的CUBE解決方案。L4緩存之所以被稱作L4,首先是因為它的延遲(Latency)會比L3的稍長。華邦電子次世代內存產品營銷企劃經理曾一峻表示,為了克服這個問題,可以采用多BANK的方式(multibank per channel),來獲得更好的存

99、取效率。第二個方式是將重寫(rewrite)IO分開,這是一個比較類SRAM的方式,縮短運行時間,即以某些比較特殊的架構進行產品修正,會針對客戶的一些特殊需求和應用場景進行定制化調配,縮短L4緩存的延遲。同時,AI模型在某些情況下還是需要外置一定容量的內存,例如在某些邊緣計算的場景下會需要8-12GB的LPDDR4或者是LPDDR5,因此也可以外掛高容量的工作內存(Working Memory)。綜上所述,CUBE可以允許使用成熟制程,以降低SoC成本、減小芯片功耗以及獲得高帶寬。圖表32:華邦的CUBE方案可作為L4級緩存用于邊緣計算資料來源:電子發燒友,中郵證券研究所45 在早前宣布加入U

100、CIe聯盟的時候華邦表示,公司將提供3DCaaS(3D CUBE as a Service)一站式服務平臺,為客戶提供領先的標準化產品解決方案。他們指出,通過此平臺,客戶不僅可以獲得 3D TSV DRAM(又名 CUBE)KGD 內存芯片和針對多芯片設備優化的 2.5D/3D 后段工藝(采用 CoW/WoW技術),還可獲取由華邦的平臺合作伙伴提供的技術咨詢服務。這意味著客戶可輕松獲得完整且全面的 CUBE 產品支持,并享受 Silicon-Cap、interposer 等技術的附加服務。其中,CUBE正是華邦3DCaaS服務的核心之一。請參閱附注免責聲明3DCaaS(3D CUBE as a

101、 Service)一站式服務平臺圖表33:華邦的3DCaaS一站式服務平臺資料來源:Winbond,半導體行業觀察,問芯,中郵證券研究所制造:由聯電推動,目標是鎖定邊緣運算AI應用在穿戴式裝置、家用和工業物聯網、安全和智慧基礎設備等,提供中高階算力、可客制的存儲模組和較低功耗需求的解決方 案。聯 電 負 責CMOS晶圓制造和晶圓對晶圓混合封裝技術,華邦導入客制化CUBE架構,智原提供全面的3D先進封裝一站式服務,以及存儲IP和ASIC小芯片設計服務,日月光則提供晶圓切割、封裝和測試服務,另外還有Cadence負責晶圓對晶圓設計流程,提取TSV特性和簽核認證。46BBCube 3D技術(東京工業

102、大學)圖表35:HBM和BBCube的數據帶寬和TSV I/O功耗比較 在IEEE 2023年超大規模集成電路技術和電路研討會的研究中,東京工業大學Takayuki Ohba教授及其同事提出了一項名為Bumpless Build Cube 3D(BBCube 3D)的技術。這項技術將TSV堆疊內存與XPU垂直集成,可提升帶寬、減少功耗。BBCube 3D可以實現更好的散熱,因為TSV可以將DRAM的熱量傳導到基板上。此外,由于TSV連接較短,無凹凸互連技術可以提高傳輸速度,并且由于TSV間距更細和無凹凸TSV互連的阻抗更低,因此可以增加每個芯片的TSV密度。圖表34:BBCube 3D 的堆疊

103、架構請參閱附注免責聲明資料來源:東京工業大學官網,Chiphell,Mark Tyson,“BBCube 3D Memory Claimed to Offer 4x the Bandwidth of HBM2E“,Takayuki Ohba et al.,”Review of Bumpless Build Cube(BBCube)Using Wafer-on-Wafer(WOW)and Chip-on-Wafer(COW)for Tera-Scale Three-Dimensional Integration(3DI)”,中郵證券研究所47七相關標的48 設立青耘科技推動定制化存儲方案:202

104、4年7月,公司披露與關聯方共同投資設立控股子公司暨關聯交易的公告,公司擬以自有資金出資2,100萬元,占控股子公司北京青耘科技有限公司(標的公司)注冊資本約77.78%。標的公司設立后,公司計劃將其作為針對定制化存儲解決方案等創新性業務的子公司進行孵化,在保證公司現有業務穩定發展的基礎上,投資創新技術領域,可推動公司積極開拓包括定制化存儲方案在內的新技術、新業務、新市場和新產品。根據廣東省智能科學(略)高性能存儲IP采購項目中標結果公告(2024年12月23日),青耘獲得大幅領先的技術得分,整體排名第一。定制化DRAM和標準DRAM的區別:公司有比較齊全的利基存儲工藝平臺,包括NOR Flas

105、h、SLC NANDFlash以及DRAM,在市場開拓的過程中有客戶提出非標準接口存儲器產品的需求。應此需求,公司決定開展定制化方案業務。定制化存儲器產品不是標準接口,也不是通用產品,項目開發周期長,業績釋放的周期也較慢,因此設立青耘科技并組建專門的團隊來服務客戶。與標準接口的存儲品產品相比,定制化存儲產品的接口、容量等取決于客戶對其具體應用的差異化需求。應用場景包括IoT、智能終端等,產品定義來自客戶產品的規格要求,通??蛻魰C合帶寬、功耗等指標進行選擇和定義。與燧原成立光羽芯辰聚焦端側大模型芯片:2024年7月,燧原科技與兆易創新攜手成立了端側大模型芯片公司光羽芯辰,雙方各持股15%,該公

106、司聚焦于解決端側大模型面臨的存儲帶寬和容量問題,通過創新的3D堆疊方案,將燧原的AI技術專長與兆易的DRAM技術深度融合,旨在打造性能卓越、成本更低的定制化AI芯片。兆易創新:積極開拓定制化存儲方案請參閱附注免責聲明資料來源:螞蟻投標網,采招網,兆易創新公告,黑科技研究所,中郵證券研究所圖表36:廣東省智能科學與技術研究院高性能存儲IP采購項目合同包1(高性能存儲IP)采購標的服務范圍存儲晶圓貨物1.DRAM存儲峰值帶寬不小于10TB/s;2.DRAM存儲容量不小于20GB;高性能存儲IP設計+存儲IP集成服務高性能存儲IP設計:1.交付存儲控制器IP代碼需采用可綜合硬件描述語言實現;2.交付

107、存儲接口IP仿真模型,需兼容主流驗證環境;3.交付數據表和應用文檔,包括性能數據、使用說明、集成說明等;4.交付物理設計所需文件(LEF,lib,GDSII等格式文件);5.提供存儲IP集成所需的各類交付文件和文檔;存儲IP集成服務:1.支持存儲IP集成與客戶的SoC項目中;2.及時響應存儲IP集成中的各類技術問題;3.提供存儲IP集成后的DRAM存儲方案;合封好的樣片合封的輸入輸出觸點距不大于5um49 收購蘇州賽芯,增強模擬產品能力。公司擬與石溪資本、合肥國投、合肥產投共同以現金方式收購蘇州賽芯70%的股份,且由于前述各聯合收購方與公司的表決權委托或一致行動安排,公司將在此次交易完成后成為

108、蘇州賽芯的控股股東。此次交易是推動公司模擬戰略的重要舉措,標的公司的主要產品包括鋰電池保護芯片、電源管理芯片等,產品在封裝尺寸、產品性能、產品穩定性、產品成本等方面均具有一定競爭力。通過本次收購,公司可進一步增強模擬團隊實力,提升電池管理相關技術儲備,打開新的成長空間。調整募投項目發展方向及資金投入,前瞻布局LPDDR5和汽車MCU。1)DRAM:公司根據DRAM產品市場需求變化、產品技術迭代變化,擬將募投項目“DRAM芯片研發及產業化項目”的用途從原有開發四種產品DDR3、DDR4、LPDDR3和LPDDR4調整為DDR3、DDR4、LPDDR和LPDDR5,預計LPDDR5產品將在2029

109、年或2030年進入小容量產品市場,與公司募投項目周期相匹配,助力公司未來發展。2)汽車MCU:公司本次新增募投項目“汽車電子芯片研發及產業化項目”,公司將完善MCU產品布局,提高高端MCU產品的研發能力,助力車規MCU行業發展,打破國外廠商壟斷,進一步擴大市場空間。圖表38:2019-2024年1-9月兆易創新毛利率、研發費用率11.34%11.07%9.89%11.51%17.18%14.97%40.52%37.38%46.54%47.66%34.42%39.46%0%10%20%30%40%50%60%2019年度2020年度2021年度2022年度2023年度2024年1-9月研發費用率

110、毛利率請參閱附注免責聲明資料來源:iFind,兆易創新公告,中郵證券研究所圖表37:2019-2024E兆易創新收入情況(億元)32 45 85 81 58 73 01020304050607080902019年度2020年度2021年度2022年度2023年度2024E兆易創新:積極開拓定制化存儲方案50瑞芯微:持續推進NPU助力端側AI請參閱附注免責聲明資料來源:瑞芯微公告,瑞芯微官網,CSDN,中郵證券研究所SoC系列應用特點RK1808集成了初代RKNPU,相比傳統CPU和GPU,在深度學習運算能力上有顯著提升3 TOPs for INT8/300 GOPs for INT16/100

111、 GFLOPs for FP16;支持 OpenCL/OpenVX;支持INT8/INT16/FP16;支持TensorFlow、Caffe、ONNX、Darknet模型RK3399ProNPU up to 3.0TOPS,支持8bit/16bit運算,支持TensorFlow、Caffe模型RV1109第二代NPU,提升了NPU的利用率,適用于機器視覺應用1.2Tops NPU,支持INT8/INT16RV11262.0Tops NPU,支持INT8/INT16RK3566第三代NPU,搭載全新自研架構,適用于通用應用處理采用四核64位Cortex-A55 CPU架構,搭載ARM G52 2

112、EE GPU,1TOPS NPURK3568采用四核64位Cortex-A55 CPU架構,主頻最高2.0GHz,搭載ARM G52 2EE GPU,1TOPS NPURK3588第四代NPU,自研架構再升級,支持多種AI應用采用4核Cortex-A76+4核Cortex-A55的CPU架構,搭載ARM Mali-G610 MC4 GPU,并帶6TOPs自研NPU,接口豐富度高,易于擴展;通常應用在目標方向的產品線中最高端的產品需求RK3576典型應用方向包括iFPD、工業控制及網關、云終端、人臉識別設備、車載中控、商顯采用4核Cortex-A72+4核Cortex-A53的CPU架構,搭載A

113、RM Mali-G52 MC3GPU,帶6TOPs自研NPU,滿足各類人工智能應用,接口豐富度略小于RK3588;適用于中高端更主流檔位的產品需求 持續推進NPU助力端側AI:公司能夠為下游客戶及生態伙伴提供從0.2TOPs到6TOPs的不同算力水平的AIoT芯片,其中RK3588、RK3576帶有6TOPs NPU處理單元,能夠支持端側主流的0.5B-3B參數級別的模型部署,可通過大語言模型實現翻譯、總結、問答等功能,并可實現多模態搜索、識別,有效解決不同AIoT場景的痛點,提升產品使用體驗。當前已有多個領域的客戶基于瑞芯微主控芯片研發在端側支持AI大模型的新硬件,例如教育平板、AI玩具、桌

114、面機器人、算力終端、會議主機等產品。隨著AI大模型在教育、家庭、醫療、工業、農業、服務業等邊緣、端側場景中持續加速落地,未來將賦能更多樣的邊、端側AIoT產品。圖表39:瑞芯微NPU介紹51請參閱附注免責聲明瑞芯微:持續推進NPU助力端側AI 持續迭代自研核心IP:公司堅持“IP芯片化”發展,基于“大音頻、大視頻、大感知、大軟件”的核心技術方向,持續更新迭代自研的NPU、ISP、高清視頻編解碼、視頻輸出處理、視頻后處理等核心IP。在人工智能領域,公司NPU IP從2018年至今歷經多次迭代,對神經網絡模型的支持和計算單元的利用效率不斷提升,能夠高效支持各種主流邊端模型的本地化部署,賦能多場景邊

115、緣側、端側的AIoT產品應用。例如RK3588、RK3576采用高性能CPU和GPU內核并帶有6T NPU處理單元,針對端側主流的2B參數數量級別的模型運行速度能達到每秒生成 10 token 以上,滿足小模型在邊、端側部署的需求。各AIoT算力平臺快速增長:2024年公司實現營業收入約3131.5億元,創歷史新高;實現凈利潤約5.56.3億元,同比增長約307.75%367.06%。第四季度公司延續了此前的成長邏輯,依托AIoT芯片“雁形方陣”布局優勢,在旗艦芯片RK3588帶領下,以多層次、滿足不同需求的產品組合拳,促進公司長期深耕的AIoT多產品線占有率持續提升,尤其是在汽車電子、機器視

116、覺、工業及行業類應用等領域;以RK3588,RK356X,RV11系列為代表的各AIoT算力平臺快速增長。資料來源:iFind,瑞芯微公告,中郵證券研究所22.03%20.20%20.63%26.36%25.11%18.80%40.09%40.78%40.00%37.68%34.25%36.52%-5%0%5%10%15%20%25%30%35%40%45%2019年度2020年度2021年度2022年度2023年度2024年1-9月研發費用率毛利率14.08 18.63 27.19 20.30 21.35 21.60 10.77 32.37 45.90-25.34 5.17 48.47-30

117、-20-1001020304050600510152025302019年度2020年度2021年度2022年度2023年度2024年1-9月營業收入(億元)營業收入同比(%)圖表41:2019-2024年1-9月瑞芯微毛利率、研發費用率圖表40:2019-2024年1-9月瑞芯微收入情況52請參閱附注免責聲明芯原股份:NPU IP賦能端側AI資料來源:iFind,芯原股份公告,中郵證券研究所 基于自有的IP,公司已擁有豐富的面向AI應用的軟硬件芯片定制平臺解決方案,涵蓋如智能手表、AR/VR眼鏡等實時在線(Always on)的輕量化空間計算設備,AI PC、AI手機、智慧汽車、機器人等高效率

118、端側計算設備,以及數據中心/服務器等高性能云側計算設備。在端側,公司積極布局智慧汽車、AR/VR等增量市場,已經為多家國際行業巨頭客戶提供了技術和服務。目前,集成了芯原NPU IP的人工智能(AI)類芯片已在全球范圍內出貨超過1億顆,主要應用于物聯網、可穿戴設備、智慧電視、智慧家居、安防監控、服務器、汽車電子、智能手機、平板電腦、智慧醫療等10個市場領域,在嵌入式AI/NPU領域全球領先,芯原的NPU IP已被82家客戶用于上述市場領域的142款AI芯片中;在AR/VR眼鏡領域,公司已為某知名國際互聯網企業提供AR眼鏡的芯片一站式定制服務,此外還有數家全球領先的AR/VR客戶正在進行合作。圖表

119、42:芯原股份產品13.40 15.06 21.39 26.79 23.38 23.23 26.71 12.40 42.04 25.23-12.73-0.01-20-10010203040500510152025302019年度2020年度22021年度2022年度2023年度2024E營業收入(億元)營業收入同比(%)圖表43:2019-2024E芯原收入情況圖表44:2019-2024年1-9月芯原毛利率、研發費用率31.72%35.25%29.37%29.60%40.51%53.35%40.16%44.96%40.06%41.59%44.75%42.52%-5%5%15%25%35%45

120、%55%65%2019年度2020年度2021年度2022年度2023年度2024年1-9月研發費用率毛利率53請參閱附注免責聲明寒武紀 寒武紀是智能芯片領域全球知名的新興公司,能提供云邊端一體、軟硬件協同、訓練推理融合、具備統一生態的系列化智能芯片產品和平臺化基礎系統軟件。公司掌握的智能處理器指令集、智能處理器微架構、智能芯片編程語言、智能芯片數學庫等核心技術,具有壁壘高、研發難、應用廣等特點,對集成電路行業與人工智能產業具有重要的技術價值、經濟價值和生態價值。AI賦能產業升級。目前,公司已推出的產品體系覆蓋了云端、邊緣端的智能芯片及其加速卡、訓練整機、處理器IP及軟件,可滿足云、邊、端不同

121、規模的人工智能計算需求。公司的智能芯片和處理器產品可高效支持視覺(圖像和視頻的智能處理)、語音處理(語音識別與合成)、自然語言處理以及推薦系統等多樣化的人工智能任務,高效支持視覺、語音和自然語言處理等技術相互協作融合的多模態人工智能任務,廣泛服務于大模型算法公司、服務器廠商、人工智能應用公司,可輻射智慧互聯網、智能制造、智能教育、智慧金融、智能家居、智慧醫療等“智能+”產業。圖表45:核心技術框架資料來源:寒武紀公告,中郵證券研究所54請參閱附注免責聲明國科微:深度布局自研全場景NPU 深度布局自研全場景NPU,實現全系芯片標配NPU,為邊端AI部署提供堅實的基座。公司新一代4K AI視覺處理

122、芯片GK7606V1系列搭載自研AI ISP引擎,內置雙核A55處理器,擁有最高2.5TOPS算力,支持4K編解碼、AI ISP、雙3D降噪、圖像防抖、多目拼接、多光譜融合等核心技術,具有高畫質、低碼率、低內存、低延時以及低功耗等優勢,可用于智能安防、行車記錄儀、無人機圖傳等領域,在客戶端測試中表現搶眼,獲得了國內主流安防企業與方案商的正向反饋。公司的AI ISP技術能夠在極低照度的黑光場景下,對圖像進行全方位的優化和增強,使圖像更加清晰、細膩,色彩更加生動、飽和,演繹出“黑夜如白晝”的科技力量。公司新一代輕智能視覺處理芯片GK7203V1系列產品集成通用型輕算力NPU,支持雙目輸入與AOV,

123、為經濟型、消費級市場提供性價比更優的智能選擇。公司智慧視覺類芯片產品的推出以及新品的發布將有助于公司產品價值及競爭力的提升,以此為契機,公司將深化與運營商、整機廠商以及方案商的合作,與產業鏈攜手一起奔赴未來智能化的數字世界。未來,公司將繼續加強關鍵技術攻關,結合自研的NPU技術,優化邊緣AI戰略布局,加速AI能力在全系芯片的普及化應用。資料來源:iFind,格隆匯,中郵證券研究所21.74%23.78%13.05%13.32%12.43%31.33%46.86%45.56%25.68%18.83%12.44%22.61%-5%5%15%25%35%45%55%2019年度2020年度2021年

124、度2022年度2023年度2024年1-9月研發費用率毛利率5.43 7.31 23.22 36.05 42.31 12.02 35.68 34.64 217.66 55.26 17.38-62.32-100-500501001502002500510152025303540452019年度2020年度2021年度2022年度2023年度2024年1-9月營業收入(億元)營業收入同比(%)圖表47:2019-2024年1-9月國科微毛利率、研發費用率圖表46:2019-2024年1-9月國科微收入情況55請參閱附注免責聲明北京君正:持續進行NPU技術研發,不斷豐富AI算法類型 持續進行NPU技

125、術研發,不斷豐富AI算法類型。公司有算法、NPU等AI技術,應用在公司部分計算芯片產品中。公司的SOC芯片集成了公司自研的關鍵模塊,包括CPU、VPU、NPU、ISP等,不同計算芯片產品有不同的配置。公司擁有自主研發的NPU技術已應用于T40、T41、A1等芯片中,且已量產銷售。安防IPC靜待復蘇。從技術上講,公司堅持核心IP自主研發并不斷優化迭代比如VPU、ISP等,尤其是AI技術,有大量的算法已經有很多客戶采用。公司的NPU自主研發,產品會根據不同的定位配置不同算力水平的NPU。從產品上講,公司不斷推出新品,優化產品布局,T31是前兩年公司根據雙攝的市場需求推出的一個產品,去年發揮了良好的

126、市場推廣作用,同時驅動公司亮眼的增長;T23是公司去年為今年規劃的一個產品,今年還會推出T32,針對雙攝需求的普及進一步優化了性能和性價比。目前公司在中低端的產品布局已經基本到位,未來中高端將是公司重要的發展方向之一。明年公司會推出T42的產品,C200也會逐步到位。存儲芯片靜待拐點。DRAM和Flash表現存在差異,三季度來看,DRAM環比二季度有一點下降,但降幅不大,Flash是增長的。DRAM市場中工業占比較大,所以工業市場需求疲軟對DRAM的影響比較大,Flash方面,硬盤等消費類市場占比較多,所以和DRAM呈現不同的趨勢,價格來看環比均有一點下降。圖表49:2019-2024年1-9

127、月北京君正收入(億元)3 22 53 54 45 32 01020304050602019年度2020年度2021年度2022年度2023年度2024年1-9月圖表48:產品布局資料來源:北京君正官網,iFind,愛集微,中郵證券研究所56請參閱附注免責聲明全志科技:深耕AI智能化應用市場,完善產業布局資料來源:全志科技官網,全志科技公告,iFind,中郵證券研究所整理 緊密契合AI智能化需求,積極推動新品落地。1)在智能工業市場,公司推出基于八核AI機器人芯片MR527,MR527通過端側CPU和NPU算力共同賦能,為視覺感知算法提供更強的AI端側算力,進一步實現了更多障礙物的識別,有效改善

128、了掃地機產品的避障能力,目前搭載該芯片的高端掃地機已對外發布并大規模量產。公司推出智能工業應用的T536和面向視覺AI掃地機機器人的MR536,目前已完成行業頭部客戶的送樣;另外,相關產品均集成3T的NPU算力,滿足AI場景的算力要求,加速工業和機器人的AI智能化;2)在智能汽車電子市場,搭載公司芯片的AR-HUD和智能激光大燈模塊已在國內頭部車企大規模量產,公司還推出了基于車規級八核異構通用計算平臺T527V的產品方案以滿足智能車載娛樂系統、全數字儀表等智能化模塊應用需求;3)在智能終端領域,公司緊跟安卓最新生態的升級迭代,推出A523/A527系列高性能八核架構計算平臺,公司上半年積極推廣

129、,相關產品已穩定量產,并獲得了海內外眾多終端平板品牌的認可和青睞。此外,公司基于智慧屏芯片H713系列,針對單片LCD光機特點進行深度優化和調校,提升了智能投影產品的畫質體驗,獲得終端消費者高度認可,并成為主流的智能投影主控芯片供應商。圖表50:部分產品情況圖表51:2019-2024年Q1-3全志科技營業收入(億元)15 15 21 15 17 17 05101520252019年度2020年度2021年度2022年度2023年度2024年1-9月57請參閱附注免責聲明炬芯科技:三核AI異構芯片賦能端側AI資料來源:炬芯科技招股說明書,炬芯科技公告,iFind,中郵證券研究所3.61 4.1

130、0 5.26 4.15 5.20 4.67 01234562019年度2020年度2021年度2022年度2023年度2024年1-9月 存算一體積極拓展新市場。公司持續關注市場對低功耗、高算力端側設備的需求,在家用音頻領域投入新產品。存算一體AI處理器已導入多家客戶,主要應用于高頻音頻降噪和人聲處理,在音頻降噪之外,擴展至手表等其他AI應用。公司已正式發布最新一代基于SRAM的模數混合存內計算的端側AI音頻芯片,采用CPU+DSP+NPU三核異構架構,可在更低功耗下提供更高算力,同時兼具更低的延遲和增強的安全性,將在音頻應用和端側AI中發揮重要作用。產品共包括三個芯片系列:第一個系列是ATS

131、323X,面向低延遲私有無線音頻領域;第二個系列是ATS286X,面向藍牙AI音頻領域;第三個系列是ATS362X,面向AI DSP處理器領域。目前部分客戶已接近終端產品量產階段。公司基于三核AI異構的芯片采用了更加先進的工藝制程,相較公司現有產品可以在現有功耗水平下提供幾十倍至上百倍的算力提升,而相較于市場上主流的NPU產品能效比可以提升至少三倍以上,相較于主流的DSP產品在功耗方面能降低接近90%?;赟RAM的模數混合存內計算技術路徑下的端側AI音頻芯片平臺主要可以覆蓋語音與音頻、視覺識別以及健康類監測等相關應用場景,并且可實現端側AI解決方案的快速落地。公司也將積極打造AI開發生態,借

132、助炬芯完整工具鏈輕松實現算法的融合,幫助客戶迅速地完成產品落地,助力AIoT產品AI化的不斷演進。圖表52:公司產品圖表53:2019-2024年1-9月公司收入情況(億元)58請參閱附注免責聲明長電科技:提供高端定制化封裝測試解決方案和配套產能資料來源:iFind,長電科技公告,中郵證券研究所 聚焦關鍵應用領域,面向全球市場,提供高端定制化封裝測試解決方案和配套產能。公司聚焦關鍵應用領域,在高算力及對應存儲和連接、AI 端側、功率與能源、汽車和工業等重要領域擁有行業領先的半導體先進封裝技術(如 SiP、WL-CSP、FC、eWLB、PiP、PoP 及 XDFOI系列等)以及混合信號/射頻集成

133、電路測試和資源優勢,并實現規模量產,能夠為市場和 客戶提供量身定制的技術解決方案。在高性能先進封裝領域,公司推出的 XDFOI Chiplet 高密度多維異構集成系列工藝已按計劃進入穩定量產階段。該技術是一種面向Chiplet的極高密度、多扇出型封裝高密度異構集成解決方案,其利用協同設計理念實現了芯片成品集成與測試一體化,涵蓋2D、2.5D、3D集成技術,公司正持續推進其多樣化方案的研發及生產。經過持續研發與客戶產品驗證,公司XDFOI不斷取得突破,已在高性能計算、人工智能、5G、汽車電子等領域應用,為客戶提供了外型更輕薄、數據傳輸速率更快、功率損耗更小的芯片成品制造解決方案,滿足日益增長的終

134、端市場需求。4.12%3.85%3.89%3.89%4.85%4.93%11.18%15.46%18.41%17.04%13.65%12.93%-5%0%5%10%15%20%2019年度2020年度2021年度2022年度2023年度2024年1-9月研發費用率毛利率235.26 264.64 305.02 337.62 296.61 249.78-1.38 12.49 15.26 10.69-12.15 22.26-15-10-505101520250501001502002503003504002019年度2020年度2021年度2022年度2023年度2024年1-9月營業收入(億元)

135、營業收入同比(%)圖表55:2019-2024年1-9月長電科技毛利率、研發費用率圖表54:2019-2024年1-9月長電科技收入情況59請參閱附注免責聲明通富微電:收并購完善先進封裝、專業測試等布局 擬間接持有引線框架供應商AAMI股權加速先進封裝布局。2024年10月16日,公司與領先半導體簽署了合伙份額轉讓協議,公司擬出資2億元受讓領先半導體持有的滁州廣泰146,722,355.58元出資額(占滁州廣泰合伙份額的31.90%),以間接持有引線框架供應商AAMI股權。AAMI專業從事引線框架的設計、研發、生產與銷售。引線框架借助于鍵合材料實現芯片內部電路引出端與外引線的電氣連接,形成電氣

136、回路,起到和外部導線連接的橋梁作用,在大部分半導體產品中均有應用。AAMI在引線框架領域深耕超過40年,是全球前列、國內領先的引線框架供應商,擁有先進的生產工藝、高超的技術水平和強大的研發能力,積累了豐富的產品版圖、技術儲備和客戶資源,在高精密和高可靠性等高端應用市場擁有極強的競爭優勢,產品廣泛應用于汽車、計算、工業、通信及消費類半導體,得到各細分領域頭部客戶的高度認可,與全球頂尖的半導體IDM和封測代工企業建立了穩固的合作關系。收購京隆科技26%股權豐富高端集成電路專業測試布局。2025年2月13日,公司披露關于收購京隆科技(蘇州)有限公司26%股權交割完成的公告,本次交割完成后,公司持有京

137、隆科技26%的股權。京隆科技運營模式和財務狀況良好,其在高端集成電路專業測試領域具備差異化競爭優勢。資料來源:iFind,通富微電公告,中郵證券研究所8.33%6.91%6.72%6.17%5.22%5.60%13.67%15.47%17.16%13.90%11.67%14.33%-5%0%5%10%15%20%2019年度2020年度2021年度2022年度2023年度2024年1-9月研發費用率毛利率82.67 107.69 158.12 214.29 222.69 170.81 14.45 30.27 46.84 35.52 3.92 7.38 010203040500501001502

138、002502019年度2020年度2021年度2022年度2023年度2024年1-9月營業收入(億元)營業收入同比(%)圖表57:2019-2024年1-9月通富微電毛利率、研發費用率圖表56:2019-2024年1-9月通富微電收入情況60請參閱附注免責聲明華天科技:重點研發先進封裝技術和封裝產品 重點研發Fan-Out、FOPLP、汽車電子、存儲器等先進封裝技術和封裝產品。公司的主要生產基地有天水、西安、昆山、南京、韶關、Unisem以及剛投產的江蘇和上海。天水基地以引線框架類產品為主,產品主要涉及驅動電路、電源管理、藍牙、MCU、NOR Flash等。西安基地以基板類和QFN、DFN產

139、品為主,產品主要涉及射頻、MEMS、指紋產品、汽車電子、MCU、電源管理等。南京基地以存儲器、射頻、MEMS等集成電路產品的封裝測試為主。昆山基地封裝晶圓級產品,主要產品包括TSV、Bumping、WLCSP、Fan-Out等。韶關基地以引線框架類封裝產品、顯示器件和顯示模組產品為主。Unisem封裝產品包括引線框架類、基板類以及晶圓級產品,主要以射頻類產品為主。華天科技(江蘇)有限公司、上海華天集成電路有限公司2024年剛投產,華天江蘇封裝的產品有Bumping、WLCSP、Fan-Out等晶圓級產品,華天上海主要開展晶圓測試和成品測試業務。2024年度,在相關電子終端產品需求回暖的影響下,

140、集成電路景氣度回升。受此影響,報告期內,公司訂單增加,產能利用率提高,營業收入較去年同期有顯著增長,從而使得公司經營業績大幅提高。公司2024年預計實現歸母凈利潤5.5-6.3億元,同比增長143.02%178.36%。資料來源:iFind,華天科技公告,中郵證券研究所4.96%5.51%5.37%5.95%6.14%6.37%16.33%21.68%24.61%16.84%8.91%12.29%-5%0%5%10%15%20%25%30%2019年度2020年度2021年度2022年度2023年度2024年1-9月研發費用率毛利率81.03 83.82 120.97 119.06 112.9

141、8 105.31 13.79 3.44 44.32-1.58-5.10 30.52-20-10010203040500204060801001201402019年度2020年度2021年度2022年度2023年度2024年1-9月營業收入(億元)營業收入同比(%)圖表59:2019-2024年1-9月華天科技毛利率、研發費用率圖表58:2019-2024年1-9月華天科技收入情況61甬矽電子:晶圓級封裝和汽車電子等領域產品線持續豐富 AI助力SOC客戶持續成長。在客戶端,公司已成為國內眾多SoC類客戶的第一供應商,伴隨客戶一同成長,另外公司在臺系客戶方面不斷推進,持續貢獻營收。公司堅持服務于中

142、高端客戶,聚焦先進封裝領域,堅持做有門檻的客戶及有門檻的產品。公司目前已經形成以細分領域龍頭設計公司為核心的客戶群,公司現有以及潛在客戶可以分成三類:現有的以大陸地區高成長SoC類設計公司為代表的核心客戶群,公司作為這些客戶的核心供應商,通過不斷承接其新產品和提升市場份額,伴隨其一同成長;海外特別是中國臺灣地區的頭部客戶;除此之外,其他海外客戶如歐美客戶和國內HPC、汽車電子領域的客戶群的增長。盈利能力逐步釋放。公司處于高速成長階段,近兩年整體投資規模較大,短期內確實對利潤產生一定影響。從財務角度看,隨著公司營收規模的增長,規模效應顯現,公司毛利率會逐步上升,費用率會下降。公司目前管理費用率和

143、財務費用率較高,主要是因為二期項目人才招募多、貸款規模大,隨著經營規模的擴大和融資渠道多元化,后續費用率會持續下降。得益于良好的客戶結構和產品結構,公司目前整體毛利率仍然位于行業前列,相信隨著產能爬坡和規模效應的逐漸體現,未來利潤端也會逐漸體現。資料來源:iFind,甬矽電子公告,中郵證券研究所7.73%6.57%4.72%5.59%6.07%6.06%16.94%20.69%32.26%21.91%13.90%17.48%-5%0%5%10%15%20%25%30%35%2019年度2020年度2021年度2022年度2023年度2024年1-9月研發費用率毛利率3.66 7.48 20.5

144、5 21.77 23.91 36.05 848.97 104.50 174.68 5.96 9.82 50.76-100010020030040050060070080090005101520253035402019年度2020年度2021年度2022年度2023年度2024年度營業收入(億元)營業收入同比(%)圖表61:2019-2024年1-9月甬矽電子毛利率、研發費用率圖表60:2019-2024年甬矽電子收入情況請參閱附注免責聲明62晶方科技:基于TSV技術持續布局 海外產能積極布局。依托新加坡子公司國際業務總部,進一步完善公司海外業務中心、研發工程中心與投融資平臺,并積極推進馬來西亞

145、檳城生產與制造基地的籌備與建設,以更好貼近海外客戶需求、鞏固提升海外產業鏈地位,推進工藝創新與項目開發,搭建布局全球化的投融資平臺與生產制造基地。新技術不斷布局。公司作為晶圓級硅通孔(TSV)封裝技術的領先者,聚焦以影像傳感芯片為代表的智能傳感器市場,持續根據產品與市場新需求,對工藝進行創新優化。不斷提升車規STACK封裝技術的工藝水平與量產能力,推進A-CSP工藝的開發拓展,擴大在車載CIS領域的技術領先優勢與生產規模;發揮產能、技術、核心客戶等優勢,進一步鞏固在智能手機、安防監控數碼等應用領域市場占有率;積極布局拓展新的應用市場,大力推進MEMS、Filter、AR/VR等應用領域的商業化

146、應用規模;積極開發晶圓級集成封裝技術,把握產業和市場不斷變化的創新需求。加強微型光學器件設計、研發與制造能力的整合與拓展。發揮Anteryon公司領先的光學設計與開發能力,通過設備投資與團隊引進,持續提升混合鏡頭產品在半導體設備、智能制造、農業自動化市場的業務規模;積極擴大晶圓級光學器件(WLO)制造技術在汽車智能投射領域的量產規模,并加大與TIE1的共同合作,努力推進汽車大燈、信號燈等車用智能交互系統產品的開發進程。資料來源:iFind,晶方科技公告,中郵證券研究所21.99%12.44%12.75%17.45%14.87%13.19%39.03%49.68%52.28%44.15%38.1

147、5%43.60%-5%5%15%25%35%45%55%65%2019年度2020年度2021年度2022年度2023年度2024年1-9月研發費用率毛利率5.60 11.04 14.11 11.06 9.13 8.30-1.04 96.93 27.88-21.62-17.43 21.71-40-2002040608010012002468101214162019年度2020年度2021年度2022年度2023年度2024年1-9月營業收入(億元)營業收入同比(%)圖表63:2019-2024年1-9月晶方科技毛利率、研發費用率圖表62:2019-2024年1-9月晶方科技收入情況請參閱附注免

148、責聲明63請參閱附注免責聲明風險提示資料來源:中郵證券研究所 AI端側發展不及預期風險。64請參閱附注免責聲明感謝您的信任與支持!THANK YOU吳文吉(首席分析師)SAC編號:S1340523050004郵箱:翟一夢(研究助理)SAC編號:S1340123040020郵箱:65請參閱附注免責聲明免責聲明分析師聲明撰寫此報告的分析師(一人或多人)承諾本機構、本人以及財產利害關系人與所評價或推薦的證券無利害關系。本報告所采用的數據均來自我們認為可靠的目前已公開的信息,并通過獨立判斷并得出結論,力求獨立、客觀、公平,報告結論不受本公司其他部門和人員以及證券發行人、上市公司、基金公司、證券資產管理

149、公司、特定客戶等利益相關方的干涉和影響,特此聲明。免責聲明中郵證券有限責任公司(以下簡稱“中郵證券”)具備經中國證監會批準的開展證券投資咨詢業務的資格。本報告信息均來源于公開資料或者我們認為可靠的資料,我們力求但不保證這些信息的準確性和完整性。報告內容僅供參考,報告中的信息或所表達觀點不構成所涉證券買賣的出價或詢價,中郵證券不對因使用本報告的內容而導致的損失承擔任何責任??蛻舨粦员緢蟾嫒〈洫毩⑴袛嗷騼H根據本報告做出決策。中郵證券可發出其它與本報告所載信息不一致或有不同結論的報告。報告所載資料、意見及推測僅反映研究人員于發出本報告當日的判斷,可隨時更改且不予通告。中郵證券及其所屬關聯機構可能

150、會持有報告中提到的公司所發行的證券頭寸并進行交易,也可能為這些公司提供或者計劃提供投資銀行、財務顧問或者其他金融產品等相關服務。證券期貨投資者適當性管理辦法于2017年7月1日起正式實施,本報告僅供中郵證券客戶中的專業投資者使用,若您非中郵證券客戶中的專業投資者,為控制投資風險,請取消接收、訂閱或使用本報告中的任何信息。本公司不會因接收人收到、閱讀或關注本報告中的內容而視其為專業投資者。本報告版權歸中郵證券所有,未經書面許可,任何機構或個人不得存在對本報告以任何形式進行翻版、修改、節選、復制、發布,或對本報告進行改編、匯編等侵犯知識產權的行為,亦不得存在其他有損中郵證券商業性權益的任何情形。如

151、經中郵證券授權后引用發布,需注明出處為中郵證券研究所,且不得對本報告進行有悖原意的引用、刪節或修改。中郵證券對于本申明具有最終解釋權。66請參閱附注免責聲明免責聲明投資評級說明中郵證券研究所公司簡介中郵證券有限責任公司,2002年9月經中國證券監督管理委員會批準設立,注冊資本50.6億元人民幣。中郵證券是中國郵政集團有限公司絕對控股的證券類金融子公司。公司經營范圍包括:證券經紀;證券自營;證券投資咨詢;證券資產管理;融資融券;證券投資基金銷售;證券承銷與保薦;代理銷售金融產品;與證券交易、證券投資活動有關的財務顧問。此外,公司還具有:證券經紀人業務資格;企業債券主承銷資格;滬港通;深港通;利率

152、互換;投資管理人受托管理保險資金;全國銀行間同業拆借;作為主辦券商在全國中小企業股份轉讓系統從事經紀、做市、推薦業務資格等業務資格。公司目前已經在北京、陜西、深圳、山東、江蘇、四川、江西、湖北、湖南、福建、遼寧、吉林、黑龍江、廣東、浙江、貴州、新疆、河南、山西、上海、云南、內蒙古、重慶、天津、河北等地設有分支機構,全國多家分支機構正在建設中。中郵證券緊緊依托中國郵政集團有限公司雄厚的實力,堅持誠信經營,踐行普惠服務,為社會大眾提供全方位專業化的證券投、融資服務,幫助客戶實現價值增長,努力成為客戶認同、社會尊重、股東滿意、員工自豪的優秀企業。北京北京郵箱:地址:北京市東城區前門街道珠市口東大街17號郵編:100050上海上海郵箱:地址:上海市虹口區東大名路1080號大廈3樓郵編:200000深圳深圳郵箱:地址:深圳市福田區濱河大道9023號國通大廈二樓郵編:51804867

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(電子行業:端側大模型近存計算定制化存儲研究框架-250219(67頁).pdf)為本站 (gary) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
相關報告
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站