《電子行業AI系列之存儲:近存計算3DDRAMAI應用星辰大海-250220(64頁).pdf》由會員分享,可在線閱讀,更多相關《電子行業AI系列之存儲:近存計算3DDRAMAI應用星辰大海-250220(64頁).pdf(64頁珍藏版)》請在三個皮匠報告上搜索。
1、證券研究報告證券研究報告報告日期:報告日期:2025年年2月月20日日 【中泰電子中泰電子】AI系列之存儲:系列之存儲:近存計算近存計算3D DRAM,AI應用星辰大海應用星辰大海1分析師:分析師:王芳王芳 S0740521120002楊旭楊旭 S0740521120001目目 錄錄一、產業趨勢:一、產業趨勢:DRAM從從2D到到3D,存算一體趨勢確立,存算一體趨勢確立二、封裝級二、封裝級3D DRAM:近存計算,高帶寬、低功耗契合:近存計算,高帶寬、低功耗契合AI場景需求場景需求三、晶圓級三、晶圓級3D DRAM:突破制程瓶頸,目前多種方案探索中:突破制程瓶頸,目前多種方案探索中四、四、投資
2、建議投資建議五、五、風險提示風險提示2gZjVnMmOmPnRnQaQaO9PtRrRoMmRlOrRsQeRmOmN9PnNwPMYqQuMxNnQtP目目 錄錄一、產業趨勢:一、產業趨勢:DRAM從從2D到到3D,存算一體趨勢確立,存算一體趨勢確立1.1 2D DRAM制程瓶頸凸顯,制程瓶頸凸顯,3D是大趨勢是大趨勢1.2 存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向3來源:AMAT官網、Semianalysis、36氪,中泰證券研究所4DRAM是易失性存儲器,與是易失性存儲器,與CPU/GPU等計算芯片直接交互,可以快速存儲每秒執行數十億次計算
3、所需的信息。等計算芯片直接交互,可以快速存儲每秒執行數十億次計算所需的信息。DRAM三構成:三構成:1)存儲單元(Cell),占據50%-55%面積:存儲單元是DRAM芯片存儲數據的最小單元,每個單元存儲1bit數據(二進制0或1),單顆DRAM芯片的容量拓展主要是通過增加存儲單元的數量實現(即提高單位面積下的存儲單元密度),存儲單元基本占據了DRAM芯片50-55%的面積,是DRAM芯片最核心的組成部分。1個存儲單元由1個晶體管和1個電容器構成(1T1C結構),晶體管控制對存儲單元的訪問,電容器存儲電荷來表示二進制0或1。2)外圍邏輯電路(Core),占據25-30%面積:由邏輯晶體管和連接
4、 DRAM 各個部分的線路組成,從存儲單元中選擇所需存儲單元,并讀取、寫入數據,包括感應放大器(Sense Amplifiers)和字線解碼器(Word Line Decoders)等結構,如感應放大器被附加在每個位線的末端,檢測從存儲單元讀取非常小的電荷,并將信號放大信號,強化后的信號可在系統其他地方讀取為二進制1或0。3)周邊線路(Peripheral),占據20%左右面積:由控制線路和輸出線路構成??刂凭€路主要根據外部輸入的指令、地址,讓DRAM內部工作。輸出/輸入線路負責數據的輸入(寫入)、輸出(讀?。?。DRAM工作原理:工作原理:存儲電容器會泄漏電荷,因此需要頻繁進行刷新(大約每 3
5、2 毫秒一次),以維持存儲的數據。每次刷新都會讀取存儲單元的內容,將位線上的電壓提升至理想水平,并讓刷新后的值流回電容器,刷新完全在 DRAM 芯片內部進行,沒有數據流入或流出芯片。這雖最大限度地減少了浪費的電量,但刷新仍會占據 DRAM 總功耗的 10%以上。圖表:圖表:DRAM結構圖結構圖電容器晶體管DRAM模組 DRAM芯片1.1 2D DRAM制程瓶頸凸顯,制程瓶頸凸顯,3D是大趨勢是大趨勢圖表:圖表:DRAM三個構成的占比三個構成的占比1.1 2D DRAM制程瓶頸凸顯,制程瓶頸凸顯,3D是大趨勢是大趨勢5來源:Techinsights、AI IMPACTS,中泰證券研究所容量、帶寬
6、和功耗是容量、帶寬和功耗是DRAM三大關鍵參數。三大關鍵參數。1)容量:指存儲數據的多少,存儲容量最小單位是1bit,即表示存儲單個二進制(0或1),另外有B、KB、MB、GB、TB等存儲容量單位,關系如下:1B(Byte,B)=8bit,1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB。單位面積下,存儲單元數量越多、存儲容量越高,制程是決定單位面積下存儲容量的主導因素。2)帶寬:指每秒鐘的數據吞吐量,單位TB/s、GB/s,內存帶寬=最大時鐘速頻率(MHz)總線寬度(bits)每時鐘數據段數量/8。3)功耗:數據的傳輸需要的功耗,功耗越低越好。DRAM制程
7、微縮,帶來制程微縮,帶來DRAM成本下降和容量密度提升。成本下降和容量密度提升。圖表:圖表:DRAM單位容量價格處于下降趨勢單位容量價格處于下降趨勢圖表:圖表:DRAM通過制程迭代提升容量密度通過制程迭代提升容量密度來源:IC Knowledge、IEEE、Techinsights,中泰證券研究所6圖表:圖表:2D DRAM的制程微縮和單位密度提升速度放緩的制程微縮和單位密度提升速度放緩圖表:圖表:DRAM 存儲單元面積(存儲單元面積(Cell Szie)微縮放緩微縮放緩1.1 2D DRAM制程瓶頸凸顯,制程瓶頸凸顯,3D是大趨勢是大趨勢圖表:圖表:DRAM總位元出貨量總位元出貨量/DRAM
8、芯片出貨量芯片出貨量圖表:圖表:DRAM容量升級的速率放緩容量升級的速率放緩DRAM此前符合摩爾定律,后面摩爾定律失效,制程微縮放緩。此前符合摩爾定律,后面摩爾定律失效,制程微縮放緩。DRAM通過制程微縮(晶體管、電容器、邏輯電路等微縮)實現單位面積內更多的存儲單元,即實現單位面積下更高存儲容量。1970-2005年,DRAM以每顆芯片的容量每3年增加4倍的速度升級,后續迭代速度不斷放緩,帶來單位密度提升速度放緩,存儲單元微縮放緩。1.1 2D DRAM制程瓶頸凸顯,制程瓶頸凸顯,3D是大趨勢是大趨勢7來源:Techinsights,Semiconductor degest,中泰證券研究所DR
9、AM制程微縮難度大,目前制程迭代逼近制程微縮難度大,目前制程迭代逼近10nm(1nm),必須使用),必須使用EUV光刻機。光刻機。目前DRAM最新量產制程是1b,10-12nm左右:DRAM制程迭代速度放緩,10nm級別(10-20nm),使用1x、1y、1z、1a、1b和1c指代,另外美光使用羅馬字母1、1、1對應1a、1b和1c。目前三星、海力士和美光三大家目前量產制程是1b(1)制程,近兩年將開始迭代1c(1)制程。EUV的使用:EUV是目前光刻機的天花板,2020年三星在1z節點開始首次使用EUV光刻機,后續的制程沿用EUV,2021年海力士在1a節點開始使用EUV光刻機,后續制程繼續
10、沿用,美光在1c(1)節點將使用EUV。圖表:圖表:DRAM制程迭代制程迭代圖表:三大家圖表:三大家EUV光刻機使用情況光刻機使用情況節點節點三星三星海力士海力士美光美光1x16-19nmTest vehicle1y14-16nm1z12-14nm1a(1)約13nm1b(1)10-12nm1c(1)約10nm,1的增強版來源:semianalysis、AMAT官網,中泰證券研究所81.1 2D DRAM制程瓶頸凸顯,制程瓶頸凸顯,3D是大趨勢是大趨勢DRAM制程微縮難度:微縮電容器和感應放大器面臨挑戰。制程微縮難度:微縮電容器和感應放大器面臨挑戰。三星在1z、海力士在1a工藝中采用了極紫外光
11、刻(EUV),也未能顯著提升密度。它們面臨的主要挑戰在于電容器與感應放大器。1)電容器:電容器微縮,電容漏電風險、干擾問題變嚴重。DRAM依賴電容器來存儲電荷,但當電容器變得更小,電荷泄漏的風險增加,從而導致數據的可靠性下降。為了解決這個問題,工程師們需要開發新的材料和設計方法,以減少漏電率并提高數據保持能力。另一個重大挑戰是干擾問題。在高集成度的芯片上,不同存儲單元之間的電場和磁場干擾變得更加頻繁,這可能導致數據錯誤或損壞。為了應對這一問題,需要更加復雜的錯誤校正機制和抗干擾設計,這進一步增加了DRAM開發的難度。電容器制作難度極大。首先,電容器的圖案化要求非常高,因為孔必須緊密排列,且具有
12、極為良好的臨界尺寸和覆蓋控制,以便接觸下方的訪問晶體管并避免出現橋接或其他缺陷。電容器與晶體管極為相似,已縮小至納米級寬度,不過其縱橫比也非常大,大約 1000 納米高,而直徑卻只有數十納米 縱橫比接近 100:1,因此蝕刻出又直又窄的孔輪廓極為困難。此外,還需要更厚的硬掩模來實現更深的蝕刻,因為更厚的掩模需要更厚的光刻膠。接下來,必須在整個孔輪廓的壁上沉積幾納米厚的多個無缺陷層,以形成電容器。另外電容器即使微縮,電容器也需要存儲一定量的電荷,如果電荷過少,“1”和“0”的區別就會變得模糊,會對存儲功能產生影響。2)感應放大器:必須進行面積縮放以匹配位線的縮小,感應放大器變得更不敏感,并且隨著
13、尺寸變小而更容易出現變化和泄漏。同時,較小的電容器存儲的電荷較少,讀取變得更加困難。圖表:圖表:DRAM存儲單元結構存儲單元結構來源:三星、ASML 2018 Presentation,中泰證券研究所91.1 2D DRAM制程瓶頸凸顯,制程瓶頸凸顯,3D是大趨勢是大趨勢NAND存儲單元結構簡單,已率先實現晶圓級存儲單元結構簡單,已率先實現晶圓級3D結構,通過層數堆疊來提升容量。結構,通過層數堆疊來提升容量。NAND存儲單元僅由一個晶體管構成,相對DRAM、結構簡單。NAND從2014年開始進行晶圓級層面的從2D到3D的轉換,成功解決了2D NAND在增加容量的同時性能降低的問題,實現容量、速
14、度、能效及可靠性等全方位提升。NAND的2D平面制程微縮基本停留在2017年的14-15nm左右,后續的迭代升級是層數堆疊。2019年,3D NAND的滲透率為72.6%,已遠超2D NAND,預計2025年3D NAND將占閃存總市場的97.5%。2024年11月21日海力士宣布321層NAND樣品,自2025年上半年開始交貨,此前海力士量產產品為238層。DRAM存儲單元包含垂直方向的電容器,制程微縮難度高于存儲單元包含垂直方向的電容器,制程微縮難度高于NAND,同時晶圓級,同時晶圓級3D需要存儲單元結構創新,難度大。需要存儲單元結構創新,難度大。DRAM存儲單元由1個晶體管和1個電容器構
15、成,比NAND的存儲單元結構更復雜,電容器增加了制程微縮難度,因此在2D NAND還在通過制程微縮時,DRAM的制程就落后于NAND,如2015年2D NAND進入17-18nm,而DRAM在20-30nm。DRAM具有較大的垂直方向電容器,電容器很高且難以分層堆疊,因此需要采用將電容器水平放置等創新的存儲單元結構或者采用無電容DRAM來實現晶圓級3D,制造難度大幅提升。圖表:圖表:DRAM、NAND和和Logic的制程迭代的制程迭代圖表:圖表:DRAM和和NAND的存儲的存儲單元結構單元結構來源:NEO,中泰證券研究所10DRAM 3D化趨勢已現,封裝級先行,晶圓級在研發階段?;厔菀熏F,封
16、裝級先行,晶圓級在研發階段。3D DRAM分為封裝級和晶圓級,封裝級3D DRAM屬于近存計算,突破內存墻瓶頸,已商業化量產,晶圓級3D DRAM突破2D DRAM制程微縮瓶頸,難度更大,目前仍處于研發階段。封裝級3D DRAM:指通過封裝工藝將多顆2D DRAM Die進行3D堆疊,HBM目前最高堆疊12層DRAM Die,每層Die之間通過TSV/Microbump等先進封裝工藝實現電氣連接,最后實現在單位面積下更高的存儲容量密度。然后將封裝級3D DRAM繼續通過封裝工藝與邏輯芯片封裝在一起,實現近存計算,性能上實現更高的帶寬、更低的功耗,緩解內存墻問題,契合AI芯片要求。典型產品如HB
17、M、華邦CUBE和WoW 3D堆疊DRAM。晶圓級3D DRAM:在晶圓結構層面實現3D結構,突破2D DRAM制程微縮瓶頸、實現更高容量密度,目前各家廠家處于探索階段。1.1 2D DRAM制程瓶頸凸顯,制程瓶頸凸顯,3D是大趨勢是大趨勢圖表:圖表:封裝級別封裝級別3D DRAM的分類的分類圖表:封裝級圖表:封裝級3D DRAM:HBM結構圖結構圖圖表:圖表:晶圓級晶圓級3D DRAM結構圖結構圖與計算芯片的封裝形式與計算芯片的封裝形式芯片之間的連接芯片之間的連接封裝級3D DRAMHBM2.5DTSV+MicrobumpCUBE3DTSV+MicrobumpWOW 3D堆疊DRAM3DTS
18、V+混合鍵合來源:elecfans,智東西,中泰證券研究所111.2存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向存儲速度滯后于計算器速度,存儲速度滯后于計算器速度,AI時代存儲帶寬制約算力芯片性能發揮。時代存儲帶寬制約算力芯片性能發揮。在過去二十年,處理器性能以每年大約60%的速度提升,內存性能的提升速度每年只有9%左右。結果長期下來,不均衡的發展速度造成了當前的存儲速度嚴重滯后于處理器的計算速度。雖然多核(例如CPU)/眾核(例如GPU)并行加速技術提升算力,AI時代處理器計算技術能力大幅提升,同時大型 Transformer 模型的參數數量呈指數
19、級增長,每兩年增加 410 倍,而單個 GPU 內存僅以每兩年 2 倍的速度擴展。從峰值算力看,峰值算力在過去 20 年中增加了 60000 倍,而 DRAM帶寬增加了100 倍,存儲和計算的互連帶寬增加了 30 倍。隨著近幾年云計算和AI應用發展,面對計算中心的數據洪流,存算分離架構下數據搬運慢、搬運能耗大等問題成為了計算的關鍵瓶頸,“存儲墻”問題更加顯著。圖表:處理器和存儲器速度失衡圖表:處理器和存儲器速度失衡圖表:圖表:19602020年人工智能計算復雜度變化年人工智能計算復雜度變化來源:Medium,中泰證券研究所121.2存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近
20、存計算和存內處理是重要方向圖表:不同代的內存帶寬以及峰值算力圖表:不同代的內存帶寬以及峰值算力圖表:模型參數量增長趨勢(紅線)圖表:模型參數量增長趨勢(紅線)VS 單單GPU內存擴展趨勢(綠線)內存擴展趨勢(綠線)來源:知存科技等,中泰證券研究所131.2存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向傳統存算分離架構帶來存儲墻問題。傳統存算分離架構帶來存儲墻問題。上世紀40年代開始計算機使用馮諾伊曼架構存算分離,即處理器和存儲器相互獨立,兩者通過總線連接。1)存算分離,數據存算間傳輸造成延遲。處理器從外部存儲中調取數據,計算完成后再傳輸到內存中,一來一
21、回都會造成延遲。2)數據在多級存儲間傳輸。為了提升速度,馮諾依曼架構對存儲進行分級,越往外的存儲介質密度越大、速度越慢,越往內的存儲密度越小,速度越快,因此數據需要在多級存儲之間搬運,能耗大。通常第一級存儲是速度最快、容量低,主要是SRAM片上緩存,第二級是傳統DDR。3)存儲制程推進慢于邏輯。目前DRAM制程最先進仍在10-15nm左右,而邏輯制程已進入3nm,主要是因存儲器制程縮小難度更大。圖表:圖表:數據的傳輸速度慢數據的傳輸速度慢圖表:圖表:數據的傳輸功耗大數據的傳輸功耗大圖表:圖表:存算分離架構存算分離架構來源:中國移動研究院,中泰證券研究所14存算一體可有效克服馮諾依曼架構,可有效
22、提升帶寬、緩解存儲墻問題,迎合存算一體可有效克服馮諾依曼架構,可有效提升帶寬、緩解存儲墻問題,迎合AI時代需求。時代需求。存算一體是一種新的架構,其核心理念是將計算和存儲融合,降低“存儲墻”問題,實現計算能效的數量級提升。從廣義而言,存算一體可分為三種:近存計算(PNM)、存內處理(PIM)、存內計算(CIM),狹義的存算一體主要指存內計算。目前近存計算和存內處理已開始商業化應用,但存內計算因設計等難度大,目前暫未商業化大規模使用。近存計算:存算分離,通過封裝拉近存儲和計算單元的距離。存內處理:在存儲單元內加了部分計算單元,存儲芯片有部分計算能力。存內計算:真正的存算一體,存儲單元和計算單位完
23、全融合。1.2存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向圖表:存算一體三個類別圖表:存算一體三個類別來源:Rambus,中泰證券研究所15近存計算:近存計算:通過封裝工藝拉近存儲單元和計算單元距離,目前已大規模使用通過封裝工藝拉近存儲單元和計算單元距離,目前已大規模使用。近存計算不改變計算單元和存儲單元本身設計功能,通過采用先進的封裝方式及合理的硬件布局和結構優化,通過芯片封裝和板卡組裝的方式,將存儲和計算芯片封裝在一起,使用系統級封裝工藝,增加存儲和計算芯片的信號連接通路,增強二者間帶寬。近存計算本質上屬于傳統馮諾依曼的存算分離架構,通過拉近存儲
24、單元和計算單元的距離,對“存儲墻”進行優化。典型產品:HBM、3D堆疊DRAM和華邦CUBE產品均屬于近存計算。圖表:圖表:HBM是近存計算是近存計算1.2存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向圖表:圖表:HBM VS GDDR來源:三星、Bussiness Korea、芯語、財聯社,中泰證券研究所16存內處理存內處理:存儲器具備一定計算能力,目前三星海力士已推出相關產品,但未大規模使用,存儲器具備一定計算能力,目前三星海力士已推出相關產品,但未大規模使用,LPDDR6-PIM新標準制定中。新標準制定中。目前的存內處理方案主要通過在內存(DRA
25、M)芯片中實現部分數據處理,芯片制造過程中,將存儲和計算單元集成在同一顆die上,使得存儲器本身具備一定計算能力,與近存計算相比,“存”與“算”之間的距離更為緊密。2021年三星推出HBM2-PIM,2022年海力士推出GDDR6-PIM,但未大規模使用。根據報道,目前三星電子和 SK 海力士正在合作標準化 LPDDR6-PIM 內存產品。圖表:從存算分離到存內處理圖表:從存算分離到存內處理1.2存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向圖表:三星圖表:三星HBM-PIM來源:芯語等,中泰證券研究所17存內計算:真正的存算一體,將存儲和計算單元完全
26、融合,計算存內計算:真正的存算一體,將存儲和計算單元完全融合,計算效能大幅提升,但技術難度大。效能大幅提升,但技術難度大。不區分存儲單元和計算單元,真正意義上實現了同一個晶體管同時具備存儲和計算能力,通過存儲器顆粒上嵌入算法,存儲電路同時具備存儲和計算能力,計算由存儲器芯片內部的存儲單元完成全部計算操作,使得計算效能實現數量級提升,能耗可降至 1/10-1/100,能效可提升 10-100TOPS/W。存算一體的計算方式分為數字和模擬計算。數字存算一體主要以SRAM和RRAM為存儲介質,采用先進邏輯工藝,具有高性能高精度的優勢,且具備很好的抗噪聲能力和可靠性。而模擬存算一體通常使用FLASH、
27、RRAM、PRAM等非易失性介質作為存儲介質,存儲密度大,并行度高,但是對環境噪聲和溫度非常敏感。例如Intel和NVIDIA的算力芯片,盡管也可采用模擬計算技術提升能效,但從未有一顆大算力芯片采用模擬計算技術。因此數字存算一體適合大算力高能效的商用場景,而模擬存算一體適合小算力、不需要可靠性的民用場景。存內計算芯片被認為是下一代芯片,但目前還處于起步階段,受限于成熟度,應用范圍不夠廣泛,面臨著諸多挑戰:1)在芯片設計方面,架構設計的難度和復雜度要求很高,同時市面上也缺乏成熟的存算一體軟件編譯器的快速部署、專用EDA工具輔助設計和仿真驗證。2)在芯片測試方面,流片之后,同樣缺乏成熟的工具協助測
28、試。3)在生態方面,缺乏相應的與之匹配的軟件生態。1.2存內計算難度大,近存計算和存內處理是重要方向存內計算難度大,近存計算和存內處理是重要方向圖表:從存算分離到存內計算圖表:從存算分離到存內計算目目 錄錄二、封裝級二、封裝級3D DRAM:近存計算,高帶寬、低功耗契合:近存計算,高帶寬、低功耗契合AI場景需求場景需求2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案2.3 CUBE:AI低算力低算力+高帶寬存儲解決方案高帶寬存儲解決方案2.4 三種方案對比總結三種方案對比總結1
29、8來源:Semiconductor Engineering、各公司官網等,中泰證券研究所19目前目前HBM屬于標準化屬于標準化DRAM產品,是產品,是GDDR的一類。的一類。DRAM是大宗產品,JEDEC(固態技術協會,微電子產業的領導標準機構)定義并開發了以下三類 SDRAM 標準,以幫助設計人員滿足其目標應用的功率、性能和尺寸要求,從芯片本身來看,它們的差異主要體現在外圍電路上,而存儲單元本身在各類型中較為相似,制造工藝也基本一致。1)標準型DDR:Double Data Rate SDRAM,針對服務器、云計算、網絡、筆記本電腦、臺式機和消費類應用程序,允許更寬的通道寬度、更高的密度和不
30、同的外形尺寸。2)LPDDR:Low Power Double Data Rate SDRAM,針對尺寸和功率非常敏感的移動和汽車領域,有低功耗的特點,提供更窄的通道寬度。3)GDDR:Graphics Double Data Rate SDRAM,適用于具有高帶寬需求的計算領域,例如圖形相關應用程序、數據中心和 AI等,HBM屬于GDDR。詳情請參考此前外發深度報告 AI系列之HBM:AI硬件核心,需求爆發增長。HBM主要應用在主要應用在AI訓練和部分訓練和部分AI推理。推理。AI訓練需要處理大量并行數據,需要DRAM容量大和數據的傳輸速度快,同時模型訓練耗時長,需要硬件的功耗低,相較傳統的
31、DRAM存儲器,HBM高帶寬、低功耗,容量拓展性好,目前云端訓練卡全部使用HBM,部分云端推理卡有使用HBM,另外也有推理卡使用GDDR。2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案圖表:標準圖表:標準DRAM分類分類圖表:圖表:云端芯片的存儲器云端芯片的存儲器使用情況使用情況FP8(TFLOPS)FP16(TFLOPS)FP32(TFLOPS)GPU Flex 140推理8GDDR612 GB192bit336GB/sGPU Flex 170推理16GDDR616GB256bits576GB/sB200訓練9000450080HBM3E192GB8192bits8
32、TB/sB100訓練7000350060HBM3E192GB8192bits8 TB/s訓練3341167160HBM3E141GB6144bits4.8TB/s3958197967HBM3E141GB6144bits4.8TB/s訓練3026151351.2HBM2E80GB5120bits2TB/s39581978.966.9HBM380GB5120bits3.35TB/s79163958134HBM3188GB6144bits7.8TB/sL4推理48524230.3GDDR624GB192bits300GB/sL40S推理146673391.6GDDR648GB384bits864GB
33、/sL40推理724362.190.5GDDR648GB384bits865GB/s訓練3121935GB/s6242039GB/sA2推理364.5GDDR616GB128bits200GB/sA10推理25031.2GDDR624GB384bits600GB/sA16推理71.618GDDR664GB128bits800GB/sA30推理33010.3HBM224GB3072bits933GB/sA40-299.437.4GDDR648GB384bits696GB/s16GB32GBMI60推理29.4914.7HBM232GB4096bits1024GB/sMI100訓練/推理184.6
34、23.1HBM232GB4096bits1.2TB/sMI250訓練/推理362.145.3HBM2E128GB8192bits3.2TB/sMI250X38347.87HBM2E128GB8192bits3.2TB/sMI21018122.6HBM2E64GB4096bits1.6TB/sMI300A訓練HBM3128GB3.2TB/sMI300X訓練HBM3192GB5.2TB/sAMDAMD數據中心GPUH100MI50A100H200英偉達數據中心英偉達數據中心GPUIntel數據中心數據中心GPU80GBHBM2HBM2內存容量內存容量5120bits4096bits1024GB/s
35、所用內存所用內存峰值內存帶寬峰值內存帶寬內存位寬內存位寬峰值算力峰值算力26.5定位(訓練定位(訓練or推理)推理)推理19.513.3來源:海力士,Synopsys,中泰證券研究所20HBM定位在片上緩存定位在片上緩存LLC和傳統和傳統DDR中間,彌補帶寬缺口,與中間,彌補帶寬缺口,與GDDR等傳統等傳統DRAM產品相比,兼顧帶寬和容量。產品相比,兼顧帶寬和容量。HBM定位在CPU/GPU片上緩存(Last Level Cache,LLC,通常是SRAM)和DRAM之間,彌補處理器高帶寬需求與主存儲器最大帶寬供應能力之間的帶寬缺口,容量大于片上存儲、小于傳統DDR,但速度小于片上存儲、大于傳
36、統DDR,成本低于片上存儲、高于傳統DDR。以成本為例,1MB SRAM 價值$5$10,1GB HBM價格$10-$20,根據集邦咨詢,24年2月1GB DDR4合約價$1.95(歷史最高$4.1),1GB=1024MB,從單位存儲成本看,SRAM成本是HBM的500倍+、普通DRAM的1000倍+,HBM是普通DRAM的5倍+。從速度來看,在AI應用中,每個SoC的帶寬需求(尤其是在訓練應用中)都會超過幾TB/s,但常規主存儲器無法滿足這個要求,具有3200Mbps DDR4 DIMM的單個主存儲器通道只能提供25.6GB/s的帶寬,具有4800Mbps DDR5 DIMM的單個主存儲器通
37、道提供38.4GB/s,即使是具有8個存儲器通道的最先進的CPU平臺,DDR4和DDR5對應速度也只能達到204.8GB/s、307GB/s,圍繞單個SoC的4個HBM2堆疊可提供大于1TB/s的帶寬,因而能夠消除帶寬差距。2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案圖表:圖表:HBM定位在片上存儲和普通定位在片上存儲和普通DRAM之間之間圖表:圖表:HBM兼顧帶寬和容量兼顧帶寬和容量圖表:存儲的帶寬和速度圖表:存儲的帶寬和速度注:計算3200Mbps DDR4 DIMM的單個主存儲器帶寬:3200Mbps是等效傳輸效率,最大時鐘頻率=3200Mbps/2=1600M
38、Hz,總線寬帶=64bits,每時鐘數據段數量=2內存帶寬=最大時鐘頻率(MHz)總線寬度(bits)每時鐘數據段數量8=1600642=25600MB/s=256600MB/s1024GB/s=25.6GB/s來源:System Plus Consulting,海力士,中泰證券研究所21HBM使用使用TSV、Microbump實現實現3D堆疊結構,并采用堆疊結構,并采用2.5D封裝技術封裝技術(CoWos)實現與)實現與GPU直接封裝在一起,在不占用面積的前提下,實現容直接封裝在一起,在不占用面積的前提下,實現容量拓展、高帶寬和降低功耗。量拓展、高帶寬和降低功耗。供應鏈:海力士、三星等存儲原
39、廠將HBM采用晶圓級封裝,以KGSD(Known Good Die Stack,已知合格堆疊芯片)的封裝形式交給臺積電,臺積電使用2.5D封裝技術(包括CoWoS)將HBM與SoC(GPU等)封裝在一起。關于CoWoS工藝的具體介紹,詳情請參考此前外發深度報告AI系列之先進封裝:后摩爾時代利器,AI+國產化緊缺賽道。結構:1顆HBM KGSD=N 顆DRAM芯片(也稱為Core Die)+1顆邏輯芯片(也稱為Logic Base Die)組合而成,目前N=4/8/12,預計HBM4將采用16顆DRAM芯片堆疊。將多片HBM DRAM Die堆疊在一顆Logic Die,DRAM Die之間、D
40、RAM和Logic Die均通過硅通孔(TSV)和Microbump(微凸塊)連接。DRAM與Logic Die放置在Interposer(中介層)上與GPU互聯,中介層放置在ABF載板上,最后HBM與GPU使用2.5D封裝技術封在一起。邏輯芯片的三個功能區:用于測試的區域(DFT Area),TSV區域,TSV用于給DRAM 芯片傳輸信號和電力,PHY芯片區域,HBM和SoC中的存儲控制器之間的接口。PHY芯片區域和TSV區域中間有1024根信號傳輸線路,對應1024bit總線位寬。邏輯芯片的大小通常大于DRAM芯片,如海力士8層HBM3的邏輯芯片大小為10.8 mm x 9.8 mm,而D
41、RAM芯片為10.5 mm x 9.5 mm,這是為了可以模塑封裝(Mode晶圓模塑,一種扇出型晶圓級芯片封裝工藝)以保護晶圓,通常使用環氧樹脂模塑料(EMC)作為填充材料。2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案圖表:結構圖圖表:結構圖Molded KGSD(模塑封裝(模塑封裝KGSD)本文聚焦本文聚焦HBM制造制造圖表:供應鏈圖表:供應鏈22制造:采用制造:采用TSV、Microbump等先進封裝工藝等先進封裝工藝。HBM制造流程分為四步,涉及TSV(硅通孔)、Microbump(凸點制造)、堆疊鍵合等技術。HBM從設計、制造和封測方式均與傳統DRAM有較大區
42、別,相較傳統DRAM,HBM多了TSV、邏輯晶圓制備、凸點制造、堆疊鍵合等工藝,主要差異集中在封裝測試部分,HBM KGSD的制備工藝包括扇出型晶圓級封裝、TSV、Microbump等先進封裝技術。1)晶圓制造(包括TSV):分別制造DRAM晶圓和邏輯晶圓,同時做好DRAM和邏輯晶圓的TSV硅通孔,TSV硅通孔需要晶圓制造工藝,包括深孔刻蝕、氣相沉積、銅填充、CMP、晶圓減薄等工藝,此時DRAM和邏輯都是處于晶圓階段,與傳統DRAM主要差異是HBM晶圓需要制造TSV。2)凸點制造(Microbum):將硅通孔后的DRAM晶圓和邏輯晶圓倒裝,然后進行減薄,在晶圓背面形成凸點,此時DRAM和邏輯都
43、是處于晶圓階段。3)堆疊和鍵合(Stack&Bond),主要的差異化環節:在進行堆疊前,DRAM晶圓和邏輯晶圓的TSV通孔和凸點均已做好,DRAM晶圓切割成DRAM顆粒,DRAM顆粒一層一層堆疊在邏輯晶圓上,然后進行鍵合(此處為Die to wafer的鍵合),再進行晶圓模塑封裝,最后獲得模塑封裝后的KGSD(Molded KGSD)。海力士和三星/美光主要是在鍵合工藝上有差異,三星/美光使用較為傳統的TC-NCF(Thermo-Compression Bonding with None Conductive Film,熱壓縮-非導電薄膜),先在有TSV和凸點的晶圓上填充NCF,然后堆疊進行熱
44、壓鍵合,后進行模塑封裝,而海力士采用獨創的MR-MUF工藝(Mass Reflow Bonding with Molded UnderFill,大規?;亓骱?注塑底填充技術),不使用NCF,直接先堆疊,然后進行大規?;亓骱缸鐾裹c的鍵合,然后使用以液體EMC為主要原材料的MUF使用模塑方式填充縫隙,工藝具體介紹詳見后文。4)切割KGSD晶圓獲得KGSD顆粒:將模塑后的KGSD晶圓切割成顆粒,測試完成后出貨給臺積電繼續做CoWoS封裝。2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案1.晶圓制造晶圓制造Wafer+TSV2.凸塊制造凸塊制造Microbumping4.切割后切
45、割后KGSD出貨出貨3.堆疊、鍵合堆疊、鍵合(Stacking/Bonding)圖表:圖表:HBM Stack制造流程制造流程來源:海力士,中泰證券研究所來源:海力士、3D Incites、先進封裝與異構集成,中泰證券研究所23HBM三大關鍵工藝:三大關鍵工藝:TSV、Microbump和堆疊鍵合和堆疊鍵合TSV實現電氣連接通路,在HBM成本中占比最高,約30%。HBM核心工藝主要是TSV、micro bump和堆疊鍵合,其中TSV工藝是HBM中成本占比最高、最核心的工藝,利用TSV才能實現DRAM芯片的3D堆疊和芯片間的快速傳輸。根據3D InCites 2016年數據,在4層DRAM和1層
46、邏輯的HBM中,99.5%的鍵合良率下,TSV工藝所占的成本比重為30%,其中TSV制造(在正常晶圓厚度上制作TSV的過程)為18%,TSV顯露(晶圓減薄等工藝使TSV觸點露出)為12%。Microbump是芯片倒裝的基礎。Bump技術具備引腳密度高、低成本的特點,是構成倒裝技術的基礎。相較于傳統打線技術(Wire Bond)的“線連接”,Bump技術“以點代線”,在芯片上制造Bump,連接芯片與焊盤,此種方法擁有更高的端口密度,縮短了信號傳輸路徑,減少了信號延遲,具備了更優良的熱傳導性及可靠性,也是進行FC(Flip Chip)倒裝工藝在內的先進封裝工藝的技術基礎。圖表:圖表:HBM核心工藝
47、:核心工藝:TSV、micro bump和堆疊鍵合和堆疊鍵合圖表:圖表:HBM(4層層DRAM+1層邏輯)層邏輯)3D封裝成本劃分(封裝成本劃分(99.5%鍵合良率)鍵合良率)20%20%18%12%15%7%4%3%1%前道制程(FEOL)后道制程(BEOL)TSV制造TSV顯露組裝TSV制造失敗損失組裝失敗成本Bump制造測試圖表:圖表:Bump金屬凸點金屬凸點2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案來源:DAUM、NEWSIS,中泰證券研究所24HBM4HBM3(12層)層)/3EHBM2E/3HBM220222555Bump pitch(m)12/168/
48、12(HBM3E有8層、12層版本)4/84/8層數(Hi)混合鍵合Advanced MR-MUFMR-MUF(大批量回流焊-注塑底填充技術)TCB-NCF(熱壓合-非導電薄膜技術)海力士的內部互聯封裝混合鍵合TCB(熱壓合)TCB(熱壓合)TCB(熱壓合)三星的內部互聯封裝堆疊鍵合工藝主要包括:堆疊鍵合工藝主要包括:NCF、MUF、混合鍵合。、混合鍵合。HBM2,Bump pitch(凸點間距)在55m,三星和海力士共同使用TCB(熱壓合)技術,其中海力士采用的是TCB的分支TCB-NCF。HBM2/2E/3/3E,Bump pitch進展到25/22m水平,三星繼續采用TCB技術,而海力士
49、獨家采用MR-MUF(大規?;亓骱?注塑底填充技術)。HBM4,規劃12層和16層,目前12層明確不使用混合鍵合,16層方案暫未確定。24年11月海力士使用MR-MUF工藝的16層HBM3E發布。圖表:不同代際圖表:不同代際HBM的的Bump間距與間距與互聯技術互聯技術2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案來源:AMAT,海力士,Synopsys,中泰證券研究所25性能特色:標準化產品,與性能特色:標準化產品,與GDDR等傳統等傳統DRAM產品相比,產品相比,HBM帶寬高、功耗低,同時容量可拓展。帶寬高、功耗低,同時容量可拓展。1)高帶寬:因為使用TSV和Mic
50、robump,在單位面積下可以創造更多的數據連接點,即數據的傳輸的I/O數量多,達到1024個IO數量,帶寬=位寬數據的傳輸速度。2)功耗低:GDDR采用正常2D結構,不需要中介層連接,總線位寬小,主要是通過體現數據的傳輸速率來提升位寬,因為數據的傳輸速率快,因此功耗也高于HBM,GDDR基本50%的功耗是用于高速的數據的傳輸(PCB走線傳輸),而HBM用TSV技術實現走線更短,同時I/O數據的傳輸速度慢,功耗低。3)占用面積小、容量可拓展:HBM將多層DRAM進行3D垂直方向的堆疊,通過增加層數來擴展容量,GDDR為2D結構,因此HBM在實現相同容量下,占用的面積更小。同時HBM與GPU通過
51、中介層連接,1個GPU旁邊可以放置多顆HBM,中介層面積相對容易拓展。圖表:圖表:HBM結構圖結構圖圖表:圖表:HBM高帶寬高帶寬圖表:圖表:HBM低能耗低能耗2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案來源:JEDEC,中泰證券研究所26性能特色:標準化產品,帶寬高、功耗低,同時容量可拓展。性能特色:標準化產品,帶寬高、功耗低,同時容量可拓展。4)標準化產品。HBM的標準由JEDEC指定,對HBM成品的長寬高、Microbump的位置形狀、通道數量、數據的傳輸速度等參數均有明確要求。圖表:圖表:HBM3 Microbump參數參數2.1 HBM:AI大算力大算力+高
52、帶寬存儲解決方案高帶寬存儲解決方案圖表:圖表:HBM成品的長寬高參數成品的長寬高參數來源:海力士,中泰證券研究所27HBM方案下,方案下,GPU增加帶寬增加帶寬和和容量的方式主要是增加容量的方式主要是增加HBM顆數和提升單顆顆數和提升單顆HBM的性能的性能。容量增加:1)增加HBM顆數:目前1顆8層HBM3E可提供24GB,GPU增加1顆HBM3E,可增加24GB容量。但HBM的顆粒必須跟GPU對齊和封裝在一起,是緊耦合的狀態,受限GPU面積,HBM數量不能無限增加,同時還需考慮散熱等問題。2)提升單顆HBM容量:提高單顆HBM的容量,HBM通常是100mm2的面積,容量增加一方面來自單層容量
53、密度提升,主要是由升級制程,另一方面來自堆疊層數的增加,但因HBM的高度需要與GPU高度相對平行,層數不能無限增加,因此需要通過升級鍵合工藝、晶圓減薄工藝等。帶寬增加:1)增加HBM顆數:目前1顆HBM3E可提供1024bit總線位寬,增加1顆HBM3E,可增加1024bit總線位寬。2)提升單顆HBM的帶寬:帶寬=位寬x數據的傳輸速度,位寬的增加,主要是通過創造更多I/O,即數據連接傳輸點,主要通過改進鍵合工藝,實現更小的pitch,而數據的傳輸速度的提升,主要是來自制程升級。HBM不斷迭代,迭代方向為增加容量和帶寬,目前量產的最高層數為不斷迭代,迭代方向為增加容量和帶寬,目前量產的最高層數
54、為12層層HBM3E。從單顆容量看,堆疊層數和單層DRAM容量均有所增加,HBM1僅堆疊4層2Gb的DRAM,實現單顆HBM 8Gb(1GB),而HBM3E最高堆疊12層3GB的DRAM,實現單顆HBM 36GB,HBM4最高16層堆疊。從I/O數量看(總線位寬),HBM1到HBM3E均保持在1024bit,而數據的傳輸速率從HBM1的1Gb/s提升到HBM3E的9.2Gb/s,最終實現帶寬從HBM1的128GB/s提升至HBM3E的1.2TB/s圖表:圖表:HBM迭代情況(參考海力士官網)迭代情況(參考海力士官網)2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案HBM1
55、HBM2HBM2EHBM3HBM3EHBM4年份201420182020202220242026堆疊層數44 or 84 or 88 or 128 or 1212 or 16單層DRAM容量2Gb1GB2GB2GB3GB4GB容量1GB4GB OR 8GB8GB OR 16GB16GB OR 24GB24GB OR 36GB48GB OR 64GBI/O數量(總線位寬,bit)102410241024102410242048I/O速度(數據的傳輸速率)1Gbps2.4Gbps3.6Gbps6.4Gbps9.8Gbps6.4+Gbps帶寬128GB/s307GB/s460GB/s819GB/s1
56、.2TB/s1.5-2.56 TB/s電壓1.2V1.2V1.2V1.1V1.1V1.05V來源:Trendforce,Yole,中泰證券研究所28競爭格局:海力士、三星和美光壟斷。競爭格局:海力士、三星和美光壟斷。AI驅動,HBM市場快速增長:美光預計24年HBM市場規模160億美金,預計25年市場規模超過300億美金,預計到2030年市場規模超過1000億美金。DRAM市場由三家DRAM IDM 三星、海力士、美光壟斷,2023年三家合計市占率96%,另外DRAM IDM還有中國臺灣南亞科、華邦和力積電,大陸長鑫、晉華等。而HBM市場壟斷效應更強,2023年海力士/三星/美光份額為55%/
57、41%/3%。0%10%20%30%40%50%60%70%80%90%100%三星海力士美光其他圖表:圖表:DRAM競爭格局競爭格局2.1 HBM:AI大算力大算力+高帶寬存儲解決方案高帶寬存儲解決方案41%55%3%三星海力士美光圖表:圖表:HBM競爭格局(競爭格局(2023)來源:IEEE,中泰證券研究所29WOW 3D堆疊堆疊DRAM與邏輯芯片是與邏輯芯片是3D結構,屬于近存計算。結構,屬于近存計算。結構:屬于近存計算,DRAM與邏輯芯片采用3D堆疊工藝封裝在一起,在1片邏輯芯片上堆疊多層DRAM芯片,邏輯芯片指GPU、CPU、NPU等計算芯片、右圖中為紫色的Logic Die,DRA
58、M芯片圖中僅只有1層,實際可堆疊多層。技術:使用TSV硅通孔技術、Wafer on Wafer的混合鍵合工藝(Hybrid Bonding)實現多層芯片之間的電氣連接。性能特點:以紫光國芯的WOW 3D堆疊DRAM產品 SeDRAM為例,通孔間距(Pitch)達到10m以內的級別,HBM的Pitch目前為幾十微米,因此WoW 3D堆疊DRAM的帶寬更高,另外功耗更低,屬于定制化產品,容量拓展性一般。2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案圖表:圖表:紫光國芯的紫光國芯的WOW 3D堆疊堆疊DRAM圖表:圖表:紫光國芯的紫光國芯的WOW 3
59、D堆疊堆疊DRAM性能特點性能特點來源:MDPI、IEEE,中泰證券研究所30制造:使用制造:使用TSV、Wafer on Wafer混合鍵合等先進封裝工藝。(參考紫光國芯混合鍵合等先進封裝工藝。(參考紫光國芯SeDRAM制造工藝)制造工藝)1、制造Wafer:流片生產不同工藝下的DRAM晶圓(DRAM Wafer)和搭載有DRAM外圍電路的邏輯晶圓(Logic Wafer);2、在晶圓上制造TSV通孔:通過平坦化、曝光和刻蝕等工藝,在DRAM和邏輯晶圓上分別制造接觸通孔,頂部通孔為LTVIA,底部通孔為LBVIA;3、多片晶圓的鍵合:1)多層DRAM晶圓的鍵合:以2層DRAM為例,將 一片D
60、RAM晶圓(DRAM1)正面鍵合到載體晶圓上,然后通過背面研磨和化學機械拋光(CMP)工藝將 DRAM1 的硅襯底研磨至幾微米厚度,在減薄后進行TSV和混合鍵合工藝;在 DRAM2 上進行用于粘合銅焊盤的金屬互連;將處理后的 DRAM1 和 DRAM2 晶圓通過混合鍵合Face to Back鍵合;最后移除載體晶圓,并利用頂部金屬層工藝形成探測焊盤。2)邏輯和DRAM的鍵合:將邏輯晶圓翻轉,通過 Cu-Cu 互連的方式,將邏輯Wafer的頂部和DRAM Wafer的底部進行Face to Face的混合鍵合(后續縮寫為HB);然后將邏輯晶圓減薄至約3um厚度,并從邏輯晶圓背面開口完成PAD制作
61、。4、傳統的封測工藝:多層晶圓后鍵合后就相當于是一片晶圓,然后進行減薄、切割、測試等傳統封裝測試流程。圖表:圖表:堆疊兩層堆疊兩層 DRAM 晶圓的關鍵工藝晶圓的關鍵工藝圖表:圖表:邏輯芯片和存儲芯片的鍵合邏輯芯片和存儲芯片的鍵合圖表:圖表:3D堆疊堆疊DRAM的橫截面的橫截面TEM圖像圖像2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案31來源:高端性能封裝技術的某些特點與挑戰,Besi官網,中泰證券研究所WOW 3D堆疊堆疊DRAM的關鍵是混合鍵合工藝?;旌湘I合的性能優勢顯著,是未來的關鍵是混合鍵合工藝?;旌湘I合的性能優勢顯著,是未來Bump
62、技術的迭代方向。技術的迭代方向。Microbump(連接是基于焊料):在TSV銅通孔上生成焊球,如錫焊球,右下角圖中的Microbump錫球,芯片之間通過焊料連接?;旌湘I合(去掉焊料):不再使用焊料,不同芯片或晶圓的互連直接通過銅通孔連接,直接銅連接可以降低電阻,從而在向各種芯片發送數據時降低功耗,另外去掉焊球后,銅通孔的間距可以做到小、通孔密度更高?;旌湘I合用于10m以下:Microbump很難縮小到10m以下,混合鍵合用在10m間距以下的領域。圖表:鍵合技術的發展歷史圖表:鍵合技術的發展歷史2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案圖表
63、:圖表:Bump技術的發展趨勢技術的發展趨勢圖表:圖表:2種鍵合的示意圖種鍵合的示意圖32來源:EVG,中泰證券研究所2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案混合鍵合改善互聯結構,突破混合鍵合改善互聯結構,突破I/O密度瓶頸。密度瓶頸。1)I/O密度更高:混合鍵合金屬焊盤(大小約為0.5um0.5um方形)間距可以微縮到2um以下,極大地提升I/O密度;2)走線距離更短:混合鍵合是直接鍵合,中間沒有層間距,可以縮短小芯片間連線長度,從而改善總體性能、功率和成本,且相較于焊球鍵合約30um的層間厚度,混合鍵合封裝的芯片會更薄。3)省去底部填
64、充成本:相較于倒裝芯片鍵合,混合鍵合不需要在層間底部填充,可以省去相應材料成本。圖表:混合鍵合具有更高的圖表:混合鍵合具有更高的I/O密度密度圖表:混合鍵合具有更短層間互聯圖表:混合鍵合具有更短層間互聯33來源:應用材料官網,中泰證券研究所混合鍵合分為混合鍵合分為W2W(Wafer to/on Wafer,晶圓對晶圓)、,晶圓對晶圓)、D2W(Die to Wafer,芯片對晶圓)兩大類,二者整體封裝步驟相似,芯片對晶圓)兩大類,二者整體封裝步驟相似,D2W涉及切片。涉及切片。W2W是將兩片晶圓直接鍵合,效率更高但良率較低,適用于高良率芯片的鍵合,目前應用在CIS/3D NAND等領域。W2W
65、鍵合是指兩個完整的晶圓進行鍵合,完成后再切割。因W2W鍵合前不需要晶圓切割,因此顆粒污染產生較少同時效率更高,根據貼裝方式,可以進一步分為背對面鍵合與面對面鍵合。但是 W2W鍵合無法篩選已知的良好芯片進行鍵合,這會導致有缺陷的芯片鍵合到合格芯片上,從而導致良率下降(約為兩片晶圓的良率相乘)。對于尺寸較小的芯片,一片晶圓可以產出更多芯片,同樣的缺陷面積造成的芯片損失率更小,其良率更高,一般來說更適合用W2W鍵合方式,因此其在CIS、3D NAND等高良率小型芯片上應用廣泛。C2W良率更高,但因技術難度高,處于研發量產爬坡階段。C2W是將晶圓切割后進行鍵合,整體工藝發展受限于清潔度與產能等因素限制
66、,比W2W發展慢,但是C2W可以支持不同的芯片尺寸、晶圓類型,并可以將良好的芯片篩選出來進行鍵合,良率也會更高。2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案圖表:混合鍵合工作流程圖表:混合鍵合工作流程來源:IEEE,中泰證券研究所34WoW 3D堆疊堆疊DRAM是高度定制化產品,是高度定制化產品,DRAM容量和層數可根據客戶要求定制。容量和層數可根據客戶要求定制。拆解紫光國芯1層DRAM的SeDRAM產品:1層DRAM(4Gb)+1層Logic。1)制程:DRAM 25nm,Logic 55nm2)面積:DRAM和Logic都是25.24x2
67、3.86mm2,面積相同。3)DRAM和Logic連接的混合鍵合:混合鍵合pitch是3m,有超過6.4萬個混合鍵合的孔,最大通孔密度110,000/mm2。Pad既是金屬導線,同時也是DRAM和Logic之間的支撐材料?;旌湘I合的電阻小,因此邏輯到存儲接口的能耗可以降低40%。4)4Gb SeDRAM:容量4Gb,32個通道,4096個I/O(位寬4096bit),I/O速度為266 MHz,帶寬136GBps。4Gb是由4個獨立可擴展的1Gb存儲單元陣列構成,根據需求SeDRAM容量可以組合成1Gb-48Gb。5)1Gb SeDRAM規格:8個通道,1024個I/O(位寬1024bit),
68、I/O速度266 MHz,帶寬34GBps,0.88pJ/bit的功耗,1Gb的存儲單元陣列是由8個128M的存儲單元陣列和獨立片上電源系統構成。每個128Mb存儲單元陣列有128個I/O,每個128M都是一個獨立的內存通道,具有單獨的控制和數據信號,所有內存通道是可以同時訪問,并行性高。其他特點:存儲控制器(Memory Controller)、I/O電路等都在對應的Logic芯片上,SeDRAM去掉PHY結構。logic芯片也是分區的,每個logic block都可以直接連接對應的dram block,同時可以通過on-chip bus連接所有其他memory blocks;SeDRAM結
69、構與傳統DRAM制造工藝兼容。2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案來源:IEEE,中泰證券研究所352.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案圖表:圖表:4Gb SeDRAM由由4個個1Gb構成,構成,每個每個1Gb由由8個個128M構成構成圖表:圖表:邏輯電路、邏輯電路、I/O等都在等都在Logic芯片上芯片上來源:IEEE,中泰證券研究所362.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案圖表:圖表:4Gb SeDRAM的性能的性
70、能走線距離短,數據的傳輸快、功耗低走線距離短,數據的傳輸快、功耗低不需要不需要PHY,數據的傳輸快、功耗低,數據的傳輸快、功耗低功耗低功耗低并行的內存通道數量多并行的內存通道數量多I/O多多帶寬高帶寬高來源:IEEE,中泰證券研究所37WOW 3D堆疊堆疊DRAM 對比對比HBM:定制化產品,帶寬更高,功耗更低,但容量拓展性不如:定制化產品,帶寬更高,功耗更低,但容量拓展性不如HBM。1、混合鍵合工藝的Pitch小,IO數量多,帶寬較HBM有十倍以上提升。根據紫光國芯2023年發布論文中的2層SeDRAM方案,其使用WoW 混合鍵合工藝,DRAM和邏輯芯片的混合鍵合的通孔間距(Pitch)為
71、3um,且每個過孔的電阻小于 0.5,2層DRAM之間的Mini-TSV 的通孔間距縮小至 1.5um,能構建的IO數量更多,該2層DRAM產品64Gb(8GB,2層4GB),IO數量131072個,平均每Gb的IO數量達到2048個,而192Gb的HBM3(24GB,8層3GB)的IO數量為1024個,平均每Gb的IO數量為5.3個。紫光國芯的2層產品的IO速度為541Mbps(而HBM3 IO速度僅為7168Mbps),通過IO數量的提升,最終實現每Gb的帶寬為135GB/s,而HBM3每Gb的帶寬為4.7GB/s。圖表圖表:紫光國芯:紫光國芯2層層DRAM的方案的方案圖表圖表:SeDRA
72、M性能對比性能對比2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案傳統傳統DRAMHBMWOW 3D堆疊堆疊DRAMWOW 3D堆疊堆疊DRAM的特的特點點類型GDDR6 ISSCC2018HBM2E ISSCC2020HBM3 ISSCC2022SeDRAM IEDM2020SeDRAM(2層)連接方式-ubump,TSVubump,TSVHybrid bondingHybrid bonding,Mini-TSVubump/TSV pitch(um)-48*5596*110-1.5*1.5Pitch更小HB pitch-33是否需要PHY-Ye
73、sYesNoNo去掉PHY,降低功耗DRAM堆疊層數-8812堆疊層數少于HBM每層DRAM容量(GB)-230.54存儲容量(GB)116240.58IO數量32102410244096131072IO數量更多IO速度(Mbps)1638440967168266541IO速度慢,功耗低總帶寬(GBps)64GBps512GBps896GBps136GBps8656GBps耗電量(相對值)100%80%53%12%9%低功耗性能顯著每Gb帶寬(GBps/Gb)844.734135單位容量的帶寬更高來源:IEEE,Semianalysis,中泰證券研究所38WOW 3D堆疊堆疊DRAM 對比對比
74、HBM:定制化產品,帶寬更高,功耗更低,但容量拓展性不如:定制化產品,帶寬更高,功耗更低,但容量拓展性不如HBM。2、多方因素帶來功耗更低。1)去掉PHY區域,減少時延和節省功耗:以紫光國芯SeDRAM為例,傳統HBM互聯結構中,DRAM和邏輯芯片中均有耗時且耗能的PHY,3D堆疊DRAM結構將此移除。2)IO速度慢:IO速度越大,傳輸信號的功耗越大,HBM3 IO速度達到7168Mbps,而紫光國芯的2層DRAM方案產品的IO速度為541Mbps。3)數據的傳輸路徑短:相較2.5D封裝結構,3D封裝結構下存儲和計算芯片之間的數據的傳輸路徑變短,功耗低。4)混合鍵合功耗低:混合鍵合下直接進行銅
75、對通的互連,沒有錫焊球,直接銅導電,電阻更小,功耗更低。3)HBM容量拓展性更好。每顆HBM、WOW 3D堆疊DRAM都可以通過堆疊層數和增加單層密度來提高容量;HBM與計算芯片采用2.5D封裝,1顆計算芯片可以使用多顆HBM,如H100使用6顆HBM,而WOW 3D堆疊DRAM與計算芯片采用3D封裝,1顆計算芯片只能配套1顆WOW 3D堆疊DRAM。圖表圖表:3D堆疊堆疊DRAM中邏輯中邏輯-DRAM的的接口(對比接口(對比HBM)圖表:帶寬和功耗對比圖表:帶寬和功耗對比2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案圖表:圖表:H100板卡圖
76、板卡圖來源:紫光國芯,中泰證券研究所39中國臺灣和大陸企業均有布局中國臺灣和大陸企業均有布局WOW 3D堆疊堆疊DRAM,礦機,礦機市場率先落地使用。市場率先落地使用。大陸公司紫光國芯2020年量產WOW 3D堆疊DRAM。西安紫光國芯半導體股份有限公司前身為成立于2004年德國英飛凌西安研發中心的存儲事業部,2006年分拆成為獨立的奇夢達科技西安有限公司,2009年被浪潮集團收購轉制成為國內公司并更名為西安華芯半導體有限公司。2015年,紫光集團紫光國芯微電子股份有限公司收購西安華芯半導體有限公司并更名為西安紫光國芯半導體有限公司。2019年12月,經過重組,西安紫光國芯半導體并入北京紫光存
77、儲科技有限公司。2020年紫光國芯WOW 3D堆疊DRAM產品(公司稱為SeDRAM)量產問世,SeDRAM采用Wafer on Wafer混合鍵合工藝,相比HBM的MicroBump(微凸塊)工藝,SeDRAM接觸孔可達110,000個/mm2,實現了百倍量級的密度提升,而且連接電阻低至0.5歐姆。從而實現了從邏輯電路到存儲陣列之間每Gbit高達34GB/s的帶寬和0.88pJ/bit的能效。2021年已有產品量產。產品是基于西安紫光國芯SeDRAM 平臺,由阿里巴巴達摩院計算技術實驗室定制設計,西安紫光國芯SoC團隊完成芯片實現以及系統級測試支持。供應鏈:DRAM芯片代工,力積電;混合鍵合
78、,武漢新芯。圖表:圖表:紫光國芯的紫光國芯的WOW 3D堆疊堆疊DRAM2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案來源:愛普科技官網,中泰證券研究所40中國臺灣和大陸企業均有布局中國臺灣和大陸企業均有布局WOW 3D堆疊堆疊DRAM,礦機市場率先落地使用。,礦機市場率先落地使用。中國臺灣公司愛普存儲2021年發布WOW 3D堆疊DRAM方案。中國臺灣上市公司愛普存儲,2021年宣布成功實現WOW 3D堆疊高帶寬存儲方案(VHM),即DRAM與邏輯晶片的真3D堆疊異質整合,透過WoW(Wafer on Wafer)的多點I/O連接,每GB D
79、RAM可以提供超過4TB/s 的帶寬并有極出色的耗能表現,而全窗大小的VHM則可提供高達24TB/s 的頻寬供SoC 的運算需求。供應鏈:愛普科技提供VHM TM,包含客制化DRAM設計及DRAM與邏輯晶片整合介面之VHM TM LInK IP;DRAM芯片代工,力積電;邏輯芯片的代工和3D堆疊鍵合工藝,臺積電。圖表:愛普存儲的圖表:愛普存儲的WOW 3D堆疊堆疊DRAM2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案來源:騰訊網,中泰證券研究所41中國臺灣和大陸企業均有布局中國臺灣和大陸企業均有布局WOW 3D堆疊堆疊DRAM,礦機市場率先落地
80、使用。,礦機市場率先落地使用。大陸公司芯盟科技2022年宣布WOW 3D堆疊DRAM方案。2022年中國國際半導體技術大會中,芯盟科技宣布了基于 HITOC 技術的 3D DRAM 架構的問世,HITOC 技術(Heterogeneous Integration Technology on Chip)技術是運用Wafer-on-Wafer和Die-on-Wafer混合鍵合(Hybrid Bonding)制造工藝,將不同類型的 wafer 或 die 上下對準貼合,以實現真正的三維異構單芯片集成,2022年1層DRAM WOW的方案已導入市場,Die-on-Wafer 和多層WOW的3D 堆疊產
81、品處于研發狀態。圖表:芯盟科技的圖表:芯盟科技的WOW 3D堆疊堆疊DRAM2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案來源:各公司官網、SIA等,中泰證券研究所42中國臺灣和大陸企業均有布局中國臺灣和大陸企業均有布局WOW 3D堆疊堆疊DRAM,礦機市場率先落地使用。,礦機市場率先落地使用。大陸公司兆易創新布局定制化DRAM。兆易創新是大陸存儲龍頭公司,在利基存儲市場,布局NOR、SLC NAND和利基DRAM,同時積極布局定制化DRAM業務,2024年成立子公司青耘科技布局該定制化存儲領域(兆易直接持股78%)。圖表:大陸存儲公司布局情況
82、圖表:大陸存儲公司布局情況2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案類別類別主流DRAM主流DRAM主流NAND主流NAND利基DRAM利基DRAMSLC NANDSLC NANDNor FlashNor FlashEEPROMEEPROMSRAMSRAMMCUMCU市場規模(億美金)70044878232684250兆易創新兆易創新北京君正北京君正普冉股份普冉股份東芯股份東芯股份聚辰股份聚辰股份恒爍股份恒爍股份博雅科技(未上博雅科技(未上市)市)芯天下(未上市)芯天下(未上市)長鑫存儲長鑫存儲長江存儲長江存儲江波龍江波龍佰維存儲佰維存儲德
83、明利德明利朗科科技朗科科技存儲封測深科技深科技存儲代理香農芯創香農芯創內存接口芯片瀾起科技瀾起科技嵌入式存儲(52%)、移動存儲(24%)、固態硬盤(18%)、內存條(5%)嵌入式存儲(73%)、消費級存儲(21%)、工業級存儲(3%)、先進封測服務(2%)移動存儲(50%)、存儲晶圓及晶圓封裝片(32%)、固態硬盤(16%)閃存應用產品(58%)、閃存控制芯片及其他(38%)、移動存儲產品(1%)高端制造(72%)、存儲半導體(16%)、計量智能終端(11%)80%海力士存儲器產品、20%聯發科產品74%互連芯片,26%津逮CPU存儲設計存儲IDM存儲模組注:收入占比為2023年數據;市場規
84、模為2022年數據,利基DRAM市場規模按照DRAM市場規模乘以10%計算,NOR市場規模按照存儲市場規模乘以2%計算來源:中科聲龍,中泰證券研究所43中國臺灣和大陸企業均有布局中國臺灣和大陸企業均有布局WOW 3D堆疊堆疊DRAM,礦機市場率先落地使用。,礦機市場率先落地使用。以太幣因其算法需要加載DAG數據包,需要配套高帶寬存儲以提升挖礦效率,WOW 3D堆疊DRAM方案應用其中。2021年中科聲龍第一代高通量算力芯片(Jasminer X4,中文為茉莉X4)首次流片即一次性流片成功,至今量產晶圓已逾萬片,該芯片采用堆疊技術(DRAM和邏輯芯片 3D堆疊),芯片面積裸Die 678平方毫米
85、,存儲帶寬1TByte/s,存儲容量5GB,處理能力達到65MH/s(一款高端顯卡的處理能力),但功耗只有23W,而顯卡功耗一般在150W以上。圖表:中科聲龍的茉莉圖表:中科聲龍的茉莉X4圖表:茉莉圖表:茉莉X4算力磚算力磚2.2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案來源:AI賦能實驗室等,中泰證券研究所44端側部署本地大模型是趨勢,端側部署本地大模型是趨勢,WOW 3D堆疊堆疊DRAM可定制,高帶寬、低功耗性能顯著,??啥ㄖ?,高帶寬、低功耗性能顯著,。端側模型本地化趨勢:模型部署在端側,既有高隱私性、安全性、可靠性等優點,同時可提供個性化服
86、務,目前AI手機、AI PC、汽車等都有模型部署在本地的趨勢。端側模型有輕量化趨勢,DeepSeek降本促進端側AI滲透:Deepseek是全開源模型,模型可蒸餾,從DeepSeek-R1蒸餾出的較小模型有1.5B、7B、14B、32B、70B,蒸餾出來的小模型性能好,降低了模型部署在手機PC等端側的難度,但使用傳統存儲器仍面臨存儲墻問題。WOW 3D堆疊DRAM存儲容量可定制,超高帶寬、低功耗性能矚目,高帶寬帶來低延時、快響應,契合端側場景,帶來更好的用戶體驗,潛在場景手機、PC、汽車和機器人等。圖表:端側圖表:端側AI的優勢的優勢圖表:圖表:DeepSeek蒸餾后的小模型蒸餾后的小模型2.
87、2 WOW 3D堆疊堆疊DRAM:AI低算力低算力+超高寬帶存儲解決方案超高寬帶存儲解決方案來源:華邦官網,Electronic Engineering,中泰證券研究所45華邦華邦2023年宣布年宣布CUBE方案,定位邊緣計算。方案,定位邊緣計算。2023年華邦宣布CUBE(Customized/Compact Ultra Bandwidth Elements)。結構:屬于近存計算,1層SOC和多層DRAM是上下堆疊結構,SoC放置在上面,DRAM芯片在下面,省去了SoC的TSV工藝,SOC無性能損失、系統成本更低,同時,3D DRAM TSV工藝可以將SoC信號引至外部,使它們成為同一顆芯片
88、,進一步縮減了封裝尺寸,同時SoC在上可以帶來更好的散熱效果。技術:主要使用TSV和Microbump(微凸塊)工藝,與目前HBM使用工藝相同。供應鏈:聯電負責CMOS晶圓制造和鍵合技術;華邦電導入客制化CUBE架構;智原提供全面的3D先進封裝一站式服務,以及存儲IP和ASIC小芯片設計服務;日月光則是提供晶圓切割、封裝和測試服務,另外還有Cadence 負責晶圓對晶圓設計流程,提取TSV特性和簽核認證。2.3 CUBE:AI低算力低算力+高帶寬存儲解決方案高帶寬存儲解決方案圖表:圖表:華邦華邦CUBE方案拆解方案拆解圖表:圖表:華邦華邦CUBE方案的結構圖方案的結構圖來源:華邦,中泰證券研究
89、所46性能:功耗低于性能:功耗低于HBM,帶寬小于目前的,帶寬小于目前的HBM3E。低功耗:CUBE 功耗低于 1pJ/bit,功耗優于HBM,CUBE能夠確保延長運行時間并優化能源使用。高帶寬:CUBE的IO速度達到2Gbps,帶寬提升主要來自IO數量提升,官網表示CUBE帶寬32GB/s-256GB/s(可以根據客戶要求定制化),相當于HBM2帶寬,也相當于4至32個LP-DDR4x 4266Mbps x16 IO,而公開演講資料顯示CUBEx的帶寬可達到1TB/s,相當于HBM3E帶寬。面積?。篠oC(不帶TSV,置上)堆疊在 CUBE(帶 TSV,置下)上,SOC去除 TSV 區域損失
90、,其芯片尺寸可能會更小,能夠為邊緣AI設備帶來更明顯的成本優勢。散熱好:SoC在上,散熱會更好。華邦DRAM制程較三星、海力士和美光落后,目前CUBE基于20nm制程,每片DRAM容量可以達到256Mb-1GB容量,2025年將有16nm。圖表:圖表:CUBE適用于邊緣運算適用于邊緣運算2.3 CUBE:AI低算力低算力+高帶寬存儲解決方案高帶寬存儲解決方案圖表:圖表:CUBE性能性能HBM1HBM2HBM2EHBM3HBM3EHBM4CUBEx層高層高4層8層8層 or 12層8層 or 12層8層 or 12層12層 or 16層4層I/O傳輸速率傳輸速率1Gb/s2.4Gb/s3.6Gb
91、/s6.4Gb/s9.2Gb/s9.2Gb/s2Gb/s產品整體帶寬產品整體帶寬128GB/s307 GB/s460 GB/s819 GB/s1.2TB/s2.4TB/s1TB/s單層顆粒單層顆粒 GB0.25122340.5-1產品容量產品容量1GB8GB8GB/16GB/24GB16GB/24GB24GB/36GB36GB/48GB2-4GBI/O數量(個)數量(個)1024102410241024102420484096功率功率/bit6pJ/bit5pJ/bit5pJ/bit4pJ/bit4pJ/bit4pJ/bit10m10mHBM,華邦CUBE帶寬在HBM2及HBM3E之間;功耗,
92、3D堆疊DRAM、華邦CUBE3D 堆疊DRAM、華邦CUBE。對比WOW 3D堆疊DRAM和華邦CUBE,均是計算芯片與DRAM上下堆疊的結構同時定制化屬性,但在帶寬層面,因華邦CUBE仍使用Microbump,IO數量小,因此帶寬小于WOW 3D堆疊DRAM;對比WOW 3D堆疊DRAM和HBM,WOW 3D堆疊DRAM的帶寬和功耗均優于HBM,1顆計算芯片可以使用多顆HBM,1顆計算芯片只能配套1顆WOW 3D堆疊DRAM,因此HBM的容量拓展性更好。2.4 三種方案對比總結三種方案對比總結圖表:圖表:3類封裝級類封裝級3D DRAM的性能對比的性能對比來源:紫光國芯、華邦,中泰證券研究
93、所整理傳統傳統DRAMHBMWOW 3D堆疊堆疊DRAMCUBE說明說明類型GDDR6 ISSCC2018HBM2E ISSCC2020HBM3 ISSCC2022HBM3E(標準化)SeDRAM IEDM2020SeDRAM(2層)CUBE芯片面積(mm2)約100約100約100-約100連接方式-ubump,TSVubump,TSVubump,TSVHybrid bondingHybrid bonding,Mini-TSVubump,TSVubump/TSV pitch(um)-48*5596*110-1.5*1.5HB pitch-33-是否需要PHY-YesYesYesNoNo-DR
94、AM堆疊層數-8812124每層DRAM容量(GB)-2330.540.51存儲容量(GB)11624360.5824IO數量3210241024102440961310724096IO速度(Mbps)163844096716894212665412048總帶寬(GBps)64GBps512GBps896GBps1229GBps136GBps8656GBps1024GBps耗電量(相對值)100%80%53%12%9%WoW 3D堆疊DRAM功耗低功率/bit5pJ/bit4pJ/bit4pJ/bit1pJ/bit每Gb帶寬(GBps/Gb)844.74.334135-WoW 3D堆疊DRAM
95、帶寬高目目 錄錄三、晶圓級三、晶圓級3D DRAM:突破制程瓶頸,目前多種方案探索中:突破制程瓶頸,目前多種方案探索中3.1 三星三星&海力士:探索電容水平放置方案海力士:探索電容水平放置方案3.3 NEO公司:探索無電容方案公司:探索無電容方案3.3 其他公司:積極探索其他公司:積極探索50來源:TEL、長鑫存儲,中泰證券研究所512D DRAM主要通過水平方向的制程升級來提升單位面積下的存儲密度,而晶圓級主要通過水平方向的制程升級來提升單位面積下的存儲密度,而晶圓級3D DRAM是通過堆疊層數來升級。目前是通過堆疊層數來升級。目前DRAM制程迭代到制程迭代到12nm左右(左右(1bnm),
96、),1cnm將到將到10nm,進入,進入0nm級別后,預計級別后,預計DRAM開啟晶圓級開啟晶圓級3D之路。之路。3D DRAM目前各目前各家處于實驗室狀態,探索多種技術路徑,目前僅三星公布規劃圖。家處于實驗室狀態,探索多種技術路徑,目前僅三星公布規劃圖。目前晶圓級目前晶圓級3D DRAM仍處于研發階段,主要是仍處于研發階段,主要是2個方案。個方案。1)方案一:存儲單元仍是基于1T1C結構(1個電容器+1個晶體管),主要改變存儲單元各個組成部分的結構。傳統2D DRAM的存儲單元中,電容器是垂直方向,3D DRAM將垂直的電容水平放置,然后進行堆疊。三星、海力士和長鑫存儲均探索這個方案。2)方
97、案二,無電容方案:存儲單元中去掉電容器,然后進行堆疊。美國公司NEO探索這個方案。圖表:圖表:DRAM發展路線發展路線3.1 三星三星&海力士:探索電容水平放置方案海力士:探索電容水平放置方案圖表:圖表:3D DRAM的層數迭代的層數迭代來源:AMAT、TEL,中泰證券研究所52圖表:圖表:DRAM從從2D到到3D(方案一)(方案一)3.1 三星三星&海力士:探索電容水平放置方案海力士:探索電容水平放置方案來源:Semiconductor Engineering,三星,中泰證券研究所53三星三星2024年公布年公布3D DRAM規劃圖,預計規劃圖,預計2030年采用晶圓級年采用晶圓級3D DR
98、AM。三星在2024年的Memcon大會上正式公布3D DRAM技術路線圖,3D DRAM首次被納入規劃之中,這標志著該技術正逐步從實驗室走向實際生產的階段。規劃圖上公布了三星在研的2種新DRAM結構:4F2 VCT DRAM 和VS-CAT DRAM。1)4F2 VCT DRAM,將晶體管從水平方向變為垂直方向,容量主要還是通過水平方向升級,預計2025年開始采用。2)VS-CAT DRAM,將垂直的電容器變成水平方向,容量通過堆疊升級,預計2030年開始采用。圖表:三星的兩類圖表:三星的兩類DRAM圖表:三星圖表:三星DRAM發展路線發展路線3.1 三星:探索電容水平放置方案三星:探索電容
99、水平放置方案來源:三星,半導體行業觀察,中泰證券研究所54圖表:存儲單元的迭代路線圖表:存儲單元的迭代路線VCT DRAM,將晶體管垂直堆疊利用,將晶體管垂直堆疊利用Z軸空間,是真正軸空間,是真正3D DRAM的過渡方案。的過渡方案。4F2 VCT DRAM:Vertical Channel Transistor,垂直通道晶體管,相較傳統的水平方向的晶體管結構,VCT將晶體管變為垂直方向,存儲單元結構向Z方向發展,4F2 DRAM單元尺寸比現有的6F2 DRAM減少約30%,在提高能效的同時大幅降低了單元面積,但同時提升了對刻蝕工藝精度的要求。三星預計2025年在內部發布并推進。圖表:4F2V
100、CT DRAM與傳統6F2DRAM的對比3.1 三星:探索電容水平放置方案三星:探索電容水平放置方案來源:三星,Semianalysis,中泰證券研究所55圖表:圖表:三星的三星的VS DRAM有兩種潛在方案(垂直有兩種潛在方案(垂直Wordline或者垂直或者垂直Bitline)VS DRAM,真正的,真正的3D DRAM,電容器水平放置,三星目前有,電容器水平放置,三星目前有2種細分方案(垂直種細分方案(垂直Wordline和垂直和垂直Bitline),目前有),目前有16層層的內部方案,預計的內部方案,預計2030年開始大規模采用。年開始大規模采用。VS-CAT DRAM:Vertica
101、l Stacked-Cell Array Transistor,垂直堆疊單元陣列晶體管,類似 3D NAND 一樣堆疊多層 DRAM。傳統2D DRAM,電容器垂直放置,VS DRAM將電容器水平放置,三星目前展示了垂直Wordline(vertical wordline)和垂直Bitline(vertical bitline)兩種潛在方案。另外預計采用存儲單元和外圍邏輯單元分離的雙晶圓結構,在分別完成存儲單元晶圓和邏輯單元晶圓的生產后,需要進行晶圓對晶圓(W2W)混合鍵合,然后得到 VS-CAT DRAM成品。根據新聞,三星2024年已在內部實現了16層堆疊的VS-CAT DRAM,三星預計
102、2030年前推出市場。3.1 三星:探索電容水平放置方案三星:探索電容水平放置方案來源:Semianalysis,中泰證券研究所563.1 海力士:探索電容水平放置方案海力士:探索電容水平放置方案圖表:圖表:海力士的海力士的5層層3D DRAM海力士的路線圖暫未公布,目前有海力士的路線圖暫未公布,目前有5層的堆疊產品方案,海力士選擇垂直層的堆疊產品方案,海力士選擇垂直Bitline架構。架構。海力士在VLSI 2024上詳細展示了五層垂直Bitline(BL),并表示在即將到來的1c和1d節點之后,工藝整合和縮放的挑戰將促使引入3D技術,預計這一轉型需要大約5年時間。海力士認為垂直Bitlin
103、e是更合理的架構選擇,因為它能提供更大的感測裕度。海力士的5層3D DRAM也是采用混合鍵合連接的存儲陣列和外圍電路的結構。海力士認為,要達到廣泛應用的目標,需要進一步提升3D DRAM的堆棧層數,實現32層至192層堆棧的存儲單元。來源:全球半導體行業觀察,中泰證券研究所57NEO:采用無電容方案。:采用無電容方案。2023年美國存儲公司NEO公布3D-X DRAM技術,3D X-DRAM具有基于無電容器浮柵極(FBC)技術的類 3D NAND DRAM 單元陣列結構。這種 FBC浮柵極技術使用一個晶體管和零個電容器將數據存儲為電荷。NEO半導體表示它可以使用當前的 3D NAND 類工藝制
104、造,并且只需要增加一層光罩掩模來定義位線孔并在孔內形成垂直結構,這提供了一種高速、高密度、低成本和高產量的制造解決方案。據 Neo 的估計,3D X-DRAM技術可以實現 230層128 Gb 密度,這是當今 DRAM 密度的 8 倍。NEO提出,每10年容量提升8倍的目標,將在2030到2035年間實現1Tb的容量,較現DRAM核心容量達64倍提升,滿足ChatGPT等AI應用對高性能和大容量存儲器半導體的增長需求。3.2 NEO公司:探索無電容方案公司:探索無電容方案圖表:圖表:NEO公司的公司的3D DRAM來源:Semianalysis,中泰證券研究所583.3 其他公司:積極探索其他
105、公司:積極探索美光美光3D DRAM的相關信息較少,但積極探索該方向。的相關信息較少,但積極探索該方向。據TechInsights稱,美光在2019年就開始了3D DRAM的研究工作。在2022年9月接受采訪的時候,美光確認正在探索3D DARM的方案。截止2022年8月,美光已獲得了30多項3D DRAM專利。相比之下,美光專利數量是三星和SK海力士這兩家韓國芯片制造商的兩三倍。Yole強調,美光提交了與三星不同的3D DRAM專利申請。美光的方法是在不放置Cell的情況下改變晶體管和電容器的形狀。來源:長鑫存儲,中泰證券研究所59長鑫存儲:電容水平放置,積極探索。長鑫存儲:電容水平放置,積
106、極探索。2023長鑫存儲發布3D DRAM相關研究工作的論文,A 3D Stackable 1T1C DRAM:Architecture,Process Integration and Circuit Simulation,其研究也是基于1T1C結構,電容水平放置。3.3 其他公司:積極探索其他公司:積極探索圖表:長鑫存儲的圖表:長鑫存儲的3D DRAM目目 錄錄一、產業趨勢:一、產業趨勢:DRAM從從2D到到3D,存算一體趨勢確立,存算一體趨勢確立二、封裝級二、封裝級3D DRAM:近存計算,高帶寬、低功耗契合:近存計算,高帶寬、低功耗契合AI場景需求場景需求三、晶圓級三、晶圓級3D DRA
107、M:突破制程瓶頸,目前多種方案探索中:突破制程瓶頸,目前多種方案探索中四、四、投資建議投資建議五、五、風險提示風險提示6061近存計算的近存計算的3D DRAM已成為產業趨勢,高帶寬、低功耗契合已成為產業趨勢,高帶寬、低功耗契合AI場景需求,建議關注產業鏈公司:場景需求,建議關注產業鏈公司:存儲:兆易創新、北京君正等SOC:瑞芯微、小米等先進封裝相關:長電科技、通富微電、甬矽電子、晶方科技、精智達、拓荊科技、芯源微、華海誠科、賽騰股份等四、投資建議四、投資建議目目 錄錄一、產業趨勢:一、產業趨勢:DRAM從從2D到到3D,存算一體趨勢確立,存算一體趨勢確立二、封裝級二、封裝級3D DRAM:近
108、存計算,高帶寬、低功耗契合:近存計算,高帶寬、低功耗契合AI場景需求場景需求三、晶圓級三、晶圓級3D DRAM:突破制程瓶頸,目前多種方案探索中:突破制程瓶頸,目前多種方案探索中四四、投資建議投資建議五、五、風險提示風險提示6263行業需求不及預期的風險;行業需求不及預期的風險;大陸廠商技術進步不及預期;大陸廠商技術進步不及預期;研報使用的信息更新不及時的風險等研報使用的信息更新不及時的風險等五、風險提示五、風險提示重要聲明重要聲明中泰證券股份有限公司(以下簡稱“本公司”)具有中國證券監督管理委員會許可的證券投資咨詢業務資格。本報告中泰證券股份有限公司(以下簡稱“本公司”)具有中國證券監督管理
109、委員會許可的證券投資咨詢業務資格。本報告僅供本公司的客戶使用。本公司不會因接收人收到本報告而視其為客戶。僅供本公司的客戶使用。本公司不會因接收人收到本報告而視其為客戶。本報告基于本公司及其研究人員認為可信的公開資料或實地調研資料,反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響。本公司力求但不保證這些信息的準確性和完整性,且本報告中的資料、意見、預測均反映報告初次公開發布時的判斷,可能會隨時調整。本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告所載的資料、工具、意見、信息及推測只提供給客戶作參考之用,不構成任何投資、法律
110、、會計或稅務的最終操作建議,本公司不就報告中的內容對最終操作建議做出任何擔保。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。市場有風險,投資需謹慎。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者應注意,在法律允許的情況下,本公司及其本公司的關聯機構可能會持有報告中涉及的公司所發行的證券并進行交易,并可能為這些公司正在提供或爭取提供投資銀行、財務顧問和金融產品等各種金融服務。本公司及其本公司的關聯機構或個人可能在本報告公開發布之前已經使用或了解其中的信息。本報告版權歸“中泰證券股份有限公司”所有。事先未經本公司書面授權,任何機構和個人,不得對本報告進行任何形式的翻版、發布、復制、轉載、刊登、篡改,且不得對本報告進行有悖原意的刪節或修改64