《AI芯片行業深度:發展現狀、競爭格局、市場空間及相關公司深度梳理-230407(21頁).pdf》由會員分享,可在線閱讀,更多相關《AI芯片行業深度:發展現狀、競爭格局、市場空間及相關公司深度梳理-230407(21頁).pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、 1/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 行業研究報告 慧博智能投研 AI芯片行業深度:發展現狀、競爭格局、市芯片行業深度:發展現狀、競爭格局、市場空間場空間及相關公司深度梳理及相關公司深度梳理 從廣義上講只要能夠運行人工智能算法的芯片都叫作 AI 芯片,但通常意義上的 AI 芯片指的是針對人工智能算法做了特殊加速設計的芯片。AI 芯片也被稱為 AI 加速器或計算卡,即專門用于處理人工智能應用中的大量計算任務的模塊(其他非計算任務仍由 CPU 負責)。下面我們從 AIGC 產業鏈出發了解 AI 芯片在產業鏈中的地位及作用,分析不同類別的 AI 芯片的
2、作用及特性都有哪些,我國 AI 芯片行業現狀及競爭格局是怎樣的,目前全球 AI 芯片的四大技術路線都有哪些?chatGPT 及“文心一言”的出現對于 AI 芯片市場又怎樣的影響,市場空間有多大,相關公司都有哪些,未來有怎樣的發展趨勢?對于這些問題我們下面一一解答。目錄目錄 一、AI 芯片概述.1 二、AI 芯片分類解讀.4 三、我國 AI 芯片現狀.9 四、AI 芯片競爭格局.10 五、AI 芯片四大技術路線.12 六、AI 芯片市場預期.16 七、相關公司.18 八、AI 芯片發展趨勢.20 九、參考資料.21 一、一、AI 芯片芯片概述概述 1.AIGC 產業鏈產業鏈 2/21 2023
3、年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 AIGC 產業鏈主要分為上游算力硬件層、中游數據/算法軟件層和下游行業應用層。硬件層依靠高性能AI 芯片、服務器和數據中心為 AIGC 模型的訓練提供算力支持,是承載行業發展的基礎設施;數據/算法層軟件層主要負責 AI 數據的采集、清洗、標注及模型的開發與訓練,多方廠商入局自然語言處理、計算機視覺、多模態模型等領域;行業應用層目前主要涉及搜索、對話、推薦等場景,未來有望在多個行業呈現井噴式革新。位于算力硬件層的 AI 芯片是人工智能的底層基石。2.AI 芯片是人工智能的底層基石芯片是人工智能的底層基石 2014 年李天石博士“Di
4、anNao”系列論文讓科學界看到,在馮諾依曼架構下也可以實現 AI 專用芯片。此后 Google 推出的 TPU 運算架構的 AlphaGo,接連打敗李世石和柯潔,看到了專用芯片的商業價值。人工智能經歷過三階段,迎來爆發式增長。AI 人工智能的發展主要依賴兩個領域的創新和演進:一是模仿人腦建立起來的數學模型和算法,其次是半導體集成電路 AI 芯片。AI 的發展一直伴隨著半導體芯片的演進過程,20 世紀 90 年代,貝爾實驗室的楊立昆(YannLeCun)等人一起開發了可以通過訓練來識別手寫郵政編碼的神經網絡,但在那個時期,訓練一個深度學習卷積神經網絡(Convolutional Neural
5、Network,CNN)需要 3 天的時間,因此無法實際使用,而硬件計算能力的不足,也導致了當時 AI 科技泡沫的破滅。AI 芯片是 AI 發展的底層基石。英偉達早在 1999 年就發明出 GPU,但直到 2009 年才由斯坦福大學發表論文介紹了如何利用現代 GPU 遠超過多核 CPU 的計算能力(超過 70 倍),把 AI 訓練時間從幾周縮短到了幾小時。算力、模型、數據一直是 AI 發展的三大要素,而 AI 芯片所代表的算力則是人工智能的底層基石。3.訓練芯片及推理芯片訓練芯片及推理芯片 根據機器學習算法步驟,AI 芯片分為“訓練(Training)”芯片和“推理(Inference)”芯片
6、?!坝柧毿酒敝饕糜谌斯ぶ悄芩惴ㄓ柧?,即在云端將一系列經過標記的數據輸入算法模型進行計算,不斷調整優化算法參數,直至算法識別準確率達到較高水平?!巴评硇酒敝饕糜谌斯ぶ悄芩惴ㄍ评?,即將在云端訓練好的算法模型進行裁剪優化變“輕”之后,進入“實戰”階段,輸入數據直接得出準確的識別結果。不同用途(訓練 or 推理)、不同應用場景(端-邊-云)對 AI 芯片有著不同的要求。首先,訓練芯片追求的是高計算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延時(完成推理過程所需要的時間盡可能短)、低功耗。其次,“端-邊-云”三個環節對 AI 芯片的有不同的要求其中端和邊上進行5XcZgVmU9XkXu
7、VvUsX9PcMaQsQoOmOmPiNnNmQkPnMnN6MqQyRwMrMqPwMpPnO 3/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 的大部分是 AI“推理”,因此用于端和邊的 AI 芯片性能要求和上述推理芯片一致;大部分的訓練過程是在云和數據中心進行,訓練過程對時延沒有什么要求,因此需要保證 AI 芯片在盡可能保證較高算力的情況下,功耗盡可能低,另外許多推理過程也是在云端進行。4.終端芯片及云端芯片終端芯片及云端芯片 根據部署場景,AI 芯片可用于端、邊、云三種場景,具體而言:1)終端 AI 芯片追求以低功耗完成推理任務,以實際落地場景需求為
8、導向,在能耗/算力/時延/成本等方面存在差異;2)邊緣 AI 芯片介于終端與云端之間,承接低時延/高隱私要求/高網絡帶寬占用的 推理或訓練任務;3)云端 AI 芯片以高算力/完成訓練任務為目標,包括 CPU/GPU/FPGA/ASIC 等多種類型。5.GPU、FPGA、ASIC 及及 CPU 從技術架構來看,AI 芯片主要分為圖形處理器(GPU)、現場可編程門陣列(FPGA)、專用集成電路(ASIC)、中央處理器(CPU)四大類。其中,GPU 是較為成熟的通用型人工智能芯片,FPGA 和ASIC 則是針對人工智能需求特征的半定制和全定制芯片,GPU、FPGA、ASIC 作為加速芯片協助 CPU
9、進行大規模計算。4/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 三類芯片用于深度學習時各有優缺點:1)通用性:GPUFPGAASIC,通用性越低,代表其適合支持的算法類型越少。2)性能功耗比:GPUFPGAASIC,性能功耗比越高越好,意味著相同功耗下運算次數越多,訓練相同算法所需要的時間越短。目前 AI 芯片主要被國際廠商壟斷,根據 Co unterpoint、IDC 數據,Intel 和 AMD 共計占 2022 年全球數據中心 CPU 市場收入的 92.45%,Nvidia 占 2021 年中國加速卡市場份額的 80%以上。二、二、AI 芯片分類解讀芯
10、片分類解讀 1.CPU:底層核心算力芯片底層核心算力芯片 CPU(Central Processing Unit)中央處理器:是計算機的運算和控制核心(Control Unit),是信息處理、程序運行的最終執行單元,主要功能是完成計算機的數據運算以及系統控制功能。5/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 CPU 擅長邏輯控制,在深度學習中可用于推理/預測。在深度學習中,模型的訓練和推理是兩個不同的過程:在訓練過程中,模型需要進行大量的矩陣運算,因此通常使用 GPU 等擅長并行計算的芯片進行處理;在推理過程中,需要對大量的已經訓練好的模型進行實時的推理/
11、預測操作,而這種操作通常需要高效的邏輯控制能力和低延遲的響應速度,這正是 CPU 所擅長的。2.GPU:AI 高性能計算王者高性能計算王者 GPU(Graphics Processing Unit)圖形處理器:GPU 最初是為了滿足計算機游戲等圖形處理需求而被開發出來的,但憑借高并行計算和大規模數據處理能力,逐漸開始用于通用計算。根據應用場景和處理任務的不同,GPU 形成兩條分支:傳統 GPU:用于圖形圖像處理,因此內置了一系列專用運算模塊,如視頻編解碼加速引擎、2D 加速引擎、圖像渲染等;GPGPU:通用計算圖形處理器(general-purpose GPU)。為了更好地支持通用計算,GPG
12、PU 減弱了 GPU 圖形顯示部分的能力,將其余部分全部投入到通用計算中,同時增加了專用向量、張量、矩陣運算指令,提升了浮點運算的精度和性能,以實現人工智能、專業計算等加速應用。GPU 在 AI 模型構建中具有較高的適配性。GPU 的高并行性可以更好地支持 AI 模型訓練和推理過程中大量的矩陣或向量計算,以 NVIDIAGPU 系列旗艦產品 A100 為例:根據 NVIDIA 公布的規格參數,6/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 A100 的深度學習運算性能可達 312Tflops。在 AI 訓練過程中,2048 個 A100GPU 可在一分鐘內成
13、規模地處理 BERT 的訓練工作負載;在 AI 推理過程中,A100 可將推理吞吐量提升到高達 CPU 的 249 倍。AI 模型與應用的加速發展推動 GPU 芯片放量增長。根據 Verified Market Research 數據,2021 年全球GPU 市場規模為 334.7 億美元,預計 2030 年將達到 4773.7 億美元,CAGR(2021-2030)為 34.35%。從國內市場來看,2020 年中國大陸的獨立 GPU 市場規模為 47.39 億元,預計 2027 年市場規模將達345.57 億美元,CAGR(2021-2027)為 32.8%。3.FPGA:可編程芯片加速替代
14、:可編程芯片加速替代 FPGA(Field Programmable Gate Array)現場可編程門陣列:FPGA 最大的特點在于其現場可編程的特性,無論是 CPU、GPU 還是 ASIC,在芯片制造完成后功能會被固定,用戶無法對硬件功能做出更改,而 FPGA 在制造完成后仍可使用配套軟件對芯片進行功能配置,將芯片上空白的模塊轉化為自身所需的具備特定功能的模塊。(1)可編程性、高并行性、低延遲、低功耗等特點,使得可編程性、高并行性、低延遲、低功耗等特點,使得 FPGA 在在 AI 推斷領域潛力推斷領域潛力巨大巨大 FPGA 可以在運行時根據需要進行動態配置和優化功耗,同時擁有流水線并行和數
15、據并行能力,既可以使用數據并行來處理大量數據,也能夠憑借流水線并行來提高計算的吞吐量和降低延遲。根據與非網數據,FPGA(Stratix10)在計算密集型任務的吞吐量約為 CPU 的 10 倍,延遲與功耗均為 GPU 的 1/10。云端推斷:在面對推斷環節的小批量數據處理時,GPU 的并行計算優勢不明顯,FPGA 可以憑借流水線并行,達到高并行+低延遲的效果。根據 IDC 數據,2020 年中國云端推理芯片占比已超過 50%,預計2025 年將達到 60.8%,云端推斷市場廣闊。邊緣推斷:受延遲、隱私和帶寬限制的驅動,FPGA 逐漸被布署于 IoT 設備當中,以滿足低功耗+靈活推理+快速響應的
16、需求。(2)FPGA 是是 AI 時代下解決暗硅效應的有效途徑時代下解決暗硅效應的有效途徑 暗硅效應(Dark Silicon)指由于芯片工藝和尺寸的限制,芯片上只有一小部分區域可以同時運行,其余的區域被閑置或關閉,這些閑置或關閉的區域被稱為“暗硅”。在 AI 計算領域,由于摩爾定律的限制和散熱問題,先進高效的硬件設計會更容易導致暗硅效應,限制了芯片的計算能力和應用范圍。據相關論文,在 22nm 制程下,暗硅面積將達 21%。在 8nm 制程下,暗硅面積將提升至 50%以上。由于暗硅效應,預計到 2024 年平均只能實現 7.9 倍的加速比,與每代性能翻倍的目標相比差距將近 24 倍。7/21
17、 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 FPGA 的可編程性和可重構性使其能夠靈活地部署和優化計算任務,從而在一定程度上緩解了暗硅效應的影響。簡單來說,FPGA 減少暗硅效應的方法有兩個方向,一是通過優化電路結構,盡可能減少不活躍區域的數量;二是通過動態重構電路,使得不活躍區域可以被重用。4.ASIC:云計算專用高端芯片:云計算專用高端芯片 ASIC(Application Specific Integrated Circuit)專用集成電路:是一種為專門應特定用戶要求和特定電子系統的需要而設計、制造的集成電路。ASIC 具有較高的能效比和算力水平,但通用性
18、和靈活性較差。能效方面:由于 ASIC 是為特定應用程序設計的,其電路可以被高度優化,以最大程度地減少功耗。根據 Bob Broderson 數據,FPGA 的能效比集中在 1-10MOPS/mW 之間。ASIC 的能效比處于專用硬件水平,超過 100MOPS/mW,是 FPGA 的 10 倍以上。算力方面:由于 ASIC 芯片的設計目標非常明確,專門為特定的應用場景進行優化,因此其性能通常比通用芯片更高。根據頭豹研究院數據,按照 CPU、GPU、FPGA、ASIC 順序,芯片算力水平逐漸增加,其中 ASIC 算力水平最高,在 1 萬-1000 萬Mhash/s 之間。隨著技術、算法的普及,A
19、SIC 將更具備競爭優勢。ASIC 在研發制作方面一次性成本較高,但量產后平均成本低,具有批量生產的成本優勢。目前人工智能屬于大爆發時期,大量的算法不斷涌出,遠沒有到算法平穩期,ASIC 專用芯片如何做到適應各種算法是當前最大的問題。但隨著技術、算法的普及,ASIC 將更加具備競爭優勢。ASIC 主要應用在推斷場景,在終端推斷市場份額最大,在云端推斷市場增速較快。5.國產國產 CPU 多點開花加速追趕多點開花加速追趕 全球服務器 CPU 市場目前被 Intel 和 AMD 所壟斷,國產 CPU 在性能方面與國際領先水平仍有差距。根據 Counterpoint 數據,在 2022 年全球數據中心
20、 CPU 市場中,Intel 以 70.77%的市場份額排名第一,AMD 以 19.84%的份額緊隨其后,剩余廠商僅占據 9.39%的市場份額,整體上處于壟斷局面;目前國內CPU 廠商主有海光、海思、飛騰、龍芯、申威海光、海思、飛騰、龍芯、申威等。通過產品對比發現,目前國產服務器 CPU 性能已接近 Intel 中端產品水平,但整體上國內 CPU 廠商仍在工藝制程、運算速度(主頻)、多任務處理(核心與線程數)方面落后于國際先進水平。8/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 6.生態體系逐步完善,國產生態體系逐步完善,國產 GPU 多領域追趕多領域追趕
21、全球 GPU 芯片市場主要由海外廠商占據壟斷地位,國產廠商加速布局。全球 GPU 市場被英偉達、英特英偉達、英特爾爾和 AMD 三強壟斷,英偉達憑借其自身 CUDA 生態在 AI 及高性能計算占據絕對主導地位;國內市場中,景嘉微景嘉微在圖形渲染 GPU 領域持續深耕,另外天數智芯、壁仞科技、登臨科技天數智芯、壁仞科技、登臨科技等一批主打 AI 及高性能計算的 GPGPU 初創企業正加速涌入。圖形渲染 GPU:目前國內廠商在圖形渲染 GPU 方面與國外龍頭廠商差距不斷縮小。芯動科技芯動科技的“風華 2號”GPU 采用 5nm 工藝制程,與 Nvidia 最新一代產品 RTX40 系列持平,實現國
22、產圖形渲染 GPU 破局。景嘉微在工藝制程、核心頻率、浮點性能等方面雖落后于 Nvidia 同代產品,但差距正逐漸縮小。在 GPGPU 方面,目前國內廠商與 Nvidia 在 GPGPU 上仍存在較大差距。制程方面,目前 Nvidia 已率先到達 4nm,國內廠商多集中在 7nm;算力方面,國內廠商大多不支持雙精度(FP64)計算,在單精度(FP32)及定點計算(INT8)方面與國外中端產品持平,天數智芯、壁仞科技天數智芯、壁仞科技的 AI 芯片產品在單精度性能上超過 NVIDIAA100;接口方面,壁仞科技壁仞科技與 Nvidia 率先使用 PCle5.0,其余廠商多集中在PCle4.0;生
23、態方面,國內企業多采用 OpenCL 進行自主生態建設,與 NvidiaCUDA 的成熟生態相比,差距較為明顯。7.FPGA/ASIC 國產替代正當時國產替代正當時 FPGA 全球市場呈現“兩大兩小”格局,Altera 與 Xilinx 市占率共計超 80%,Lattice 和 Microsemi 市占率共計超 10%;整體來看,安路科技、紫光同創等廠商處于國際中端水平,仍需進一步突破。工藝制程方面,當前國產廠商先進制程集中在 28nm,落后于國際 16nm 水平;在等效 LUT 數量上,國產廠商旗艦產品處于 200K 水平,僅為 XILINX 高端產品的 25%左右。ASIC 不同于 CPU
24、、GPU、FPGA,目前全球 ASIC 市場并未形成明顯的頭部廠商,國產廠商快速發展;通過產品對比發現,目前國產廠商集中采用 7nm 工藝制程,與國外 ASIC 廠商相同;算力方面,海思海思的昇騰 910 在 BF16 浮點算力和 INT8 定點算力方面超越 Googel 最新一代產品 TPUv4,遂原科技遂原科技和寒武寒武紀紀的產品在整體性能上也與 Googel 比肩。未來國產廠商有望在 ASIC 領域繼續保持技術優勢,突破國外廠商在 AI 芯片的壟斷格局。9/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 三、我國三、我國 AI 芯片芯片現狀現狀 1.算力精
25、度門檻下,算力精度門檻下,ASIC 和和 GPGPU 是最適合大模型的架構是最適合大模型的架構 大模型云端訓練多數情況下都在 FP32 計算精度上,推理端則以 FP16 和混合精度為主。算力越強,模型效率越高。FPGA 和 GPU 對比,雖然 FPGA 吞吐率、性能功耗比優于 GPU,但是 FPGA 存在兩個天然缺陷,FPGA 只適合做定點運算,不適合做浮點運算,如果用來做浮點運算耗費邏輯很大,而且有些FPGA 不能直接對浮點數進行操作的,只能采用定點數進行數值運算。其二,FPGA 可以理解成某種“芯片半成品”,需要開發人員做大量二次開發設計芯片,因此開發使用門檻較高。ASIC 和 GPU 則
26、能夠滿足大模型的入門門檻。國內視角下,華為、百度昆侖芯、阿里、寒武紀、海光信息華為、百度昆侖芯、阿里、寒武紀、海光信息及一眾初創企業(燧原、天數、壁仞、沐曦燧原、天數、壁仞、沐曦)均推出云端訓練和推理芯片。架構選擇上,華為、百度、阿里、寒武紀選擇 ASIC 路線。華為、百度、阿里自家業務場景對 AI 芯片存在天然需求,選擇 ASIC 在量產制造供應鏈上的難度顯著低于 GPU。初創企業則押注通用型 GPGPU 架構,壁仞、沐曦等初創企業多創立于 2018 年前后,團隊一般來自出走英偉達、AMD 的技術專家,因此技術路線多選擇他們所熟悉的通用型 GPU。2.AI 大模型讓大模型讓 ASIC 和和
27、GPU 之間的邊界愈發模糊,國內之間的邊界愈發模糊,國內 GPU 初創企業或初創企業或在競爭中落后在競爭中落后 英偉達在過去很長的一段時間內堅持用統一的硬件,即通用型 GPU 同時支持 Deep Learning 和圖像需求。但高性能計算迭代到 H100 產品后,其計算卡和圖像卡分開,在技術路線上也愈發靠近 ASIC。初創企業為了實現通用性,選擇了在芯片設計和制造供應鏈存在較多困難的 GPU 路線,暫未推出真正具備量產成熟度的產品。3.國產國產 ASIC 廠商中,寒武紀是為數不多能夠較為開放廠商中,寒武紀是為數不多能夠較為開放支持中游支持中游 AI 算法和算法和模型商模型商 1)華為選擇部署端
28、到端的完整生態,例如使用昇騰 910 必須搭配華為的大模型支持框架 Mind Spore、盤古大模型。第三方開源模型無法在華為上運行,若要運營必須依賴華為提供的工具做深度定制和優化,10/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 開放程度低。2)阿里在該方面的定位是系統集成商和服務商,運用自身芯片產品搭建加速平臺中,對外輸出服務。3)百度昆侖芯主要在自身智算集群和服務器上用,以及國內企業、研究所、政府中使用。且由于百度自身 AI 算法商的商業定位,與其他 AI 廠商之間存在競爭關系,昆侖芯未必能夠在其他 AI算法商中鋪開。英偉達 A800、H800 對國產
29、廠商存在一定的威脅,但在大模型趨勢下,英偉達的優勢有所弱化。過去,機器學習訓練時間的主導因素是計算時間,等待矩陣乘法,通過張量核心和降低浮點精度,這個問題很快被解決?,F在大型模型訓練/推理中的大部分時間都是在等待數據到達計算資源。內存帶寬和容量的限制不斷出現在 NvidiaA100GPU,如果不進行大量優化,A100 往往具有非常低的 FLOPS 利用率。而800 系列降低了數據傳輸速率,弱化了英偉達高算力的優勢。此外,大模型 AI 芯片更需要片間互聯、HBM,英偉達 CUDA 這種標準化平臺的優勢同樣有所弱化。寒武紀的優勢在于各種深度學習框架,合作經驗豐富。寒武紀思元系列產品適配 Tenso
30、rFlow、Pytorch、Caffe 深度學習框架。2019 年開始適配???,峰值時刻合作開發團隊有 70-80 人(公司派出 20-30 人),思元 290 與商湯在 CV 層面深度合作,NLP 領域在訊飛、百度語音都有出貨。寒武紀思元 590 將是最早實現商業應用的接近英偉達 A100 性能的國產 AI 訓練芯片。目前華為昇騰910 性能超越英偉達 V100,但未達到 A100 水平,壁仞科技 7nm 通用 GPU 芯片 BR100 稱其可與被禁售的英偉達 H100 一較高下,但尚未量產上市。寒武紀思源 590 芯片面積 800mm2,和 A100 一樣。內存帶寬 2.7T,是 A100
31、1.8T 的 1.5 倍。HBM2 使用海力士,功耗達 350W-550W,FP32 算力到80TFLops,目前已經客戶送樣測試階段,在高性能國產 AI 芯片中進程最快,最有機會承接國內 AI 算法商對英偉達 A100、H100 的需求。四、四、AI 芯片芯片競爭格局競爭格局 在不同的應用場景之下,已經形成了不同的 AI 芯片競爭格局。1.云和數據中心云和數據中心 AI 芯片市場芯片市場 在云和數據中心 AI 芯片市場,“訓練”和“推理”兩個環節都是英偉達 GPU 一家獨大,幾乎占據 90%以上份額,包括 AWS、微軟、微軟 Azure、谷歌云、阿里云、華為云、騰訊云、谷歌云、阿里云、華為云
32、、騰訊云在內的大部分公有云廠商上線的AI 加速計算公有云服務絕大部分都是基于英偉達 Tesla 系列 GPU。(1)云端訓練云端訓練 云端訓練用的幾乎全部是英偉達 GPU,公有云廠商中僅谷歌云一家除了提供以英偉達 GPU 為主的云計算加速服務之外,還推出了基于自研 AI 芯片 TPU 的深度學習訓練服務;(2)云端推理云端推理 云端推理目前出現了基于 GPU、FPGA、ASIC 三種不同芯片云計算服務,但是市場份額仍然以英偉達GPU 為主,其中 AWS、阿里云、騰訊云、華為云等公有云廠商均推出了 FPGA 加速計算云服務,另外AWS 推出了基于自研 AI 芯片 Inferentia 的 ASI
33、C 加速計算服務,華為云推出了基于自研 AI 芯片昇騰310 的 ASIC 加速計算服務。11/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 2.設備端和邊緣計算設備端和邊緣計算“推理推理”市場市場 在設備端和邊緣計算“推理”市場,各類型芯片各自為陣,尚無絕對優勢地位的芯片廠商出現手機市場以高通、華為、蘋果高通、華為、蘋果原主控芯片廠商為主,自動駕駛、安防 IPC 領域英偉達英偉達暫時領先。(1)手機手機 高通從驍龍 820 開始,就已經具備第一代人工智能引擎 AIEngine;高通從第三代 AIEngine 開始引入異構計算 CPU、GPU 和 DSP 的異
34、構并行計算;目前高通已經迭代至第四代,驍龍 855 是第一個搭載第四代 AIEngine 的 SoC。華為麒麟 970、980 分別引入寒武紀 IP(1A/1H),使得手機 SoC 開始具備 AI能力,在 2019 年 6 月華為發布麒麟 810,華為與寒武紀合作終止,華為采用了自研 AI 芯片達芬奇架構(華為在 2018 年推出了達芬奇架構,對標寒武紀智能處理器 IPCambricon-1A/1H/1M)。蘋果2017 年發布的 A11 芯片也具備了 AI 能力,附帶 NeuralEngine 和開發平臺 CoreML 用于機器學習。(2)安防安防 IPC 仍然以采用英偉達 Jetson 系
35、列 GPU 為主。例如??挡捎昧擞ミ_ JetsonTX1,大華睿智系列人臉網絡攝像機采用的是英偉達 TeslaP4GPU。另外國內三大安防廠商也在陸續采用 ASIC 芯片,例如???、大華、宇視在前端智能化攝像機中采用 Movidious 的 Myriad 系列芯片,大華自研 AI 芯片用于新款睿智人臉攝像機。(3)智能駕駛智能駕駛 L3 級別以上自動駕駛芯片以英偉達 Drive 平臺為主(包括 Xavier 和 Orin 兩款 SoC);華為將昇騰 310用于自動駕駛域控制器 MDC 上,2020 年已經通過車規級認證;英特爾 Mobileye 的 EyeQ4-5 被用在L3-5 智能駕駛。
36、但是目前整車廠和 Tier1 實際采用得最多仍然是以英偉達 GPU 為主。(在低級別的 L1-L2 輔助駕駛上,采用的是 NXP、瑞薩等廠商的 MCU 芯片,不涉及深度學習。)(4)智能音箱)智能音箱 目前智能音箱的語音語義識別均在云端完成推理計算,終端上沒有 AI 專用處理單元。12/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 五、五、AI 芯片四大技術路線芯片四大技術路線 由于 AIGC、類 GPT 應用有鯰魚效應,帶來約百倍算力需求。而英偉達等供給解決需求有瓶頸,因此國產 AI 芯片有邏輯上需求彈性,AI 服務器也有空間。根據 IDC 數據,2021
37、年全球 AI 服務器市場規模為156 億美元,預計到 2025 年全球 AI 服務器市場將達到 318 億美元,預計 21-25 年 CAGR 僅僅 19.5%。AI 服務器的增長和規??傤~恐怕無法滿足類 GPT 類應用的百倍需求(例如生產地域、供應商產能、工人等限制),因此 AI 芯片可能會大量爆發,其次是 AI 服務器。近期的行業領袖創業潮,會加速這種趨勢。2012-2014 年 AI 創業潮,造就 2015-2017 年 AI 機會。2022H2-2023 新一輪 AI 大模型創業潮。目前 AI 芯片主要玩家應對英偉達塑造的 AI 生態壁壘,選取了不同的商業策略:1)英偉達 AI 芯片依
38、然是 AI 訓練和推理最佳選擇;2)寒武紀在走英偉達的路線;3)AMD 在走部分兼容 CUDA 的路線;4)谷歌、華為、百度走的是“深度學習框架+AI 芯片”自研路線。1.英偉達:通用芯片英偉達:通用芯片 GPU 英偉達目前在深度學習訓練芯片市場占據絕對壟斷地位,憑借的是:(1)CUDA 及及 cuDNN、TensorRT 等一系列專為深度學習打造的軟件工具鏈等一系列專為深度學習打造的軟件工具鏈 CUDA 是實現 CPU 和 GPU 分工的編程工具;cuDNN 針對深度學習訓練,將深度學習模型中對各層(Layer)的常見的操作(例如卷積 convolution、池化 pooling)以方便理解
39、和使用的接口暴露給開發人員,從而使得開發人員可以快速搭建 training 的庫;TensorRT 針對推理環節,幫助模型自動減值和優化;由于開發者對于這些工具已經非常熟悉,由于學習成本的存在不會輕易遷移;(2)深度學習框架和英偉達)深度學習框架和英偉達 AI 芯片的高度耦合芯片的高度耦合 由于各家 AI 芯片廠商編程語言無法兼容,而深度學習框架廠商僅支持一家 AI 芯片就要投入巨大工程量,因此導致其最終只選擇市占率最大的 1-2 家進行深度支持,英偉達在 AI 訓練和推理上實現了軟硬件高度耦合而構筑了極高的生態壁壘。英偉達高性能訓練和推理芯片產品主要包括 V100、A100、H100 以及
40、3 月 21 日 GTC2023 發布的H100NVL(2 張 H100 通過外部接口以 600GB/s 的速度連接,每張卡顯存為 94GB 合計為 188GB),預計 2024 年將推出基于下代 Blackwell 架構的 B100 產品。13/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 除上文提到的軟件及生態壁壘外,英偉達芯片的主要優勢在于大片上內存、高顯存帶寬以及片間互聯方案。2022 年 9 月起,美國禁止峰值性能等于或大于 A100 閾值的英偉達芯片向中國出口,合法版本 A800、H800 已在國內應用。由于中國高性能計算市場對英偉達來說是一個不可
41、放棄的巨大市場,英偉達分別于 22 年 11 月、23 年 3 月發布 A100、H100 的“閹割”版本 A800、H800,通過降低數據傳輸速率(顯存帶寬)至 400GB/s、450GB/s 避開美國限制,從而合法出口到中國,根據 CEO 黃仁勛在 GTC2023演講,H800 已在國內 BAT 的云計算業務中應用。2.寒武紀:復制英偉達成長之路寒武紀:復制英偉達成長之路 寒武紀芯片硬件性能相比于英偉達還有追趕空間,上層軟件堆棧與英偉達相似,全自研不是兼容路線;不同之處在于寒武紀需要自己對原生深度學習框架進行修改以支持思元芯片,而英偉達有谷歌原廠支持。硬件方面,從一些表觀的性能參數對比來看
42、,寒武紀訓練芯片思元 290 和英偉達 A100、昇騰 910 相比性能還有追趕的空間。軟件方面,寒武紀是自己對原生的 Tensorflow 和 Pytorch 深度學習框架去針對自己的思元芯片去做修改而非像華為一樣自研深度學習框架去進行優化,也不像英偉達一樣因為芯片市占率高,有 Pytorch/Tensorflow 原廠去做 GPU 算子的優化和設備的支持。另外寒武紀相比英偉達的算子庫豐富程度以及軟件工具鏈的完善程度還有一定差距,需要時間去追趕。3.AMD:部分兼容英偉達:部分兼容英偉達 CUDA AMD 選擇了部分兼容英偉達 CUDA,借力英偉達生態的路線。AMD 在 2016 年全球超算
43、大會上推出了ROCm,也就是對標英偉達 CUDA 一樣的智能編程語言,ROCm 軟件堆棧的結構設計與 CUDA 相似度很高;對標英偉達深度學習庫 cuDNN,AMD 推出了 MIOpen;對標英偉達深度學習推理框架TensorRT,AMD 推出了 Tensile;對標英偉達編譯器 NVCC,AMD 推出了 HCC。ROCm 中包含的HIPify 工具,可以把 CUDA 代碼一鍵轉換成 ROCm 棧的 API,減少用戶移植成本。走兼容英偉達 CUDA 的路線其難點在于其更新迭代速度永遠跟不上 CUDA 并且很難做到完全兼容。1)迭代永遠慢一步:英偉達 GPU 在微架構和指令集上迭代很快,在上層軟
44、件堆棧上很多地方也要做相應的功能更新;但是 AMD 不可能知道英偉達的產品路線圖,軟件更新永遠會慢英偉達一步(例如 AMD有可能剛宣布支持了 CUDA11,但是英偉達已經推出 CUDA12 了)。2)難以完全兼容反而會增加開發者的工作量:像 CUDA 這樣的大型軟件本身架構很復雜,AMD 需要投入大量人力物力用幾年甚至十幾 14/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 年才能追趕上;因為難免存在功能差異,如果兼容做不好反而會影響性能(雖然 99%相似了,但是解決剩下來的 1%不同之處可能會消耗開發者 99%的時間)。4.谷歌、華為:谷歌、華為:“深度學習
45、框架深度學習框架+AI 芯片芯片”自研自研 谷歌憑借 Tensorflow 去做 TPU 相對而言不存在太多生態壁壘問題,但是仍然無法撼動英偉達,其原因在于 TPU 本身性能還有進一步提升空間以及過于專用的問題。理論上谷歌憑借 Tensorflow 在深度學習框架領域實現了壟斷地位,是具備絕對的生態掌控力的,會投入大量的 Tensorflow 工程師針對自家TPU 去做支持和優化,因此 TPU 去挑戰英偉達 GPU 其實不存在所謂生態壁壘的問題。但是自谷歌自2016 年推出第一代 TPUv1 至今已經到第四代 TPUv4(2021 年 5 月發布),仍然無法從英偉達手中搶走明顯份額,其原因主要
46、在于 TPU 本身性能相比于英偉達同時期 GPU 而言還有一定差距,另外其芯片設計過于專用所以在卷積之外的算法表現上并不算好:(1)谷歌在芯片設計上的實力和英偉達相比還有一定差距)谷歌在芯片設計上的實力和英偉達相比還有一定差距 谷歌在 TPU 論文中也明確提到由于項目時間比較緊,所以很多優化只能放棄。從性能參數來看谷歌TPUv2 和英偉達同年推出的 V100 相比,性能功耗比、顯存帶寬等指標有著明著差距,即使是谷歌在2018 年推出了第三代 TPU,其性能(FP32)、功耗等指標仍然和英偉達 V100 相比存在一定差距。(2)谷歌采用的是傳統脈動陣列機架構,芯片設計上過于專用)谷歌采用的是傳統
47、脈動陣列機架構,芯片設計上過于專用 TPU 的主要創新在于三點:大規模片上內存、脈動式內存訪問、8 位低精度運算。脈動陣列機做卷積時效果不錯,但是做其他類型神經網絡運算效果不是很好,在一定程度上犧牲了通用性來換取特定場景的高性能。TPU 在芯片設計上只能完成“乘+加+乘+加.”規則的運算,無法高效實現“復數乘法、求倒、求平方根倒數”等常見算法?,F在 AI 芯片的行業趨勢是:GPU 在通用性的基礎上逐漸增加專用計算單元;而類似 TPU 的 ASIC 芯片在專用性的基礎上逐漸增加通用計算單元兩類芯片有逐漸收斂的趨勢。英偉達在用于深度學習領域的 GPU 上的設計思路是“在通用的基礎上增加專用運算單元
48、”,例如在 Volta 架構上開始增加TensorCore(專門用于深度學習加速)、在 Turing 架構上開始增加 RTCore(專門用于光線追蹤加速),犧牲通用性為特殊的計算或者算法實現特殊架構的硬件以達到更快的速度。而 AI 芯片一開始走專用路線,但是現在在專用性之外也在架構設計上也增加了通用計算單元(例如谷歌 TPUv1 主要是矩陣乘法運算單元占了 24%芯片面積,但是 TPUv2 也開始增加浮點 ALU 做 SIMD)。15/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 華為在 2019 年 8 月發布的昇騰 910 與英偉達在 2020 年 5 月
49、發布的 A100 性能相當,但是我們認為華為的主要問題在于不具備深度學習框架生態掌控力。即使其芯片性能與英偉達水平差不多,但是由于Tensorflow/Pytorch 兩大主流深度學習訓練框架沒有基于華為昇騰 910 做特定的優化,所以算法結合上述兩大訓練框架在昇騰 910 上實際跑出來的性能其實不如英偉達 A100;目前僅華為自研的深度學習框架 MindSpore 對昇騰 910 和昇騰 310 做了特別優化,由于華為 MindSpore 大部分精力都是放在對昇騰芯片的算子支持和優化上,對英偉達 GPU 的支持還不夠,所以只有同時使用華為的深度學習框架和昇騰芯片才能同時發揮出兩者的最佳性能。
50、上述我們提到要想在深度學習訓練框架要想打破 Tensorflow 和 Pytorch 的壟斷必須要靠原始創新,而目前包括華為 MindSpore 在內的國產深度學習框架尚未很好解決上述兩大訓練框架的痛點。Caffe 之所以能夠在早期獲得開發者歡迎是因為解決了深度學習框架從 0 到 1 的過程,Tensorflow 之所以可以取代Caffe 是因為解決了其不夠靈活、不能自動求導、對非計算機視覺任務支持不好等問題,Pytorch 之所以明顯搶奪 Tensorflow 的份額是因為 Pytorch 引入了動態圖解決了 Tensorflow 是靜態圖設計調試困難的問題。但是目前國產的三個深度學習框架百
51、度 PaddlePaddle、曠視 Megengine、華為 MindSpore 還沒有完美解決開發者在用 Tensorflow 和 Pytorch 所遇到的痛點。我們認為 Tensorflow 和 Pytorch 目前共同的痛點在于對海量算子和各種 AI 芯片支持的難度,華為正在探索靠 AI 編譯器的技術來解決上述問題,但是目前編譯技術仍然還達不到人工優化的效果。華為全面布局了三個層次的 AI 編譯器,包括圖靈完備的圖層 IR 設計、使用 poly 技術的圖算融合/算子自動生成技術(以 TVM 編譯器的設計思想推出算子開發工具 TBE 來解決算子開發自動優化的問題)。16/21 2023 年
52、年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 六、六、AI 芯片芯片市場預期市場預期 1.ChatGPT 快速滲透,快速滲透,AI 產業迎發展新機產業迎發展新機 ChatGPT 是由 OpenAI 公司開發的人工智能聊天機器人程序,于 2022 年 11 月發布,推出不久便在全球范圍內爆火。從用戶體驗來看,ChatGPT 不僅能實現流暢的文字聊天,還可以勝任翻譯、作詩、寫新聞、做報表、編代碼等相對復雜的語言工作。ChatGPT 爆火的背后是人工智能算法的迭代升級。ChatGPT 是生成式人工智能技術(AIGC)的一種,與傳統的決策/分析式 AI 相比,生成式 AI 并非通過簡單
53、分析已有數據來進行分析與決策,而是在學習歸納已有數據后進行演技創造,基于歷史進行模仿式、縫合式創作,生成全新的內容。ChatGPT 單次訓練所需算力約 27.5PFlop/s-day,單顆 NVIDIAV100 需計算 220 天。隨著模型參數的不斷增加,模型訓練所需算力將進一步提升,將進一步拉動對算力芯片的需求。預測隨著 ChatGPT 等 17/21 2023 年年 4 月月 7 日日 行業行業|深度深度|研究報告研究報告 新興 AI 應用的落地,將會不斷打開下游市場需求,而伴隨算力的增長,也將帶來對上游半導體芯片的需求量快速提升。2.全球全球 AI 芯片有望達到芯片有望達到 726 億美
54、元規模億美元規模 隨著 AI 應用的普及和算力需求的不斷擴大,AI 芯片需求有望率先擴張。根據 IDC 預測,中國 AI 算力規模將保持高速增長,預計到 2026 年將達 1271.4EFLOPS,CAGRA(2022-2026 年)達 52.3%。在此背景下,IDC 預測異構計算將成為主流趨勢,未來 18 個月全球人工智能服務器 GPU、ASIC 和 FPGA的搭載率均會上升,2025 年人工智能芯片市場規模將達 726 億美元。3.預測預測“文心一言文心一言”等等 LLM 模型的推出將給國內模型的推出將給國內 GPU 市場帶來市場帶來 28.51 億美億美元的增量元的增量 據百度官方數據,
55、“文心一言”基于文心大模型,參數規模為 100 億,目前已經向公眾開放,并將與搜索引擎業務整合。假設短期國內將出現 5 家與百度“文心一言”相似的企業,模型參數量與訓練算力需求成比例。根據 OpenAI 公布的 GPT3 系列參數量及訓練算力需求數據,可推算出文心大模型的單次訓練算18/21 2023 年年 4 月月 7 日日行業行業|深度深度|研究報告研究報告 力需求為 208.48PFlop/s-day。據 Similarweb 數據,2023 年 1 月百度搜索引擎的訪問量為 4.9 億次,假設“文心一言”將整合到百度搜索引擎中,單日運營算力需求為 125.08PFlop/sday。根據
56、 NVIDIA 數據,A100 的 FP64TensorCore 算力為 19.5TFlops,單價為 1 萬美元。根據經驗假設日常算力利用率為 30%,則短期 LLM 模型將給國內 GPU 市場帶來 28.51 億美元的增量。長期 LLM 模型有望與搜索引擎結合,為 GPU 帶來 447.51 億美元的增量空間。假設未來 ChatGPT 將與搜索引擎結合,日活躍用戶數量參考 Google。根據 Similarweb 數據,2023 年 1 月 Google 訪問量為 883 億。假設其他數據與測算方式不變,則 ChatGPT 與搜索引擎結合能夠給 GPU 市場帶來 447.51 億美元的增量
57、空間。七、相關公司七、相關公司 1.龍芯中科龍芯中科公司主要從事處理器(CPU)及配套芯片的研制、銷售及服務。主要產品包括龍芯 1 號、龍芯 2 號、龍芯 3 號三大系列處理器芯片及橋片等配套芯片,系列產品在電子政務、能源、交通、金融、電信、教育等行業領域已獲得廣泛運用。19/21 2023 年年 4 月月 7 日日行業行業|深度深度|研究報告研究報告 堅持自主研發指令系統、IP 核等核心技術。龍芯中科掌握指令系統、處理器核微結構、GPU 以及各種接口 IP 等芯片核心技術,在關鍵技術上進行自主研發,擁有大量的自主知識產權,已取得專利 400 余項。GPU 產品進展順利,正研制新一代圖形及計算
58、加速 GPGPU 核。公司在 2022 年上半年完成了第一代龍芯圖形處理器架構 LG100 系列,目前正在啟動第二代龍芯圖形處理器架構 LG200 系列圖形處理器核的研制。根據公司在 2022 年半年度業績交流會信息,第一代 GPU 核(LG100)已經集成在 7A2000 中,新一代 GPGPU 核(LG200)的研制也取得了積極進展。2.海光信息海光信息公司主營產品包括海光通用處理器(CPU)和海光協處理器(DCU)。海光 CPU 主要面向復雜邏輯計算、多任務調度等通用處理器應用場景需求,兼容國際主流 x86 處理器架構和技術路線。從應用場景看,海光 CPU 分為 7000、5000、30
59、00 三個系列,分別定位于高端服務器、中低端服務器和邊緣計算服務器。海光 DCU 是公司基于 GPGPU 架構設計的一款協處理器,目前以 8000 系列為主,面向服務器集群或數據中心。海光 DCU 全面兼容 ROCmGPU 計算生態,能夠較好地適配國際主流商業計算軟件,解決了產品推廣過程中的軟件生態兼容性問題。CPU 與 DPU 持續迭代,性能比肩國際主流廠商。CPU 方面,目前海光一號和海光二號已經實現量產,海光三號已經正式發布,海光四號目前進入研發階段。海光 CPU 的性能在國內處于領先地位,但與國際廠商在高端產品性能上有所差距,接近 Intel 中端產品水平;DCU 方面,深算一號已實現
60、商業化應用,深算二號已于 2020 年 1 月啟動研發。在典型應用場景下,公司深算一號指標達到國際上同類型高端產品的水平。3.景嘉微景嘉微公司主要從事高可靠電子產品的研發、生產和銷售,產品主要涉及圖形顯控領域、小型專用化雷達領域、芯片領域等。圖形顯控是公司現有核心業務,也是傳統優勢業務,小型專用化雷達和芯片是公司未來大力發展的業務方向。GPU 研發進程平穩推進,新產品可滿足 AI 計算需求。公司以 JM5400 研發成功為起點,不斷研發更為先進且適用更為廣泛的 GPU 芯片。2014 年公司推出 JM5400,核心頻率 550MHz;2018 年推出JM7200 系列,核心頻率 1300MHz
61、;2021 年推出 JM9 系列,核心頻率 1.5GHz。根據公司 2022 年中期報告,公司 JM9 系列第二款圖形處理芯片于 2022 年 5 月成功研發,可以滿足地理信息系統、媒體處理、CAD 輔助設計、游戲、虛擬化等高性能顯示需求和人工智能計算需求,可廣泛應用于用于臺式機、筆記本、一體機、服務器、工控機、自助終端等設備。4.寒武紀寒武紀寒武紀是 AI 芯片領域的獨角獸。公司成立于 2016 年 3 月 15 日,專注于人工智能芯片產品的研發與技術創新,產品廣泛應用于消費電子、數據中心、云計算等諸多場景。公司是 AI 芯片領域的獨角獸:采用公司終端智能處理器 IP 的終端設備已出貨過億臺
62、;云端智能芯片及加速卡也已應用到國內主流服務器廠商的產品中,并已實現量產出貨;邊緣智能芯片及加速卡的發布標志著公司已形成全面覆蓋云端、邊緣端和終端場景的系列化智能芯片產品布局。20/21 2023 年年 4 月月 7 日日行業行業|深度深度|研究報告研究報告 人工智能的各類應用場景,從云端溢出到邊緣端,或下沉到終端,都離不開智能芯片的高效支撐。公司面向云端、邊緣端、終端推出了三個系列不同品類的通用型智能芯片與處理器產品,分別為終端智能處理器 IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡。八、八、AI 芯片發展趨勢芯片發展趨勢當前 AI 芯片呈現幾大趨勢:1.制程越來越先進制程越來越先進從
63、2017 年英偉達發布 TeslaV100AI 芯片的 12nm 制程開始,業界一直在推進先進制程在 AI 芯片上的應用。英偉達、英特爾、AMD 一路將 AI 芯片制程從 16nm 推進至 4/5nm。2.Chiplet 封裝初露頭角封裝初露頭角2022 年英偉達發布 H100AI 芯片,其芯片主體為單芯片架構,但其 GPU 與 HBM3 存儲芯片的連接,采用 Chiplet 封裝。在此之前,英偉達憑借 NVlink-C2C 實現內部芯片之間的高速連接,且 Nvlink 芯片的連接標準可與 Chiplet 業界的統一標準 Ucle 共通。而 AMD2023 年發布的 InstinctMI300
64、 是業界首次在 AI 芯片上采用更底層的 Chiplet 架構,實現 CPU 和 GPU 這類核心之間的連接。3.頭部廠商加速在頭部廠商加速在 AI 芯片的布局芯片的布局AI 芯片先行者是英偉達,其在 2017 年即發布 TeslaV100 芯片,此后 2020 以來英特爾、AMD 紛紛跟進發布 AI 芯片,并在 2022、2023 年接連發布新款 AI 芯片,發布節奏明顯加快。芯片成本變化有以下規律:封裝形式越復雜,封裝成本、封裝缺陷成本占芯片成本比重越大:具體來說,SoCMCMInFO 小于 2.5D。芯片面積越大,芯片缺陷成本、封裝缺陷成本占比越大;制程越先進,芯片缺陷成本占比越高,而
65、Chiplet 封裝能有效降低芯片缺陷率,最終達到總成本低于 SoC 成本的效果。制程越先進、芯片組面積越大、小芯片(Chips)數量越多,Chiplet 封裝較 SoC 單芯片封裝,成本上越有優勢。鑒于當前 AI 芯片朝高算力、高集成方向演進,制程越來越先進,Chiplet 在更先進制程、更復雜集成中降本優勢愈發明顯,未來有望成為 AI 芯片封裝的主要形式。國產封測龍頭,在 Chiplet 領域已實現技術布局:21/21 2023 年年 4 月月 7 日日行業行業|深度深度|研究報告研究報告 通富微電通富微電已為 AMD 大規模量產 Chiplet 產品;長電科技長電科技早在 2018 年即
66、布局 Chiplet 相關技術,如今已實現量產,2022 年公司加入 Chiplet 國際標準聯盟 Ucle,為公司未來承接海外 Chiplet 奠定了資質基礎;華天科技華天科技 Chiplet 技術已實現量產,其他中小封測廠商已有在 TSV 等 Chiplet 前期技術上的積累。九、參考資料九、參考資料 1.民生證券-電子行業專題研究:國產 AI 算力芯片全景圖2.信達證券-電子行業:方向明確投資熱情重燃,AI 芯片上游機遇凸顯3.華泰證券-電子行業專題研究:海外 AI 芯片公司 3Q22 業績觀察4.民生證券-電子行業周報:Chiplet,AI 芯片算力跨越的破局之路5.中金公司-通信設備
67、行業 2023 年展望:新基建守正出奇,新應用行穩致遠6.東海證券-電子行業周報:百度發布類 ChatGPT 產品文心一言,關注 AI 芯片領域機遇7.上海證券-電子行業周報:國產 Chiplet 架構 AI 芯片發布,繼續看好先進封裝細分賽道8.申萬宏源-計算機行業 AIGC 系列之七:國產 AI 芯片的百倍算力需求!9.中泰證券-電子行業:從 ChatGPT 看芯片產業機遇,ChatGPT 引發算力革命,AI 芯片產業鏈有望率先受益10.浙商證券-寒武紀-688256-深度報告:GPT 算力系列深度寒武紀(688256),中國 AI 芯片先行者11.華西證券-電子行業走進“芯”時代系列深度之四十九“AI 芯片”:AI 領強算力時代,GPU 啟新場景落地免責聲明:以上內容僅供學習交流,不構成投資建議。