《電子行業:從ChatGPT看芯片產業機遇ChatGPT引發算力革命AI芯片產業鏈有望率先受益-230319(58頁).pdf》由會員分享,可在線閱讀,更多相關《電子行業:從ChatGPT看芯片產業機遇ChatGPT引發算力革命AI芯片產業鏈有望率先受益-230319(58頁).pdf(58頁珍藏版)》請在三個皮匠報告上搜索。
1、中泰電子王芳團隊中泰電子王芳團隊分析師:王芳分析師:王芳執業證書編號:執業證書編號:S0740521120002分析師:李雪峰分析師:李雪峰執業證書編號:執業證書編號:S0740522080004證券研究報告證券研究報告20232023年年0303月月1919日日1ChatGPT引發算力革命,引發算力革命,AI芯片產業鏈有望率先受益芯片產業鏈有望率先受益從從 ChatGPT看芯片產業機遇看芯片產業機遇分析師:楊旭分析師:楊旭執業證書編號:執業證書編號:S0740521120001分析師:游凡分析師:游凡執業證書編號:執業證書編號:S0740522120002目目 錄錄一、一、ChatGPT激起
2、激起AI浪潮,多場景創新產業鏈空間廣闊浪潮,多場景創新產業鏈空間廣闊1.1 AI創新浪潮興起,多模態賦能下游行業創新浪潮興起,多模態賦能下游行業1.2 算力芯片迎來產業機遇算力芯片迎來產業機遇二、芯片是二、芯片是ChatGPT底層土壤底層土壤三、芯片需求增長拉動產業鏈機會三、芯片需求增長拉動產業鏈機會四、投資建議及風險提示四、投資建議及風險提示2mMoP2YfWcWeUqUeXMB6M8QaQmOrRmOnOeRoOsRkPmOnM6MnNuMwMtPpPuOnOwPChatGPT快速滲透,快速滲透,AI產業迎發展新機產業迎發展新機3來源:OpenAI官網,World of Engineeri
3、ng,中泰證券研究所ChatGPT是由是由OpenAI公司開發的人工智能聊天機器人程序公司開發的人工智能聊天機器人程序,于于2022年年11月發布月發布,推出不久便在全球范圍內爆火推出不久便在全球范圍內爆火。根據World of Engineering數據顯示,ChatGPT達到1億用戶量用時僅2個月,成為史上用戶增長速度最快的消費級應用程序。與之相比,TikTok達到1億用戶用了9個月,Instagram則花了2年半的時間。從用戶體驗來看,ChatGPT不僅能實現流暢的文字聊天,還可以勝任翻譯、作詩、寫新聞、做報表、編代碼等相對復雜的語言工作。ChatGPT爆火的背后是人工智能算法的迭代升級
4、爆火的背后是人工智能算法的迭代升級。ChatGPT是基于GPT-3.5微調得到的新版本模型,能夠借助人類反饋的強化學習(RLHF)技術來指導模型訓練,實現模型輸出與人類預期的需求,使對話內容更加人性化和富有邏輯性。從2008年第一代生成式預訓練模型GPT-1誕生以來,GPT系列模型幾乎按照每年一代的速度進行迭代升級,未來隨著大語言模型(LLM)技術的不斷突破,AI相關應用有望加速落地,AI產業或將迎來新一輪發展機遇。圖表:應用程序達到圖表:應用程序達到1億用戶量所需時間(月數)億用戶量所需時間(月數)圖表:圖表:GPT模型迭代過程模型迭代過程ChatGPT激起激起AI浪潮,大算力芯片迎來產業機
5、遇浪潮,大算力芯片迎來產業機遇4來源:甲子光年,中泰證券研究所ChatGPT是生成式人工智能技術是生成式人工智能技術(AIGC)的一種的一種,與傳統的決策與傳統的決策/分析式分析式AI相比相比,生成式生成式AI并非通過簡單分析已有數據來進并非通過簡單分析已有數據來進行分析與決策行分析與決策,而是在學習歸納已有數據后進行演技創造而是在學習歸納已有數據后進行演技創造,基于歷史進行模仿式基于歷史進行模仿式、縫合式創作縫合式創作,生成全新的內容生成全新的內容。AIGC的應用非常廣泛,包括自然語言生成、圖像生成、視頻生成、音樂生成、藝術創作等領域。AIGC產業鏈主要分為上游算力硬件層產業鏈主要分為上游算
6、力硬件層、中游數據中游數據/算法軟件層和下游行業應用層算法軟件層和下游行業應用層。硬件層依靠高性能AI芯片、服務器和數據中心為AIGC模型的訓練提供算力支持,是承載行業發展的基礎設施;數據/算法層軟件層主要負責AI數據的采集、清洗、標注及模型的開發與訓練,多方廠商入局自然語言處理、計算機視覺、多模態模型等領域;行業應用層目前主要涉及搜索、對話、推薦等場景,未來有望在多個行業呈現井噴式革新。圖表:圖表:AIGC產業鏈全景圖產業鏈全景圖5來源:騰訊AIGC發展報告2023,中泰證券研究所多模態大模型有望成為多模態大模型有望成為AI主流主流,賦能下游行業智能升級賦能下游行業智能升級。生成式AI主要依
7、賴于人工智能大模型,如Transformer、BERT、GPT系列等。這些模型通常包含數十億至數萬億個參數,需要龐大的數據集進行訓練,致使AI算力的需求也呈現出指數級的增長。多模態是一種全新的交互、生成模式,集合了圖像、語音、文本等方式,因其可以結合多種數據類型和模態的學習,將有望徹底改變我們與機器互動的方式,快速占據人工智能主導地位。我們認為多模態大模型長期來看不僅可以從成本端降本增效,需求端也將通過快速滲透推廣為下游行業帶來持續增長需求,從而快速推動下游行業智慧化應用升級。圖表:國外部分圖表:國外部分AIGC預訓練模型一覽預訓練模型一覽廠商廠商預訓練模型預訓練模型應用應用參數量參數量領域領
8、域谷歌BERT語言理解與生成4810億NLPPaLM語言理解與生成、推理、代碼生成5400億NLPImagen語言理解與圖像生成110億多模態Parti語言理解與圖像生成200億多模態微軟Florence視覺識別6.4億CVTuring-NLG語言理解、生成170億NLPDeep MindGato多面手的智能體12億多模態Gopher語言理解與生成2800億NLPAlphaCode代碼生成414億NLPOpen AlGPT3語言理解與生成、推理等1750億NLPCLIP&DALL-E圖像生成、跨模態檢索120億多模態Codex代碼生成120億NLPChatGPT語言理解與生成、推理等13-17
9、50億NLP多模態賦能下游行業智慧化升級多模態賦能下游行業智慧化升級6來源:OpenAI官網,中泰證券研究所從從GPT-1到到ChatGPT,模型參數與訓練數據量不斷增加模型參數與訓練數據量不斷增加,所需算力資源不斷提升:所需算力資源不斷提升:GPT-1:最早的GPT模型之一,包含了1.17億個參數,預訓練數據量約為5GB。GPT-2:參數數量達到了1.5億個,預訓練數據量達40GB。GPT-3:是目前為止最大的語言模型之一,包含了1750億個參數,預訓練數據量為45TB。ChatGPT:基于GPT-3模型的變種之一,參數量預計與GPT-3相近。模型模型發布時間發布時間參數量參數量預訓練數據量
10、預訓練數據量預估成本預估成本消耗資源消耗資源GPT-12018年6月1.17億約5GB在8個GPU上訓練一個月GPT-22019年2月15億40GB在256個Google Cloud TPU v3上訓練一周GPT-32020年5月1750億45TB訓練一次460萬美元,總成本1200萬美元在355個GPU上訓練一年ChatGPT2022年11月未公布未公布訓練一次成本超過1200萬美元根據參數量而定圖表:四代圖表:四代GPT模型參數與預訓練數據量對比模型參數與預訓練數據量對比模型更新升級帶動下游行業不斷發展模型更新升級帶動下游行業不斷發展GPT-4性能提升顯著,性能提升顯著,AIGC應用市場空
11、間廣闊應用市場空間廣闊7來源:SEQUOIA,OpenAI,前瞻產業研究院,中泰證券研究所多模態模型是實現人工智能應用的關鍵多模態模型是實現人工智能應用的關鍵。3月月14日日OpenAI發布發布GPT-4多模態大模型多模態大模型,擁有擁有1)強大的識圖能力;強大的識圖能力;2)文字輸文字輸入限制提升至入限制提升至2.5萬字;萬字;3)回答準確性顯著提高;回答準確性顯著提高;4)能夠生成歌詞能夠生成歌詞、創意文本創意文本、實現風格變化實現風格變化。在各種專業和學術基準上,GPT-4已具備與人類水平相當表現。如在模擬律師考試中,其分數在應試者前10%,相比下GPT-3.5在倒數10%左右。多模態大
12、模型在整體復雜度及交互性上已有較大提升,模型升級有望加速細分垂直應用成熟,賦能下游智慧化升級,帶動需求快速增長。AIGC下游市場滲透率低下游市場滲透率低,增長空間廣闊增長空間廣闊。根據 Gartner數據,目前由人工智能生成的數據占所有數據的 1%以下,預計2023年將有 20%的內容被生成式AI 所創建,2025 年人工智能生成數據占比將達到 10%。根據前瞻產業研究院數據,2025年中國生成式商業AI應用規模將達2070億元,CAGR(2020-2025)為84.06%。圖表:圖表:AIGC下游應用落地時間預測下游應用落地時間預測98343663107716062070250%93%62%
13、49%29%0%50%100%150%200%250%300%0500100015002000250020202021E2022E2023E2024E2025E應用規模(億元)規模增速圖表:中國生成式商業圖表:中國生成式商業AI應用規模應用規模目目 錄錄一、一、ChatGPT激起激起AI浪潮,多場景創新產業鏈空間廣闊浪潮,多場景創新產業鏈空間廣闊1.1 AI創新浪潮興起,多模態賦能下游行業創新浪潮興起,多模態賦能下游行業1.2 算力芯片迎來產業機遇算力芯片迎來產業機遇二、芯片是二、芯片是ChatGPT底層土壤底層土壤三、芯片需求增長拉動產業鏈機會三、芯片需求增長拉動產業鏈機會四、投資建議及風險
14、提示四、投資建議及風險提示8AI芯片是人工智能的底層基石芯片是人工智能的底層基石9來源:AI芯片:前沿技術與創新未來,中泰證券研究所AI人工智能的發展主要依賴兩個領域的創新和演進:一是模仿人腦建立起來的數學模型和算法人工智能的發展主要依賴兩個領域的創新和演進:一是模仿人腦建立起來的數學模型和算法,其次是半導體集成電路其次是半導體集成電路AI芯片芯片。AI的發展一直伴隨著半導體芯片的演進過程,20世紀90年代,貝爾實驗室的楊立昆(Yann LeCun)等人一起開發了可以通過訓練來識別手寫郵政編碼的神經網絡,但在那個時期,訓練一個深度學習卷積神經網絡(Convolutional NeuralNet
15、work,CNN)需要3天的時間,因此無法實際使用,而硬件計算能力的不足,也導致了當時AI科技泡沫的破滅。AI芯片是芯片是AI發展的底層基石發展的底層基石。英偉達早在1999年就發明出GPU,但直到2009年才由斯坦福大學發表論文介紹了如何利用現代GPU遠超過多核CPU的計算能力(超過70倍),把AI訓練時間從幾周縮短到了幾小時。算力算力、模型模型、數據一直是數據一直是AI發展發展的三大要素的三大要素,而而AI芯片所代表的算力則是人工智能的底層基石芯片所代表的算力則是人工智能的底層基石。圖表:圖表:AI人工智能與半導體計算芯片發展歷程人工智能與半導體計算芯片發展歷程19401960198020
16、002020突破模型突破模型“學習”的心理學習”的心理研究研究視覺皮層視覺皮層海馬位置細胞海馬位置細胞的時間編碼的時間編碼第一個晶體管感知器第一塊芯片第一塊CPU(MCU)Hopfield網絡第一塊FPGA神經網絡芯片第一塊GPU新的DNN算法基于深度學習的AI芯片類腦芯片ChatGPT激起激起AI浪潮,大算力芯片迎來產業機遇浪潮,大算力芯片迎來產業機遇10來源:智通財經,Counterpoint,IDC,中泰證券研究所算力硬件層是構成算力硬件層是構成AIGC產業的核心底座產業的核心底座,主要包括主要包括AI芯片芯片、AI服務器和數據中心服務器和數據中心。AI芯片是算力硬件層的基石。AI芯片主
17、要分為CPU、GPU、FPGA和ASIC四類,CPU是AI計算的基礎,GPU、FPGA、ASIC作為加速芯片協助CPU進行大規模計算。目前AI芯片主要被國際廠商壟斷,根據Counterpoint、IDC數據,Intel和AMD共計占2022年全球數據中心 CPU 市場收入的92.45%,Nvidia占2021年中國加速卡市場份額的80%以上。AI 服務器是AI芯片的系統集成。AI服務器采用CPU+加速芯片的架構形式,在進行模型的訓練和推斷時會更具有效率優勢。與國外AI芯片廠商的壟斷局面不同,中國AI服務器水平位于世界前列。據IDC數據,在2021H1全球 AI 服務器市場競爭格局中,浪潮信息以
18、20.2%的份額排名第一,聯想和華為分別以6.1%和4.8%的份額位列第四、五名。數據中心的計算服務是承接AI算力需求的直接形式。AIGC的模型訓練是通常是通過云計算服務完成的,其本質是AIGC模型廠商借助IDC的算力資源,在云端實現模型的訓練。目前國內的數據中心廠商主要包括三大運營商、華為、聯想、中科曙光等,提供云計算的廠商主要有阿里、騰訊等互聯網企業。71%20%3%2%5%IntelAMDAWSAmpere ComputingOthers圖表:圖表:2022年全球數據中心年全球數據中心CPU市場份額市場份額圖表:圖表:2021H1全球全球AI服務器市場份額服務器市場份額ChatGPT激起
19、激起AI浪潮,大算力芯片迎來產業機遇浪潮,大算力芯片迎來產業機遇11來源:Language Models are Few-Shot Learners,中泰證券研究所ChatGPT單次訓練所需算力約單次訓練所需算力約27.5PFlop/s-day,單顆單顆NVIDIAV100需計算需計算220天天。根據OpenAI數據,GPT-3 XL參數規模為13.2億,訓練所需算力為27.5PFlop/s-day。由于ChatGPT是在13億參數的InstructGPT基礎上微調而來,參數量與GPT-3 XL接近,因此預計ChatGPT訓練所需算力約為27.5PFlop/s-day。以NVIDIA V100
20、芯片為例,一顆NVLink版本V100芯片的深度學習算力為125TFlops,則ChatGPT模型的訓練至少需要1顆V100芯片計算220天才能完成。隨著模型參數的不斷增加隨著模型參數的不斷增加,模型訓練所需算力將進一步提升模型訓練所需算力將進一步提升,將進一步拉動對算力芯片的需求將進一步拉動對算力芯片的需求。根據OpenAI數據,隨著GPT-3系列模型參數規模由1.25億增加至1746億,訓練所需算力從2.6PFlop/s-day上升至3640PFlop/s-day,規模參數(1396.8倍)與算力需求(1400倍)呈同比例增長。模型模型總計算量(總計算量(PFlop/s-day)總計算量(
21、總計算量(Flops)參數量(百萬個)參數量(百萬個)T5T5-Small2.08E+001.80E+2060T5-Base7.64E+006.60E+20220T5-Large2.67E+012.31E+21770T5-3B1.04E+029.00E+213,000T5-11B3.82E+023.30E+2211,000BERTBERT-Base1.89E+001.64E+20109BERT-Large6.16E+005.33E+20355RoBERTa-Base1.74E+011.50E+21125RoBERTa-Large4.93E+014.26E+21355GPT-3GPT-3 Sma
22、ll2.60E+002.25E+20125GPT-3 Medium7.42E+006.41E+20356GPT-3 Large1.58E+011.37E+21760GPT-3 XL2.75E+012.38E+211,320GPT-3 2.7B5.52E+014.77E+212,650GPT-3 6.7B1.39E+021.20E+226,660GPT-3 13B2.68E+022.31E+2212,850GPT-3 175B3.64E+033.14E+23174,600圖表:不同圖表:不同 NLP 模型模型 參數量及訓練算力對比參數量及訓練算力對比ChatGPT激起激起AI浪潮,大算力芯片迎來
23、產業機遇浪潮,大算力芯片迎來產業機遇12來源:OpenAI 官網,Similarweb,中泰證券研究所ChatGPT單月單月運營所需算力成本約運營所需算力成本約667萬美元萬美元。根據Fortune數據,每次用戶與ChatGPT互動產生的算力云服務成本約0.01美元。Similarweb數據顯示,2023年1月ChatGPT訪問量達6.67億次,因此我們粗略推算2023年1月ChatGPT運營算力成本約為667萬美元。此外,2023年年1月月ChatGPT訪問量環比增長訪問量環比增長119.4%,用戶訪問量的激增導致用戶訪問量的激增導致ChatGPT發生了因云算力不足發生了因云算力不足而宕機的
24、情況而宕機的情況。據OpenAI數據,1月ChatGPT重大停機(Major outage)時長為5小時30分鐘,部分停機(Partial outage)16小時21分鐘,運營算力不足已經開始影響ChatGPT的穩定性和響應速度。我們預測隨著我們預測隨著ChatGPT等新興等新興AI應用的落地應用的落地,將會不斷打開下游市場需求將會不斷打開下游市場需求,而伴隨算力的增長而伴隨算力的增長,也將帶來對上游半導體也將帶來對上游半導體芯片的需求量快速提升芯片的需求量快速提升。圖表:圖表:ChatGPT月訪問量(億次)月訪問量(億次)圖表:圖表:ChatGPT 2023年年1月停機情況月停機情況時間時間
25、狀態狀態時長時長2023.1.5部分停機2小時46分鐘2023.1.7部分停機1小時7分鐘2023.1.8部分停機1小時27分鐘2023.1.10部分停機1小時47分鐘2023.1.11部分停機2小時8分鐘部分停機1小時6分鐘2023.1.25重大停機4小時20分鐘2023.1.30重大停機13分鐘2023.1.31重大停機57分鐘ChatGPT激起激起AI浪潮,大算力芯片迎來產業機遇浪潮,大算力芯片迎來產業機遇13來源:OpenAI 官網,中泰證券研究所算力需求的快速增長與芯片計算能力的增長形成剪刀差算力需求的快速增長與芯片計算能力的增長形成剪刀差。根據OpenAI數據,2012-2018年
26、期間,人工智能訓練任務中使用的算力正呈指數級增長,速度為每3.5個月翻一倍,人們對于算力的需求增長了超過300,000倍。相比之下,摩爾定律是每18個月翻倍,如果是以摩爾定律的速度,這期間只會有12倍的增長。因此,當前模型計算量的增長遠超人工智能硬件算力的增長,模型算力需求增長與芯片計算性能增長之間的不匹配,剪刀差的擴大將帶來對算力基礎設施供給需求的不斷增長。圖表:圖表:2012至至2019年算力需求增長情況年算力需求增長情況圖表:后摩爾時代對芯片算力要求圖表:后摩爾時代對芯片算力要求目目 錄錄一、一、ChatGPT激起激起AI浪潮,多場景創新產業鏈空間廣闊浪潮,多場景創新產業鏈空間廣闊二、芯
27、片是二、芯片是ChatGPT底層土壤底層土壤2.1 AI芯片有望率先受益,芯片有望率先受益,CPU+XPU異構形式成為主流異構形式成為主流2.2 國產芯片廠商加速布局國產芯片廠商加速布局2.3 AI算力需求,存儲芯片受益算力需求,存儲芯片受益三、芯片需求增長拉動產業鏈機會三、芯片需求增長拉動產業鏈機會四、投資建議及風險提示四、投資建議及風險提示14AI芯片根據下游應用可分為訓練、推斷兩類芯片根據下游應用可分為訓練、推斷兩類15來源:甲子光年智庫,中泰證券研究所機器學習主要包括訓練機器學習主要包括訓練(training)和推斷和推斷(inference)兩個步驟兩個步驟,通常需要不同類型的通常需
28、要不同類型的AI芯片來執行芯片來執行。訓練是指通過大數據訓練出一個復雜的神經網絡模型,通過大量標記過的數據來訓練相應的系統,使其能夠適應特定的功能;推理是指利用訓練好的模型,使用新數據推理出各種結論。訓練芯片訓練芯片:通過大量的數據輸入:通過大量的數據輸入,構建復雜的深度神經網絡模型的一種構建復雜的深度神經網絡模型的一種AI芯片芯片。需要較高的計算性能、能夠處理海量的數據、具有一定的通用性,以便完成各種各樣的學習任務,注重絕對的計算能力。推斷芯片推斷芯片:推斷芯片主要是指利用訓練出來的模型加載數據:推斷芯片主要是指利用訓練出來的模型加載數據,計算計算“推理推理”出各種結論的一種出各種結論的一種
29、AI芯片芯片,注重綜合指標,側重考慮單位能耗算力、時延、成本等性能。圖表:圖表:AI芯片代表企業芯片代表企業訓練AI芯片代表企業推理AI芯片代表企業全球全球AI芯片有望達到芯片有望達到726億美元規模億美元規模16來源:IDC,中泰證券研究所AI芯片是芯片是AI算力的核心算力的核心,需求有望率先擴張需求有望率先擴張。AI芯片是用于加速人工智能訓練和推理任務的專用硬件,主要包括GPU、FPGA、ASIC等,具有高度并行性和能夠實現低功耗高效計算的特點。隨著AI應用的普及和算力需求的不斷擴大,AI芯片需求有望率先擴張。根據IDC預測,中國AI算力規模將保持高速增長,預計到2026年將達1271.4
30、EFLOPS,CAGRA(2022-2026年)達52.3%。在此背景下,IDC預測異構計算將成為主流趨勢,未來18個月全球人工智能服務器GPU、ASIC和FPGA的搭載率均會上升,2025年人工智能芯片市場規模將達726億美元。0%20%40%60%80%100%120%140%160%020040060080010001200140020192020202120222023202420252026EFLOPS規模增速圖表:中國圖表:中國AI算力規模及預測算力規模及預測圖表:全球圖表:全球AI芯片市場規模及預測芯片市場規模及預測17來源:賽迪顧問,Wind,AI芯片前沿技術與創新未來,中泰證
31、券研究所深度學習的應用開發可分成云端與邊緣側兩大部分深度學習的應用開發可分成云端與邊緣側兩大部分。云端指的是數據中心或超級計算機,具有強大的計算能力,利用海量數據進行模型訓練,也可以進行推理。邊緣側指的是數據中心外的設備,如自動駕駛汽車、機器人、智能手機、無人機或IoT設備,用訓練好的模型進行推理。根據場景不同,形成了兩種不同要求的AI芯片:云端芯片:云端芯片:具有最大的計算能力和最高的性能,主要對深度學習算法模型進行訓練,有時也進行推斷。目前云端主要以CPU+GPU異構計算為主,根據wind數據,在機器學習服務器和高性能服務器中,CPU+GPU的成本占比分別為83%與51%。邊緣端芯片:邊緣
32、端芯片:計算性能有限,主要使用從云端傳來的訓練好的模型和數據進行推斷。在邊緣側或手機等端側設備中,很少有獨立的芯片,AI加速通常由 SoC上的一個IP實現。例如,蘋果智能手機里最大的應用處理器(Application Processor,AP)芯片就是一塊帶有AI核的SoC,這類SoC的性能一般可以達到510 TOPS。云端云端/邊緣端芯片同步發展邊緣端芯片同步發展圖表:云端與邊緣端圖表:云端與邊緣端AIAI芯片規模芯片規模050100150200250300350201920202021云端訓練芯片(億元)云端推斷芯片(億元)邊緣端推斷芯片(億元)0%10%20%30%40%50%60%70
33、%80%90%100%機器學習服務器推理服務器高性能服務器基礎服務器CPU、GPU成本內存、存儲器成本其他圖表:各類型服務器成本構成圖表:各類型服務器成本構成18來源:億歐智庫,中泰證券研究所云端訓練和推斷計算主要由云端訓練和推斷計算主要由Al 服務器完成服務器完成,底層算力芯片包括底層算力芯片包括 CPU、GPU、FPGA、ASIC 等等。CPU是AI計算的基礎,負責控制和協調所有的計算操作。在AI計算過程中,CPU用于讀取和準備數據,并將數據來傳輸到GPU等協處理器進行計算,最后輸出計算結果,是整個計算過程的控制核心。根據IDC數據,CPU在基礎型、高性能型、推理型、訓練型服務器中成本占比
34、分別為32%、23.3%、25%、9.8%,是各類服務器處理計算任務的基礎硬件。GPU、FPGA、ASIC是AI計算的核心,作為加速芯片處理大規模并行計算。具體來看,GPU通用性較強,適合大規模并行計算,且設計及制造工藝較成熟,目前占據AI芯片市場的主要份額;FPGA具有開發周期短、上市速度快、可配置性等特點,目前被大量應用于線上數據處理中心和軍工單位;ASIC根據特定需求進行設計,在性能、能效、成本均極大的超越了標準芯片,非常適合AI 計算場景,是當前大部分AI初創公司開發的目標產品。圖表:圖表:AIAI加速芯片特點及應用場景對比加速芯片特點及應用場景對比技術架構種類技術架構種類定制化程度定
35、制化程度可編程性可編程性算力算力價格價格優點優點缺點缺點應用場景應用場景GPU通用型不可編輯中高通用性較強且適合大規模并行運算;設計和制造工藝成熟并行運算能力在推理端無法完全發揮高級復雜算法和通用性人工智能平臺FPGA半定制化容易編輯高中可通過編程靈活配置芯片架構適應算法迭代,平均性能較高;功耗較低;開發時間較短(6個月)量產單價高;峰值計算能力較低;硬件編程困難適用于各種具體的行業ASIC全定制化難以編輯高低通過算法固化實現極致的性能和能效、平均性很強:功耗很低;體積小;量產后成本最低前期投人成本高;研發時間長(1年);技術風險大當客戶處在某個特殊場景,可以為其獨立設計一套專業智能算法軟件A
36、I芯片有望率先受益,芯片有望率先受益,CPU+XPU異構形式成為主流異構形式成為主流19來源:個人圖書館,中泰證券研究所目前目前CPU+XPU異構形式成為異構形式成為AI服務器主流架構服務器主流架構。傳統的CPU單元對于AI計算任務的處理能力有限,而XPU(包括GPU、FPGA、ASIC等)則可以提供更強大的計算能力,因此將CPU和XPU結合起來使用可以實現計算任務的高效處理和資源的最優利用。一般來說,CPU負責整個系統的管理和控制,而加速芯片則負責AI計算任務的加速,兩者相互協作,共同提升整個系統的性能。服務器計算架構從單核的串行走向多核的并行服務器計算架構從單核的串行走向多核的并行,又進一
37、步從同構并行走向異構并行又進一步從同構并行走向異構并行,未來或將從異構并行走向超異構并行未來或將從異構并行走向超異構并行。目前在AI服務器中,常見的異構組合有8x GPU+2x CPU、4x GPU+2x CPU、8xFPGA+1xCPU、4xFPGA+1xCPU。在異構計算的趨勢下,AI加速芯片搭載率將持續增高。根據IDC全球范圍調研顯示,2022年每臺AI服務器上普遍多配置2個GPU,未來18個月GPU、ASIC、FPGA的搭載率均會上升。根據IDC數據,2021H1全球AI服務器市場規模達66.6億美元,同比增長率超過全球AI整體市場增長率22.4%。預計在2025年全球AI服務器市場規
38、模將達到277億美元,CAGR(2020-2025)為20.3%。AI芯片有望率先受益,芯片有望率先受益,CPU+XPU異構形式成為主流異構形式成為主流圖表:圖表:AI服務器異構形式演進趨勢服務器異構形式演進趨勢20來源:中泰證券研究所算力時代,算力時代,AI芯片有望率先受益芯片有望率先受益圖表:圖表:AI芯片特點及具體參數對比芯片特點及具體參數對比特點特點CPUGPUFPGAASIC基本架構60%邏輯單元40%計算單元60%-70%計算單元30%邏輯控制單元門電路資源固化的門電路資源架構圖定制化程度通用型通用型半定制化定制化延遲高較高低(約為GPU的1/10)低(約為GPU的1/10)優勢復
39、雜邏輯運算能力強,擅長邏輯控制擅長并行計算,浮點數據計算能力強,軟硬件體系一致可進行數據并行和流水線并行,可編程,靈活度高AI運算效率高,功耗低,體積小劣勢核數少,不擅長處理并行任務面積大,功耗高,由于通用性要求難以專一面對某一模型深度優化開發周期長,復雜算法開發難度大靈活性差,算法支持有限,算法迭代后需重新開發AI訓練效果效果較差唯一量產可用于訓練的硬件效率不高可能是用于訓練的最佳芯片,但目前沒有量產產品應用場景主要用于推斷場景在云端和邊緣端均占據主導地位,云端訓練份額最高主要用于推斷場景主要應用于推斷場景具體芯片對比具體芯片對比E5-2699 V3Tesla K80Virtex7-690T
40、Google TPU計算單元個數(個)18(256bit)7804(32bit)3600(32bit)65536(8bit)峰值運算能力(TOPS)1.33(單精度浮點)8.74(單精度浮點)1.8(單精度浮點)92(8bit整點)功耗(W)1453003040能耗比(GFLOPS/W)92960230021來源:計算機組成原理,SEMI,中泰證券研究所CPU(Central Processing Unit)中央處理器:中央處理器:是計算機的運算和控制核心(Control Unit),是信息處理、程序運行的最終執行單元,主要功能是完成計算機的數據運算以及系統控制功能。CPU擅長邏輯控制,在深度
41、學習中可用于推理/預測。在深度學習中,模型的訓練和推理是兩個不同的過程:在訓練過程中,模型需要進行大量的矩陣運算,因此通常使用GPU等擅長并行計算的芯片進行處理;在推理過程中,需要對大量的已經訓練好的模型進行實時的推理/預測操作,而這種操作通常需要高效的邏輯控制能力和低延遲的響應速度,這正是CPU所擅長的。圖表:圖表:CPU內部架構內部架構圖表:圖表:CPU工作原理概況工作原理概況CPU:底層核心算力芯片:底層核心算力芯片22來源:IDC,觀研報告網,中泰證券研究所AI服務器中服務器中CPU成本占比及市場規模測算:成本占比及市場規模測算:根據IDC數據,CPU在推斷型服務器中的成本占比為25%
42、,在訓練型服務器中的成本占比為9.8%。此外據IDC對于人工智能服務器推理和訓練工作負載的預測,2021用于推斷和訓練的占比分別為40.9%和59.1%,2025年推斷和訓練的占比調整為60.8%和39.2%,我們測算出2021年和2025年CPU在AI服務器中的成本占比分別為16.02%和19.04%。根據觀研報告網數據,2021年全球AI服務器市場規模為156億美元,預計于2025年增長至318億美元。2021年中國AI服務器市場規模為350.3億元,預計2025年將增長至701.8億元。因此我們合理推算因此我們合理推算2021年年,全球全球AI服務器服務器CPU市場規模約為市場規模約為2
43、5億美億美元元,中國市場約為中國市場約為56億元億元,到到2025年全球年全球AI服務器服務器CPU市場規模市場規模約為約為61億美元億美元,中國市場規模為中國市場規模為134億元億元。2025中國服務器中國服務器CPU市場規模將達到市場規模將達到134億元億元圖表:全球服務器成本結構拆分圖表:全球服務器成本結構拆分圖表:圖表:AI服務器中服務器中CPU市場規模測算市場規模測算32%23%25%10%0%27%25%73%27%26%15%9%18%3%10%0%23%21%25%9%0%10%20%30%40%50%60%70%80%90%100%基礎型高性能型推理型訓練型CPUGPUMem
44、oryStorage其他中國中國AI服務器服務器市場規模(億元)市場規模(億元)全球全球AI服務器服務器市場規模(億美元)市場規模(億美元)中國中國AI服務器中服務器中CPU市場規模(億元)市場規模(億元)全球全球AI服務器中服務器中CPU市場規模(億美元)市場規模(億美元)2021年350.315656.1124.992025年701.8318133.6360.55復合增長率(2021-2025)19%19%24%25%GPU:AI高性能計算王者高性能計算王者23來源:CSDN,中泰證券研究所GPU(Graphics Processing Unit)圖形處理器:)圖形處理器:GPU最初是為了
45、滿足計算機游戲等圖形處理需求而被開發出來的,但憑借高并行計算和大規模數據處理能力,逐漸開始用于通用計算。根據應用場景和處理任務的不同,GPU形成兩條分支:傳統傳統GPU:用于圖形圖像處理,因此內置了一系列專用運算模塊,如視頻編解碼加速引擎、2D加速引擎、圖像渲染等。GPGPU:通用計算圖形處理器(general-purpose GPU)。為了更好地支持通用計算,GPGPU減弱了GPU圖形顯示部分的能力,將其余部分全部投入到通用計算中,同時增加了專用向量、張量、矩陣運算指令,提升了浮點運算的精度和性能,以實現人工智能、專業計算等加速應用。圖表:圖表:GPU 技術演變歷程技術演變歷程時間時間類型類
46、型相關標準相關標準代表產品代表產品基本特征基本特征意義意義20世紀80年代圖形顯示(傳統GPU)CGA,VGAIBM 5150光柵生成器最早圖形顯示控制器20世紀80年代末2D加速GDI,DirectFBS386C9112D圖元加速開啟2D圖形硬件加速時20世紀90年代初部分3D加速OpenGL(1.14.1),DirectX(6.011)3DLabsGlint300SX硬件T&L第一顆用于PC的3D圖形加速芯片20世紀90年代后期固定管線NVIDIAGeForce256shader功能固定首次提出GPU概念20042010統一渲染NVIDIA G80多功能shaderCUDA與G80一同發布
47、2011至今通用計算(GPGPU)CUDA,OpenCL1.22.0NVIDIATESLA完成與圖形處理無關的科學計算NVIDIA正式將用于計算的GPU產品線獨立出采24來源:NVIDIA官網,Verified Market Research,中泰證券研究所GPU在在AI模型構建中具有較高的適配性模型構建中具有較高的適配性。GPU的高并行性可以更好地支持AI模型訓練和推理過程中大量的矩陣或向量計算,以NVIDIA GPU系列旗艦產品A100為例:根據NVIDIA公布的規格參數,A100的深度學習運算性能可達312Tflops。在AI訓練過程中,2048個A100 GPU可在一分鐘內成規模地處理
48、BERT的訓練工作負載;在AI推理過程中,A100可將推理吞吐量提升到高達CPU的249倍。AI模型與應用的加速發展推動模型與應用的加速發展推動GPU芯片放量增長芯片放量增長。根據Verified Market Research數據,2021年全球GPU市場規模為334.7億美元,預計2030年將達到4773.7億美元,CAGR(2021-2030)為34.35%。從國內市場來看,2020年中國大陸的獨立GPU市場規模為47.39億元,預計2027年市場規模將達345.57億美元,CAGR(2021-2027)為32.8%。GPU:AI高性能計算王者高性能計算王者圖表:圖表:NVIDIA A1
49、00 GPU 在在 AI 訓練和推理工作中的加速能力訓練和推理工作中的加速能力圖表:全球圖表:全球GPU市場規模及增速市場規模及增速25來源:NVIDIA官網,百度官網,OpenAI官網,Similarweb,中泰證券研究所預測預測“文心一言文心一言”等等LLM模型的推出模型的推出將給國內將給國內GPU市場帶來市場帶來28.51億美元的增量億美元的增量。據百度官方數據,“文心一言”基于文心大模型,參數規模為100億,計劃3月份面向公眾開放,并將與搜索引擎業務整合。我們假設短期國內將出現5家與百度“文心一言”相似的企業,模型參數量與訓練算力需求成比例。根據OpenAI公布的GPT-3系列參數量及
50、訓練算力需求數據,可推算出文心大模型的單次訓練算力需求為208.48PFlop/s-day。據Similarweb數據,2023年1月百度搜索引擎的訪問量為4.9億次,假設“文心一言”將整合到百度搜索引擎中,單日運營算力需求為125.08PFlop/s-day。根據NVIDIA數據,A100的FP64 Tensor Core算力為19.5 TFlops,單價為1萬美元。根據經驗假設日常算力利用率為30%,則短期LLM模型將給國內GPU市場帶來28.51億美元的增量。長長期期LLM模型有望與搜索引擎結合模型有望與搜索引擎結合,為為GPU帶來帶來447.51億美元的億美元的增量空間增量空間。假設未
51、來ChatGPT將與搜索引擎結合,日活躍用戶數量參考Google。根據根據Similarweb數據數據,2023年年1月月Google訪訪問量為問量為883億億。假設其他數據與測算方式不變假設其他數據與測算方式不變,則則ChatGPT與搜索引擎結合能夠給與搜索引擎結合能夠給GPU市場帶來市場帶來447.51億美元的增量空間億美元的增量空間。增量動因增量動因測算模型依據測算模型依據參數量(億)參數量(億)單月訪問量單月訪問量(億次)(億次)企業數企業數國內LLM模型的推出ERNIE-ViLG100以百度瀏覽量代替:4.95訓練算力訓練算力(PFlop/s-day)單日運營算力單日運營算力(PFl
52、op/s-day)單日運營單日運營+訓練訓練總算力總算力所需所需A100芯片芯片(顆)(顆)GPU增量增量(億美元(億美元)208.48125.08333.5528508828.51增量動因增量動因測算模型依據測算模型依據參數量(億)參數量(億)單月訪問量單月訪問量(億次)(億次)企業數企業數LLM有望與搜索引擎結合ChatGPT1746以谷歌瀏覽量代替:883假設谷歌僅采用1家企業的LLM訓練算力訓練算力(PFlop/s-day)單日運營算力單日運營算力(PFlop/s-day)單日運營單日運營+訓訓練總算力練總算力所需所需A100芯片芯片(顆)(顆)GPU增量增量(億美元(億美元)3640
53、.0022539.3426179.344475102447.51圖表:短期國內圖表:短期國內GPU增量測算增量測算圖表:長期全球圖表:長期全球GPU增量測算增量測算AI芯片價值量測算:以芯片價值量測算:以GPU為例為例26來源:與非網,IDC,中泰證券研究所FPGA(Field Programmable Gate Array)現場可編程門陣列:現場可編程門陣列:FPGA最大的特點在于其現場可編程的特性,無論是CPU、GPU還是ASIC,在芯片制造完成后功能會被固定,用戶無法對硬件功能做出更改,而FPGA在制造完成后仍可使用配套軟件對芯片進行功能配置,將芯片上空白的模塊轉化為自身所需的具備特定功
54、能的模塊??删幊绦钥删幊绦?、高并行性高并行性、低延遲低延遲、低功耗等特點低功耗等特點,使得使得FPGA在在AI推斷領域潛力巨大推斷領域潛力巨大。FPGA可以在運行時根據需要進行動態配置和優化功耗,同時擁有流水線并行和數據并行能力,既可以使用數據并行來處理大量數據,也能夠憑借流水線并行來提高計算的吞吐量和降低延遲。根據與非網數據,FPGA(Stratix 10)在計算密集型任務的吞吐量約為CPU的10倍,延遲與功耗均為GPU的1/10。云端推斷:在面對推斷環節的小批量數據處理時,GPU的并行計算優勢不明顯,FPGA可以憑借流水線并行,達到高并行+低延遲的效果。根據IDC數據,2020年中國云端推
55、理芯片占比已超過50%,預計2025年將達到60.8%,云端推斷市場廣闊。邊緣推斷:受延遲、隱私和帶寬限制的驅動,FPGA逐漸被布署于IoT設備當中,以滿足低功耗+靈活推理+快速響應的需求。FPGA:可編程芯片加速替代:可編程芯片加速替代體系結構體系結構吞吐量吞吐量延遲延遲功耗功耗靈活性靈活性CPU1TN/A100W很高GPU10T1ms300W高FPGA(Stratix V)1T1us30W高FPGA(Stratix10)10T1us30W高ASIC10T1us30W低圖表:密集計算任務場景下各芯片表現參數對比圖表:密集計算任務場景下各芯片表現參數對比0%10%20%30%40%50%60%
56、70%80%90%100%2019202020212022202320242025訓練推理圖表:密集計算任務場景下各芯片表現參數對比圖表:密集計算任務場景下各芯片表現參數對比27來源:Dark silicon and the end of multicore scaling,Power Limitations and Dark Silicon Challenge the Future of Multicore,知乎,中泰證券研究所FPGA是是AI時代下解決暗硅效應的有效途徑時代下解決暗硅效應的有效途徑。暗硅效應(Dark Silicon)指由于芯片工藝和尺寸的限制,芯片上只有一小部分區域可以同
57、時運行,其余的區域被閑置或關閉,這些閑置或關閉的區域被稱為“暗硅”。在AI計算領域,由于摩爾定律的限制和散熱問題,先進高效的硬件設計會更容易導致暗硅效應,限制了芯片的計算能力和應用范圍。據相關論文,在22nm制程下,暗硅面積將達21%。在8nm制程下,暗硅面積將提升至50%以上。由于暗硅效應,預計到2024年平均只能實現7.9倍的加速比,與每代性能翻倍的目標相比差距將近24倍。FPGA的可編程性和可重構性使其能夠靈活地部署和優化計算任務的可編程性和可重構性使其能夠靈活地部署和優化計算任務,從而在一定程度上緩解了暗硅效應的影響從而在一定程度上緩解了暗硅效應的影響。簡單來說,FPGA減少暗硅效應的
58、方法有兩個方向,一是通過優化電路結構,盡可能減少不活躍區域的數量;二是通過動態重構電路,使得不活躍區域可以被重用。FPGA:可編程芯片加速替代:可編程芯片加速替代圖表:暗硅效應的產生原因圖表:暗硅效應的產生原因圖表:暗硅面積的增長趨勢及對芯片性能的影響圖表:暗硅面積的增長趨勢及對芯片性能的影響28來源:頭豹研究院,Bob Broderson,中泰證券研究所ASIC(Application Specific Integrated Circuit)專用集成電路:專用集成電路:是一種為專門應特定用戶要求和特定電子系統的需要而設計、制造的集成電路。ASIC具有較高的能效比和算力水平,但通用性和靈活性較
59、差。能效方面:由于ASIC是為特定應用程序設計的,其電路可以被高度優化,以最大程度地減少功耗。根據Bob Broderson數據,FPGA的能效比集中在1-10 MOPS/mW之間。ASIC的能效比處于專用硬件水平,超過100MOPS/mW,是FPGA的10倍以上。算力方面:由于ASIC芯片的設計目標非常明確,專門為特定的應用場景進行優化,因此其性能通常比通用芯片更高。根據頭豹研究院數據,按照CPU、GPU、FPGA、ASIC順序,芯片算力水平逐漸增加,其中ASIC算力水平最高,在1萬-1000萬Mhash/s之間。隨著技術隨著技術、算法的普及算法的普及,ASIC將更具備競爭優勢將更具備競爭優
60、勢。ASIC在研發制作方面一次性成本較高,但量產后平均成本低,具有批量生產的成本優勢。目前人工智能屬于大爆發時期,大量的算法不斷涌出,遠沒有到算法平穩期,ASIC專用芯片如何做到適應各種算法是當前最大的問題。但隨著技術、算法的普及,ASIC 將更加具備競爭優勢。ASIC:云計算專用高端芯片:云計算專用高端芯片圖表:芯片方案性能比較圖表:芯片方案性能比較圖表:圖表:FPGA方案及方案及ASIC方案成本比較方案成本比較29來源:賽迪顧問,中泰證券研究所ASIC主要應用在推斷場景主要應用在推斷場景,在終端推斷市場份額最大在終端推斷市場份額最大,在云端推斷市場增速較快在云端推斷市場增速較快。訓練:AI
61、模型在訓練過程中需要對模型參數進行不斷調整,ASIC由于專用性強、靈活性低,因此不適用于云端訓練。根據賽迪顧問數據,2019年GPU、FPGA、ASIC在云端訓練市場占比分別為63.9%、22.6%、13.5%,云端訓練仍以GPU為主。推斷:與訓練場景不同,推斷場景模型參數較為固化,ASIC在推斷市場場景中的應用前景較為廣闊。在早期,ASIC的下游應用場景主要為各領域智慧終端設備,因此在終端推斷市場規模較大。目前,隨著云端算力需求的不斷增加,ASIC憑借出色的算力水平開始在云端推斷領域快速滲透。根據賽迪顧問數據,2019年ASIC在終端推斷的市場份額為41%,遠超GPU與FPGA。2019-2
62、021年在云端推斷的市場年均增速均保持在60%以上,高于CPU與FPGA。ASIC:云端推斷市場規??焖僭鲩L:云端推斷市場規??焖僭鲩L圖表:中國云端訓練芯片市場(左)圖表:中國云端訓練芯片市場(左)/云端推斷市場(中)云端推斷市場(中)/終端推斷市場(右)產品規模及增速終端推斷市場(右)產品規模及增速0%10%20%30%40%50%60%70%80%90%02040608010012014016020192020E2021EGPU規模(億元)FPGA規模(億元)ASIC規模(億元)GPU增速FPGA增速ASIC增速0%10%20%30%40%50%60%70%80%0102030405060
63、70809020192020E2021EGPU規模(億元)FPGA規模(億元)ASIC規模(億元)GPU增速FPGA增速ASIC增速0%10%20%30%40%50%60%70%80%010203040506070809020192020E2021EGPU規模(億元)FPGA規模(億元)ASIC規模(億元)GPU增速FPGA增速ASIC增速目目 錄錄一、一、ChatGPT激起激起AI浪潮,多場景創新產業鏈空間廣闊浪潮,多場景創新產業鏈空間廣闊二、芯片是二、芯片是ChatGPT底層土壤底層土壤2.1 AI芯片有望率先受益,芯片有望率先受益,CPU+XPU異構形式成為主流異構形式成為主流2.2 國
64、產芯片廠商加速布局國產芯片廠商加速布局2.3 AI算力需求,存儲芯片受益算力需求,存儲芯片受益三、芯片需求增長拉動產業鏈機會三、芯片需求增長拉動產業鏈機會四、投資建議及風險提示四、投資建議及風險提示3031來源:各公司官網,中泰證券研究所全球服務器全球服務器CPU市場目前被市場目前被Intel和和AMD所壟斷所壟斷,國產國產 CPU 在性能方面與國際領先水平仍有差距在性能方面與國際領先水平仍有差距。根據Counterpoint數據,在2022年全球數據中心CPU市場中,Intel以70.77%的市場份額排名第一,AMD以19.84%的份額緊隨其后,剩余廠商僅占據9.39%的市場份額,整體上處于
65、壟斷局面;目前國內CPU廠商主有海光、海思、飛騰、龍芯、申威等。通過產品對比發現,目前國產服務器CPU性能已接近Intel中端產品水平,但整體上國內CPU廠商仍在工藝制程、運算速度(主頻)、多任務處理(核心與線程數)方面落后于國際先進水平。國產國產CPU多點開花加速追趕多點開花加速追趕圖表:國內外圖表:國內外AI芯片產品對比(芯片產品對比(3)服務器服務器CPU廠商廠商產品型號產品型號發布時間發布時間核心數核心數主頻主頻工藝制程工藝制程內存類型內存類型內存通道數內存通道數最高內存頻率最高內存頻率超線程超線程產品定位產品定位AMDEPYC 75422019Q3322.9GHz7nmDDR4832
66、00MHz64服務器Intel至強Gold 63542021Q2183.0GHz10nmDDR483200 MHz36服務器海光海光72852020Q1322.0GHz14nmDDR482666MHz不支持服務器海思鯤鵬920-72602019Q1642.6GHz7nmDDR482933MHz不支持服務器飛騰S25002020Q3642.2GHz16nmDDR483200MHz不支持服務器龍芯3C50002022Q2162.2GHz12nmDDR443200MHz不支持服務器申威申威 16212018162.0GHz28nmDDR382133MHz不支持服務器32來源:各公司官網,中泰證券研究
67、所全球全球GPU芯片市場主要由海外廠商占據壟斷地位芯片市場主要由海外廠商占據壟斷地位,國產廠商加速布局國產廠商加速布局。全球GPU市場被英偉達、英特爾和AMD三強壟斷,英偉達憑借其自身CUDA生態在AI及高性能計算占據絕對主導地位;國內市場中,景嘉微在圖形渲染GPU領域持續深耕,另外天數智芯、壁仞科技、登臨科技等一批主打AI及高性能計算的GPGPU初創企業正加速涌入。圖形渲染圖形渲染GPU:目前國內廠商在圖形渲染:目前國內廠商在圖形渲染GPU方面與國外龍頭廠商差距不斷縮小方面與國外龍頭廠商差距不斷縮小。芯動科技的“風華2號”GPU采用5nm工藝制程,與Nvidia最新一代產品RTX40系列持平
68、,實現國產圖形渲染GPU破局。景嘉微在工藝制程、核心頻率、浮點性能等方面雖落后于Nvidia同代產品,但差距正逐漸縮小。生態體系逐步完善,國產生態體系逐步完善,國產GPU多領域追趕多領域追趕圖表:國內外圖表:國內外AI芯片產品對比(芯片產品對比(1)圖形渲染圖形渲染GPU產品類型產品類型廠商廠商產品型號產品型號發布年份發布年份制作工藝制作工藝顯存類型顯存類型顯存位寬顯存位寬顯存容量顯存容量顯存帶寬顯存帶寬核心頻率核心頻率像素填充速率像素填充速率 浮點性能(浮點性能(FP32)總線接口總線接口圖形渲染GPUNvidiaRTX409020225nmGDDR6X384bit24GB2230MHzPC
69、Ie 4.0 x 16GTX1050201614nmGDDR5128bit2GB112GB/s1354MHz43.3G Pixel/s1.8TFLopsPCIe 3.0 x 16芯動科技風華1號202112nmGDDR6X128bit16GB304GB/s160G Pixels/s5TFLopsPCIe 4.0 x 8風華2號20225nmLPDDR5X8GB102.4GB/s48G Pixels/s1.5TFLopsPCle 3.0 x 8景嘉微JM7200201828nmDDR364bit4GB17GB/s1300MHz5.2G Pixels/s0.5TFLopsPCIe2.0 x16JM
70、9231202114nm8GB256GB/s1500MHz32G Pixels/s2TFLopsPCIe 3.0 x 1633來源:各公司官網,中泰證券研究所在在GPGPU方面方面,目前國內廠商與目前國內廠商與Nvidia在在GPGPU上仍存在較大差距上仍存在較大差距。制程方面,目前Nvidia已率先到達4nm,國內廠商多集中在7nm;算力方面,國內廠商大多不支持雙精度(FP64)計算,在單精度(FP32)及定點計算(INT8)方面與國外中端產品持平,天數智芯、壁仞科技的AI芯片產品在單精度性能上超過NVIDIA A100;接口方面,壁仞科技與Nvidia率先使用PCle5.0,其余廠商多集中
71、在PCle4.0;生態方面,國內企業多采用OpenCL進行自主生態建設,與Nvidia CUDA的成熟生態相比,差距較為明顯。圖表:國內外圖表:國內外AI芯片產品對比(芯片產品對比(2)GPGPU產品類型產品類型廠商廠商產品型號產品型號發布時間發布時間工藝制程工藝制程浮點算力浮點算力-TflopsINT8定點算力定點算力(TOPS)互聯帶寬互聯帶寬顯存顯存接口接口功耗功耗生態生態FP64 FP32 BF16GPGPUNVIDIAH100 SXM520224nm Hopper3050010002000900GB/s80GBSXM5700WCUDAH100 PCle20224nm Hopper24
72、488001600900GB/s80GBPCle5.0350WCUDAA100 PCle20207nm Ampere9.719.5312624600GB/s80GBPCle4.0400WCUDATesla V100201712nm Volta7.815.712562150GB/s32GBPCle4.0300WCUDAAMDInstinct MI250X20216nm CNDA 247.947.9383383128GBPCle 4.0560WAMD ROCmInstinct MI25020216nm CNDA 247.945.3362362128GBPCle 4.0560WAMD ROCmIns
73、tinct MI10020207nm CNDA 111.523.192.3184.632GBPCle 4.0350WAMD ROCm天數智芯天垓10020217nm3714729564GB/s32GBPCIe 4.0250WSIMT壁仞科技壁礪 100P20227nm2409601920448 GB/s64GBPCIe 5.0550WBIRENSUPA壁礪104P20227nm112448896192GB/s32GBPCIe5.0300WBIRENSUPA登臨科技Goldwasser-L202012nm51264GBPCle 3.0120W生態體系逐步完善,國產生態體系逐步完善,國產GPU多領
74、域追趕多領域追趕34來源:各公司官網,中泰證券研究所FPGA全球市場呈現全球市場呈現“兩大兩小兩大兩小”格局格局,Altera與與Xilinx市占率共計超市占率共計超80%,Lattice和和Microsemi市占率共計超市占率共計超10%;整體來;整體來看看,安路科技安路科技、紫光同創等廠商處于國際中端水平紫光同創等廠商處于國際中端水平,仍需進一步突破仍需進一步突破。工藝制程方面,當前國產廠商先進制程集中在28nm,落后于國際16nm水平;在等效LUT數量上,國產廠商旗艦產品處于200K水平,僅為XILINX高端產品的25%左右。ASIC不同于不同于CPU、GPU、FPGA,目前全球目前全球
75、ASIC市場并未形成明顯的頭部廠商市場并未形成明顯的頭部廠商,國產廠商快速發展;國產廠商快速發展;通過產品對比發現,目前國產廠商集中采用7nm工藝制程,與國外ASIC廠商相同;算力方面,海思的昇騰910在BF16浮點算力和INT8定點算力方面超越Googel最新一代產品TPUv4,遂原科技和寒武紀的產品在整體性能上也與Googel比肩。未來國產廠商有望在ASIC領域繼續保持技術優勢,突破國外廠商在AI芯片的壟斷格局。FPGA/ASIC國產替代正當時國產替代正當時圖表:國內外圖表:國內外AI芯片產品對比(芯片產品對比(4)FPGA/ASIC產品類型產品類型廠商名稱廠商名稱產品型號產品型號工藝制程
76、工藝制程系統邏輯單元系統邏輯單元等效等效LUT數量數量分布式分布式RAMDSP數量數量User IOFPGAXILINXArtix UltraScale+AU25P16nm308K141K4.7Mb1200304Kintex UltraScale+XCKU19P16nm1843K842K11.6Mb1080540紫光同創PG2L200H28nm239.7K2.528Mb500PG2T160H160K2.188Mb400安路科技PH1A180SFG67628nm210.24K3.277MB600396EF3LA0CG64255nm11.776K94K475產品類型產品類型廠商廠商產品型號產品型號
77、發布時間發布時間工藝制程工藝制程浮點算力(浮點算力(Tflops)INT8定點算力定點算力(TOPS)互聯帶寬互聯帶寬顯存顯存接口接口功耗功耗生態生態FP64FP32BF16ASICGoogelTPUv4i20207nm138138400GB/s8GBTensorFlow XLATPUv420217nm2752751000GB/s32GBTensorFlow XLA海思昇騰91020187nm320640PCle 4.0350WMindSpore燧原科技T20(32GB)202112nm32128256300 GB/s32GBPCIe 4.0300W寒武紀MLU370-X420217nm249
78、6256200GB/s24GBPCIe 4.0150WCambricon NeuwareMLU370-S420217nm1872192200GB/s24GBPCIe 4.075WCambricon Neuware35來源:龍芯中科股說明書,中泰證券研究所公司主要從事處理器公司主要從事處理器(CPU)及配套芯片的研制及配套芯片的研制、銷售及服務銷售及服務。主要產品包括龍芯 1 號、龍芯 2 號、龍芯 3 號三大系列處理器芯片及橋片等配套芯片,系列產品在電子政務、能源、交通、金融、電信、教育等行業領域已獲得廣泛運用。堅持自主研發指令系統堅持自主研發指令系統、IP 核等核心技術核等核心技術。龍芯中科
79、掌握指令系統、處理器核微結構、GPU 以及各種接口 IP 等芯片核心技術,在關鍵技術上進行自主研發,擁有大量的自主知識產權,已取得專利 400 余項。GPU產品進展順利產品進展順利,正研制新一代圖形及計算加速正研制新一代圖形及計算加速GPGPU核核。公司在2022年上半年完成了第一代龍芯圖形處理器架構LG100系列,目前正在啟動第二代龍芯圖形處理器架構LG200系列圖形處理器核的研制。根據公司在2022年半年度業績交流會信息,第一代GPU核(LG100)已經集成在7A2000中,新一代GPGPU核(LG200)的研制也取得了積極進展。龍芯中科:國產龍芯中科:國產 CPU 設計標桿,自主研發設計
80、標桿,自主研發GPGPU圖表:高性能通用圖形處理器芯片及系統研發項目情況及進程安排圖表:高性能通用圖形處理器芯片及系統研發項目情況及進程安排項目項目建設內容建設內容2022年年2023年年2024年年Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4場地裝修改造通過對現有場地進行裝修,為項目研發提供場地支持,優化現有研發環境軟硬件設備購置購置研發軟硬件設備,以進一步優化現有研發環境,為公司技術的創新提供支持研發人員招募招募掌握行業最新技術的研發人員,完善研發隊伍建設,提升研發軟實力。芯片研發重點進行高性能通用圖形處理器芯片的研發,并研究其在 AI 領域的應用,與公司的CPU 產品形成協同效應,共
81、同構建更有競爭力的信息化基礎設施核心平臺36來源:海光招股說明書,中泰證券研究所公司公司主營產品包括海光通用處理器主營產品包括海光通用處理器(CPU)和海光協處理器和海光協處理器(DCU)。海光 CPU 主要面向復雜邏輯計算、多任務調度等通用處理器應用場景需求,兼容國際主流 x86 處理器架構和技術路線。從應用場景看,海光CPU分為7000、5000、3000三個系列,分別定位于高端服務器、中低端服務器和邊緣計算服務器。海光 DCU 是公司基于GPGPU架構設計的一款協處理器,目前以8000系列為主,面向服務器集群或數據中心。海光DCU全面兼容ROCm GPU計算生態,能夠較好地適配國際主流商
82、業計算軟件,解決了產品推廣過程中的軟件生態兼容性問題。CPU與與DPU持續迭代持續迭代,性能比肩國際主流廠商性能比肩國際主流廠商。CPU方面,目前海光一號和海光二號已經實現量產,海光三號已經正式發布,海光四號目前進入研發階段。海光CPU的性能在國內處于領先地位,但與國際廠商在高端產品性能上有所差距,接近Intel中端產品水平;DCU方面,深算一號已實現商業化應用,深算二號已于2020年1月啟動研發。在典型應用場景下,公司深算一號指標達到國際上同類型高端產品的水平。海光信息:國產高端處理器龍頭,海光信息:國產高端處理器龍頭,CPU+DCU雙輪驅動雙輪驅動項目項目海光海光NVIDIA AMD產品深
83、算一號Ampere 100MI100生產工藝7nm FinFET7nm FinFET7nm FinFET 核心數量4096(64 CUs)2560 CUDA processors640 Tensor processors 120CUs 內核頻率Up to 1.5GHz(FP64)Up to 1.7Ghz(FP32)Up to 1.53GhzUp to 1.5GHz(FP64)Up to 1.7Ghz(FP32)顯存容量32GB HBM280GB HBM2e32GB HBM2顯存頻率2.0 GHz3.2 GHz2.4 GHzTDP350W400W300WCPU to GPU 互聯PCIe Gen
84、4 x 16PCIe Gen4 x 16PCIe GEN4 x 16 GPU to GPU 互聯xGMI x 2,Up to 184 GB/sNVLinkup to 600 GB/s Infinity Fabric x 3,up to276 GB/s產品名稱產品名稱Intel8380HLIntel8380HIntel8376HL海光海光7285Intel8360HLIntel8360H4路測試結果SpeccpuINT784784765-690688SpeccpuFP657653641-599597雙路測試結果SpeccpuINT392392383348345344SpeccpuFP329327
85、321308300299性能差異(Intel數據/海光數據-1)SpeccpuINT12.64%12.64%9.91%-0.86%-1.15%SpeccpuFP6.66%6.01%4.06%-2.76%-3.08%圖表:深算一號與國際同類型產品性能對比圖表:深算一號與國際同類型產品性能對比圖表:海光圖表:海光CPUCPU與與IntelIntel產品性能對比產品性能對比37來源:各公司官網,中泰證券研究所公司主要從事高可靠電子產品的研發公司主要從事高可靠電子產品的研發、生產和銷售生產和銷售,產品主要涉及圖形顯控領域產品主要涉及圖形顯控領域、小型專用化雷達領域小型專用化雷達領域、芯片領域等芯片領域
86、等。圖形顯控是公司現有核心業務,也是傳統優勢業務,小型專用化雷達和芯片是公司未來大力發展的業務方向。GPU研發進程平穩推進研發進程平穩推進,新產品可滿足新產品可滿足AI計算需求計算需求。公司以 JM5400 研發成功為起點,不斷研發更為先進且適用更為廣泛的 GPU 芯片。2014年公司推出JM5400,核心頻率550MHz;2018年推出JM7200系列,核心頻率1300MHz;2021年推出JM9系列,核心頻率1.5GHz。根據公司2022年中期報告,公司 JM9 系列第二款圖形處理芯片于2022年5月成功研發,可以滿足地理信息系統、媒體處理、CAD 輔助設計、游戲、虛擬化等高性能顯示需求和
87、人工智能計算需求,可廣泛應用于用于臺式機、筆記本、一體機、服務器、工控機、自助終端等設備。景嘉微:國產景嘉微:國產GPU領軍企業,領軍企業,JM9 系列芯片性能優異系列芯片性能優異圖表:景嘉微與圖表:景嘉微與Nvidia GPUNvidia GPU性能對比性能對比廠商廠商型號型號發布年份發布年份制作工藝制作工藝顯存類型顯存類型顯存位寬顯存位寬顯存容量顯存容量顯存帶寬顯存帶寬核心頻率核心頻率像素填充速率像素填充速率浮點性能浮點性能總線接口總線接口景嘉微JM5400201565nmDDR3128bit1GB9.6GB/s-PCIJM7200201828nmDDR364bit4GB17GB/s130
88、0MHz5.2G Pixels/s0.5TFLopsPCIE2.0 x16JM9231202114nm-8GB256GB/s1500MHz32G Pixels/s2TFLopsPCIE 3.0X16NvidiaGT640201228nmDDR3128bit2GB80GB/s950MHz7.22G Pixels/s0.69TFLopsPCIE 3.0GTX1050201614nmGDDR5128bit2GB112GB/s1354MHz43.3G Pixel/s1.8TFLopsPCIE 3.0GTX1080201616nmGDDR5256bit 8/8GB320GB/s1607MHz102.8P
89、ixels/s8.9TFLopsPCIE 3.0X1638來源:公司招股說明書,中泰證券研究所寒武紀是寒武紀是 AI 芯片領域的獨角獸芯片領域的獨角獸。公司成立于 2016 年 3 月 15 日,專注于人工智能芯片產品的研發與技術創新,產品廣泛應用于消費電子、數據中心、云計算等諸多場景。公司是 AI 芯片領域的獨角獸:采用公司終端智能處理器 IP 的終端設備已出貨過億臺;云端智能芯片及加速卡也已應用到國內主流服務器廠商的產品中,并已實現量產出貨;邊緣智能芯片及加速卡的發布標志著公司已形成全面覆蓋云端、邊緣端和終端場景的系列化智能芯片產品布局。人工智能的各類應用場景人工智能的各類應用場景,從云端
90、溢出到邊緣端從云端溢出到邊緣端,或下沉到終端或下沉到終端,都離不開智能芯片的高效支撐都離不開智能芯片的高效支撐。公司面向云端、邊緣端、終端推出了三個系列不同品類的通用型智能芯片與處理器產品,分別為終端智能處理器 IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡。寒武紀:國產寒武紀:國產AI芯片領先者芯片領先者圖表:公司主要產品情況圖表:公司主要產品情況應用場景應用場景芯片需求芯片需求典型計算能力典型計算能力典型功耗典型功耗典型應用領域典型應用領域終端低功耗、高能效、推理任務為主、成本敏感、硬件產品形態眾多8TOPS30TOPS50瓦云計算數據中心、企業私有云等邊緣端對功耗、性能、尺寸的要求常介
91、于終端與云端之間、推理任務為主、多用于插電設備、硬件產品形態相對較少5TOPS 至 30TOPS4瓦至15瓦智能制造、智能家居、智能零售、智慧交通、智慧金融、智慧醫療、智能駕駛等眾多應用領域39來源:中泰證券研究所圖表:圖表:AI芯片市場競爭格局情況芯片市場競爭格局情況國產國產AI芯片有望長期受益芯片有望長期受益目目 錄錄一、一、ChatGPT激起激起AI浪潮,多場景創新產業鏈空間廣闊浪潮,多場景創新產業鏈空間廣闊二、芯片是二、芯片是ChatGPT底層土壤底層土壤2.1 AI芯片有望率先受益,芯片有望率先受益,CPU+XPU異構形式成為主流異構形式成為主流2.2 國產芯片廠商加速布局國產芯片廠
92、商加速布局2.3 AI算力需求,存儲芯片受益算力需求,存儲芯片受益三、芯片需求增長拉動產業鏈機會三、芯片需求增長拉動產業鏈機會四、投資建議及風險提示四、投資建議及風險提示40來源:IDC、Dramexchange,SIA,中泰證券研究所ChatGPT帶動帶動AI服務器需求,存儲芯片受益。服務器需求,存儲芯片受益。ChatGPT的數據獲取、數據整理、訓練、推理除大算力芯片外,還需存儲芯片支持。服務器成本構成:服務器成本包括算力芯片、存儲器等,根據IDC 2018年服務器成本構成,在高性能服務器/推理型服務器/機器學習型服務器中存儲占比29%/25%/16%。AI服務器,除了內存需要128GB或更
93、大容量的高性能HBM和高容量服務器DRAM,還需硬盤去存儲大量數據。存儲下游市場:智能手機+服務器+PC是主要下游。智能手機端出貨量增速有限,單機容量提升是主要推動力;服務器端,受益人工智能、物聯網和云計算等應用興起,服務器出貨量及單機容量提升推動增長。圖表:服務器成本構成圖表:服務器成本構成41AI算力需求,存儲芯片受益算力需求,存儲芯片受益0%10%20%30%40%50%60%70%80%90%100%ServerMobilePC其他20%21%25%8%15%3%10%8%15%26%15%8%23%27%25%67%27%23%25%9%0%10%20%30%40%50%60%70%
94、80%90%100%基礎型高性能型推理型機器學習型其他storagememoryGPUCPU40%37%35%34%28%28%29%27%17%18%20%22%0%10%20%30%40%50%60%70%80%90%100%201920202021e2022eHandsetsPC SSDGame ConsoleEnterprise SSDUFD+Memory CardOthers圖表:圖表:DRAM下游應用構成(按需求量)下游應用構成(按需求量)圖表:圖表:NAND下游應用構成(按需求量)下游應用構成(按需求量)來源:中泰證券研究所42AI高算力對高帶寬內存的需求高算力對高帶寬內存的需求
95、AI大算力需要的內存:大容量服務大算力需要的內存:大容量服務器器DRAM和高帶寬內存和高帶寬內存HBM。按照應用場景,DRAM分成標準DDR、LPDDR、GDDR三類。JEDEC定義并開發了以下三類SDRAM 標準,以幫助設計人員滿足其目標應用的功率、性能和尺寸要求。1)標準型DDR:針對服務器、云計算、網絡、筆記本電腦、臺式機和消費類應用程序,與CPU配套使用2)LPDDR:Low Power DDR,針對尺寸和功率非常敏感的移動和汽車領域,有低功耗的特點。3)GDDR:Graphics DDR,針對高帶寬(例如顯卡和AI)的兩種不同的存儲器架構是 GDDR 和 HBM。SDRAM利基型利基
96、型DRAMDIMMDRAM on PCBDRAM on PCBDDR1PC、服務器、服務器、數據中心、家電數據中心、家電R/LRDIMM:服務器、云計:服務器、云計算、數據中心、算、數據中心、網絡網絡顯卡、游戲機、顯卡、游戲機、高性能計算領域高性能計算領域DDR2DDR3DDR4GDDR3GDDR1GDDR2DDR5GDDR4GDDR5主流主流DRAM應用領域應用領域注:根據注:根據DRAMexchange數據,目前數據,目前DDR4 4GB DDR4 8Gb 512M*16 屬于利基型屬于利基型DRAMHBM數據密集系統數據密集系統(圖形卡、(圖形卡、AI、高性能計算等)高性能計算等)HBM
97、2EHBM1HBM2HBM3LPDDR手機、汽車、手機、汽車、平板等平板等LPDDR1LPDDR2LPDDR3LPDDR4LPDDR5標準標準DDR移動移動DDR圖形圖形DDRU/SODIMM:臺式機、筆記:臺式機、筆記本本AI高算力對高帶寬內存的需求高算力對高帶寬內存的需求43來源:AMD,中泰證券研究所GDDR DRAM 是專為是專為GPU 和加速器設計的,和加速器設計的,HBM是是GDDR的替代品,也適用于的替代品,也適用于GPU與加速器,與主芯片配套,可以提高與加速器,與主芯片配套,可以提高機器學習和計算性能,如英偉達“機器學習和計算性能,如英偉達“A100”就最高配備了就最高配備了8
98、0GB HBM2內存。內存。HBM(High Bandwidth Memory)是將多個)是將多個DDR芯片芯片3D堆疊在一起后和堆疊在一起后和主芯片主芯片封裝在一起,有高帶寬、低功耗等特點。封裝在一起,有高帶寬、低功耗等特點。1)HBM與主芯片合封在一起:DRAM顆粒和和GPU/CPU合封,縮短了DRAM和主芯片之間的通信距離,同時跨越封裝對芯片引腳數目的限制,幾十倍提高傳輸線數量,降低傳輸損耗,提高傳輸帶寬。2)HBM采用3D堆疊技術,中間層連接內存與主芯片:不同于DRAM顆粒與算力芯片平鋪,HBM將DRAM顆粒堆疊在一起,一方面增加了DRAM容量,另一方面直接增加帶寬,DRAM顆粒通過“
99、硅透”(TSV)的微型導線相互連接,主芯片和DRAM通過中間層連通,HBM 具備的特性幾乎和芯片集成的 RAM一樣,具有更高速、更高帶寬的特點圖表:圖表:HBM的立體結構的立體結構圖表:圖表:HBM與與GDDR5的比較的比較AI高算力對高帶寬內存的需求高算力對高帶寬內存的需求44來源:Trendforce,半導體行業觀察,中泰證券研究所DRAM全球三大家壟斷,全球三大家壟斷,HBM市場由三星、海力士主導,目前市場由三星、海力士主導,目前已迭代至已迭代至HBM32021年全球DRAM市場三星、海力士、美光三巨頭合計市占率高達94%。HBM市場,以SK海力士、三星為主,SK海力士HBM技術起步早,
100、占據較大市場。SK 海力士:AMD意識到DDR的局限性并產生開發堆疊內存的想法,與SK海力士聯手研發HBM;2013年,SK海力士將TSV技術應用于DRAM,在業界首次成功研發出HBM;2015年,AMD在Fury系列顯卡上首次商用第一代HBM技術。2018年發布HBM2,2021年發布全球首款HBM3,目前在研HBM4三星:三星從HBM2開始布局,2016年量產HBM2,2021年2月,三星電子推出了HBM-PIM(存算一體),將內存半導體和AI處理器合二為一,2022年HBM3已量產。圖表:圖表:HBM產品演進產品演進品牌品牌代號代號標準標準速率速率帶寬帶寬堆疊堆疊三星FlareboltH
101、BM22.0Gbps256GB/s三星AquaboltHBM22.4Gbps307.2GB/s三星FlashboltHBM2E3.6Gbps460GB/s8層*16Gb三星IceboltHBM36.4Gbps819GB/s12層*16GbSK HynixHBM2E3.2-3.6Gbps410-460GB/s4/8*16GbSK HynixHBM36.4Gbps819GB/s8/12*16Gb43%28%23%3%1%2%三星海力士美光南亞科技華邦其他圖表:全球圖表:全球DRAM競爭格局(競爭格局(2021年)年)AI助力企業級助力企業級SSD市場擴容市場擴容45來源:IDC,中泰證券研究所AI
102、助力企業級助力企業級SSD市場擴容市場擴容SSD為固態硬盤,由NAND顆粒、主控芯片等構成,其中NAND顆粒占成本的70%。SSD按照用途分為消費級、企業級及其他行業級產品。近年來隨著云計算、大數據發展,互聯網服務加速普及,企業加快數字化轉型,數據呈現井噴狀態,企業級SSD市場需求與規模不斷攀升。IDC 數據顯示,企業級 SSD 全球出貨量將從 2020 年的約 4750萬塊增長到 2021 年的 5264 萬塊左右,年均增長率為10.7%,預計到 2025 年,將增加到 7436 萬塊左右。圖表:全球企業級圖表:全球企業級SDD出貨量(出貨量,千塊)出貨量(出貨量,千塊)企業級企業級SSD消
103、費級消費級SSD使用對象及功能多用于IT、動畫設計等行業,在滿足使用要求的同時能夠保障數據安全性、速度穩定性和長期耐用性個人電腦使用,能夠實現高速流暢操作關注點注重隨機性能、延遲、IOQoS的保證以及穩定性,要求可靠性、長時間運作、高MTBF注重順序性能、功耗、價格等因素性能顆粒材質穩定系數較高的顆粒材質對材質要求相對較低性能穩定性讀寫低延遲,要求SSD讀寫速度以及快速響應等初始讀寫性能較高,隨著使用時間的增加而逐步降速延遲以最少的延遲量訪問存儲設備,要求極低延遲對于用戶而言,可接受的延遲相對較長可靠性數據完整性在各種惡劣環境都不能出現數據丟失只保護FTL數據,但不需要保護DRAM緩存中其他用
104、戶數據斷電保護配置配備專用電容,突然斷電時,SSD控制器將從專用電容中獲取電能只能做到基礎斷電保護耐久性負載周期24小時不間斷訪問,24x7負載周期約8小時充分利用,80%左右的時間處于空閑狀態額定MTBF大約200萬-250萬小時大約150萬小時0%2%4%6%8%10%12%14%16%18%01000020000300004000050000600007000080000202020212022202320242025SASSATAPCIe其他全球增長率圖表:企業級圖表:企業級SSD與消費級與消費級SSD對比對比AI助力企業級助力企業級SSD市場擴容市場擴容46來源:Trendforce
105、,中泰證券研究所企業級企業級SSD海外壟斷,大陸廠商主要布局模組和主控芯片海外壟斷,大陸廠商主要布局模組和主控芯片全球競爭格局:22Q1,全球前五大企業級SSD品牌廠商分別是三星電子、SK海力士(含Solidigm)、美光科技、鎧俠與西部數據,合計全部份額。大陸廠商布局:長江存儲是大陸少有的NAND Flash原廠,除了向企業級SSD廠商供貨閃存顆粒,近期也推出了企業級PCIe 4.0 SSD產品,其余廠商則主要集中在主控芯片軟硬件設計(包含主控芯片、固件)以及成品模組領域。圖表:圖表:22Q1全球企業級全球企業級SSD競爭格局競爭格局50%24%11%8%7%三星SK集團(海力士+Solid
106、igm)美光科技鎧俠西部數據類型類型閃存閃存主控芯主控芯片片SSDSSD成品成品代表企業代表企業組合:原廠組合:原廠+成品成品長江存儲組合:主控組合:主控+成品成品大普威、得瑞領新、億聯、華瀾微、江蘇華存電子等專業領域:主控芯專業領域:主控芯片片聯蕓科技、得一微、國科微、憶芯科技、英韌科技等專業領域:成品專業領域:成品憶恒創源、寶存科技等圖表:大陸布局圖表:大陸布局目目 錄錄一、一、ChatGPT激起激起AI浪潮,多場景創新產業鏈空間廣闊浪潮,多場景創新產業鏈空間廣闊二、芯片是二、芯片是ChatGPT底層土壤底層土壤三、芯片需求增長拉動產業鏈機會三、芯片需求增長拉動產業鏈機會3.1 封測:封測
107、:Chiplet是是AI芯片大勢所趨芯片大勢所趨3.2 PCB:AI服務器基石服務器基石四、投資建議及風險提示四、投資建議及風險提示4748來源:各家官網,中泰證券研究所當前當前AI芯片呈現幾大趨勢:芯片呈現幾大趨勢:1)制程越來越先進。從2017年英偉達發布Tesla V100 AI芯片的12nm制程開始,業界一直在推進先進制程在AI芯片上的應用。英偉達、英特爾、AMD一路將AI芯片制程從16nm推進至4/5nm。2)Chiplet封裝初露頭角。2022年英偉達發布H100 AI芯片,其芯片主體為單芯片架構,但其GPU與HBM3存儲芯片的連接,采用Chiplet封裝。在此之前,英偉達憑借NV
108、link-C2C實現內部芯片之間的高速連接,且Nvlink芯片的連接標準可與Chiplet業界的統一標準Ucle共通。而AMD2023年發布的Instinct MI300是業界首次在AI芯片上采用更底層的Chiplet架構,實現CPU和GPU這類核心之間的連接。3)2020年以來頭部廠商加速在AI芯片的布局。AI芯片先行者是英偉達,其在2017年即發布Tesla V100芯片,此后2020以來英特爾、AMD紛紛跟進發布AI芯片,并在2022、2023年接連發布新款AI芯片,發布節奏明顯加快。AI產業機會產業機會-封測:封測:Chiplet是是AI芯片大勢所趨芯片大勢所趨年份年份廠商廠商芯片芯片
109、制程制程Chiplet相關技術相關技術2017英偉達Tesla V10012nmSoC2020英偉達A1007nmSoC2020英特爾Habana Gaudi16nmSoC2020AMDInstinct MI1007nmSoC2022英特爾Habana Gaudi27nmSoC2022英偉達H1004nmGPU與HBM3的封裝采用Chiplet2023AMDInstinct MI3005nm用Chiplet連接CPU和GPU圖表:當前主要圖表:當前主要AIAI運算芯片運算芯片49來源:Chiplet Actuary:A Quantitative Cost Model and Multi-Chi
110、plet Architecture Exploration,中泰證券研究所據相關論文據相關論文,芯片成本變化有以下規律:芯片成本變化有以下規律:封裝形式越復雜,封裝成本、封裝缺陷成本占芯片成本比重越大:具體來說,SoCMCMInFO小于2.5D。芯片面積越大,芯片缺陷成本、封裝缺陷成本占比越大;制程越先進,芯片缺陷成本占比越高,而Chiplet封裝能有效降低芯片缺陷率,最終達到總成本低于SoC成本的效果。AI產業機會產業機會-封測:封測:Chiplet是是AI芯片大勢所趨芯片大勢所趨圖表:不同制程圖表:不同制程/芯片面積下芯片面積下SoCSoC(單芯片)與(單芯片)與ChipletChiple
111、t(MCM/MCM/InFOInFO/2.5D/2.5D)封裝之間的成本比較)封裝之間的成本比較50來源:Chiplet Actuary:A Quantitative Cost Model and Multi-Chiplet Architecture Exploration,中泰證券研究所制程越先進制程越先進、芯片組面積越大芯片組面積越大、小芯片小芯片(Chips)數量越多數量越多,Chiplet封裝較封裝較SoC單芯片封裝單芯片封裝,成本上越有優勢:成本上越有優勢:Chiplet主要封裝形式有MCM/InFO/2.5D這三種。14nm制程下,當芯片面積超過700mm 時,Chiplet封裝中
112、的MCM成本開始較SoC低,當面積達900mm 時,MCM較SoC成本低近10%(2顆chips)、或低20%(3顆chips)、或低25%(5顆chips);7nm制程下,芯片面積超過400mm 時,MCM成本開始低于SoC,面積超過600mm 時,InFO成本開始低于SoC,當面積達900mm 時,5顆chips情況下,MCM較SoC成本低40%、InFO較SoC成本低20%;5nm制程下,芯片面積超過300mm 時,MCM成本開始低于SoC,成本超過500mm 時,InFO成本開始低于SoC,當面積達900mm 時,5顆chips情況下,MCM較SoC成本低50%、InFO較SoC成本低
113、40%、2.5D較SoC成本低28%。鑒于當前鑒于當前AI芯片朝高算力芯片朝高算力、高集成方向演進高集成方向演進,制程越來越先進制程越來越先進,Chiplet在更先進制程在更先進制程、更復雜集成中降本優勢愈發明顯更復雜集成中降本優勢愈發明顯,未來有望成為未來有望成為AI芯片封裝的主要形式芯片封裝的主要形式。AI產業機會產業機會-封測:封測:Chiplet是是AI芯片大勢所趨芯片大勢所趨圖表:不同制程圖表:不同制程/面積下面積下SoCSoC與與ChipletChiplet封裝之間的成本平衡點封裝之間的成本平衡點制程制程/面積面積2顆顆Chips3顆顆Chips5顆顆Chips14nm面積700m
114、m,單芯片SoC成本最低;面積700mm,MCMSoCInFO/2.5D面積600mm,單芯片SoC成本最低;面積600mm,MCMSoCInFO/2.5D面積500mm,單芯片SoC成本最低;面積500mm,MCMSoCInFO/2.5D7nm小于400mm,單芯片SoC成本最低;400-700mm,MCMSoCInFO/2.5D;800mm,MCMInFOSoC2.5D小于400mm,單芯片SoC成本最低;400-500mm,MCMSoCInFO/2.5D;600mm,MCMInFOSoC2.5D小于300mm,單芯片SoC成本最低;300-500mm,MCMSoCInFO/2.5D;60
115、0mm,MCMInFOSoC2.5D5nm小于300mm,單芯片SoC成本最低;300-400mm,MCMSoCInFO/2.5D;500mm-600mm,MCMInFOSoC2.5D;700mm,MCMInFO2.5DSoC100mm,單芯片SoC成本最低;200-300mm,MCMSoCInFO/2.5D;400mm-500mm,MCMInFOSoC2.5D;600mm,MCMInFO2.5DSoC100mm,單芯片SoC成本最低;200-300mm,MCMSoCInFO/2.5D;400mm-500mm,MCMInFOSoC2.5D;600mm,MCMInFO2.5DSoC51來源:各家
116、官網,互動易平臺,中泰證券研究所國產封測龍頭國產封測龍頭,在在Chiplet領域已實現技術布局:領域已實現技術布局:通富微電已為AMD大規模量產Chiplet產品;長電科技早在2018年即布局Chiplet相關技術,如今已實現量產,2022年公司加入Chiplet國際標準聯盟Ucle,為公司未來承接海外Chiplet奠定了資質基礎;華天科技Chiplet技術已實現量產,其他中小封測廠商已有在TSV等Chiplet前期技術上的積累。AI產業機會產業機會-封測:國產封測廠封測:國產封測廠Chiplet布局布局圖表:國產封測廠商在圖表:國產封測廠商在ChipletChiplet方面的布局方面的布局公
117、司公司Chiplet技術積累技術積累具體商業進展具體商業進展通富微電在多芯片組件、集成扇出封裝、2.5D/3D等先進封裝技術方面的提前布局,可為客戶提供多樣化的Chiplet封裝解決方案已為AMD大規模量產Chiplet產品長電科技1)2018年啟動研發以RDL First為基礎的高密度扇出型多芯片Fan-out FCBGA,具備大尺寸、2m現款、高密度倒裝鍵合、2-3粒7nm芯片集成等特點2)2020年將扇出型封裝技術、關鍵人員、設備轉移到長電紹興分公司,后續實現量產;3)2021年突破FO-Interposer MCM的chiplet封裝技術,并進入量產;4)2022年突破2.5D Si
118、Interposer MEM的大尺寸FCBGA技術,并進入小批量量產,同年加入Ucle產業聯盟;5)2022年對2.5D Si Interposer(Si-TSI-MCM)的MEOL晶圓級技術進行投資已量產華天科技已具備chiplet封裝技術平臺,并已量產已量產晶方科技晶圓級TSV技術是chiplet技術重要組成部分,晶方科技在研究該技術方向技術積累階段大港股份控股孫公司蘇州科陽主要從事TSV晶圓級封裝業務,截至22年11月未涉及Chiplet相關業務技術積累階段目目 錄錄一、一、ChatGPT激起激起AI浪潮,多場景創新產業鏈空間廣闊浪潮,多場景創新產業鏈空間廣闊二、芯片是二、芯片是Chat
119、GPT底層土壤底層土壤三、芯片需求增長拉動產業鏈機會三、芯片需求增長拉動產業鏈機會3.1 封測:封測:Chiplet是是AI芯片大勢所趨芯片大勢所趨3.2 PCB:AI服務器基石服務器基石四、投資建議及風險提示四、投資建議及風險提示5253來源:百新谷軟件,半導體產業縱橫,中泰證券研究所ChatGPT數據運算量增長快速數據運算量增長快速,帶動服務器帶動服務器/交換機交換機/顯卡等用量提升顯卡等用量提升,布局相應領域布局相應領域PCB公司顯著受益公司顯著受益。ChatGPT帶來了算力需求的激增,與之對應亦帶來相應服務器/交換機等作為算力核心載體和傳輸的硬件,帶來PCB需求大幅增長,同時隨著對算力
120、的要求越來越高,對于大容量、高速、高性能的云計算服務器的需求將不斷增長,對PCB的設計要求也將不斷升級,提升對于高層數、大尺寸、高速材料等的應用。以23年發布的新服務器平臺為例,Pcie 5.0服務器用PCB層數、材料、設計工藝均有升級,PCB價格提升顯著,其層數從4.0的12-16層升級至16-20層,根據 Prismark 的數據,2021 年 8-16 層板的價格為 456 美元/平米,而18 層以上板的價格為 1538美元/平米,PCB 價值量增幅明顯;另外配套新服務器,交換機、傳輸網產品都需要同步升級,預計400G、800G交換機對PCB板子拉動巨大,進一步帶動數通板景氣度提升。AI
121、產業機會產業機會-PCB:AI服務器基石服務器基石圖表:服務器平臺標準圖表:服務器平臺標準平臺名稱平臺名稱WhiteleyEagle StreamIntelCPU代號Ice LakeSapphire RapidsSapphire Rapids工藝制程10nmIntel 7Intel 7總線標準PCIe4.0PCIe5.0PCIe5.0發布時間2021Q12023年2023年PCB層數12-1616-2016-20AMDCPU代號MilanGenoa工藝制程7nm5nm總線標準PCIe4.0PCIe5.0發布時間2020Q42023年PCB層數12-1616-2054來源:Prismark,廣合
122、科技招股書,中泰證券研究所ChatGPT帶動服務器用量增長及平臺升級帶動服務器用量增長及平臺升級,預計預計2025年服務器年服務器PCB市場超市場超160億美元億美元,2021-2025CAGR達達21%。隨著ChatGPT對服務器用量增長及平臺升級,對應PCB的板材、層數、工藝復雜的均顯著提升,預計2025年全球服務器PCB市場規模超160億美元,2021-2025年CAGR達21%,成為PCB增長最快的下游之一。AI產業機會產業機會-PCB:AI服務器基石服務器基石圖表:服務器圖表:服務器PCB市場空間廣闊市場空間廣闊202020212022E2023E2024E2025E服務器出貨量(萬
123、臺)122013541400145015001600YOY3.92%10.98%3.40%3.57%3.45%6.67%PCIe5.0滲透率0%1%5%20%40%50%PCIe4.0及以下服務器PCB價值量(美元)560567 570575570570PCIe5.0服務器PCB價值量(美元)-15001520155015501530服務器PCB市場空間(億美元)687886112144168YOY6%14%11%29%29%16%圖表:圖表:PCB在服務器領域的應用在服務器領域的應用目目 錄錄一、一、ChatGPT激起激起AI浪潮,大算力芯片迎來產業機遇浪潮,大算力芯片迎來產業機遇二、芯片是
124、二、芯片是ChatGPT底層土壤底層土壤2.1 AI芯片有望率先受益,芯片有望率先受益,CPU+XPU異構形式成為主流異構形式成為主流2.2 AI算力需求,存儲芯片受益算力需求,存儲芯片受益三、芯片需求增長拉動產業鏈機會三、芯片需求增長拉動產業鏈機會3.1 PCB:AI服務器基石服務器基石3.2 封測:封測:Chiplet是是AI芯片大勢所趨芯片大勢所趨四、投資建議及風險提示四、投資建議及風險提示5556來源:中泰證券研究所算力算力是是AI發展的底層土壤。發展的底層土壤。在ChatGPT等概念影響下,AIGC關注度火熱。芯片作為人工智能行業的基礎層,為其提供算力支持,未來越來越多AI應用的落地
125、離不開龐大算力的支撐,因此也將推動算力產業鏈快速增長。據IDC指出,2021年中國AI投資規模超100億美元,2026年將有望達到267億美元,全球占比約8.9%,排名第二,其中AI底層硬件市場占比將超過AI總投資規模的半數。AI發展的海量數據對數據處理提出極高要求,AI芯片需求快速增長,看好國產AI芯片供應商在產業創新趨勢向上以及國產替代背景下進入快速增長通道;Chiplet有望成為國產高端芯片的破局之路。有望成為國產高端芯片的破局之路。據Gartner,受益于AI產業需求激增,2024年全球Chiplet芯片產值有望達505億美元,2020-24年CAGR接近100%按Chiplet封裝+
126、測試占芯片產值20%計算,2024年全球Chiplet封測市場空間有望達100億美元。國產Chiplet有望實現較全球平均水平更快成長:1)中國大陸封測產業居全球領先,具備良好的產業基礎承接來自全球的Chiplet封測需求AMD等關鍵AI芯片廠商,已將其Chiplet工藝委外給國產封測廠生產;2)美國制裁局面下,Chiplet有助于國產芯片同制程下性能的提升,被看作是國產芯片突破先進制程的“趕超利器”,且國產設計廠商采用Chiplet的需求較海外同行更為迫切;3)國產AI公司有望加速在AI領域軟硬件的投入,進一步擴大市場需求。多模態大模型推動下游應用側智慧升級。多模態大模型推動下游應用側智慧升
127、級。多模態是一種全新的交互、生成模式,背后是大模型深度學習能力的提升。多模態的發展有利于帶動下游行業廠商AI能力提升,長期來看不僅從成本端降本增效,需求端也有望快速滲透帶動供應鏈廠商業績快速增長。建議關注:建議關注:多模態應用多模態應用:大華股份、??低?;封測:封測:通富微電;AI芯片芯片:龍芯中科、海光信息、景嘉微、寒武紀、瑞芯微、樂鑫科技;AI服務器:服務器:工業富聯、滬電股份、勝宏科技、深南電路、景旺電子。投資建議投資建議行業需求不及預期的風險:若包括手機、PC、可穿戴等終端產品需求回暖不及預期,則產業鏈相關公司的業績增長可能不及預期。下游技術迭代不及預期:存在行業技術迭代速度不及預期
128、從而對需求造成影響的風險。產能瓶頸的束縛:2021年缺芯潮帶來產業鏈公司業績快速增長,產能成關鍵限制因素,若包括代工廠、封測廠等產能擴張進度不及預期,則可能影響公司業務的增速速度。去庫存不及預期、大陸廠商技術進步不及預期、中美貿易摩擦加劇、研報使用的信息更新不及時的風險、報告中各行業相關業績增速測算未剔除負值影響,計算結果存在與實際情況偏差的風險、行業數據或因存在主觀篩選導致與行業實際情況存在偏差風險。57風險提示風險提示重要聲明重要聲明中泰證券股份有限公司(以下簡稱“本公司”)具有中國證券監督管理委員會許可的證券投資咨詢業務資格。本報告僅供本公司的客戶使用。本公司不會因接收人收到本報告而視其
129、為客戶。本報告基于本公司及其研究人員認為可信的公開資料或實地調研資料,反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響。本公司力求但不保證這些信息的準確性和完整性,且本報告中的資料、意見、預測均反映報告初次公開發布時的判斷,可能會隨時調整。本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告所載的資料、工具、意見、信息及推測只提供給客戶作參考之用,不構成任何投資、法律、會計或稅務的最終操作建議,本公司不就報告中的內容對最終操作建議做出任何擔保。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。市場有風險,投資需謹慎。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者應注意,在法律允許的情況下,本公司及其本公司的關聯機構可能會持有報告中涉及的公司所發行的證券并進行交易,并可能為這些公司正在提供或爭取提供投資銀行、財務顧問和金融產品等各種金融服務。本公司及其本公司的關聯機構或個人可能在本報告公開發布之前已經使用或了解其中的信息。本報告版權歸“中泰證券股份有限公司”所有。事先未經本公司書面授權,任何機構和個人,不得對本報告進行任何形式的翻版、發布、復制、轉載、刊登、篡改,且不得對本報告進行有悖原意的刪節或修改。58