《電子行業算力芯片系列:Chatgpt帶來算力芯片投資機會展望-230325(43頁).pdf》由會員分享,可在線閱讀,更多相關《電子行業算力芯片系列:Chatgpt帶來算力芯片投資機會展望-230325(43頁).pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、ChatgptChatgpt帶來算力芯片投資機會展望帶來算力芯片投資機會展望證券研究報告證券研究報告 電子行業報告電子行業報告 算力芯片系列算力芯片系列分析師:劉雙鋒分析師:劉雙鋒SAC編號:S1440520070002SFC中央編號:BNU539發布日期:2023年3月25日本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請參閱最后一頁的重要聲明。研究助理:鄭寅銘研究助理:鄭寅銘 1核心觀點核心觀點AIGC引發內容生成范式革命引發內容生成范式革命,ChatGP
2、T引領人工智能應用照進現實引領人工智能應用照進現實,GPT架構快速迭代架構快速迭代,云端大模型多模態云端大模型多模態成為發展趨勢成為發展趨勢,帶來算力資源消耗快速上升帶來算力資源消耗快速上升。硬件基礎設施成為發展基石硬件基礎設施成為發展基石,要求算力要求算力、運力運力、存力存力、散熱等領散熱等領域配套升級域配套升級,算力芯片等環節核心受益算力芯片等環節核心受益。加之海外對華供應高端加之海外對華供應高端GPU芯片受限芯片受限,國內相關廠商迎來替代窗口國內相關廠商迎來替代窗口期期,各環節龍頭有望進入高速發展階段各環節龍頭有望進入高速發展階段。bUbUbZaYeZbUdXcW9PdNaQsQmMsQ
3、mPiNnNnOkPsQsN8OoOnNuOrQwPwMrNuM2摘要摘要 AIGC引發內容生成范式革命引發內容生成范式革命,云端算法向大模型多模態演進云端算法向大模型多模態演進。云端部署算力中推理占比逐步提升,說明AI落地應用數量在不斷增加,ChatGPT發布引發多家科技巨頭開展AI軍備競賽,或成為人工智能成熟度的分水嶺。GPT架構快速迭代,參數越來越多帶動訓練精度越來越高,云端大模型多模態成為發展趨勢,帶來算力資源消耗快速上升。硬件基礎設施成為發展基石硬件基礎設施成為發展基石,算力芯片等環節核心受益算力芯片等環節核心受益。算力需求算力需求,模型訓練需要規?;乃懔π酒渴鹩谥悄芊掌?,CP
4、U不可或缺,但性能提升遭遇瓶頸,CPU+xPU異構方案成為大算力場景標配。其中GPU并行計算優勢明顯,CPU+GPU成為目前最流行的異構計算系統,而NPU在特定場景下的性能、效率優勢明顯,推理端應用潛力巨大,隨著大模型多模態發展,硬件需求有望從GPU擴展至周邊編解碼硬件。此外,后摩爾時代Chiplet封裝為先進制程的高性價比替代方案,成為半導體行業發展趨勢。存力需求存力需求,龐大訓練通用數據集要求相應存儲硬件設施,如溫冷存儲,數據訪問加速,數據湖以及大容量存儲,還需要專門面向AI定制的存儲協議、訪問協議,支持服務器與SSD通信的NVMe-oF 協議也有望受益搭載使用。運力需求運力需求,外部訪問
5、、內部數據翻譯需要高速的網絡連接線路或交換機系統,帶動光通信技術升級。散熱需求散熱需求,AI服務器功耗相對更高,當前主流散熱方案正朝芯片級不斷演進,芯片液冷市場發展潛力巨大。國產廠商迎來發展窗口期國產廠商迎來發展窗口期,建議關注各環節龍頭廠商建議關注各環節龍頭廠商。英偉達、AMD對華供應高端GPU芯片受限。國產算力芯片迎來國產替代窗口期;突破4800TOPS、降低部署成本是國內算力芯片主要發力點。當前已經涌現出一大批國產算力芯片廠商:1)寒武紀:國內人工智能芯片領軍者,持續強化核心競爭力;2)海光信息:深算系列GPGPU提供高性能算力,升級迭代穩步推進;3)龍芯中科:自主架構CPU行業先行者,
6、新品頻發加速驅動成長;4)芯原股份:國內半導體IP龍頭,技術儲備豐富驅動成長;5)Chiplet產業鏈布局正當時,重點關注各環節龍頭廠商;6)PCIe、CXL等高速接口,電源芯片廠商間接受益。附:附:1、值得關注的值得關注的AIGC落地應用:落地應用:ChatGPT可替代智能音箱現有語音交互模型;2、其他其他AI發展方向:發展方向:Nvidia DLSS、TinyML、存內計算、基于先進封裝的方案整合。3目錄目錄一、一、AIGC引發內容生成范式革命,云端算法向大模型多模態演進引發內容生成范式革命,云端算法向大模型多模態演進二、硬件基礎設施為發展基石,算力芯片等環節核心受益二、硬件基礎設施為發展
7、基石,算力芯片等環節核心受益三、國產廠商迎來發展窗口期,建議關注各環節龍頭廠商三、國產廠商迎來發展窗口期,建議關注各環節龍頭廠商四、附錄四、附錄 4人工智能落地應用不斷增加,人工智能落地應用不斷增加,AIGC引發范式革命引發范式革命 云端推理占比逐步提升云端推理占比逐步提升,AI落地應用數量增加落地應用數量增加。隨著數字經濟、元宇宙等概念逐漸興起,各行業對人工智能開發的需求日益提升,人工智能進入大規模落地應用的關鍵時期。2022年在云端部署的算力里,推理占算力已經達到了58.5%,訓練占算力只有41.5%,預計到2026年,推理占到62.2%,訓練占37.8%。一般來講,應用完成推理之后就可以
8、進行部署,而云端推理占比逐步提升說明而云端推理占比逐步提升說明,AI落落地應用數量正在不斷增加地應用數量正在不斷增加,人工智能模型將逐步進入廣泛投產模式人工智能模型將逐步進入廣泛投產模式。AIGC是人工智能成熟度的分水嶺是人工智能成熟度的分水嶺,引發范式革命引發范式革命。AI模型可大致分為決策式AI和生成式AI兩類,決策式AI根據已有數據進行分析、判斷、預測,已經被廣泛應用;生成式AI學習歸納已有數據后進行演繹,基于歷史進行模仿式、縫合式創作,生成了全新的內容,也能解決判別問題。從決策到生成,AI技術與應用迎來跨越發展。內容生產模式從專業生成內容(PGC)和用戶生成內容(UGC)逐漸過渡向AI
9、GC階段,標志著人類第二次腦力效率的飛躍。資料來源:騰訊研究院,中信建投圖表:圖表:AIGC引發內容生成范式革命引發內容生成范式革命圖表:云端推理占比逐步提升圖表:云端推理占比逐步提升0%10%20%30%40%50%60%70%80%90%100%2020202120222023202420252026訓練推理資料來源:IDC,中信建投 5ChatGPT是是AIGC的開山之作,成為人工智能里程碑式產品的開山之作,成為人工智能里程碑式產品 ChatGPT是是OpenAI推出的自然語言處理類推出的自然語言處理類(NLP)AIGC應用應用。Chatgpt橫空出世,成為AIGC的開山之作。ChatG
10、PT是美國OpenAI研發的聊天機器人程序,于2022年11月30日發布,是一款人工智能技術驅動的自然語言處理工具,能夠通過理解和學習人類的語言來進行對話,還能根據聊天的上下文進行互動,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務。ChatGPT成為人工智能技術在快速發展過程中的里程碑式產品成為人工智能技術在快速發展過程中的里程碑式產品。ChatGPT一經推出便快速獲得了全球用戶前所未有的廣泛參與與認可,推出兩個月后月活躍用戶規模達到 1 億人,遠超過 Facebook、抖音等成為了過去以來增長速度最快的消費者應用程序。ChatGPT 被視為標志性人工智能生產力工具,甚至被視為
11、第四次工業革命開始的標志。圖表:圖表:ChatGPT 原理概覽原理概覽圖表:平臺突破圖表:平臺突破1億月度用戶所用時間(月)億月度用戶所用時間(月)資料來源:UBS,HTI,中信建投資料來源:OpenAI,中信建投293041556170780102030405060708090ChatGPTTikTok Instagram PinterestSpotifyTelegramUberGoogleTranslate 6GPT架構快速迭代,參數量與訓練數據量提升帶來性能飛躍架構快速迭代,參數量與訓練數據量提升帶來性能飛躍 ChatGPT是基于是基于GPT架構開發的對話架構開發的對話AI模型模型,參數
12、量與訓練數據量的提升帶來性能飛躍參數量與訓練數據量的提升帶來性能飛躍。OpenAI早在2018年就已經推出第一代生成式預訓練語言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代碼、機器翻譯、問答等各類內容,此后GPT模型快速迭代,并且伴隨著參數量的爆炸式增長,從GPT到GPT-3,參數量達到了1750億,增長了近1500倍,預訓練數據量更是從5GB提升到了45TB,2023年3月推出的多模態大模型GPT-4參數量甚至預測達到100萬億。而隨著而隨著參數量和預訓練數據量的提升參數量和預訓練數據量的提升,模型的性能實現模型的性能實現了飛躍式提升
13、了飛躍式提升。圖表:預訓練模型參數規模與所需算力快速增加圖表:預訓練模型參數規模與所需算力快速增加資料來源:做AI做的事兒,中信建投圖表:圖表:GPT家族的演進家族的演進資料來源:架構師技術聯盟,中信建投模型發布時間參數量預訓練數據量GPT2018.61.17億約5GBGPT-22019.215億40GBGPT-32020.51750億45TBGPT-42023.3未公布未公布GPT-5?十萬億級?7GPT-3.5采用海量參數預訓練,大模型成為采用海量參數預訓練,大模型成為AI發展新范式發展新范式 ChatGPT是基于是基于GPT-3.5微調得到的大型語言模型微調得到的大型語言模型。GPT-3
14、.5采用深度學習transformer模型,對大規模數據進行預訓練,相比于一般的語言模型,參數量大幅提升至1750億,所需要的算力呈指數級增長。根據OpenAI,GPT-3.5在AzureAI超算基礎設施(由V100GPU組成的高寬帶集群)上進行訓練,總算力消耗約3640PF-days(即每秒一千萬億次計算,運行3640個整日)。大模型訓練性能突出大模型訓練性能突出,各大科技廠商積極布局各大科技廠商積極布局。預訓練大模型基于“預訓練+精調”等新開發范式具有良好的通用性和泛化性,可通過零樣本、小樣本學習獲得領先效果,大幅加速人工智能大規模產業化進程。自2020年起,中國的大模型數量驟增,僅202
15、0年到2021年,中國大模型數量就從2個增至21個,和美國量級同等,大幅領先于其他國家??梢灶A見,以谷歌的BERT、OpenAI的GPT和百度的文心一言為代表的大模型,未來將成為智能化升級中可大規模復用的重要基礎設施。圖表:國內公司積極布局大模型圖表:國內公司積極布局大模型圖表:中國大模型生態圖表:中國大模型生態資料來源:IDC,中信建投資料來源:各公司公告,中信建投圖表:深度語言模型的參數數量呈指數級增長圖表:深度語言模型的參數數量呈指數級增長資料來源:HEITS.DIGITAL,中信建投公司公司大模型大模型 模型底座模型底座 NLP大模型大模型 CV大模型大模型 多模態大模型多模態大模型特
16、色特色百度文心大模型飛架PaddlePaddle深度學習平臺文心NLP大模型(ERNIE3.0)文心CV大模型(VIMER系列)文心跨模態大模型(ERNIE變體)構建了文心大模型層、工具平臺層、產品與社區三層體系騰訊混元大模型太極機器學習平臺HunYuan-NLPHunYuan-vcrHunYuan tvr、太極文生圖廣告類應用表現出色阿里通義大模型M6-OFA通義-AliceMind通義-視覺通義-M6鉤建了AI 統一底座華為盤古大模型ModelArts盤古NLP大模型盤古CV大模型暫未上線發揮Model-as-a-service 8GPT-4性能升級,多模態加速邁向通用人工智能性能升級,多
17、模態加速邁向通用人工智能 多模態大模型多模態大模型GPT-4震撼發布震撼發布,性能實現大幅提升性能實現大幅提升。3月15日,GPT-4正式發布,多模態大模型進化更進一步,其不僅在語言處理能力上提高,如文字輸入限制提升至2.5萬字,并能夠生成歌詞、創意文本、實現風格變化,還具備對圖像的理解和分析能力,能基于圖片進行總結和回答問題。在各種專業和學術基準測試中已做到人類水平的表現,如SAT拿下700分,GRE幾乎滿分,模擬律師考試GPT4分數占前10%,GPT-3僅為倒數10%。GPT-4的出現標志著當前已經從語言模型突破走向多模態模型,應用前景廣闊。多模態大模型大勢所趨多模態大模型大勢所趨,應用場
18、景極大豐富應用場景極大豐富。多模態大模型可整合圖像、語音、文本等輸入輸出方式,實現對多種類型和模態數據的學習、分析及生成,有望極大豐富人機交互場景??梢钥吹?,多模態大模型將充分發揮人工智能創造價值的潛力,賦能各行各業實現降本增效,甚至加速邁向通用人工智能的步伐。圖表:圖表:GPT-4的圖文輸入輸出相為結合的圖文輸入輸出相為結合資料來源:OPEN AI,中信建投圖表:多模態大模型應用框架圖表:多模態大模型應用框架資料來源:AIGC時代的多模態知識工程思考與展望,中信建投 9算法向多模態大模型演變帶來算力資源消耗快速上升算法向多模態大模型演變帶來算力資源消耗快速上升 ChatGPT采用大模型算法要
19、求大規模算力等采用大模型算法要求大規模算力等AI基礎設施支持基礎設施支持。ChatGPT基于transformer模型,并改進訓練算法,一方面采用大量數據信息分析訓練,模型參數高達1750億,另一方面要求海量數據下并行計算的能力,需要消耗巨大的算力才能支持這種大模型的訓練和內容生產。具體舉例,OpenAI訓練使用了10000張英偉達訓練卡,而訓練1750億參數的GPT-3,需要一個英偉達V100 GPU計算約355年,且需要增加并行度;此外175B模型需要顯存按全精度預估在700GB左右,需要10張左右80GB A100卡。生成式AI主要依賴于人工智能大模型,參數達數十億至數萬億個,需要龐大的
20、數據集進行訓練,致使AI算力的需求也呈現出指數級的增長。圖表:圖表:ChatGPT等等AIGC應用采用大模型算法,需要對應的應用采用大模型算法,需要對應的AI基礎設施支持基礎設施支持時間時間機構機構模型名稱模型名稱模型規模模型規模數據規模數據規模單塊單塊V100計計算時間算時間2018.6OpenAlGPT110M4GB3天2018.10谷歌BERT330M16GB50天2019.2OpenAlGPT-21.5B40GB200天2019.7臉書RoBERTa330M160GB3年2019.10谷歌T511B800GB66年2020.6OpenAlGPT-3175B2TB355年圖表:預訓練模型
21、參數規模與所需算力快速增加圖表:預訓練模型參數規模與所需算力快速增加資料來源:做AI做的事兒,中信建投資料來源:甲子光年,中信建投 算力算力硬件硬件數據中心數據中心AI服務器服務器CPUGPUASICFPGA基礎芯片基礎芯片NPU加速芯片加速芯片互聯網互聯網金融金融城市城市制造制造教育教育應用應用數據數據算法算法數數據據軟軟件件醫療醫療人工智能產業鏈人工智能產業鏈 四、附錄四、附錄一、一、AIGC引發內容生成范式革命,云端算法向大模型多模態演進引發內容生成范式革命,云端算法向大模型多模態演進11目錄目錄二、受益環節二、受益環節三、國產廠商迎來發展窗口期,建議關注各環節龍頭廠商三、國產廠商迎來發
22、展窗口期,建議關注各環節龍頭廠商二、硬件基礎設施為發展基石,算力芯片等環節核心受益二、硬件基礎設施為發展基石,算力芯片等環節核心受益 12AI要求大規模智能算力,硬件基礎設施成為發展基石要求大規模智能算力,硬件基礎設施成為發展基石 以算力芯片為核心的硬件基礎設施是以算力芯片為核心的硬件基礎設施是AI發展的基石發展的基石。算力芯片等硬件基礎設施是處理數據“燃料”的“發動機”,只有達到一定水平的算力性能才能實現人工智能的訓練和推斷以及存儲、傳輸等相關配套功能。人工智能的云端訓練和推斷計算主要基于AI服務器,對算力/存力/運力/散熱性能要求更高,帶動算力芯片、配套硬件、機箱等設施不斷升級。中國智能算
23、力規模正在高速增長中國智能算力規模正在高速增長,算力芯片等硬件基礎設施需求旺盛算力芯片等硬件基礎設施需求旺盛。根據IDC數據,2021年中國智能算力規模達155.2 每秒百億億次浮點運算(EFLOPS),2022年智能算力規模將達到268.0 EFLOPS,預計到2026年智能算力規模將進入每秒十萬億億次浮點計算(ZFLOPS)級別,達到1,271.4EFLOPS,2021-2026年復合增長率達52.3%。預計中國人工智能支出中硬件占比將保持最大,未來5年將一直保持65%左右的份額??春肁I大模型訓練及推理需求創造的算力芯片等硬件基礎設施的增量市場空間。圖表:中國人工智能支出中硬件、軟件、服
24、務占比及趨勢圖表:中國人工智能支出中硬件、軟件、服務占比及趨勢圖表:中國智能算力規模及預測,圖表:中國智能算力規模及預測,2019-2026資料來源:IDC,中信建投資料來源:IDC,中信建投31.775155.2268427640.7922.81271.4020040060080010001200140020192020202120222023202420252026百億億次浮點運算/秒(EFLOPS)13算力:算力:CPU不可或缺,不可或缺,CPU+xPU異構方案成為大算力場景標配異構方案成為大算力場景標配 CPU的性能提升已遭遇瓶頸。的性能提升已遭遇瓶頸。過去40年間,在指令集簡化、核心
25、數增加、制程微縮、架構改進等技術變革的推動下,CPU的性能已經提升接近5萬倍,但不可避免的邊際效應遞減。在上世紀90年代,CPU性能每年提升52%,性能翻倍只需要1.5年。而從2015年之后,CPU性能每年提升只有3%,需要20年才能性能翻倍。CPU在現代計算系統中仍不可或缺,在現代計算系統中仍不可或缺,CPU+xPU的異構方案成為大算力場景標配。的異構方案成為大算力場景標配。CPU受制成本功耗難以匹配AI對算力需求的高速增長,CPU+AI芯片的異構方案應運而生,AI芯片類型包括GPU、FPGA和NPU等。其中,CPU是圖靈完備的,可以自主運行,而GPU、FPGA等芯片都是非圖靈完備的,都是作
26、為CPU的加速器而存在,因此其他處理芯片的并行計算系統均為CPU+xPU的異構并行。圖表:圖表:CPU性能提升速度放緩性能提升速度放緩圖表:圖表:CPU+AI芯片的異構計算方案芯片的異構計算方案資料來源:A New Golden Age for Computer Architecture,中信建投資料來源:華為,中信建投 14算力:算力:GPU并行計算優勢明顯,充分受益于并行計算優勢明顯,充分受益于AI算力需求增長算力需求增長 GPU削弱控制能力削弱控制能力,布局更多計算單元以加強算力布局更多計算單元以加強算力。從計算資源占比角度看,CPU包含大量的控制單元和緩存單元,實際運算單元占比較小。G
27、PU則使用大量的運算單元,少量的控制單元和緩存單元。GPU的架構使其能夠進行規?;⑿杏嬎?,尤其適合邏輯簡單,運算量大的任務。CPU+GPU是目前最流行的異構計算系統是目前最流行的異構計算系統,在HPC、圖形圖像處理以及AI訓練/推理等場景得到廣泛應用。根據IDC數據,2021年中國AI芯片市場中,GPU市占率近90%。圖表:圖表:2021年中國年中國AI芯片市場規模占比芯片市場規模占比資料來源:IDC,中信建投資料來源:NVIDIA,中信建投89.0%9.6%1.0%0.4%GPUNPUASICFPGA圖表:圖表:CPU+GPU異構計算服務器拓撲異構計算服務器拓撲圖表:圖表:CPU與與GPU
28、架構對比架構對比 算力:算力:NPU在特定場景下的性能、效率優勢明顯,推理端應用潛力巨大在特定場景下的性能、效率優勢明顯,推理端應用潛力巨大 NPU在人工智能算法上具有較高的運行效率在人工智能算法上具有較高的運行效率。在CPU與GPU合作時,CPU負責神經網絡模型的構建和數據流的傳遞,GPU只是單純的并行矩陣乘法和加法運算。在CPU與NPU合作時,CPU將編譯好的神經網絡模型文件和權重文件交由NPU加載,完成硬件編程,NPU為每層神經元計算結果不用輸出到主內存,而是按照神經網絡的連接傳遞到下層神經元繼續計算,因此其在運算性能和功耗上都有很大的提升。NPU為特定要求而定制為特定要求而定制,在功耗
29、在功耗、體積方面具有優勢體積方面具有優勢,在推理端應用潛力巨大在推理端應用潛力巨大。NPU作為專用定制芯片ASIC的一種,是為實現特定要求而定制的芯片,芯片設計邏輯更為簡單。除了不能擴展以外,在功耗、可靠性、體積方面都有優勢,尤其在高性能、低功耗的移動端。未來隨著人工智能推理端的發展,NPU應用潛力巨大。圖表:圖表:CPU與與GPU合作工作流程合作工作流程資料來源:焉知智能汽車,中信建投資料來源:焉知智能汽車,中信建投圖表:圖表:CPU與與NPU合作工作流程合作工作流程 95487200505001000150020002500Samsung S8(CPU)iphone 7 Plus(CPU+
30、GPU)Huawei Kirin 970(CPU+GPU+NPU)Images Recognized Per Minute16算力:大模型多模態發展,硬件需求從算力:大模型多模態發展,硬件需求從GPU擴展至周邊編解碼硬件擴展至周邊編解碼硬件 GPT-4升級指引多模態發展方向升級指引多模態發展方向,音視頻編解碼模塊作為算力補充有望獲得重視音視頻編解碼模塊作為算力補充有望獲得重視。GPT-4相比上代版本在語言處理能力上進一步提升的同時,還能支持識別和理解圖像,并輸出文本內容。展望未來,多模態應當具備三個基本組成部分,第一部分是圖像,視頻為多幀的圖像;第二部分為音頻;第三部分為文字。因此,隨著多模態
31、的發展,在硬件算力層面,需要面向圖像、音頻再增加編解碼能力的支持,相關的模塊包括VPU(Video Process Unit)、NPU等。從難度上講,視頻對于算力和IP復雜度的要求最高,其次為音頻。資料來源:谷歌,中信建投圖表:谷歌圖表:谷歌VPU內含多顆視頻編解碼核心內含多顆視頻編解碼核心圖表:麒麟圖表:麒麟970搭配搭配NPU,在圖像識別速度上優于同代競品,在圖像識別速度上優于同代競品資料來源:THE TECH REVOLUTIONIST,中信建投 17算力:算力:Chiplet為后摩爾定律時代的創新,為先進制程的高性價比替代方案為后摩爾定律時代的創新,為先進制程的高性價比替代方案 后摩爾
32、時代后摩爾時代Chiplet封裝為芯片制造提供了性能與成本平衡的最佳方案封裝為芯片制造提供了性能與成本平衡的最佳方案,并可大幅提升制造良率并可大幅提升制造良率。在AIGC對芯片算力持續提出更高需求的同時,芯片廠商在升級迭代產品時也需要考慮技術、成本的綜合限制。Chiplet(芯粒)是一種可平衡計算性能與成本,提高設計靈活度,且提升IP模塊經濟性和復用性的新技術之一。將大芯片拆解成多顆芯粒分別制造,其中異構芯片可以使用針對已實現功能進行成本和性能優化的工藝技術,再輔以2.5D/3D等先進封裝技術,有利于提升制造良率與單位體積內晶體管密度。因此近幾年全球晶圓制造廠商積極發展先進封裝工藝,并且增加2
33、.5D和3D封裝的資本開支,在后摩爾定律時代布局Chiplet成為半導體行業發展的必然趨勢。資料來源:IPnest,中信建投圖表:基于圖表:基于Chiplet的異構應用處理器的異構應用處理器圖表:圖表:Chiplet進行進行2.5D/3D封裝封裝資料來源:芯原股份,中信建投圖表:芯片尺寸對良率的影響圖表:芯片尺寸對良率的影響資料來源:Synopsys,中信建投 18算力:評判算力芯片三大核心指標算力:評判算力芯片三大核心指標計算能力、顯存、互聯帶寬計算能力、顯存、互聯帶寬 計算能力決定運算時間計算能力決定運算時間,算力越大完成大模型訓練或者推理的時間越短算力越大完成大模型訓練或者推理的時間越短
34、INT8與與FP16算力是算力是AI計算中較為重要的評價指標計算中較為重要的評價指標。依照精度差異,算力可從INT8(整數類型)、FP16(半精度)、FP32(單精度)、FP64(雙精度)等不同維度對比。與科學計算需求不同,AI應用處理的對象主要是語言、圖片或視頻,運行低精度甚至整形計算即可完成推理和訓練。在AI推理端,8bit已經成熟,以谷歌TPU為代表的商用硬件開始大規模使用;在AI訓練端,16bit混合精度逐漸成熟,商用硬件已出現Intel的NNP,NVIDIA的Tensor core。資料來源:Intel,中信建投資料來源:Efficient Method and Hardware f
35、or Deep Learning,中信建投圖表:低精度為圖表:低精度為AI計算帶來的好處計算帶來的好處圖表:不同精度計算消耗的能量和硅片面積圖表:不同精度計算消耗的能量和硅片面積計算精度及操作計算精度及操作能量消耗相對值能量消耗相對值面積消耗相對值面積消耗相對值8b Add1116b Add2232b Add3416b FP Add133832b FP Add301168b Mult7832b Mult1039716b FP Mult374632b FP Mult12321432b SRAM Read(8KB)167-32b DRAM Read21333-低精度帶來低精度帶來更少內存更少內存減
36、少內存訪問減少內存訪問更好匹配緩存更好匹配緩存數據快速搬移數據快速搬移更小硅片面積更小硅片面積減少晶體管數量減少晶體管數量減少能耗減少能耗更高的每秒操作數更高的每秒操作數更更快快的計算的計算 19算力:評判算力芯片三大核心指標算力:評判算力芯片三大核心指標計算能力、顯存、互聯帶寬計算能力、顯存、互聯帶寬 顯存用于存儲顯卡芯片處理或者即將提取的數據顯存用于存儲顯卡芯片處理或者即將提取的數據顯存容量顯存容量決定卡的需求數量,以ChatGPT為例,假設模型以半精度350GB的模型大小推理的話,需要5張以上80GB NVIDIA A100算力卡并行計算以保證時效性;顯存帶寬顯存帶寬決定了卡將數據從顯存
37、移動到計算核心的速度。顯存的種類對帶寬有著明顯的影響。常規的GDDR焊接在GPU芯片周邊的PCB板上,HBM裸片通過TSV進行堆疊,然后HBM整體與GPU通過中介層互聯,因此HBM獲得了極高的帶寬,并節省了PCB面積。目前,GDDR顯存仍是消費級GPU的行業標準,HBM則成為AI GPU的主流選擇。資料來源:AMD,中信建投圖表:圖表:GDDR與與HBM差異差異圖表:圖表:HBM與與GDDR性能差異案例性能差異案例資料來源:NVIDIA,中信建投GPU型號型號NVIDIA A30NVIDIA A10發布時間20212021顯存種類HBM2GDDR6容量24GB24GB位寬3072-bit384
38、-bit帶寬933 GB/s600 GB/s 20算力:評判算力芯片三大核心指標算力:評判算力芯片三大核心指標計算能力、顯存、互聯帶寬計算能力、顯存、互聯帶寬 互聯帶寬決定多卡互聯虛擬化時系統運行效率互聯帶寬決定多卡互聯虛擬化時系統運行效率目前計算卡普遍采用PCIe進行互聯,而PCIe互聯速度由其代際與結構決定,例如x16 PCIe 4.0單向帶寬為32GB/s。NVIDIA為突破限制,自研推出NVLINK技術,4代NVLINK互聯帶寬已達到900GB/s。A100對華禁售后,NVIDIA推出了A800,主要修改點就是將互聯速度由600GB/s下調至400GB/s,單卡性能沒有損失,但大規模擴
39、展互聯性能將大幅受限。資料來源:NVDIA,中信建投資料來源:trentonsystems,中信建投注:單向帶寬數據圖表:不同圖表:不同PCIe結構及代際差異結構及代際差異圖表:圖表:NVDIA NVLINK互聯技術互聯技術圖表:圖表:A800與與A100主要差異體現在互聯帶寬主要差異體現在互聯帶寬80GB PCIe80GB SXM40GB PCIe40GB SXM40GB PCIe80GB PCIe80GB SXMINT8 TensorFP16 Tensor種類種類HBM2容量容量(GB)40位寬(位寬(bit)帶寬帶寬(TB/s)1.942.041.561.561.561.942.04內存
40、內存80互聯互聯NVLink:600GB/sx16 PCIe 4.0:64GB/sNVLink:400GB/sx16 PCIe 4.0:64GB/s804051205120312|624 TFLOPSHBM2eHBM2e算力算力624|1248 TOPS624|1248 TOPS312|624 TFLOPS制程制程7nm 7nm型號型號A100(80GB)A100(40GB)A800代際代際發布時間發布時間傳輸速率傳輸速率*帶寬帶寬 x1帶寬帶寬 x161.020032.5 GT/s250MB/s4GB/s2.020075.0 GT/s500MB/s8GB/s3.020108.0 GT/s1G
41、B/s16GB/s4.0201716 GT/s2GB/s32GB/s5.0201932 GT/s4GB/s64GB/s6.0202164 GT/s8GB/s128GB/s 21存力:要求更高的數據讀存性能,拉動存儲芯片需求存力:要求更高的數據讀存性能,拉動存儲芯片需求 2)從存力需求來看,大參數調用及海量數據讀存要求更強的存儲能力。)從存力需求來看,大參數調用及海量數據讀存要求更強的存儲能力。ChatGPT需要很龐大的通用數據集,作為訓練數據的輸入,此外訓練與推理還需要大參數調用及海量數據讀存,數據存儲、訪問及傳輸速度對模型的訓練及推理效率存在顯著影響,因此對應需要相應的存儲服務器硬件設施,如
42、溫冷存儲,數據訪問加速,數據湖等;以及對大容量存儲的需求,如AI服務器,除了內存需要128GB或更大容量的高性能HBM和高容量服務器DRAM,還需硬盤去存儲大量數據;另外還需要專門面向AI定制的一些存儲協議、訪問協議。根據IDC數據,存儲在高性能/推理型/機器學習型服務器中的占比分別達29%/25%/16%??傮w來看,AI服務器有望提高對高帶寬內存、企業級SSD的需求,支持服務器與SSD通信的NVMe-oF 協議也有望受益搭載使用。圖表:服務器成本構成圖表:服務器成本構成圖表:圖表:NMVe-oF助力存儲與服務器的連接通信助力存儲與服務器的連接通信資料來源:IDC,DRAMexchage,SI
43、A,中信建投資料來源:SSDFans,中信建投20%19%25%8%15%3%10%8%15%28%15%8%23%27%25%67%27%23%25%9%0%10%20%30%40%50%60%70%80%90%100%基礎型高性能型推理型機器學習型其他storagememoryGPUCPU 22運力:需要更強的數據傳輸速率,推動光模塊技術升級運力:需要更強的數據傳輸速率,推動光模塊技術升級 3)從運力需求來看,)從運力需求來看,AI需要更強的數據傳輸速率,帶動光通信技術升級。需要更強的數據傳輸速率,帶動光通信技術升級。無論是部署之后的外部訪問,還是內部的數據翻譯,都要有非常高速的網絡連接線
44、路或者交換機系統。數據中心場景下,光模塊主要用于服務器和交換機,以及各交換機之間的連接等,AI對網絡速率的需求是目前的10倍以上,將加速高速率光模塊產品出貨及CPO、硅光等新技術的應用。一方面,高速率光模塊將加速上量,根據LightCounting,800G光模塊將在23-24年開始規?;渴?;另一方面,傳統可插拔光模塊功耗制約凸顯,CPO可以減少約50%的功耗,將有效解決AI對于高速高密度互連傳輸要求,據LightCounting,到2027年CPO技術在AI集群與HPC滲透率將提升至30%。圖表:可插拔和圖表:可插拔和CPO光模塊方案對比光模塊方案對比圖表:光模塊的發展趨勢和技術路線圖表:
45、光模塊的發展趨勢和技術路線資料來源:芯東西,中信建投資料來源:51CTO,中信建投 23其他:功耗提升散熱需求升級,芯片液冷市場發展潛力巨大其他:功耗提升散熱需求升級,芯片液冷市場發展潛力巨大 4)從功耗與散熱來看,)從功耗與散熱來看,AI服務器需要高性能散熱系統。服務器需要高性能散熱系統。AI服務器功耗相對更高,根據冷板式液冷服務器可靠性白皮書,2022年英偉達單GPU芯片功耗突破700瓦,8顆A100 服務器可達6000瓦左右,AI集群算力密度普遍達到50kW/柜。而采用風冷的數據中心通常僅可以解決12kW以內的機柜制冷,因此AI服務器的高能耗對數據中心的散熱系統提出了更高的要求。當前主流
46、散熱方案正朝芯片級不斷演進,芯片級散熱方案主要有芯片級液冷技術、相變儲熱散熱技術、蒸發冷卻技術等。未來在國內AIGC產業快速發展帶動下,AI服務器市場規模有望持續擴大,而芯片級液冷作為極具發展潛力的散熱方案之一,其需求有望隨之持續增加、規模不斷擴大。預計到2025年,國內AI服務器芯片級液冷市場規模有望達到百億元,行業發展潛力巨大。圖表:數據中心冷卻方式效果評估表圖表:數據中心冷卻方式效果評估表圖表:單機柜功率密度與冷卻方式圖表:單機柜功率密度與冷卻方式資料來源:賽迪顧問,中信建投資料來源:綠色高能效數據中心散熱冷卻技術研究現狀及發展趨勢,中信建投 三、國產廠商迎來發展窗口期,建議關注各環節龍
47、頭廠商三、國產廠商迎來發展窗口期,建議關注各環節龍頭廠商四、附錄四、附錄一、一、AIGC引發內容生成范式革命,云端算法向大模型多模態演進引發內容生成范式革命,云端算法向大模型多模態演進24目錄目錄二、硬件基礎設施為發展基石,算力芯片等環節核心受益二、硬件基礎設施為發展基石,算力芯片等環節核心受益 25英偉達、英偉達、AMD供應受限,國產算力芯片廠商迎來窗口期供應受限,國產算力芯片廠商迎來窗口期 英偉達英偉達、AMD對華供應高端對華供應高端GPU芯片受限芯片受限。美國對華半導體管制已經從最初針對某些公司擴大到對半導體整個行業的全面限制。2022年8月,英偉達被美國政府要求其停止向中國出口兩款用于
48、人工智能的頂級計算芯片,其峰值性能和芯片到芯片的 I/O 性能等于或大于大致相當于 A100 的閾值,即A100和H100兩款芯片都將受到影響。AMD也同樣被要求禁止將其MI100、MI200系列人工智能芯片出口到中國。當前2023年3月1日的延緩期已過,后續將無法向大陸市場出貨。國產算力芯片迎來國產替代窗口期國產算力芯片迎來國產替代窗口期。美國對中國半導體產業發展持續打壓背景下,英偉達、AMD斷供進一步激發算力芯片國產化需求。當前已經涌現出一大批國產算力芯片廠商,寒武紀、龍芯中科相繼推出自研GPU,海光信息的DCU(GPGPU)也逐漸打出知名度,其他配套環節的國產化進程也正在加速推進。資料來
49、源:NVIDIA,AMD,中信建投圖表:圖表:NVIDIA與與AMD被限制算力芯片性能情況被限制算力芯片性能情況NVIDIAAMD禁售產品A100H100MI100MI210MI250M250X發布時間2020年11月2022年3月2020年11月2022年3月2021年11月2021年11月架構設計AmpereHopperCDNA2CDNA2CDNA2CDNA2計算單元6912個CUDA內核18432個CUDA內核120個104個208個220個FP3219.5 TFLOPS51/67 TFLOPS23.1 TFLOPS22.6 TFLOPS45.3 TFLOPS47.9 TFLOPSFP1
50、6312 TFLOPS1513/1979 TFLOPS184.6 TFLOPS181 TFLOPS362 TFTOPS383 TFLOPSINT8624 TOPS3026/3958 TOPS184.6 TOPS181 TOPS362 TOPS383 TOPS工藝制程7nm4nm7nm6nm6nm 6nm顯存容量80GB80GB32GB64GB128GB128GB顯存帶寬2093GB/s3TB/s1.2TB/s1.6 TB/s3.2TB/s3.2TB/s互聯NVLink 600GB/sx16 PCIe 4.0:64 GB/sNVLink 600/900GB/sX16 PCIe 5.0:128GB
51、/sPCIe 3.0&4.0PCIe 3.0&4.0PCIe 4.0PCIe 4.0功耗400W700W300W300W500&560 W500&560W 26寒武紀:國內人工智能芯片領軍者寒武紀:國內人工智能芯片領軍者 寒武紀專注寒武紀專注AI領域核心處理器領域核心處理器,思元系列智能加速卡持續迭代思元系列智能加速卡持續迭代。寒武紀成立于2016年,致力于打造人工智能領域的核心處理器芯片。寒武紀目前已推出了思元系列智能加速卡,第三代產品思元370基于7nm制程工藝,是寒武紀首款采用chiplet技術的AI芯片,最高算力達到256TOPS(INT8)。思元370還搭載了MLU-Link多芯互聯
52、技術,互聯帶寬相比PCIe 4.0提升明顯。思元思元590采用全新架構采用全新架構,性能相比在售旗艦有大幅提升性能相比在售旗艦有大幅提升。在2022年9月1日舉辦的WAIC上,寒武紀陳天石博士介紹了全新一代云端智能訓練芯片思元590,思元590采用MLUarch05全新架構,實測訓練性能較在售旗艦產品有了大幅提升,能提供更大的內存容量和更高的內存帶寬,其IO和片間互聯接口也較上代實現大幅升級。圖表:思元圖表:思元370系列板卡與業內主流系列板卡與業內主流GPU性能和能效對比性能和能效對比圖表:寒武紀思元系列智能加速卡參數圖表:寒武紀思元系列智能加速卡參數資料來源:寒武紀,中信建投資料來源:寒武
53、紀,中信建投型號型號思元370系列思元290系列思元270系列MLU370-X8MLU370-X4MLU370-S4MLU290-M5MLU270-S4MLU270-F4架構架構MLUarch03MLUv02 ExtendedMLUv02制程制程7nm7nm算力算力INT8256 TOPS 256 TOPS192 TOPS512 TOPS 128 TOPS128 TOPSFP1696 TFLOPS 96 TFLOPS72 TFLOPS顯存顯存種類種類LPDDR5HBM2DDR4容量容量48GB24GB24GB32GB16GB位寬位寬4096 bit256 bit帶寬帶寬614.4 GB/s30
54、7.2 GB/s307.2 GB/s1.23 TB/s102 GB/s互聯互聯MLU-Link聚合帶寬:200 GB/s;x16 PCIe Gen4:64GB/sx16 PCIe Gen4:64 GB/sx16 PCIe Gen4:64 GB/sMLU-Link聚合帶寬:600 GB/sx16 PCIe Gen4:64 GB/s16 PCIe Gen.3:32 GB/s功耗功耗250W150W75W350W70w150w 27寒武紀:持續完善軟件生態,強化核心競爭力寒武紀:持續完善軟件生態,強化核心競爭力 寒武紀重視自身軟硬件生態建設寒武紀重視自身軟硬件生態建設,為云邊端全系列智能芯片與處理器
55、產品提供統一的平臺級基礎系統軟件為云邊端全系列智能芯片與處理器產品提供統一的平臺級基礎系統軟件。寒武紀的基礎系統軟件平臺主要包括訓練軟件平臺和推理軟件平臺。訓練軟件平臺支持豐富的圖形圖像、語音、推薦以及訓練任務,同時提供模型快速遷移方法,幫助用戶快速完成現有業務模型的遷移。對于推理軟件平臺,寒武紀新增推理加速引擎MagicMind,在 MLU、GPU、CPU 訓練好的算法模型上,借助MagicMind,用戶僅需投入極少的開發成本,即可將推理業務部署到寒武紀全系列產品上。圖表:寒武紀基礎軟件平臺圖表:寒武紀基礎軟件平臺圖表:訓練軟件平臺圖表:訓練軟件平臺資料來源:寒武紀,中信建投圖表:推理加速引
56、擎圖表:推理加速引擎MagicMind資料來源:寒武紀,中信建投資料來源:寒武紀,中信建投 28寒武紀:與產業端強強聯合,促進生態融合應用寒武紀:與產業端強強聯合,促進生態融合應用 百度飛槳深度學習平臺正加強與主流人工智能芯片廠商聯合建設生態百度飛槳深度學習平臺正加強與主流人工智能芯片廠商聯合建設生態。百度飛槳集深度學習核心框架、基礎模型庫、端到端開發套件、工具組件和服務平臺于一體,包含完整的開發、訓練、推理的端到端深度學習AI模型開發工具鏈。其中,Paddle Lite是一個可以在邊緣端、移動端和部分服務器端等場景下用于AI模型部署的高性能輕量化推理引擎。典型應用場景包括:智能閘機、智能家居
57、、自動駕駛、AR/VR手機應用等。隨著在穩定性、兼容性和成熟度等方面不斷升級,百度飛槳越來越重視與硬件廠商,尤其是與主流人工智能芯片廠商聯合進行生態建設。寒武紀與百度飛漿完成適配寒武紀與百度飛漿完成適配,加速加速AI多場景落地多場景落地。2020年4月,思元270與Paddle Lite正式完成兼容性適配。2022年12月,思元370系列在與百度飛漿完成II級兼容性測試,兼容性表現良好,整體運行穩定,訓練性能可以滿足用戶的應用需求。寒武紀旗下人工智能芯片與百度飛漿的成功適配標志著寒武紀端云一體的人工智能芯片生態,與百度飛槳代表的深度學習框架生態的成功融合。資料來源:寒武紀,中信建投圖表:寒武紀
58、與百度飛槳完成兼容性測試圖表:寒武紀與百度飛槳完成兼容性測試 海光信息:深算系列海光信息:深算系列GPGPU提供高性能算力,升級迭代穩步推進提供高性能算力,升級迭代穩步推進數據來源:海光信息招股說明書,中信建投 海光海光DCU提供高性能算力提供高性能算力。海光DCU也屬于GPGPU的一種,其構成與CPU類似,結構邏輯相對CPU簡單,但計算單元數量較多。海光DCU的主要功能模塊包括計算單元、片上網絡、高速緩存、各類接口控制器等。海光DCU可為應用程序提供高性能、高能效比的算力,支撐高復雜度和高吞吐量的數據處理任務。一代一代DCU已實現規?;N售已實現規?;N售,二代升級規劃穩步推進二代升級規劃穩
59、步推進。深算一號DCU產品目前已實現商業化應用。2020年1月,公司啟動了第二代DCU深算二號的產品研發工作,研發工作進展正常。圖表:海光信息圖表:海光信息DCU產品形態產品形態海光8100芯片DCU加速卡 深算一號圖表:海光信息圖表:海光信息8100主要規格主要規格圖表:海光信息圖表:海光信息DCU基本組成架構基本組成架構數據來源:海光信息招股說明書,中信建投數據來源:海光信息招股說明書,中信建投海光海光 8100典型功耗典型功耗260-350W典型運算類型典型運算類型雙精度、單精度、半精度浮點數據和各種常見整型數據計算計算60-64 個計算單元(最多 4096 個計算核心)支持 FP64、
60、FP32、FP16、INT8、INT4內存內存4 個 HBM2 內存通道最高內存帶寬為 1TB/s最大內存容量為 32GBI/O 16 Lane PCIe Gen4 DCU芯片之間高速互連 海光信息:類“海光信息:類“CUDA”環境降低遷移成本,軟硬件生態豐富”環境降低遷移成本,軟硬件生態豐富數據來源:海光信息官網,中信建投 海光海光DCU兼容類兼容類“CUDA”環境環境,方便方便CUDA用戶以較低代價快速遷移用戶以較低代價快速遷移。海光DCU協處理器全面兼容ROCm GPU計算生態,由于ROCm和CUDA在生態、編程環境等方面具有高度的相似性,理論上講,市場上規模最大的GPGPU開發群體CU
61、DA用戶可用較低代價快速遷移至ROCm平臺,有利于海光DCU的市場推廣。同時,由于ROCm生態由AMD提出,AMD對ROCm生態的建設與推廣也將有助于開發者熟悉海光DCU。海光海光DCU適配性好適配性好,軟硬件生態豐富軟硬件生態豐富。海光DCU協處理器能夠較好地適配國際主流商業計算軟件和人工智能軟件,軟硬件生態豐富,可廣泛應用于大數據處理、人工智能、商業計算等計算密集類應用領域,主要部署在服務器集群或數據中心。圖表:海光信息提供完善軟件棧支持圖表:海光信息提供完善軟件棧支持圖表:圖表:ROCm與與CUDA的模塊具有高度相似性的模塊具有高度相似性數據來源:CSDN,中信建投NVIDIA CUDA
62、AMD ROCmCUDAAPIHIP(CUDA API子集)NVCCHCCCUDA函數庫ROC庫、HC庫ThrustParallel STLProfilerROCm profilerCUDA-GDBROCm-GDBNvidia-smirocm-smiDirectGPU RDMAROCn RDMATensorRTTensileCUDA-DockerROCm-Docker 31龍芯中科:自主架構龍芯中科:自主架構CPU行業先行者,新品頻發加速驅動成長行業先行者,新品頻發加速驅動成長 公司系國內稀缺的自主架構公司系國內稀缺的自主架構CPU引領者引領者,持續構建產業生態持續構建產業生態。龍芯中科是國內
63、唯一堅持基于自主指令系統構建獨立于Wintel體系和AA體系的開放性信息技術體系和產業生態的CPU企業。公司自2020年推出自主研發的全新指令系統LoongArch后,新研的產品均是基于LoongArch指令系統,與下游應用領域加速適配。龍芯中科龍芯中科CPU持續升級持續升級,在服務器在服務器CPU領域已達到國內領先行列領域已達到國內領先行列。龍芯中科研制的芯片包括龍芯1號、龍芯2號、龍芯3號三大系列處理器芯片及橋片等配套芯片,依據應用領域的不同可分為工控類芯片和信息化類芯片,其中龍芯3號屬于信息化類,面向個人計算機與服務器應用。公司2022年12月宣布32核服務器芯片3D5000初樣驗證成功
64、,該芯片主頻為2.02.2GHz,采用Chiplet技術。該芯片面向存儲、虛擬化等常用場景,通用性較強。龍芯3D5000的推出,標志著龍芯中科在服務器CPU芯片領域進入國內領先行列。龍芯中科正在進行龍芯3D5000芯片產品化工作,預計將在2023年上半年向產業鏈伙伴提供樣片、樣機。圖表:龍芯圖表:龍芯3號系列產品參數號系列產品參數資料來源:龍芯中科官網,中信建投型號推出時間主頻(GHz)峰值運算速度處理器核內存接口典型功耗主要應用場景龍芯 3A30002017年1.35-1.524GFLOPS1.5GHz64 位四核處理器,采用全新的 LoongArch 指令系統雙通道DDR3-160030W
65、1.5GHz桌面與終端類龍芯 3A40002019年1.8-2.0128GFLOPS2.2GHz64 位四核處理器,MIPS64兼容;雙通道 DDR4-240030W1.5GHz40W1.8GHz50W2.0GHz桌面與終端類龍芯 3A50002021年2.3-2.5160GFLOPS64 位四核處理器,采用全新的 LoongArch 指令系統雙通道 DDR4-320035W2.5GHz桌面與終端類龍芯 3C5000L2021年2.0-2.2560GFLOPS64 位十六核處理器,采用全新的 LoongArch 指令系統,集成4個3A5000四通道 DDR4-3200130W2.2GHz服務器
66、類龍芯 3C5000 2022年2.0-2.2560GFLOPS2.2GHz64 位十六核處理器,采用全新的 LoongArch 指令系統,集成16個高性能LA464核四通道 DDR4-3200150W2.2GHz服務器類龍芯3D50002023年2.0-2.264位三十二核處理器,集成32個高性能LA464核八通道DDR4-32001kW1kW 一、一、AIGC引發內容生成范式革命,云端算法向大模型多模態演進引發內容生成范式革命,云端算法向大模型多模態演進四、附錄四、附錄36目錄目錄二、硬件基礎設施為發展基石,算力芯片等環節核心受益二、硬件基礎設施為發展基石,算力芯片等環節核心受益三、三、國
67、產廠商迎來發展窗口期,建議關注各環節龍頭廠商國產廠商迎來發展窗口期,建議關注各環節龍頭廠商 1、ChatGPT可替代智能音箱現有語音交互模型可替代智能音箱現有語音交互模型 智能音箱是智能音箱是AI語音識別落地的主要場景之一語音識別落地的主要場景之一,ChaptGPT有望帶來革新有望帶來革新。智能音箱的語音交互功能可快速識別用戶語音需求,同時智能音箱可作為智能家居的控制中心,控制智能家居設備,智能音箱的智能化功能、內容服務與互聯網服務也為消費者的生活帶來便利性。自2014年亞馬遜發布首款智能音箱Amazon Echo1代后,智能市場進入快速增長期,2021年至今百度、騰訊、阿里、小米、蘋果、華為
68、、亞馬遜等科技巨頭仍在加大布局智能音箱。ChaptGPT技術可替換智能音箱原云端語音識別與反饋,提供更好的語音交互體驗。相關廠商包括:全志科技、恒玄科技、矩芯科技。資料來源:頭豹研究院,中信建投資料來源:頭豹研究院,中信建投圖表:智能音箱作用圖表:智能音箱作用圖表:中國智能音箱行業銷量及預測圖表:中國智能音箱行業銷量及預測1761625458936763654383237253756382738930500100015002000250030003500400045005000201720182019202020212022E 2023E 2024E 2025E 2026E銷量(萬臺)智能音箱
69、內容服務互聯網服務智能家居控制語音交互包括語音識別、語義理解等技術,保證音箱快速識別用戶需求,提供更為自然的人機交互模式提供豐富的音樂、有聲讀物、兒童教育內容等流媒體內容,保證用戶的音頻內容享受通過智能音箱實現對照明、安防產品等的控制,并能夠場景化的定義操控指令,使智能音箱成為智能家居的控制中心涵蓋外賣、信息查詢、出行、上午等多種服務,接入家居中多樣生活場景,為消費者帶來便捷 382、除、除AIGC外近幾年外近幾年AI有潛力的方向推薦有潛力的方向推薦 Nvidia DLSS(Deep learning Super Sampling)NVIDIA DLSS使用AI技術對多個較低分辨率的圖像進行采
70、樣,并根據運動關系和來自先前幀的反饋來獲得更高質量的圖像。DLSS已經升級到DLSS3,插幀效果在可接受范圍內。相關廠商包括:帶有NPU的SoC公司,晶晨、瑞芯微 TinyML 在資源受限的微控制器上實現低資源消耗、低功耗的機器學習算法,被稱為“下一代人工智能革命下一代人工智能革命”相關廠商包括:樂鑫科技圖表:圖表:DLSS開啟呈現更高的視頻幀率開啟呈現更高的視頻幀率資料來源:NVIDIA,中信建投圖表:圖表:TinyML運用在硬件資源受限的場景運用在硬件資源受限的場景資料來源:電子技術設計,中信建投 392、除、除AIGC外近幾年外近幾年AI有潛力的方向推薦有潛力的方向推薦 存內計算存內計算
71、 把計算單元嵌入到內存當中,以減少內存傳輸速度不足對系統運算速度和功耗的影響?,F有的許多技術都已經可以實現存內計算的基本原理根據應用場景不同的需要,可以分為三個層次:1)第一層級的SRAM,讀寫速度快,計算延時短,但是存儲量級??;2)第二層級的非嵌入存儲器,如RRAM和MRAM,讀寫速度稍慢,但存儲量級變大,計算延時較短;3)第三層級,如PCM,Flash,讀寫更慢,計算延時也更長,但相應的存儲量級也是最大的。國內智存科技基于Nor Flash存儲,開發存內計算。相關廠商包括:恒爍股份圖表:存內計算的層次圖表:存內計算的層次資料來源:北京大學,中信建投 基于先進封裝的方案整合基于先進封裝的方案
72、整合 CIS貼合帶神經網絡加速的MCU用途1:智能化的傳感器,優化系統級功耗用途2:AI安防圖表:索尼搭載圖表:索尼搭載AI處理功能的處理功能的CIS資料來源:索尼,中信建投 風險提示風險提示 中美貿易中美貿易/科技摩擦升級風險:科技摩擦升級風險:美國限制含涉美技術的晶圓代工廠為限制名單上的中國芯片廠商代工,若未來美國加大對中國半導體行業的遏制,可能影響國內廠商需求海外代工以及先進制程產品的研發。技術研發進展不及預期:技術研發進展不及預期:算力芯片、IP等產品市場技術壁壘高,行業龍頭不斷研發創新,未來若國內公司研發進展不及預期,致新一代產品開發進度、性能等指標不及預期,則會影響其市場競爭力。下
73、游市場需求不達預期:下游市場需求不達預期:宏觀環境的不利因素將可能使得全球經濟增速放緩,導致主要下游行業需求不及預期,或其他領域拓展進度放緩。市場競爭加劇導致毛利率下降:市場競爭加劇導致毛利率下降:國內廠商正積極推進國產替代,國內廠商之間亦存在競爭,若未來市場競爭加劇,可能導致價格戰致使毛利率下降。感謝龐佳軍、何昱靈對本報告的貢獻。分析師介紹分析師介紹劉雙鋒:劉雙鋒:中信建投證券電子首席分析師。3年深南電路,5年華為工作經驗,從事市場洞察、戰略規劃工作,涉及通信服務、云計算及終端領域,專注于通信服務領域,2018年加入中信建投通信團隊。2018年IAMAC最受歡迎賣方分析師通信行業第一名團隊成
74、員,2018水晶球最佳分析師通信行業第一名團隊成員。研究助理研究助理鄭寅銘鄭寅銘 41評級說明評級說明投資評級標準評級說明報告中投資建議涉及的評級標準為報告發布日后6個月內的相對市場表現,也即報告發布日后的6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深300指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美國市場以標普 500 指數為基準。股票評級買入相對漲幅15以上增持相對漲幅5%15中性相對漲幅-5%5之間減持相對跌幅5%15賣出相對跌幅15以上行業評級強于大市相對漲幅10%以上中性相對漲幅-10-10%之間弱于大市相對跌
75、幅10%以上 分析師聲明分析師聲明本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已
76、披露在報告首頁。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告
77、所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資
78、決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去12個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版
79、、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部中信建投(國際)中信建投(國際)北京東城區朝內大街2號凱恒中心B座12層電話:(8610)8513-0588聯系人:李祉瑤郵箱:上海浦東新區浦東南路528號南塔2106室電話:(8621)6882-1612聯系人:翁起帆郵箱:深圳福田區益田路6003號榮超商務中心B座22層電話:(86755)8252-1369聯系人:曹瑩郵箱:香港中環交易廣場2期18樓電話:(852)3465-5600聯系人:劉泓麟郵箱:charleneliucsci.hk42