《計算機行業AIGC算力時代系列報告:ChatGPT芯片算力研究框架-230210(29頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業AIGC算力時代系列報告:ChatGPT芯片算力研究框架-230210(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、#page#浙商證券股份有限公司算力需求爆發拉動芯片量價齊升光模塊和光芯片通過AI服務器實現Transformer技術模型送代芯片需求快速增加GPU門門芯片均價大幅提升算力需求增加CPU號芯片量價X十需求AI訓練計算需求FPGA模型訓練成本預計每3.5個月翻一番飾1200萬美元請算力A模型算法訓練數據英偉達GPUA100號新ChatGPT完美運行1萬顆光模塊(加速器)AI芯片資料來源:浙商證券研究所#page#浙商證券股份有限公司摘要ChatGPT熱潮席卷全球。ChatGPT(ChatGenerativePre-trainedTransformer)是由OpenAl于2022年12月推出的對話
2、AI模型一經面世便受到廣泛關注,其2023年1月月活躍用戶達到1億,是史上月活用戶增長最快的消費者應用。在問答模式的基礎上ChatGPT可以進行推理、編寫代碼、文本創作等等,這樣的特殊優勢和用戶體驗使得應用場景流量大幅增加。1、芯片需求=量價個,AIGC拉動芯片產業量價齊升1)量:AIGC帶來的全新場景+原場景流量大幅提高。技術原理角度:ChatGPT基于Transformer技術,隨著模型不斷送代層數也越來越多,對算力的需求也就越來越大;運行條件角度:ChatGPT完美運行的三個條件:訓練數據+模型算法+算力,需要在基礎模型上進行大規模預訓練,存儲知識的能力來源于1750億參數,需要大量算力
3、。2)價:對高端芯片的需求將拉動芯片均價。采購一片英偉達頂級GPU成本為8萬元,GPU服務器成本通常超過40萬元。支撐ChatGPT的算力基礎設施至少需要上萬顆英偉達GPUA100,高端芯片需求的快速增加會進一步拉高芯片均價。2、ChatGPT的“背后英雄”:芯片,看好國內GPU、CPU、FPGA、AI芯片及光模塊產業鏈1)GPU:支撐強大算力需求。由于具備并行計算能力,可兼容訓練和推理,目前GPU被廣泛應用于加速芯片??春煤9庑畔?、景嘉微;2)CPU:可用于推理/預測。AI服務器利用CPU與加速芯片的組合可以滿足高吞吐量互聯的需求??春谬埿局锌?、中國長城3)FPGA:可通過深度學習+分布集群
4、數據傳輸賦能大模型。FPGA具備靈活性高、開發周期短、低延時、并行計算等優勢??春冒猜房萍?、復旦微電、紫光國微是“身首于到票應上+C出IV區卡HOISVI“磁:oIsy(t寒武紀、瀾起科技5)光模塊:容易被忽略的算力瓶頸。伴隨數據傳輸量的增長,光模塊作為數據中心內設備互聯的載體,需求量隨之增長??春玫驴屏?、天孚通信、中際旭創#page#浙商證券股份有限公司風險提示1、AI技術發展不及預期2、版權、倫理和監管風險33、半導體下游需求不及預期#page#01ChatGPT帶動算力芯片量價齊升目錄02CPU、GPU、FPGA、AI芯片提供底層算力支持CONTENTS03光模塊支撐數據傳輸#page#
5、page#浙商證券股份有限公司201人工智能四層架構,芯片為底層支撐AI繪畫:盜夢師AI寫作:奔寫AIGCAI音樂:DeepMusic上層應用ChatGPT百度:文心大模型谷歌:PaLM大模型華為:盤古大模型GPT3.5OpenAl:百度:PaddlePaddleMeta:PyTorch深度學習框架華為:MindSpore谷歌:TensorFlow湖CPUGPU底層芯片FPGAASIC了資料來源:瀾舟科技,IDC,量子位,電子發燒友等,浙商證券研究所#page#浙商證券股份有限公司01人工智能不同計算任務需要各類芯片實現強大的調度、管理并行架構低延時成本低協調能力;計算單元多開發周期短能耗低應
6、用范圍廣適合大量邏輯確定硬件可根據需求調整性能強開發方便靈活的重復計算成本和壁壘高針對AI設定特定架構通用性強CPUNPUGPUD4atrix uniAUSystem Memory應用方便FPGAAI用ASICDRAM研發階段邏輯判斷數據中心模型訓練任務調度與控制成熟量產階段AI推理性能更優,能效更高資料來源:Huaweiforum浙商證券研究所#page#浙商證券股份有限公司01ChatGPT流量激增,為AI服務器帶來重要發展機遇原場景流量提升+新應用場景服務器算力要求提升AI服務器需求增加達成1億月活躍用戶耗時傳統CPU服務器史上用戶增速最終端用戶使用頻率提高通用性較強,專用性較弱iTun
7、es快消費級應用數據流量暴漲,對服務器Ewitter0的數據處理能力、可靠性Meta及安全性等要求相應提升算力無法滿足nstagam78個月S60個月54個月OpenAI30個月數據的質和量發生變化,9個月AI服務器需求非結構化數據占比激增2個月應用288億美元CAGR=18.8%ChatGPT在問答模式的基礎上進行推理、編寫代碼、原場景流量提升文本創作等,用戶人數及使用次數均提升。122億美元全球AI服務器市場內容生產智能客服智能音箱規模創造新應用場景游戲NPC陪伴型機器人Q20202025資料來源:SensorTower,World of Engineering,頭豹研究院華經產業研究院,
8、浙商證券研究所#page#浙商證券股份有限公司AI服務器快速增長,大力拉動芯片需求01中國人工智能服務器工作負載預測中國人工智能芯片市場規模占比AI服務器=?FPGA.0.4%ASIC.1.0%100%NPU9.6%異構形式7030%50409CPU30910%十20202022202320242022026GPU.89.0%2021年全球服務器市場格局2021年中國服務器市場格局GPU新華三/HPE其他,17.1%其他,21.8%15.6%館浪潮,30.7%FPGA戴爾,15.4%ODM.8.59怡聯想,6.6%ODM浪潮,8.9%ASIC35.5%新華三/HPE華為,7.4%聯想,6.4%
9、1017.5%華為,1.1%戴爾7.5%2022-2023中國人工智能計算力發展評估報告,資料來源:IDC芯八哥,wind浙商證券研究所整理#page#浙商證券股份有限公司3SAI服務器芯片構成CPU+加速芯片應用場景AI服務器應用領域CPU+加速芯片:通常搭載GPU、計算機視覺機器學習FPGA、ASIC等加速芯片,利用訓練CPU與加速芯片的組合可以滿足(算力30TOPS)自然語言處理高吞吐量互聯的需求芯片種類優點缺點提供了多核并行計算的基礎結構,核心高度推理管理控制能力弱,功GPU數多,可支撐大量數據的并行計算,擁適配耗高(算力30TOPS)有更高浮點運算能力開發難度大,只適合可以無限次編程
10、,延時性較低,擁有流FPGA定點運算,價格比較水線并行(GPU只有數據并行),實時昂貴性最強,靈活性最高計算與通用集成電路相比體積更小,重量更(530TOPS)靈活性不夠,價格高ASIC輕,功耗更低,可靠性提高,性能提高于FPGA保密性增強,成本降低資料來源:華經產業研究院,億歐智庫,浙商證券研究所#page#浙商證券股份有限公司01CPU擅長邏輯控制,可用于推理/預測整個CPU的指揮控制中心,由指CPU運行原理令寄存器IR、指令譯碼器ID和操修改指令作控制器OC等組成。取指令指令譯碼執行指令計數器控制單元作為計算機系統的運算和控制核心,暫時存放數據是信息處理、程序運行的最終執行單元的區域,控
11、制指令CPU控制指令保存等待處理有大量的緩存和復雜的邏輯控制單元,優勢或已經數據擅長邏輯控制、串行的運算處理過運算單元存儲單元的數據。計算量較小,且不擅長復雜算法運算和勞勢處理并行重復的操作。執行部件,運算器的核心??梢詧绦兴阈g運算和邏輯運算。運算單元所進行的全部操作在深度學習中可用于推理/預測都是由控制單元發出的控制信號來指揮12資料來源:CSDN,浙商證券研究所整理#page#浙商證券股份有限公司01服務器CPU向多核心發展,滿足處理能力和速度提升需要多核心CPU單核心CPU系統性能優劣不能只考I慮CPU核心數量,還要考慮操作系統、調度算串行單任務處理分時多任務處理分時多任務處理處理的任務
12、更多、法、應用和驅動程序等。處理速度更快一心一用”一心多用”多心多用20172023200520102020英特爾Sapphire酷睿i9Lakefield奔騰D系列酷容i7-980X從單核到多核Rapids史上第一個雙核首款6核處理器18核處理器首款采用混合架構擁有56個核心處理器的x865核處理器20072018202020052023AMD第二代銳龍銳龍ThreadripperPhenom9500香龍9004Athlon 64X2從雙核到96核3990XThreadripper同一塊芯片內整首款原生4核處最大核心數量已擁有64核核心數量最多可理器合兩個K8核心達到32核達96個3資料來源
13、:芯論語,半導體產業縱橫,AMD官網,浙商證券研究所#page#浙商證券股份有限公司01GPU高度適配AI模型構建ChatGPT引I發GPU熱潮AI模型構建(以以英偉達A100為例)百度:即將推出文心一言推理過程訓練過程(ERNIEBot)GPU的并行計算高度適配神經網絡多實例GPU(MIG)技術允許多個網絡同時蘋果:引入AI加口速器設計的M2系基于單個A100運行,從而優化計算資源的列芯片(M2pro和M2max)將被利用率搭載于新款電腦在A100其他推理性能增益的基礎之上,僅結構稀疏支持一項就能帶來高達兩倍的性能OpenAl:隨著ChatGPT的使用量提升。激增,OpenAl需要更強的計算
14、能在BERT等先進的對話式AI模型上,A100GPU幫助高速解決問題:2048個A100力來響應百萬級別的用戶需求,因可將推理吞吐量提升到高達CPU的249倍;GPU可在一分鐘內成規模地處理BERT此增加了對英偉達GPU的需求249X之類的訓練工作負載;245X3XAMD:計劃推出與蘋果M2系列芯片競條的臺積電4nm工藝Penix系列芯片,以及使用Chiplet工藝設計的AlveoV70AI0.7X芯片。這兩款芯片均計劃在今年推1X向市場,分別面向消費電子市場以A10080GBV100A10040GB及AI推理領域CPU OnlyA10080GBA10040GBFP16FP16FP1614資料
15、來源:英偉達官網,騰訊網浙商證券研究所#page#page#浙商證券股份有限公司ASIC可進一步優化性能與功耗,全球巨頭紛紛布局01國內外ASIC芯片龍頭布局隨著機器學習、邊緣計算、自動駕駛的發展,大量數據處理任務的產生,對于芯片計算效率、計算能力和計能耗比的要求也越來越高,ASIC通過與CPU結合的方式被廣泛關注,國內外龍頭廠商紛紛布局迎戰AI時代的到來。谷歌:張量處理器TPU阿里巴巴:含光800AI芯片最新的TPUV4集群被稱為Pod,包含4096個硬件:自研芯片架構v4芯片,可提供超過1exaflops的浮點性能軟件:集成達摩院先進算法,可實現大網絡模型在一顆NPU上完成計算。英偉達:G
16、PU+CUDA百度:昆侖2代AI芯片國外國內主要面向大型數據密集型HPC和AI應用采用全球領先的7nm制程,搭載自研的第二基于Grace的系統與NVIDIAGPU緊密結代XPU架構,相比一代性能提升2-3倍;合,性能比NVIDIADGX系統高出10倍;昆侖芯3代將于2024年初量產。Habana(Intel收購)華為:昇騰910已推出云端AI訓練芯片Gaudi和云端AI業界算力最強的AI處理器,基于自研華為推理芯片Goya;達芬奇架構3DCube技術16資料來源:機器之心,華為官網,半導休產業縱橫,公開資料整理,浙商證券研究所#page#浙商證券股份有限公司01數據傳輸速率:容易被忽略的算力瓶
17、頸算力需求:超摩爾發展算力供給:芯片提升+并行計算并行瓶頸:數據傳輸速率通信延時導致加速放緩AI時代模型算力需求以超過摩爾定律增長數據中心通過交換機網絡實現設備互聯算力(FLPOs)加理論加速比速比5-6個月翻倍(遠超摩爾定律)實際加速比深度學習時深度學習之前大模型時王家惠20個月翻倍(近似摩爾定律)代興送模型發布時間并行計算節點數17資料來源:GoogleScholar,并行處理中節點間通信對加速比的影響,浙商證券研究所#page#浙商證券股份有限公司01數據傳輸核心器件:光模塊光模塊包含發射器件和接收器件,光纖通信時的光電轉換數據中心占光模塊一半以上市場(2021Q4)32.6%骨干發射器
18、件接收器件電信城域驅動電路放大器電信電信號探測器(內含激光器(內含接入光芯片)光模塊光芯片)號67.4%光纖傳輸數據中心內部數通光信號電信號電信號數據中心互聯光模塊向高速傳輸發展,以順應數據傳輸量增長趨勢10G40G400GQSFP-DD、OSFP-XD800、1.6T.SFP、XFPQSFP、CFP、COBO1x9、GBIC硅光技術4G2G5G3G相干技術光電共封裝技術2000-20102010-20202020之后1995-2000(CPO)18資料來源:中際旭創年報,光纖在線,電子發燒友,華經情報網,浙商證券研究所#page#浙商證券股份有限公司3S國產服務器CPU發展之路02通過CHI
19、PLET布局先進制技術創新引領本士程,服務器芯片廣泛應用產業鏈彎道突圍“存儲墻存算一體打破限制,實現降本增效9#page#浙商證券股份有限公司02服務器CPU需求增長,國化產三條發展路線中國服務器市場規模國產服務器CPU發展之路中國加速計算服務器市場預測自主化程度:低,未我12000上海兆芯來擴充指令集難度較(百萬美元)10000大,但生態遷移成本CisCX86架構IP內核授權8000小、性能高中U6000海光信息缺點:安全基礎不牢40002000自主化程度:較高,華為鯤鵬20222023202520242026安全基礎相對牢靠指令集架擁有自主發展權HUAWEIARM架構服務器CPU市場格局構
20、授權缺點:生態構建較為Phytium天津飛騰困難服務器CPUX86架構廠商份額飛騰AMDRISC自主化程度:極高,龍芯中科:MIPS架構龍芯中科申威科技已基本實現授權+自主完全自主可控1研制指令集缺點:生態構建極其英特爾MIPS架構申威科技90.205困難20資料來源:IDCwind,卷研究所整理#page#page#浙商證券股份有限公司02CHIPLET是布局先進制程、加速算力升級的關鍵技術Chiplet異構技術不僅可以突破先進制程的封鎖,并且可以大幅提升大型芯片的良率、降低設計的復雜程度和設計成本、降低芯片制造成本。chiplet技術加速了算力升級,但需要柄性一定的體積和功耗,因此將率先在
21、基站、服務器、智能電車等領域廣泛使用65135功模數28m能用十中字率擬90nm45nm十美國芯片法案禁子Chiplet芯粒芯粒Chiplet4GCPU5G2GPU基站AI7om夠用14omFPGA服務器智能座艙AI演算L4+智駕L2+基帶無人駕駛智能電車、33/2nm5nm好用智能座艙、VRARMR十人工智能、5/6G手機22資料來源:芯智訊,浙商證券研究所#page#浙商證券股份有限公司02CHIPLET已廣泛應用于服務器芯片AMD:EPYC第1代至第4代華為海思:鯤鵬920采用7nm制造工藝,基于ARM架構授權Chiplet服務器芯片的引領者,4代產品采用5nm,由華為公司自主設計完成。
22、典型主頻下,基于chiplet的第一代AMDEPYC處理器中,裝載SPECintBenchmark評分超過930。8個“zen“CPU核,2個DDR4內存通道和32個PCle通道,以滿足性能目標。Chiplet寒武紀:云端AI芯片思元3702022年AMD正式發布第四代EPYC處理器,擁有服務器基于7nm制程工藝,是寒武紀首款采高達96顆5nm的zen4核心,并使用新一代的芯片用chiplet(芯粒)技術的AI芯片Chiplet工藝,結合5nm和6nm工藝來降低成本。集成了390億個晶體管,最大算力高英特爾:第14代酷容MeteorLake達256TOPS(INT8),是寒武紀第二代產品思元2
23、70算力的2倍。內存帶寬是上一代產品的3倍,訪存首次采用intel4工藝,首次引入chiplet小芯片設龍芯中科:龍芯3D5000(試驗)能效達GDDR6的1.5倍。計,預計將于23年下半年推出至少性能功耗比的目標要達到13代RaptorLake面向服務器市場的32核CPU產品,通過Chiplet技術把兩個3C5000硅片封裝在的1.5倍水平。一起,集成了32個LA464處理器核和64MB片上共享緩存,22年未初樣試驗成功23資料來源:各公司官網,浙商證券研究所#page#浙商證券股份有限公司存算一體:打破“存儲墻”限制,技術選代演進02存算技術演進路線“存儲墻”成為了數據計算應用的一大障礙面
24、對計算中心的數據洪流,數據搬運慢、搬運能耗大等問題成為查存計算(ProcessingWithMemory)了計算的關鍵瓶頸。從處理單元外的存儲器提取數據,搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在60%-最早期技術GPU對復雜函數的運算90%之間,能效非常低。近存計算(ComputingNearMemory)HW FLOPS:算力發展速度10000AMD的Zen系列CPU三星HBM-PIM存儲墻限制存內計算(Computing In Memory)閃存知存Mythic干芯科技存儲發展速度存內邏輯(Logic In Memory)201120142017滿足大模型計千芯科技TS
25、MC算精度要求24#page#浙商證券股份有限公司02存算一體:更大算力、更高能效、降本增效存算一體就是存儲器中疊加計算能力,以新的高效運算架構進行二維和三維矩陣計算。存算一體的優勢包括:(1)具有更大算力(1000TOPS以上)(2)具有更高能效(超過10-100TOPS/W),超越傳統ASIC算力芯片(3)降本增效(可超過一個數量級)CPUGPU存算一體存算一體一般10-100計算核心一般萬量級計算核心一般百萬量級等效計算核心存儲器中疊加計算能力以新的高效運算架構進行控制單元計算計算二維和三維矩陣運算。筒地色號單元單元緩存控制存算一體的應用領域單元控制單元計算計算計計計性算算算單元單元緩存
26、自動駕駛自然語言處理控制單元計計算計智慧城市計算算緩存商品推薦緩存工業視覺醫藥計算事個性化推薦片外內存片外內存多語言精準識別片外內存25知乎先進存算一體芯片設計資料來源:(陳等),浙商證券研究所#page#浙商證券股份有限公司風險提示1、AI技術發展不及預期:當前以ChatGPT為代表的NLP模型以及其他類型人工智能模型發展仍不成熟,存在一定缺陷2、版權、倫理和監管風險:AIGC生成的內容依賴現有版權素材,另外不當使用或模型自身問題可能導致不良后果3、半導體下游需求不及預期:全球芯片行業存在周期性,可能因宏觀經濟波動導致需求低迷。8#page#浙商證券股份有限公司行業評級與免責聲明行業的投資評
27、級以報告日后的6個月內,行業指數相對于滬深300指數的漲跌幅為標準,定義如下:1、看好:行業指數相對于滬深300指數表現+10%以上;2、中性:行業指數相對于滬深300指數表現-10%+10%以上;3、看淡:行業指數相對于滬深300指數表現-10%以下。我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重。建議:投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者不應僅僅依靠投資評級來推斷結論27#page#浙商證券股份有限公司行業評級與免責聲明法律聲明及風險提示本報告由浙商證券股份有限公司(已
28、具備中國證監會批復的證券投資咨詢業務資格,經營許可證編號為:Z39833000)制作。本報告中的信息均來源于我們認為可靠的已公開資料,但浙商證券股份有限公司及其關聯機構(以下統稱“本公司”)對這些信息的真實性、準確性及完整性不作任何保證,也不保證所包含的信息和建議不發生任何變更。本公司沒有將變更的信息和建議向報告所有接收者進行更新的義務本報告僅供本公司的客戶作參考之用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅反映報告作者的出具日的觀點和判斷,在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議投資者應當對本報告中的信息和意見進行獨立評估,并應同時考量各自的
29、投資目的、財務狀況和特定需求。對依據或者使用本報告所造成的一切后果,本公司及/或其關聯人員均不承擔任何法律責任。本公司的交易人員以及其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與本報告意見及建議不一致的市場評論和/或交易觀點。本公司沒有將此意見及建議向報告所有接收者進行更新的義務。本公司的資產管理公司、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見或建議不一致的投資決策。本報告版權均歸本公司所有,未經本公司事先書面授權,任何機構或個人不得以任何形式復制、發布、傳播本報告的全部或部分內容。經授權刊載、轉發本報告或者摘要的,應當注明本報告發布人和發布日期,并提示使用本報告的風險。未經授權或未按要求刊載、轉發本報告的,應當承擔相應的法律責任。本公司將保留向其追究法律責任的權利28#page#浙商證券股份有限公司聯系方式浙商證券研究所上??偛康刂罚簵罡吣下?29號陸家嘴世紀金融廣場1號樓25層北京地址:北京市東城區朝陽門北大街8號富華大廈E座4層深圳地址:廣東省深圳市福田區廣電金融中心33層郵政編碼:200127電話:(8621)80108518傳真:(8621)80106010浙商證券研究所:http:/29#page#