《人工智能行業動態報告:ChatGPT技術演進及研究框架-230303(43頁).pdf》由會員分享,可在線閱讀,更多相關《人工智能行業動態報告:ChatGPT技術演進及研究框架-230303(43頁).pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、ChatGPTChatGPT技術演進及研究框架技術演進及研究框架證券研究報告證券研究報告 行業動態報告行業動態報告發布日期:2023年3月3日本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請參閱最后一頁的重要聲明。分析師:于芳博分析師:于芳博SAC編號:S1440522030001分析師:分析師:閻貴成閻貴成SAC編號:S1440518040002SFC 中央編號:BNS315 核心觀點:核心觀點:Transformer 模型融合了詞向量、注意力機制和預訓練模
2、式的諸多優勢,其出現標志著深度學習進入大模型時代。OpenAI 推出基于Transformer和人類反饋強化學習的ChatGPT以其強大的語義理解和生成能力引爆了市場。技術側重點理解大模型訓練中的核心四要素:模型參數、訓練數據、訓練方法以及訓練效率。隨著預訓練自然語言模型進入巨量化參數時代,模型算力需求邁上新臺階。相關投資機遇中,建議重點關注國產AI芯片供應鏈、海內外大模型相關垂直應用落地情況。核心技術發展推動自然語言處理逐步成熟。核心技術發展推動自然語言處理逐步成熟。對詞向量的關注明確了訓練目標,構建起語義信息和數據之間的橋梁;注意力機制增強上下文理解能力,提高語義信息學習能力;Transf
3、ormer等模型推動計算結構從串行走向并行,大幅提升算法和語言模型的訓練速度;預訓練明確了訓練思路,解決了數據量不足的問題,降低了模型應用的門檻。以上四點核心進展帶來了語言模型語言理解和生成能力的大幅提升,人工智能語言模型逐步走向預訓練大模型。對應行業發展,谷歌和OpenAI先后于2018年提出基于Transformer-Encoder的BERT和基于Transformer-Decoder的GPT。與此同時,國內外的其他技術巨頭也紛紛加快自然語言處理模型研發進程。訓練好大模型的四要素:模型參數、訓練數據、訓練方法以及訓練效率。訓練好大模型的四要素:模型參數、訓練數據、訓練方法以及訓練效率。在模
4、型參數上,參數量越大,大模型性能往往越好,當參數量提升到一定程度后性能可能會產生跨越式提升;訓練數據方面,大模型對數據量和數據質量均提出了更高要求,高質量的數據集在模型訓練過程中帶來了更高的邊際收益;在訓練方法上,一方面需要更充分的預訓練以及增大預訓練難度,另一方面使用Prompt或Fine-tune可以顯著提高模型在下游應用場景的表現;在訓練效率上,并行計算、顯存優化與模型稀疏性能顯著提升大模型訓練效率。隨著預訓練自然語言模型進入巨量化參數時代,模型算力需求邁上新臺階。隨著預訓練自然語言模型進入巨量化參數時代,模型算力需求邁上新臺階。當前大規模的自然語言模型進入了千億參數時代,模型的訓練算力
5、顯著提升,例如GPT-3模型參數量為1750億,訓練算力需求為3.14E+23 flops,如采用1000塊英偉達A100芯片提供算力,需要不間斷訓練55天,可以估算單次訓練租用云服務器的成本是328萬美金。大模型在商業化落地之后,大量的客戶訪問還會帶來不菲的運行成本,近期ChatGPT官網每日訪客數量接近5000萬,估算云上月租金576萬美元/每月,頭部企業開發大模型競爭力更強。后續關注:國產后續關注:國產AI芯片及大模型相關應用落地。芯片及大模型相關應用落地。算力端重點關注國產AI芯片、英偉達供應鏈、華為AI芯片昇騰供應鏈。算法應用端重點關注國內相關企業如華為、百度及阿里等的大模型落地情況
6、和相關垂直應用供應商,以及國內公司利用OpenAI技術在海外應用的產品進展。核心觀點 eZbUcWeUaVeZcWfV7NcM6MnPoOoMnOeRpPtQlOmMrN8OnNoPMYmMmQNZoMpN目錄一、一、NLPNLP算法發展歷程介紹算法發展歷程介紹二、訓練好大模型的要素二、訓練好大模型的要素三、算力需求的展望三、算力需求的展望四、投資邏輯梳理四、投資邏輯梳理 1.1 早期自然語言處理(NLP):基于規則方法/統計方法圖圖表:基于規則的方法表:基于規則的方法資料來源:easyAI,中信建投圖表:基于統計的方法圖表:基于統計的方法第一階段(第一階段(1950s1950s-1980s1
7、980s)基于規則的方法:)基于規則的方法:基于語言學家制定的規則完成相關任務。優點:自由設計,靈活性強;不存在對于訓練數據的依賴缺點:研究強度大,泛化能力差;實踐性差,無法從訓練數據中學習和迭代第二階段(第二階段(1980s1980s-2000s2000s)基于統計的方法:)基于統計的方法:將語言問題轉化為概率問題進行模型構建。優點:數據驅動;相較于規則模型泛化能力強缺點:受訓練數據集的影響大;缺乏對于語言知識的考慮;模型可解釋性差語言規則(例):“from”總是指某些東西最初來自哪里,所以我們用ORIGIN標記它?!皌o”總是指某些東西的去向是哪里,所以用DESTINATION標記它。資料
8、來源:CSDN,中信建投 1.2 四大核心進展推動神經網絡方法在NLP領域發展第三階段(第三階段(2000s2000s至今):基于神經網絡的方法至今):基于神經網絡的方法逐步發展并得到大幅提升優點:數據驅動力更強,泛化能力更強,逐步挖掘語言知識缺點:數據需求大(質量/數量),訓練成本高;可解釋性有限核心進展:核心進展:1 1)詞向量詞向量的應用明確了訓練目標,構建起語義信息和數據之間的橋梁的應用明確了訓練目標,構建起語義信息和數據之間的橋梁2 2)LSTM/LSTM/注意力機制注意力機制增強上下文理解能力,提高語義信息學習能力增強上下文理解能力,提高語義信息學習能力3 3)Transforme
9、rTransformer推動串行走向并行優化計算結構,大幅提升算法和語言模型的訓練速度推動串行走向并行優化計算結構,大幅提升算法和語言模型的訓練速度4 4)預訓練預訓練明確了訓練思路,解決了數據量不足的問題,降低了模型應用的門檻明確了訓練思路,解決了數據量不足的問題,降低了模型應用的門檻我們認為以上核心進展,推動了自然語言理解走向大模型,推動了語義理解和生成的大幅提高,并在更多場景落地應用我們認為以上核心進展,推動了自然語言理解走向大模型,推動了語義理解和生成的大幅提高,并在更多場景落地應用。20132013word2vec20142014glove20152015LSTM20172017Tr
10、ansformer20182018GPT/BERT20182018ELMO20192019GPT-220202020GPT-320222022InstructGPT/ChatGPT20032003NNLM圖圖表:基于神經網絡的自然語言處理重要算法時間軸表:基于神經網絡的自然語言處理重要算法時間軸早期神經網絡語言模型早期神經網絡語言模型詞向量開始被重視詞向量開始被重視部分解決長程依賴部分解決長程依賴不斷發掘模型容量和數據量不斷發掘模型容量和數據量增加帶來的性能提升增加帶來的性能提升引入引入RLHFRLHF資料來源:Google Scholar,機器之心,OpenAI,CSDN,中信建投LSTM模
11、型示意圖Transformer模型示意圖GPT模型示意圖word2vec模型示意圖注意力機制挖掘語義關聯注意力機制挖掘語義關聯開啟預訓練大模型時代開啟預訓練大模型時代 1.3 Word2Vec:詞向量構建起語義信息和數據之間的橋梁詞向量(word embedding)在早期的神經網絡語言模型中便已經出現,但一直沒有受到重視和關注,直到word2vec模型開始真正重視起來。詞向量的重要意義:1 1)通過數學方法表征了語義信息(例如:通過余弦相似度計算單詞相關性)通過數學方法表征了語義信息(例如:通過余弦相似度計算單詞相關性)2 2)相較于過去的方法(獨熱編碼)其表征詞匯的矩陣大小被有效控制。)相
12、較于過去的方法(獨熱編碼)其表征詞匯的矩陣大小被有效控制。Word2Vec中詞向量的缺陷:缺少對于上下文文本的分析,一詞多義問題成為當時限制模型語言分析能力的一大障礙。缺少對于上下文文本的分析,一詞多義問題成為當時限制模型語言分析能力的一大障礙。我們認為,詞向量的應用,讓我們認為,詞向量的應用,讓NLPNLP領域的神經網絡訓練的訓練目標變得明確,為后續模型的發展奠定了基礎。領域的神經網絡訓練的訓練目標變得明確,為后續模型的發展奠定了基礎。資料來源:飛槳AI studio,中信建投圖圖表:利用表:利用Word2VecWord2Vec產生單詞對應的詞向量產生單詞對應的詞向量圖表:圖表:Word2V
13、ecWord2Vec產生的詞向量能夠反映單詞之間的語義關系(二維)產生的詞向量能夠反映單詞之間的語義關系(二維)相似語義關系的詞組具有相似的向量關系相似語義關系的詞組具有相似的向量關系例:國家和首都的關系(紅框)例:國家和首都的關系(紅框)形容詞比較級之間的關系(藍框)形容詞比較級之間的關系(藍框)資料來源:飛槳AI studio,中信建投維度維度2 2維度維度1 1 1.4 RNN/LSTM/ELMO:逐步強化模型分析上下文能力RNN(循環神經網絡)解決了短程時序依賴問題循環神經網絡)解決了短程時序依賴問題:對于較短的序列,RNN可以結合少量的前文來分析后文,但當序列較長時,由于梯度消失/爆
14、炸,模型難以學到遠距離的信息。LSTM(長短期記憶)部分解決了長程時序依賴問題長短期記憶)部分解決了長程時序依賴問題:LSTM引入了“遺忘”的結構,在信息傳遞過程中改善了“信息過長,信息丟失”的問題,進而使得模型可以學到相對遠距離的信息。但其效果依然有限,串行計算也顯著影響了訓練效率。ELMO完善了上下文時序依賴問題完善了上下文時序依賴問題:采用雙向LSTM結構,同時學習上下文信息。我們認為,我們認為,LSTM/ELMO強化了模型分析上下文的能力,進而增強了模型的語義理解能力,較好解決了一詞多義問題。強化了模型分析上下文的能力,進而增強了模型的語義理解能力,較好解決了一詞多義問題。舉例 短程依
15、賴:對于問題“我的母語是_”,可以通過“母語”確定后面填空應當為一種語言,這個過程便是短程依賴;長程依賴:但如果需要通過文章開頭的句子來進一步確定問題的答案,例如“我的故鄉是中國,我的母語是_”,基于文章開頭的“故鄉是中國”,來判定此處填空應當為“中文”,此時對于更遠距離的文本內容的學習便是長程依賴。圖圖表:表:RNNRNN結構結構圖圖表:表:LSTMLSTM結構結構資料來源:CSDN,BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding,中信建投圖圖表:表:ELMOELMO結構結構Xt為
16、當前時刻的輸入ht為當前時刻的輸出右向的紅色箭頭表示當前時刻的輸出參與下一時刻的計算綠色部分相當于RNN結構的A遺忘門:決定向下傳遞中需要保留的內容 1.5 注意力機制增強語義關聯,賦予模型并行運算能力核心思路核心思路:從文本中有選擇地篩選出少量重要信息并聚焦到這些重要信息上,忽略不重要的信息。實現方法實現方法:單獨計算目標單詞和全文所有單詞的“重要性”,進而理解單詞和句子在語境中的含義。重要意義重要意義:1 1)解決了“信息過長,信息丟失”問題:任意位置詞向量可關聯計算,一次性獲得局部和全局信息的關聯。)解決了“信息過長,信息丟失”問題:任意位置詞向量可關聯計算,一次性獲得局部和全局信息的關
17、聯。2 2)擁有并行能力:每個單詞詞向量的計算不依賴于前個單詞詞向量,可實現并行計算。)擁有并行能力:每個單詞詞向量的計算不依賴于前個單詞詞向量,可實現并行計算。3 3)賦予了詞向量新的內涵:提供了一些可解釋性(句法層面的特征),如句子結構中主語和謂語之間的關系)賦予了詞向量新的內涵:提供了一些可解釋性(句法層面的特征),如句子結構中主語和謂語之間的關系缺陷:缺陷:對序列中的位置信息缺少考慮(后續通過在詞向量中加入位置信息解決)變種變種:Self-Attention、Masked Self-Attention、Multi-Head Self-Attention等資料來源:知乎,中信建投圖圖表:
18、注意力機制獲得的單詞間重要性關系(表:注意力機制獲得的單詞間重要性關系(SelfSelf MaskedMasked AttentionAttention)1.紅色為目標單詞,顏色越深表示重要性越強;例如對于第四句的chasing來說,“FBI”和“is”相對“The”是更重要的單詞圖圖表:不同注意力機制的含義表:不同注意力機制的含義Attention考慮對于查詢語句中的詞語而言重要的信息Self Attention考慮對于文章自身的每個單詞而言重要的信息Masked Attention只考慮當前及過去的文本信息的重要性,不考慮未來的文本信息的重要性Multi-Head Attention考慮對
19、于同一詞語的不同含義重要的信息,再將結果“組合”起來資料來源:中信建投2.因為其采用的是Self MaskedAttention,因此計算的是和前文單詞之間的重要性。1.6 預訓練的應用:彌補訓練數據量不足,降低模型應用門檻預訓練模型原理:預訓練模型原理:對于語言/圖像處理而言,其淺層特征是通用的:底層網絡參數在面對不同任務時均可以復用。但隨著網絡層數增加,越深層的特征與具體任務的相關性便越強。例如人、車、大象圖像的淺層特征都是線條和輪廓。因此在模型淺層部分通過海量數據的預訓練(Pre-training),再根據具體下游場景訓練深層特征做微調(Fine-tuning)。我們認為,預訓練的應用是
20、具有跨時代意義的我們認為,預訓練的應用是具有跨時代意義的。一方面其解決了因神經網絡日益復雜而帶來的數據需求日益增加的問題。另一方面,。一方面其解決了因神經網絡日益復雜而帶來的數據需求日益增加的問題。另一方面,基于海量數據預訓練后的模型,下游具體任務的訓練速度被大大加快,準確度也進一步提高?;诤A繑祿A訓練后的模型,下游具體任務的訓練速度被大大加快,準確度也進一步提高。圖圖表:圖像識別任務中淺層特征與深層特征的示意圖表:圖像識別任務中淺層特征與深層特征的示意圖資料來源:CSDN,中信建投不同的下游任務中深層特征具有較大差異不同的下游任務中淺層特征具有通用性圖圖表:預訓練模型:基礎知識學習表:預
21、訓練模型:基礎知識學習+具體任務學習具體任務學習英文法律文書知識英文知識法律文書知識小說知識加速了下游任務的訓練速度加速了下游任務的訓練速度減少了下游任務的數據需求減少了下游任務的數據需求海量英文法律文書相關數據海量數據少量法律文書相關數據少量小說相關數據資料來源:Improving Language Understanding by Generative Pre-Training,中信建投英文法律文書撰寫英文法律文書撰寫英文小說創作英文小說創作預訓練預訓練下游具體任務的微調下游具體任務的微調直接訓練模型直接訓練模型英文法律文書撰寫英文法律文書撰寫 1.7 集大成者:Transformer正式
22、開啟預訓練大模型時代TransformerTransformer模型的核心結構是:編碼器(模型的核心結構是:編碼器(encoderencoder)-解碼器(解碼器(decoderdecoder)工作原理工作原理:對于Transformer最初應用的翻譯任務而言,其過程為輸入文本通過encoder編碼,經過多層注意力增強機制提取特征后,學習并理解語句含義轉為詞向量,再由decoder解碼,基于前文詞向量生成文本,完成翻譯任務。共同點共同點:encoder和decoder都采取了多層多頭注意力進行特征提取和學習,能夠深入挖掘文本的語義關聯信息差異點:差異點:encoder:同時對上下文進行理解,有
23、更強的語言理解能力。decoder:使用多頭掩碼注意力機制,將輸入文本當前詞以后的單詞掩蓋(masked)進行訓練,這與語言生成過程邏輯一致(由前往后逐詞生成,下一個單詞只與前文信息相關),因此decoder擁有更強的文本生成能力。綜上,綜上,encoderencoder對上下文的理解類似于“完形填空”,有更強的理解能力。而對上下文的理解類似于“完形填空”,有更強的理解能力。而decoderdecoder類似根據題目寫作文,有更強的生成能力。類似根據題目寫作文,有更強的生成能力。圖表:圖表:TransformerTransformer模型結構簡圖模型結構簡圖圖表圖表:TransformerTr
24、ansformer模型結構模型結構多頭自注意力機制多頭掩碼自注意力機制資料來源:Attention is all you need,中信建投資料來源:CSDN,中信建投 1.8 基于Transformer,BERT&GPT分別采取了不同的策略GPT:建立在 Transformer Decoder 的基礎上、具有良好的自然語言生成能力,然而當前詞的語義只能由其前序詞決定,因此在語義理解上不足。一定程度上犧牲語義理解能力,換取更強的生成能力。BERT:建立在Transformer Encoder 的基礎上,并使用了與其配套的掩碼訓練方法。雖然使用雙向編碼讓 BERT 文本生成能力被削弱,但是 BE
25、RT 的語義信息提取能力更強。二者均采用預訓練方法:第一階段使用大規模無標簽語料訓練基礎語言模型。第二階段根據指定任務的少量帶標簽數據進行微調訓練。我們認為我們認為:1.Transformer創新性架構設計為后續的語言模型奠定基礎,開啟了預訓練大語言模型的時代。2.谷歌和OpenAI引領大模型發展:谷歌和OpenAI先后于2018年提出基于Encoder的BERT和基于Decoder的GPT。谷歌在3年后加入OpenAI的Decoder路線,但在時間上處于落后。OpenAI在模型中引入人工反饋,并推出了生成能力極強的ChatGPT,引領全行業。圖圖表:表:BERT&GPTBERT&GPT示意圖
26、示意圖圖表:圖表:GoogleGoogle和和OpenAIOpenAI在語言模型中的發展時間線在語言模型中的發展時間線資料來源:BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding,公司官網,中信建投 1.9 GPT 1-3:不斷發掘模型容量和數據量增加帶來的性能提升GPT-1使用了BooksCorpus數據集,這個數據集包含 7,000 本沒有發布的書籍。1.數據集擁有更長的上下文依賴關系,使得模型能學得更長期的依賴關系;2.這些書籍因為沒有發布,所以很難在下游數據集上見到,更能驗證模型
27、的泛化能力。GPT-2的文章取自于Reddit上高贊的文章,命名為WebText。數據集共有約800萬篇文章,累計體積約40G。為了避免和測試集的沖突,WebText移除了涉及Wikipedia的文章。GPT-2訓練了4組不同的層數和詞向量的長度的模型:12/768,24/1024,36/1280,48/1600,滑動窗口大小為1024(一次性對于上下文的1024個單詞進行關聯語義挖掘)。GPT-3共訓練了5個不同的語料,分別是低質量的Common Crawl,高質量的WebText2,Books1,Books2和Wikipedia。GPT-3采用了 96 層的96頭transformer;詞
28、向量的長度是 12,888;滑動窗口大小提升至 2,048我們認為,在我們認為,在TransformerTransformer模型的廣泛應用中,參數量和預訓練數據量的提升,快速提升了模型的表現能力。千億級參數量的模模型的廣泛應用中,參數量和預訓練數據量的提升,快速提升了模型的表現能力。千億級參數量的模型開始不斷出現。型開始不斷出現。圖圖表:表:GPTGPT系列模型的參數量與數據量不斷提升系列模型的參數量與數據量不斷提升資料來源:機器之心,中信建投模型發布時間參數量預訓練數據量GPT2018.61.17億約5GBGPT-22019.215億40GBGPT-32020.51750億45TB 1.1
29、0 GPT 1-3:針對下游任務輸入的不斷革新GPT1-3的下游任務訓練方法:GPT-1:針對不同下游任務,通過特殊格式的少量標注數據集進行訓練(提供特殊格式的例子)。GPT-2:zero-shot,完全不提供例子,直接使用自然語言描述問題(task description),但實際效果有限。GPT-3:zero-shot/one-shot/few-shot,不提供/提供1個/提供少量幾個例子,讓模型完成相應的下游任務。我們認為,隨著模型參數量和預訓練數據量的增大,模型對通用任務的處理能力顯著提升,對下游微調的依賴性減弱我們認為,隨著模型參數量和預訓練數據量的增大,模型對通用任務的處理能力顯著
30、提升,對下游微調的依賴性減弱。一方面,模型已經在龐大的預訓練數據量中學習了相關知識;另一方面,少量的微調數據難以調整巨大的神經網絡模型。資料來源:Improving Language Understanding by Generative Pre-Training,Language Models are Few-Shot Learners,中信建投圖圖表:表:GPTGPT-1 1對于不同下游任務的訓練數據格式對于不同下游任務的訓練數據格式圖圖表:表:GPT3GPT3采用的采用的zerozero-shot/oneshot/one-shot/fewshot/few-shotshot方法(左)與對應
31、性能(右)方法(左)與對應性能(右)1.11 GPT3ChatGPT:引入基于人類反饋的強化學習圖圖表:表:InstructInstruct GPTGPT引入人類反饋的強化學習示意圖引入人類反饋的強化學習示意圖圖圖表:表:ChatGPTChatGPT能力的來源能力的來源基于人類反饋的強化學習基于人類反饋的強化學習(RLHFRLHF)就是通過人類的反饋去規范學習的過程就是通過人類的反饋去規范學習的過程:1.使用人工標注形成標準答案:在ChatGPT的兄弟版本InstructGPT中,40位人工標注員針對一個詳細說明了下游任務的數據集,完成了13000個問答,基于這些這些問答組成的訓練數據來調整模
32、型。2.訓練一個獎勵模型:針對模型給出的相同問題的多個回答,然后人工給這些問答對按一些標準(可讀性、無害、正確性等)進行排序,訓練一個獎勵模型/偏好模型來打分(reward model)。3.持續更新網絡參數,在獎勵模型的激勵下使模型生成的答案不斷趨近于定義的標準答案。資料來源:Training language models to follow instructions with human feedback,How does GPT Obtain its Ability?Tracing Emergent Abilities of Language Models to their Sourc
33、es,中信建投語言生成能力基礎世界知識上下文學習能力存儲知識的能力遵循不同指令的能力生成符合人類預期的答案的能力大語言模型的預訓練過程海量的訓練數據大語言模型中的海量參數廣泛的指令學習基于人類反饋的強化學習 1.12 ChatGPT與Bard對比2022年11月30日,OpenAI發布聊天機器人ChatGPT,基于GPT-3模型,為微軟主導,能夠模擬人類語言行為,與用戶進行自然交互;2023年2月6日,谷歌發布Bard聊天機器人,基于大語言模型LaMDA。LaMDA包含1370億個參數量,預訓練數據為1.56T;GPT-3包含1750億個參數量,預訓練數據量為45TB。在訓練方式上,在訓練方式
34、上,ChatGPT在GPT-3基礎上加入了人類反饋強化學習(RLHF),采用人工標注的方式將自然語言和強化學習結合起來,極大提升了模型的效率和學習能力。在數據集上,在數據集上,雖然原始LaMDA預訓練數據量不如GPT-3,但Bard數據更新且與谷歌搜索引擎集成后能訪問大量數據,在獲取信息的深度和廣度方面要比ChatGPT大,與ChatGPT相比,Bard模型具有明顯的數據量優勢。除以上區別外,還存在ChatGPT內嵌了抄襲檢測工具、Bard目前只應用在搜索中、Bard是免費的而ChatGPT有付費選項等區別。圖表:圖表:ChatGPTChatGPT與與BardBard區別區別資料來源:谷歌,微
35、軟,中信建投ChatGPTBard可以在ChatGPT網站進行訪問,但只有文本響應集成在谷歌搜索中,只需要更改谷歌設置即可獲得BardAI搜索結果數據集來自2021年及以前的數據庫數據來自互聯網,有比ChatGPT更新的數據基于GPT基于LaMDA服務有免費的也有付費計劃選項服務是免費的內置了名為GPT-2 Output Detector的抄襲工具沒有內置抄襲檢測工具目前已經發布仍然處于測試階段 1.13 KOSMOS-1從大語言模型到多模態大語言模型圖圖表:表:KOSMOSKOSMOS-1 1在視覺問答方面的測試樣例在視覺問答方面的測試樣例圖圖表:表:KOSMOSKOSMOS-1 1在圖像對
36、話在圖像對話/邏輯問答方面的測試樣例邏輯問答方面的測試樣例微軟發布多模態大型語言模型(MLLM)KOSMOS-1。其基于Transformer模型,不但可以完成文本學習、指令遵循、上下文學習、文本生成等任務,還能夠將文本以外的模態(如視覺圖像、語音)嵌入到模型中,進而完成多模態的下游任務。研究證明,在多個下游任務中,該模型具有非常優異的性能。其訓練數據集包括文本語料庫、圖像-字幕對、圖像和文本交叉數據集;模型的參數總量為16億。重要意義:多模態感知是實現通用人工智能的重要條件,多模態技術的發展將進一步增強人工智能的知識獲取能力和高價值場景應重要意義:多模態感知是實現通用人工智能的重要條件,多模
37、態技術的發展將進一步增強人工智能的知識獲取能力和高價值場景應用能力用能力我們認為,多模態大語言模型蘊含著更廣泛的應用場景和更高的商業價值,將成為未來人工智能行業發展重要的競爭賽道,多模態我們認為,多模態大語言模型蘊含著更廣泛的應用場景和更高的商業價值,將成為未來人工智能行業發展重要的競爭賽道,多模態技術的成熟也將進一步加速人工智能技術在不同場景的落地應用。技術的成熟也將進一步加速人工智能技術在不同場景的落地應用。資料來源:Language Is Not All You Need:Aligning Perception with Language Models,機器之心,中信建投 1411573
38、27503310100200300400500600201820192020202120222023預訓練自然語言的大模型相關研究得到爆發式發展預訓練自然語言的大模型相關研究得到爆發式發展。2017年Transformer模型誕生之后,隨即被應用到自然語言、視覺識別等諸多領域,2018年自然語言預訓練大模型的概念逐漸興起,通過在web of science上檢索 pre-trained language model(PLM),我們發現自2018年之后,預訓練大模型得到了學術圈的廣泛研究,相關學術論文數量也呈現爆發式增長。2022年大部分企業都加大了自然語言大模型的研發力度年大部分企業都加大了自
39、然語言大模型的研發力度。通過對相關企業的文獻數量研究,我們能夠窺測到:微軟、谷歌在自然語言大模型領域進入較早且持續投入較大。整體來看,大部分企業在2022年都加快了自然語言模型的研發進程,在ChatGPT爆火之后,自然語言大模型領域將迎來新一輪的研究浪潮。1.14 預訓練自然語言大模型學術研究情況圖:大模型的相關學術研究論文數量圖:大模型的相關學術研究論文數量圖:不同企業的大模型學術論文的發表頻次圖:不同企業的大模型學術論文的發表頻次02468101214微軟華為阿里巴巴谷歌百度臉書IBM20182019202020212022資料來源:Web Of Science,中信建投 目錄一、一、NL
40、PNLP算法發展歷程介紹算法發展歷程介紹二、訓練好大模型的要素二、訓練好大模型的要素三、算力需求的展望三、算力需求的展望四、投資邏輯梳理四、投資邏輯梳理 2.訓練好大模型的要素模型參數訓練數據預訓練微調訓練效率1、大模型的性能往往隨著模型參數量增加而增加,這是可以從小模型推斷出來的;2、某些情況下,大模型的參數增加到一定程度,模型性能會有一些突破性,這不能從小模型進行推斷,被稱為大模型的突現能力。突現能力。1、模型的數據量與模型參數數量同等重要模型的數據量與模型參數數量同等重要,模型數據量要和參數量保持相同速度增長;2、高質量、干凈的數據集會高質量、干凈的數據集會對模型預訓練產生較好的性能提升
41、。1、模型需要更充分的預訓練,模型需要更充分的預訓練,包括增大batchsize和步長;2、增大預訓練難度增大預訓練難度可以提升模型性能。Prompt、Fine-tune提高模型在下游場景的表現并行計算、顯存優化與模型稀疏性是提升訓練效率的三種方式訓練準備模型訓練訓練環境 2.1 大模型與小模型界定大模型,又稱為基礎模型或者大規模預訓練模型,是大模型,又稱為基礎模型或者大規模預訓練模型,是“大算力大算力+強算法強算法”結合的產物結合的產物,大模型是人工智能發展的趨勢和未來。,大模型是人工智能發展的趨勢和未來。大模型的一般訓練過程:大模型的一般訓練過程:數據獲取-數據清洗-大模型訓練-下游適配-
42、終端應用大模型與小模型沒有非常清晰的界定,站在當前時點來看,大模型一般具備如下特征:大模型與小模型沒有非常清晰的界定,站在當前時點來看,大模型一般具備如下特征:參數量(十億量級)和訓練數據量(GB以上)巨大,一般采用transformer架構;采用預訓練模式,在通用數據集上進行預訓練,而不是直接在特定數據集進行特定任務的訓練;具備遷移學習能力,遷移學習的思想是將從一項任務(例如,圖像中的對象識別)中學到的“知識”應用到另一項任務(例如,視頻中的行為識別)中,在Zero/One-shot中具有較好的表現,即訓練樣本很少或者沒有的情況下,仍有較好性能。模型的訓練過程依賴云端設備,無法在離線個人終端
43、上實現;數據獲取數據清洗大模型訓練下游適配終端應用圖圖表:大模型的訓練及應用過程表:大模型的訓練及應用過程資料來源:On the Opportunities and Risks of Foundation Models,中信建投 2.2 大模型與小模型建模過程的差異性在訓練步驟方面。大模型的訓練過程主要包含如下步驟:數據獲取在訓練步驟方面。大模型的訓練過程主要包含如下步驟:數據獲取數據清洗數據清洗 大模型訓練大模型訓練下游適配下游適配終端應用,小模型的訓終端應用,小模型的訓練過程主要包含如下幾個步驟:任務制定練過程主要包含如下幾個步驟:任務制定數據獲取數據獲取數據清洗數據清洗 模型訓練模型訓練
44、模型調試模型調試終端應用。訓練過程的差異性主要存在終端應用。訓練過程的差異性主要存在于以下兩個步驟中:于以下兩個步驟中:在數據獲取環節方面,大模型的訓練文本一般是通用數據集,其訓練文本并未針對特定領域進行篩選。小模型的訓練過程中首先制定任務目標,針對特定目標搜選訓練數據集,適用于監督學習的數據集同時需要標注員進行人工標注。在訓練模式方面,大模型一般采用預訓練模式,訓練過程中并未針對下游特定任務,訓練之后需要fine-tune(微調)去在下游應用領域適用。小模型在訓練時包含特定任務,訓練結束后經過一定的參數微調,便可應用到下游領域。圖圖表:“源”模型數據預處理流程圖表:“源”模型數據預處理流程圖
45、資料來源:浪潮信息,BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding,中信建投圖圖表:表:BERTBERT模型的預訓練過程和下游任務微調模型的預訓練過程和下游任務微調 2.3 如何訓練好一個大模型:增加模型參數及復雜度模型參數量對大模型的性能有重要影響,大模型的性能往往隨著模型參數量的增加而上升模型參數量對大模型的性能有重要影響,大模型的性能往往隨著模型參數量的增加而上升,多數是可以預見的,模型性能通常是依靠知識和簡單的文本操作來提高。大模型還存在一種不可預見現象,被稱為大模型的突現能
46、力(大模型還存在一種不可預見現象,被稱為大模型的突現能力(emergent abilities or breakthroughness),),指在特定任務中,伴隨著模型參數量的增加,會發生一些不存在于小模型的現象,這種現象不能簡單通過推斷小模型的性能改進進行預測,約有5%的大模型任務會出現大模型的突現能力。在一定程度上堆疊更多的網絡層數,提升模型復雜度,有利于提升模型效果。在一定程度上堆疊更多的網絡層數,提升模型復雜度,有利于提升模型效果。例如,GPT-1為12層網絡,GPT-2將Transformer堆疊的層數增加到48層,GPT-3則為96層。此外,增加模型中詞向量長度,放大每層網絡中的構
47、件大小等均能提升模型效果。圖表:模型性能隨參數量上升圖表:模型性能隨參數量上升圖表:隨著參數量上升大模型性能具有突破性圖表:隨著參數量上升大模型性能具有突破性資料來源:Emergent Abilities of Large Language Models,Quantifying and extrapolating the capabilities of language models,中信建投 2.4 語言模型對訓練數據量提出更高需求在大模型中,模型在大模型中,模型參數量大小參數量大小和訓練數據量應該以大致相同的速度增長。和訓練數據量應該以大致相同的速度增長。大模型普遍訓練不足的問題:訓練不足
48、的問題:DeepMind的最新論文中審視了當前的模型發展,發現普遍存模型的大小與訓練數據量不匹配。因為在過去,業界普遍認為大模型表現和參數量高度相關。但在實際訓練中,算力是對模型最大的制約因素,模型參數不可能無限增長。參數量與數據量應匹配參數量與數據量應匹配:在算力資源有限情況下,如何匹配模型參數量和數據量使得模型表現達到最優,是非常重要的問題。DeepMind最新的研究成果表明:對于固定的算力資源,模型參數大小和訓練數據的大小是對應的。1)OpenAI過去的工作發現,模型的尺寸應該會比訓練數據大小的增加更快。2)DeepMind新研究發現,模型的尺寸和訓練數據的數量應該以大致相同的速度增長。
49、在最優性能曲線(右下圖三條直線)中:DeepMind的Chinchilla(700億)模型,利用原先4倍的訓練數據量,獲得了參數量和性能的最優匹配??梢钥吹紾opher(2800億)、GPT-3(1750億)、MT-NLG(5300億)等模型的訓練量明顯不足,造成了對算力的浪費。圖表:圖表:DeepMindDeepMind訓練大模型的參數訓練大模型的參數圖表:圖表:DeepMindDeepMind發現很多大模型參數量應該有所降低發現很多大模型參數量應該有所降低資料來源:Training Compute-Optimal Large Language Model,State of AI 2022,
50、中信建投ModelSize(#Parameters)Training TokensLaMDA137 Billion168 BillionGPT-3 175 Billion300 BillionJurassic178 Billion300 BillionGopher280 Billion300 BillionMT-NLG 530B530 Billion270 BillionChinchilla70 Billion1.4 Trillion 2.5 高質量的數據集可能更為重要對于大型語言模型而言,數據質量可能更為重要。對于大型語言模型而言,數據質量可能更為重要。數據質量包括數據準確度、信息含量以及數
51、據類型的多樣性等。多年前谷歌提出的T5預訓練模型,使用其專門構造的C4數據集(Colossal Clean Crawled Corpus),該數據集是從Common Crawl 網站上抓取數百個千兆字節干凈的英文文本,從而使得模型訓練后,性能有較好的表現。除了構造高質量、干凈的數據集外,除了構造高質量、干凈的數據集外,對不同質量的數據在訓練中賦以不同的訓練占比也是提升訓練效果的方法。以不同的訓練占比也是提升訓練效果的方法。例如,GPT-3中數據集包括Common Crawl在內的五類數據,但該模型并非根據數據量大小賦予同比例權重,而是將質量較高的維基百科數據在訓練集中給予更大的單數據量占比。阿
52、伯丁大學等相關學者(阿伯丁大學等相關學者(資料來源資料來源2)對訓練數據集進行了估算,結論到)對訓練數據集進行了估算,結論到2026年左右,高質量的年左右,高質量的 NLP 數據將會用光,低質量數據將會用光,低質量 NLP 數數據會在據會在2030到到2050年用光,而低質量圖像數據會在年用光,而低質量圖像數據會在2030到到2060年用光。年用光。資料來源:1.Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer,2.Will we run out of data?An analys
53、is of the limits of scaling datasets in Machine Learning,3.Language Models are Few-Shot Learners,中信建投圖表:圖表:T5T5模型模型C4C4數據集表現(前四類數據集是數據集表現(前四類數據集是C4C4或者基于或者基于C4C4的變體)的變體)圖表:圖表:GPTGPT-3 3數據集數據集Data setSizeGLUE CNNDM SQnAD SGLUE EnDe EnF EnRoC4745GB83.2819.2480.8871.3626.98 39.82 27.65C4,unfiltered6.1T
54、B81.4619.1478.7868.0426.55 39.34 27.21RealNews-like35GB83.8319.2380.3972.3826.75 39.90 27.48WebText-like17GB84.0319.3181.4271.4026.80 39.74 27.59Wikipedia16GB81.8519.3181.2968.0126.94 39.69 27.67Wikipedia+TBC 20GB83.6519.2882.0873.2426.77 39.63 27.57DatasetQuantity(tokens)Weight in training mixEpoch
55、s elapsed when training for 300B tokensCommon Crawl(filtered)410 billion60%0.44WebText219 billion22%2.9Books112 billion8%1.9Books255 billion8%0.43Wikipedia3 billion3%3.4 2.6 大模型需要更充分的預訓練大模型預訓練階段主要通過在一定程度上增大大模型預訓練階段主要通過在一定程度上增大batchSize(每一組數據的大?。┖筒介L(在數據上移動的長度)實現。(每一組數據的大?。┖筒介L(在數據上移動的長度)實現。典型的增大batchs
56、ize與步長的模型是BERT的改進版本RoBERTa。RoBERTa是穩健優化的BERT方法,使用動態掩碼、更大的batchsize以及字節對編碼等進行優化。RoBERTa在在BERT的基礎上,通過增大的基礎上,通過增大batchsize(8K)和步長()和步長(100K-300K-500K),使得),使得BERT得到充分訓練,極大提升了原得到充分訓練,極大提升了原始始BERT模型的效果。模型的效果。圖表:圖表:RoBERTaRoBERTa模型使用大的模型使用大的batchSizebatchSize和增加訓練步數和增加訓練步數資料來源:RoBERTa:A Robustly Optimized
57、BERT Pretraining Approach,中信建投ModeldatabszstepsSQuAD(v1.1/2.0)MNLl-mSST-2RoBERTawith BooKs+WIKI16GB8K100K93.6/87.389.095.3+additional data(3.2)160GB8K100K94.0/87.789.395.6+pretrain longer160GB8K300K94.4/88.790.096.1+pretrain even longer160GB8K500K94.6/89.490.296.4BERT largewith BooKs+WIKI13GB2561M90
58、.9/81.886.693.7XLNet largewith BooKs+WIKI13GB2561M94.0/87.888.494.4+additional data126GB2K500K94.5/88.889.895.6不同數據集的準確率不同數據集的準確率 2.7 增加預訓練任務的難度圖表:各種語言模型預訓練任務圖表:各種語言模型預訓練任務資料來源:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer,中信建投大模型在進行預測之前需要進行預訓練大模型在進行預測之前需要進行預訓練,如果
59、預訓練任務越有難度如果預訓練任務越有難度,則預訓練模型則越能高效率學習知識則預訓練模型則越能高效率學習知識,則最終模型能有更好則最終模型能有更好的性能表現的性能表現。以BERT為例,BERT有兩個預訓練任務,分別是單詞級的MASK語言模型和句子級的下一句預測NSP模型。MASK模型隨機選取一部分單詞進行屏蔽,要求模型對屏蔽詞作出預測。MASK任務中,相較于簡單屏蔽一個獨立的單詞,通過屏蔽連續的單詞片段,對模型要求更高,訓練效果也最好。NSP的主要目的是判斷兩個句子之間的連貫性,正例由兩個連續句子構成,負例的兩個句子順序則是隨機的,不具備上下文關系,NSP將連貫性預測和主題預測進行了合并,只需要
60、模型預測句子是否主題相似即可,任務比較簡單。在BERT模型的改進版ALBERT中,用SOP代替了NSP,將兩個連續出現的句子構造成正例,負例則將連續的句子調換語序,需要模型預測兩個句子出現順序是否正確,模型復雜度增加,但同時模型學到了更多知識,取得了比較好的訓練效果。ObjectiveInputsTargetsPrefix language modelingThank you for invitingme to your party last week.BERT-styleThank you me to your party apple week.(original text)Deshufll
61、ingparty me for your to.last fun you inviting week Thank(original text)MASS-styleThank you me to your party week.(original text)l.i.d.noisE,replace spansThank you me to your party week.for inviting last l.i.d.noise,drop tokensThank you me to your party week.for inviting lastRandom spansThank you to
62、week.for inviting me your party last 2.8 Fine-tune、Prompt提高模型下游任務表現大型語言模型預訓練之后,需要進行微調。Fine-tune方法將預訓練模型在具體的下游任務上進行微調,以獲得更好的應用效果。但是這種策略一方面需要保存大量的主干參數的數據且需要大量訓練數據,成本較高;另一方面,在上下游任務目標差異大時,微調難以解決問題;同時,不改變大部分參數,只針對輸出部分進行調整,會導致過擬合問題。Prompt方法主要通過改造下游任務的模板來縮小預訓練和微調時的差異,降低微調成本,提高模型在下游的應用效果。最大的優方法主要通過改造下游任務的模板
63、來縮小預訓練和微調時的差異,降低微調成本,提高模型在下游的應用效果。最大的優點是零點是零/小樣本,解決了小樣本,解決了Fine-tune最大的痛點最大的痛點。Prompt的設計分為模板設計、答案搜索和答案映射三步。的設計分為模板設計、答案搜索和答案映射三步。Prompt模板的設計方法主要分為人工構建模板的設計方法主要分為人工構建模板、離散模板和連續模板三模板、離散模板和連續模板三種。種。其中,人工構建的模板具有直觀、高效的特點,但是費時費力難度較大;離散模板對專業知識的要求較低,但是在部分任務上性能不佳;連續模板在部分場景下性能超過Fine-tune,但是訓練時間長、收斂速度慢,與預訓練數據可
64、能出現過耦合。圖表:連續圖表:連續PropmtPropmt和和FineFine-tunetune調優效果對比調優效果對比圖表:離散圖表:離散PropmtPropmt和和FineFine-tunetune調優效果對比調優效果對比資料來源:Prefix-Tuning:Optimizing Continuous Prompts for Generation,Autoprompt:Eliciting knowledge from language models with automatically generated prompts,中信建投 2.9 并行計算、顯存優化與模型稀疏性提升訓練效率圖表:并
65、行策略圖表:并行策略圖表:零冗余優化器優化過程圖表:零冗余優化器優化過程圖表:專家混合模型(圖表:專家混合模型(MoEMoE)是典型的模型稀疏性方法)是典型的模型稀疏性方法并行計算、顯存優化與模型稀疏性設計是提升大模型訓練效率的三種技術。并行計算、顯存優化與模型稀疏性設計是提升大模型訓練效率的三種技術。并行計算通過使用多張顯卡訓練模型,將任務進行拆解,分配給不同的處理器進行處理,可以提高模型的訓練效率。根據不同的維根據不同的維度,分為數據并行、流水線并行、張量并行三種。度,分為數據并行、流水線并行、張量并行三種。數據并行是將相同模型權重復制到多個設備,并將一部分數據分配給每個設備同時處理;流水
66、線并行是一種通過將模型并行與數據流水線相結合來加速神經網絡訓練的方法,核心思想在于模型按層分割成若干塊,每塊都交給一個設備;張量并行是將一個張量沿特定維度分成若干部分在不同的設備上分別計算。顯存優化技術顯存優化技術能夠降低顯存占用,提高GPU利用率,與并行計算相結合,節約模型訓練的成本,實現在單GPU上訓練大模型,包括激活檢查點(Activation Checkpointing)、混合精度訓練(Mix Precision Training)以及零冗余優化器(Zero Redundancy Optimizer)模型稀疏性模型稀疏性指的是模型具有非常大的容量,但只有模型的用于給定的任務、樣本或標記
67、的某些部分被激活。模型稀疏設計的優點在于輸入不會激活整個模型,通過子模型處理不同類的任務,同時共享一部分模型。子模型擴大了模型的容量,但是實際計算成本不會發生明顯變化。資料來源:Dive into Big Model Training,中信建投 目錄一、一、NLPNLP算法發展歷程介紹算法發展歷程介紹二、訓練好大模型的要素二、訓練好大模型的要素三、算力需求的展望三、算力需求的展望四、投資邏輯梳理四、投資邏輯梳理 3.1 人工智能模型不同時段的算力需求人工智能模型的算力需求大致可以分為三個階段:人工智能模型的算力需求大致可以分為三個階段:2010年以前,深度學習尚未得到廣泛應用,主要還是基于統計
68、的方法進行模型搭建,算力需求的增長相對緩慢,大致每20個月翻一倍。2010-2015年,深度學習模型在傳統的自然語言、計算機視覺等領域開始戰勝支持向量機等算法,深度學習模型開始成為主流算法,隨著神經網絡的層數和參數量的提升,算力需求的增長速度也顯著加快,大致每6個月翻一倍。2016年之后,人工智能模型開始進入巨量參數時代,算力需求顯著提升。年之后,人工智能模型開始進入巨量參數時代,算力需求顯著提升。根據英偉達的算力統計顯示,自2017年之后,以Transformer模型為基礎架構的大模型算力需求提升大致是每2年提升275倍。圖表:圖表:AIAI模型的算力需求逐步提升模型的算力需求逐步提升圖表:
69、圖表:TransformerTransformer模型的算力需求顯著高于其他模型模型的算力需求顯著高于其他模型資料來源:State of AI Report,英偉達,中信建投 3.2 預訓練自然語言模型對算力提出更高需求隨著大規模預訓練自然語言模型的提出隨著大規模預訓練自然語言模型的提出,模型的訓練過程中提出了更高的算力要求模型的訓練過程中提出了更高的算力要求。預訓練模型通過無需人工標注的大規模文本庫進行高算力的預先訓練,得到通用的語言模型和表現形式,再經過特定應用環境對預訓練模型進行微調,從而在各種下游應用領域得到目標任務的快速收斂和準確率提升。預訓練模型在訓練過程中不針對下游任務進行訓練,
70、模型的泛化學習能力使其具備廣泛的下游適應能力,泛化學習能力與模型的參數量密切相關,因而參數巨量化成為預訓練模型的典型特征。同時隨著訓練數據量的顯著提升,預訓練模型的訓練過程中對算力提出了更高的要求。chatGPT模型模型算力需求算力需求(PF-days)算力需求算力需求(flops)參數量(百萬)參數量(百萬)訓練數據量(百訓練數據量(百萬萬tokens)算力需求(每參算力需求(每參數數 每文本)每文本)T5-Small2.08E+001.80E+20601,0003T5-Base7.64E+006.60E+202201,0003T5-Large2.67E+012.31E+217701,000
71、3T5-3B1.04E+029.00E+213,0001,0003T5-11B3.82E+023.30E+2211,0001,0003BERT-Base1.89E+001.64E+201092506BERT-Large6.16E+005.33E+203552506RoBERTa-Base1.74E+011.50E+211252,0006RoBERTa-Large4.93E+014.26E+213552,0006GPT-3 Small2.60E+002.25E+201253006GPT-3 Medium7.42E+006.41E+203563006GPT-3 Large1.58E+011.37E
72、+217603006GPT-3 XL2.75E+012.38E+211,3203006GPT-3 2.7B5.52E+014.77E+212,6503006GPT-3 6.7B1.39E+021.20E+226,6603006GPT3 13B2.68E+022.31E+2212,8503006GPT-3 175B3.64E+033.14E+23174,6003006資料來源:Language Models are Few-Shot Learners,中信建投圖表:大規模自然語言模型的參數量和算力需求圖表:大規模自然語言模型的參數量和算力需求圖表:訓練大規模自然語言模型的算力需求圖表:訓練大規模
73、自然語言模型的算力需求 3.3 超大規模自然語言模型的算力需求邁上新臺階預訓練自然語言模型進入千億參數時代預訓練自然語言模型進入千億參數時代,模型訓練算力邁上新臺階模型訓練算力邁上新臺階。自GPT-3模型之后,大規模的自然語言模型進入了千億參數時代,2021年之后涌現出諸多千億規模的自然語言模型,模型的訓練算力顯著增加。GPT-3模型參數量為1750億,訓練算力需求為3.14E+23 flops,當前各種預訓練語言模型還在快速的更新迭代,不斷刷新自然語言處理任務的表現記錄,單一模型的訓練算力需求也不斷突破新高。GPGPT T-3 3(1(17 75 5B B)PaPan n-GuGu (2 2
74、0 00 0B B)HyHyp pe erCrCL LO OV VA A (2 20 04 4B B)JuJur ra as ss si i c c-1 1 J Ju um m b bo o (204B204B)FLFLA AN N (1 13 37 7B B)J une 2020M ay 2021M eM eg ga at tr ro on n TuTur ri i n ng g-NLNLG G (1 13 37 7B B)YuYua an n 1.1.0 0(246B246B)Sep 2021GoGop ph he er r (2 28 80 0B B)ErErn ni i e e 3 3
75、.0 0 T Ti i t ta an n (2 26 60 0B B)L La aM DM DA A (2 28 80 0B B)J an 2022GPGPT T-j j (6 6B B)GPGPT T-NeNeo oX X (2 20 0B B)Aug 2021P Pa aL LM M (5 54 40 0B B)OPOPT T (1 17 75 5B B)B BL LO OO OM M (1 17 76 6B B)G GL LM M (1 13 30 0B B)M ay 2022Aug 2022ChChi i n nc ch hi i l l l la a (7(70 0B B)chch
76、a at tG GP PT TNov 2022圖表:超大規模自然語言模型的發展進程圖表:超大規模自然語言模型的發展進程資料來源:State of AI Report,中信建投 書籍網絡文章對話數據獲取數據清洗模型訓練chatGPT、LaMDA等預訓練模型預訓練模型訓練算力訓練算力適應下游領域時適應下游領域時FineFine-tunetune算力算力商業應用大模型的算力需求主要來自于三個環節:大模型的算力需求主要來自于三個環節:預訓練得到大模型的訓練環節預訓練得到大模型的訓練環節。該環節中,算力呈現海量需求且集中訓練的特點,大模型通常在數天到數周內在云端完成訓練。適應下游領域時進一步適應下游領域
77、時進一步fine-tune環節環節。算力需求取決于模型的泛化能力以及下游任務的難度情況。大模型日常運行時的推理環節大模型日常運行時的推理環節。該環節中,算力取決于模型的參數量和用戶調用量,需求在模型商業化后持續存在且波動較大。日常運行時的算力需求日常運行時的算力需求3.4 大模型的算力需求主要來自三個環節圖表:大模型算力需求圖表:大模型算力需求資料來源:中信建投 3.5 英偉達顯卡是AI模型算力的主流選擇英偉達顯卡是英偉達顯卡是AI模型中最常用的算力芯片模型中最常用的算力芯片。英偉達顯卡憑借較高的靈活性和成熟的軟件生態,成為當前AI模型的主流選擇,根據學術論文的統計結果,英偉達顯卡使用的頻次是
78、FPGA的23倍,TPU的78倍。英偉達顯卡實現人工智能算力的顯著提升英偉達顯卡實現人工智能算力的顯著提升。從V100-A100-H100的發展路徑來看,英偉達顯卡實現了FP64、FP32算力能力的持續提升,AI模型的訓練速度穩步加快,通過引入FP16、INT8 Tensor core,實現推理能力的顯著提升,單位能耗下的訓練和推理能力也實現穩步提升。型號型號H100A100A800V100FP64(TFlops)349.79.77.8FP32(TFlops)6719.519.515.7FP16 Tensor core(TFlops)1979624624-INT8 Tensor core(TF
79、lops)395812481248-GPU顯存(GB)80808032GPU帶寬(GB/s)335020392039900互連(GB/s)900600400300功耗(W)700400400300發布時間2022.032020.032022.112017.5圖表:不同圖表:不同AIAI芯片在人工智能論文中的出現頻次芯片在人工智能論文中的出現頻次圖表:英偉達不同圖表:英偉達不同GPGPUGPGPU的性能參數比對的性能參數比對資料來源:State of AI Report,英偉達,中信建投 3.6 AI服務器專注實現人工智能加速隨著隨著AI算力的需求提升算力的需求提升,衍生出專注人工智能加速的衍生
80、出專注人工智能加速的AI服務器服務器。在小模型時代,AI模型的訓練和推理算力需求相對較小,依賴個人終端就可以實現。隨著模型參數的逐漸提升,AI模型開始依賴云端算力,云服務器承載了主要的算力需求。當前,AI算力在數據中心的占比進一步提升,衍生出了更加專業化的AI服務器。以以GPU為主的為主的AI服務器實現人工智能的算力加速服務器實現人工智能的算力加速。AI服務器多采用異構架構,其中以2CPU+8GPU最為常見,AI服務器具有性能優越、擅長并行計算、高帶寬、散熱能力強等優點。傳統云服務器2 CPUAI服務器2 CPU8 GPU圖表:傳統云服務器與圖表:傳統云服務器與AIAI服務器服務器圖表:云服務
81、器與圖表:云服務器與AIAI服務器的差異服務器的差異資料來源:浪潮信息,英偉達,中信建投云服務器云服務器AIAI服務器服務器典型配置2 CPU2 CPU+8 GPU計算性能側重串行計算側重并行計算適用領域傳統金融、安防、通信等領域深度學習諸多領域 3.7 ChatGPT類大模型的訓練成本估算AI模型的訓練算力與模型參數量模型的訓練算力與模型參數量、訓練數據量有關:訓練數據量有關:ChatGPT模型訓練的算力需求為3.14e+23 FLOPs。模型的有效算力利用率為21.3%(GPT-3訓練效率)。英偉達DGX A100 服務器單精度2496 TFLOP/s=2.50e+15 FLOPs,訓練時
82、需要在DGX A100 服務器上總訓練時長164060小時(單個A100訓練150年)。按照云服務器平均運行成本估算,DGX A100服務器的小時租金是20美元,估算單次訓練租用云服務器的成本是估算單次訓練租用云服務器的成本是328萬美金萬美金。其中只考慮了單模型的單次訓練服務器租金,大模型訓練次數可能不止一次且存在其他研發費用沒有計入其中。chatGPT訓練算力:3.14E+23FLOPs實際算力需求:1.474E+24FLOPs服務器租用時長:164060小時訓練成本:328萬美元算力利用率:21.3%DGX A100服務器算力:2496 TFlops租金:20美金/小時圖表:不同服務器上
83、圖表:不同服務器上A100A100顯卡的小時租金比對顯卡的小時租金比對資料來源:Lambda,中信建投圖表:大模型的訓練成本估算圖表:大模型的訓練成本估算 3.8 ChatGPT類大模型的運行成本估算模型的運行成本與模型參數量模型的運行成本與模型參數量、用戶調用次數有關用戶調用次數有關:750字(1k token=750字)文字生成的算力需求(以FLOPs為指標)約為2N,其中N為模型參數數量,生成750字消耗算力350 TFLOPs。根據Similarweb數據,近期近期chatGPT官網官網吸引的每日訪客數量吸引的每日訪客數量接近接近5000萬萬。每小時平均訪問人數約210萬人,假定高峰時
84、期同時在線人數450萬人,一小時內每人問6個問題,每個問題回答60字。用戶高峰時期的每小時算力需求:4500000*350*6*60/750=7.56E+8 TFlops,考慮模型的有效算力利用率為21.3%,需要400臺A100 服務器(3200塊英偉達A100芯片)支撐,400臺服務器在云上月租金臺服務器在云上月租金576萬美元萬美元/每月每月。生成750字的算力需求:350TFlops單位小時內算力需求:3.55E+9TFLOPs需要租用400臺服務器維持正常運行運行成本:576萬美元/月算力利用率:21.3%DGX A100服務器算力:2496TFlops租金:20美金/小時圖表:大模
85、型的運行成本估算圖表:大模型的運行成本估算圖表:圖表:ChatGPTChatGPT官網的日均訪問量(百萬人次)官網的日均訪問量(百萬人次)資料來源:similarweb,中信建投0102030405060桌面端移動端 目錄一、一、NLPNLP算法發展歷程介紹算法發展歷程介紹二、訓練好大模型的要素二、訓練好大模型的要素三、算力需求的展望三、算力需求的展望四、投資邏輯梳理四、投資邏輯梳理 投資邏輯梳理算法算力場景算法發展對算力提出更高要求算力發展助力算法不斷革新算法/算力共同促進下游場景應用拓展統計方法和早期神經網絡方法預訓練大語言模型CPU多模態融合大模型GPU流行,ASIC逐步興起邊緣側和服務
86、器DPU中的FPGA過往方案現狀發展趨勢市場特點1)預訓練模型迭代對于算力提出更高要求,只有少數科技巨頭能夠負擔起高昂的訓練成本2)高質量的海量數據成為大語言模型充分訓練的重要條件,數據和數據處理相關公司將在產業中變得更加重要。3)大模型訓練的訓練對企業協作提出更高要求,人工智能技術提供商和算力提供商協同合作,來完成大規模模型的開發。4)在新技術產生突破后,行業內的其他企業迅速跟進,意味著行業變革速度的加快,同時為更廣泛的商業化落地提供可能。1)隨著AI算力的需求提升,衍生出專注人工智能加速的AI服務器。GPU+CPU是當前的主流方案2)隨云計算、邊緣計算等新型計算方式的興起,相關的算力單元如
87、FPGA有望得到更好的發展。3)靈活性和產業生態對于AI芯片來說十分重要,英偉達顯卡因具備這兩點而成為AI模型算力中的主要選擇?;ヂ摼W司法教育醫療人機交互金融工業 投資邏輯梳理算力算法及應用英偉達國產AI芯片服務器及供應鏈海光、寒武紀華為昇騰供應鏈OpenAI有海外業務,有可結合ChatGPT的產品華為、百度、阿里在泛化大模型基礎上,做國內垂直場景落地連接算力和應用 風險提示ChatGPT技術發展不及預期:技術發展不及預期:ChatGPT屬于先進AI算法,若后續GPT算法更新迭代效果不及預期,則會影響ChatGPT演進及拓展,進而會影響其商業化落地等;算法歧視與人權道德風險:算法歧視與人權道德
88、風險:ChatGPT引入基于人工反饋的強化學習,在人工反饋中,不可避免的會參雜歧視問題,從而會將歧視帶入后續的人機交互中;大型語言模型在進行預訓練過程中,使用了大量數據,其中會涉及相關隱私問題;算力基礎設施支持不及預期:算力基礎設施支持不及預期:美國制裁中國高科技企業,對中國形成芯片、算力的封鎖,大語言模型訓練過程中需要大量算力資源,需要關注中美關系帶來的中國算力的壓力;政策監管力度不及預期:政策監管力度不及預期:大語言模型帶來新的網絡生態商業,尚屬于前期成長階段,政策監管難度加大,相關法律法規尚不完善,政策監管力度可能不及預期。數據數量與數據質量不及預期:數據數量與數據質量不及預期:大型語言
89、模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響大語言模型效果。感謝陳思玥、辛俠平、樊文輝對本報告的貢獻。分析師介紹分析師介紹閻貴成:閻貴成:中信建投證券通信&計算機行業首席分析師,北京大學學士、碩士,專注于云計算、物聯網、信息安全、信創與5G等領域研究。近8年中國移動工作經驗,6年多證券研究經驗。系2019-2021年新財富、水晶球通信行業最佳分析師第一名,2017-2018年新財富、水晶球通信行業最佳分析師第一名團隊核心成員。于芳博于芳博:中信建投計算機行業分析師,北京大學空間物理學學士、碩士,2019年7月加入中信建投,主要覆蓋方向智能汽車、CPU/GPU/FPGA/
90、ASIC、EDA和工業軟件等方向。評級說明評級說明投資評級標準評級說明報告中投資建議涉及的評級標準為報告發布日后6個月內的相對市場表現,也即報告發布日后的6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深300指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美國市場以標普 500 指數為基準。股票評級買入相對漲幅15以上增持相對漲幅5%15中性相對漲幅-5%5之間減持相對跌幅5%15賣出相對跌幅15以上行業評級強于大市相對漲幅10%以上中性相對漲幅-10-10%之間弱于大市相對跌幅10%以上 分析師聲明分析師聲明本報告署名分析師在
91、此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。本報告由中信建投(國際)證券有限公司
92、在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基
93、于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本
94、報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去12個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部中信建投(國際)中信建投(國際)北京東城區朝內大街2號凱恒中心B座12層電話:(8610)8513-0588聯系人:李祉瑤郵箱:上海浦東新區浦東南路528號南塔2106室電話:(8621)6882-1612聯系人:翁起帆郵箱:深圳福田區益田路6003號榮超商務中心B座22層電話:(86755)8252-1369聯系人:曹瑩郵箱:香港中環交易廣場2期18樓電話:(852)3465-5600聯系人:劉泓麟郵箱:charleneliucsci.hk43