《信息技術行業大模型技術進化論系列一:初代大模型技術詳解-230406(16頁).pdf》由會員分享,可在線閱讀,更多相關《信息技術行業大模型技術進化論系列一:初代大模型技術詳解-230406(16頁).pdf(16頁珍藏版)》請在三個皮匠報告上搜索。
1、 請閱讀最后評級說明和重要聲明 丨證券研究報告丨 行業研究丨專題報告丨信息技術 Table_Title 大模型技術進化論系列一:初代大模型技術詳解 報告要點 Table_Summary 大模型是深度學習在自然語言處理領域的最新技術,是繼 RNN、CNN 等傳統深度學習模型變體之后,在深度學習方向上打開了一個新世界的大門。大模型理論一經推出,即受到了廣泛的關注。OpenAI 受其啟發在 2018 年 6 月發布了初代 GPT 大模型,谷歌緊接其后在 2018 年 10月發布了 BERT 大模型。分析師及聯系人 Table_Author 宗建樹 SAC:S0490520030004 請閱讀最后評級
2、說明和重要聲明 丨證券研究報告丨 更多研報請訪問 長江研究小程序 信息技術 cjzqdt11111 Table_Title2 大模型技術進化論系列一:初代大模型技術詳解 行業研究丨專題報告 Table_Rank 投資評級 看好丨維持 Table_Summary2 大模型理論最早在 2017 年由谷歌的Attention is All You Need論文提出 大模型是深度學習在自然語言處理領域的最新技術,是繼 RNN、CNN 等傳統深度學習模型變體之后,在深度學習方向上打開的一個新世界的大門。大模型理論一經推出,即受到了廣泛的關注。OpenAI 受其啟發在 2018 年 6 月發布了初代 GP
3、T 大模型,谷歌緊接其后在 2018 年 10月發布了 BERT 大模型。時至今日,基于通用大模型進行調參已成為自然語言處理任務的首選范式。大模型的三大特征:生成式、預訓練和多模態幫助其取代了絕大部分傳統的自然語言處理的深度學習模型,已廣泛用于文本生成、機器翻譯、文本推理、關鍵詞總結等各類場景。OpenAI 最新發布的 GPT-4 大模型甚至可以完成復雜的圖像處理,通過美國律師從業資格考試、高等教育入學考試。其他科技巨頭也陸續宣布要開發自己的通用大模型和行業大模型,實現商業化落地。大模型有望在未來開辟強人工智能的新篇章。大模型的出現解決了一系列痛點 在 2017 年大模型誕生的前夕,深度學習的
4、 Encoder/Decoder 算法雖然早已提出,但在 NLP 領域還只被用于機器翻譯領域;Attention 機制剛剛出現,尚未得到重視;與此同時,較為成熟的RNN、CNN 模型遇到了一系列的技術瓶頸,始終無法解決處理文本長度受限、模型無法泛化、無法用于文本生成等問題。這一時點出現的大模型將 Encoder/Decoder 與 Attention 機制相結合,通過無監督學習+調參的方式,突破了傳統深度學習的技術瓶頸。初代 GPT 和 BERT 特點 初代 GPT 由于使用了 12 層 Decoder 架構,配合上 Masked Multi-Head Attention,只能根據前文單向預測
5、下一個單詞,因此訓練速度不如 BERT,但更擅長文本生成與邏輯推理。BERT由于使用了 24 層 Encoder 結構,配合上 Multi-Head Attention,訓練時隨機遮擋一段文本中15%的單詞做完形填空,因此訓練速度更快,訓練可以雙向并行。訓練模式導致 BERT 更擅長文本總結,問答對話等任務。BERT 模型的架構和訓練模式導致其上限不高 簡單而言,BERT 只采用了 Encoder 結構,而 Encoder 適用于完形填空的訓練模式,所以 BERT訓練完成之后更適合關鍵詞提取、文本總結等任務,而此類任務本身較為簡單;另一方面,GPT采用了 Decoder 架構,更適合搭配下一個
6、詞預測作為訓練任務,所以訓練出的 GPT 模型更適合推理和文本生成等任務,而這類任務的難度較高,OpenAI 直到迭代到 ChatGPT 才較好實現了這一功能。風險提示 1、人工智能技術發展不及預期;2、人工智能商業化應用落地不及預期。市場表現對比圖市場表現對比圖(近近 12 個月個月)資料來源:Wind 相關研究相關研究 底部漸近,復蘇可期存儲行業五問五答2023-04-03 AI 大模型時代,重視 OA 產業投資機遇 2023-04-02 從 AIGC 看數通鏈2023-04-02 -21%-9%3%15%2022/42022/82022/122023/4信息技術滬深300指數2023-0
7、4-06 4WcZkZiYeYlWsXtWuV6MaO6MmOmMoMsRiNnNsOiNoOsM7NqRzQvPrNvMvPpPpP 請閱讀最后評級說明和重要聲明 3/16 行業研究|專題報告 目錄 什么是大模型.4 為什么需要大模型?.5 初代 GPT 大模型技術拆解.9 BERT 大模型技術拆解.11 初代 GPT 與 BERT 特點總結.12 風險提示.15 圖表目錄 圖 1:大模型的 Encoder-Decoder 2機制.4 圖 2:各廠商布局時間軸.5 圖 3:大模型解決了四項痛點.6 圖 4:每一個 Encoder/Decoder 中都有 Attention 層.6 圖 5:A
8、ttention 可以并行處理文本.7 圖 6:Attention 給不同的詞賦予不同的權重.7 圖 7:大模型通過無監督預訓練+調參來得到最終模型.7 圖 8:Anthropic、GPT-3.5 和 GPT-4 在 RLHF 調參過后準確率都大幅度提升.8 圖 9:Phenaki 大模型可以根據關鍵詞生成視頻.9 圖 10:初代 GPT 在 Decoder 中刪除了 Multi-Head Attention 結構.9 圖 11:GPT 針對不同的任務設計了不同的詞嵌入 Token.10 圖 12:隨著訓練層數的增加,模型的性能也隨之提高.10 圖 13:隨著訓練步數的增加,模型的 zero-
9、shot 性能隨之提高.10 圖 14:BERT 的 token 可以做雙向詞嵌入.11 圖 15:BERT 調參過程.11 圖 16:BERT 的性能全方位超越了初代 GPT.12 圖 17:單向處理文本的 GPT 與雙向處理文本的 BERT.13 圖 18:一張圖看懂 BERT、GPT 的架構和訓練模式的影響.13 圖 19:在 BERT 推出后,科大訊飛實驗室以 BERT 為原型推出了一系列大模型.14 圖 20:AI 模型網站 Huggingface 上下載量最大前 20 的大模型調參應用,BERT 占了 11 個.14 表 1:初代 GPT 與 BERT 模型參數比較.12 請閱讀最
10、后評級說明和重要聲明 4/16 行業研究|專題報告 什么是大模型 大模型是深度學習在自然語言處理領域的最新技術。大模型是深度學習在自然語言處理領域的最新技術。大模型是指在龐大的語料庫上使用Transformer 算法進行訓練的模型,具有數百萬或數十億個參數,通常采用無監督學習方法進行預訓練,然后使用監督學習方法進行微調以執行特定的任務。大模型理論最早在 2017 年由谷歌的Attention is All You Need論文提出。大模型的目標是學習通用的語言表示形式,這使得它們可以應用于各種自然語言處理任務,例如文本分類、命名實體識別、語言生成等。預訓練大模型通常具有比傳統模型更好的性能和泛
11、化能力,因為它們可以從大量的文本數據中學習通用的語言模式和語法結構。大模型做到了大模型做到了通用性通用性、生成式、多模態三個特點、生成式、多模態三個特點:通用性:通用性:傳統深度學習模型需要根據特定任務定制算法和訓練數據,而大模型由于已經進行了預訓練,其技術的泛化性允許其不需要調整算法和訓練數據即可取得優秀的表現;生成式:生成式:傳統的深度學習模型只能根據現有數據判別,幫用戶做決策,但大模型可以自我生成內容;多模態:多模態:傳統的深度學習只能處理圖像、文本或視頻等單個領域的數據,而大模型可以將圖像與文本、視頻與文本等數據相結合,處理多模態任務。此外,大模型處理文本時可以不依照文本的順序,大大加
12、快了文本處理速度。大模型又采用了 Attention 機制,對文本中不同的詞語賦予不同的權重值,增強了模型處理長文本的能力。大模型結構是繼 RNN、CNN 1,以及其一系列變體 LSTM、GRU、ResNet、DenseNet 之后,在深度學習方向上打開了一個新世界的大門。圖 1:大模型的 Encoder-Decoder 2機制 資料來源:Attention is All You NeedVaswani et al.,長江證券研究所 _ 1 RNN:循環神經網絡,可以處理時間序列問題,常用于文本處理任務;CNN:卷積神經網絡,常用于圖像處理任務。2 Encoder 是一個神經網絡編碼器,可以將
13、輸入序列(如自然語言句子)編碼為一個向量,而 Decoder 則將該向量表示解碼為輸出序列(如自然語言翻譯)。請閱讀最后評級說明和重要聲明 5/16 行業研究|專題報告 大模型理論一經推出,即大模型理論一經推出,即受受到了廣泛的關注。到了廣泛的關注。OpenAI 受其啟發在 2018 年 6 月發布了初代 GPT 大模型,谷歌緊接其后在 2018 年 10 月發布了 BERT 大模型。兩位巨頭采取了兩種不同的技術路線,OpenAI 的初代 GPT 只采用了大模型理論中的解碼器技術,而谷歌只采用了大模型理論中的編碼器技術。時至今日,基于通用大模型進行調參已成為自然語言處理任務的首選范式時至今日,
14、基于通用大模型進行調參已成為自然語言處理任務的首選范式。大模型的三大特征:生成式、預訓練和多模態幫助其取代了絕大部分傳統的自然語言處理的深度學習模型,已廣泛用于文本生成、機器翻譯、文本推理、關鍵詞總結等各類場景。除了自然語言處理領域,大模型結構也被應用到了計算機視覺領域,由此誕生了一系列比 CNN更強大的模型,如 ViT、BEiT 和 MAE。OpenAI 最新發布的 GPT-4 大模型甚至可以完成復雜的圖像處理,通過美國律師從業資格考試、高等教育入學考試。其他科技巨頭也陸續宣布要開發自己的通用大模型和行業大模型,實現商業化落地。大模型有望在未來開辟強人工智能的新篇章。圖 2:各廠商布局時間軸
15、 資料來源:機器之心,Sigmoid,lambdalab,谷歌官網,Meta 官網,智源社區,百度官網,華為官網,長江證券研究所 為什么需要大模型?大模型的出現解決了大模型的出現解決了四項四項痛點。痛點。在 2017 年大模型誕生的前夕,深度學習的Encoder/Decoder 算法雖然早已提出,但在 NLP 領域還只被用于機器翻譯領域;Google發布Attention Is All You Need論文,提出大模型概念,采用注意力機制,解決了RNN效率問題和傳遞中的缺陷。OpenAI發布GPT-2模型,在GPT的基礎上省略了調參過程,參數擴大到15億,模型更通用。百度推出ERNIE1.0大
16、模型。OpenAI發布Clip模型,實現文本到圖像的跨模態。OpenAI發布初代GPT模型,參數達到1.17億,可通過預訓練+調參的方式,處理無標注的NLP任務 Google發布BERT,在GPT的基礎上升級成為雙向訓練模型,參數達到3.4億,在分類、標注等任務下都獲得了更好的效果。OpenAI發布GPT-3模型,參數擴大到1750億,性能更強。ViT模型發布,將大模型用于圖像視覺領域。20182020201720192021.012021.03 智源推出悟道1.0大模型,參數達到10億。OpenAI發布ChatGPT模型,基于GPT-3.5模型,長文本理解能力增強,新增代碼理解和生成能力。2
17、022.11 谷歌推出Bard大模型,建立在LaMDA大模型基礎上,參數達到1370億。谷歌推出LaMDA大模型,專注于對話領域,參數達到1370億。Meta推出Opt-175B大模型,參數達到1750億。Meta推出BlenderBot3大模型,建立在Opt-175B大模型基礎上,參數達到1750億。百度推出文心系列大模型。2021.052021.122022.052022.082023.02 百度推出文心一言大模型,對標ChatGPT。2023.03 請閱讀最后評級說明和重要聲明 6/16 行業研究|專題報告 Attention 機制剛剛出現,尚未得到重視;與此同時,較為成熟的 RNN、C
18、NN 模型遇到了一系列的技術瓶頸,始終無法解決處理文本長度受限、模型無法泛化、無法用于文本生成等問題。這一時點出現的大模型將 Encoder/Decoder 與 Attention 機制相結合,通過無監督學習+調參的方式,突破了傳統深度學習的技術瓶頸。圖 3:大模型解決了四項痛點 資料來源:長江證券研究所 早期大模型如初代 GPT、BERT、GPT-2 等都只適用于自然語言處理任務,直到 2021年初 OpenAI 推出了 Clip 多模態模型,大模型才具備了多模態能力。長文本處理能力躍升 傳統深度學習無法傳統深度學習無法并行或并行或處理長文本內容。處理長文本內容。2017 年之前的自然語言處
19、理場景,一般會選擇傳統的 RNN 模型來正確處理文本序列的問題。但 RNN 只能從左向右依次計算或者從右向左依次計算,模型在 t 處的計算需要依賴模型在 t-1 處的計算結果,這一原則限制了模型的并行能力。此外,當最新的文本 token 被合并到序列中時,很久之前的文本 token 信息就會丟失,所以 RNN 模型只能用于較短的文本內容處理。圖 4:每一個 Encoder/Decoder 中都有 Attention 層 資料來源:Github,長江證券研究所 無法處理長文本內容通過Attention機制,捕捉文本關鍵詞,降低遺忘效應遇到新任務需要重新設計模型,收集訓練數據通過預訓練提高泛化能力
20、,不需要重新訓練只能對問題做判別,無法生成新內容可以生成全新的內容只能處理單模態任務可以將文本、圖像、視頻數據相結合,處理多模態任務 請閱讀最后評級說明和重要聲明 7/16 行業研究|專題報告 Attention 機制可以機制可以并行并行用于長文本場景。用于長文本場景。大模型使用了 Attention 機制,將序列中的任意兩個位置之間的距離縮小為一個常量,而不是類似 RNN 的順序結構,因此具有更好的并行性,符合現有的 GPU 框架;此外 Attention 機制通過在處理序列數據時對相關部分進行加權,從而將重點放在與當前任務相關的部分,從而緩解了長序列數據的問題。在預訓練模型中,Attent
21、ion 機制通常被用于捕捉輸入序列中的重要信息,并將其與上下文聯系起來,以便更好地理解文本。圖 5:Attention 可以并行處理文本 圖 6:Attention 給不同的詞賦予不同的權重 資料來源:GitHub,長江證券研究所 資料來源:GitHub,長江證券研究所 無監督預訓練+監督調參模式提高泛化能力 傳統深度學習模型只能采用監督學習模式。傳統深度學習模型只能采用監督學習模式。在 2017 年之前,NLP 在深度學習上基本還處于 word2vec 以及為不同任務做定制化深度模型的情況。在此階段,模型需要大量的在特定領域標注過的數據集,由于這些數據集都需要人工標注,所以訓練模型的成本較高
22、。這一特點導致在部分領域使用深度學習模型的最大困難在于收集足夠可靠的、已標注的訓練集。此外,模型采用手工設計特征和規則的方式進行建模,對于不同的任務和語言,需要重新設計和調整模型,訓練完成的模型無法兼容其他領域。大模型大模型實現了無監督預訓練實現了無監督預訓練+監督調參模式監督調參模式。大模型在訓練時無需對數據進行標注,模型會通過前文來預測文本的下一個詞,再與原文做對比,以此來實現無監督訓練。而大模型的龐大的訓練數據使得大模型具備億級以上的參數值,讓大模型獲得足夠的泛化能力,無需根據特定行業的標注數據再次訓練,在大部分行業可以直接實現應用落地。圖 7:大模型通過無監督預訓練+調參來得到最終模型
23、 資料來源:清華 NLP 團隊,openBMB,長江證券研究所 模型預訓練(Pre-training)模型微調(Fine-tuning)最終模型大規模無標注數據任務特定訓練數據數據預訓練+調參=目標模型泛用性增強根據場景調整得到特定所需 請閱讀最后評級說明和重要聲明 8/16 行業研究|專題報告 大模型需要通過標注數據來調參,以大模型需要通過標注數據來調參,以獲得更好的性能獲得更好的性能。預訓練大模型的復雜性和參數量較大,且訓練需要花費大量的時間和計算資源,因此必須通過調參來優化模型性能。調參的數據需要人工標注,調參數據規模根據任務難度變化而變化。調參的類型一般分為調參的類型一般分為三類:三類
24、:超參數選擇:預訓練大模型中有很多超參數需要調整,例如學習率、批量大小、正則化參數等。這些超參數的不同選擇可能會導致模型的性能差異較大,因此需要通過實驗和調整來確定最佳超參數組合。模型結構調整:預訓練大模型的結構非常復雜,包含多個層和大量參數。不同的結構可能會對模型的性能產生重要的影響。因此,在預訓練之前需要測試模型的結構,訓練之后也需要調整到最佳結構。數據集選擇:預訓練大模型需要使用大量數據進行訓練。不同的數據集可能會對模型的性能產生重要的影響。因此,在進行預訓練之前需要選擇合適的數據集,并對數據集進行一些預處理和增強。圖 8:Anthropic、GPT-3.5 和 GPT-4 在 RLHF
25、 調參過后準確率都大幅度提升 資料來源:GPT-4 Trchnical ReportOpenAI,長江證券研究所 大模型具備內容生成能力 傳統的深度學習模型不具備內容生成能力。傳統的深度學習模型不具備內容生成能力。傳統的深度學習模型通常需要手工設計特征或使用詞向量等表示文本數據,這種方式需要大量的后期手動修改,且無法完全表達文本數據中的語言規律和語義信息,導致模型在生成文本時缺乏連貫性和準確性。此外,RNN 或 CNN 模型得結構限制了它們只能處理固定長度的文本,而無法處理長文本數據。這使得模型在生成長文本時存在困難,同時也無法完全考慮到文本中的上下文關系。大模型第一次大模型第一次實現實現了內
26、容生成。了內容生成。前面我們介紹了大模型無監督學習的模式:大模型可以通過前文來預測下一個詞語,而正是這一訓練方式賦予了大模型內容生成的能力。大模型能夠在生成文本時綜合考慮到文本中的上下文關系,能夠生成更連貫、合理的文本。除了文本生成,預訓練大模型還可以用于語音生成、圖像生成等其他領域的生成任務。大模型可以根據給定的文本生成對應的語音、圖像。目前大模型的生成能力已成功商業化落地,被廣泛用于自然語言處理、音頻處理、計算機視覺等領域。請閱讀最后評級說明和重要聲明 9/16 行業研究|專題報告 圖 9:Phenaki 大模型可以根據關鍵詞生成視頻 資料來源:Phenaki:Variable Lengt
27、h Video Generation From Open Domain Textual Description Villegas et al.,長江證券研究所 初代 GPT 大模型技術拆解 2018 年年 6 月,月,OpenAI 發布了初代發布了初代 GPT。初代 GPT 是世界上第一個大模型應用,模型基于 Transformer 結構進行建模,采用了無監督學習方式進行訓練,具有 12 層 Decoder結構,總參數量達到 1.17 億。初代 GPT 僅使用了 Transformer 的 Decoder 結構,并對 Decoder 進行了一些改動,刪除了 Multi-Head attenti
28、on 結構,只保留了 Masked Multi-Head Attention 結構,這確保了 GPT 只能關注前文的信息,從而達到單向模型的目的。圖 10:初代 GPT 在 Decoder 中刪除了 Multi-Head Attention 結構 資料來源:cnblog,長江證券研究所 請閱讀最后評級說明和重要聲明 10/16 行業研究|專題報告 GPT 是最早一批提出在是最早一批提出在 NLP 任務上使用任務上使用預訓練預訓練+調參范式的工作。調參范式的工作。GPT 的訓練集采用了 BookCorpus 7000 本書籍,數據規模達到 5GB。在調參階段,針對 NLP 中四個常見任務:文本分
29、類、文本蘊含、文本相似度、問答任務,GPT 引入了分隔符。分隔符可以根據不同的任務設置不同的詞嵌入 token,使得大模型能在調參的時候適配 4 種不同的任務。圖 11:GPT 針對不同的任務設計了不同的詞嵌入 Token 資料來源:Improving Language Understanding by Generative Pre-TrainingRadford et al.,長江證券研究所 GPT 證明了模型的精度和泛化能力會隨著解碼器層數增加而不斷提升證明了模型的精度和泛化能力會隨著解碼器層數增加而不斷提升。隨著模型的層數增加,模型可以更好地捕捉輸入數據中的細節和模式,這種現象在神經網絡
30、領域中被稱為“深度學習效應”。在 GPT 中,模型的準確性隨著 Decoder 層數的增加而提高。增加解碼器層數使模型更好地理解了自然語言中的語法和語義,并生成了更準確、更自然的文本。圖 12:隨著訓練層數的增加,模型的性能也隨之提高 圖 13:隨著訓練步數的增加,模型的 zero-shot 性能隨之提高 資料來源:Improving Language Understanding by Generative Pre-TrainingRadford et al.,長江證券研究所 資料來源:Improving Language Understanding by Generative Pre-Tra
31、iningRadford et al.,長江證券研究所 GPT 模型具有模型具有 zero-shot 能力,并且能隨著預訓練的進行不斷增強能力,并且能隨著預訓練的進行不斷增強。在 zero-shot 任務中,初代 GPT 的模型要比基于 LSTM 的模型穩定,且隨著訓練次數的增加,其 zero-shot 的性能也逐漸提升。這些都表明初代 GPT 已經具備相對較強的泛化能力,能夠用到和其訓練集無關的其它 NLP 任務中。此外,初代 GPT 也證明了大模型學習詞向量的強大能力,在 GPT 得到的詞向量基礎上進行下游任務的學習,能夠讓下游任務更好地泛化。對于下游任務的訓練,初代 GPT 往往只需要簡
32、單的微調便能取得非常好的效果。請閱讀最后評級說明和重要聲明 11/16 行業研究|專題報告 BERT 大模型技術拆解 谷歌在谷歌在 2018 年年 10 月推出了月推出了 BERT 大模型。大模型。BERT 大模型采用了 24 層的 Encoder 結構,參數量達到了 3.4 億。BERT 的訓練數據集源自 Toronto BookCorpus(8 億詞)和英文維基百科(25 億詞)。BERT 只采用了 Transformer 的 Encoder 結構,由于沒有像 GPT 一樣的 Masked Multi-Head Attention 結構,在訓練時允許每個 token 訪問其前后兩個方向的
33、context,因此 BERT 是雙向的語言模型。圖 14:BERT 的 token 可以做雙向詞嵌入 資料來源:exxactcorp,長江證券研究所 BERT 模型模型更更注重理解語義和上下文相關性。注重理解語義和上下文相關性。在訓練時,BERT 使用了兩個預訓練任務:Masked Language Modeling(MLM)和 Next Sentence Prediction(NSP)。在 MLM 任務中,雙向的語言模型結構允許 BERT 在訓練時不必像 GPT 一樣只能單向預測下一個詞,而是類似于完形填空隨機遮蔽 15%的 token,然后用未遮蔽的部分作為 context 預測被遮蔽的
34、部分。在 NSP 任務中,訓練集會輸入兩個句子,然后讓 BERT 預測兩句話是否是相鄰。這兩個訓練任務使得 BERT 模型的訓練速度較快,而且讓 BERT 更注重理解語義和上下文相關性,并且在文本總結、關鍵詞提取等任務上比 GPT 取得更好的成績。圖 15:BERT 調參過程 資料來源:BERT:Pre-training of Deep Bidirectional Transformers for Language UnderstandingDevlin et al.,長江證券研究所 請閱讀最后評級說明和重要聲明 12/16 行業研究|專題報告 BERT 調參步驟相對簡單。調參步驟相對簡單。B
35、ERT 的調參數據集主要為對話文本、問答文本等,調參時會直接遍歷數據集中的任意相鄰兩句話。調參的過后的 BERT 大模型會通過 GLUE Benchmark、SQuAD v1.1 和 SQuAD v2.0 三個任務體系下評估。據谷歌介紹,BERT調參所需算力較小,僅需一塊云端 TPU 花費 1 小時,或一塊 GPU 花費數小時即可完成。圖 16:BERT 的性能全方位超越了初代 GPT 資料來源:BERT:Pre-training of Deep Bidirectional Transformers for Language UnderstandingDevlin et al.,長江證券研究所
36、 初代 GPT 與 BERT 特點總結 初代 GPT 由于使用了 12 層 Decoder 架構,配合上 Masked Multi-Head Attention,只能根據前文單向預測下一個單詞,因此訓練速度不如 BERT,但更擅長文本推理和文本生成。表 1:初代 GPT 與 BERT 模型參數比較 初代初代 GPT BERT 模型 12 層 Transformer Decoder 單向(去掉 Multi-Head Attention)24 層 Transformer Encoder 雙向 參數量 1.17 億 3.4 億 訓練語料 7000 本書 BooksCorpus 800M 單詞 英文維
37、基 2500M 單詞 預訓練任務 LTR 預測下一個單詞 MLM 和 NSP 擅長任務 文本推理、文本生成 對話、問答、文本總結 資料來源:Improving Language Understanding by Generative Pre-Training Radford et al.,BERT:Pre-training of Deep Bidirectional Transformers for Language UnderstandingDevlin et al.,medium,長江證券研究所 BERT 由于使用了 24 層 Encoder 結構,配合上 Multi-Head Atten
38、tion,訓練時隨機遮擋一段文本中 15%的單詞做完形填空,因此訓練速度更快,訓練可以雙向并行。訓練模式導致 BERT 更擅長文本總結,問答對話等任務。請閱讀最后評級說明和重要聲明 13/16 行業研究|專題報告 圖 17:單向處理文本的 GPT 與雙向處理文本的 BERT 資料來源:dbvis,長江證券研究所 BERT 模型的架構和訓練模式導致其上限不高,也限制了谷歌后續在模型的架構和訓練模式導致其上限不高,也限制了谷歌后續在 BERT 模型基礎模型基礎上推出的升級模型。上推出的升級模型。簡單而言,BERT 只采用了 Encoder 結構,而 Encoder 適用于完形填空的訓練模式,所以
39、BERT 訓練完成之后更適合文本理解、關鍵詞提取、文本總結等任務,而此類任務本身較為簡單;另一方面,GPT 采用了 Decoder 架構,更適合搭配下一個詞預測作為訓練任務,所以訓練出的 GPT 模型更適合推理和文本生成等任務,而這類任務的難度較高,OpenAI 直到迭代到 ChatGPT 才較好實現了這一功能。圖 18:一張圖看懂 BERT、GPT 的架構和訓練模式的影響 資料來源:長江證券研究所 在在 2018 年至年至 2019 年這一段時間,年這一段時間,BERT 大模型大模型的受歡迎程度更高。的受歡迎程度更高。上文闡述了初代GPT 系列的架構與訓練模式導致其更適合推理性任務。但由于推
40、理型任務的要求較高,所以推理型模型本身需要達到較高的性能才能真正實用化。但初代 GPT 自身的參數量較小,這一局限性導致了初代GPT和一年之后推出的GPT-2實用性較低,直到ChatGPT發布才真正突破了這一瓶頸。在另一方面,BERT 模型的架構和其訓練模式使得其更加適合文本總結、關鍵詞提取等任務。而這一類任務本身較為簡單,對模型的要求較低,初代GPTBERT 請閱讀最后評級說明和重要聲明 14/16 行業研究|專題報告 所以 BERT 能夠很好的勝任這一類任務。因此 BERT 大模型推出時的受到的關注更多,當時學術界和業界也推出了一系列 BERT 的調參模型和模型變體。圖 19:在 BERT
41、 推出后,科大訊飛實驗室以 BERT 為原型推出了一系列大模型 圖 20:AI 模型網站 Huggingface 上下載量最大前 20 的大模型調參應用,BERT 占了 11 個 資料來源:Github,長江證券研究所 資料來源:Huggingface,長江證券研究所 請閱讀最后評級說明和重要聲明 15/16 行業研究|專題報告 風險提示 1、AI 技術發展不及預期,本次大模型創新伴隨參數量及模態的增速能力天花板尚未達到,但模型效果本身仍存瓶頸及問題,倘若 AI 技術發展不及預期,投入廠商仍然存在失敗風險。2、下游應用需求不及預期,人工智能本質是通過供給創新催生需求擴容,目前大模型仍處于商業模
42、式摸索期,倘若本輪技術變革無法真實帶動下游需求,投入廠商將受到影響。請閱讀最后評級說明和重要聲明 16/16 行業研究|專題報告 投資評級說明 行業評級 報告發布日后的 12 個月內行業股票指數的漲跌幅相對同期相關證券市場代表性指數的漲跌幅為基準,投資建議的評級標準為:看 好:相對表現優于同期相關證券市場代表性指數 中 性:相對表現與同期相關證券市場代表性指數持平 看 淡:相對表現弱于同期相關證券市場代表性指數 公司評級 報告發布日后的 12 個月內公司的漲跌幅相對同期相關證券市場代表性指數的漲跌幅為基準,投資建議的評級標準為:買 入:相對同期相關證券市場代表性指數漲幅大于 10%增 持:相對
43、同期相關證券市場代表性指數漲幅在 5%10%之間 中 性:相對同期相關證券市場代表性指數漲幅在-5%5%之間 減 持:相對同期相關證券市場代表性指數漲幅小于-5%無投資評級:由于我們無法獲取必要的資料,或者公司面臨無法預見結果的重大不確定性事件,或者其他原因,致使我們無法給出明確的投資評級。相關證券市場代表性指數說明:相關證券市場代表性指數說明:A 股市場以滬深 300 指數為基準;新三板市場以三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)為基準;香港市場以恒生指數為基準。辦公地址 Table_Contact 上海 武漢 Add/浦東新區世紀大道 1198 號世紀匯廣場一座 2
44、9 層 P.C/(200122)Add/武漢市江漢區淮海路 88 號長江證券大廈 37 樓 P.C/(430015)北京 深圳 Add/西城區金融街 33 號通泰大廈 15 層 P.C/(100032)Add/深圳市福田區中心四路 1 號嘉里建設廣場 3 期 36 樓 P.C/(518048)分析師聲明 作者具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,以勤勉的職業態度,獨立、客觀地出具本報告。分析邏輯基于作者的職業理解,本報告清晰準確地反映了作者的研究觀點。作者所得報酬的任何部分不曾與,不與,也不將與本報告中的具體推薦意見或觀點而有直接或間接聯系,特此聲明。重要聲明 長江證
45、券股份有限公司具有證券投資咨詢業務資格,經營證券業務許可證編號:10060000。本報告僅限中國大陸地區發行,僅供長江證券股份有限公司(以下簡稱:本公司)的客戶使用。本公司不會因接收人收到本報告而視其為客戶。本報告的信息均來源于公開資料,本公司對這些信息的準確性和完整性不作任何保證,也不保證所包含信息和建議不發生任何變更。本公司已力求報告內容的客觀、公正,但文中的觀點、結論和建議僅供參考,不包含作者對證券價格漲跌或市場走勢的確定性判斷。報告中的信息或意見并不構成所述證券的買賣出價或征價,投資者據此做出的任何投資決策與本公司和作者無關。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判
46、斷,本報告所指的證券或投資標的的價格、價值及投資收入可升可跌,過往表現不應作為日后的表現依據;在不同時期,本公司可以發出其他與本報告所載信息不一致及有不同結論的報告;本報告所反映研究人員的不同觀點、見解及分析方法,并不代表本公司或其他附屬機構的立場;本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本公司及作者在自身所知情范圍內,與本報告中所評價或推薦的證券不存在法律法規要求披露或采取限制、靜默措施的利益沖突。本報告版權僅為本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制和發布。如引用須注明出處為長江證券研究所,且不得對本報告進行有悖原意的引用、刪節和修改??d或者轉發本證券研究報告或者摘要的,應當注明本報告的發布人和發布日期,提示使用證券研究報告的風險。未經授權刊載或者轉發本報告的,本公司將保留向其追究法律責任的權利。Powered by TCPDF(www.tcpdf.org)