《計算機行業:大模型深度復盤科技變革加速-230522(39頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業:大模型深度復盤科技變革加速-230522(39頁).pdf(39頁珍藏版)》請在三個皮匠報告上搜索。
1、 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。1 證券研究報告 計算機計算機 大模型大模型深度復盤,科技變革加速深度復盤,科技變革加速 華泰研究華泰研究 計算機計算機 增持增持 (維持維持)研究員 謝春生謝春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 研究員 郭雅麗郭雅麗 SAC No.S0570515060003 SFC No.BQB164 +(86)10 5679 3965 研究員 范昳蕊范昳蕊 SAC No.S0570521060004 +(86)10 6321 1166 聯系人 彭鋼彭鋼 SAC No.
2、S0570121070173 +(86)21 2897 2228 聯系人 袁澤世,袁澤世,PhD SAC No.S0570122080053 +(86)21 2897 2228 聯系人 林海亮林海亮 SAC No.S0570122060076 +(86)21 2897 2228 行業行業走勢圖走勢圖 資料來源:Wind,華泰研究 2023 年 5 月 22 日中國內地 專題研究專題研究 大模型時代已來,大模型時代已來,AGI 新紀元開啟新紀元開啟 大語言模型(LLM)是在大量數據集上預訓練的巨大模型,在處理各種 NLP(自然語言處理)任務方面顯示出了較大潛力。2017 年 Transforme
3、r 編解碼器架構問世后,成了今年 LLM 發展的藍圖,并由此分化出編碼器、編解碼器和解碼器三條進化路徑。其中,編解碼器和解碼器架構目前仍在不斷演進中,且解碼器架構在數量上占據絕對優勢。全球視角看,LLM 的典型代表是 OpenAI 開發的 GPT 系列模型,國內的百度、智源等也在大模型上進行了深厚的積累。在大模型的賦能下,各種垂類應用和工程實現紛紛落地,包括 BloombergGPT、AutoGPT 等。LLM 或將開啟通用人工智能新紀元。溯源:從經典神經網絡到溯源:從經典神經網絡到 Transformer 架構架構 深度學習可以概括為特征的抽象和結果的預測。深度學習與神經網絡密不可分,主要原
4、因是神經網絡模型可以使用誤差反向傳播算法,較好地解決了深度學習中的貢獻度分配問題。從歷史發展看,神經網絡誕生于 1943 年提出的 MP 模型,深度學習概念由 Hinton 于 2006 年正式提出。經過多年的發展,問世了如卷積神經網絡(CNN)、循環神經網絡(RNN)、長短時記憶網絡(LSTM)等經典的深度學習算法。2017 年,Transformer 架構的出現成為了后來 LLM 的基礎架構,再次開啟了大語言模型快速發展時期。發展:從發展:從 GPT-1 到到 GPT-4,開啟大模型新紀元開啟大模型新紀元 2018 年,OpenAI 提出生成式預訓練模型 GPT-1,引入有監督的微調訓練。
5、2019 年,GPT-2 以更大的參數量和多任務訓練進行 zero-shot 學習;2020年,GPT-3 用 few-shot 代替 zero-shot,并將訓練參數增加到 1750 億,再次提高模型表現性能。2022 年,InstructGPT 引入基于人類反饋的強化學習,實現了更符合人類預期的模型輸出。2022 年 11 月,OpenAI 正式推出對話交互式模型 ChatGPT,5 天時間突破了 100 萬用戶。2023 年 3 月,GPT-4問世,支持多模態輸入,并能高水準完成專業考試,支持 API。延伸:國內大模型快速成長,海外大模型多維拓展延伸:國內大模型快速成長,海外大模型多維拓
6、展 大模型時代到來,模型體系與生態快速擴充,海內外企業堅定發力。受益于大模型的理解能力、推理能力、泛化能力得到充分驗證,海內外企業紛紛加速大模型相關的產業布局,全面擁抱大模型時代的技術變革。1)國內:)國內:國內大模型發展起步相對較晚,ChatGPT 問世以來國內企業加速大模型研發,2023 年以百度文心、商湯日日新、訊飛星火等為代表的國產大模型相繼發布,并持續推進模型迭代升級;2)海外:)海外:海外大模型發展呈現垂直落地、工程實現、模態豐富三大發展趨勢,模型體系與配套的工程生態日益豐富。產業鏈產業鏈相關公司梳相關公司梳理理 以 GPT 為代表的大模型產業鏈可分為算力、模型、應用三個環節。1)
7、算力:)算力:包括寒武紀、景嘉微、海光信息等芯片廠商以及浪潮信息、中科曙光、工業富聯等服務器廠商;2)模型:)模型:包括百度、三六零、科大訊飛、昆侖萬維、商湯科技等科技企業;3)應用:)應用:2C 簡單包括金山辦公、科大訊飛、同花順、萬興科技、東方財富、漢儀股份、漢王科技、螢石網絡等企業;2B 簡單包括泛微網絡、致遠互聯、上海鋼聯、彩訊股份等企業;2C 復雜包括中望軟件、索辰科技、廣聯達等企業;2B 復雜包括恒生電子、石基信息、科大訊飛、漢王科技、金橋信息等企業。風險提示:宏觀經濟波動;大模型技術迭代不及預期;本報告內容基于客觀資料整理,不構成投資建議。(14)6264666May-22Sep
8、-22Jan-23May-23(%)計算機滬深300 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。2 計算機計算機 正文目錄正文目錄 大模型時代已來,大模型時代已來,AGI 新紀元開啟新紀元開啟.3 溯源:從經典神經網絡到溯源:從經典神經網絡到 Transformer 架構架構.4 深度學習是基于神經網絡的機器學習.4 關系梳理:人工智能機器學習深度學習.4 深度學習與神經網絡發展歷史(1943-2017).4 CNN:卷積+匯聚+全連接.5 RNN:具有短期記憶的神經網絡.7 LSTM:將短期記憶進一步延長.8 Transformer:基于自注意力機制的新興架構.9 發展:發
9、展:從從 GPT-1 到到 GPT-4,開啟大模型新紀元,開啟大模型新紀元.11 GPT-1:確定生成式預訓練模型基本路線.11 GPT-1:基于 Transformer 的預訓練+微調半監督模型.11 模型特點:無監督訓練+有監督微調.11 GPT-2:關注模型的零次學習 Zero-shot 能力.12 GPT-2:開啟“單模型解決多任務”新紀元,大容量技術路線確定.13 模型特點:多任務學習+大模型容量+無微調建模.13 GPT-3:模型參數達 1750 億,few-shot 進一步提高性能.15 模型特點:大參數量+大訓練集+few-shot.15 Codex:基于 GPT-3 的代碼生
10、成工具.18 ChatGPT/InstructGPT:增加人類反饋強化學習(RLHF).19 優化目標:從提示學習到指示學習,聚焦需求對齊(alignment).19 訓練過程:“三步走”實現人工反饋強化學習.20 GPT-4:多模態確認,在專業和學術上表現亮眼.21 GPT-4:支持多模態輸入,安全問題或成為 LLM 關注焦點.21 能力測試:在專業和學術基準上表現出了人類的水平.22 多模態:支持圖片輸入,未提供具體算法.23 延伸:國內大模型快速延伸:國內大模型快速成長,海外大模型多維拓展成長,海外大模型多維拓展.24 國內大模型快速成長,多類廠商競逐發力.24 百度:文心大模型 2 月
11、發布,新一代知識增強大語言模型.24 商湯科技:日日新大模型 4 月發布,加速邁進 AGI 時代.25 科大訊飛:星火大模型 5 月發布,AGI 核心能力表現出色.27 智源研究院:超大規?!拔虻馈蹦P?,構建完備大模型生態體系.28 海外大模型多維拓展,看好垂直落地、工程實現、模態豐富三大趨勢.30 垂直落地:BloombergGPT 提供構建垂直行業大模型的有益參考.30 工程實現:AutoGPT 充分展現大模型有望重塑人機交互范式.32 模態豐富:SAM 模型實現大模型在 CV 領域的模態延展.33 產業鏈相關公司梳理產業鏈相關公司梳理.35 風險提示.35 免責聲明和披露以及分析師聲明是
12、報告的一部分,請務必一起閱讀。3 計算機計算機 大模型時代已來,大模型時代已來,AGI 新紀元開啟新紀元開啟 Transformer 開啟開啟大語言模型發展大語言模型發展新時期,新時期,為人工通用智能鋪平了道路。為人工通用智能鋪平了道路。大語言模型(LLM)是在大量數據集上預訓練的巨大模型,且沒有針對特定任務調整數據,其在處理各種 NLP(自然語言處理)任務方面顯示出了較大潛力,如自然語言理解(NLU)、自然語言生成任務等,甚至為人工通用智能(AGI)鋪平了道路。而近年來的 LLM,基本都脫胎于 2017 年Google 提出的 Transformer 編解碼器架構,Transformer 開
13、啟了 LLM 發展的新時期?;诨?Transformer 架構的三條演進路線中,解碼器架構的三條演進路線中,解碼器路線路線發展最為迅速。發展最為迅速。從 LLM 近年的發展情況來看,其路線主要分為三種:1)編碼器路線;2)編解碼器路線;3)解碼器路線。從發展特點來看:1)解碼器路線占據主導,編碼器路線趨于落寞,歸因于 2020 年 GPT-3 模型表現出的優異性能;2)GPT 系列模型保持領先,或歸因于 OpenAI 對其解碼器技術道路的堅持;3)模型閉源逐漸成為頭部玩家的發展趨勢,這一趨勢同樣起源于 GPT-3 模型,而 Google 等公司也開始跟進;4)編解碼器路線仍然在持續發展,但
14、是在模型數量上少于解碼器路線,或歸因于其復雜的結構,導致其在工程實現上沒有明顯的優勢。國內百度、智源等公司和組織在大模型上有較深國內百度、智源等公司和組織在大模型上有較深厚的積累。厚的積累。百度的文心一言基于 ERNIE 系列模型,該模型最早于 2019 年提出,到 2021 年迭代到 ERNIE3.0 版本,技術路線也從最初的編碼器路線轉移到解碼器路線,性能提升明顯。智源研究院則依托于清華等高等學府及其研究成果,2021 年提出的 GLM 模型成為智源悟道大模型的重要技術基礎。據日經亞洲信息,微軟總裁布拉德認為智源是微軟、OpenAI 和 Google 重要競爭對手。圖表圖表1:大語言模型(
15、大語言模型(LLM)演化樹)演化樹 資料來源:Harnessing the Power of LLMs in Practice:A Survey on ChatGPT and Beyond,Yang Jingfeng(2023)、華泰研究 本部分將從神經網絡出發,梳理深度學習方法的發展情況,引出注意力機制與本部分將從神經網絡出發,梳理深度學習方法的發展情況,引出注意力機制與 Transformer架構,并對全球架構,并對全球 LLM 的典型代表的典型代表GPT 系列模型進行詳細拆解。此外,還將對國內快系列模型進行詳細拆解。此外,還將對國內快速發展的百度文心一言、速發展的百度文心一言、商湯科技日
16、日新、科大訊飛星火、商湯科技日日新、科大訊飛星火、智源悟道等大模型,以及大模智源悟道等大模型,以及大模型在金融垂直領域的重要應用型在金融垂直領域的重要應用 BloombergGPT 等進行詳細解析。等進行詳細解析。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。4 計算機計算機 溯源:溯源:從經典神經網絡到從經典神經網絡到 Transformer 架構架構 深度學習是基于神經網絡的機器學習深度學習是基于神經網絡的機器學習 深度學習深度學習可以概括為特征的抽象和結果的預測可以概括為特征的抽象和結果的預測。深度學習是將原始的數據特征通過多步的特征轉換得到一種更高層次、更抽象的特征表示,
17、并進一步輸入到預測函數得到最終結果。深度學習需要解決的關鍵問題是貢獻度分配問題(Credit Assignment Problem,CAP),即一個系統中不同的組件(component)或其參數對最終系統輸出結果的貢獻或影響。深度學習的目標是讓模型自動學習出好的特征表示,從而最終提升預測模型的準確率。圖表圖表2:深度學習的數據處理流程深度學習的數據處理流程 資料來源:神經網絡與深度學習(邱錫鵬),ISBN:9787111649687、華泰研究 關系梳理:人工智能關系梳理:人工智能機器學習機器學習深度學習深度學習 人工智能包括機器學習,機器學習包含深度學習。人工智能包括機器學習,機器學習包含深度
18、學習。人工智能(AI)的重要組成部分是機器學習(ML),而神經網絡(NN)是 ML 的一個子領域。深度學習可以看做是神經網絡的分支,使用了更復雜和更深層次的網絡結構,如卷積神經網絡(CNN),來處理更高維度和更抽象的數據,如圖像、聲音和文本。此外,逐漸興起的強化學習也是機器學習的一個分支。深度學習與強化學習可以相互結合,稱為深度強化學習(DRL)。圖表圖表3:人工智能人工智能、機器學習機器學習、深度學習深度學習關系梳理關系梳理 資料來源:The History Began from AlexNet:A Comprehensive Survey on Deep Learning Approach
19、es,Zahangir(2018)、Deep Reinforcement Learning,Yuxi Li(2017)、華泰研究 深度學習與神經網絡發展歷史(深度學習與神經網絡發展歷史(1943-2017)神經網絡誕生于神經網絡誕生于 1943 年,深度學習崛起于年,深度學習崛起于 2006 年。年。1943 年,心理學家 McCulloch 和數學家 Pitts 最早提出了一種基于簡單邏輯運算的人工神經網絡MP 模型,開啟了人工神經網絡研究的序幕。1986 年,Hinton 提出第二代神經網絡,并利用誤差的反向傳播算法來訓練模型,該算法對神經網絡的訓練具有重要意義。1989 年,Yann L
20、eCun 等提出卷積神經網絡(CNN)用來識別手寫體。1997 年,循環神經網絡(RNN)的改進型長短時記憶網絡(LSTM)被提出。2006 年,Hinton 首次提出了深度置信網絡(Deep Belief Network,DBN)和深度學習的概念。2014 年,生成對抗網絡(GAN)的提出是深度學習的又一突破性進展。2016 年,AlphaGo 擊敗圍棋世界冠軍李世石,將深度學習推向高潮。底層底層特征特征中層特征中層特征高層特征高層特征預測預測原始數據原始數據結果結果表示學習深度學習人工智能人工智能機器學習機器學習神經網絡神經網絡深度學習深度學習強化學習強化學習深度深度強化強化學習學習AIM
21、LDLRLDRL 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。5 計算機計算機 圖表圖表4:深度學習發展歷史深度學習發展歷史 注:最大圓圈表示深度學習熱度上升與下降的關鍵轉折點,實心小圈圈的大小表示深度學習的突破大小,斜向上的直線表示深度學習熱度正處于上升期,斜向下的直線表示下降期。資料來源:深度學習研究綜述,張榮(2018)、華泰研究 CNN:卷積:卷積+匯聚匯聚+全連接全連接 典型的卷積神經網絡是由卷積層、匯聚層、全連接層交叉堆疊而成。典型的卷積神經網絡是由卷積層、匯聚層、全連接層交叉堆疊而成。其中,一個卷積塊包括連續 M 個卷積層和 b 個匯聚層(M 通常設置為 25,b
22、 為 0 或 1)。一個卷積網絡中可以堆疊 N 個連續的卷積塊,然后在后面接著 K 個全連接層(N 的取值區間比較大,比如 1100或者更大;K 一般為 02)。CNN 能夠有效的將大數據量的圖片降維成小數據量,并有效的保留圖片特征。圖表圖表5:常用的卷積網絡整體結構常用的卷積網絡整體結構 資料來源:神經網絡與深度學習(邱錫鵬),ISBN:9787111649687、華泰研究 第一代神經網絡第一代神經網絡第二代神經網絡第二代神經網絡第三代神經網絡第三代神經網絡1943196919861998200619581989199720102011201220132014201520162017MP神經
23、元數學模型單層感知器Minsky專著感知器出版,支出單層感知器不能解決“異或回路”問題,且當時計算能力無法滿足神經網絡計算需求LSTMLeNetXavierReLUClarifaiDropoutAlexNetGoogleNetVGGNetR-CNNGANBNFaster R-CNNResNetWGANAlphaGoZeroCapsNetAlphaGoInfoGANJMTDCNGNMT淺層學習浪潮反向傳播算法萬能逼近定理卷積神經網絡深度信念網快速發展潮爆發期卷積卷積ReLU匯聚層匯聚層全連接層全連接層輸入輸入MbNb形象形象解釋解釋 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。6
24、 計算機計算機 卷積層利用卷積核實現特征提取。卷積層利用卷積核實現特征提取。卷積層的作用是提取局部區域的特征,不同的卷積核相當于不同的特征提取器,反之,提取不同的特征需要不同的卷積核。輸入原圖經過卷積核提取后,即得到特征映射(Feature Map),每個特征映射可以作為一類抽取的圖像特征。目前,卷積網絡的整體結構趨向于使用更小的卷積核(比如 11 和 33),以及更深的結構(比如層數大于 50)。圖表圖表6:卷積核用于特征提取卷積核用于特征提取 資料來源:神經網絡與深度學習(邱錫鵬),ISBN:9787111649687、華泰研究 每個卷積層后引入非線性激活函數,確保整個網絡的非線性。每個卷
25、積層后引入非線性激活函數,確保整個網絡的非線性。常用的激活函數為線性整流單元(Rectified Linear Unit,ReLU),其實質是將特征圖上所有負數變成 0,而正數保持不變。其他常用的激活函數還有 Sigmoid 函數、雙曲正切函數(tanh)。激活函數使得神經網絡模型具有非線性,從而可以表示非線性的函數,處理更加復雜的任務。圖表圖表7:常用的激活函數圖常用的激活函數圖 資料來源:神經網絡與深度學習(邱錫鵬),ISBN:9787111649687、easyAI、華泰研究 匯聚層進一步壓縮數據和參數量。匯聚層進一步壓縮數據和參數量。匯聚層(Pooling Layer)也叫子采樣層(S
26、ubsampling Layer)或池化層,其作用是進行特征選擇,降低特征數量,減少參數數量。典型的匯聚層是將每個特征映射劃分為 22 大小的不重疊區域,然后使用最大匯聚的方式進行下采樣,即用 22 區域的最大值代替整個區域的值。此外,還可以采用 22 區域的平均值來代替整個區域值。形形象象解解釋釋數數學學解解釋釋 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。7 計算機計算機 圖表圖表8:最大匯聚與平均匯聚示意圖最大匯聚與平均匯聚示意圖 資料來源:神經網絡與深度學習(邱錫鵬),ISBN:9787111649687、華泰研究 全連接層采用神經網絡中的前饋網絡結構。全連接層采用神經
27、網絡中的前饋網絡結構。將池化后的結果按順序排成一列,輸入全連接層。全連接層把相鄰兩層的神經元全部交叉相聯結,兩層之間所有神經元都有相應的權重,經計算后得到最終輸出結果。通常全連接層在卷積神經網絡尾部。圖表圖表9:全連接層示意圖全連接層示意圖 資料來源:神經網絡與深度學習(邱錫鵬),ISBN:9787111649687、華泰研究 卷積神經網絡參數卷積神經網絡參數可利用可利用誤差反向傳播誤差反向傳播算算法法來確定來確定。卷積神經網絡可以通過誤差反向傳播(Backpropagation)和梯度下降等算法進行參數學習,包括確定卷積核參數和全連接網絡權重等。RNN:具有短期記憶的神經網絡:具有短期記憶的
28、神經網絡 循環神經網絡(循環神經網絡(RNN)是一類具有短期記憶能力的神經網絡。)是一類具有短期記憶能力的神經網絡。在循環神經網絡中,神經元不但可以接受其他神經元的信息,也可以接受自身的歷史信息,形成具有環路的網絡結構。和前饋神經網絡相比,循環神經網絡更加符合生物神經網絡的結構。循環神經網絡的短期記憶能力提供了一定的存儲功能,因此其計算能力更為強大。理論上,循環神經網絡可以近似任意的非線性動力系統。最大匯聚最大匯聚(選取最大值)(選取最大值)平均平均匯聚匯聚(計算平均值)(計算平均值)4,3,0,1中中4最大,選取最大,選取4代表這個區域代表這個區域6,5,2,1平均值為平均值為3.5,選取,
29、選取3.5代表這個區域代表這個區域 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。8 計算機計算機 圖表圖表10:循環神經網絡引入了短期記憶功能循環神經網絡引入了短期記憶功能 資料來源:神經網絡與深度學習(邱錫鵬),ISBN:9787111649687、華泰研究 LSTM:將短期記憶進一步延長:將短期記憶進一步延長 LSTM 引入門控引入門控機制,解決機制,解決 RNN 的長程依賴問題。的長程依賴問題。循環神經網絡在學習過程中的主要問題是由于梯度消失或爆炸問題(也稱為長程依賴問題),可以簡單理解為參數無法正常更新(梯度變得很大或變為 0),很難建模長時間間隔狀態之間的依賴關系。長
30、短時記憶網絡(Long Short-term Memory,LSTM)引入門控機制,很好了解決了 RNN 的上述問題。LSTM 網絡特點在于新內部狀態和門控機制的引入。網絡特點在于新內部狀態和門控機制的引入。1)新的內部狀態:)新的內部狀態:與 RNN 相比,LSTM網絡引入一個新的內部狀態(internal state)ct,專門進行線性的循環信息傳遞。在每個時刻 t,LSTM 網絡的內部狀態 ct記錄了到當前時刻為止的歷史信息,相當于延長了網絡的記憶特性。2)門控機制:)門控機制:引入遺忘門、輸入門和輸出門。其中,遺忘門控制上一個時刻的內部狀態需要遺忘多少信息;輸入門控制當前時刻的候選狀態
31、有多少信息需要保存;輸出門控制當前時刻的內部狀態有多少信息需要輸出給外部狀態。參數訓練方面,雖然相比 RNN,LSTM 引入了更多參數矩陣,但依然可以使用梯度下降算法進行參數更新。圖表圖表11:LSTM 引入了新的內部狀態和門控機制引入了新的內部狀態和門控機制 資料來源:神經網絡與深度學習(邱錫鵬),ISBN:9787111649687、華泰研究 原理圖原理圖形象展示形象展示神經網絡在時間層神經網絡在時間層面建立起了聯系面建立起了聯系St-1StSt+1原原理理圖圖st-1stRNNLSTM形形象象展展示示在在RNN基礎上,增加了新的內部狀態變量基礎上,增加了新的內部狀態變量c,用來實現更長的
32、短時記憶,用來實現更長的短時記憶 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。9 計算機計算機 循環神經網絡的隱狀態循環神經網絡的隱狀態 s 為短期記憶,新內部狀態為短期記憶,新內部狀態 c 具有更長的記憶。具有更長的記憶。循環神經網絡中的隱狀態 s 存儲了歷史信息,可以看作一種記憶。在簡單循環網絡中,隱狀態每個時刻都會被重寫,因此是一種短期記憶。在神經網絡中,長期記憶可以看作網絡參數,隱含了從訓練數據中學到的經驗,其更新周期要遠遠慢于短期記憶。在 LSTM 網絡中,記憶單元 c 可以在某個時刻捕捉到某個關鍵信息,并有能力將此關鍵信息保存一定的時間間隔,其保存信息的生命周期要長
33、于短期記憶 s,但又遠遠短于長期記憶,因此稱為長(的)短期記憶。Transformer:基于自注意力機制的新興架構:基于自注意力機制的新興架構 Transformer 是一種基于是一種基于自自注意力機制的編碼器注意力機制的編碼器-解碼器解碼器深度學習深度學習模型模型。2017 年 6 月,Google Brain 在神經信息處理系統大會(NeurIPS)發表論文“Attention is all you need”,首次提出了基于自我注意力機制(self-attention)來提高訓練速度的 Transformer 模型,將其用于自然語言處理。Transformer 架構由編碼器和解碼器(En
34、coder-Decoder)兩個部分組成,每個部分包含多個子層,如多頭自注意力、前饋神經網絡、和歸一化等。Transformer架構的優點是:1)可以并行處理輸入序列的所有元素,大大提高訓練速度;2)不需要依賴循環或卷積結構,能夠捕捉長距離的依賴關系,3)可以通過預訓練和微調的方式適應不同的任務。因此,Transformer 一經問世便大有取代傳統 CNN、RNN 的趨勢。圖表圖表12:Transformer 模型中模型中的的 encoer-decoder 架構架構 圖表圖表13:Transformer 模型架構模型架構 資料來源:Attention is all you need,Ashis
35、h Vaswani(2017)、華泰研究 資料來源:Attention is all you need,Ashish Vaswani(2017)、華泰研究 自注意力機制是自注意力機制是 Transformer 的核心理念的核心理念,注意力機制注意力機制幫助機器在學習過程中聚焦在重要幫助機器在學習過程中聚焦在重要信息上。信息上。深度學習中的注意力機制從本質上講和人類的選擇性視覺注意力機制類似,核心目標是從眾多信息中選擇出對當前任務目標更關鍵的信息,忽略大多不重要的信息。編碼器編碼器編碼器編碼器編碼器編碼器編碼器編碼器編碼器編碼器編碼器編碼器解碼器解碼器解碼器解碼器解碼器解碼器解碼器解碼器解碼器解
36、碼器解碼器解碼器輸出輸出輸入輸入位置編碼位置編碼多頭自注意力多頭自注意力向量相加向量相加&歸一化歸一化前饋神經網絡前饋神經網絡向量相加向量相加&歸一化歸一化帶掩模的多頭自注意力層帶掩模的多頭自注意力層向量相加向量相加&歸一化歸一化多頭自注意力多頭自注意力向量相加向量相加&歸一化歸一化前饋神經網絡前饋神經網絡向量相加向量相加&歸一化歸一化線性化線性化歸一化指數函數歸一化指數函數位置編碼位置編碼輸入向量輸入向量輸出向量輸出向量輸出概率輸出概率 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。10 計算機計算機 圖表圖表14:人類的注意力機制(深色代表注意力聚焦點)人類的注意力機制(深色
37、代表注意力聚焦點)資料來源:CSDN、華泰研究 注意力模型可以用注意力模型可以用 Query、Key 和和 Value 模型模型進行描述。進行描述。本質上 Attention 機制是對 Source中元素的 Value 值進行加權求和,而 Query 和 Key 用來計算對應 Value 的權重系數。以大腦讀圖為例,Value 可以理解為人眼視網膜對整張圖片信息的原始捕捉,不受“注意力”所影響;Key 與 Value 相關聯(數據對),是圖片原始信息所對應的關鍵性提示信息;讀者大腦有意識地向圖片獲取信息,即發起了一次 Query,包含了讀者的意圖等信息。在一次讀圖過程中,Query 與 Key
38、 之間計算出每個 Key 對應 Value 的權重系數,得到最具有吸引力的部分,然后對 Value 進行加權求和,即得到了最終的 Attention Value 數值。圖表圖表15:Attention 機制的本質思想機制的本質思想 資料來源:CSDN、華泰研究 Transformer 的自注意力機制是特殊情況下的注意力機制。的自注意力機制是特殊情況下的注意力機制。在一般任務的 Encoder-Decoder 框架中,輸入 Source 和輸出 Target 內容是不一樣的,例如對于英-中機器翻譯來說,Source 是英文句子,Target 是對應的翻譯出的中文句子。注意力機制發生在 Targe
39、t的元素 Query 和 Source 中的所有元素之間。而自注意指的不是 Target 和 Source 之間的注意力機制,而是 Source 內部元素之間或者 Target 內部元素之間發生的注意力機制,也可以理解為 Target=Source 這種特殊情況下的注意力計算機制。具體計算過程相同,只是計算對象發生變化。自注意力機制更容易捕獲句子中長距離的相互依賴的特征,且對于增加自注意力機制更容易捕獲句子中長距離的相互依賴的特征,且對于增加計算的并行性也有直接幫助作用。計算的并行性也有直接幫助作用。SourceQueryAttentionValueKey1Key2Key3Key4Value1
40、Value2Value3Value4 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。11 計算機計算機 發展:發展:從從 GPT-1 到到 GPT-4,開啟大模型新紀元開啟大模型新紀元 GPT-1:確定生成式預訓練模型基本路線:確定生成式預訓練模型基本路線 GPT-1:基于:基于 Transformer 的預訓練的預訓練+微調半監督模型微調半監督模型 GPT-1 是預訓練是預訓練+微調相結合的語言理解任務半監督模型。微調相結合的語言理解任務半監督模型。GPT 全稱生成式預訓練(Generative Pre-training,GPT),于 2018 年 6 月由 OpenAI 在論
41、文 Improving Language Understanding by Generative Pre-Training 中提出。從架構上看,GPT-1 基于 Transformer架構,但是僅保留了架構中的解碼器(Decoder)部分。圖表圖表16:GPT-1 的架構的架構 資料來源:Improving Language Understanding by Generative Pre-Training,Alec Radford(2018)、華泰研究 模型特點:無監督訓練模型特點:無監督訓練+有監督微調有監督微調 GPT-1 的訓練過程分為無監督訓練和有監督微調。的訓練過程分為無監督訓練和有
42、監督微調。GPT-1 的訓練過程分為兩個階段:第一階段為非監督預訓練階段,即在大型文本語料庫上學習高容量語言模型。第二階段為監督微調階段,即在第一階段訓練的基礎上,將參數調整為受監督的目標任務,進行進一步優化。1)第一階段:)第一階段:采用多層 Transformer 模型的解碼器(Decoder)為語言模型,進行基于大文本語料庫的高容量無監督學習。2)第二階段:)第二階段:在微調時,若輸入的問題具有結構化特征,例如有序的句子對或文檔、問題和答案的三元組,則需要首先將問題轉化成特定的序列模塊,再進行訓練。例如,對于文本蘊涵任務,將前提和假設序列相連接,并在中間插入分隔符;對于相似性任務,則將兩
43、個需要比較的句子按照不同順序排列,分別進行處理后再做比較;對于更復雜的問題回答和常識推理任務,則需要將文本、問題和可能的答案分別連接成不同序列,并對所有序列做獨立的模型處理,將結果歸一化得到可能答案的輸出分布。Transformer架構架構GPT-1架構架構12Masked MultiSelf AttentionLayer Norm歸一化層Feed Forward前饋神經網絡Layer Norm歸一化層Text&Position Embed文本&位置 向量矩陣TaskClassifierTextPrediction+帶掩模自注意力層文本預測文本分類 免責聲明和披露以及分析師聲明是報告的一部分,
44、請務必一起閱讀。12 計算機計算機 圖表圖表17:GPT-1 架構以及用于微調不同任務的輸入轉換模塊架構以及用于微調不同任務的輸入轉換模塊 資料來源:Improving Language Understanding by Generative Pre-Training,Alec Radford(2018)、華泰研究 無監督訓練采用大數據集,有監督微調采用針對任務的數據集。無監督訓練采用大數據集,有監督微調采用針對任務的數據集。在無監督訓練階段,采用了 12 層解碼器(Decoder)堆疊的 Transformer 模型,共包含 12 個掩蔽自注意力頭(masked self-attention
45、 head)。訓練數據集方面,采用 BooksCorpus 數據集,該數據集包括 7000多本來自風格不同的未出版書籍,內含長段的連續文本。也可使用備選數據集 1B Word Benchmark。在無監督訓練階段,提高解碼器的層數能夠有效提高訓練效果。在有監督微調階段,可根據不同任務類型選擇不同的數據集。圖表圖表18:GPT-1 在有監督微調階段使用的部分數據集在有監督微調階段使用的部分數據集 任務任務 數據集數據集 自然語言推理 SNLI,MultiNLI,Question NLI,RTE,SciTail 問題解答 RACE,Story Cloze 句子相似性 MSR Paraphrase
46、Corpus,Quora Question Pairs,STS Benchmark 分類 Stanford Sentiment Treebank-2,CoLA 資料來源:Improving Language Understanding by Generative Pre-Training,Alec Radford(2018)、華泰研究 GPT-2:關注模型的零次學習關注模型的零次學習 Zero-shot 能力能力 理解理解 GPT 系列論文是我們理解系列論文是我們理解 GPT 模型技術路徑演繹的重要方法。模型技術路徑演繹的重要方法。GPT-2 論文的核心重點在于驗證是否可以通過更多的訓練數據+
47、更大的網絡參數讓模型具備零次學習(Zero-shot Learning)能力;即通過更廣泛學習+更強的學習能力,加速 GPT 從“專才”走向“通才”。實驗結果證明,當訓練數據足夠多、模型參數足夠大時,就可以通過訓練一個模型,處理多類任務;自此確立了 GPT 模型向更大容量演進的發展目標。圖表圖表19:GPT 模型演進路徑模型演進路徑 資料來源:OpenAI 官網、華泰研究 StartStartStartStartStartStartStartClassificationEntailmentSimilarityMultiple ChoiceTextPremiseText 1Text 2Conte
48、xtContextContextExtractDelimHypothesisExtractDelimExtractDelimExtractDelimAnswer 1ExtractDelimExtractDelimExtractText 1Text 2Answer 2Answer NTransformerTransformerTransformerTransformerTransformerTransformerTransformerLinearLinearLinearLinearLinearLinear分類任務推理任務相似性任務問答任務 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱
49、讀。13 計算機計算機 GPT-2:開啟“單模型解決多任務”新紀元,大容量技術路線確定:開啟“單模型解決多任務”新紀元,大容量技術路線確定 Language Models are Unsupervised Multitask Learners 論文發表,論文發表,GPT-2 開啟“一開啟“一個模型處理多類任務”的新時代。個模型處理多類任務”的新時代。GPT(Generative Pre-trained Transformer)系列預訓練語言模型,早在 2018 年在論文Improving Language Understanding by Generative Pre-Training 中被提
50、出,初代 GPT-1 模型驗證了“通過無監督預訓練,針對特定任務微調,處理有監督任務”模型的有效性。2019 年 2 月,論文 Language Models are Unsupervised Multitask Learners正式發表,基于“無監督學習的全局最小也必定是監督學習的全局最小”的理論基礎,GPT-2 模型去掉 fine-tune 層,不再針對不同任務分別進行微調建模,而是通過使用更多的網絡參數和更大的數據集來強化模型的泛化能力。GPT-2 模型成功驗證了更多訓練數據模型成功驗證了更多訓練數據+更大的網絡參數可以有效地提升模型的泛化能力,實更大的網絡參數可以有效地提升模型的泛化能
51、力,實現了“訓練一個模型可以解決多類任務”的效果,不再需要針對不同任務進行模型微調?,F了“訓練一個模型可以解決多類任務”的效果,不再需要針對不同任務進行模型微調。GPT-2 的成功自此開啟了的成功自此開啟了 GPT 模型向更大容量擴模型向更大容量擴展的技術發展路徑。展的技術發展路徑。圖表圖表20:Language Models are Unsupervised Multitask Learners論文開啟論文開啟 GPT-2 時代時代 資料來源:Language Models are Unsupervised Multitask Learners,Alee Radford(2019)、華泰研究
52、 模型特點:多任務學習模型特點:多任務學習+大模型容量大模型容量+無微調建模無微調建模 特點一:預訓練階段采用多任務學習方式特點一:預訓練階段采用多任務學習方式 GPT-2 在預訓練階段采用多任務學習方式。在預訓練階段采用多任務學習方式。不同于單任務學習,單次僅針對一個任務學習,以及模型參數獨立的特點;多任務學習,單次可同時學習多個任務,同時各個任務之間的模型參數共享,可以實現已學習信息的共享、補充,有效提升了模型的學習效率。圖表圖表21:GPT-2 預訓練采用多任務學習方式預訓練采用多任務學習方式 資料來源:Modeling Task Relationships in Multi-task
53、Learning with Multi-gate Mixture-of-Experts,Alex Kendall(2017)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。14 計算機計算機 多任務學習有效防止模型過擬合,提升模型的泛化能力。多任務學習有效防止模型過擬合,提升模型的泛化能力。為理解多任務學習對模型泛化能力的提升,首先需要明晰噪音、過擬合、泛化這幾個概念。1)噪音:)噪音:任務學習過程不相關的信息為噪音;2)過擬合:)過擬合:訓練出來的模型在訓練集上表現很好,但是在測試集上表現較差的一種現象;3)泛化:)泛化:模型對新測試集(之前沒見過的數據)的適應能力。
54、三者之間的聯系是,當把噪聲作為有效信息或訓練數據集較小時,容易導致模型過擬合,模型過擬合導致模型的泛化能力變差。多任務學習提升模型泛化能力的原因主要有三點:1)訓練數據集更大;2)多任務之間有一定相關性,多任務學習相當于隱式數據增強;3)多任務學習的共享模塊需要兼顧所有任務,一定程度避免了模型過擬合到單個任務的訓練集。圖表圖表22:多任務學習可有效提升模型的泛化能力多任務學習可有效提升模型的泛化能力 資料來源:神經網絡與深度學習,邱錫鵬(2020)、華泰研究 特點二:特點二:GPT-2 擁有較大的模型容量擁有較大的模型容量 GPT-2 最大模型(最大模型(GPT-2 EXTRA LARGE)的
55、層數達到)的層數達到 48 層,詞向量長度到層,詞向量長度到 1,600。1)層數:層數:理解層數對 GPT 模型的影響,需要理解 GPT 的模型架構。GPT 模型由層層堆疊的Transformer 模塊組成,因此可以理解為模型層數越多,模型可以完成的非線性映射就越復雜,模型的學習能力更強;2)詞向量長度:)詞向量長度:詞向量長度即隱藏層的神經元個數,每一層Transformer 都是一個隱藏層,隱藏層的神經元個數越多,即可以產生越復雜的組合,擬合越復雜的情況,解決越復雜的問題,計算量也隨之越來越大。GPT-2 論文(Language Models are Unsupervised Multi
56、task Learners)提及四種規模的 GPT-2 模型,GPT-2 的模型層數最多為 48 層,詞向量長度(隱藏層維度)最大為 1,600,模型的最大參數量多達 15 億。圖表圖表23:GPT-2 模型層數最大達模型層數最大達 48、詞向量長度最大達、詞向量長度最大達 1,600 資料來源:Language Models are Unsupervised Multitask Learners,Alee Radford(2019)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。15 計算機計算機 特點三:特點三:GPT-2 取消取消 fine-tune 微調建模層微
57、調建模層 GPT-2 旨在“訓練一個模型,解決多類任務”,因此取消旨在“訓練一個模型,解決多類任務”,因此取消 fine-tune 微調建模層。微調建模層。GPT-2 聚焦模型的泛化能力,旨在通過多任務學習訓練一個模型,訓練好的這一個模型可以解決多類任務,無需再根據特定任務進行模型微調。因此,GPT-2 模型在訓練任務中取消了fine-tune 任務,只保留了語言模型部分的訓練,同時將諸多下游任務根據各自的特點,規劃成語言模型的訓練,使得最終的語言模型學到的東西更豐富,擁有更多樣的應用,奠定了模型的 Zero-shot Learning(零次學習)的基礎。圖表圖表24:GPT-1 四類任務微調
58、建模示意圖四類任務微調建模示意圖 資料來源:Improving Language Understandingby Generative Pre-Training,Alee Radford(2018)、華泰研究 GPT-3:模型參數達:模型參數達 1750 億,億,few-shot 進一步提高性能進一步提高性能 GPT-3 將訓練參數量擴大到將訓練參數量擴大到 1750 億。億。2020 年 5 月,OpenAI 發表論文Language Models are Few-Shot Learners,提出 GPT-3 模型。GPT-3 模型的參數量達 1750 億,是 GPT 史上最大的參數規模。在
59、 GPT-2 的 zero-shot learning(零次學習)基礎上,GPT-3在 zero-shot、one-shot(一次學習)和 few-shot(少量學習,通常 10-100 次)方面均進行了評估,取得了較好的訓練結果:例如,GPT-3 在 zero/one/few-shot 設置下 CoQA(測試閱讀理解能力)分別達到 81.5、84.0、85.0F1(F1 分數是統計學中用來衡量二分類模型精確度的一種指標,值越大意味著模型越好);在在 zero/one/few-shot 設置下 TriviaQA(測試閉卷問答能力)分別達到 64.3%、68.0%、71.2%的準確度,部分結果甚
60、至超過微調模型。OpenAI 指出,GPT-3 也可以在傳統的微調設置中進行評估。GPT-3 模型延續了模型延續了 GPT-2 模型“更多訓練數據模型“更多訓練數據+更大的網絡參數可以有效地提升模型的泛更大的網絡參數可以有效地提升模型的泛化能力”的理念,將模型參數提升到新高度。同時與化能力”的理念,將模型參數提升到新高度。同時與 GPT-2 一樣舍棄了針對不同任務進行一樣舍棄了針對不同任務進行的微調,轉而用的微調,轉而用 few-shot 來實現下游任務,兼顧了訓練效果與成本。來實現下游任務,兼顧了訓練效果與成本。模型特點:大參數量模型特點:大參數量+大訓練集大訓練集+few-shot 特點一
61、:架構基本不變,參數量大大增加特點一:架構基本不變,參數量大大增加 GPT-3 延續了延續了 GPT-2 的大容量發展路線。的大容量發展路線。GPT-2 已經證明,通過更多的訓練數據+更大的網絡參數能夠讓模型具備 zero-shot 學習能力,并取得了一定的效果,由此確立了 GPT 模型向更大容量演進的發展路線。GPT-3 延續了這一路線,將模型參數由 GPT-2 的 15 億增加到 1750 億,提升幅度超 100 倍。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。16 計算機計算機 圖表圖表25:GPT 模型演進路徑模型演進路徑GPT-3 資料來源:OpenAI 官網、華泰研
62、究 大訓練參數能明顯提高大訓練參數能明顯提高 GPT-3 模型準確性。模型準確性。從上下文學習能力訓練結果準確率來看,對于GPT-3 模型,當模型參數量較低時,模型準確率較低,例如參數量 1.3B 的模型準確率不超過 10%。當模型參數提升 10 倍至 13B 時,最高準確率接近 30%。當模型參數達到最大 175B時,準確率最高接近 70%,進一步驗證了 GPT-2 大容量路線的正確性。圖表圖表26:大訓練參數顯著提高大訓練參數顯著提高 GPT-3 準確率準確率 資料來源:Language Models are Few-Shot Learners,Tom Brown(2020)、華泰研究 G
63、PT-3 和和 GPT2 采用幾乎同樣的架構。采用幾乎同樣的架構。GPT-3 和 GPT-2 模型和架構基本相同,包括修改后的初始化、預歸一化和可逆標記化,唯一區別在于將 transformer 中注意力模式替換成了類似 Sparse Transformer 的稀疏注意力模式。圖表圖表27:GPT-3 采用和采用和 GPT-2 同樣的架構同樣的架構 資料來源:Language Models are Few-Shot Learners,Tom Brown(2020)、華泰研究 GPT-1GPT-2GPT-3GPT-3模型基于模型基于GPT-2的大容量路線,進一步將模型的大容量路線,進一步將模型參
64、數擴大超參數擴大超100倍,達倍,達1750億,大容量擴展的技術發億,大容量擴展的技術發展路徑達到頂峰展路徑達到頂峰1.17億參數量5GB預訓練數據量15億參數量40GB預訓練數據量1750億參數量大于570GB預訓練數據量 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。17 計算機計算機 特點二:采用特點二:采用 few-shot 學習完成下游任務學習完成下游任務 Few-shot 取代取代 zero-shot,訓練效果得到進一步加強。,訓練效果得到進一步加強。GPT-2 模型中,在下游訓練時采用zero-shot 學習理念,在執行各類子任務時不給任何樣例,屬于較為極端的情況。
65、雖然在GPT-2 在某些測試中取得了不錯的效果,但在一些任務上結果不達預期。因此,OpenAI引入了 few-shot,即對于特定任務僅給予少量的樣例(10-100 個),沒有任何梯度更新或微調,任務和 few-shot 示例均通過與模型的文本交互指定。從多種訓練基準綜合訓練結果來看,few-shot 能夠取得比 zero-shot 更好的準確度。圖表圖表28:Zero-shot、one-shot 和和 few-shot 隨著模型參數增加準確度越來越高隨著模型參數增加準確度越來越高 注:圖中為多種訓練基準綜合的結果 資料來源:Language Models are Few-Shot Learn
66、ers,Tom Brown(2020)、華泰研究 特點三:預訓練數據集達特點三:預訓練數據集達 570GB 以上以上 GPT-3訓練數據集為多種數據集的混合。訓練數據集為多種數據集的混合。數據集以Common Crawl為基礎,其大小為45TB。但 Common Crawl 數據集的質量低于更精確的數據集,為了保證數據集質量,一方面對Common Crawl 進行過濾,大小壓縮到 570GB,另一方面增加了質量更高的數據集,如WebText2、Wikipedia 等。在訓練期間,數據集的采樣并不與其大小成比例,而是質量更高的數據集采樣頻率更高,因此 CommonCrawl 和 Books2 數
67、據集在訓練期間采樣次數少于一次,其他更高質量的數據集采樣次數為 2-3 次,以換取更高質量的訓練數據。比較來看,GPT-1和GPT-2的訓練書籍及大小分別為5GB和40GB,GPT-3數據集大小超GPT-210倍以上。圖表圖表29:GPT-3 訓練數據集組合訓練數據集組合 資料來源:Language Models are Few-Shot Learners,Tom Brown(2020)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。18 計算機計算機 Codex:基于:基于 GPT-3 的代碼生成工具的代碼生成工具 Codex 是在是在 GPT-3 上基于上基于 Gi
68、tHub 公開代碼進行微調的代碼生成模型。公開代碼進行微調的代碼生成模型。Codex 的模型結構和 GPT-3 相同。OpenAI 從 Github 上搜集了 5400 萬個公共軟件庫代碼,集合而成訓練數據集,包含 179GB 的 Python 文件,每個文件小于 1MB。同時過濾了部分可能是自動生成的文件,最終的數據集大小為 159GB。Codex 即是參數量 12B 的 GPT-3 基于該數據集微調得到的模型。在進行模型評估時,OpenAI 構造了 HumanEval 數據集,包含 164 原創的、手工設計的編程問題,避免問題出現在基于 GitHub 的訓練數據集中。OpenAI還訓練了還
69、訓練了Codex-S和和Codex-D。Codex-S基于格式類似HumanEval的Supervised Fine-Tuning(有監督微調)數據集進行訓練,訓練出的模型效果比 Codex 更好。將Supervised Fine-Tuning 數據集中的“”格式調換成“”格式,再微調得到的模型為 Codex-D,即實現模型根據代碼寫注釋的功能。圖表圖表30:Codex 模型家族圖譜模型家族圖譜 資料來源:Evaluating Large Language Models Trained on Code,Mark Chen(2021)、華泰研究 與類似的代碼生成模型相比,與類似的代碼生成模型相比
70、,120 億參數的億參數的 Codex 準確率最高可達準確率最高可達 72.31%?;贖umanEval 評估數據集,對比了 GPT-NEO、GPT-J、Tabnine 等類似的代碼生成模型的結果 Passk(可以解釋為評估k個樣本中最優的結果)。Codex的最大版本擁有 120億參數,其 Pass100 達到了 72.31%,遠大于其余模型的最好結果。圖表圖表31:120 億參數的億參數的 Codex 準確率最高可達準確率最高可達 72.31%注:k 代表每個問題生成 k 個代碼樣本 資料來源:Evaluating Large Language Models Trained on Code
71、,Mark Chen(2021)、華泰研究 GPT-3120億參數億參數CodeXCodeX-D159GB的代碼的代碼數數據集據集進行訓練進行訓練基于格式基于格式類似類似HumanEval的的Supervised Fine-Tuning數據數據集進行訓練集進行訓練CodeX-S1 12 23 31 12 23 3將將Supervised Fine-Tuning數據集數據集中的“中的“”格式調換成“格式調換成“”格式格式 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。19 計算機計算機 ChatGPT/InstructGPT:增加人類反饋強化學習(:增加人類反饋強化學習(RLHF)
72、優化目標:從提示學習到指示學習,聚焦需求對齊(優化目標:從提示學習到指示學習,聚焦需求對齊(alignment)從模型微調到提示學習再到指示學習,從模型微調到提示學習再到指示學習,GPT 模型零次學習能力不斷提升。模型零次學習能力不斷提升。2022 年論文Finetuned Language Models Are Zero-Shot Learners 提出指示學習(Instruction-tuning)思想,以提升模型的零次學習能力。對比來看:1)模型微調()模型微調(Fine-tuning):):以 GPT-1為代表,需要大量的微調數據集樣本,特定模型解決特定任務;2)提示學習)提示學習(P
73、rompt-learning):):以 GPT-3 為代表,需要少量的微調數據樣本,模型小樣本學習(few-shot Learning)能力更強;3)指示學習()指示學習(Instruction-learning):):以FLAN、InstructGPT、ChatGPT 為代表,模型通過下游多類型任務的指示微調,零次學習(zero-shot Learning)能力更強;同時,提示學習與指示學習均為一個模型解決多類任務。圖表圖表32:模型微調(模型微調(Fine-tuning)、提示學習()、提示學習(Prompt-learning)、指示學習()、指示學習(Instruction-tuning
74、)對比)對比 資料來源:Finetuned Language Models are Zero-shot Learners,Jason Wei(2022)、華泰研究 聚焦模型輸出與人類需求對齊,引入人類反饋強化學習。聚焦模型輸出與人類需求對齊,引入人類反饋強化學習。GPT 系列模型發展至 GPT-3,已經在翻譯、問答、摘要等任務上取得了良好的性能,研究者開始更加關注模型生成內容的有用性(Helpful)、真實性(Honest)、無害性(Harmless),希望實現模型輸出內容與人類偏好內容的需求對齊(alignment)。為提升模型的“3H”特性,從 InstructGPT 開始,Instruc
75、tGPT、ChatGPT 均引入人類反饋強化學習(Reinforcement Learning from Human Feedback,RLHF),實現基于人類反饋的模型微調,讓模型輸出更符合人類期待。圖表圖表33:InstructGPT 的“的“3H”優化目標”優化目標 資料來源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。20 計算機計算機 人類反饋可作為強化學習的獎勵,通過引入語言模型微調,可
76、使模型輸出與人類需求對齊。人類反饋可作為強化學習的獎勵,通過引入語言模型微調,可使模型輸出與人類需求對齊。從技術原理來看,強化學習通過獎勵(Reward)機制來指導模型訓練,獎勵機制可視為傳統訓練機制的損失函數;同時,獎勵的計算要比損失函數更靈活、多樣(例如 AlphaGO 的獎勵是對局的勝負),代價是獎勵計算不可導,不能直接用來做反向傳播;強化學習的思路是通過對獎勵的大量采樣來擬合損失函數,從而實現模型的訓練。類似的,人類反饋也不類似的,人類反饋也不可導,也可以作為強化學習的獎勵,從而產生基于人類反饋的強化學習??蓪?,也可以作為強化學習的獎勵,從而產生基于人類反饋的強化學習。圖表圖表34:人
77、類反饋強化學習(人類反饋強化學習(RLHF)基本原理)基本原理 資料來源:Deep Reinforcement Learning from Human Preferences,Paul F Christiano(2017)、華泰研究 訓練過程:“三步走”實現人工反饋強化學習訓練過程:“三步走”實現人工反饋強化學習 ChatGPT 與與 InstructGPT 的訓練方法基本一致。的訓練方法基本一致。了解 ChatGPT 與 InstructGPT 的優化目標之后,我們需要進一步梳理模型的具體訓練過程。對比論文Training language models to follow instruct
78、ions with human feedback(2022)中的 InstructGPT 訓練方法與 OpenAI官方發布的ChatGPT訓練方法,我們看到,ChatGPT與InstructGPT的訓練方法基本一致,區別在于InstructGPT、ChatGPT分別基于GPT-3、GPT-3.5進行模型微調??紤]到ChatGPT尚未有官方論文發布,我們以 InstructGPT 論文為基準,對 InstructGPT 的訓練過程進行了詳細梳理,具體可分為有監督微調、獎勵模型訓練、PPO 強化學習三個步驟。圖表圖表35:ChatGPT 與與 InstructGPT 的訓練方法基本一致的訓練方法基
79、本一致 注:圖中藍色部分為 InstructGPT 訓練示意、粉色部分為 ChatGPT 訓練示意 資料來源:OpenAI 官網、Training language models to follow instructions with human feedback,Long Ouyang(2022)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。21 計算機計算機 GPT-4:多模態確認,在專業和學術上表現亮眼:多模態確認,在專業和學術上表現亮眼 GPT-4:支持多模態輸入,安全問題或成為:支持多模態輸入,安全問題或成為 LLM 關注焦點關注焦點 GPT-4 支持多模態
80、輸入,安全問題或成關注焦點。支持多模態輸入,安全問題或成關注焦點。北京時間 3 月 15 日凌晨,OpenAI 召開發布會,正式宣布 GPT 模型家族中最新的大型語言模型(LLM)GPT-4。GPT-4 可以接受圖像和文本輸入并產生文本輸出。同時,OpenAI 發布了 GPT-4 相關技術文檔。從技術文檔結構看,OpenAI 并未對 GPT-4 模型本身做過多介紹,而是將大量篇幅留給模型安全性相關討論。我們認為,在 LLM 走向大規模應用的過程中,隨著模型規模和能力的提升,將暴露出更多安全方面的問題,或將成為未來 LLM 的重要關注點。GPT-4 于于 2022 年年 8 月完成訓練,技術細節
81、未完全公布。月完成訓練,技術細節未完全公布。據 GPT-4 技術文檔,GPT-4 于 2022年 8 月完成訓練,此后,OpenAI 一直在評估、對抗性測試并迭代和改進模型,并提出各種系統級安全緩解措施。此外,OpenAI 在 GPT-4 文檔中明確提出,考慮到競爭格局和大型模型(如 GPT-4)的安全影響,本文檔沒有包含有關架構(包括模型大?。?、硬件、訓練計算、數據集構造、訓練方法或類似內容的進一步細節。文檔明確提供的內容包括:1)GPT-4是一個基于 transformer 的預訓練模型,用于預測文字的下一個 token;2)使用公開可用數據(如互聯網數據)和第三方提供商授權的數據;3)使
82、用來自人類反饋的強化學習(RLHF)對模型進行微調。圖表圖表36:OpenAI 關于不透露技術細節的說明關于不透露技術細節的說明 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 GPT-4 API 已開放等待列表(已開放等待列表(waitlist),),API 價格提升明顯。價格提升明顯。當獲得訪問權限后,即可以對GPT-4 模型進行純文本請求(圖像輸入仍然處于有限的測試階段),OpenAI 將自動將模型更新為推薦的穩定模型。此外,GPT-4 提供兩個版本,GPT-4-8k 和 GPT-4-32k,前者支持的上下文長度為 8192 個 token,后
83、者支持 32768-context(約 50 頁文本,提供有限訪問)。GPT-4-8k 定價為每 1k 提示 token 0.03 美元,每 1k 完成 token 0.06 美元。默認速率限制為每分鐘 40k 個 token,每分鐘 200 個請求;GPT-4-32k 定價為每 1k 提示 token 0.06 美元,每 1k 完成 token 0.12 美元。(API 價格網址 https:/ API 和和 GPT-3.5-turbo API 價格對比價格對比 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 GPT-4 API 價格價格GPT-3
84、.5 API 價格價格 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。22 計算機計算機 能力測試:在專業和學術基準上表現出了人類的水平能力測試:在專業和學術基準上表現出了人類的水平 GPT-4 在各種專業和學術基準上表現出了人類的水平在各種專業和學術基準上表現出了人類的水平。OpenAI 在一系列不同的基準上測試了 GPT-4,包括最初為人類設計的模擬考試??荚囶}目包括多項選擇題和自由問答題。OpenAI 為每種考試形式設計了單獨的提示(prompt),并且在需要的場合增加了圖像輸入。GPT-4 并未專門針對這些考試科目進行訓練,但仍取得了優秀的成績,例如以大約前 10%的成績
85、通過模擬律師資格考試,而 GPT-3.5 在該考試中成績為后 10%。圖表圖表38:GPT-4 在各種人類考試中表現優異在各種人類考試中表現優異 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 GPT-4 在大多數語言上的結果都優于在大多數語言上的結果都優于 GPT 3.5 和現有語言模型。和現有語言模型?,F有的多數機器學習測試基準都是基于英語編寫的。為了測試 GPT-4 在其他語言中的表現,OpenAI 使用 Azure Translate 將 MMLU 基準測試(涵蓋 57 個主題的多項選擇問題)翻譯成各種語言。結果表明,GPT-4 在大多數語言
86、上的結果都優于 GPT 3.5 和現有語言模型的英語語言性能,包括全球使用人數較低的語言,如拉脫維亞語、威爾士語和斯瓦希里語。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。23 計算機計算機 圖表圖表39:GPT-4 在大多數語言上的結果都優于在大多數語言上的結果都優于 GPT 3.5 和現有語言模型和現有語言模型 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 多模態:支持圖片輸入,未提供具體算法多模態:支持圖片輸入,未提供具體算法 GPT-4 能夠實現圖片和文本的多模態輸入。能夠實現圖片和文本的多模態輸入。GPT-4 接受由圖像和文
87、本組成的提示(prompt,與純文本設置類似),允許用戶指定任何視覺或語言任務,同時輸出文本信息。此外,語言模型中的 few-shot 提示和思維鏈等,在 GPT-4 中同樣有效。但是,OpenAI 未在技術文檔中給出如何實現圖片的輸入,以及如何對圖片進一步處理以注入到模型中。圖表圖表40:GPT-4 視覺輸入樣例視覺輸入樣例 資料來源:GPT-4 Technical Report,OpenAI(2023)、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。24 計算機計算機 延伸:國內大模型快速成長,海外大模型延伸:國內大模型快速成長,海外大模型多維多維拓展拓展 大模型時
88、代到來,模型體系與生態快速擴充,海內外企業堅定發力。大模型時代到來,模型體系與生態快速擴充,海內外企業堅定發力。受益于 ChatGPT 的成功問世,大模型的理解能力、推理能力、泛化能力得到充分驗證,海內外企業紛紛加速大模型相關的產業布局,全面擁抱大模型時代的技術變革。1)國內:)國內:國內大模型發展起步相對較晚,ChatGPT 問世以來國內企業加速模型研發,2023 年以百度文心、阿里通義、訊飛星火等為代表的國產大模型相繼發布,并持續推進模型迭代升級;2)海外:)海外:海外大模型發展呈現垂直落地、工程實現、模態豐富三大發展趨勢,模型體系與配套的工程生態日益豐富。國內大模型快速成長國內大模型快速
89、成長,多類廠商多類廠商競逐發力競逐發力 國內大模型發展起步相對較晚,國內大模型發展起步相對較晚,模型能力模型能力呈現快速優化態勢。呈現快速優化態勢。目前國內布局通用大模型的企業主要包括互聯網科技企業、人工智能企業、初創研究團隊等三類。1)互聯網科技企業:)互聯網科技企業:主要包括百度、三六零、阿里、騰訊、華為、昆侖萬維等科技企業,作為互聯網行業的成熟公司,此類參與者在人工智能領域擁有深厚的業務積累,同時在模型訓練上掌握一定的基礎性優勢(算力資源、語料資源);2)人工智能企業:)人工智能企業:包括商湯、科大訊飛等人工智能企業,作為 AI 領域的垂直深耕者,此類參與者對于大模型的理解、訓練、優化具
90、備更加垂直的行業 Know-How;3)初創研究團隊:)初創研究團隊:包括北京智源研究院、Minimax 等研究型機構/企業,此類參與者垂直聚焦大模型相關技術的研究,業務專注度更高。百度:百度:文心大模型文心大模型 2 月發布,月發布,新一代知識增強大語言模型新一代知識增強大語言模型 百度發布了其新一代知識增強大語言模型百度發布了其新一代知識增強大語言模型文心一言。文心一言。2023 年 3 月 16 日,百度召開了文心一言發布會,發布了其最新的知識增強型大語言模型文心一言。從演示效果看,文心一言一定程度上具備了人類對自然語言的理解、表達和推理能力,并且在涉及中文理解和中華傳統文化的理解上有相
91、對優于 GPT 等國外模型的優勢。針對文心一言,發布會提出了5 種應用場景、6 個關鍵技術、1 個技術堆棧和 3 大產業機會。目前,文心一言已開放個人測試資格排隊申請和企業 API 申請。文心一言在文學和商業文案創作、數理邏輯推算、中文理解、多模態生成領域均有應用。文心一言在文學和商業文案創作、數理邏輯推算、中文理解、多模態生成領域均有應用。整體來看,文心一言已經具備了較好的自然語言的理解、表達和推理能力,是多領域“通才”。我們使用發布會上展示的各場景下的問題,對 ChatGPT(基于 GPT-3.5)和微軟新Bing(基于 GPT-4)進行了同樣的提問,并將結果進行了對比(說明:由國外同事代
92、為測試)??梢园l現,文心一言在對中國傳統文化的理解上更加深入,中文支持效果更好。文心一言基于百度文心一言基于百度 ERNIE 和和 PLATO 模型,并在訓練技術上進行了創新。模型,并在訓練技術上進行了創新。從文心一言架構圖看,底層以 ERNIE 和 PLATO 模型為基礎,在訓練中引入了大模型常用技術:有監督精調(fine-tuning)、基于人類反饋的強化學習(RLHF)和模型提示(prompt),以及百度創新的技術:知識增強、檢索增強和對話增強。圖表圖表41:文心一言架構圖文心一言架構圖 資料來源:文心一言發布會、華泰研究 文心一言文心一言知識增強知識增強檢索檢索增強增強對話對話增強增強
93、有監督精調有監督精調人類反饋強化學習人類反饋強化學習提示提示ERNIEPLATO 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。25 計算機計算機 百度百度 ERNIE 模型有近模型有近 4 年的迭代史,獲得多個年的迭代史,獲得多個 SOTA 結果。結果。最早的 ERNIE 1.0 是百度在2019 年 3 月提出的,該模型基于谷歌 BERT 模型,引入了真實世界的語義知識,增強了模型的語義表示能力。2019 年 7 月 ERNIE 2.0 問世,引入了持續學習和多任務學習概念,在16 個中英文數據集上獲得 SOTA(state-of-the-art,目前最好的意思)結果。202
94、1 年 7 月,ERNIE 3.0 問世,提出了多范式統一預訓練框架,將自回歸和自編碼網絡進行了融合,并在訓練時加入了知識圖譜類數據,在 SuperGLUE 測試基準上獲得 SOTA 結果。圖表圖表42:ERNIE 1.03.0 技術變化情況技術變化情況 資料來源:文心大模型官網、華泰研究 商湯科技:日日新大模型商湯科技:日日新大模型 4 月發布,月發布,加速邁進加速邁進 AGI 時代時代 商湯科技作為最大商湯科技作為最大 AI 軟件公司,加速實現從軟件公司,加速實現從 AIaaS 到到 MaaS 跨越??缭?。商湯科技成立于 2014年,于 2015 年開始研發深度學習訓練框架 SensePa
95、rrots,而后形成企業服務、城市管理、消費者、汽車四大應用領域的 AI 平臺布局;公司自 2019 年起發布首個 CV 大模型,搭建了 NLP、CV、多模態在內的多模態大模型體系;2023 年 4 月,公司正式發布日日新(SenseNova)系列大模型,有望實現從 AIaaS(人工智能即服務)到 MaaS(模型即服務)的業務跨越,加速開啟通用人工智能(AGI)的新時代。商湯日日新基于大模型體系發布商量、秒畫、如影、格物、瓊宇、明眸六大商湯日日新基于大模型體系發布商量、秒畫、如影、格物、瓊宇、明眸六大 AI 應用。應用。其中商量 SenseChat 底層對應商湯 NLP 模型;秒畫 Sense
96、Mirage、如影 SenseAvatar、瓊宇SenseSpace、格物 SenseThings 底層對應商湯 AIGC 模型;明眸數據標注平臺底層對應商湯 CV、多模態模型。圖表圖表43:商湯科技大模型發展情況概覽商湯科技大模型發展情況概覽 資料來源:商湯科技官網、華泰研究 編碼器編碼器編碼器BERT 層數:12 隱藏層神經元數:768 參數量:1.1億自編碼模型自編碼模型通過建模詞、實體及實體關系,學習真實世界的語真實世界的語義知識義知識直接對先驗語義知識單元進行建模,增強了模型語模型語義表示能力義表示能力訓練數據方面,除百科類、資訊類中文語料外,ERNIE還引入了論壇對話論壇對話類數據
97、類數據預訓練任務預訓練任務ERNIE1.0與與BERT一致一致ERNIE 1.02019.32018.10基于持續學習持續學習的語義理解預訓練框架使用多任務學習多任務學習增量式構建預訓練任務ERNIE 2.02019.7BERT:Pre-training of Deep Bidirectional Transformers for Language UnderstandingERNIE:Enhanced Representation through Knowledge IntegrationERNIE 2.0:A Continual Pre-training Framework for Lan
98、guage Understanding 多范式多范式統一預訓練框架,自回歸和自編碼網絡自回歸和自編碼網絡被創新型地融合在一起進行預訓練訓練時大規模引入知識圖知識圖譜類數據譜類數據ERNIE 3.02021.7ERNIE 3.0:Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。26 計算機計算機 1)NLP 模型模型:商湯基于自研 1,800 億中文大語言模型打造的商量 SenseChat 對話應用,在中文文本的理
99、解上具有突出優勢,支持問答、理解與生成等中文語言能力,可實現多輪對話、邏輯推理、語言糾錯、內容創作、情感分析等。相較 GPT 等海外模型,商湯 NLP模型具備三大突出特點:1)中文理解:)中文理解:根據商量的測試表現,商湯 NLP 模型的中文理解能力更強;2)超長文本:)超長文本:可實現 PDF 閱讀理解的功能,支撐更長的輸入文本;3)及時更)及時更新:新:商湯 NLP 模型實現了知識的自動實時更新,讓生成的內容更可信、更準確、更安全。圖表圖表44:商湯商量商湯商量 SenseChat 功能功能 資料來源:商湯科技官網、華泰研究 2)AIGC 模型:模型:商湯“日日新 SenseNova”基于
100、超 10 億參數規模的 AIGC 模型,打造了多類 AIGC 應用,包括文生圖創作、2D/3D 數字人生成、大場景、小物體生成等,實現空間、人、物的生成、融合與交互。3)多模態模型:)多模態模型:商湯發布多模態多任務通用大模型“書生(INTERN)2.5”(30 億參數),在多模態多任務處理能力方面實現多項全新突破,其卓越的圖文跨模態開放任務處理能力可為自動駕駛、機器人等通用場景任務提供高效精準的感知和理解能力支持,向通用人工智能邁出堅實的一步。書生 2.5 性能優越,在 20+不同場景不同任務的數據集中取得最佳成績。在視覺主流圖像分類數據集ImageNet上,書生2.5僅基于公開數據便達到了
101、90.1%的Top-1準確率,是除谷歌與微軟之外,唯一準確率超過 90.0%的模型,同時書生 2.5 也是世界上開源模型中 ImageNet 準確度最高、規模最大的模型。圖表圖表45:商湯書生商湯書生 2.5 在在 20+不同場景不同任務的數據集中取得最佳成績不同場景不同任務的數據集中取得最佳成績 資料來源:商湯科技官網、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。27 計算機計算機 科大訊飛:科大訊飛:星火大模型星火大模型 5 月發布,月發布,AGI 核心能力核心能力表現出色表現出色 科大訊飛在科大訊飛在 AI 認知智能領域已有十幾年的積累,認知智能領域已有十幾年的
102、積累,具備認知大模型“智能涌現”的源頭核心具備認知大模型“智能涌現”的源頭核心技術儲備技術儲備。14 年訊飛就推出訊飛超腦計劃,明確提出要讓機器像人一樣具備“能理解、會思考”的能力;17 年訊飛智醫助理在全球首次通過了國家執業醫師資格考試,超過了 96.3%參加考試的醫生;19 年在斯坦福大學發起的國際著名 SQuAD 機器閱讀理解比賽中,訊飛模型在英文閱讀理解中首次超過了人類平均水平;22 年在艾倫研究院組織的 OpenBookQA科學常識推理比賽中,訊飛單模型首次超過了人類平均水平;22 年 1 月,訊飛正式宣布訊飛超腦 2030 計劃,要讓“懂知識、會學習、能進化”的通用人工智能技術,以
103、機器人的實體形態或虛擬形態能夠進入到每一個家庭;22 年 12 月,訊飛啟動認知智能大模型的專項攻關;23 年年 5 月月 6 日,訊飛星火認知大模型正式發布,同時發布了日,訊飛星火認知大模型正式發布,同時發布了 4 大大 AI 行業應用成果。行業應用成果。圖表圖表46:訊飛為認知大模型所做的源頭核心技術儲備訊飛為認知大模型所做的源頭核心技術儲備 資料來源:科大訊飛官網、華泰研究 訊飛星火大模型在訊飛星火大模型在 AGI 核心核心能力上表現出色能力上表現出色。當前通用人工智能令人關注的七大維度:包括文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力以及多模態能力。星火認知大模型發布六大
104、核心能力。在發布會上,訊飛主要圍繞 6 個主要方向(不包含多模態,屬于下一代能力)進行了現場的真實測試。圖表圖表47:訊飛星火大模型六大核心能力訊飛星火大模型六大核心能力 資料來源:科大訊飛官網、華泰研究 同時科大訊飛發布星火大模型同時科大訊飛發布星火大模型年內持續升級的關鍵里程碑年內持續升級的關鍵里程碑:6 月 9 日:突破開放式問答(接入搜索引擎)、多輪對話能力再升級、數學能力再升級;8 月 15 日:突破代碼能力、多模態交互再升級;10 月 24 日:通用模型對標 ChatGPT(中文超越,英文相當)。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。28 計算機計算機 圖表圖
105、表48:星火大模型年內持續升級的關鍵里程碑星火大模型年內持續升級的關鍵里程碑 資料來源:科大訊飛官網、華泰研究 智源智源研究院研究院:超大規?!拔虻馈蹦P统笠幠!拔虻馈蹦P?,構建完備構建完備大模型生態體系大模型生態體系 北京智源研究院北京智源研究院為為非盈利的研究機構,非盈利的研究機構,旨在旨在搭建高效活力的搭建高效活力的 AI 研發平臺。研發平臺。2018 年,北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)在科技部和北京市支持下,聯合北京人工智能領域優勢單位共建,旨在推動人工智能領域發展政策、學術思想、理論基礎、頂尖
106、人才與產業生態的五大源頭創新。目前,智源研究院匯聚了清華、北大等高等學府 100+頂尖 AI 科學家,下設基礎模型、生命模擬、健康計算、自主醫學檢查系統、千方智慧醫療、人工智能倫理與可持續發展、人工智能社會實驗、戰略研究等 8 大研究中心。圖表圖表49:北京智源人工智能研究院重要發展節點北京智源人工智能研究院重要發展節點 資料來源:BAAI 官網、華泰研究 從研究體系來看,智源研究院涵蓋四大業務場景。從研究體系來看,智源研究院涵蓋四大業務場景。1)悟道大模型:)悟道大模型:主要開展通用大模型的技術研究,旨在打造具有國際領先水平的基礎大模型,加速國產大模型的發展進程;2)飛飛智開源體系智開源體系
107、:搭建支撐大模型發展的一站式基礎軟件體系,涵蓋算法、工具、評測、藝術創作、服務框架等六大領域;3)天演天演 AI 生命模擬工程生命模擬工程:旨在通過對生物智能進行高精度仿真,探索智能的本質,進而推動由生物啟發的通用智能;4)九鼎算力平臺九鼎算力平臺:探索滿足大規?;旌嫌嬎闳蝿盏恼{度方法,搭建 AI 科研創新的基石與試驗場。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。29 計算機計算機 圖表圖表50:BAAI 四大業務場景四大業務場景 資料來源:BAAI 官網、華泰研究 悟道悟道 1.0 大模型大模型:中國首個超大規模智能模型。:中國首個超大規模智能模型。2020 年 10 月,
108、智源研究院正式啟動超大規模智能模型悟道項目:1)悟道文匯()悟道文匯(113 億參數):億參數):首個面向認知的超大規模新型預訓練模型(M6:MultiModality-to-MultiModality Multi-task Mega-Transformer);2)悟)悟道文瀾(道文瀾(10 億參數)(億參數)(BriVL 模型)模型):首個超大規模多模態預訓練模型;3)悟道 文源()悟道 文源(26億參數)(億參數)(CPM 模型)模型):首個以中文為核心的超大規模預訓練模型;4)悟道文溯()悟道文溯(2.8 億億參數)參數):超大規模蛋白質序列預測預訓練模型。2021 年 3 月,智源研究
109、院發布了中國首個超大規模智能模型“悟道 1.0”,訓練出中文、多模態、認知、蛋白質預測等系列模型。悟道悟道 2.0 大模型:大模型:1.75 萬億參數規模,萬億參數規模,當時當時全球最大的超大規模智能模型全球最大的超大規模智能模型。2021 年 6 月,智源研究院發布“悟道 2.0”,參數規模達到 1.75 萬億,是 GPT-3 的 10 倍,打破了之前由Google Switch Transformer 預訓練模型創造的 1.6 萬億參數記錄,是當時中國首個、全球最大的萬億級模型。同時“悟道”團隊在大規模預訓練模型研發上做了很多基礎性工作,形成了自主的超大規模智能模型技術創新體系,擁有從預訓
110、練理論技術到預訓練工具,再到預訓練模型構建和最終模型測評的完整鏈條。悟道2.0在9項Benchmark達到優異水平。搭建高質量數據集搭建高質量數據集 WudaoCorpora 2.0,促進中國通用人工智能發展。,促進中國通用人工智能發展。2021 年 3 月,全球最大中文語料庫 WuDaoCorpora1.0 與悟道 1.0 同時問世;三個月后,加入多模態和對話兩大全新元素后,WuDaoCorpora2.0 版本正式發布。WuDaoCorpora2.0 由全球最大的純文本數據集 WDC-Text、全球最大的多模態數據集 WDC-ImageCaption 和全球最大的中文對話數據集 WDC-Di
111、alogue 三部分構成,分別致力于構建微縮中文世界、打破圖文模態壁壘、濃縮對話核心規律,從而形成多維度世界頂級數據庫,促進中國的通用人工智能發展。圖表圖表51:數據集數據集 WudaoCorpora 2.0 組成示意圖組成示意圖 資料來源:BAAI 官網、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。30 計算機計算機 飛智飛智大模型開源體系日益完善,大模型開源體系日益完善,助力國產大模型助力國產大模型加速加速發展發展。FlagOpen 飛智大模型技術開源體系主要包括 6 大開源項目,涵蓋大模型算法、工具、評測、藝術創作、服務框架等領域。圖表圖表52:FlagOpen
112、 飛智大模型技術開源體系飛智大模型技術開源體系 資料來源:BAAI 官網、華泰研究 海外大模型海外大模型多維多維拓展拓展,看好垂直,看好垂直落地落地、工程實現、模態豐富三大趨勢、工程實現、模態豐富三大趨勢 海外大模型持續多維拓展,重點關注大模型垂直落地、工程實現、模態豐富三大趨勢。海外大模型持續多維拓展,重點關注大模型垂直落地、工程實現、模態豐富三大趨勢。1)垂直落地:垂直落地:得益于通用大模型對于“大模型參數+大訓練數據”的有效驗證,基于垂直數據訓練的行業大模型實現加速發展,BloombergGPT 作為首個金融大模型有效實現了 LLM 與金融垂直領域知識的深度融合,佐證了“開源模型+高質量
113、垂直數據”LLM 搭建思路的有效性;2)工程實現:)工程實現:大模型的訓練速度、訓練成本以及工程化應用受到廣泛關注,以 AutoGPT為代表的工程化思路,充分驗證了大模型有望成為 AI 時代的操作系統,改變人機交互范式;3)模態豐富:)模態豐富:除大語言模型(Large Language Model,LLM)外,大模型逐步向圖像、音頻、視頻等模態拓展,建議關注多模態對齊的大模型技術進展。垂直落地:垂直落地:BloombergGPT 提供提供構建構建垂直行業大模型垂直行業大模型的有益參考的有益參考 BloombergGPT發布,大模型實現金融發布,大模型實現金融垂直垂直領域領域的加速的加速落地。
114、落地。2023年3月30日,Bloomberg官方發布專為金融領域打造的大語言模型(Large Language Model,LLM)BloombergGPT,實現了 LLM 在垂直場景的加速落地。相較 OpenAI 的 GPT 系列(GPT-1、GPT-2、GPT-3、GPT-4)通用大模型,BloombergGPT 在保證 LLM 通用性能的基礎上,更加聚焦金融場景,更加適應金融術語的復雜性與獨特性,有效實現了 GPT+垂直知識的深度融合。#1 模型拆解:模型拆解:500 億參數億參數 LLM,核心突破在于金融語料,核心突破在于金融語料 BloombergGPT 同樣采用同樣采用 deco
115、der-only 路徑,模型參數介于路徑,模型參數介于 GPT-2 與與 GPT-3 之間之間。根據論文BloombergGPT:A Large Language Model for Finance的模型介紹顯示,BloombergGPT 同樣基于典型的 Transformer 架構,同時與 OpenAI 的 GPT 模型相同,采用了僅有解碼器(decoder-only)的技術路徑??紤]到 Tranformer 解碼器與編碼器的構成區別,Bloomberg 沿用了 GPT 模型的 decoder-only 技術路徑,訓練出的 LLM 在基于前文預測后文的自然語言生成方面具備天然優勢(詳細分析可
116、參考華泰計算機 2023 年 2 月 14日發布的報告GPT 產業復盤(2019):大容量路線)。對比來看,BloombergGPT 的模型參數介于 GPT-2 與 GPT-3 之間,GPT-2 模型參數為 1.5 億,GPT-3 模型參數為 1,750億,bloombergGPT 的模型參數為 500 億。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。31 計算機計算機 圖表圖表53:Tansformer 的的 encoder 編碼器結構示意編碼器結構示意 圖表圖表54:Tansformer 的的 decoder 解碼器結構示意解碼器結構示意 資料來源:The Illustra
117、ted GPT-2(Visualizing Transformer Language Models),Jay Alammar(2020)、華泰研究 資料來源:The Illustrated GPT-2(Visualizing Transformer Language Models),Jay Alammar(2020)、華泰研究 大規模金融數據集大規模金融數據集 FINPILE 是是 BloombergGPT 在金融垂直領域成功落地的關鍵。在金融垂直領域成功落地的關鍵。不同于OpenAI 的 GPT 模型基于通用文本語料進行模型預訓練,Bloomberg 為強化大語言模型對金融垂直領域的專業理解
118、,基于 Bloomberg 自身在金融語料方面的優勢,構建了目前最大規模的金融數據集 FINPILE,實現了模型在金融領域的知識強化??傮w來看,BloombergGPT預訓練的數據集包括金融數據文本FINPILE數據集與通用數據文本PUBLIC數據集兩部分。FINPILE+PUBLIC 讓模型讓模型兼具通用常識與金融知識的雙重理解兼具通用常識與金融知識的雙重理解。得益于 Bloomberg 構建的融合通用文本(PUBLIC)與金融知識(FINPILE)的大規模訓練數據,BloombergGPT基于通用場景和金融業務場景進行混合模型訓練,使模型在具備通常常識的基礎上強化金融領域的知識理解,根據官
119、方 2023 年 3 月發布的論文 BloombergGPT:A Large Language Model for Finance中的測試結果顯示,BloombergGPT 在執行金融任務上的表現超過現有的通用 LLM 模型,在通用場景上的表現與現有通用 LLM 模型能力基本持平。#2 BloombergGPT 啟示:開拓開源模型啟示:開拓開源模型+垂直數據的垂直數據的 LLM 新思路新思路 BloombergGPT 實現在實現在垂直領域垂直領域模型、訓練數據、模型評估、模型、訓練數據、模型評估、tokenizer、模型構建、模型構建方法方法等等方面的方面的創新。創新。1)垂直領域垂直領域語言
120、模型:語言模型:過去的大語言模型多為基于通用文本訓練的通用模型,垂直領域模型多為僅基于垂直領域數據訓練垂直模型,Bloomberg 開創通用+垂直的混合訓練方法,讓模型兼具通用性與專業性;2)訓練數據:)訓練數據:過去的大語言模型的預訓練數據很大程度上依賴于網頁抓取數據,如 C4、The Pile、Wikipedia 等,Bloomberg 自建了高質量的大規模金融數據集;3)模型評估:)模型評估:Bloomberg 在對模型進行了公共、金融 NLP 基準測試之外,還對模型進行了一系列基于 Bloomberg 內部任務的性能測試;4)Token 化化(Tokenizer):將訓練文本 Toke
121、n 化是模型訓練的關鍵步驟,Bloomberg 使用 Unigram 模型取代 greedy merge-based sub-word 模型,實現更智能的 token 化轉換;5)模型構建)模型構建方法方法:以 GPT-3、GPT-4 為代表的大語言模型均由大型的專業人工智能團隊開發,并且模型訓練需要大量算力;受益于開源模型 BLOOM 的項目實踐與 Bloomberg 在垂直領域高質量數據的深厚積累,BloombergGPT 成功證明了一個中等規模的團隊可以在垂直領域的特定數據上生產同樣具有競爭力的大語言模型。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。32 計算機計算機 圖
122、表圖表55:BloombergGPT 實現實現垂直領域垂直領域模型、訓練數據、模型評估、模型、訓練數據、模型評估、tokenizer、模型構建、模型構建方法等方面的創新方法等方面的創新 資料來源:BloombergGPT:A Large Language Model for Finance,Shijie Wu(2023)、華泰研究 BloombergGPT 開拓了開源模型開拓了開源模型+垂直數據的垂直數據的 LLM 搭建新思路。搭建新思路。通過對比 GPT-3 與BloombergGPT,我們發現,高質量的預訓練數據是提升大語言模型能力的關鍵,大量的高質量垂直領域知識有望彌補模型在規模上的不足
123、。BloombergGPT 的模型參數為 500 億,相較于 GPT-3 的 1,750 億屬于較小的模型的規模,不同的是,BloombergGPT 的預訓練數據增加了大量的高質量金融數據,同時 BloombergGPT 對于模型的預訓練數據進行了一系列的數據清洗和數據標注,進一步提升了數據質量。從測試結果來看,BloombergGPT 在通用能力與 GPT-3 基本持平的情況下,實現了金融垂直能力的大幅增強。#3 BloombergGPT 展望:數據至關重要,金融展望:數據至關重要,金融 GPT 未來可期未來可期 訓練數據是訓練數據是 LLM 能力塑造的關鍵因素。能力塑造的關鍵因素?;?B
124、loombergGPT 的成功案例,我們認為,訓練數據是大語言模型能力塑造的關鍵因素,原因有三,一是一是金融垂直領域數據的輸入成功塑造了 BloombergGPT 的金融知識理解能力,具備了更強的專業性;二是二是盡管BloombergGPT 的模型參數相較有所減少,但仍然表現出較強的通用能力與垂直能力,證明了在一定參數規模的前提下,高質量數據才是決定模型能力的關鍵;三是三是 Bloomberg 在論文中明確出于對數據泄露的擔憂,BloombergGPT 將采取與 OpenAI 相同的閉源方案,側面佐證了原始的預訓練數據是各家大模型競爭的重要因素。GPT+垂直場景有望全面鋪開。垂直場景有望全面鋪
125、開。垂直知識+通用常識的綜合訓練方法的有效性已經得到有效驗證,大語言模型有望實現與醫療、安全、能源、工業等更多垂直場景的深度融合。以海外的 ProGEN 的模型為例,大語言模型已經實現了在蛋白質結構預測的場景落地。未來,融合垂直領域知識的大語言模型有望加速發展。工程工程實現實現:AutoGPT 充分展現大模型有望重塑人機交互范式充分展現大模型有望重塑人機交互范式 AutoGPT 充分展現大模型有望重塑人機交互范式。充分展現大模型有望重塑人機交互范式。AutoGPT 是一個實驗性開源應用程序,展示了 GPT-4 語言模型的功能,標志著自然語言有望成為未來人機交互的全新模式。該程序由 GPT-4
126、驅動,將 LLM 的“思想”鏈接在一起,以自主實現用戶設定的任何目標。作為 GPT-4 完全自主運行的首批示例之一,AutoGPT 突破了 AI 的可能性界限。AutoGPT 具備五大典型特征:1)可以從 Internet 搜索和收集信息;2)支持長期和短期內存管理;3)提供文本生成的 GPT-4 實例;4)訪問熱門網站和平臺;5)使用 GPT-3.5 進行文件存儲和匯總。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。33 計算機計算機 圖表圖表56:AutoGPT 五大特征五大特征 資料來源:Github 官網、華泰研究 AutoGPT 需要人類指導,充分展示了人機交互方式改變
127、的可能性。需要人類指導,充分展示了人機交互方式改變的可能性。AutoGPT 并非真的是全自動、全自主,而是需要人類指導。我們認為,AutoGPT 是在 GPT-4 的基礎上,衍生出來的創新型大模型使用方法探索。其本質可以認為是 GPT 模型的自動化任務執行工具,能夠通過預先設計好的提示來自動生成任務指令,從而快速高效地執行各種任務?;?GPT-4模型的自然語言理解能力,AutoGPT 通過 API 接口、現有大模型的創新性結合等方式,實現問題的“自動化解決”,大語言模型 LLM 成為大模型時代的操作系統,可以作為控制器來管理現有的 API 接口、人工智能模型,以解決復雜的人工智能任務。圖表圖
128、表57:微軟微軟 HuggingGPT 與與 AutoGPT 相似,探索相似,探索 LLM 作為作為 AI 操作系統的可能性操作系統的可能性 資料來源:HuggingFace 官網、華泰研究 模態模態豐富豐富:SAM 模型模型實現大模型在實現大模型在 CV 領域的領域的模態延展模態延展 Segment Anything Model是是Meta提出的圖像分割模型。提出的圖像分割模型。Segment Anything Model(SAM)由三部分組成,1)任務:)任務:為可提示(promptable)的分割任務,描述通用的預訓練目標,實現廣泛的下游任務;2)分割模型()分割模型(SAM):):支持
129、靈活的提示(prompt)和數據注釋,并能通過提示工程(prompt engineering)實時輸出分割掩膜,以 zero-shot 方式遷移到一系列任務;3)數據引擎:)數據引擎:構建了數據引擎,一方面收集新的數據,另一方面使用新數據來迭代模型。Meta 建立了迄今為止最大的分割數據集 SA-1B,在 1100 萬張許可和尊重隱私的圖像上,有超過 10 億個掩膜(mask)。結果表明,SAM 的 zero-shot 性能優秀,能夠達到甚至優于完全監督模型的結果。SAM和SA-1B已經在https:/segment-開源。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。34 計算
130、機計算機 圖表圖表58:SAM 的三個組成部分的三個組成部分 資料來源:Segment Anything,Meta(2023)、華泰研究 大規模且多樣化的掩膜數據集能夠實現大規模且多樣化的掩膜數據集能夠實現 SAM 更好的泛化特性。更好的泛化特性。由數據引擎生成的最終數據集 SA-1B,包含 1100 萬張經許可且隱私保護的圖像,以及超過 10 億個掩膜(均為數據引擎最后階段自動生成的掩膜)。SA-1B 擁有的掩膜數量比任何現有的分割數據集都多 400 倍以上,具有高質量和多樣性。除了將其用于訓練 SAM 之外,SA-1B 已開源,供其他研究者在此基礎上建立新的基礎大模型。圖表圖表59:SA-
131、1B 包含的圖像數量比其他數據集高包含的圖像數量比其他數據集高 6 倍以上倍以上 圖表圖表60:SA-1B 包含的掩膜數量比其他數據集高包含的掩膜數量比其他數據集高 400 倍以上倍以上 資料來源:Meta 官網、華泰研究 資料來源:Meta 官網、華泰研究 SAM 模型亮點模型亮點:探索模型組件化應用:探索模型組件化應用 以提示工程等技術為基礎的可組合系統,能實現更廣泛的應用。以提示工程等技術為基礎的可組合系統,能實現更廣泛的應用。Meta 指出,提示和組合是功能強大的工具,使單個模型能夠以可擴展的方式使用,有可能完成模型設計時未知的任務。與專門為固定任務集訓練的系統相比,以提示工程等技術為
132、基礎的可組合系統,能實現更廣泛的應用。例如 CLIP 是 DALL-E 圖像生成系統的文本圖像對齊組件。SAM 是為通用性和使用廣度而設計的,是視覺分割的通才和多面手。是為通用性和使用廣度而設計的,是視覺分割的通才和多面手。Meta 指出,雖然特定領域的工具在各自的領域中會優于 SAM,但 SAM 是為通用性和使用廣度而設計的,是視覺分割的通才和多面手。此外,由于 SAM 的強大遷移和泛化能力,以及開箱即用特性,SAM 甚至可以通過可穿戴設備檢測到的注視點來進行提示,從而啟用新的應用程序。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。35 計算機計算機 產業鏈相關公司梳產業鏈相關
133、公司梳理理 以以 GPT 為代表的大模型為代表的大模型產業鏈較長,產業鏈較長,具體可分為算力、模型、應用三個環節具體可分為算力、模型、應用三個環節。1)算力:)算力:包括寒武紀、景嘉微、海光信息等芯片廠商以及浪潮信息、中科曙光、工業富聯等服務器廠商;2)模型:)模型:包括百度、三六零、科大訊飛、昆侖萬維、商湯科技等科技企業;3)應用:)應用:2C 簡單包括金山辦公、科大訊飛、同花順、萬興科技、東方財富、漢儀股份、漢王科技、螢石網絡等企業;2B 簡單包括泛微網絡、致遠互聯、上海鋼聯、彩訊股份等企業;2C 復雜包括中望軟件、索辰科技、廣聯達等企業;2B 復雜包括恒生電子、石基信息、科大訊飛、漢王科
134、技、金橋信息等企業。風險提示風險提示 宏觀經濟波動。宏觀經濟波動。若宏觀經濟波動,產業變革及新技術的落地節奏或將受到影響,宏觀經濟 波動還可能對 IT 投資產生負面影響,從而導致整體行業增長不及預期。大模型技術迭代不及預期。大模型技術迭代不及預期。若大模型技術迭代不及預期,會對大模型相關產業鏈造成不利影響,影響產業推進節奏。本報告內容基于客觀資料整理,不構成投資建議本報告內容基于客觀資料整理,不構成投資建議。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。36 計算機計算機 圖表圖表61:提及公司列表提及公司列表 公司代碼公司代碼 公司簡稱公司簡稱 未上市 Bloomberg 未上
135、市 OpenAI META US Meta MSFT US 微軟 GOOGL US 谷歌 688256 CH 寒武紀 300474 CH 景嘉微 688041 CH 海光信息 000977 CH 浪潮信息 603019 CH 中科曙光 601138 CH 工業富聯 9888 HK 百度 601360 CH 三六零 002230 CH 科大訊飛 300418 CH 昆侖萬維 0020 HK 商湯科技 688111 CH 金山辦公 300033 CH 同花順 600570 CH 恒生電子 300059 CH 東方財富 300624 CH 萬興科技 301270 CH 漢儀股份 002362 CH
136、漢王科技 688475 CH 螢石網絡 603039 CH 泛微網絡 688369 CH 致遠互聯 300226 CH 上海鋼聯 300634 CH 彩訊股份 688083 CH 中望軟件 688507 CH 索辰科技 002410 CH 廣聯達 002153 CH 石基信息 603918 CH 金橋信息 資料來源:Bloomberg、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。37 計算機計算機 免責免責聲明聲明 分析師聲明分析師聲明 本人,謝春生、郭雅麗、范昳蕊,茲證明本報告所表達的觀點準確地反映了分析師對標的證券或發行人的個人意見;彼以往、現在或未來并無就其研究
137、報告所提供的具體建議或所表迖的意見直接或間接收取任何報酬。一般聲明及披露一般聲明及披露 本報告由華泰證券股份有限公司(已具備中國證監會批準的證券投資咨詢業務資格,以下簡稱“本公司”)制作。本報告所載資料是僅供接收人的嚴格保密資料。本報告僅供本公司及其客戶和其關聯機構使用。本公司不因接收人收到本報告而視其為客戶。本報告基于本公司認為可靠的、已公開的信息編制,但本公司及其關聯機構(以下統稱為“華泰”)對該等信息的準確性及完整性不作任何保證。本報告所載的意見、評估及預測僅反映報告發布當日的觀點和判斷。在不同時期,華泰可能會發出與本報告所載意見、評估及預測不一致的研究報告。同時,本報告所指的證券或投資
138、標的的價格、價值及投資收入可能會波動。以往表現并不能指引未來,未來回報并不能得到保證,并存在損失本金的可能。華泰不保證本報告所含信息保持在最新狀態。華泰對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本公司不是 FINRA 的注冊會員,其研究分析師亦沒有注冊為 FINRA 的研究分析師/不具有 FINRA 分析師的注冊資格。華泰力求報告內容客觀、公正,但本報告所載的觀點、結論和建議僅供參考,不構成購買或出售所述證券的要約或招攬。該等觀點、建議并未考慮到個別投資者的具體投資目的、財務狀況以及特定需求,在任何時候均不構成對客戶私人投資建議。投資者應當充分考慮自身
139、特定狀況,并完整理解和使用本報告內容,不應視本報告為做出投資決策的唯一因素。對依據或者使用本報告所造成的一切后果,華泰及作者均不承擔任何法律責任。任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。除非另行說明,本報告中所引用的關于業績的數據代表過往表現,過往的業績表現不應作為日后回報的預示。華泰不承諾也不保證任何預示的回報會得以實現,分析中所做的預測可能是基于相應的假設,任何假設的變化可能會顯著影響所預測的回報。華泰及作者在自身所知情的范圍內,與本報告所指的證券或投資標的不存在法律禁止的利害關系。在法律許可的情況下,華泰可能會持有報告中提到的公司所發行的證券頭寸并進行交易
140、,為該公司提供投資銀行、財務顧問或者金融產品等相關服務或向該公司招攬業務。華泰的銷售人員、交易人員或其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與本報告意見及建議不一致的市場評論和/或交易觀點。華泰沒有將此意見及建議向報告所有接收者進行更新的義務。華泰的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見或建議不一致的投資決策。投資者應當考慮到華泰及/或其相關人員可能存在影響本報告觀點客觀性的潛在利益沖突。投資者請勿將本報告視為投資或其他決定的唯一信賴依據。有關該方面的具體披露請參照本報告尾部。本報告并非意圖發送、發布給在當地法律或監管規則下不允許
141、向其發送、發布的機構或人員,也并非意圖發送、發布給因可得到、使用本報告的行為而使華泰違反或受制于當地法律或監管規則的機構或人員。本報告版權僅為本公司所有。未經本公司書面許可,任何機構或個人不得以翻版、復制、發表、引用或再次分發他人(無論整份或部分)等任何形式侵犯本公司版權。如征得本公司同意進行引用、刊發的,需在允許的范圍內使用,并需在使用前獲取獨立的法律意見,以確定該引用、刊發符合當地適用法規的要求,同時注明出處為“華泰證券研究所”,且不得對本報告進行任何有悖原意的引用、刪節和修改。本公司保留追究相關責任的權利。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記。中國香港中
142、國香港 本報告由華泰證券股份有限公司制作,在香港由華泰金融控股(香港)有限公司向符合證券及期貨條例及其附屬法律規定的機構投資者和專業投資者的客戶進行分發。華泰金融控股(香港)有限公司受香港證券及期貨事務監察委員會監管,是華泰國際金融控股有限公司的全資子公司,后者為華泰證券股份有限公司的全資子公司。在香港獲得本報告的人員若有任何有關本報告的問題,請與華泰金融控股(香港)有限公司聯系。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。38 計算機計算機 香港香港-重要監管披露重要監管披露 華泰金融控股(香港)有限公司的雇員或其關聯人士沒有擔任本報告中提及的公司或發行人的高級人員。石基信息
143、(002153 CH):華泰金融控股(香港)有限公司、其子公司和/或其關聯公司實益持有標的公司的市場資本值的 1%或以上。有關重要的披露信息,請參華泰金融控股(香港)有限公司的網頁 https:/.hk/stock_disclosure 其他信息請參見下方“美國“美國-重要監管披露”重要監管披露”。美國美國 在美國本報告由華泰證券(美國)有限公司向符合美國監管規定的機構投資者進行發表與分發。華泰證券(美國)有限公司是美國注冊經紀商和美國金融業監管局(FINRA)的注冊會員。對于其在美國分發的研究報告,華泰證券(美國)有限公司根據1934 年證券交易法(修訂版)第 15a-6 條規定以及美國證券
144、交易委員會人員解釋,對本研究報告內容負責。華泰證券(美國)有限公司聯營公司的分析師不具有美國金融監管(FINRA)分析師的注冊資格,可能不屬于華泰證券(美國)有限公司的關聯人員,因此可能不受 FINRA 關于分析師與標的公司溝通、公開露面和所持交易證券的限制。華泰證券(美國)有限公司是華泰國際金融控股有限公司的全資子公司,后者為華泰證券股份有限公司的全資子公司。任何直接從華泰證券(美國)有限公司收到此報告并希望就本報告所述任何證券進行交易的人士,應通過華泰證券(美國)有限公司進行交易。美國美國-重要監管披露重要監管披露 分析師謝春生、郭雅麗、范昳蕊本人及相關人士并不擔任本報告所提及的標的證券或
145、發行人的高級人員、董事或顧問。分析師及相關人士與本報告所提及的標的證券或發行人并無任何相關財務利益。本披露中所提及的“相關人士”包括 FINRA 定義下分析師的家庭成員。分析師根據華泰證券的整體收入和盈利能力獲得薪酬,包括源自公司投資銀行業務的收入??拼笥嶏w(002230 CH):華泰證券股份有限公司、其子公司和/或其聯營公司在本報告發布日之前的 12 個月內擔任了標的證券公開發行或 144A 條款發行的經辦人或聯席經辦人。石基信息(002153 CH):華泰證券股份有限公司、其子公司和/或其聯營公司實益持有標的公司某一類普通股證券的比例達 1%或以上。華泰證券股份有限公司、其子公司和/或其聯
146、營公司,及/或不時會以自身或代理形式向客戶出售及購買華泰證券研究所覆蓋公司的證券/衍生工具,包括股票及債券(包括衍生品)華泰證券研究所覆蓋公司的證券/衍生工具,包括股票及債券(包括衍生品)。華泰證券股份有限公司、其子公司和/或其聯營公司,及/或其高級管理層、董事和雇員可能會持有本報告中所提到的任何證券(或任何相關投資)頭寸,并可能不時進行增持或減持該證券(或投資)。因此,投資者應該意識到可能存在利益沖突。本報告所載的觀點、結論和建議僅供參考,不構成購買或出售所述證券的要約或招攬,亦不試圖促進購買或銷售該等證券。如任何投資者為美國公民、取得美國永久居留權的外國人、根據美國法律所設立的實體(包括外
147、國實體在美國的分支機構)、任何位于美國的個人,該等投資者應當充分考慮自身特定狀況,不以任何形式直接或間接地投資本報告涉及的投資者所在國相關適用的法律法規所限制的企業的公開交易的證券、其衍生證券及用于為該等證券提供投資機會的證券的任何交易。該等投資者對依據或者使用本報告內容所造成的一切后果,華泰證券股份有限公司、華泰金融控股(香港)有限公司、華泰證券(美國)有限公司及作者均不承擔任何法律責任。評級說明評級說明 投資評級基于分析師對報告發布日后 6 至 12 個月內行業或公司回報潛力(含此期間的股息回報)相對基準表現的預期(A 股市場基準為滬深 300 指數,香港市場基準為恒生指數,美國市場基準為
148、標普 500 指數),具體如下:行業評級行業評級 增持:增持:預計行業股票指數超越基準 中性:中性:預計行業股票指數基本與基準持平 減持:減持:預計行業股票指數明顯弱于基準 公司評級公司評級 買入:買入:預計股價超越基準 15%以上 增持:增持:預計股價超越基準 5%15%持有:持有:預計股價相對基準波動在-15%5%之間 賣出:賣出:預計股價弱于基準 15%以上 暫停評級:暫停評級:已暫停評級、目標價及預測,以遵守適用法規及/或公司政策 無評級:無評級:股票不在常規研究覆蓋范圍內。投資者不應期待華泰提供該等證券及/或公司相關的持續或補充信息 免責聲明和披露以及分析師聲明是報告的一部分,請務必
149、一起閱讀。39 計算機計算機 法律實體法律實體披露披露 中國中國:華泰證券股份有限公司具有中國證監會核準的“證券投資咨詢”業務資格,經營許可證編號為:91320000704041011J 香港香港:華泰金融控股(香港)有限公司具有香港證監會核準的“就證券提供意見”業務資格,經營許可證編號為:AOK809 美國美國:華泰證券(美國)有限公司為美國金融業監管局(FINRA)成員,具有在美國開展經紀交易商業務的資格,經營業務許可編號為:CRD#:298809/SEC#:8-70231 華泰證券股份有限公司華泰證券股份有限公司 南京南京 北京北京 南京市建鄴區江東中路228號華泰證券廣場1號樓/郵政編
150、碼:210019 北京市西城區太平橋大街豐盛胡同28號太平洋保險大廈A座18層/郵政編碼:100032 電話:86 25 83389999/傳真:86 25 83387521 電話:86 10 63211166/傳真:86 10 63211275 電子郵件:ht- 電子郵件:ht- 深圳深圳 上海上海 深圳市福田區益田路5999號基金大廈10樓/郵政編碼:518017 上海市浦東新區東方路18號保利廣場E棟23樓/郵政編碼:200120 電話:86 755 82493932/傳真:86 755 82492062 電話:86 21 28972098/傳真:86 21 28972068 電子郵件:ht- 電子郵件:ht- 華泰金融控股(香港)有限公司華泰金融控股(香港)有限公司 香港中環皇后大道中 99 號中環中心 58 樓 5808-12 室 電話:+852-3658-6000/傳真:+852-2169-0770 電子郵件: http:/.hk 華泰證券華泰證券(美國美國)有限公司有限公司 美國紐約公園大道 280 號 21 樓東(紐約 10017)電話:+212-763-8160/傳真:+917-725-9702 電子郵件:Huataihtsc- http:/www.htsc- 版權所有2023年華泰證券股份有限公司