《百度-港股公司研究報告-大模型研究筆記(一)-230514(47頁).pdf》由會員分享,可在線閱讀,更多相關《百度-港股公司研究報告-大模型研究筆記(一)-230514(47頁).pdf(47頁珍藏版)》請在三個皮匠報告上搜索。
1、 本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請參閱最后一頁的重要聲明。證券研究報告證券研究報告美股公司深度美股公司深度 軟件與服務軟件與服務 百度:大模型研究筆記(一)百度:大模型研究筆記(一)核心觀點核心觀點 大模型規模競賽強度有望下降,精益優化可能成為主要方向,如數據清洗、初始化策略、大批量訓練等。另一方面,模型壓縮與內存管理、計算能力、下游部署等可能是大模型產品化落地的關鍵技術,有望打開未來 to C 市場的想象空間。我們認為中長期 AI領域具備廣闊
2、前景,看好百度在 AIGC 領域的布局和先發優勢。大模型研究大模型研究筆記筆記(一)(一)現有的市場研究主要聚焦下游應用,即大語言模型能夠實現什么功能,滿足什么市場需求,而將大語言模型本身視為黑匣子,缺乏對語言模型本身機制的研究。本篇報告主要是對學界在 LLM模型架構、預訓練各環節、下游調優等領域的探索進行系統梳理,旨在增進市場對 LLM 技術原理的理解。需要指出的是,由于相關文獻較多,本報告可能存在遺漏,并引致風險。模型結構方面,現有的主流模型均基于模型結構方面,現有的主流模型均基于 Transformer 架構。架構。行業發展的關鍵節點在于 1)下游任務逐漸被統一;2)研究總結出Scali
3、ng Law,從而催生規模競賽;3)Google 團隊提出 CoT 研究,大模型+CoT prompt 效果顯著提升。因此,此前行業主流范式是訓練更大的模型,通過引入代碼數據等方式激活模型的潛在能力。但一些最新研究表明規模效應帶來的涌現可能是度量選擇的結果,規模帶來的性能提升可能沒有此前的研究所表明的那么顯著,因而引發一些對進一步推動規模擴展的謹慎觀點。預訓練仍存在非常充分的優化空間。預訓練仍存在非常充分的優化空間。1)訓練數據集上,)訓練數據集上,當前參數規模相比數據集過度擴張明顯,訓練數據集一定程度上制約了性能的提升。另一方面,數據集擴大可能帶來重復數據的問題,而研究表明訓練中的重復數據會
4、顯著影響模型的性能提升,因此對數據的清洗可能是業界實踐中比較重要的環節;2)知識圖譜方)知識圖譜方面,面,一些團隊如百度 ERNIE 將知識圖譜引入 LLM 訓練,實現性能提升,但研究表明,由于知識圖譜數據庫搭建的高成本,且也不適用于所有類別/場景的數據,規?;y度較高。此外,知識圖譜的性能提升是以推理速度的下降為代價的;3)參數規模方面,)參數規模方面,OpenAI 提出的 Scaling Law 引發此前行業的規模競賽,但斯坦福大學團隊近期研究質疑了這一規律,并通過實驗表明規模提升帶來的效果突變是測試函數表達形式的結果,剔除影響后模型性能隨規模變化更接近線性曲線??紤]到其他環節的優化空間,
5、規模進一步大幅擴張可能不是廠商們的首要考慮目標;維持維持 買入買入 孫曉磊 SAC 編號:s1440519080005 SFC 編號:BOS358 崔世峰 SAC 編號:S1440521100004 許悅 SAC 編號:s1440523030001 發布日期:2023 年 05 月 14 日 當前股價:118.90 美元 目標價格 6 個月:140 美元 主要數據主要數據 股票價格絕對股票價格絕對/相對市場表現(相對市場表現(%)1 個月 3 個月 12 個月-17.99/-19.80-19.70/-24.08 11.52/5.64 12 月最高/最低價(美元)160.22/76.57 總股本
6、(萬股)34,959.72 流通股本(萬股)27,751.54 總市值(億美元)415.67 流通市值(億美元)415.67 近 3 月日均成交量(萬)339.34 主要股東 Robin Yanhong Li 16.30%股價表現股價表現 相關研究報告相關研究報告 -28%-8%12%32%52%72%2022/5/112022/6/112022/7/112022/8/112022/9/112022/10/112022/11/112022/12/112023/1/112023/2/112023/3/112023/4/11百度納斯達克綜指百度百度(BIDU.O)/百度集團百度集團-SW(9888
7、.HK)美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 4)訓練策略方面,)訓練策略方面,Google 提出了 Fixup、Skipint 等初始化策略,其中后者在 Transformer 模型小 Batch size訓練下性能優于基準;稀疏訓練和過參數方面的研究指出過參數有益于訓練,但對推理部署成本有負面影響,UCB 團隊研究指出先訓練大模型,再進行壓縮、剪枝是給定計算資源約束下的最優選擇。大批量學習方面,Google 團隊提出 LAMB 優化器,實現 32K Batch size 下無損訓練(1K=1024)。ChatGPT 的火爆很大程度上是得益于“智能化”,或者說與人類交互的自然
8、感,的火爆很大程度上是得益于“智能化”,或者說與人類交互的自然感,而這種用戶體驗主要是來自下游調試,例如 Fine-tune、RLHF、Alignment 等環節。GPT-4 技術報告指出,調試環節并不會提升模型的性能,而是強化模型與人類的交互能力,符合人類的價值觀等,甚至存在 Alignment tax,即調優環節是在不同維度間調整模型的能力,優化一方面的能力會犧牲另一方面的能力?,F有的研究表明,通過擴大 Reward Model 的規模能夠優化 RLHF 環節模型的提升。Alignment 方面,此前 AI 超越人類智能的相關研究不多,這方面仍需要進一步觀察和跟蹤??傮w而言,通過梳理現有研
9、究,我們認為 1)模型數據集、訓練量的優化(包括對數據去重、數據集規模擴充)是重要方向;2)初始化策略、加速優化器能夠在小批量訓練集中優化模型性能,大批量訓練目前研究的上限是 32K,這與訓練速度存在權衡取舍;3)模型壓縮與內存管理、計算能力、下游部署等可能是大模型產品化落地的關鍵技術。近期陳天奇即相關團隊 MLC LLM 項目熱度較高,其將大模型部署至手機,這將大幅降低大模型產品的推廣和部署門檻,打開 to C 產品的想象空間;4)參數規模、知識圖譜可能不是短期研究主要推進的方向。投資建議:投資建議:百度搜索廣告業務預計受益經濟復蘇,且效果廣告受益序列較品牌廣告媒介更優先,信息流廣告則受益展
10、現形式的效率繼續驅動廣告業務增長。云業務隨著疫后回歸常態,項目交付、新簽訂單逐步兌現,向上復蘇趨勢明確。ERNIE BOT 方面,短期商業化前景尚不清晰,但可作為 Option 機會,我們認為中長期 AIGC方向是 AI 領域具備廣闊應用場景且有希望構建合適商業模式的機會,看好百度在 AIGC 領域的布局和先發優勢。維持對百度集團的“買入”評級。美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 目錄目錄 引言.1 1.模型結構.1 2.預訓練:差異來自數據集、知識圖譜、參數規模、訓練策略.8 2.1 訓練數據集.8 2.2 知識圖譜.12 2.3 參數規模.14 2.4 訓練策略的優化.1
11、6 2.4.1 加速優化器.16 2.4.2 初始化策略.20 2.4.3 稀疏訓練.22 2.4.4 過參數.24 2.4.5 大批量訓練.27 2.4.6 增量學習.32 3.下游調試、部署、推斷:RLHF 仍處于技術發展的早期,潛在優化空間大.34 估值.37 投資評價和建議.37 風險分析.38 報表預測.39 圖目錄 圖 1:大模型的研究框架.1 圖 2:超大規模預訓練模型成為業界趨勢.1 圖 3:超大規模預訓練模型存在規模擴張邊際收益遞減的規律.2 圖 4:NLP 領域下游任務的范式遷移.2 圖 5:模型效果與參數規模呈現冪律關系.4 圖 6:GPT-3 效果并不明顯好于小規模的
12、BERT Large 模型.4 圖 7:模型在預訓練階段的表現基本僅依賴于模型的參數量.4 圖 8:模型在微調階段時的表現和模型結構關系很大.4 圖 9:思維鏈提示在性能-比例曲線中表現出明顯的相變.5 圖 10:不同參數規模下直接 Prompt 與 CoT 的性能比較.5 圖 11:業界 AI 研究院的組織架構調整.6 圖 12:2018-21 年谷歌經歷介入軍事、語音監聽、倫理委員會風波,21-23 年大量研究人員離職.7 圖 13:2017-22 年 NIPS 論文發布機構集中度有所下降.7 圖 14:1950-2022 年美國司法部及歐盟反壟斷訴訟案件數量(件).7 圖 15:損失函數
13、可拆分為 bias、variance、noise 項.8 圖 16:重復數據集下模型困惑度提升,自然數據集去重下困惑度下降.9 圖 17:基于去重數據訓練的模型困惑度下降.9 圖 18:重復訓練一定次數會導致模型性能的顯著惡化.9 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖 19:不同參數規模的模型受重復數據訓練的負向影響.9 圖 20:CoT Prompt 對不同規模、語料訓練下模型性能的影響.10 圖 21:指令微調相對預訓練計算量占比很小.11 圖 22:固定計算量,改變模型大小,存在最優參數規模.11 圖 23:固定計算量,得到模型參數規模與訓練量的關系.11 圖 24:
14、將前述實驗參數擬合函數,得到固定計算量模型規模、訓練量與模型性能的曲線.11 圖 25:GPT-3 等模型參數規模過大,訓練量不足,有進一步提升空間.12 圖 26:ERNIE、BERT 掩碼策略差異.12 圖 27:直接注入知識圖譜后模型效果提升明顯.13 圖 28:StAR、KG-BERT 相比傳統的 RotatE 方法在性能上有所提升,但極大地犧牲了推理速度.13 圖 29:模型參數規模、訓練數據集規模、計算資源投入提升與模型性能提升存在 Scaling Law.14 圖 30:模型參數規模、訓練數據集規模、計算資源投入需要成比例地同步提升.14 圖 31:在 BIG-Bench 任務中
15、,92%的涌現能力是這兩個度量下出現的.14 圖 32:將打分函數修改為接近線性函數后模型性能與參數規模的關系回歸線性(未出現涌現現象).15 圖 33:對于多項選擇,換成 brier score(MSE)也使得涌現現象消失.15 圖 34:目前學界/業界提升模型計算效率的策略分類.16 圖 35:ADAM 優化器預訓練表現優于 SGD with momentum.16 圖 36:ADAM 優化器預訓練表現弱于 SGD with momentum.16 圖 37:BERT 模型 Noise 呈現厚尾分布(heavy-tailed distribution),而 ImageNet 的 Nosie
16、 分布更接近高斯分布.17 圖 38:Attention 機制和數據都會導致厚尾分布.17 圖 39:Lion 優化器在不同參數規模的語言模型下總體表現優于 AdamW.17 圖 40:Lion 優化器在不同參數規模的視覺模型下表現優于 AdamW.18 圖 41:視覺模型訓練上 Lion 相比 AdamW 訓練速度提升了 35 倍.18 圖 42:語言模型訓練上 Lion 相比 AdamW 訓練速度提升了 1.52 倍.18 圖 43:AdamW 和 Lion 優化器算法對比.19 圖 44:Lion 訓練下模型性能更優,且 Loss 更平坦.19 圖 45:SAM 提升了模型對標簽噪聲的穩
17、健性,并優化了模型訓練效率,ESAM 降低了計算成本.19 圖 46:SAF、ESAM、SAM、Vanilla(SGD)在 ImageNet 上的性能、效率對比.20 圖 47:Fixup 初始化策略.20 圖 48:以默認學習率在 CIFAR-10 數據集訓練性能對比.20 圖 49:Fixup 與 LN 在機器翻譯任務上的表現(分數越高越好).20 圖 50:模型擬合=的對數等高線示意圖,左圖是使用二次損失的損失圖,右圖是對應的梯度范數.21 圖 51:Transformer 輸出-輸入的 Jacobian 矩陣中的奇異值在不同層的模型下的分布,ReZero 在Transformer 架構
18、下收斂速度提升 56%.21 圖 52:Skipinit 與 BN 在不同批規模下的數據對比.22 圖 53:以不同規模開始訓練時,會發生提前停止迭代(左)和該迭代的準確性(右).22 圖 54:在不同數據集/模型/剪枝率條件下結構性剪枝后模型重新訓練后性能總體優于 Fine-tuned 模型.23 圖 55:非結構性剪枝模型在 CIFAR 與 ImageNet、不同剪枝率下表現有所分化.23 圖 56:當復雜度超過一定界限后,過擬合風險會下降.24 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖 57:Double descent risk curve for RFF model
19、on MNIST.24 圖 58:Double descent risk curve for fully connected neural network on MNIST.24 圖 59:基于 MNIST 測試集,采取 Dropout 策略的測試效果顯著優于未采用 Dropout 策略.25 圖 60:基于 MNIST 測試集,采取不同 Dropout 策略的效果.25 圖 61:模型規模擴大有利于模型性能提升,且剪枝后模型推理準確性更高.25 圖 62:大模型訓練速度更快.26 圖 63:大模型壓縮后效果更優.26 圖 64:大模型剪枝、量化后均更穩健.26 圖 65:大模型量化+剪枝后效
20、果好于小模型.26 圖 66:模型規模與預訓練收斂對大模型的可壓縮性的影響.26 圖 67:增大批處理規模會使得訓練從平緩底部轉向更陡峭的底部.27 圖 68:比較大批量訓練與小批量訓練策略下的模型性能.27 圖 69:F1 網絡交叉熵 Loss 與準確率收斂情況(LB,=1).28 圖 70:F2 網絡交叉熵 Loss 與準確率收斂情況(SB,=0).28 圖 71:C1 網絡交叉熵 Loss 與準確率收斂情況.28 圖 72:C2 網絡交叉熵 Loss 與準確率收斂情況.28 圖 73:C3 網絡交叉熵 Loss 與準確率收斂情況.28 圖 74:C4 網絡交叉熵 Loss 與準確率收斂情
21、況.28 圖 75:通過調整學習率,ResNet-50 mini-batch 訓練可實現 8K 內性能不損失.29 圖 76:對于 AlexNet 網絡,不同層的權值和其梯度的范數的比值差異很大.29 圖 77:LARS 優化器主要根據范數的比值來調節每一層的學習率.30 圖 78:W/O LARS 時 AlexNet-BN 8K 訓練存在性能損失.30 圖 79:W/LARS 時 AlexNet-BN 8K 訓練不存在性能損失.30 圖 80:LARS 優化器將 ResNet 50 無損訓練批量提升至 32K.30 圖 81:LARS 與 LAMB 算法對比.31 圖 82:LAMB 優化器
22、訓練下 BERT 模型的訓練批量可擴展至 32K.31 圖 83:K 值過高反而會導致模型性能惡化.31 圖 84:K 值越高會加速模型訓練收斂速度.31 圖 85:增量學習的技術路徑主要有三類:正則化、回放、參數隔離.32 圖 86:CL 貝葉斯推理的數學表達.32 圖 87:Coreset VCL 算法.33 圖 88:GEM 算法.33 圖 89:InstructGPT 論文中提到的下游調試過程.34 圖 90:InstructGPT 經過調試后表現顯著優于 SFT-175B 模型.34 圖 91:大規模 PM 對不同參數規模模型的效果提升是顯著的.35 圖 92:小規模 PM 對模型的
23、性能提升可能不顯著.35 圖 93:百度 ERNIE 團隊提出在線蒸餾框架.35 圖 94:當模型性能超越一般人時,Alignment 成為挑戰.36 圖 95:RM 可能存在過擬合的情況.36 圖 96:不同方法下模型過擬合情況.36 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 表目錄 表 1:業界大模型相關論文影響力(截止 2023/4/17).3 表 2:訓練語料引入多輪對話后模型預測準確率提升.10 表 3:不同掩碼策略及數據集規模下的模型預測準確率.13 表 4:不同網絡的設定.27 表 5:可比公司估值表.37 1 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 引
24、言引言 大模型領域的研究大模型領域的研究核心要素包括模型結構、預訓練模型、下游調試、模型部署、模型推斷等。核心要素包括模型結構、預訓練模型、下游調試、模型部署、模型推斷等。根據青源會,大模型研究領域存在一定問題,包括同質化嚴重的情況,多數廠商采取類似的模型架構,例如 GPT、Bert、T5等。由于模型架構同質化,影響模型效果的核心因素更多是工程方面的技巧、細節??傮w上,大模型領域的研究機會主要包括 1)模型結構,例如非注意力交互機制、稀疏路由結構等;2)預訓練模型,例如預訓練任務設計、模型更新方法等;3)下游調試,如探索任務微調效率提升方法;4)模型部署,如統一的任務范式,通過單一模型支撐多種
25、任務;5)模型推斷,如模型壓縮、剪枝、動態路由等。我們就大模型領域的研究主要從上述框架中展開。圖圖 1:大模型的研究框架大模型的研究框架 數據來源:青源會2022年人工智能重要方向進展與未來展望報告,中信建投 1.模型結構模型結構 從技術路線上看,從技術路線上看,GPT、T5、BERT 都是基于都是基于 Transformer 架構衍生而來的。架構衍生而來的。Tranformer 相對 RNN 引入了注意力機制(Attention mechanism),實現對全局信息的利用,同時簡化計算復雜度,實現對下游任務的泛化應用。由于更簡潔的模型結構設計和參數假設,Transformer 在數據抓取能力
26、方面有所取舍,從而導致為實現效果提升,需要進行更大規模的數據訓練,以及構建更大規模的模型,間接導致了當前模型越來越大的趨勢。圖圖 2:超大規模預訓練模型成為業界趨勢超大規模預訓練模型成為業界趨勢 數據來源:百度智能云超大規模AI異構計算集群的設計和優化,中信建投 根據 OpenAI 研究,預訓練模型的擴大帶來資源投入的指數級增長,而效果呈現線性增長的趨勢,這意味著邊際投入帶來的效果提升,即邊際收益呈現遞減的趨勢,也就是給定算力等資源成本下存在參數規模的極限值,模型結構預訓練下游調試部署推斷模型效率非注意力機制的建模稀疏路由結構訓練效率提升知識嵌入知識更新調試效率提升上下文學習可靠性統一范式推斷
27、效率提升 2 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 使得 ROI 最優。另外,根據 GPT-4 技術報告,Inverse Scaling Prize 提出,在一些任務上,隨著參數規模的擴張,大模型在任務上的表現反而出現下降的情況。圖圖 3:超大規模預訓練模型存在規模擴張邊際收益遞減的規律超大規模預訓練模型存在規模擴張邊際收益遞減的規律 數據來源:百度智能云超大規模AI異構計算集群的設計和優化,中信建投 GPT 是基于 Transformer 架構,將 decoder(解碼器)取出,也就是 Decoder-only 模型;相較之下,BERT 是將 Transformer 架構的
28、Encoder(編碼器)取出,即 Encoder-only,后續 T5 模型則是 Encoder-Decoder 模型。模型結構的差異會導致其在下游任務表現的差異,例如過去學界認為Encoder模型對上下文理解能力更強,因為其可以結合上下文信息進行輔助判斷,而 Decoder-Only 模型僅能通過下文信息進行決策,存在一定信息損失。這一定程度上解釋了 BERT 類模型在小參數規模下在下游任務上表現好于 GPT 系列模型1。圖圖 4:NLP 領域下游任務的范式遷移領域下游任務的范式遷移 數據來源:青源會2022年人工智能重要方向進展與未來展望報告,中信建投 然而,近年 NLP 行業下游任務的統
29、一化趨勢改變了 BERT 模型的相對優勢,即學者發現可以通過改變提問方式將分類、匹配等下游任務統一為一類問題,從而最大化模型效果,后續發展出 Prompt engineering(提示工程)。下游任務的統一相當于幫助 Encoder/Decoder 模型規避其不擅長的任務領域。在此基礎上,GPT 能夠脫穎而出更多得益于工程方面的提升而非在技術思想上創新,需要指出的是,GPT 模型采用的多數技術都是此前的 1 Language Models are Unsupervised Multitask LearnersGPT-2 論文中擴大規模的 GPT-2 模型表現弱于 BERT,但 OpenAI提出
30、 Few-Shot/Zero-Shot 概念,從而間接實現 SOTA 效果。3 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 學術研究成果,就科研貢獻本身,GPT 模型的提升并不多。從技術路線上看,包括 ERNIE 在內的多數廠商選擇 BERT 路線(Encoder-only),少數選擇 T5 路線(Encoder-Decoder),較少選擇 GPT 路線(Decoder-only)。這種選擇可以從學術影響力看出,BERT 論文的被引用量遠大于 GPT 系列論文及 T5 系列論文。事后看,當前 OpenAI 旗下 GPT 系列模型的領先得益于早期技術選型的成功,這一成功是建立在以下基礎
31、上GPT 的學界/業界影響力小于 BERT,導致多數廠商選擇跟蹤 BERT 的工作。表表 1:業界大模型相關論文影響力(截止業界大模型相關論文影響力(截止 2023/4/17)發表時間發表時間 文章文章 核心貢獻核心貢獻 被引用次被引用次數數 2017/6/12 Attention is all you need Transformer 71128 2018/6/11 Improving Language Understanding by Generative Pre-Training GPT 1.0 5196 2018/10/11 BERT:Pre-training of Deep Bidi
32、rectional Transformers for Language Understanding BERT 63400 2019/2/14 Language Models are Unsupervised Multitask Learners GPT 2.0 10432 2019/4/19 ERNIE:Enhanced Representation through Knowledge Integration ERNIE 1.0 677 2019/7/29 ERNIE 2.0:A Continual Pre-training Framework for Language Understandi
33、ng ERNIE 2.0 560 2019/10/23 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer T5 6961 2020/5/28 Language models are few-shot learners GPT 3.0 9160 2021/3/1 M6:A Chinese Multimodal Pretrainer M6 94 2021/4/26 PanGu-:Large-scale Autoregressive Pretrained Chinese Language
34、 Models with Auto-parallel Computation PanGu-92 2021/7/5 ERNIE 3.0:Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation ERNIE 3.0 122 2021/12/23 ERNIE 3.0 Titan:Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation ERNIE 3.0
35、 titan 19 2022/3/4 Training language models to follow instructions with human feedback InstructGPT 434 2023/3/20 PanGu-:Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing PanGu-1 資料來源:Google scholar,Arxiv,中信建投 GPT 路線此前的影響力弱于路線此前的影響力弱于 BERT 路線主要由于路線主要由于 1)Google 品牌背書;品牌背書;2
36、)開源精神;)開源精神;3)產研結合難度。)產研結合難度。OpenAI 旗下的 GPT 路線基于 Transformer 架構,將解碼器單獨取出,論文發布時間早于 BERT 論文發布時間。但論文的業界影響力弱于 BERT,我們認為,這主要由于 Google 的品牌背書,Google 研究團隊在 AI 領域的研究積累導致業界對其研究關注度更高。另一方面,GPT 系列論文發布后,相關數據集、模型不完全開源,導致其他研究團隊很難跟進和復現其研究成果,這進一步削弱了業界/學界跟進研究的動力。最重要的是,OpenAI 團隊解決問題的思路與當時業界/學界有所差異,此前研究人員更傾向于設計精細的模型結構和高
37、效的方法,實現相同規模下效果更優,而 GPT 引入 Few-Shot/Zero-Shot 下表現沒有明顯好于 Fine-tuning 下的其他模型,只是在數據量和參數量指數提升后表現快速提升。這里存在這里存在 2 個問題:個問題:1)線性外推的思維定式。)線性外推的思維定式。2)業界研究的思維習慣:追求效率,聚焦更具體的問題。)業界研究的思維習慣:追求效率,聚焦更具體的問題。首先是首先是 1)線性外推的思維定式,線性外推的思維定式,多數研究團隊選擇優先調整模型結構和訓練方法等路線的隱含假設是,規模 4 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 擴張不會對技術路線的效率產生明顯影響,
38、或者即使產生影響,但相比規模擴張帶來的成本,其投入難度很難同比擴大。例如,OpenAI 的團隊在 2020 年 1 月發現模型參數規模與效果存在冪律關系,即模型參數呈指數增長時,性能會線性增加,但 GPT-3 規模大于 BERT large 幾個數量級,Zero-Shot/One-Shot 下效果也沒有明顯優勢。這意味著 Fine-tuned 的效率提升優于參數規模擴大所帶來的影響。2022 年 1 月,Google 和 DeepMind 研究團隊發現 Fine-tuning 也存在冪律關系2,因此行業主要聚焦既定規模模型的效率提升。圖圖 5:模型效果與參數規模呈現冪律關系模型效果與參數規模呈
39、現冪律關系 圖圖 6:GPT-3 效果并不效果并不明顯明顯好好于于小規模的小規模的 BERT Large 模型模型 數據來源:Scaling Laws for Neural Language Models,中信建投 數據來源:Language Models are Few-Shot Learners,中信建投 注:GPT-3參數規模為175B,BERT large為340M。圖圖 7:模型在預訓練階段的表現基本僅依賴于模型的參數量模型在預訓練階段的表現基本僅依賴于模型的參數量 圖圖 8:模型模型在微調階段時的表現和模型結構關系很大在微調階段時的表現和模型結構關系很大 數據來源:Scaling
40、Efficiently:Insights from Pre-training and Fine-tuning Transformers,中信建投 數據來源:Scaling Efficiently:Insights from Pre-training and Fine-tuning Transformers,中信建投 Google 研究推動規模競賽加速研究推動規模競賽加速,規模界限分別是規模界限分別是 62B 和和 175B。2022 年 1 月,Google 團隊開創了思維鏈(CoT)領域研究Chain-of-Thought Prompting Elicits Reasoning in Lar
41、ge Language Models,通過 prompt 中 2 根據Scaling Efficiently:Insights from Pre-training and Fine-tuning Transformers,證明了模型的結構對下游任務微調的影響很大,并提出隨著規模擴大模型結構設計的一些方案。此外,OpenAI 在 2021 年 2 月發布Scaling Laws for Transfer,研究了遷移學習領域的冪律關系。5 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 引導大模型進行邏輯推理的方式實現性能優化,并且這種優化幅度大于此前規模提升帶來的線性提升。而下一個自然的問
42、題則是參數規模的界限,Google 團隊在 2022 年 12 月3比較了不同參數規模下直接 prompt 以及 CoT下的表現,得出以下結論:對于所有小于 62B 的模型,直接用提示詞都好于思維鏈。結合 GPT-3 模型規模,至少需要大于 175B4,思維鏈的效果才能大于 Fine-tuned 小模型的效果。圖圖 9:思維鏈提示在性能思維鏈提示在性能-比例曲線中表現比例曲線中表現出明顯的相變出明顯的相變 圖圖 10:不同參數規模下直接不同參數規模下直接 Prompt 與與 CoT 的性能比較的性能比較 數據來源:Chain-of-Thought Prompting Elicits Reaso
43、ning in Large Language Models,中信建投 數據來源:Scaling Instruction-Finetuned Language Models,中信建投 2)另一方面,業界追求效率的思路,關注投入產出比)另一方面,業界追求效率的思路,關注投入產出比。這種思路的本質是投入資源稀缺,要在有限的資源投入下最大化產出。而研究思路背后是互聯網公司 AI 實驗室與業務部門的博弈。3 Scaling Instruction-Finetuned Language Models。4 如果考慮到 code-davinci-002 的基礎模型可能不是初代 GPT-3 davinci 模型
44、,CoT 效果優于直接 Prompt 的界限可能大于175B。6 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 11:業界業界 AI 研究院的組織架構調整研究院的組織架構調整 數據來源:雷峰網,中信建投 縱觀國內外互聯網公司的縱觀國內外互聯網公司的 AI 研究部門,其大致經歷了職能制、矩陣制、事業部制等架構,背后反映了大研究部門,其大致經歷了職能制、矩陣制、事業部制等架構,背后反映了大廠對廠對 AI 科研部門的不同期許和考核體制,這種激勵體制也影響了科研部門的不同期許和考核體制,這種激勵體制也影響了 AI 科研部門的中長期發展??蒲胁块T的中長期發展。2013 年成立的FAIR 采
45、取職能制,其定義 Facebook 的 AI 部門為 FAIR+Applied Machine Learning(應用機器學習團隊)+Product Groups(產品部署團隊)5。但 2018 年組織架構調整后,FAIR 轉向矩陣制,即 AI 實驗室同時對業務部門和技術領導(一般是 CTO 體系)負責。2021 年底 FAIR 進一步調整,將旗下 AI 研究團隊并入業務部門,轉向事業部制。從職能制向矩陣制、事業部制,考核體制上越來越接近業務,越來越遠離學術影響力/前瞻研究,這種轉變大多是由于互聯網公司面臨營收、利潤壓力,業績壓力倒逼研究團隊轉向業務團隊的“外包”,壓力下部分研究人員離開業界,
46、重回學術界,這是過去我們看到的業界 AI 研究的循環。大廠在大模型領域研究大廠在大模型領域研究的落后有一定時代特征:的落后有一定時代特征:對谷歌來說是價值觀變革導致凝聚力減弱,同時創新工作對谷歌來說是價值觀變革導致凝聚力減弱,同時創新工作不足;對不足;對 Meta 而言是企業聲譽受損導致凝聚力減弱,此外則是戰略重心調整導致人員流動。而言是企業聲譽受損導致凝聚力減弱,此外則是戰略重心調整導致人員流動。以谷歌為例,2018-21 年谷歌經歷了介入軍事、語音監聽、倫理委員會等風波,價值觀或政治正確在內外部引發的爭議導致研究人員產生分歧,進而離開公司。2021 年至今一些谷歌高級研究人員離職創業、加入
47、競爭對手等??傮w上來看,谷歌研究人員的離開主要是公司規模擴張帶來價值觀稀釋,內部分歧管控失敗導致的,另一方面大企業機制下對“創新”的激勵趨弱,部分員工離職創業或加入中小型公司,尋求更自由、追求創新的工作。對 Meta 而言,2018 年因非法向劍橋分析泄露超 5000 萬用戶信息從而影響美國選舉,Meta 的企業形象大幅惡化,影響了員工對于企業的信心,導致當年大批高管及核心研究人員離職6。另外,2021 年 Meta 員工的離職潮主要受戰略變化及組織架構調整影響,由于公司戰略轉向 AR/VR,一些員工出于職業發展的考慮7加入其他公司繼續本領域的研究和工作。5 https:/ 6 https:/
48、 7 https:/ 事業部CEOCTO體系/工程事業部AI研究院事業部CEOCTO體系/工程事業部AI研究院事業部CEOCTO體系/工程事業部AI團隊AI團隊職能制職能制矩陣制矩陣制事業部制事業部制 7 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 12:2018-21 年谷歌經歷介入軍事、語音監聽、倫理委員會風波,年谷歌經歷介入軍事、語音監聽、倫理委員會風波,21-23 年大量研究人員離職年大量研究人員離職 數據來源:觀察者網,環球網,澎湃新聞,網易科技,新浪科技,虎嗅網,中信建投 更大的趨勢在于 1)開源帶來的技術擴散,)開源帶來的技術擴散,頭部科研院所及互聯網科技公司相比
49、中小公司/科研院所的相對優勢在縮減,這主要由于過去 AI 領域的創新主要來自方法論層面,而非工程層面,而方法論的創新更隨機;2)對大型科技企業的監管約束趨嚴,)對大型科技企業的監管約束趨嚴,大多數美國互聯網科技企業都是在 1990 年后成立,并受益于 20 世紀末、21 世紀初的反壟斷監管,在快速發展階段經歷了經濟高速增長、監管邊際寬松的環境,但 2017 年以來歐盟、韓國等對谷歌、亞馬遜、Meta、蘋果公司、微軟等加強監管,導致大型科技公司面臨較高的監管壓力。圖圖 13:2017-22 年年 NIPS 論文發布機構集中度有所下降論文發布機構集中度有所下降 圖圖 14:1950-2022 年美
50、國司法部及歐盟反壟斷訴訟案件數量年美國司法部及歐盟反壟斷訴訟案件數量(件)(件)數據來源:NIPS,Github,Vinai,中信建投 數據來源:DOJ,EU,中信建投 注:DOJ案件不含刑事訴訟,EU案件僅包含Antitrust/Cartels。此外,輿論環境對中小型創業公司容忍度更高也是影響大公司創新成本的要素。此外,輿論環境對中小型創業公司容忍度更高也是影響大公司創新成本的要素。包括 Meta、Google、微軟在內的科技公司此前推出類似產品時都出現過由于語言模型生成內容存在虛假、政治不正確的情況,并引發輿AI部門Ethical AI團隊Timnit GebruJeff DeanMarg
51、aret MitchellSamy Bengio負責人聯席主管聯席主管負責人2020年12月3日被辭退原因為論文發表未經內部流程審批2021年2月20日被辭退被指控將文檔轉移出公司2021年4月7日離職與下屬離職有關2021年2月20日 對處理問題的方式表示歉意2018年I/O大會谷歌推出AI服務機器人Duplex,旨在幫助替用戶撥打語音電話進行預約服務。Duplex可以模仿人類的語氣,發音也與真人十分接近。但遭到輿論批評。2018年4月谷歌與五角大樓簽署協議,計劃為利用人工智能提高無人機打擊準確性的項目Maven提供技術支持,這一舉動招致了谷歌員工和輿論界的廣泛批評。2018年6月谷歌發布了
52、人工智能十一條準則,包括谷歌進行AI研發的七個目標和谷歌AI絕不會進入的四種應用場景。2019年3月谷歌宣布成立“先進技術外部咨詢委員會”,希望通過哲學家、工程師和政策專家組成的團隊幫助解決人工智能帶來的道德風險。2019年7月谷歌陷語音監聽風波2021年10月谷歌大型語言模型 LaMDA研究人員Noam Shazeer離職2022年1月DeepMind聯合創始人Mustafa Suleyman退出谷歌2022年4月谷歌大模型研究人員David Luan、Ashish Vaswani、Niki Parmar離職2022年5月谷歌AI研究員Satrajit Chatterjee質疑Jeff De
53、an領銜的Nature論文被解雇2023年2月傳OpenAI秘密雇傭多位前谷歌AI研究人員,幫助改進ChatGPT40%45%50%55%0100020003000Top 10機構論文被接收數量(份)總論文被接收數量(份)CR 10-10 20 30 40 50195019541958196219661970197419781982198619901994199820022006201020142018Antitrust cases filed by DOJ-Civil MA(5)Antitrust cases filed by EU MA(5)Antitrust cases filed by
54、 EU+DOJ MA(5)8 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 論熱議,從而迫使產品下線。例如 2015 年 Google 將黑人女性的圖片識別為 Gorilla(大猩猩)8;2016 年微軟聊天機器人因種族歧視言論迅速被下線9;2021 年 Facebook(Meta)將黑人男性標注為 Primate(靈長類動物)10。對于大型科技公司的輿論和監管壓力天然高于創業公司11,這也導致其面臨較高的合規成本,喪失部分靈活性??偨Y來看,BERT 模型由于存在雙向路徑,實現相似效果需要的參數量更大,對計算資源的要求更高,在千億規模下表現相對弱于 GPT,且下游任務統一化利于 GPT
55、 模型。而據 OpenAI,其認為 GPT 模型規模已經接近極限,往后的效果提升需要指數級參數/數據規模提升,邊際效果提升較小,ROI 較低。在類似 Transformer 的新架構出現前,GPT 較 BERT 是更好的技術路徑,不同 GPT 模型的差異主要取決于預訓練等環節的差異。2.預訓練預訓練:差異來自數據集、知識圖譜、參數規模、訓練策略:差異來自數據集、知識圖譜、參數規模、訓練策略 預訓練環節的主要差異來自 1)訓練數據集,包括數據集規模、語料比例;2)知識圖譜的引入;3)參數規模;4)訓練策略的優化。2.1 訓練數據集訓練數據集 訓練數據集規模提升能夠提升模型預測的精度以及穩定性。訓
56、練數據集規模提升能夠提升模型預測的精度以及穩定性。在Pattern Recognition and Machine Learning3.2 節中,作者討論了隨著數據集規模提升對模型預測精度和穩定性等指標的影響。在數據量固定的情況下,模型精度和穩定性之間存在取舍,一個增加另一個就會減少。在數據量增加的情況下,這兩項之和可以進一步減小,但是噪音項是無法消除的。另一方面,訓練數據集規模的提升也會導致訓練時長、成本的提升,這會影響最終服務的成本。圖圖 15:損失函數可拆分為損失函數可拆分為 bias、variance、noise 項項 數據來源:Pattern Recognition and Mach
57、ine Learning,中信建投 但值得注意的是,數據重復會但值得注意的是,數據重復會對模型性能產生顯著負向影響。對模型性能產生顯著負向影響。Google 和 Upenn 團隊在 Deduplicating Training Data Makes Language Models Better提到,基于去重后數據集訓練的模型性能有所提升。而 Anthropic 團隊在Scaling Laws and Interpretability of Learning from Repeated Data具體研究了重復數據對模型性能的量化影響,其中 1)10%的數據重復可能會導致模型效果 50%的惡化,即
58、 2x 參數規模的模型在 10%數據重復下性能弱于 1x 8 https:/ 9 https:/ 10 https:/ 11 https:/ Meta 沒有推出類似 ChatGPT 的系統時,LeCun 回答說,因為谷歌和 Meta 都會因為推出編造東西的系統遭受巨大損失?!? 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 參數規模的模型性能12。2)這種現象可能是模型采取記憶的方式降低損失函數,圖圖 16:重復數據集下模型困惑度提升,自然數據集去重下困重復數據集下模型困惑度提升,自然數據集去重下困惑度下降惑度下降 圖圖 17:基于去重數據訓練的模型困惑度下降基于去重數據訓練的模型困惑
59、度下降 數據來源:Deduplicating Training Data Makes Language Models Better13,中信建投 注:C4 Duplicates:使用NEARDUP計算出來的帶有重復的子集,C4 Unique:使用NEARDUP去重之后的子集。數據來源:Deduplicating Training Data Makes Language Models Better,中信建投 圖圖 18:重復訓練一定次數會導致模型性能的顯著惡化重復訓練一定次數會導致模型性能的顯著惡化 圖圖 19:不同不同參數參數規模的模型受重復數據訓練的負向影響規模的模型受重復數據訓練的負向影響
60、 數據來源:Scaling Laws and Interpretability of Learning from Repeated Data,中信建投 數據來源:Scaling Laws and Interpretability of Learning from Repeated Data,中信建投 訓練數據集的多樣性有助于提升模型性能。訓練數據集的多樣性有助于提升模型性能。ERNIE 團隊在 ERNIE 1.0 時注意到引入不同種類的語料能夠提升模型預測的準確率。OpenAI 團隊在 GPT-3 論文中也引入大規模且多種類的訓練數據??傮w而言,語料多樣性越充分,高質量語料占比越高,對模型的預
61、測準確度有幫助。12 Scaling Laws and Interpretability of Learning from Repeated Data:“We showed that a dataset with only 10%repeated tokens can reduce model performance by an effective 2x in parameter count,much more than if that 10%of the data had simply never been trained on.”13 另外,論文提到數據集“重復”與通常意義的論文查重不同,
62、因為數據量較大情況下完全相似的概率很低,因此一般是以“一定長度的連續子串的重復”作為標準,這里的一定長度則是存在主觀裁量空間的(ExactSubstr);此外,研究團隊使用相似性哈希算法 MinHash 直接近似計算整個訓練樣本的相似度,作為精確字符串匹配的補充,(NearDup)。10 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 表表 2:訓練語料引入多輪對話后模型預測準確率提升訓練語料引入多輪對話后模型預測準確率提升 Corpus proportion(10%of all training data)Dev Accuracy Test accuracy Baike(100%)76
63、.50%75.90%Baike(84%)/news(16%)77.00%75.80%Baike(71.2%)/news(13%)/forum Dialogue(15.7%)77.70%76.80%資料來源:ERNIE:Enhanced Representation through Knowledge Integration,中信建投 注:ERNIE模型的訓練數據集主要是百度生態內數據,例如百度百科、百度新聞、百度貼吧。代碼代碼訓練語料也可能對訓練語料也可能對 CoT 能力產生較大影響。能力產生較大影響。根據 Mirac Suzgun(2022)等人的研究14,基于代碼和文本數據訓練的 Code
64、x 模型在基于提示遵循任務指令、探索算法規律方面表現優于 InstructGPT 和 PaLM。更進一步,學界/業界希望分析出具體哪一因素導致 CoT 能力產生(主要區分 fine-tuned/代碼訓練),因而進行對比研究。Jason Wei 在第一版論文(https:/arxiv.org/pdf/2201.11903v1.pdf)提到,GPT-3 text-davinci-001 在 GSM8K 測試集上表現的推理能力較弱,而text-davinci-001是完全基于文本訓練的模型。在論文第五版中 GPT-3 text-davinci-002/Codex code-davinci-002 在
65、 GSM8K 測試集上表現明顯提升。而 Percy Liang 等研究15總結基于代碼訓練的模型在推理能力方面強于非代碼訓練的模型,其測試集中平均推理能力 Codex cushman v1 位列(9/30),Codex davinci v2(1/30)。因此推理能力來自代碼訓練的可能性更大,代碼訓練對提升推理能力有明顯幫助。圖圖 20:CoT Prompt 對對不同規模、語料訓練下模型性能的影響不同規模、語料訓練下模型性能的影響 數據來源:Challenging BIG-Bench tasks and whether chain-of-thought can solve them,中信建投 注
66、:InstructGPT models 縮寫如下:a-1(text-ada-001),b-1(text-babbage-001),c-1(text-curie-001),d-1(text-davinci-001),and d-2(text-davinci-002).Codex models縮寫如下:c-1(code-cushman-001),d-1(code-davinci-002),and d-2(code-davinci-002).更進一步的佐證是更進一步的佐證是 Zero-Shot Prompting。根據 Takeshi Kojima 等人的研究16,通過加入“Lets think s
67、tep by step”提示,模型的表現有顯著提升。且根據Scaling Instruction-Finetuned Language Models,Finetune 計算量僅占預訓練的很小比例,因此更大可能邏輯推理能力是預訓練模型本身具備的,CoT Prompt 激活了這類能力。14 Challenging BIG-Bench tasks and whether chain-of-thought can solve them原文如下“Codex,trained on both code and text data,shows better performance in following t
68、ask instructions and exploiting algorithmic patterns based on the prompt exemplars compared to InstructGPT and PaLM.”15 Holistic Evaluation of Language Models。16 Large Language Models are Zero-Shot Reasoners。11 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 21:指令微調相對預訓練計算量占比很小指令微調相對預訓練計算量占比很小 數據來源:Scaling Instructio
69、n-Finetuned Language Models,中信建投 此外,訓練數據集的規模也對模型性能提升有所幫助。DeepMind 團隊 2022 年 3 月的研究指出17,現有的大語言模型主要聚焦參數規模的擴張,但在訓練數據集規模的擴大上存在不足,而實驗表明數據集大小與參數規模同步(不意味著同比例)擴張能夠進一步提升模型性能,為大模型優化效率提供一個新的思路。圖圖 22:固定計算量,改變模型大小固定計算量,改變模型大小,存在最優參數規模,存在最優參數規模 圖圖 23:固定固定計算量計算量,得到模型參數規模與訓練量的關系得到模型參數規模與訓練量的關系 數據來源:Training Compute
70、-Optimal Large Language Models,中信建投 數據來源:Training Compute-Optimal Large Language Models,中信建投 圖圖 24:將前述實驗參數擬合函數,得到固定計算量模型規模、訓練量與模型性能的曲線將前述實驗參數擬合函數,得到固定計算量模型規模、訓練量與模型性能的曲線 數據來源:Training Compute-Optimal Large Language Models,中信建投 17 Training Compute-Optimal Large Language Models。12 美股公司深度報告 百度百度 請參閱最后一
71、頁的重要聲明 圖圖 25:GPT-3 等模型參數規模過大,訓練量不足,有進一步提升空間等模型參數規模過大,訓練量不足,有進一步提升空間 數據來源:Training Compute-Optimal Large Language Models,中信建投 2.2 知識圖譜知識圖譜 將知識圖譜引入大語言模型存在幾種形式:1)生成“主體、關系、客體(subject entity,relation,object entity)”的文本知識庫,并應用于標準的任務訓練中;2)在句子層面抽取/生成與知識圖譜形式對應的數據,應用于任務訓練中(ERNIE、KELM18、SKILL19等)。這些形式目前存在生成成本過
72、高(規?;y度大),且并非所有知識都能轉化為“主體、關系、客體”形式,因而可能存在信息遺漏等問題。ERNIE 1.0 模型相比模型相比 BERT 最大的變化就是引入知識圖譜,從而提升預測準確度。最大的變化就是引入知識圖譜,從而提升預測準確度。2019 年 4 月 ERNIE 團隊提出基于 BERT 的改進掩碼策略,1)在單詞級別隨機生成掩碼并引導模型預測(basic-level masking),2)詞組級別(phrase-level masking)、實體級別(entity-level masking)隨機生成掩碼并引導模型預測。例如:哈利波特是 J.K.羅琳寫的小說。單獨預測哈MASK波特
73、或者 J.K.MASK琳情況下,模型無法學到哈利波特和J.K.羅琳的關系。如果把哈利波特直接 MASK 掉的話,那模型可以根據作者,就預測到小說這個實體,實現知識的學習。圖圖 26:ERNIE、BERT 掩碼策略差異掩碼策略差異 數據來源:ERNIE:Enhanced Representation through Knowledge Integration,中信建投 18 Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training。19 SKILL:St
74、ructured Knowledge Infusion for Large Language Models。13 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 表表 3:不同掩碼策略及數據集規模下的模型預測準確率不同掩碼策略及數據集規模下的模型預測準確率 Pre-training dataset size Mask strategy Dev accuracy Test accuracy 10%of all word-level(chinese character)77.70%76.80%10%of all word-level&phrase-level 78.30%77.30%10%o
75、f all word-level&phrase-leve&entity-level 78.70%77.60%All word-level&phrase-level&entity-level 79.90%78.40%資料來源:ERNIE:Enhanced Representation through Knowledge Integration,中信建投 Google 與與 EPFL 團隊將知識圖譜引入團隊將知識圖譜引入 T5 模型也取得了明顯的效果提升。模型也取得了明顯的效果提升。相比 ERNIE 團隊及 Google(KELM)此前的工作,SKILL 的改進主要是引入 Wikipedia 等知
76、識圖譜庫直接用于訓練,而無需將原始數據處理、對齊成知識圖譜庫的形式。引入知識圖譜后,T5 模型在問答等測試集上表現有所提升。圖圖 27:直接注入知識圖譜后模型效果提升明顯直接注入知識圖譜后模型效果提升明顯 數據來源:SKILL:Structured Knowledge Infusion for Large Language Models,中信建投 引入知識圖譜在引入知識圖譜在性能方面的提升是以推理速度為代價的。性能方面的提升是以推理速度為代價的。根據吉林大學等團隊研究,盡管 KG-BERT、StAR 在引入知識圖譜后模型在一些測試集的表現有所提升,這種提升是同一量級內的,但模型的推理速度則較傳
77、統的 RotatE 慢了百倍至千倍的水平,這可能會成為知識圖譜在 LLM 領域應用的瓶頸之一。圖圖 28:StAR、KG-BERT 相比傳統的相比傳統的 RotatE 方法在性能上有所提升,但方法在性能上有所提升,但極大地極大地犧牲了推理速度犧牲了推理速度 數據來源:Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion,中信建投 14 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 2.3 參數規模參數規模 不受其他因素制約的情況下,參數規模提升會驅動模型性能穩步
78、提升。不受其他因素制約的情況下,參數規模提升會驅動模型性能穩步提升。OpenAI 在Scaling Laws for Neural Language Models提到,當模型參數規模、訓練數據集規模、計算資源投入提升時,大模型的性能會平穩地提高。為實現最佳性能,這三個因素需要以特定比例同步提升。實證表明模型綜合性能與每個因素都存在一個冪律關系。圖圖 29:模型參數規模、訓練數據集規模、計算資源投入提升與模型性能提升存在模型參數規模、訓練數據集規模、計算資源投入提升與模型性能提升存在 Scaling Law 數據來源:Scaling Laws for Neural Language Models
79、,中信建投 圖圖 30:模型參數規模、訓練數據集規模、計算資源投入需要成比例地同步提升模型參數規模、訓練數據集規模、計算資源投入需要成比例地同步提升 數據來源:Scaling Laws for Neural Language Models,中信建投“涌現”可能是度量選擇的結果?!坝楷F”可能是度量選擇的結果。斯坦福大學團隊在Are Emergent Abilities of Large Language Models a Mirage?對大模型涌現現象提出思考,過往模型能力非線性的提升被稱為涌現,而這種現象背后可能是打分函數的非線性導致的。研究團隊重構打分函數并基于 GPT 系列模型進行測試,結
80、果顯示涌現現象消失。圖圖 31:在在 BIG-Bench 任務中,任務中,92%的涌現能力是這兩個度量下出現的的涌現能力是這兩個度量下出現的 數據來源:Are Emergent Abilities of Large Language Models a Mirage?,中信建投 15 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 32:將打分函數修改為接近線性函數后模型性能與參數規模的關系回歸線性(未出現涌現現象)將打分函數修改為接近線性函數后模型性能與參數規模的關系回歸線性(未出現涌現現象)數據來源:Are Emergent Abilities of Large Language
81、 Models a Mirage?,中信建投 圖圖 33:對于多項選擇,換成對于多項選擇,換成 brier score(MSE)也使得也使得涌現現象涌現現象消失消失 數據來源:Are Emergent Abilities of Large Language Models a Mirage?,中信建投 16 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 2.4 訓練策略的優化訓練策略的優化 訓練效率優化主要來自內存和硬件/算法的優化,而計算效率優化還包括數據篩選、加速器優化、初始策略優化、稀疏訓練、大批量訓練等。圖圖 34:目前學界目前學界/業界提升模型計算效率的策略分類業界提升模型計算
82、效率的策略分類 數據來源:A Survey on Efficient Training of Transformers,中信建投 2.4.1 加速優化器 Adam 在在 Transformer 架構模型上優于架構模型上優于 SGD with momentum,且坐標剪裁(,且坐標剪裁(CClip)優于全局剪裁()優于全局剪裁(GClip)。MIT 和 Google 研究團隊在Why Adam beats SGD for attention models提到 SGD with momentum 在多數任務上表現好于自適應方法,但在注意力機制模型(如 BERT)Adam 收斂速度、穩定性好于 SG
83、D with momentum。而研究團隊指出,SGD 表現不佳的原因主要是 BERT 模型規模通常更大,且呈現厚尾分布,而 ImageNet 的隨機梯度分布更接近高斯分布。BERT 模型隨機梯度的厚尾分布導致,一些隨機梯度大于平均值從而致使 SGD 的過度更新,因而 SGD 不穩定,最終收斂效果不如 Adam。此外,團隊提出 ACClip,收斂速度和穩定性優于 Adam。圖圖 35:ADAM 優化器預訓練表現優于優化器預訓練表現優于 SGD with momentum 圖圖 36:ADAM 優化器預訓練表現弱于優化器預訓練表現弱于 SGD with momentum 數據來源:Why Ada
84、m beats SGD for attention models,中信建投 數據來源:Why Adam beats SGD for attention models,中信建投 17 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 37:BERT 模型模型 Noise 呈現厚尾分布(呈現厚尾分布(heavy-tailed distribution),而),而 ImageNet 的的 Nosie 分布更接近高斯分布分布更接近高斯分布 數據來源:Why Adam beats SGD for attention models,中信建投 圖圖 38:Attention 機制和數據都會導致厚尾
85、分布機制和數據都會導致厚尾分布 數據來源:Why Adam beats SGD for attention models,中信建投 Google 團隊提出團隊提出 Lion 優化器優化器,效果、效率均優于,效果、效率均優于 Adam 相關算法相關算法。Google 團隊于 2023 年 2 月提出了 Lion優化器,此前流行的 AdamW 等自適應優化器需要同時保存一階和二階矩相比,Lion 只需要動量,這意味著內存占用降低,且在語言、視覺、多模態等模型訓練效果上和效率是均優于 AdamW 等傳統優化器。圖圖 39:Lion 優化器在不同參數規模的語言模型下總體表現優于優化器在不同參數規模的語
86、言模型下總體表現優于 AdamW 數據來源:Symbolic Discovery of Optimization Algorithms,中信建投 18 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 40:Lion 優化器在不同參數規模的視覺模型下表現優于優化器在不同參數規模的視覺模型下表現優于 AdamW 數據來源:Symbolic Discovery of Optimization Algorithms,中信建投 圖圖 41:視覺模型訓練上視覺模型訓練上 Lion 相比相比 AdamW 訓練速度提升了訓練速度提升了 35 倍倍 數據來源:Symbolic Discovery o
87、f Optimization Algorithms,中信建投 注:左圖是在ImageNet ReaL數據集上訓練,右圖是在ImageNet V2數據集訓練。圖圖 42:語言模型訓練上語言模型訓練上 Lion 相比相比 AdamW 訓練速度提升了訓練速度提升了 1.52 倍倍 數據來源:Symbolic Discovery of Optimization Algorithms,中信建投 注:左圖是在Wiki-40B數據集上訓練,右圖是在PG-19數據集訓練。技術細節上,Lion 相比 AdamW 而言減少了參數,并減少了緩存參數,在計算過程中去除了開根號和除法,因而實現計算速度提升,并減低內存占
88、用。相比 AdamW,Lion 對模型所有參數引入 Sign(相當于增加額外噪聲),使得模型進入損失更平坦的區域,從而泛化性能更好。19 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 43:AdamW 和和 Lion 優化器算法對比優化器算法對比 數據來源:Symbolic Discovery of Optimization Algorithms,中信建投 圖圖 44:Lion 訓練下模型性能更優,且訓練下模型性能更優,且 Loss 更平坦更平坦 數據來源:Symbolic Discovery of Optimization Algorithms,中信建投 針對視覺模型的優化器,
89、Google 研究團隊在 2021 年提出 Sharpness-aware minimization 方法,提升模型的泛化能力和穩健性。2021 年 10 月 NUS 研究團隊提出 ESAM,在不損失性能的情況下通過引入隨機權重擾動和銳度敏感型數據篩選,大幅降低 SAM 的計算成本。由于擾動參數的隨機選擇,后向傳播過程中的計算成本下降,同時確保泛化能力不下降;另一方面針對小批量數據計算梯度更新,而不是全部樣本數據,進一步節約計算量,同時這種篩選后計算的上界會被全樣本計算的上界所約束,因此整體性能不會下降。2022 年 5 月NUS 和字節跳動團隊進一步提出 SAF,引入 KL-divergen
90、ce 實現 Loss 的平滑收斂,降低成本同時提升性能。圖圖 45:SAM 提升了模型對標簽噪聲的穩健性,并優化了模型訓練效率提升了模型對標簽噪聲的穩健性,并優化了模型訓練效率,ESAM 降低了計算成本降低了計算成本 數據來源:Sharpness-aware minimization for efficiently improving generalization,Efficient sharpness-aware minimization for improved training of neural networks,中信建投 20 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖
91、圖 46:SAF、ESAM、SAM、Vanilla(SGD)在)在 ImageNet 上的性能、效率對比上的性能、效率對比 數據來源:Sharpness-Aware Training for Free,中信建投 2.4.2 初始化策略 良好的初始化策略對于穩定訓練、提高學習率、良好的初始化策略對于穩定訓練、提高學習率、加速收斂,并提高泛化能力至關重要。加速收斂,并提高泛化能力至關重要。MIT 和 Google 研究團隊202019 年 1 月提出 Fixed-update(Fixup)初始化策略,并指出在不做歸一化(Normalization)情況下,深度殘差網絡也可以實現穩定訓練,并且收斂速
92、度和泛化性能保持一致。在 ResNet 中如果初始化時不做歸一化處理,隨著深度增加,方差擴大容易導致梯度爆炸。研究團隊提出的初始化策略通過調整標準初始化來確保網絡函數的更新保持在恰當范圍內。作者用 表示學習率,將目標設置如下圖所示。其目標是使網絡函數的 SGD更新保持在合適范圍內,且獨立于網絡深度。最終 Fixup 在訓練性能上總體表現較好。圖圖 47:Fixup 初始化策略初始化策略 數據來源:Fixup initialization:Residual learning without normalization,中信建投 圖圖 48:以默認學習率在以默認學習率在 CIFAR-10 數據集數
93、據集訓練性能對比訓練性能對比 圖圖 49:Fixup 與與 LN 在機器翻譯任務上的表現(分數越高越好)在機器翻譯任務上的表現(分數越高越好)數據來源:Fixup initialization:Residual learning without normalization,中信建投 數據來源:Fixup initialization:Residual learning without normalization,中信建投 20 Fixup initialization:Residual learning without normalization。21 美股公司深度報告 百度百度 請參閱最后一
94、頁的重要聲明 2020 年 3 月 UCSD21研究團隊進一步提出 Rezero,在傳統的殘差連接+1=+()基礎上加入學習參數,調整為+1=+(),其中初始值為 0。研究團隊以一個簡單實驗說明初始值為 0 的好處。假設現在有一模型有層,每一層只有一個神經元,而且所有層都共享這一個神經元,則模型輸出可表示為:=(1+)0,傳統殘差連接中初始值為 1,且初始化 1,則 2,這導致輸入項較小的擾動可能造成輸出項的較大變化,因而梯度非常不穩定。而初始值為 0 時,梯度會更穩定。圖圖 50:模型擬合模型擬合=的對數等高線示意圖,左圖是使用二次損失的損失圖,右圖是對應的梯度范數的對數等高線示意圖,左圖是
95、使用二次損失的損失圖,右圖是對應的梯度范數 數據來源:ReZero is All You Need:Fast Convergence at Large Depth,中信建投 注:紅線是初始化=0和不同的初始化在訓練中的變化軌跡。具體在訓練 Transformer 模型時,當層數為 4 層時,保持在 1 附近,這就表明輸入的變化既不會造成輸出的太大變化,也能使得模型得以訓練。而當層數增加,尤其是增加到 64 層時,該值非常小,這說明輸入的較大變化只會導致輸出的較小變化,模型難以訓練。使用 ReZero 后,Transformer 訓練時基本維持在 1 附近。最終研究團隊在 12 層 Transf
96、ormer 模型下對比了 ReZero 與 Norm 的訓練速度和迭代次數,結果顯示 ReZero 速度更快,迭代次數更少,相比原始 Transformer 收斂速度提升 56%。圖圖 51:Transformer 輸出輸出-輸入的輸入的 Jacobian 矩陣中的奇異值矩陣中的奇異值在不同層的模型下的分布在不同層的模型下的分布,ReZero 在在 Transformer 架構下架構下收斂速度提升收斂速度提升 56%數據來源:ReZero is All You Need:Fast Convergence at Large Depth,中信建投 注:橫軸取對數,()=0時,=1。2020 年 2
97、 月 Google22研究團隊提出 SkipInit,也采取了與 ReZero 相同的殘差連接以及=0設定。Google 團隊在研究中量化對比了 BN 和 SkipInit 的優劣:a)Skipinit 訓練下模型測試準確率弱于 Batch Norm,但好于不進 21 ReZero is All You Need:Fast Convergence at Large Depth。22 Batch Normalization Biases Residual Blocks Towards the Identity Function in Deep Networks。22 美股公司深度報告 百度百度
98、請參閱最后一頁的重要聲明 行 Batch Norm 的情況,且進行 Batch Norm 與 Skipinit 在 Batch Size 小于等于 128 的時候差距相對較小,大于128 規模后性能差距逐步擴大;b)Skipinit 訓練下當 Batch Size 小于等于 1024 時,模型損失 Batch Norm。究其原因,Batch Norm 在大規模參數訓練下的學習率能夠保持較高水平,而 Skipinit 的規?;芰ο鄬^弱。圖圖 52:Skipinit 與與 BN 在不同批規模下的數據對比在不同批規模下的數據對比 數據來源:Batch normalization biases r
99、esidual blocks towards the identity function in deep networks,中信建投 2.4.3 稀疏訓練 稀疏訓練主要是面向超大參數規模模型的訓練和部署,通過移除部分權重,模型訓練可以節約部分計算量,且減少內存占用,實現更好地壓縮效果,降低部署和訓練門檻。稀疏訓練領域的經典論文來自 MIT 研究團隊2018 年 3 月發表的The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neural Networks,作者通過對比非結構化剪枝和中獎彩票曲線發現,中獎彩票能較快的訓練,并達到跟原網絡相
100、似的精度。同時表明網絡越稀疏學習越慢,導致最終的測試精度越低。因此,研究團隊提出彩票假設:隨機初始化的密集神經網絡包含一個初隨機初始化的密集神經網絡包含一個初始化的子網,當經過隔離訓練時,它可以匹配訓練后最多相同迭代次數的原始網絡的測試精度。始化的子網,當經過隔離訓練時,它可以匹配訓練后最多相同迭代次數的原始網絡的測試精度。圖圖 53:以不同規模開始訓練時,會發生提前停止迭代(左)和該迭代以不同規模開始訓練時,會發生提前停止迭代(左)和該迭代的的準確性(右)準確性(右)數據來源:The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neu
101、ral Networks,中信建投 注:在虛線是隨機抽樣的稀疏網絡(十次試驗的平均值),實線是中獎彩票(五次試驗的平均值)。由于由于 LTH 需要訓練需要訓練-剪枝剪枝-再訓練的過程來識別彩票,因而計算成本較高,后續的研究主要聚焦降低上述過再訓練的過程來識別彩票,因而計算成本較高,后續的研究主要聚焦降低上述過 23 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 程的成本。程的成本。典型技術路線包括 1)通過測量連接對損失的重要性,在初始化時一次找到稀疏網絡,無需復雜的迭代優化計劃;2)在 Transformer 模型訓練早期低成本識別彩票并逐步訓練至收斂;3)在訓練過程中逐步進行有選擇
102、性地剪枝。另外,另外,UCB 和清華大學團隊的研究則挑戰了“和清華大學團隊的研究則挑戰了“訓練訓練-剪枝剪枝-微調”這一觀點。微調”這一觀點。所謂訓練-剪枝-微調本質上是隱含假設了參數和結構是耦合的,如果參數和結構可以解耦,剪枝后模型不需要微調也能達到較好效果。在Rethinking the Value of Network Pruning中,研究團隊系統地對比了結構性剪枝和非結構性剪枝,不同學習率下剪枝后模型與 Fine-tuned 模型性能對比,結果顯示 1)對于結構性剪枝后的模型,隨機初始化從頭訓練后可以達到和 Fine-tuned 后相同甚至更好的效果;2)對于非結構性剪枝后的模型,在
103、 CIFAR 數據集上,隨機初始化從頭訓練后可以達到和 Fine-tuned 后相同甚至更好的效果;但在 ImageNet 數據集上,剪枝率大到一定程度,隨機初始化從頭訓練后無法達到和 Fine-tuned 后相同的效果。圖圖 54:在不同數據集在不同數據集/模型模型/剪枝率條件下剪枝率條件下結構性剪枝后模型重新訓練后性能結構性剪枝后模型重新訓練后性能總體優于總體優于 Fine-tuned 模型模型 數據來源:Rethinking the Value of Network Pruning,中信建投 圖圖 55:非結構性剪枝模型在非結構性剪枝模型在 CIFAR 與與 ImageNet、不同剪枝率
104、下表現有所分化、不同剪枝率下表現有所分化 數據來源:Rethinking the Value of Network Pruning,中信建投 基于Rethinking the Value of Network Pruning的結論,對于結構性剪枝,其繁瑣流程帶來的計算成本高 24 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 企得以解決,后續的研究思路更多聚焦對剪枝的搜索、優化;而對于非結構性剪枝,前述結論在不同數據集上并非普遍成立,這意味著仍需進一步的研究。2.4.4 過參數 一些觀點認為深度神經網絡往往存在參數數倍于數據量的情況,從而出現模型在訓練集上表現很好,但在實際應用中泛化能
105、力不強,這對應下方(a)圖,但俄亥俄州立大學、哥倫比亞大學的研究團隊在 2018 年 12 月Reconciling modern machine learning practice and the bias-variance trade-of指出隨著復雜度提升,模型存在一個二次下降風險曲線(Double descent risk curve),對應下方(b)圖。圖圖 56:當復雜度超過一定界限后,過擬合風險會下降當復雜度超過一定界限后,過擬合風險會下降 數據來源:Reconciling modern machine learning practice and the bias-varianc
106、e trade-of,中信建投 圖圖 57:Double descent risk curve for RFF model on MNIST 圖圖 58:Double descent risk curve for fully connected neural network on MNIST 數據來源:Reconciling modern machine learning practice and the bias-variance trade-of,中信建投 數據來源:Reconciling modern machine learning practice and the bias-vari
107、ance trade-of,中信建投 一個疑問是為何一個疑問是為何過擬合的風險隨著參數規模提升而減???過擬合的風險隨著參數規模提升而減???一種一種解釋是過擬合會促使模型產生冗余解釋是過擬合會促使模型產生冗余,冗余是,冗余是減少減少 co-adaption 的必要條件,這會導致模型穩健性、泛化能力的提升的必要條件,這會導致模型穩健性、泛化能力的提升。而多倫多大學 2012 年 7 月的研究表明,通過 Dropout23一些特征檢測器,模型訓練能夠防止 co-adaptation。Co-adapt 則是來自研究團隊對A mixability theory for the role of sex i
108、n evolution的聯想,即性別打破了基因的共同適應(co-adapt),由此映射到深度神經網絡中,對應大規模參數 co-adapt 的效果不如非 co-adapt 的其他參數組合好。這種特性避免了人類在進化中進 23 以特定概率隨機刪除網絡中的隱藏單元。Improving neural networks by preventing co-adaptation of feature detectors研究中這一概率是 50%。25 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 入困境,并且避免了環境的微小變化導致人類適應能力大幅減弱的情況,而這在機器學習中稱為“過度擬合”。圖圖 5
109、9:基于基于 MNIST 測試集,測試集,采取采取 Dropout 策略的策略的測試效果測試效果顯著優于未采用顯著優于未采用 Dropout 策略策略 圖圖 60:基于基于 MNIST 測試集,測試集,采取不同采取不同 Dropout 策略的效果策略的效果 數據來源:Improving neural networks by preventing co-adaptation of feature detectors,中信建投 數據來源:Improving neural networks by preventing co-adaptation of feature detectors,中信建投 過
110、參數化過參數化有益于有益于訓練訓練,但部署、,但部署、推理推理環節仍需壓縮、剪枝環節仍需壓縮、剪枝。前述多倫多大學 2012 年 7 月的研究指明了過參數化對模型穩健性和泛化能力的幫助。后續的工作也驗證了過參數化對訓練的增益作用,例如普林斯頓大學和Google 的研究團隊 2018 年 6 月24指出線性神經網絡中,過參數帶來的模型結構復雜度提升(尤其是模型層數增加)會加速 SGD 收斂的速度。斯坦福大學和威斯康星麥迪遜分校的研究團隊252019 年 8 月將上述結論拓展至 2層非線性模型;2018 年 11 月微軟、斯坦福大學和威斯康星麥迪遜分校的研究團隊26通過理論推理將結論拓展至二層以上
111、的神經網絡。過參數的研究也與稀疏訓練有所呼應,因為延續此前的研究,一個自然的思路就是在訓練階段擴大參數規模有利于訓練,但在部署、推理環節則可以通過剪枝、壓縮等技術降低負載。2020 年 2 月,UCB 團隊27指出給定計算資源約束下,最優策略是訓練大模型,再進行剪枝、壓縮。圖圖 61:模型規模擴大有利于模型性能提升,且剪枝后模型推理準確性更高模型規模擴大有利于模型性能提升,且剪枝后模型推理準確性更高 數據來源:Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Trans
112、formers,中信建投 24 On the Optimization of Deep Networks:Implicit Acceleration by Overparameterization。25 Learning Overparameterized Neural Networks via Stochastic Gradient Descent on Structured Data。26 Learning and Generalization in Overparameterized Neural Networks,Going Beyond Two Layers。27 Train Lar
113、ge,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers。26 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 62:大模型訓練速度更快大模型訓練速度更快 圖圖 63:大模型壓縮后效果更優大模型壓縮后效果更優 數據來源:Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers,中信建投 數據來源:Train Larg
114、e,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers,中信建投 圖圖 64:大模型剪枝、量化后均更穩健大模型剪枝、量化后均更穩健 數據來源:Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers,中信建投 圖圖 65:大模型量化大模型量化+剪枝后效果好于小模型剪枝后效果好于小模型 圖圖 66:模型模型規模與規模與預訓練收斂預
115、訓練收斂對對大模型的可壓縮性大模型的可壓縮性的影響的影響 數據來源:Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers,中信建投 數據來源:Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers,中信建投 27 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 2.4.5 大批量訓練 大批量訓練主要
116、是提升單批次訓練的數據量,從而實現加速訓練的效果,但大批量訓練也會帶來訓練難以收斂等副產物。因此,學界的主要研究方向就是平衡二者的關系,盡可能實現整體訓練效率的提升。圖圖 67:增大批處理規模會使得訓練從平緩底部轉向更陡峭的底部增大批處理規模會使得訓練從平緩底部轉向更陡峭的底部 數據來源:On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima,中信建投 西北大學和 Intel 的研究團隊 2016 年 9 月指出,增大批處理規模會使得訓練從平緩底部轉向更陡峭的底部。研究團隊通過實驗表明小批量訓練
117、策略的模型精度更好,且大批量訓練準確率和交叉熵的 Loss 都收斂于更陡峭的區間,而小批量訓練模型則收斂于更平緩的區間。圖圖 68:比較大批量訓練與小批量訓練策略下的模型性能比較大批量訓練與小批量訓練策略下的模型性能 數據來源:On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima,中信建投 表表 4:不同網絡的設定不同網絡的設定 名稱名稱 網絡結構網絡結構 數據集數據集 1 Fully Connected MNIST 2 Fully Connected TIMIT 1(Shallow)Conv
118、olutional CIFAR-10 2(Deep)Convolutional CIFAR-10 3(Shallow)Convolutional CIFAR-100 4(Deep)Convolutional CIFAR-100 資料來源:On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima,中信建投 28 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 69:F1 網絡交叉熵網絡交叉熵 Loss 與準確率收斂情況(與準確率收斂情況(LB,=1)圖圖 70:F2 網絡交叉熵網絡交叉熵
119、 Loss 與準確率收斂情況(與準確率收斂情況(SB,=0)數據來源:On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima,中信建投 數據來源:On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima,中信建投 圖圖 71:C1 網絡交叉熵網絡交叉熵 Loss 與準確率收斂情況與準確率收斂情況 圖圖 72:C2 網絡交叉熵網絡交叉熵 Loss 與準確率收斂情況與準確率收斂情況 數據來源:On La
120、rge-Batch Training for Deep Learning:Generalization Gap and Sharp Minima,中信建投 數據來源:On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima,中信建投 圖圖 73:C3 網絡交叉熵網絡交叉熵 Loss 與準確率收斂情況與準確率收斂情況 圖圖 74:C4 網絡交叉熵網絡交叉熵 Loss 與準確率收斂情況與準確率收斂情況 數據來源:On Large-Batch Training for Deep Learning:Gen
121、eralization Gap and Sharp Minima,中信建投 數據來源:On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima,中信建投 收斂于平緩區間意味著更低的精度,更好的泛化能力收斂于平緩區間意味著更低的精度,更好的泛化能力,因而大批量訓練存在性能損失,因而大批量訓練存在性能損失。根據 Flat minima,收斂于平緩區間意味著更低的精度。而結合 MDL 及A universal prior for integers and estimation by minimum 29
122、 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 description length,低精度的統計模型具備更好地泛化性能。平緩的最小值相比陡峭的最小值具有更低的精度,因而擁有更好的泛化能力,大批量訓練存在性能損失。Meta 研究團隊 2017 年 6 月28則提出通過調整學習率(learning rate),以及配合 Warm-up 等操作,基于ResNet-50 大批量訓練的性能損失能夠顯著減少,但后續 UCB、CMU 和英偉達團隊 2017 年 8 月的研究29表明這一方法難以推廣至其他模型,并因此提出基于 SGD 的 LARS 優化器。圖圖 75:通過通過調整學習率,調整學習率,
123、ResNet-50 mini-batch 訓練可實現訓練可實現 8K 內性能不損失內性能不損失 數據來源:Accurate,Large Minibatch SGD:Training ImageNet in 1 Hour,中信建投 注:1K=1024。圖圖 76:對于對于 AlexNet 網絡,不同層的權值和其梯度的范數的比值差異很大網絡,不同層的權值和其梯度的范數的比值差異很大 數據來源:Large Batch Training of Convolutional Networks,中信建投 注:如果比值差異很大,增大Batch size,同時提升learning rate,可能會導致一些層無法
124、更新權重。28 Accurate,Large Minibatch SGD:Training ImageNet in 1 Hour。29 Large Batch Training of Convolutional Networks。30 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 77:LARS 優化器主要根據范數的比值來調節每一層的學習率優化器主要根據范數的比值來調節每一層的學習率 數據來源:Large Batch Training of Convolutional Networks,中信建投 圖圖 78:W/O LARS 時時 AlexNet-BN 8K 訓練存在性能損失訓練
125、存在性能損失 圖圖 79:W/LARS 時時 AlexNet-BN 8K 訓練不存在性能損失訓練不存在性能損失 數據來源:Large Batch Training of Convolutional Networks,中信建投 數據來源:Large Batch Training of Convolutional Networks,中信建投 圖圖 80:LARS 優化器將優化器將 ResNet 50 無損訓練批量提升至無損訓練批量提升至 32K 數據來源:Large Batch Training of Convolutional Networks,中信建投 31 美股公司深度報告 百度百度 請參閱
126、最后一頁的重要聲明 由于 LARS 優化器在 BERT 等模型應用仍存在缺陷,谷歌、UCB、UCLA 團隊于 2020 年 4 月提出30基于Adam 的 LAMB 優化器,將此前的思路移植到 Attention 機制的相關模型,例如 BERT,并實現較好的效果。圖圖 81:LARS 與與 LAMB 算法對比算法對比 數據來源:Large Batch Optimization for Deep Learning:Training BERT in 76 minutes,中信建投 圖圖 82:LAMB 優化器訓練下優化器訓練下 BERT 模型的訓練批量可擴展至模型的訓練批量可擴展至 32K 數據來
127、源:Large Batch Optimization for Deep Learning:Training BERT in 76 minutes,中信建投 后續的研究更多是通過實驗發現一些工程方面的技巧,后續的研究更多是通過實驗發現一些工程方面的技巧,例如 Gooogle 團隊在 2022 年 4 月 PaLM 論文中指出在 checkpoint 前約 100 步重啟訓練,并跳過 200500 個數據批能夠有效提升大語言模型訓練過程的穩定性;UCL 團隊 2022 年 9 月研究31指出通過將網絡權重調整為過去 K 個 Checkpoint 時網絡權重的移動平均值,模型訓練得以加速收斂并實現更
128、好的效果。圖圖 83:K 值過高反而會導致模型性能惡化值過高反而會導致模型性能惡化 圖圖 84:K 值值越高會加速模型訓練收斂速度越高會加速模型訓練收斂速度 數據來源:Stop Wasting My Time!Saving Days of ImageNet and BERT Training with Latest Weight Averaging,中信建投 數據來源:Stop Wasting My Time!Saving Days of ImageNet and BERT Training with Latest Weight Averaging,中信建投 30 Large Batch Op
129、timization for Deep Learning:Training BERT in 76 minutes,論文一作尤洋也是 LARS 論文一作(其在英偉達實習期間的研究工作)。加入谷歌后,其延續此前工作思路,提出 LAMB 優化器。31 Stop Wasting My Time!Saving Days of ImageNet and BERT Training with Latest Weight Averaging。32 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 2.4.6 增量學習 增量學習的能力就是不斷地處理連續信息流,在吸收新知識的同時保留甚至整合、優化舊知識的能力
130、。學界的主要技術路徑有 1)正則化;2)回放;3)參數隔離等。圖圖 85:增量學習的技術路徑增量學習的技術路徑主要有三類:正則化、回放、參數隔離主要有三類:正則化、回放、參數隔離 數據來源:A continual learning survey:Defying forgetting in classification tasks,中信建投 正則化的思路主要是“通過給新任務的損失函數施加約束的方法來保護舊知識不被新知識覆蓋”。正則化的思路主要是“通過給新任務的損失函數施加約束的方法來保護舊知識不被新知識覆蓋”。正則化領域的經典研究來自 UoI 研究團隊 2016 年 6 月的 Learning
131、without Forgetting 算法32(LwF),LwF 算法基于原模型在新任務上的預測值,在損失函數中加入新模型輸出的蒸餾損失,并通過微調在新任務上訓練模型,從而避免新模型偏離原有模型過遠導致而在原任務上性能的下降。但 LwF 也存在一些缺陷,例如新舊任務相關度不高時,學習的效果較弱,且多任務下訓練時長可能較長。韓國科學技術學院(KAIST)的研究團隊 2016 年 7 月提出 Less-Forgetting Learning(LFL)方法33,并指出mini-batch訓練是遺忘問題的來源之一;USC、ASU和三星的研究團隊2020年1月提出Deep Model Consolida
132、tion34(DMC)方法。這些方法與 LwF 類似,都是存在數據依賴,如果前后任務相關度不高,則容易出現訓練效果不好的情況。另一個正則化的思路則是 Prior-focused(先驗),其基本原理是有選擇性的減緩部分參數的權重更新,而這些參數對舊任務的表現比較重要,其隱含假設是參數之間不存在 Co-adaption 的情況,是相互獨立的。DeepMind和 ICL 團隊于 2016 年 12 月提出的 EWL35,是該領域研究較早的論文之一。后續劍橋大學研究團隊 2017 年 10月提出 Variation Continual Learning(VCL,變量持續學習)框架,團隊指出增量學習本質
133、上是一個貝葉斯推理過程:舊模型的參數屬于先驗知識,給定先驗知識,求新數據的概率,模型的優化就是求極大似然估計的過程。圖圖 86:CL 貝葉斯推理的數學表達貝葉斯推理的數學表達 數據來源:Variation Continual Learning,中信建投 注:為模型參數,()為先驗認識,為數據集,為數據,為標簽。32 Learning without Forgetting。33 Less-forgetting Learning in Deep Neural Networks。34 Class-incremental Learning via Deep Model Consolidation。35
134、 Overcoming catastrophic forgetting in neural networks。33 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 結合上圖可以看到,給定1:,模型學習到的先驗知識等價于給定1:1模型學習到的先驗知識與第 T 組數據的極大似然估計。VCL 所引入的框架就是假設一個先驗分布,實際訓練是對先驗分布的調整,并通過 KL 散度衡量二者的差距,確保二者的距離最小。后續的一些工作沿著貝葉斯推理的路徑進一步優化相關算法。圖圖 87:Coreset VCL 算法算法 數據來源:Variation Continual Learning,中信建投 回放(回放(
135、Replay)的主要思想是把一部分舊數據和新數據聯合訓練,因此主要問題是如何挑選舊數據。)的主要思想是把一部分舊數據和新數據聯合訓練,因此主要問題是如何挑選舊數據。牛津大學和 IST 的研究團隊 2016 年 11 月36提出 iCaRL,并假設越靠近類別特征均值的樣本越具有代表性,因此選擇靠近均值的舊樣本混同新樣本,并在損失函數中加入在新模型輸出的蒸餾損失(與 LwF 類似)。由于 iCaRL 采取類似聯合訓練的方式,因此持續學習下可能帶來部分參數過擬合、計算成本過高等問題。Meta 團隊 2017 年 6月提出 Gradient Episodic Memory37(GEM,梯度片段記憶),
136、主要邏輯是不更新舊參數,并且針對新參數更新施加約束,希望更新后的模型在原有任務的表現不下降??傮w來說,基于回放的增量學習需要額外的計算資源和存儲空間用于回憶舊知識,當任務種類不斷增多時,可能存在計算成本和內存占用增加,且存儲舊知識可能涉及數據安全與隱私保護。圖圖 88:GEM 算法算法 數據來源:Gradient Episodic Memory for Continual Learning,中信建投 36 iCaRL:Incremental Classifier and Representation Learning。37 Gradient Episodic Memory for Contin
137、ual Learning。34 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 參數隔離的思路是固定參數隔離的思路是固定舊參數,為新數據舊參數,為新數據/任務訓練擴大參數規模,任務訓練擴大參數規模,額外的參數主要負責新數據/任務的性能。由于需要引入較多的參數和計算量,因此通常只能用于較簡單的任務增量學習。3.下游調試、部署、推斷下游調試、部署、推斷:RLHF 仍處于技術發展的早期,潛在優仍處于技術發展的早期,潛在優化空間大化空間大 GPT 系列模型的拐點在 InstructGPT,其引入了 RLHF,對應 SFT、RM、PPO 三階段,最終效果是 PPO 模型預測準確度好于 SFT-17
138、5 模型。而 Anthropic 團隊研究Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback指出,InstructGPT 基于較小的 RM 訓練反饋并非最優的,大規模的 RM 模型對模型性能的提升可能更好。圖圖 89:InstructGPT 論文中提到的下游調試過程論文中提到的下游調試過程 數據來源:Training language models to follow instructions with human feedback,中信建投 圖圖 90:Instru
139、ctGPT 經過調試后表現顯著優于經過調試后表現顯著優于 SFT-175B 模型模型 數據來源:Training language models to follow instructions with human feedback,中信建投 35 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 91:大規模大規模 PM 對不同參數規模模型的效果提升是顯著的對不同參數規模模型的效果提升是顯著的 圖圖 92:小規模小規模 PM 對模型的性能提升可能不顯著對模型的性能提升可能不顯著 數據來源:Training a Helpful and Harmless Assistant with R
140、einforcement Learning from Human Feedback,中信建投 注:PM即Preference Model,與Reward Model等價。數據來源:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback,中信建投 Anthropic 團隊上述研究的副產物即在 RLHF 中模型性能提升與 RM 的關系,進而在后續研究中可以通過這一關系估算給定性能提升目標需要多大規模的 RM,并且不同參數規模的模型性能提升曲線基本上平行的,也就是基于 RLHF
141、 不同規模的模型的性能極限可能不同,并且性能提升的斜率可能是近似相同的。部署和推斷在 OpenAI 論文中大多數被忽略了,僅提到微軟在這方面的支持。ERNIE 在論文中提到在線蒸餾框架,實現算力節約。圖圖 93:百度百度 ERNIE 團隊提出團隊提出在線蒸餾框架在線蒸餾框架 數據來源:ERNIE 3.0 TITAN:EXPLORING LARGER-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION,中信建投 對齊調優方面,根據對齊調優方面,根據A Survey of Large Lan
142、guage Models,RLHF 等技術主要是幫助實現對齊調優等技術主要是幫助實現對齊調優 36 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 (Alignment Tuning),目前的主流目標是),目前的主流目標是 Helpful、Honest、Harmless。OpenAI 團隊38提出通過遞歸法能夠實現對長難文本的歸納總結,并指出這類方法可以進一步泛化至其他類型的任務上,實現與人類的對齊。此外,論文指出 RL 比 SL 更有效地幫助模型對比。具體細節方面,John Schulman 在Reinforcement Learning from Human Feedback:Pro
143、gress and Challenges39提到,SFT 與其等價的 BC 存在固有缺陷,即訓練越充分越容易出現欺騙(即模型并不明確自己知識的邊界),RLHF 則是讓模型明確有些問題自己不知道。原理上是因為 SL 訓練時只有正反饋,而且對偏離樣本的懲罰較重,RL 多樣性更好,因而在面對不知道的問題時,SL 訓練充分的模型傾向于回答(胡編亂造),而非反饋不知道40。需要指出的是,OpenAI 提出 alignment tax,即模型犧牲部分性能實現與人的對齊。圖圖 94:當模型性能超越一般人時,當模型性能超越一般人時,Alignment 成為挑戰成為挑戰 數據來源:Measuring Progr
144、ess on Scalable Oversight for Large Language Models,中信建投 圖圖 95:RM 可能存在過擬合的情況可能存在過擬合的情況 圖圖 96:不同方法下模型過擬合情況不同方法下模型過擬合情況 數據來源:Scaling Laws for Reward Model Overoptimization,中信建投 數據來源:Scaling Laws for Reward Model Overoptimization,中信建投 總結來看,OpenAI 在 GPT-4 訓練結束后花費 6 個月左右時間進行調試和其他調整,其主要精力大體上是 38 在 2021 年
145、9 月發布Recursively Summarizing Books with Human Feedback。39 https:/ 40 https:/ 37 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 放在調試上,而部署、推斷等更多依賴微軟和其他合作方的支持。微軟/英偉達在合作聲明中提到,雙方基于數萬塊 A100、H100 GPU 芯片,NVIDIA Quantum-2 400Gb/s InfiniBand 架構,以及 NVIDIA 企業級配套軟件等構建了基于公有云的 AI 超級計算機。此外,基于 ONNX runtime 的推理框架,模型的在線推理速度能夠進一步優化。估值估值 我
146、們預計百度于 2023/24/25 年分別實現 1377/1492/1626 億營業收入,分別同比+11%/+8%/9%,經調整 Non-GAAP 凈利潤為 222/257/296 億,分別同比+8%/+16%/+15%,對應經調整 Non-GAAP 凈利潤率為 17%/18%/19%。估值上,我們認為百度主要業務處于相對成熟階段,因此適合 PE 估值。遠期 PE 對應持有一年的名義回報率,以 22.5%的美國經濟潛在增長率為基礎,考慮額外的 10 年期國債利率,我們預計 34%的實際回報率水平處于合理區間。相對估值方面,根據彭博,截止 2023/5/11,百度 Forward P/E 為 1
147、2.40,較可比公司折價46.74%,且低于過去 2 年公司的平均估值水平 32.31%。表表 5:可比公司估值表可比公司估值表 Name Ticker Forward P/E Prem(%)Hist Avg(%)Diff(%)#SD 阿里巴巴 BABA US 10.1136-56.5528-44.4568-9.3998-1.3059 百度百度 BIDU US 12.3975-46.7413-32.3116-11.1248-1.0058 Z 控股株式會社 4689 JP 27.8054 19.4499 45.5697-18.7077-0.7806 Mixi 株式會社 2121 JP 14.14
148、22-39.2462-21.1707-14.3055-0.7273 網易 NTES US 17.4065-25.2230-21.0328 0.4499 0.0539 Kakao 公司 035720 KS 45.0498 93.5305 73.2579 32.2815 0.9633 Alphabet 公司 GOOGL US 19.1396-17.7778-19.9535 7.2776 1.3009 NAVER 株式會社 035420 KS 29.2881 25.8194 20.3127 13.3138 1.5339 平均值(不含百度)平均值(不含百度)23.2778 資料來源:彭博,中信建投 投
149、資評價和建議投資評價和建議 百度搜索廣告業務預計受益經濟復蘇,且效果廣告受益序列較品牌廣告媒介更優先,信息流廣告則受益展現形式的效率繼續驅動廣告業務增長。云業務隨著疫后回歸常態,項目交付、新簽訂單逐步兌現,向上復蘇趨勢明確。ERNIE BOT 方面,短期商業化前景尚不清晰,但可作為 Option 機會,我們認為中長期 AIGC 方向是 AI領域具備廣闊應用場景且有希望構建合適商業模式的機會,看好百度在 AIGC 領域的布局和先發優勢。維持對百度集團的“買入”評級。38 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 風險分析風險分析 新業務發展不及預期:新業務發展不及預期:AIGC 及相
150、關新技術領域仍處于快速發展階段,技術距離成熟存在較大差距,當前發展預期可能存在過度樂觀的情況,業務實際發展仍存在較大不確定性。宏觀或行業環境變化:宏觀或行業環境變化:由于公司部分業務處于探索期或成長期,業務模式尚未成熟,同時宏觀、行業環境可能發展變化,因此當前時點對未來的預判多數依賴上述環境變化不大或基本穩定的假設。若宏觀、行業環境發生較大變化,公司業務受到的影響可能超出我們的預期范圍。競爭加劇風險:競爭加劇風險:公司部分業務如搜索廣告等面臨短視頻、應用內搜索的分流,以及搜狗、360、bing 等競爭者的威脅。39 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 報表預測報表預測 資產負
151、債表(百萬元)資產負債表(百萬元)利潤表(百萬元)利潤表(百萬元)會計年度會計年度 2021A 2022A 2023E 2024E 2025E 會計年度會計年度 2021A 2022A 2023E 2024E 2025E 流動資產流動資產 213,315.0 212,850.0 336,171.2 480,873.6 629,203.1 營業收入營業收入 124,493.0 123,675.0 137,650.2 149,212.9 162,642.0現金 180,093.0 173,995.0 300,445.0 442,146.4 586,990.4 營業成本 64,314.00 63,9
152、35.00 70,311.76 74,860.11 80,881.90 應收票據及應收賬款合9,981.00 11,733.00 11,745.98 12,732.64 13,878.58 其他營業費用 0.00 0.00 0.00 0.00 0.00 其他應收款 0.00 0.00 0.00 0.00 0.00 銷售和管理費用 24,723.00 20,514.00 23,729.14 25,722.39 28,037.40 預付賬款 0.00 0.00 0.00 0.00 0.00 研發費用 24,938.00 23,315.00 25,416.71 27,551.72 30,031.37
153、 存貨 0.00 0.00 0.00 0.00 0.00 財務費用-2,130.00-3,332.00 2,681.11 1,764.84 1,263.39 其他流動資產 23,241.00 27,122.00 23,980.24 25,994.58 28,334.09 其他經營損益 0.00 0.00 0.00 0.00 0.00 非流動資產非流動資產 166,719.0 178,123.0 173,018.0 167,913.1 162,808.1 投資收益-932.00-1,910.00 0.00 0.00 0.00 長期投資 67,332.00 78,926.00 78,926.00
154、78,926.00 78,926.00 公允價值變動收益 0.00 0.00 0.00 0.00 0.00 固定資產 23,027.00 23,973.00 20,217.23 16,461.46 12,705.69 營業利潤營業利潤 11,716.00 17,333.00 15,511.55 19,313.85 22,428.01 無形資產 8,947.00 8,095.00 6,745.83 5,396.67 4,047.50 其他非經營損益-938.00-7,221.00 194.67 194.67 194.67 其他非流動資產 67,413.00 67,129.00 67,129.00
155、 67,129.00 67,129.00 利潤總額利潤總額 10,778.00 10,112.00 15,706.22 19,508.51 22,622.67 資產總計資產總計 380,034.0 390,973.0 509,189.3 648,786.7 792,011.2 所得稅 3,187.00 2,578.00 3,690.16 4,583.51 5,315.18 流動負債流動負債 74,488.00 79,630.00 65,760.26 70,362.70 76,209.73 凈利潤凈利潤 7,591.00 7,534.00 12,016.06 14,925.01 17,307.5
156、0 短期借款 14,675.00 20,552.00 0.00 0.00 0.00 少數股東損益-2,635.00-25.00-2,129.09-2,644.51-3,066.66 應付票據及應付賬款合0.00 0.00 0.00 0.00 0.00 歸屬母公司凈利潤歸屬母公司凈利潤 10,226.00 7,559.00 14,145.15 17,569.52 20,374.16 其他流動負債 59,813.00 59,078.00 65,760.26 70,362.70 76,209.73 EBITDA 31,207.00 26,864.00 23,492.27 26,378.29 28,9
157、91.00 非流動負債非流動負債 81,594.00 73,538.00 73,538.00 73,538.00 73,538.00 EPS(元)29.25 21.62 40.46 50.26 58.28 長期借款 68,401.00 63,183.00 63,183.00 63,183.00 63,183.00 Non-GAAP 凈利潤凈利潤 18,830.00 20,680.00 22,232.68 25,747.18 29,580.24 其他非流動負債 13,193.00 10,355.00 10,355.00 10,355.00 10,355.00 負債合計負債合計 156,082.0
158、 153,168.0 139,298.2 143,900.7 149,747.7 主要財務比率主要財務比率 少數股東權益 12,493.00 14,327.00 12,197.91 9,553.40 6,486.74 會計年度會計年度 2021A 2022A 2023E 2024E 2025E 股本 0.00 0.00 1,000.00 2,000.00 3,000.00 成長能力成長能力 資本公積 66,307.00 74,591.00 193,661.0 312,731.0 431,801.0 營業收入(%)16.27-0.66 11.30 8.40 9.00 留存收益 145,152.0
159、 148,887.0 163,032.1 180,601.6 200,975.8 歸屬于母公司凈利潤-58.49-21.60 171.20 15.70 12.28 歸屬母公司股東權益 211,459.0 223,478.0 357,693.1 495,332.6 635,776.8 獲利能力獲利能力 負債和股東權益負債和股東權益 380,034.0 390,973.0 509,189.3 648,786.7 792,011.2 毛利率(%)48.34 48.30 48.92 49.83 50.27 凈利率(%)6.10 6.09 8.73 10.00 10.64 ROE(%)4.84 3.38
160、 3.95 3.55 3.20 ROIC(%)6.06 8.80 8.70 11.02 12.87 償債能力償債能力 現金流量表(百萬元)現金流量表(百萬元)資產負債率(%)41.07 39.18 27.36 22.18 18.91 會計年度會計年度 2021A 2022A 2023E 2024E 2025E 凈負債比率(%)-43.32-37.96-64.14-75.06-81.56 經營活動現金流經營活動現金流 20122 26170 29464.21423247.29 25888.465 流動比率 2.86 2.67 5.11 6.83 8.26 凈利潤 7,591.00 7,534.0
161、0 12,016.06 14,925.01 17,307.50 速動比率 2.55 2.33 4.75 6.46 7.88 折舊攤銷 22,559.00 20,084.00 5,104.94 5,104.94 5,104.94 營運能力營運能力 財務費用-2,130.00-3,332.00 2,681.11 1,764.84 1,263.39 總資產周轉率 0.33 0.32 0.27 0.23 0.21 其他經營現金流-7,898.00 1,884.00 9,662.11 1,452.51 2,212.64 應收賬款周轉率 12.47 10.54 11.72 11.72 11.72 投資活動
162、現金流投資活動現金流-3,944.00 148.93 148.93 148.93 每股指標(元)每股指標(元)資本支出-5,555.00 0.00 0.00 0.00 每股收益(最新攤薄)29.25 21.62 40.46 50.26 58.28 其他投資現金流-1,611.00 148.93 148.93 148.93 每股經營現金流(最新57.56 74.86 84.28 66.50 74.05 籌資活動現金流籌資活動現金流 23,396.00-6,390.00 96,836.89 118,305.1 118,806.6 每股凈資產(最新攤薄)604.86 639.24 1,023.16
163、1,416.87 1,818.60 短期借款-520.00 5,877.00-0.00 0.00 估值比率估值比率 長期借款 8,066.00-5,218.00 0.00 0.00 0.00 P/E 4.10 5.55 2.97 2.39 2.06 其他籌資現金流 15,850.00-7,049.00 117,388.8 118,305.1 118,806.6 P/B 0.20 0.19 0.12 0.08 0.07 現金凈增加額現金凈增加額 12,074.00 15,836.00 126,450.0 141,701.3 144,844.0 EV/EBITDA-2.31-2.37-3.88-4
164、.33-4.86 資料來源:公司公告,iFinD,中信建投 40 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 分析師介紹分析師介紹 孫曉磊孫曉磊 海外研究首席分析師,北京航空航天大學碩士,游戲產業和金融業 7 年復合從業經歷,專注于互聯網研究,對騰訊、網易、阿里、美團、閱文等互聯網巨頭有較為深入的理解。2019 年新財富港股及海外最佳研究團隊入圍,2020 年、2021 年新財富港股及海外最佳研究團隊第五名。崔世峰崔世峰 海外研究聯席首席分析師,南京大學碩士,6 年買方及賣方復合從業經歷,專注于互聯網龍頭公司研究,所在賣方團隊獲得 2019-2020 年新財富傳媒最佳研究團隊第二名。
165、2022 年新財富海外研究最佳研究團隊入圍。許悅許悅 海外研究員,南洋理工大學碩士,專注于互聯網研究,2022 年加入中信建投海外前瞻組。41 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 評級說明評級說明 投資評級標準 評級 說明 報告中投資建議涉及的評級標準為報告發布日后 6個月內的相對市場表現,也即報告發布日后的 6 個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A 股市場以滬深300 指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美國市場以標普 500 指數為基準。股票評級 買入 相對漲幅 15以上 增持 相對漲幅 5%15
166、 中性 相對漲幅-5%5之間 減持 相對跌幅 5%15 賣出 相對跌幅 15以上 行業評級 強于大市 相對漲幅 10%以上 中性 相對漲幅-10-10%之間 弱于大市 相對跌幅 10%以上 分析師聲明分析師聲明 本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明 本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國
167、(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明 本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日
168、該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機
169、會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去 12 個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在
170、或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部 中信建投(國際)中信建投(國際)北京 上海 深圳 香港 東城區朝內大街2 號凱恒中心B座 12 層 上海浦東新區浦東南路528號南塔 2103 室 福田區福中三路與鵬程一路交匯處廣電金融中心 35 樓 中環交易廣場 2 期 18 樓 電話:(8610)8513-0588 電話:(8621)6882-1600 電話:(86755)8252-1369 電話:(852)3465-5600 聯系人:李祉瑤 聯系人:翁起帆 聯系人:曹瑩 聯系人:劉泓麟 郵箱: 郵箱: 郵箱: 郵箱:charleneliucsci.hk