《百度-美股公司研究報告-百度:大模型研究筆記(二)-230530(29頁).pdf》由會員分享,可在線閱讀,更多相關《百度-美股公司研究報告-百度:大模型研究筆記(二)-230530(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、 本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請參閱最后一頁的重要聲明。證券研究報告證券研究報告美股公司深度美股公司深度 軟件與服務軟件與服務 百度:大模型研究筆記(百度:大模型研究筆記(二二)核心觀點核心觀點 大模型規模競賽強度有望下降,精益優化可能成為主要方向,如數據清洗、初始化策略、大批量訓練等。另一方面,模型壓縮與內存管理、計算能力、下游部署等可能是大模型產品化落地的關鍵技術,有望打開未來 to C 市場的想象空間。我們認為中長期 AI領域具備廣闊前
2、景,看好百度在 AIGC 領域的布局和先發優勢。大模型研究大模型研究筆記筆記(二二)模型結構方面,模型結構方面,Context Window 拓展下游應用場景拓展下游應用場景。技術路線上,引入局部注意力機制能一定程度上延長 context window,但難以實現量級的拓展。斯坦福大學和紐約州立大學團隊于 2022 年5 月提出的 FlashAttention 結合前述研究,并基于 CUDA 對底層內存讀取做出優化,實現 context window 的大幅拓展。斯坦福大學和蒙特利爾大學的研究團隊于 2023 年 2 月進一步提出 Hyena架構,較此前 FlashAttention 進一步實
3、現性能優化。預訓練預訓練環節存在廣闊優化空間環節存在廣闊優化空間。1)并行化環節并行化環節,主要思路是結合模型并行與數據并行,并引入分片策略,核心差異在于分片應用環節不同,以及不同并行策略應用順序的差異。從公開研究所披露的效果看,英偉達谷歌微軟;2)大規模計算集群大規模計算集群方面方面,阿里巴巴在大規模計算集群的通信優化方面較為領先,同時在確定性網絡、準確測量兩條路徑上均有重要工作,基本處于國內領先地位,與谷歌、思科等國際大廠仍存在一定差距;3)內存置換與內存置換與checkpoint 優化優化方面,方面,該領域偏向訓練過程的工程技巧,法國國家信息與自動化研究所將 offload 與 chec
4、kpoint 結合,實現在訓練環節降低訓練損耗。此前,Google 團隊在 Palm 論文也提到對checkpoint 做出的其他優化,提升模型訓練的穩定性。下游調試方面下游調試方面,比較重要的研究來自微軟和 CMU 研究團隊于2021 年 6 月提出 LoRA,核心思想是通過秩分解矩陣來間接訓練神經網絡中的一些密集層,同時凍結預訓練模型權重,降低存儲占用,同時提升訓練速度。LoRA 降低了模型二次調優的門檻,并成為簡單應用開發的重要技術。后續斯坦福大學研究團隊基于LLaMA 模型,收集 ChatGPT 回答并應用 LoRA 調優,實現低成本、高效率的小模型開發(參數規模在 713B,遠小于
5、ChatGPT),并實現簡單任務上的性能匹配。此外,Anthorpic 與 OpenAI 引入基于 AI 反饋的強化學習(RLAIF),并實現無害性優化。維持維持 買入買入 孫曉磊 SAC 編號:s1440519080005 SFC 編號:BOS358 崔世峰 SAC 編號:S1440521100004 許悅 SAC 編號:s1440523030001 發布日期:2023 年 05 月 30 日 當前股價:118.90 美元 目標價格 6 個月:140 美元 主要數據主要數據 股票價格絕對股票價格絕對/相對市場表現(相對市場表現(%)1 個月 3 個月 12 個月-17.99/-19.80-1
6、9.70/-24.08 11.52/5.64 12 月最高/最低價(美元)160.22/76.57 總股本(萬股)34,959.72 流通股本(萬股)27,751.54 總市值(億美元)415.67 流通市值(億美元)415.67 近 3 月日均成交量(萬)339.34 主要股東 Robin Yanhong Li 16.30%股價表現股價表現 相關研究報告相關研究報告 -28%-8%12%32%52%72%2022/5/112022/6/112022/7/112022/8/112022/9/112022/10/112022/11/112022/12/112023/1/112023/2/1120
7、23/3/112023/4/11百度納斯達克綜指百度百度(BIDU.O)/百度集團百度集團-SW(9888.HK)美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 總體而言,基于大模型研究筆記(一)與本篇報告,我們認為 1)模型數據集、訓練量的優化(包括對數據去重、數據集規模擴充)是重要方向;2)初始化策略、加速優化器能夠在小批量訓練集中優化模型性能,大批量訓練目前研究的上限是 32K,這與訓練速度存在權衡取舍;3)模型壓縮與內存管理、計算能力、下游部署等可能是大模型產品化落地的關鍵技術。近期陳天奇及相關團隊 MLC LLM 項目熱度較高,其將大模型部署至手機,這將大幅降低大模型產品的推廣
8、和部署門檻,打開 to C 產品的想象空間;4)部分模型能力如 Context Window 來自底層硬件約束,未來軟硬一體可能是關鍵壁壘,對 LLM 廠商的全棧實力提出較高要求。另一方面,對于全棧布局不足的廠商,開源大模型構建繁榮開發者生態也是一條可選路徑,海外的開源社區迭代較快,能夠推動 LLaMA 拉近與 GPT-4 的差距。投資建議:投資建議:百度搜索廣告業務預計受益經濟復蘇,且效果廣告受益序列較品牌廣告媒介更優先,信息流廣告則受益展現形式的效率繼續驅動廣告業務增長。云業務隨著疫后回歸常態,項目交付、新簽訂單逐步兌現,向上復蘇趨勢明確。ERNIE BOT 方面,短期商業化前景尚不清晰,
9、但可作為 Option 機會,我們認為中長期 AIGC方向是 AI 領域具備廣闊應用場景且有希望構建合適商業模式的機會,看好百度在 AIGC 領域的布局和先發優勢。維持對百度集團的“買入”評級。美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 目錄目錄 引言.1 1.模型結構.1 1.1 輸入長度(Context Window).1 2.預訓練.8 2.1 并行化.8 2.2 大規模計算集群優化.13 2.3 內存置換與 Checkpoint 優化.15 3.下游調試.17 3.1 參數高效調試(Parameter-Efficient Tuning).17 3.2 基于人類反饋的強化學習(
10、RLHF).20 估值.23 投資評價和建議.23 風險分析.23 圖目錄 圖 1:ALiBi 編碼下模型輸入長度線性外推的效果最穩健.1 圖 2:ALiBi 編碼下模型在長文本輸入的訓練、推理等方面表現較好.2 圖 3:KERPLE 在 OpenWebText2、GitHub、ArXiv 數據集上的長文本輸入方面領先此前的編碼方式.2 圖 4:KERPLE 在訓練速度上沒有明顯長于此前的編碼方式.3 圖 5:XPOS 算法基本原理.3 圖 6:不同編碼方式下模型的困惑度(左),不同編碼方式下模型的分辨率(右).3 圖 7:隨機位置訓練方法原理.4 圖 8:隨機位置訓練基于短文本提升訓練速度,
11、但損失一定性能.4 圖 9:隨機位置訓練相較基準表現提升明顯.4 圖 10:若干 RNN 模型及 Transformer 模型在不同任務上的性能.5 圖 11:內存讀取是主要瓶頸(左圖),FlashAttention 顯著降低整體進程時長(wall-clock time).5 圖 12:基于 GPT-2 Medium,對比標準方法和 FlashAttention 的 GFLOPS、HBM 訪問次數、運行時間.6 圖 13:Block-sparse FlashAttention 在 1-4K 序列長度下準確率、吞吐量、訓練時間等指標優于已有的方法.6 圖 14:FlashAttention 在
12、GPT-2 small/medium 上的訓練時間相比 Megatron-LM 和 Huggingface 有明顯優勢.6 圖 15:預訓練模型序列處理長度的演進.7 圖 16:Hyena 架構由卷積神經網絡.7 圖 17:同等條件下 Hyena 架構模型困惑度無明顯劣勢.7 圖 18:同等條件下 Hyena 架構模型 FLOPs 有所優化.7 圖 19:Hyena 在 Zero-shout 設定下略弱于 GPTNeo,Few-shot 設定下強于 GPTNeo,計算時長短于 Flash Attention.8 圖 20:數據并行與模型并行示意圖.8 圖 21:ZeRO 優化下實現顯存占用優化
13、至基準方法的 26.2%.9 圖 22:ZeRO-Offload 對 GPU/CPU 計算的切分.10 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖 23:FSDP workflow.10 圖 24:Megatron-LM 對 Tranformer 做切分.11 圖 25:模型和數據并行下實現接近線性提升.11 圖 26:英偉達將 Tensor MP 與 Pipeline MP、DP 結合,實現利用率的提升.11 圖 27:Gpipe 通過 micro-batch 下的流水并行結合模型并行緩解資源利用率問題.11 圖 28:GSPMD 下 dense transformer 模型利
14、用率和性能表.12 圖 29:PipeDream 結合模型并行、數據并行和流水并行降低通信成本.12 圖 30:不同并行化策略下計算資源利用率情況(%).12 圖 31:傳統 GPU 通信模式.13 圖 32:Ring AllReduce 下通信瓶頸得以解決.13 圖 33:主機內部多 GPU 構建時的通信瓶頸可能來自 1)網卡 NIC;2)PCIe 總線;3)有偏 QoS 分布.14 圖 34:阿里的解決方案是為每塊 GPU 配置網卡.14 圖 35:HDRM 算法示意圖.14 圖 36:EFLOPS 的系統結構.14 圖 37:不同線程下帶寬/延遲情況.14 圖 38:阿里云 2022 年
15、提出可預期網絡.15 圖 39:ZeRO 對 GPU、CPU 的內存、通信優化.16 圖 40:ZeRO-Offload 提升了給定 GPU 下訓練模型規模的上限.16 圖 41:不同算法下帶寬用量情況(GB/s).16 圖 42:不同算法下內存使用情況(%).17 圖 43:LoRA 只調試低軼的 A、B,預訓練權重保持不變.18 圖 44:LoRA 調試下 GPT-2 模型實現訓練參數壓縮,同時性能優化.18 圖 45:LoRA 調試策略下訓練參數大幅減少,同時性能與 Fine-tune 持平或更好.18 圖 46:Stanford Alpaca 訓練/調試流程.19 圖 47:Vicun
16、a-13B 在調試后性能接近 ChatGPT 的 90%水平(基于 GPT-4 評價).19 圖 48:LoRA 調試后模型性能總體好于其他調試方法,但復雜任務下與基礎模型相差較大.20 圖 49:AlpacaFarm 引入基于 API LLMs 的 RLHF,大幅降低 RLHF 的成本并提升效率.20 圖 50:基于 LLMs 的方法與人類反饋排序相關性較高.21 圖 51:聚合現有公開數據能實現與簡單真實指令相近性能.21 圖 52:RLHF 技術路徑與主要論文.21 圖 53:引入 AI 反饋模型后模型在無害性方面明顯提升.22 圖 54:Anthropic Consitutional
17、AI 構建過程.22 1 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 引言引言 大模型領域的研究大模型領域的研究核心要素包括模型結構、預訓練模型、下游調試、模型部署、模型推斷等。核心要素包括模型結構、預訓練模型、下游調試、模型部署、模型推斷等。根據青源會,大模型研究領域存在一定問題,包括同質化嚴重的情況,多數廠商采取類似的模型架構,例如 GPT、Bert、T5等。由于模型架構同質化,影響模型效果的核心因素更多是工程方面的技巧、細節??傮w上,大模型領域的研究機會主要包括 1)模型結構,例如非注意力交互機制、稀疏路由結構等;2)預訓練模型,例如預訓練任務設計、模型更新方法等;3)下游調試
18、,如探索任務微調效率提升方法;4)模型部署,如統一的任務范式,通過單一模型支撐多種任務;5)模型推斷,如模型壓縮、剪枝、動態路由等。我們就大模型領域的研究主要從上述框架中展開。1.模型結構模型結構 1.1 輸入長度輸入長度(Context Window)Context Window 延長拓展大模型的能力圈。延長拓展大模型的能力圈。5 月 11 日,Anthropic 宣布將 Claude AI 的輸入長度(Context Window)從 9K 擴展至 100K tokens1,對應約 75000 個英文單詞。根據How many words do we read per minute?A r
19、eview and meta-analysis of reading rate,人類閱讀 100K tokens 的文本內容大約需要 5 個小時以上,而 Claude能顯著縮短這一時長,并且在分辨長文本差異的速度上,Claude 也具備優勢,例如 Anthropic 團隊將了不起的蓋茨比(72K tokens)中修改了一處句子,Claude 僅用時 22 秒定位文本的變化。通過擴展 Context Window,Claude 具備處理長文本、長語言等能力,提升其在協同辦公等領域的能力。引入引入局部注意力機制的局部注意力機制的研究最早見于研究最早見于 ALiBi。2021 年 8 月,華盛頓大學
20、、Meta、Allen 人工智能研究所的團隊提出了 ALiBi(Attention with Linear Biases)編碼,延續相對位置編碼思路,但 position embedding 并沒有加在word embedding 上,而是加上 query 距離成正比的懲罰值,最終實現更穩健的輸入長度線性外推表現。圖圖 1:ALiBi 編碼下模型輸入長度線性外推的效果最穩健編碼下模型輸入長度線性外推的效果最穩健 數據來源:Train Short,Test Long:Attention with Linear Biases Enables Input Length Extrapolation,中
21、信建投 1 https:/ 2 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 2:ALiBi 編碼下模型在長文本輸入的訓練、推理等方面表現較好編碼下模型在長文本輸入的訓練、推理等方面表現較好 數據來源:Train Short,Test Long:Attention with Linear Biases Enables Input Length Extrapolation,中信建投 KERPLE 在在 ALiBi 基礎上改進,取得效果提升?;A上改進,取得效果提升。2022 年 5 月,CMU 和普林斯頓大學的研究團隊將 Attention計算公式進一步調整,并引入1,2兩個可學習
22、參數,從 ALiBi 的|調整為+1|2,1 0,0 0 最終 KERPLE 實現了對 ALiBi 效果的改進,并在 OpenWebText2、GitHub、ArXiv 數據集上的長文本輸入方面領先此前的編碼方式。圖圖 3:KERPLE 在在 OpenWebText2、GitHub、ArXiv 數據集上的長文本輸入方面領先此前的編碼方式數據集上的長文本輸入方面領先此前的編碼方式 數據來源:KERPLE:Kernelized Relative Positional Embedding for Length Extrapolation,中信建投 3 美股公司深度報告 百度百度 請參閱最后一頁的重要
23、聲明 圖圖 4:KERPLE 在訓練速度上沒有明顯長于此前的編碼方式在訓練速度上沒有明顯長于此前的編碼方式 數據來源:KERPLE:Kernelized Relative Positional Embedding for Length Extrapolation,中信建投 微軟研究團隊于 2022 年 12 月提出 XPOS(衍生自 RoPE),實際上對 Q、K 做了非對稱變化,導致最終結果引入超參數的變化,且也是以來相對距離 ,而非此前 ALiBi 的|,由于是單向模型,因此只需要考慮 的情況,并設置超參數在 01 的范圍變化即可(相當于指數衰減)。圖圖 5:XPOS 算法基本原理算法基本原
24、理 數據來源:A Length-Extrapolatable Transformer,中信建投 圖圖 6:不同編碼方式下模型的困惑度(左),不同編碼方式下模型的分辨率(右)不同編碼方式下模型的困惑度(左),不同編碼方式下模型的分辨率(右)數據來源:A Length-Extrapolatable Transformer,中信建投 注:困惑度越低越好,分辨率越高越好。局部注意力機制是對文本的人為截斷,且在非語言任務的泛化能力上可能存在問題。局部注意力機制是對文本的人為截斷,且在非語言任務的泛化能力上可能存在問題。因此,一些研究尋求其他路徑?;貧w輸入長度延長的思考,本質上這是一個訓練長度和預測長度不
25、一致的問題,其可能是 1)預測時用到沒訓練過的位置編碼;2)預測時注意力機制所處理的 token 數量遠超訓練時的數量。針對位置編碼未被訓練,Randomized Positional Encodings Boost Length Generalization of Transformers提出在訓練時隨機采樣位置序列或者均勻取點,實現每個位置編碼都被訓練到。最終實驗表明隨機位置訓練有效地提升了長度外推的表現。首先做非對稱變化變化后依賴相對距離,存在超參數設置超參數范圍,防止發散 4 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 7:隨機位置訓練方法原理隨機位置訓練方法原理 圖圖
26、 8:隨機位置訓練基于短文本提升訓練速度,但損失一定性能隨機位置訓練基于短文本提升訓練速度,但損失一定性能 數據來源:Randomized Positional Encodings Boost Length Generalization of Transformers,中信建投 數據來源:Randomized Positional Encodings Boost Length Generalization of Transformers,中信建投 圖圖 9:隨機位置訓練相較基準表現提升明顯隨機位置訓練相較基準表現提升明顯 數據來源:Randomized Positional Encodings
27、 Boost Length Generalization of Transformers,中信建投 針對注意力機制處理 token 數量,一個思路2是引入縮放注意力,使得注意力機制在處理大量 token 時,注意力的熵隨著長度的變化保持平穩。其中是訓練長度,是預測長度。(,)=()(,)=(log)總結來看,局部注意力機制和縮放注意力/隨機 Token 處理策略都是某種程度上基于局域信息,也就是如果下游任務不具有局域性,輸入長度的延長屬性是否還成立?Google 團隊于 2022 年 7 月3提出,通過引入長度泛化性基準測試(Chomsky Hierarchy Evaluation Bench
28、mark),簡單理解即測試時輸入序列的長度可以是無限的,2 Overcoming a Theoretical Limitation of Self-Attention。3 Neural Networks and the Chomsky Hierarchy。5 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 實驗表明 Transformer 的在多個下游任務的表現上線性延展性能弱于 RNN、LSTM 模型。結合圖 9,在隨機位置訓練之下,不同位置編碼設計下的 Transformer 都有明顯提升,這反映位置編碼設計與線性延展性關聯度不高。圖圖 10:若干若干 RNN 模型及模型及 Tran
29、sformer 模型模型在不同任務上的性能在不同任務上的性能 數據來源:Neural Networks and the Chomsky Hierarchy,中信建投 除了對局域性的處理,除了對局域性的處理,另一些思路則沿著降低計算復雜度,從而實現給定內存另一些思路則沿著降低計算復雜度,從而實現給定內存/算力資源下文本處理能力算力資源下文本處理能力的擴展,的擴展,例如 Google 和 UCB 團隊于 2020 年 1 月提出的 Reformer4,以及 Google 研究團隊于 2020 年 3 月提出的 Routing Transformers5。Reformer 主要是 1)引入可逆層,降
30、低模型內存;2)FFN 層分塊并行處理,降低內存消耗;3)局部敏感哈希替代 dot-product attention,降低計算和內存復雜度,最終將計算復雜度從(2)降至(log)。Routing Transformers 則結合內容稀疏注意力機制和局部注意力機制,將計算復雜度從(2)降至(1.5)。圖圖 11:內存讀取是主要瓶頸(左圖),內存讀取是主要瓶頸(左圖),FlashAttention 顯著降低整體進程時長(顯著降低整體進程時長(wall-clock time)數據來源:FlashAttention:Fast and Memory-Efficient Exact Attention
31、with IO-Awareness,中信建投 FlahAttention 優化內存優化內存 I/O 瓶頸,大幅提升瓶頸,大幅提升 token 處理能力。處理能力。但斯坦福大學和紐約州立大學團隊于 2022 年5 月研究指出,此前的研究盡管從結果上優化了內存/計算復雜度并降低了時長,但往往聚焦于特定環節,對整體的優化幅度有限。這主要是由于大規模計算集群的資源瓶頸主要是內存讀取速度,因而 FlashAttention 主要針 4 REFORMER:THE EFFICIENT TRANSFORMER。5 Efficient Content-Based Sparse Attention with Ro
32、uting Transformers。6 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 對內存控制優化。FlashAttention 主要通過 1)調整注意力計算機制,將輸入分成塊,并在輸入塊上進行多次傳遞,從而逐步執行 softmax reduction;2)存儲前向傳遞的 softmax 歸一化因子,在后向傳播中快速重新計算片上注意力,這比從 HBM 中讀取中間注意力矩陣的標準方法更快。該研究在該研究在 CUDA 中實現中實現 FlashAttention,以,以達到對內存訪問的細粒度控制,并將所有注意力操作融合到一個達到對內存訪問的細粒度控制,并將所有注意力操作融合到一個 GPU
33、 內核中。內核中。即使由于重新計算導致 FLOPs增加,但其運行速度更快(在 GPT-2 上比傳統算法速度提升 7.6 倍)并且使用更少的內存(序列長度線性),主要是因為降低了 HBM 訪問量。圖圖 12:基于基于 GPT-2 Medium,對比,對比標準方法和標準方法和 FlashAttention 的的 GFLOPS、HBM 訪問次數、運行時間訪問次數、運行時間 數據來源:FlashAttention:Fast and Memory-Efficient Exact Attention with IO-Awareness,中信建投 在此之上,研究團隊提出塊稀疏注意力(Block-Sparse
34、 FlashAttention)算法,實現對 FlashAttention 的進一步加速。且塊稀疏注意力算法下 transformer 序列處理準確度在 64K 下達到 63.1%。圖圖 13:Block-sparse FlashAttention 在在 1-4K 序列長度下序列長度下準確率、吞吐量、訓練時間準確率、吞吐量、訓練時間等指標優于已有的方法等指標優于已有的方法 數據來源:FlashAttention:Fast and Memory-Efficient Exact Attention with IO-Awareness,中信建投 圖圖 14:FlashAttention 在在 GPT
35、-2 small/medium 上的訓練時間相比上的訓練時間相比 Megatron-LM 和和 Huggingface 有明顯優勢有明顯優勢 數據來源:FlashAttention:Fast and Memory-Efficient Exact Attention with IO-Awareness,中信建投 7 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 15:預訓練模型序列處理長度的演進預訓練模型序列處理長度的演進 數據來源:Hazy Research,中信建投 注:5月11日,Anthropic宣布將token處理長度延長至100K。斯坦福大學和蒙特利爾大學的研究團隊于斯
36、坦福大學和蒙特利爾大學的研究團隊于 2023 年年 2 月月進一步提出進一步提出 Hyena 架構,架構,涵蓋 1)Element-wise 乘法門控;2)長卷積,最終實現線性延展性性能損失的最小化,同時大幅節約計算成本。Hyena 在百萬級 token 長度下實現超越 50%的準確率,且相比 transformerFLOPs 下降 20%,在 8K 文本處理速度下較 FlashAttention 提升2x,在 64K 文本下處理速度較 FlashAttention 提升 100 x,標準方法下模型無法處理該內容長度。圖圖 16:Hyena 架構由卷積神經網絡架構由卷積神經網絡 數據來源:Hy
37、ena Hierarchy:Towards Larger Convolutional Language Models,中信建投 圖圖 17:同等條件下同等條件下 Hyena 架構模型困惑度無明顯劣勢架構模型困惑度無明顯劣勢 圖圖 18:同等條件下同等條件下 Hyena 架構模型架構模型 FLOPs 有所優化有所優化 數據來源:Hyena Hierarchy:Towards Larger Convolutional Language Models,中信建投 數據來源:Hyena Hierarchy:Towards Larger Convolutional Language Models,中信建投
38、 8 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 19:Hyena 在在 Zero-shout 設定下略弱于設定下略弱于 GPTNeo,Few-shot 設定下強于設定下強于 GPTNeo,計算時長短于,計算時長短于 Flash Attention 數據來源:Hyena Hierarchy:Towards Larger Convolutional Language Models,中信建投 2.預訓練預訓練 2.1 并行化并行化 隨著參數規模擴大,顯存壓力導致模型訓練難度提升。學界主要有兩種思路:1)數據并行化;2)模型并行化。數據并行化是將數據集并行分布在不同設備上進行訓練,從
39、而實現 batch size 規模的線性化提升,但難點在于對顯存使用效率不高,因此一般適用于中小規模的模型訓練。模型并行化則是將不同層切分開來,由不同卡負責計算模型的一部分,這導致額外的通信操作,主要特點是顯存使用效率高,但通信效率低。圖圖 20:數據并行與模型并行示意圖數據并行與模型并行示意圖 數據來源:Deep Learning Systems6,中信建投 6 https:/deeplearningsystems.ai/ch05/9 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 Google 和豐田研究院的團隊在 2019 年 9 月提出 ALBERT7,即通過共享參數防止參數量隨
40、著網絡深度的加深而增加,同時分解 embedding 層參數使得增加隱層大小時而不用改變詞嵌入的大小。這在一定程度上解決了數據并行下模型規模難以擴張的問題,但由于 ALBERT 基于 Encoder 編碼器、Gelu 函數,因此其難以泛化至GPT 等 Decoder 模型架構中。微軟研究團隊于微軟研究團隊于 2019 年年 10 月提出月提出 ZeRO,通過分片(通過分片(partition)顯著優化)顯著優化顯存顯存和通信和通信花費花費。值得一提的是,后續 DeepSpeed 超大規模訓練工具正是基于 ZeRO 為代表的一系列工作。在ZeRO:Memory Optimizations Tow
41、ard Training Trillion Parameter Models中,研究團隊探討了內存顯存的結構,并將將模型訓練階段每張卡中顯存內容分為兩類:1)模型狀態(model states);2)剩余狀態(residual states),而模型狀態占用了主要顯存,因為深度學習中應用比較廣泛的 Adam 優化器涵蓋了參數梯度、梯度的一階動量和二階動量,并且在混合精度訓練下需要存儲 FP16 的模型參數、梯度,FP32 的 Adam 狀態(模型參數、梯度備份、梯度的一階動量和二階動量)。定量看,如果單模型參數量為,則實際需要 16的存儲空間(其中 75%來自 Adam 優化器)。因此研究團隊
42、提出通過分片(partitions)優化 Adam 帶來的模型狀態顯存占用,通過動態通信策略提升通信效率,+下模型通信量和標準的數據并行一致。圖圖 21:ZeRO 優化下優化下實現實現顯存顯存占用優化至基準方法的占用優化至基準方法的 26.2%數據來源:ZeRO:Memory Optimizations Toward Training Trillion Parameter Models,中信建投 注:指對Adam優化器進行分片,+指對Adam優化器及梯度進行分片,+指對Adam優化器、梯度、模型參數進行分片。微軟研究團隊后續于 2021 年 1 月、2021 年 4 月發布 ZeRO-Offl
43、oad 與 ZeRO-Infinity。其中 ZeRO-Offload 就是引入相對 GPU 顯存更廉價的 CPU 內存,但盡可能避免 CPU 通信對整體系統的拖累;ZeRO-Infinity 相較于Offload 聚焦單卡場景,更適用于超大規模訓練場景(業界應用),資源利用率達到 40%水平。7 ALBERT:A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS。10 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 22:ZeRO-Offload 對對 GPU/CPU 計算的切分計算的切分 數據來
44、源:ZeRO-Offload:Democratizing Billion-Scale Model Training,中信建投 Meta 研究團隊于 2021 年 7 月提出 FSDP8,對標 ZeRO。FSDP 在此前 DDP9(分布式數據并行)基礎上做了優化,結合參數切分(parameter sharding),實現訓練效率提升。圖圖 23:FSDP workflow 數據來源:Pytorch10,中信建投 ALBERT、ZeRO、FSDP 主要是從數據并行的角度,結合模型并行的思路進行改進,而另一些研究從模型并行出發,例如英偉達的 Megatron、Google 的 Gpipe、Kakao
45、 的 torchpipe 等。其中,英偉達團隊于 2019 年 9 月提出 Megetron-LM,基于模型并行基礎對 MLP 和 Attention 做切分,最終實現單機 8 卡達到 77%的資源利用率(等效于 6 卡),模型和數據混合并行下 512 塊 GPU 資源利用率達到 74%。英偉達團隊于 2021 年 4 月在此基礎上提出結合數據并行方法,實現資源利用率的提升,在 3072 塊 GPU 上訓練萬億參數模型,計算量達 502 petaFLOP/s,利用率達 52%,較 ZeRO-3 實現更強的效率提升。8 https:/ PyTorch Distributed:Experience
46、s on Accelerating Data Parallel Training。10 https:/pytorch.org/blog/introducing-pytorch-fully-sharded-data-parallel-api/11 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 24:Megatron-LM 對對 Tranformer 做切分做切分 圖圖 25:模型和數據并行下實現接近線性提升模型和數據并行下實現接近線性提升 數據來源:Megatron-LM:Training Multi-Billion Parameter Language Models Using
47、Model Parallelism,中信建投 數據來源:Megatron-LM:Training Multi-Billion Parameter Language Models Using Model Parallelism,中信建投 圖圖 26:英偉達將英偉達將 Tensor MP 與與 Pipeline MP、DP 結合,實現利用率的提升結合,實現利用率的提升 數據來源:Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM,中信建投 Google 研究團隊于研究團隊于 2018 年年
48、11 月提出月提出 Gpipe,通過流水線并行擴展深度學習的訓練負載。通過流水線并行擴展深度學習的訓練負載。GPipe 引入流水并行策略來緩解順序執行的性能問題,把 mini-batch 細分為多個更小的 micro-batch,同時通過 recompute 降低內存。后續 Gshard、GSPMD、GaLM 引入自動分片、稀疏激活等技術,實現性能提升。圖圖 27:Gpipe 通過通過 micro-batch 下的流水并行結合模型并行緩解資源利用率問題下的流水并行結合模型并行緩解資源利用率問題 數據來源:GPipe:Easy Scaling with Micro-Batch Pipeline
49、Parallelism,中信建投 12 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 28:GSPMD 下下 dense transformer 模型利用率和性能表模型利用率和性能表 數據來源:GSPMD:General and Scalable Parallelization for ML Computation Graphs,中信建投 微軟和斯坦福大學、CMU 的研究團隊于 2018 年 6 月提出 PipeDream,通過結合模型、數據、流水并行解決數據并行帶來的大量通信成本。圖圖 29:PipeDream 結合模型并行、數據并行和流水并行降低通信成本結合模型并行、數據并行
50、和流水并行降低通信成本 數據來源:PipeDream:Fast and Efficient Pipeline Parallel DNN Training,中信建投 圖圖 30:不同并行化策略下計算資源利用率情況(不同并行化策略下計算資源利用率情況(%)數據來源:Nvidia,Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM,PaLM:Scaling Language Modeling with Pathways,ZeRO-21.3%35.7%40.0%46.2%47.0%0%10%20
51、%30%40%50%GPT-3(V100)GPT-2(A100)ZeRO-Infinity(V100)PaLM(Pathways-TPUv4)GPT-3(Megatron-A100)13 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 infinity:breaking the gpu memory wall for extreme scale deep learning,中信建投 注:Megatron-A100在不同參數規模上利用率不同,我們選取了與GPT-3參數規模接近的情況。2.2 大規模計算集群優化大規模計算集群優化 國內方面,百度與英偉達聯合開發 AI 計算集群,采用百度自研
52、X-MAN 架構 4.0 及英偉達 A100-80GB、Infiniband 網卡,百度硅谷 AI 實驗室(SVAIL)于 2017 年 2 月將 HPC 領域的 Ring AllReduce 遷移至深度學習領域,解決多 GPU 環境的通信瓶頸問題,目前 Ring AllReduce 已經成為行業較為普遍應用的算法。騰訊 4 月發布新一代高性能計算集群(High-Performance Computing Cluster),采用騰訊云星星海自研服務器,搭載英偉達H800 GPU,服務器之間采用 3.2T 互聯帶寬。圖圖 31:傳統傳統 GPU 通信模式通信模式 圖圖 32:Ring AllRe
53、duce 下通信瓶頸得以解決下通信瓶頸得以解決 數據來源:Bringing HPC Techniques to Deep Learning,中信建投 數據來源:Bringing HPC Techniques to Deep Learning,中信建投 阿里巴巴研究團隊 2020 年 2 月提出了 EFLOPS 集群,主要優化了大規模計算集群的通信網絡問題。過往的大規模計算集群的通信網絡瓶頸主要來自 1)網卡;2)PCIe 總線;3)不均勻的 QoS 分布。阿里提出為每塊 GPU配置網卡,并使用基于 CLOS 架構的數據中心,通過對端口進行編號的方式構建一個層次化的拓撲結構。實驗表明,最終多線程
54、帶寬最高實現 40Gbps 左右水平。14 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 33:主機內部多主機內部多 GPU 構建時的通信瓶頸構建時的通信瓶頸可能來自可能來自 1)網卡網卡 NIC;2)PCIe 總線;總線;3)有偏)有偏 QoS 分布分布 圖圖 34:阿里的解決方案是為每塊阿里的解決方案是為每塊 GPU 配置網卡配置網卡 數據來源:EFLOPS:Algorithm and System Co-design for a High Performance Distributed Training Platform,中信建投 數據來源:EFLOPS:Algorithm
55、 and System Co-design for a High Performance Distributed Training Platform,中信建投 圖圖 35:HDRM 算法示意圖算法示意圖 圖圖 36:EFLOPS 的系統結構的系統結構 數據來源:EFLOPS:Algorithm and System Co-design for a High Performance Distributed Training Platform,中信建投 數據來源:EFLOPS:Algorithm and System Co-design for a High Performance Distrib
56、uted Training Platform,中信建投 圖圖 37:不同線程下帶寬不同線程下帶寬/延遲情況延遲情況 數據來源:EFLOPS:Algorithm and System Co-design for a High Performance Distributed Training Platform,中信建投 15 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 后續 Cisco 的研究團隊于 2021 年分別提出 Ruta11/NetDAM12,前者通過引入 3D-Torus 拓撲結構,移除交換機,實現近乎為零的丟包和低于 200ms 的延遲,較此前的研究有明顯提升。NetDAM
57、 主要解決網絡擁塞控制問題,研究團隊指出丟包本質是一種傳輸的損失,而擁塞控制算法本質上是為了降低損失率,而丟包損失由不確定性影響,所謂的擁塞控制算法就是估計損失的數學期望,并盡可能優化方差和均值。因此,后續的優化方向主要是確定性網絡(降低損失率),準確測量(優化估計從而便于控制)。在確定性網絡方向,阿里巴巴于 2022 年 SIGCOMM 發布 FAB 和 Solar;在準確測量方向,阿里巴巴于2019 年 SIGCOMM 發布 HPCC,提出通過 in-network telemetry 實時監測 buffer,緩解 TCP incast 問題。后續哈佛、USC 等研究團隊于 2020 年
58、7 月提出PINT:Probabilistic In-band Network Telemetry,對 HPCC 進行改進,實現效果提升。而 Google 在 2020 年發布Swift:Delay is Simple and Effective for Congestion Control in the Datacenter,提到 DCTCP、PFC、DCQCN、HPCC 使用來自交換機的顯式反饋,以保持低延遲,但由于 HPCC實時監測帶來和交換機的緊密協同,增加部署和維護難度。Google 的思路則是降低對網絡硬件的依賴,解耦主機和網絡。Cisco 于 2021 年 10 月提出 NetD
59、AM,思路與 Google 類似,主機側解耦計算域與 I/O 域內存的方式,使得響應延遲具有了確定性,同時通過無鎖共享內存實現通信,降低交換網 incast 概率。圖圖 38:阿里云阿里云 2022 年提出可預期網絡年提出可預期網絡 數據來源:阿里云開發者社區,中信建投 2.3 內存置換與內存置換與 Checkpoint 優化優化 內存置換即 Offloading,例如通過 CPU 內存置換 GPU,并通過 CPU 和 GPU 通信實現擴容和成本優化,一個典型的案例就是此前提到微軟團隊于 2021 年 1 月提出 ZeRO-Offload,引入相對 GPU 顯存更廉價的 CPU 內存,但盡可能
60、避免 CPU 通信對整體系統的拖累。11 Ruta:Dis-aggregated routing system over multi-cloud。12 NetDAM:Network Direct Attached Memory with Programmable In-Memory Computing ISA。16 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 39:ZeRO 對對 GPU、CPU 的內存、通信優化的內存、通信優化 圖圖40:ZeRO-Offload提升了給定提升了給定 GPU下訓練模型規模的上限下訓練模型規模的上限 數據來源:ZeRO-Offload:Democ
61、ratizing Billion-Scale Model Training,中信建投 數據來源:ZeRO-Offload:Democratizing Billion-Scale Model Training,中信建投 另一個訓練技巧則是 Checkpoint。Checkpoint 引入的初衷也是為了解決存儲空間的瓶頸,因此在 Checkpoint中存儲部分前饋傳輸的激活點和權重,以及在后饋時計算剩余的激活點和權重。2016 年 4 月華盛頓大學、MIT研究團隊提出Training Deep Nets with Sublinear Memory Cost,核心思想是將部分占用內存空間大,但計算消
62、耗小的 tensor,不進行存儲,而在需要時重新計算即可。研究的主要缺陷在于忽略了網絡中的異質性。2019 年11 月法國波爾多大學(Universit de Bordeaux)、蒙彼利埃大學(Universit de Montpellier)等團隊提出針對異質性網絡的優化 Checkpoint 方法。后續法國國家信息與自動化研究所(Inria Bordeaux)在Efficient Combination of Rematerialization and Offloading for Training DNNs將 offloading 與 checkpoint 技巧結合,其中 offload
63、ing 是用內存置換通信需求(避免通信瓶頸),checkpoint 是用內存置換計算時間(降低計算資源消耗)。將兩種技術合并將進一步優化整體性能。圖圖 41:不同算法下帶寬用量情況(不同算法下帶寬用量情況(GB/s)數據來源:Efficient Combination of Rematerialization and Offloading for Training DNNs,中信建投 注:POFO是Persistent with Offloading during Forward Only的縮寫,對應研究團隊所提出的最優算法;opportunist算法會盡可能多的消耗帶寬;autocapper
64、算法是在給定序列中內存占用峰值時offload最少GPU內存。17 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 42:不同算法下內存不同算法下內存使用情況(使用情況(%)數據來源:Efficient Combination of Rematerialization and Offloading for Training DNNs,中信建投 注:POFO是Persistent with Offloading during Forward Only的縮寫,對應研究團隊所提出的最優算法;opportunist算法會盡可能多的消耗帶寬;autocapper算法是在給定序列中內存占用峰值
65、時offload最少GPU內存。3.下游調試下游調試 3.1 參數高效調試(參數高效調試(Parameter-Efficient Tuning)由于 Scaling Law 及 CoT 帶來的規模競賽,當前主流預訓練大模型的參數規模普遍在數十億乃至千億級別,這導致對所有參數做精調難度較大,因此學術界提出只微調部分參數的思路,但過往的研究一般存在性能損失等問題,即微調后模型性能無法與全參數調試的性能相比。微軟和 CMU的研究團隊于2021年6月提出LoRA13,LoRA 的核心思想是過參數模型存在低內在維度,因此可以通過秩14分解矩陣來間接訓練神經網絡中的一些密集層,同時凍結預訓練模型權重,降低
66、了存儲占用,同時提升訓練速度(減少計算量)。13 Low-Rank Adaptation of Large Language Models。14 矩陣的最大非零子式階數。18 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 43:LoRA 只調試低軼的只調試低軼的 A、B,預訓練權重,預訓練權重保持不變保持不變 圖圖 44:LoRA 調試下調試下 GPT-2 模型實現訓練參數壓縮,同時性能優化模型實現訓練參數壓縮,同時性能優化 數據來源:Low-Rank Adaptation of Large Language Models,中信建投 數據來源:Low-Rank Adaptatio
67、n of Large Language Models,中信建投 圖圖 45:LoRA 調試策略下訓練參數大幅減少,同時性能與調試策略下訓練參數大幅減少,同時性能與 Fine-tune 持平或更好持平或更好 數據來源:Low-Rank Adaptation of Large Language Models,中信建投 另一種高效訓練的模式則是基于成熟模型的回答構建的。另一種高效訓練的模式則是基于成熟模型的回答構建的。斯坦福大學 2023 年 3 月提出 Stanford Alpaca15,基于 LLaMA 7B 模型,以及 5.2 萬條基于人類指令反饋內容(數據來自 ChatGPT)。實驗表明,A
68、lpaca 的能力接近 OpenAI 的 text-davinci-003,但參數規模和訓練成本遠低于 text-davinci-003。另一方面,Alpaca 也相應繼承了原有模型存在的不足,例如欺騙性、錯誤價值觀等,仍需要進一步的調試16和 alignment(對齊)。需要注意的是,由于基于 LLaMA 開源模型,其需要遵守相應地非商用協議,即基于 LLaMA 的模型不得用于商業用途。另外,其調試數據來自 ChatGPT(text-davinci-003),因此基于這些數據訓練、調試的模型不得與 ChatGPT 進行競爭。違反以上協議可能面臨相應的法律合規風險。15 https:/crfm
69、.stanford.edu/2023/03/13/alpaca.html 16 后續的研究團隊將 Alpaca 與 LoRA 結合,并實現單機(RTX 4090)在 1 小時內完成訓練、調試。19 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 46:Stanford Alpaca 訓練訓練/調試流程調試流程 數據來源:Alpaca:A Strong,Replicable Instruction-Following Model,中信建投 受 Alpaca 啟發,2023 年 3 月 UCB、CMU、Stanford、UCSD、MBZUAI 研究團隊推出 Vicuna-13B,即基于
70、 LLaMA-13B 模型,并基于 7 萬條用戶分享的 ChatGPT 相關反饋做調試,并實現接近 ChatGPT 90%的性能(由 GPT-4 評判),接近 Bard,領先 Alpaca、LLaMA 等模型。圖圖 47:Vicuna-13B 在調試后性能接近在調試后性能接近 ChatGPT 的的 90%水平(基于水平(基于 GPT-4 評價)評價)數據來源:Vicuna:An Open-Source Chatbot Impressing GPT-4 with 90%*ChatGPT Quality,中信建投 對 LoRA 的評估方面,SUTD、SMU、西南交通大學、達摩院等研究團隊于 202
71、3 年 4 月指出,在復雜任務上,經過 LoRA 等方法調試后的微縮版模型性能弱于基礎模型,但在簡單任務上二者表現比較接近,且 LoRA總體上優于其他調試方法。20 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 48:LoRA 調試后模型性能總體好于其他調試方法,但復雜任務下與基礎模型相差較大調試后模型性能總體好于其他調試方法,但復雜任務下與基礎模型相差較大 數據來源:LLM-Adapters:An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models,中信建投 3.2 基于人類反饋
72、的強化學習(基于人類反饋的強化學習(RLHF)2023 年 5 月,Stanford 和多倫多大學的研究團隊提出 AlpacaFarm,旨在低成本、快速實現 RLHF。AlpacaFarm主要由三個環節組成:1)基于人類反饋數據的訓練;2)相比基準模型的評估;3)對比其他 RLHF 方法。相比于傳統的 RLHF,alpaca 引入基于 LLMs 的人類反饋數據,即基于成熟模型的數據作為“標準答案”,這種設計下成本能夠壓縮為傳統方法的 1/45。圖圖 49:AlpacaFarm 引入基于引入基于 API LLMs 的的 RLHF,大幅降低,大幅降低 RLHF 的成本并提升效率的成本并提升效率 數
73、據來源:AlpacaFarm:A Simulation Framework for Methods that Learn from Human Feedback,中信建投 21 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 圖圖 50:基于基于 LLMs 的方法與人類反饋排序相關性較高的方法與人類反饋排序相關性較高 圖圖 51:聚合現有公開數據能實現與簡單真實指令相近性能聚合現有公開數據能實現與簡單真實指令相近性能 數據來源:AlpacaFarm:A Simulation Framework for Methods that Learn from Human Feedback,中信建投
74、 數據來源:AlpacaFarm:A Simulation Framework for Methods that Learn from Human Feedback,中信建投 圖圖 52:RLHF 技術路徑與主要論文技術路徑與主要論文 數據來源:Bridging the Gap:A Survey on Integrating(Human)Feedback for Natural Language Generation,中信建投 RLHF 主要有四個主要問題,1)如何選擇人類反饋的形式,存在打分、排序、文本描述等類型;2)目標主要包括有用性與無害性;3)使用機制分為訓練(基于反饋的模仿學習、聯合
75、反饋建模、強化學習),解碼(再排序、反饋調節);4)如何將上述反饋機制模型化。22 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 關于人類反饋機制的形式,排序是一個應用較為普遍的機制,因為打分涉及較多主觀因素,標注者的價值觀不同可能導致分數需要歸一化處理,而排序則避免了這一問題17?;谕?prompt 得到不同模型的反饋排序后,進一步通過 Elo 系統打分歸一化。其他反饋形式轉化為數值的難度較高,或存在主觀性較強等問題,因此目前主流研究采用排序居多。關于使用機制方面,John Schulman 在 Reinforcement Learning from Human Feedback
76、:Progress and Challenges18提到,SFT 與其等價的 BC(behavior cloning)存在固有缺陷,即訓練越充分越容易出現欺騙(即模型并不明確自己知識的邊界),RLHF 則是讓模型明確有些問題自己不知道。原理上是因為 SL 訓練時只有正反饋,而且對偏離樣本的懲罰較重,RL 多樣性更好,因而在面對不知道的問題時,SL 訓練充分的模型傾向于回答(胡編亂造),而非反饋不知道19。RL 方法中,AlpacaFarm:A Simulation Framework for Methods that Learn from Human Feedback測試下 PPO 效果最優。
77、關于建模方面,如 AlpacaFarm 等研究采用基于人類反饋的建模,即構建一個函數使得函數在人類反饋數據集上與真實人類的反饋程度距離不要相差太遠,并通過反饋建模規?;膬灮A訓練模型,解決了傳統方法下人類反饋帶來的高成本問題。但 2022 年 10 月 OpenAI 研究團隊指出20,在偏好模型中,使用少于 1000 次比較僅能導致微小改進,結果近似于隨機。此外,采用靜態反饋(人類反饋結果不更新)會導改變模型輸出分布,影響模型的一致性和準確性。因而,學界/業界開始引入基于 AI 反饋的強化學習(RLAIF),例如 2022 年 12 月 Anthropic 研究團隊在Constitution
78、al AI:Harmlessness from AI Feedback提出,人類反饋本質上也是基于一系列的原則,因此在監督學習階段,研究團隊通過 promt 引導模型生成有害性的回答,并將原則以 prompt 形式輸入模型,要求模型判斷此前的回答是否違背原則。迭代訓練后,將模型面臨有害性 prompt 下基于原則生成的無害性回答收集起來,并用于預訓練模型的 finetune。在強化學習階段,研究團隊讓此前 SL 訓練的模型生成一系列有害性的 prompt 并讓模型在一系列 prompt 中進行有害性排序(類似于 RLHF 的排序),并將 AI 回答構成的有害性排序數據集與人類生成的有用性數據集
79、結合,共同訓練偏好模型,并用于大模型的調試。圖圖 53:引入引入 AI 反饋模型后模型在無害性方面明顯提升反饋模型后模型在無害性方面明顯提升 圖圖 54:Anthropic Consitutional AI 構建過程構建過程 數據來源:Constitutional AI:Harmlessness from AI Feedback,中信建投 數據來源:Constitutional AI:Harmlessness from AI Feedback,中信建投 17 https:/huggingface.co/blog/zh/rlhf 18 https:/ 19 https:/ 20 Scaling
80、laws for reward model overoptimization。23 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 Anthorpic 與 OpenAI 等團隊主要采用 Self AI Feedback,即生成回答與反饋是同一個模型。另一種技術路徑則是引入外部 AI 模型反饋,其優勢在于 Self AI Feedback 意味著反饋模型參數規模較大,訓練/調試的成本和時間較多,而外部反饋模型在效率方面具備一定優勢。估值估值 我們預計百度于 2023/24 年分別實現 1388/1488 億營業收入,分別同比+12%/+7%,經調整 Non-GAAP 凈利潤為 233/28
81、3 億,分別同比+11%/+21%,對應經調整 Non-GAAP 凈利潤率為 17%/19%。估值上,我們認為百度主要業務處于相對成熟階段,因此適合 PE 估值。遠期 PE 對應持有一年的名義回報率,以 22.5%的美國經濟潛在增長率為基礎,考慮額外的 10 年期國債利率,我們預計 34%的實際回報率水平處于合理區間。投資評價和建議投資評價和建議 百度搜索廣告業務預計受益經濟復蘇,且效果廣告受益序列較品牌廣告媒介更優先,信息流廣告則受益展現形式的效率繼續驅動廣告業務增長。云業務隨著疫后回歸常態,項目交付、新簽訂單逐步兌現,向上復蘇趨勢明確。ERNIE BOT 方面,短期商業化前景尚不清晰,但可
82、作為 Option 機會,我們認為中長期 AIGC 方向是 AI領域具備廣闊應用場景且有希望構建合適商業模式的機會,看好百度在 AIGC 領域的布局和先發優勢。維持對百度集團的“買入”評級。風險分析風險分析 新業務發展不及預期:新業務發展不及預期:AIGC 及相關新技術領域仍處于快速發展階段,技術距離成熟存在較大差距,當前發展預期可能存在過度樂觀的情況,業務實際發展仍存在較大不確定性。宏觀或行業環境變化:宏觀或行業環境變化:由于公司部分業務處于探索期或成長期,業務模式尚未成熟,同時宏觀、行業環境可能發展變化,因此當前時點對未來的預判多數依賴上述環境變化不大或基本穩定的假設。若宏觀、行業環境發生
83、較大變化,公司業務受到的影響可能超出我們的預期范圍。競爭加劇風險:競爭加劇風險:公司部分業務如搜索廣告等面臨短視頻、應用內搜索的分流,以及搜狗、360 等競爭威脅。24 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 分析師介紹分析師介紹 孫曉磊孫曉磊 海外研究首席分析師,北京航空航天大學碩士,游戲產業和金融業 7 年復合從業經歷,專注于互聯網研究,對騰訊、網易、阿里、美團、閱文等互聯網巨頭有較為深入的理解。2019 年新財富港股及海外最佳研究團隊入圍,2020 年、2021 年新財富港股及海外最佳研究團隊第五名。崔世峰崔世峰 海外研究聯席首席分析師,南京大學碩士,6 年買方及賣方復合從
84、業經歷,專注于互聯網龍頭公司研究,所在賣方團隊獲得 2019-2020 年新財富傳媒最佳研究團隊第二名。2022 年新財富海外研究最佳研究團隊入圍。許悅許悅 海外研究員,南洋理工大學碩士,專注于互聯網研究,2022 年加入中信建投海外前瞻組。25 美股公司深度報告 百度百度 請參閱最后一頁的重要聲明 評級說明評級說明 投資評級標準 評級 說明 報告中投資建議涉及的評級標準為報告發布日后 6個月內的相對市場表現,也即報告發布日后的 6 個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A 股市場以滬深300 指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作
85、為基準;美國市場以標普 500 指數為基準。股票評級 買入 相對漲幅 15以上 增持 相對漲幅 5%15 中性 相對漲幅-5%5之間 減持 相對跌幅 5%15 賣出 相對跌幅 15以上 行業評級 強于大市 相對漲幅 10%以上 中性 相對漲幅-10-10%之間 弱于大市 相對跌幅 10%以上 分析師聲明分析師聲明 本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明 本報告由中信建投
86、證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明 本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的
87、公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、
88、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去 12 個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易
89、、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部 中信建投(國際)中信建投(國際)北京 上海 深圳 香港 東城區朝內大街2 號凱恒中心B座 12 層 上海浦東新區浦東南路528號南塔 2103 室 福田區福中三路與鵬程一路交匯處廣電金融中心 35 樓 中環交易廣場 2 期 18 樓 電話:(8610)8513-0588 電話:(8621)6882-1600 電話:(86755)8252-1369 電話:(852)3465-5600 聯系人:李祉瑤 聯系人:翁起帆 聯系人:曹瑩 聯系人:劉泓麟 郵箱: 郵箱: 郵箱: 郵箱:charleneliucsci.hk