當前位置：首頁 > 報告詳情

百度-美股公司研究報告-大模型研究筆記（三）-230621（29頁）.pdf

上傳人：面*** 編號：130451 2023-06-25 PDF PDF DOCX DOCX DOCX 29頁 8.15MB 打包全文圖表打包全文圖表

下載：

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/29

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《百度-美股公司研究報告-大模型研究筆記（三）-230621（29頁）.pdf》由會員分享，可在線閱讀，更多相關《百度-美股公司研究報告-大模型研究筆記（三）-230621（29頁）.pdf（29頁珍藏版）》請在三個皮匠報告上搜索。

1、本報告由中信建投證券股份有限公司在中華人民共和國（僅為本報告目的，不包括香港、澳門、臺灣）提供。在遵守適用的法律法規情況下，本報告亦可能由中信建投（國際）證券有限公司在香港提供。同時請務必閱讀正文之后的免責條款和聲明。證券研究報告證券研究報告美股公司深度美股公司深度軟件與服務軟件與服務百度：大模型研究筆記（三）百度：大模型研究筆記（三）核心觀點核心觀點大模型規模競賽強度有望下降，精益優化可能成為主要方向，如數據清洗、初始化策略、大批量訓練等。另一方面，推理部署環節的優化進度較快，主要思路包括調整模型架構實現計算并行度提升，或通過捕捉參數結構實現混合精度推理，降低計算復雜度。這些技術演進有望大幅

2、降低大模型產品的部署、應用門檻，打開to C 產品的想象空間。我們認為中長期 AI 領域具備廣闊前景，看好百度在 AIGC 領域的布局和先發優勢。大模型研究筆記（三）大模型研究筆記（三）模型結構方面模型結構方面，Meta 研究團隊于 2023 年 5 月提出 Megabyte，基于對 Transformer 架構做出改進：Transformer 架構是以 token 為基本單位的，而 token 形式的目的是將輸入數據轉換成計算機可以處理的形式，但 token 與單詞并非一一對應，這等于帶來額外的分詞成本。Megabyte 對模型處理的基礎單元做出修改，從 token改為 patch，此外引入

3、局部模塊預測 patch 內文本序列，相當于引入二次注意力機制，最終實現計算成本降低、速度提升。預訓練環節預訓練環節，現有超大參數模型部署端側時受限于終端計算資源和功耗，需要小、低延遲和低能耗的神經網絡模型，從而節省成本?；旌暇扔柧毷前?FP32 表示的權重、參數和激活值用 FP16、INT8、INT4 重新表示，并且通過浮點數轉定點數將連續的數值映射為離散化的數值，從而加快訓練速度和降低存儲占用。最新的進展來自 ETH 的 SpQR，將剪枝思想遷移至推理環節的混合精度，在 1%的性能損失下大幅提升推理效率。下游調試方面下游調試方面，1 1）A Alignmentlignment 環節的數據

4、質量和多樣性可能比數環節的數據質量和多樣性可能比數量重要量重要。Meta 研究團隊提出 Alignment 實質是模型在預訓練階段學習知識，在 Alignment 階段學習人類交互形式。研究團隊通過控制變量比較了數據質量、規模對 Alignment 后模型性能的影響，發現數據質量對性能影響顯著，數量影響則不顯著；2）PrompPrompt t環節環節 T ToToT 提升提升 L LLMLM 解決復雜問題的能力。解決復雜問題的能力。Google DeepMind 等團隊于 2023 年 5 月提出 Tree-of-thoughts（ToT）。ToT 則是借鑒人類思考的思維樹范式，相比于 CoT

5、，ToT 增加了對問題的分解和評估，實現模型解決復雜問題的表現提升。維持維持買入買入崔世峰SAC 編號:s1440521100004許悅SAC 編號:s1440523030001發布日期：2023 年 06 月 21 日當前股價：143.52美元/142.70 港元目標價格 6 個月：173美元/169 港元主要數據主要數據股票價格絕對股票價格絕對/相對市場表現（相對市場表現（%）1 個月3 個月12 個月13.71/3.009.02/-10.700.20/-23.1412 月最高/最低價（美元）160.22/76.57總股本（萬股）34,959.72流通股本（萬股）27,751.54總市值（

6、億美元）507.30流通市值（億美元）507.30近 3 月日均成交量（萬）297.81主要股東Robin Yanhong Li16.30%股價表現股價表現相關研究報告相關研究報告百度百度(BIDU.O)(BIDU.O)/百度集團百度集團-SW-SW（9888.HK9888.HK）美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。3 3）R RLHLHF F 環節環節，引入過程監引入過程監督督 R RMM 提升面向復雜問題的解決能力提升面向復雜問題的解決能力。2023 年 5 月 OpenAI 團隊提出 Lets VerifyStep by Step，主要解決 CoT 下過程缺乏監督

7、導致結果準確率不高的問題。因此，其在每一個步驟中引入 RM，即過程監督 RM 模型，并預測每個步驟之后的 token，最大化目標 token 的對數似然，實驗表明性能提升明顯。推理方面，推理方面，C CMUMU CatalystCatalyst GroupGroup 于于 2 2023023 年年 5 5 月提出月提出 SpecInferSpecInfer 推理引擎，較傳統推理效率提升推理引擎，較傳統推理效率提升 2 2.8.8x x。LLM自回歸式解碼存在 1）并行計算利用率低；2）顯存占用大等問題。CMU 研究團隊的解決思路是引入計算代價更小的 SSM 替代 LLM 進行推理，且一次進行多

8、步推理，再由 LLM 進行驗證，整體來看通過提升計算并行度實現推理效率提升。另一種思路來自混合精度推理，另一種思路來自混合精度推理，ETHETH Z Zurichurich 等機構的研究團隊于等機構的研究團隊于 2 2023023 年年 6 6 月提出月提出 SpQRSpQR?；旌暇韧评淼碾y點主要在于 Transformer 模型序列生成過程中的錯誤會逐步累加。面對這一問題，研究團隊的思路 1）大模型的參數之間并非隨機分布，而是存在特定結構的；2）研究團隊對量化過程進行兩個改變：一個用于捕捉小的敏感權重組，另一個用于捕捉單個的異常值。通過對敏感權重和異常值保留高精度，而其他參數降低精度，模型

9、輸出性能損失較原模型在可控范圍，且推理的成本和效率大幅優化?；诖竽Ｐ脱芯抗P記（一）、（二）與本篇報告，我們認為 1）模型數據集、訓練量的優化是重要方向；2）初始化策略、加速優化器能夠在小批量訓練集中優化模型性能，大批量訓練目前研究的上限是 32K，這與訓練速度存在權衡取舍；3）下游調試中如 PET 等方法短期見效快，但在復雜問題的解決能力方面提升并不明顯，模仿學習可能并不是一條高效路徑。另一方面，引入人工標注輔助過程監督，這對效果提升顯著，未來再通過AI 模擬人類的過程監督，這條技術路徑具備較好前景；4）推理部署環節的優化進度較快，主要思路包括調整模型架構實現計算并行度提升，或通過捕捉參數結

10、構實現混合精度推理，降低計算復雜度。這些技術演進有望大幅降低大模型產品的部署、應用門檻，打開 to C 產品的想象空間；5）部分模型能力如 Context Window 來自底層硬件約束，未來軟硬一體可能是關鍵壁壘，對 LLM 廠商的全棧實力提出較高要求。另一方面，對于全棧布局不足的廠商，開源大模型構建繁榮開發者生態也是一條可選路徑，海外的開源社區迭代較快，能夠推動 LLaMA拉近與 GPT-4 的差距。投資建議：投資建議：百度搜索廣告業務預計受益經濟復蘇，且效果廣告受益序列較品牌廣告媒介更優先，信息流廣告則受益展現形式的效率繼續驅動廣告業務增長。云業務隨著疫后回歸常態，項目交付、新簽訂單逐步

11、兌現，向上復蘇趨勢明確。ERNIE BOT 方面，短期商業化前景尚不清晰，但可作為 Option 機會，我們認為中長期 AIGC方向是AI領域具備廣闊應用場景且有希望構建合適商業模式的機會，看好百度在AIGC領域的布局和先發優勢。維持對百度集團的“買入”評級。美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。目錄目錄1.模型結構：Meta 提出 Megabyte，優化計算成本與推理效率.12.預訓練：混合精度訓練降低訓練開銷，提升整體效率.22.1 混合精度訓練：混合精度訓練降低訓練開銷.23.下游調試：對 PET 的反思以及引入過程監督 RM 強化復雜問題解決能力.53.1 Ali

12、gnment（對齊）.73.2 Prompt Engineering.73.3 RLHF：OpenAI 再度引入人工標注建模過程 RM，實現問題解決能力提升.114.推理：并行度提升與計算復雜度降低推動推理效率提升.135.行業應用：游戲 NPC 智能化提升，text-to-3D 模型有所突破.17估值.22投資評價和建議.22風險分析.23圖目錄圖 1:Megabyte 的模型架構（patch size=4）.1圖 2:Megabyte 在不同模型大小與序列長度下的計算資源消耗量低于 Transformer、Linear 等模型.1圖 3:Megabyte 在不同數據集中語言建模困惑度優于其

13、他模型（單位：bits-per-byte）.1圖 4:Megabyte 在不同數據集中圖像建模困惑度優于其他模型（單位：bits-per-byte）.1圖 5:Megabyte 相比 Transformer 模型生成速度大幅優化.2圖 6:Megabyte 架構下不同 patch size 與 Global/Local Size 下模型性能變化.2圖 7:理論上不同位寬對吞吐、帶寬等的差異.2圖 8:AMP 方法中模型每層的混合精度訓練方法.3圖 9:混合精度模型每層位寬的精確度優于 INT8.3圖 10:硬件感知的自動混合精度量化系統（HAQ）技術框架.4圖 11:HAQ 將延遲減少 1.4

14、-1.95 倍，能耗減少 1.9 倍，精度損失可忽略不計.4圖 12:在不同的量化技術中，BitPruning 表現出略優的精確度.5圖 13:人類評估（左圖）與 NLP 評估（中圖）側重點不同，規模擴大縮窄模仿學習模型與 ChatGPT 的差距（右圖）.5圖 14:模仿學習數據擴展對性能影響有限（左圖），但模型參數擴展對性能提升幫助較大（中圖），Localimitation model 效果顯著（右圖）.6圖 15:提升模仿學習數據與語言模型參數規模對性能的影響有所差異.6圖 16:LIMA 在人類偏好測試上較其他模型的比較結果.7圖 17:LIMA 在 GPT-4 測試上較其他模型的比較結

15、果.7圖 18:質量過濾后模型性能顯著提升.7圖 19:數據集規模擴大后 Alignment 后模型性能無顯著提升.7圖 20:ToT 與 IO、CoT、CoT-SC 等推理范式的對比.8圖 21:IO、CoT、CoT-SC、ToT 在 24 點游戲中的成功率.8圖 22:創意寫作（左圖）、迷你縱橫填字游戲（右表）任務下 IO、CoT、ToT 表現對比.9 美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖 23:LATM 的思路是通過 LLM 生成工具并后續復用.9圖 24:LATM 在工具制作環節的工作流程.10圖 25:批任務下引入 Dispatcher 區分目標.10圖 2

16、6:LATM 下 GPT-3.5 Turbo 性能接近 GPT-4，且成本具備較大優勢.11圖 27:過程監督 RM 效果優于結果監督 RM.11圖 28:基于不同 RM 調優下模型性能對比.11圖 29:過程監督需要引入人工標注.12圖 30:過程監督 RM 可以識別文本中的錯誤步驟.12圖 31:在分布外數據集的測試上過程監督 RM 表現仍然優于結果監督 RM.12圖 32:增量解碼推理（左），投機式推理與增量解碼推理對比（右）.13圖 33:可學習的推測器（上）與輸出驗證器（下）.13圖 34:Collective Boost-Tuning 方法.14圖 35:樹狀驗證器示意圖.14圖

17、36:SpecInfer 與 Incremental Decoding 的推理延遲比較.15圖 37:隨著 SSM 數量提升，LLM 的驗證通過長度會提升.15圖 38:LLaMA 65B 最后一層輸出投影.15圖 39:SpQR 總體架構包括 1）用于捕捉小敏感權重組；2）用于捕捉單個的異常值.16圖 40:不同精度技術下 LLaMA 模型的困惑度.16圖 41:不同精度技術下 LLaMA 模型的預測準確度.16圖 42:在 65B 參數規模的 LLaMA 模型下，SpQR 實現 1%的性能損失下平均精度縮小 3.4 倍.16圖 43:FP16、SpQR（PyTorch）、SpQR（opti

18、mized）算法下 LLaMA 模型的推理速度（tokens/s）.17圖 44:英偉達等研究團隊提出 VOYAGER，具備 1）LLM 驅動；2）終身學習能力；3）較此前 SOTA 明顯提升.17圖 45:VOYAGER 由自動課程學習、迭代提示機制、技能庫、環境反饋等組成.18圖 46:VOYAGER 的自動課程實質是將游戲信號轉化為文本 prompt 輸入 GPT-4.18圖 47:VOYAGER 技能庫.19圖 48:VOYAGER 的環境反饋/錯誤糾偏機制.19圖 49:VOYAGER 自我驗證機制.20圖 50:技能庫、環境反饋、自我驗證、錯誤糾正等對 VOYAGER 探索能力的影

19、響.20圖 51:ACE End-to-End Development Suite.21圖 52:GITM 相比 RL 在目標分解、行動規劃、指令執行引入 LLM 實現優化.21圖 53:GITM 的工作流程.22 1美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。1 1.模型結構：模型結構：MMetaeta 提出提出 MegabyteMegabyte，優化計算成本與推理效率，優化計算成本與推理效率MMegabyteegabyte 的改進來自對的改進來自對 tokenizationtokenization 的思考。的思考。Meta 研究團隊于 2023 年 5 月提出 Megaby

20、te，其長度延展性和處理速度顯著高于 Transformer 架構模型。Megabyte 是基于對 Transformer 架構的以下思考而做出改進的Transformer 架構模型是以 token 為基本單位的1，而 token 形式的目的是將輸入數據轉換成計算機可以處理的形式，但 token 與單詞并非一一對應，這等于帶來了額外的分詞成本。Megabyte 對模型處理的基礎單元做出修改，從 token 改為 patch，此外引入局部模塊預測 patch 內的文本序列，相當于引入二次注意力機制。圖圖 1 1:MMegabyteegabyte 的模型架構（的模型架構（patchpatch si

21、zesize=4=4）圖圖 2 2:MegabyteMegabyte 在不同模型大小與序列長度下的計算資源消在不同模型大小與序列長度下的計算資源消耗量低于耗量低于 TransformerTransformer、LinearLinear 等模型等模型數據來源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投數據來源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投二次注意力機制大幅簡化計算復雜度

22、。二次注意力機制大幅簡化計算復雜度。據 Meta AI 研究團隊，大多數任務的預測都比較簡單，也就是沒有必要做全局注意力計算，因而二次注意力機制降低了計算復雜度。另外，更大的 patch 降低前饋層計算資源的消耗。GPT-3 類似規模下的模型 98%的計算資源都用于計算 position-wise2前饋層。最后，引入 patch 內預測提升了計算的并行度，提升計算資源的利用率。圖圖 3 3:M:Megabyteegabyte 在不同數據集中語言建模困惑度優于其他模在不同數據集中語言建模困惑度優于其他模型（單位：型（單位：bitsbits-perper-bytebyte）圖圖 4 4:M:Meg

23、abyteegabyte 在不同數據集中圖像建模困惑度優于其他模在不同數據集中圖像建模困惑度優于其他模型（單位：型（單位：bitsbits-perper-bytebyte）數據來源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投數據來源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投1機器學習的本質是把復雜問題轉化為數學問題，而 NLP 通過 token 也是將非結構化數據轉化為結構化數據

24、，而分詞就是轉化的第一步。2FFN 層是每個 position 進行相同且獨立的操作，所以叫 position-wise。2美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 5 5:M:Megabyteegabyte 相比相比 TransformerTransformer 模型生成速度大幅優化模型生成速度大幅優化圖圖 6 6:M:Megabyteegabyte 架構下不同架構下不同 patchpatch sizesize 與與 GlobalGlobal/L/Localocal S Sizeize 下下模型性能變化模型性能變化數據來源：MEGABYTE:Predicting Mi

25、llion-byte Sequences withMultiscale Transformers，中信建投數據來源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投2 2.預訓練：混合精度訓練降低訓練開銷，提升整體效率預訓練：混合精度訓練降低訓練開銷，提升整體效率2 2.1.1 混合精度訓練：混合精度訓練降低訓練開銷混合精度訓練：混合精度訓練降低訓練開銷量化通過壓縮模型幫助超大參數模型訓練和部署于終端。量化通過壓縮模型幫助超大參數模型訓練和部署于終端?，F有超大參數模型部署端側時受限于終端計算資

26、源和功耗，需要小、低延遲和低能耗的神經網絡模型，從而節省成本。量化訓練即是把高位寬（FP32）表示的權重、參數和激活值用低位寬（FP16、INT8、INT4）重新表示，并且通過浮點數轉定點數將連續的數值映射為離散化的數值。目前全精度浮點（FP32）是訓練神經網絡采用的最標準的方法，量化訓練可以減少模型大?。ū热?INT8 比 FP32 位寬減少 1/4）、加快訓練速度和降低訪存，但同時也帶來模型精度丟失的問題。圖圖 7 7:理論上不同位寬對吞吐、帶寬等的差異理論上不同位寬對吞吐、帶寬等的差異數據來源：Integer Quantization for Deep Learning Inferenc

27、e Principles and Empirical Evaluation，中信建投量化訓練領域的研究目標為如何更小的壓縮模型并最好的保持原有精度。量化訓練領域的研究目標為如何更小的壓縮模型并最好的保持原有精度。首先僅將權重、參數和激活值調整為低位寬和定點數會導致精度損失，比如 FP16 會使 2?24以下的數據變為 0，影響模型效果。為解決該問題，2018 年百度和英偉達聯合提出3提出 AMP（automatic mixed-precision，混合精度訓練）方法，即訓練過程中將每層權重存為 FP32，每次訓練時將 FP32 的權重降至 FP16，前向輸出和后向梯度均使用 FP16 進行計算

28、，更新時將 FP16 的梯度累加至 FP32。模型實現在語音識別、圖像分類、物體檢測、機器翻譯、語言模型等領域實現的準確率等同或略高于 FP32。3Mixed precision training。3美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 8 8:AMP:AMP 方法中模型每層的混合精度訓練方法方法中模型每層的混合精度訓練方法數據來源：Mixed precision training，中信建投上述模型量化方法為固定模型每層的權重、激活值的比特值，但是不同層重要程度、冗余度、敏感度和硬上述模型量化方法為固定模型每層的權重、激活值的比特值，但是不同層重要程度、冗余度、敏感

29、度和硬件表現均不同件表現均不同，對模型每層固定相同的位寬并非最優方法對模型每層固定相同的位寬并非最優方法。因此，后續研究提出了混合精度量化，即通過自動/手動的方式分配模型不同層的權重和激活值的位寬，使得模型在精度和硬件指標中取得組合優化平衡。圖圖 9 9:混合精度模型每層位寬的精確度優于混合精度模型每層位寬的精確度優于 INT8INT8數據來源：Hardware-Aware Automated Quantization with Mixed Precision，中信建投現有自動分配分配模型不同層的權重和激活值的位寬的研究方法為現有自動分配分配模型不同層的權重和激活值的位寬的研究方法為 1 1）

30、轉化為搜索問題轉化為搜索問題 2 2）位寬作為變量引位寬作為變量引入學習入學習。轉化為搜索問題的方法包括 NAS 神經框架搜索技術和利用 RL 強化學習。2018 年 UCB 和 Meta 將 NAS（Neural architecture search）引入混合精度量化4，利用可微分 NAS 的搜索方法來搜索位寬，將目標整合為搜索空間上的可微函數。2019 年 MIT 團隊發表5將量化建模為強化學習問題，并進行自動搜索量化策略，結合硬件仿真器反饋的硬件指標（延遲，能耗和模型尺寸）約束搜索，最終確定最佳的位寬分配策略。該模型有效地將延遲減少了 1.4-1.95 倍，能耗減少了 1.9 倍，并且

31、精度損失可忽略不計。4Mixed Precision Quantization of ConvNets via Differentiable Neural Architecture Search。5Hardware-AwareAutomated Quantization with Mixed Precision。4美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 1010:硬件感知的自動混合精度量化系統（硬件感知的自動混合精度量化系統（HAQHAQ）技術框架）技術框架數據來源：Hardware-Aware Automated Quantization with Mixed Pr

32、ecision，中信建投圖圖 1111:H HAQAQ 將延遲減少將延遲減少 1.4-1.951.4-1.95 倍，能耗減少倍，能耗減少 1.91.9 倍，精度損失可忽略不計倍，精度損失可忽略不計數據來源：Hardware-Aware Automated Quantization with Mixed Precision，中信建投利用 NAS 和強化學習自動選擇量化策略時存在三個問題 1）每次進行新的位寬選擇時，需要重新估計精確度 2）不同數據類型和神經網絡的搜索空間呈指數性增長，需要大量的計算資源 3）自動搜索為節省搜索時間，可能會跳過不常規位寬的搜尋，導致量化策略選擇次優。為減少自動搜索的

33、時間和空間，現有研究通過 1）將目標空間轉化為可微空間 2）搜索組卷積層 3）改變模型評估指標等細化方向優化自動分配位寬的速度，提高模型搜索效率。比如，2020 年 AutoQB 引入了深度強化學習6，將每個卷積層轉化為二值化權重的若干組卷積層，并利用進化搜索探索組卷積層的數量，來自動探索細粒度的量化空間。HWAQ 和 HWAQ-V27采用二階矩陣計算權重/激活的 Hessian 特征值，計算不同層的敏感性設計混合精度策略。將位寬作為變量引入學習為解決 NAS 和 RL 的搜索方法難以有效的實現精確的量化方案的問題。2020 年Yoshua Bengio 等人8在自動學習中將位寬作為變量引入，

34、并且利用插值解決量化后非連續的問題。在不同的量化技術中，BitPruning 表現出略優的精確度。2021 年杜克大學楊幻睿發表的Bsq:Exploring bit-level sparsity formixed-precision neural network quantization提出 BSQ9提出了位級稀疏量化（BSQ），將每一位量化權值視為一個獨立的可訓練變量解決混合精度量化問題。后續的研究路徑將繼續沿著如何有效的探索龐大的搜索空間并且尋找最優的量化方案的路徑進行，比如優6Autoqb:Automl for network quantization and binarization

35、on mobile devices。7HAWQ-V2:hessian aware trace-weighted quantization of neural networks。8BitPruning:Learning Bitlengths for Aggressive and Accurate Quantization。9Bsq:Exploring bit-level sparsity for mixed-precision neural network quantization。5美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明?；詣訉W習更優的量化策略、離散空間的連續化的方法、利

36、用更小的位寬數依然保持原有精度和模型穩定程度等方向路徑，并且對于硬件的支持提出了更高的要求。圖圖 1212:在不同的量化技術中在不同的量化技術中，B Bit itPruningPruning 表現出略優的精確度表現出略優的精確度數據來源：BitPruning:Learning Bitlengths for Aggressive and Accurate Quantization，中信建投3 3.下游調試：對下游調試：對 PETPET 的反思以及引入過程監督的反思以及引入過程監督 R RMM 強化復雜問題解強化復雜問題解決能力決能力UCB 研究團隊于 2023 年 5 月發表 The False

37、 Promise of Imitating Proprietary LLMs，回應近期興起的 Alpaca等模型基于 GPT-4 回答作為訓練數據集的浪潮（或者說模仿學習）。圖圖 1313:人類評估（左圖）與人類評估（左圖）與 N NLPLP 評估（中圖）側重點不同，規模擴大縮窄模仿學習模型與評估（中圖）側重點不同，規模擴大縮窄模仿學習模型與 ChatChatGPTGPT 的差距（右圖）的差距（右圖）數據來源：The False Promise of Imitating Proprietary LLMs，中信建投對比上圖中的左圖與中圖，研究團隊通過實驗表明人類評估在性能接近的情況下很難辨析模型

38、區別，這種情況下只能依賴 NLP benchmark 測試。而另一方面，增加模仿學習數據并沒有本質上提升模型性能，相反提升模型參數規模則有更大幅度的優化。更進一步地，研究團隊區分了 local imitation data 和 broad imitation data，前者聚焦特定任務，但發現提升模仿學習數據的多樣性對縮窄模仿學習模型與原模型的性能差距沒有幫助，而 localimitation model 學習 chatgpt 特定領域的能力則效果明顯。6美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 1414:模仿學習數據擴展對性能影響有限（左圖），但模型參數擴展對性能提升

39、幫助較大（中圖），模仿學習數據擴展對性能影響有限（左圖），但模型參數擴展對性能提升幫助較大（中圖），LocalLocal imitationimitation modemodel l效果顯著（右圖）效果顯著（右圖）數據來源：The False Promise of Imitating Proprietary LLMs，中信建投注：ShareGPT-Mix 數據多樣性較強，為 Broad imitation data 的代理指標，NQ-Synthetic 為 local imitation data 的代理指標。NQ 為在 naturalquestion 數據集上的測試分數，越高越好。圖圖 15

40、15:提升模仿學習數據與語言模型參數規模對性能的影響有所差異提升模仿學習數據與語言模型參數規模對性能的影響有所差異數據來源：The False Promise of Imitating Proprietary LLMs，中信建投總體而言，UCB 研究團隊通過分析得出以下結論：1）適量的 finetuning 對于模型知識/能力的提升幾乎沒有幫助，模型的主要能力來自預訓練環節，finetune 更多是將模型能力展現出來（更符合人類的交互邏輯和方式）。這一結論間接表明 base model 的重要性，預訓練模型決定了長期模型性能的上限，后期的提升可能需要非常大量的數據和額外的處理（可能意味著高昂的

41、成本且效果并不確定）；2）基于大規模數據集、計算資源和優化算法訓練的大模型壁壘更穩固，基于 finetune 數據集取得領先的大模型可能壁壘并不深厚。這一結論間接提示，如果兩個模型在預訓練環節的數據集、算法等方面差異不大，后續優化過程中其中一家可以通過模仿學習的方式以低成本拉近和對手的差距。7美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。3 3.1.1 AlignmentAlignment（對齊）（對齊）A Alignmenlignment t環節的數據質量和多樣性可能比數量重要環節的數據質量和多樣性可能比數量重要。Meta研究團隊于2023年5月發表 LIMA:Less Is

42、Morefor Alignment，提出 Alignment 實質是模型學習與人類交互形式的假設，即模型在預訓練階段學習知識，在Alignment 階段學習展現知識形式（人類交互）。為測試這一假設，研究團隊選取了 750 個高質量問答（來自Stack Exchange，wikiHow 等論壇），并人工編寫了 250 個問答，這 1000 個訓練數據集保持了多元化和形式上的統一性。團隊將 65B LLaMA 模型在該數據集上進行參數微調，并將調整后的模型與 GPT-4、Claude、BARD、Davinci003、Alpaca 65B 進行對比，實驗結果表明 LIMA 在人類測試和 GPT-4

43、測試上超過 50%的情況下不弱于BARD、Davinci003、Alpaca 65B，30%50%的情況不弱于 Claude 和 GPT-4。圖圖 1616:LIMA:LIMA 在人類偏好測試上較其他模型的比較結果在人類偏好測試上較其他模型的比較結果圖圖 1717:LIMA:LIMA 在在 G GPT-4PT-4 測試上較其他模型的比較結果測試上較其他模型的比較結果數據來源：LIMA:Less Is More for Alignment，中信建投數據來源：LIMA:Less Is More for Alignment，中信建投研究團隊通過控制變量比較了數據質量、規模對 Alignment 后模

44、型性能的影響，發現數據質量對性能影響顯著，數量影響則不顯著。圖圖 1818:質量過濾后模型性能顯著提升質量過濾后模型性能顯著提升圖圖 1919:數據集規模擴大后數據集規模擴大后 AlignmentAlignment 后模型性能無顯著提升后模型性能無顯著提升數據來源：LIMA:Less Is More for Alignment，中信建投數據來源：LIMA:Less Is More for Alignment，中信建投3.23.2 P Promptrompt E Engineeringngineering 8美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。T ToToT 新范式提升新

45、范式提升 L LLMLM 解決復雜問題的能力。解決復雜問題的能力。Google DeepMind 和普林斯頓大學研究團隊于 2023 年 5 月提出 Tree-of-thoughts（ToT）10。LLM 在面對復雜問題時，運用 CoT 范式容易出現某一環節出現錯誤導致后續環節持續犯錯的現象，ToT 則是借鑒人類思考的思維樹范式，相比于 CoT，ToT 增加了對問題的分解和評估。研究團隊通過 24 點游戲、創意寫作、迷你縱橫填字游戲比較 IO、CoT、CoT-SC、ToT 下模型表現，實驗表明 ToT在上述任務中表現均優于 IO、CoT、CoT-SC?？傮w來看，ToT 進一步模仿人類思考范式，

46、并實現了模型分解問題，路徑評估及決策等優化，最終實現解決問題能力提升，這一范式可能在下游行業應用中逐步推廣開來。圖圖 2020:T:ToToT 與與 I IO O、CoCoT T、CoCoT-SCT-SC 等推理范式的對比等推理范式的對比數據來源：Tree of Thoughts:Deliberate Problem Solving with Large Language Models，中信建投圖圖 2121:IO:IO、CoTCoT、CoTCoT-SC-SC、ToTToT 在在 2 24 4 點游戲中的成功率點游戲中的成功率數據來源：Tree of Thoughts:Deliberate P

47、roblem Solving with Large Language Models，中信建投10Tree of Thoughts:Deliberate Problem Solving with Large Language Models。9美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 2222:創意寫作（左圖）、迷你縱橫填字游戲（右表）任務下創意寫作（左圖）、迷你縱橫填字游戲（右表）任務下 I IO O、CoTCoT、ToTToT 表現對比表現對比數據來源：Tree of Thoughts:Deliberate Problem Solving with Large Lang

48、uage Models，中信建投引入工具實現問題解決能力提升引入工具實現問題解決能力提升，同時兼顧效率優化同時兼顧效率優化。Google DeepMind、普林斯頓大學和斯坦福大學研究團隊于 2023 年 5 月提出 LATM（LLMs As Tool Maker），主要包括 1）工具制作；2）工具使用，每個階段都利用不同類型的大語言模型（LLM）來平衡性能和成本效率，其中工具制作階段采用 GPT-4 等性能更強但成本更高的模型，工具使用階段采用 GPT-3.5 turbo 等成本更低且推理速度更快的模型。圖圖 2323:LATM:LATM 的思路是通過的思路是通過 L LLMLM 生成工具并

49、后續復用生成工具并后續復用數據來源：Large Language Models as Tool Makers，中信建投 10美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 2424:LATM:LATM 在工具制作環節的工作流程在工具制作環節的工作流程數據來源：Large Language Models as Tool Makers，中信建投具體來看，在工具制造環節在工具制造環節，研究團隊通過 GPT-4 生成一個 Python 函數，用以解決給定任務。該過程遵循 Programing by example（Pbe）范式，如果提出的工具無法執行或者遇到錯誤，研究團隊會將錯誤信息

50、附加到歷史記錄中并進行另一次嘗試。在工具驗證環節在工具驗證環節，研究團隊進行單元測試（unit tests）驗證工具。如果工具未能通過測試，研究團隊會在歷史記錄中記錄錯誤，并嘗試在單元測試中糾正問題（此過程只會糾正單元測試部分的函數調用，而不會糾正功能）。在工具封裝環節，在工具封裝環節，該步驟涉及封裝函數代碼，并演示如何將一個任務轉換為函數調用。研究團隊進一步考慮現實場景研究團隊進一步考慮現實場景，引入引入 DispatcherDispatcher 處理批量數據處理批量數據?？紤]批量數據/任務下，LLM 可能面臨一些新任務或已有工具無法完成新任務，因此研究團隊引入 Dispatcher（LLM

51、）對任務進行識別分配，確定新任務后讓 LLM 制作新工具以滿足需求，反之則運用已有的工具。圖圖 2525:批任務下引入批任務下引入 DispatcherDispatcher 區分目標區分目標數據來源：Large Language Models as Tool Makers，中信建投 11美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 2626:LATM:LATM 下下 G GPT-3.5PT-3.5 T Turbourbo 性能接近性能接近 G GPT-4PT-4，且成本具備較大優勢，且成本具備較大優勢數據來源：Large Language Models as Tool Ma

52、kers，中信建投3 3.3.3 R RLHFLHF：OpenAIOpenAI 再度引入人工標注建模過程再度引入人工標注建模過程 R RMM，實現問題解決能力提升，實現問題解決能力提升引入過程監引入過程監督督 R RMM 提升面向復雜問題的解決能力提升面向復雜問題的解決能力。2023 年 5 月 OpenAI 團隊提出 Lets Verify Step by Step，主要解決 CoT 下過程缺乏監督導致結果準確率不高的問題。因此，其在每一個步驟中引入 RM，即過程監督 RM模型，并預測每個步驟之后的 token，最大化目標 token 的對數似然，實驗表明性能提升明顯。圖圖 2727:過程監

53、督過程監督 R RMM 效果優于結果監督效果優于結果監督 R RMM圖圖 2828:基于不同基于不同 RMRM 調優下模型性能對比調優下模型性能對比數據來源：Lets Verify Step by Step，中信建投數據來源：Lets Verify Step by Step，中信建投 12美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 2929:過程監督需要引入人工標注過程監督需要引入人工標注數據來源：Lets Verify Step by Step，中信建投圖圖 3030:過程監督過程監督 R RMM 可以識別文本中的錯誤步驟可以識別文本中的錯誤步驟數據來源：Lets Ve

54、rify Step by Step，中信建投注：綠色背景表示 PRM 得分高，紅色背景表示 PRM 得分低。過程監督 RM 可以正確識別錯誤解決方案中的錯誤。圖圖 3131:在分布外數據集的測試上過程監督在分布外數據集的測試上過程監督 R RMM 表現仍然優于結果監督表現仍然優于結果監督 R RMM數據來源：Lets Verify Step by Step，中信建投 13美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。4 4.推理：并行度提升與計算復雜度降低推動推理效率提升推理：并行度提升與計算復雜度降低推動推理效率提升C CMUMU CatalystCatalyst GroupG

55、roup 于于 2 2023023 年年 5 5 月提出月提出 SpecInferSpecInfer 推理引擎推理引擎，較傳統推理效率提升較傳統推理效率提升 2 2.8.8x x。LLM 推理的主流范式仍然是自回歸式（auto-regressive）的解碼（decoding），每一次解碼只產生下一個輸出 token，而且需要將歷史輸出內容拼接后重新作為 LLM 的輸入。這種推理范式存在 1）并行計算利用率低；2）顯存占用大等問題。CMU 研究團隊的解決思路是引入計算代價更小的 SSM（Small Speculative Model）替代 LLM 進行投機式推理，并且一次進行多步推理，再由 LL

56、M 進行驗證，整體來看通過提升計算并行度實現推理效率提升。圖圖 3232:增量解碼推理（左），投機式推理與增量解碼推理對比（右）增量解碼推理（左），投機式推理與增量解碼推理對比（右）數據來源：SpecInfer:Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification，中信建投SpecInfer 推理引擎具體包括可學習推測器（Learning-based Speculator）與輸出驗證器（Token Tree Verifier）。Speculator 主要是利用 SSM

57、快速推理，并盡可能靠近 LLM 的生成結果。因此 SSM 一般選用 LLM 的輕量級，例如 LLaMA 7B 或者蒸餾后的 GPT-4。在 Speculator 方面，不同序列的預測難度有所差異，因此采取固定Speculator 可能導致性能并非最優。研究團隊采取 Collective Boost-Tuning 方法，即同時采取多個 Speculator，避免單一 Speculator 可能存在的“偏科”情況，同時引入可學習的調度器（a learning-based speculative scheduler）決定不同場景選用特定 SSM 以匹配序列長度。圖圖 3333:可學習的推測器（上）

58、與輸出驗證器（下）可學習的推測器（上）與輸出驗證器（下）數據來源：SpecInfer:Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification，中信建投 14美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。Collective Boost-Tuning 即在一個公開數據集上，從較弱的 SSM 開始進行微調，將匹配程度較低的序列過濾篩選出去，交由較強的 SSM 來微調，從而提高推理準確度。圖圖 3434:CollectiveCollective Boost-Tu

59、ningBoost-Tuning 方法方法數據來源：SpecInfer:Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification，中信建投輸出驗證器（Token Tree Verifier）主要引入了樹狀解碼，相比序列解碼和單 token 解碼，樹狀解碼方式能夠提升并行計算效率，同時不增加額外的存儲占用。圖圖 3535:樹狀驗證器示意圖樹狀驗證器示意圖數據來源：SpecInfer:Accelerating Generative LLM Serving with Specu

60、lative Inference and Token Tree Verification，中信建投SpecInfer 相比 Incremental Decoding，在五個不同數據集上推理延遲縮短了 1.91-2.75 倍。且隨著 SSM 數量提升，模型生成 token 的長度總體也是增長的，也就意味著模型越來越傾向于形成長回答。15美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 3636:S:SpecpecI Infernfer 與與 IncrementalIncremental D Decodingecoding 的推理延遲比較的推理延遲比較圖圖 3737:隨著隨著 S

61、SSMSM 數量提升，數量提升，LLMLLM 的驗證通過長度會提升的驗證通過長度會提升數據來源：SpecInfer:Accelerating Generative LLM Serving withSpeculative Inference and Token Tree Verification，中信建投注：CIP，CP，WebQA，Alpaca，PIQA 是不同數據集。數據來源：SpecInfer:Accelerating Generative LLM Serving withSpeculative Inference and Token Tree Verification，中信建投華盛頓大學

62、和蘇黎世聯邦理工（ETH Zurich）等機構的研究團隊于 2023 年 6 月提出 SpQR（推理端的混合精度技術）。過往的研究11表明，混合精度推理的難點主要在于 Transformer 架構模型的生成是序列式的，即后一個 token 輸出是以此前 token 作為輸入的，因此序列生成過程中的錯誤會逐步累加，低精度推理在長序列生成過程的錯誤會逐步放大，乃至于明顯影響效果。面對這一問題，解決思路主要有兩種，1）調整 transformer 架構的序列生成模式，阻斷模型生成錯誤累積傳遞；2）降低錯誤率，把錯誤率控制在整體可接收的范圍。SpQR 主要采取第二種思路。研究團隊的思路 1）首先是基于

63、已有研究12，大模型的參數之間并非隨機分布，而是存在特定結構的；2）研究團隊對量化過程進行兩個改變：一個用于捕捉小的敏感權重組，另一個用于捕捉單個的異常值。通過對敏感權重和異常值保留高精度，而其他參數降低精度，模型輸出性能損失較原模型在可控范圍，且推理的成本和效率大幅優化。圖圖 3838:LL:LLaMAaMA 65B65B 最后一層輸出投影最后一層輸出投影數據來源：SpQR:A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression，中信建投11Gptq:Accurate post-training q

64、uantization for generative pre-trained transformers，The case for 4-bit precision:k-bit InferenceScaling Laws。12Gptq:Accurate post-training quantization for generative pre-trained transformers，Zeroquant:Efficient and affordablepost-training quantization for large-scale transformers。16美股公司深度報告百度百度請務必閱

65、讀正文之后的免責條款和聲明。圖圖 3939:S:SpQRpQR 總體架構包括總體架構包括 1 1）用于捕捉小敏感權重組；）用于捕捉小敏感權重組；2 2）用于捕捉單個的異常值）用于捕捉單個的異常值數據來源：SpQR:A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression，中信建投圖圖 4040:不同精度技術下不同精度技術下 L LL LaMAaMA 模型的困惑度模型的困惑度圖圖 4141:不同精度技術下不同精度技術下 LLLLaMAaMA 模型的預測準確度模型的預測準確度數據來源：SpQR:A Spar

66、se-Quantized Representation forNear-Lossless LLM Weight Compression，中信建投數據來源：SpQR:A Sparse-Quantized Representation forNear-Lossless LLM Weight Compression，中信建投圖圖 4242:在在 6 65B5B 參數規模的參數規模的 L LL LaMAaMA 模型下，模型下，SpQRSpQR 實現實現 1 1%的性能損失下平均精度縮小的性能損失下平均精度縮小 3 3.4.4 倍倍數據來源：SpQR:A Sparse-Quantized Represe

67、ntation for Near-Lossless LLM Weight Compression，中信建投 17美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 4343:FP16:FP16、SpQRSpQR（PyPyT Torchorch）、）、SpQRSpQR（optimizedoptimized）算法下）算法下 L LL LaMAaMA 模型的推理速度（模型的推理速度（tokenstokens/s s）數據來源：SpQR:A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression，中

68、信建投注：batch size=1，基于 1 塊 A100 芯片推理。值得一提的是值得一提的是 SpQRSpQR 是在是在 G GPTQPTQ 基礎上改進的，而基礎上改進的，而 G GPTQPTQ 的研究團隊都參與了的研究團隊都參與了 SpQRSpQR 的研究。的研究。GPTQ 從學術路徑上來自 OBQ/OBS，前者是 GPTQ 團隊 2022 年 8 月提出的，后者是 Yann LeCun 于 1990 年提出（剪枝算法）。OBS 的核心思路是抹去某一個權重使得其影響對整體最小，需要同時在剩余的權重中額外增加一個補償權重，并確保二者相互抵消。OBQ 則是將上述思路從剪枝領域遷移至模型量化（q

69、uantization），但主要問題是OBQ 計算復雜度較高，計算成本和速度均存在一定的問題。因此，GPTQ 在 OBQ 的基礎上取消貪心算法（greedyalgorithm），在貪心算法下剪枝/量化需要逐個對比，但研究團隊發現隨機算法在大模型方面表現更好。此外，GPTQ 引入批處理，單次更新多個權重，提升了計算效率。5 5.行業應用：游戲行業應用：游戲 N NPCPC 智能化提升，智能化提升，texttext-to to-3 3D D 模型有所突破模型有所突破2023 年 5 月，英偉達、Caltech、UT Austin、Stanford、ASU 等研究團隊提出 VOYAGER 游戲智能，

70、實現 1）最大化探索的自動課程學習（本質上將游戲信號轉化為文本輸入本質上將游戲信號轉化為文本輸入 G GPT-4PT-4）；2）一個不斷增長的可執行代碼技能庫，用于存儲和檢索復雜的行為（將將 G GPT-4PT-4 反饋轉化為可執行的代碼反饋轉化為可執行的代碼）；3）一個新的迭代提示（prompt）機制，它結合了環境反饋、執行錯誤，和程序改進的自我驗證（考慮考慮 G GPT-4PT-4 回復與游戲現實的差異增加糾錯機制回復與游戲現實的差異增加糾錯機制）。VOYAGER 通過黑箱與 GPT-4 交互，即不需要參數微調（Parameter fine-tuning），Voyager 開發的技能在時間

71、上是可擴展的、可解釋的和組合的，這可以迅速提升智能 AI 的能力并減輕災難性遺忘。圖圖 4444:英偉達等研究團隊提出英偉達等研究團隊提出 V VOYAGEROYAGER，具備，具備 1 1）L LLMLM 驅動；驅動；2 2）終身學習能力；）終身學習能力；3 3）較此前）較此前 S SOTAOTA 明顯提升明顯提升數據來源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投 18美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 4545:VOYAGER:VOYAGER 由自動課程學習、迭代提

72、示機制、技能庫、環境反饋等組成由自動課程學習、迭代提示機制、技能庫、環境反饋等組成數據來源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投此前的研究往往通過強化學習（RL）以及模仿學習（imitation learning），但在開放性環境下的泛化能力較弱，且可解釋性不足，本質上還是基于固定規則做出反應，缺乏對行為的理解?，F有研究基于 LLM 在游戲智能方面做出突破，但缺乏持續學習的能力。圖圖 4646:VOYAGER:VOYAGER 的自動課程實質是將游戲信號轉化為文本的自動課程實質是將游戲信號轉化為文

73、本 promptprompt 輸入輸入 G GPT-4PT-4數據來源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投注：此處代碼為人工標注而非機器生成。VOYAGER 解決遺忘問題的方式是引入存儲與檢索，即生成技能時通過簡寫標記，后續遇到類似情況時搜索技能庫調用，一定程度上緩解遺忘問題。19美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 4747:VOYAGER:VOYAGER 技能庫技能庫數據來源：VOYAGER:An Open-Ended Embodied Agent with L

74、arge Language Models，中信建投另一方面，在錯誤糾偏/自我驗證環節，VOYAGER 通過在 promtp 中要求 GPT-4 扮演評論者（critic），判斷程序是否能夠正確實現目標，如果無法實現，則提出進一步改進意見，這一過程迭代多次直至目標達成。此外，在代碼生成環節，由于 GPT-4 生成的代碼可能存在一定錯誤，代碼生成也需要迭代多次，并將此前的錯誤合并入 prompt 輸入 GPT-4，要求 GPT-4 予以改進。為防止持續錯誤，研究團隊設置迭代次數閾值（4 次），即超過 4 次仍為成功則調整其他目標，避免陷入停滯的問題。圖圖 4848:VOYAGER:VOYAGER

75、的環境反饋的環境反饋/錯誤糾偏機制錯誤糾偏機制數據來源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投 20美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 4949:VOYAGER:VOYAGER 自我驗證機制自我驗證機制數據來源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投總體而言，1）自動課程學習對于 VOYAGER 的探索能力（相比于隨機學習）有明顯提升，這主要是由于部分任務存在前置要求，即

76、完成 A 任務的前提是完成 B 任務，因而學習順序至關重要。另外，預置規則的方式（manually curriculum）則未考慮當前 AI 的狀態，且不具備糾錯能力；2）技能庫能夠發揮一定作用，主要是VOYAGER 能夠基于此前的技能組合創造更多復雜的動作，從而拓展 VOYAGER 的能力范圍；3）自我驗證機制對探索能力提升最明顯，否則 VOYAGER 可能陷入錯誤循環中無法完成任務；4）GPT-4 替代 GPT-3.5 的效果提升主要是代碼生成能力的差異，代碼錯誤率低能夠提升整體性能。圖圖 5050:技能庫、環境反饋、自我驗證、錯誤糾正等對技能庫、環境反饋、自我驗證、錯誤糾正等對 V VO

77、YAGEROYAGER 探索能力的影響探索能力的影響數據來源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投5 月 29 日，英偉達宣布推出適用于游戲的 NVIDIA Avatar Cloud Engine（ACE）13，這是一種定制的 AI 模型代工服務，可通過 AI 驅動的自然語言交互為 NPC 帶來智能。13Omniverse Avatar Cloud EngineACE|NVIDIADeveloper|NVIDIADeveloper 21美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。

78、圖圖 5151:ACE:ACE End-to-EndEnd-to-End DevelopmentDevelopment SuiteSuite數據來源：NIVIDA 官網，中信建投除英偉達外，清華大學與商湯研究團隊于 2023 年 5 月提出 GITM14，相比于 RL 為基礎的方法，引入了 LLM，并分別利用 LLM 進行目標分解，行為規劃，環境交互。其中，目標分解過程中 LLM Decomposer 主要利用公開互聯網的一些文本知識（例如游戲攻略）對目標進行分解；在行為規劃環節，基于目標和環境反饋，LLM 會對行為進行相應地規劃，并形成文本知識庫；在交互環節，主要是通過預置一些行為編碼，通過

79、 action 激活具體的行為，實現對游戲智能的控制。圖圖 5252:G GITMITM 相比相比 R RL L 在目標分解、行動規劃、指令執行引入在目標分解、行動規劃、指令執行引入 L LLMLM 實現優化實現優化數據來源：Ghost in the Minecraft:Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-basedKnowledge and Memory，中信建投14Ghost in the Minecraft:Generally Capable Age

80、nts for Open-World Enviroments via Large Language Models with Text-basedKnowledge and Memory。22美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。圖圖 5353:GITM:GITM 的工作流程的工作流程數據來源：Ghost in the Minecraft:Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-basedKnowledge and Memory，中信建投估

81、值估值我們預計百度于 2023/24 年分別實現 1388/1488 億營業收入，分別同比+12%/+7%，經調整 Non-GAAP 凈利潤為 233/283 億，分別同比+11%/+21%，對應經調整 Non-GAAP 凈利潤率為 17%/19%。估值上，我們認為百度主要業務處于相對成熟階段，因此適合 PE 估值。遠期 PE 對應持有一年的名義回報率，以 22.5%的美國經濟潛在增長率為基礎，考慮額外的 10 年期國債利率，我們預計 34%的實際回報率水平處于合理區間。投資評價和建議投資評價和建議百度搜索廣告業務預計受益經濟復蘇，且效果廣告受益序列較品牌廣告媒介更優先，信息流廣告則受益展現形

82、式的效率繼續驅動廣告業務增長。云業務隨著疫后回歸常態，項目交付、新簽訂單逐步兌現，向上復蘇趨勢明確。ERNIE BOT 方面，短期商業化前景尚不清晰，但可作為 Option 機會，我們認為中長期 AIGC 方向是AI 領域具備廣闊應用場景且有希望構建合適商業模式的機會，看好百度在 AIGC 領域的布局和先發優勢。維持對百度集團的“買入”評級。23美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。風險分析風險分析新業務發展不及預期：新業務發展不及預期：AIGC 及相關新技術領域仍處于快速發展階段，技術距離成熟存在較大差距，當前發展預期可能存在過度樂觀的情況，業務實際發展仍存在較大不確定

83、性。宏觀或行業環境變化：宏觀或行業環境變化：由于公司部分業務處于探索期或成長期，業務模式尚未成熟，同時宏觀、行業環境可能發展變化，因此當前時點對未來的預判多數依賴上述環境變化不大或基本穩定的假設。若宏觀、行業環境發生較大變化，公司業務受到的影響可能超出我們的預期范圍。競爭加劇風險競爭加劇風險：公司部分業務如搜索廣告等面臨短視頻、應用內搜索的分流，以及搜狗、360 等競爭威脅。24美股公司深度報告百度百度請務必閱讀正文之后的免責條款和聲明。分析師介紹分析師介紹崔世峰崔世峰海外研究首席分析師，南京大學碩士，6 年買方及賣方復合從業經歷，專注于互聯網龍頭公司研究，所在賣方團隊獲得 2019-2020

84、年新財富傳媒最佳研究團隊第二名。2022年新財富海外研究最佳研究團隊入圍。許悅許悅海外研究員，南洋理工大學碩士，專注于互聯網研究，2022 年加入中信建投海外前瞻組。美股公司深度報告百度百度評級說明評級說明投資評級標準評級說明報告中投資建議涉及的評級標準為報告發布日后6 個月內的相對市場表現，也即報告發布日后的 6個月內公司股價（或行業指數）相對同期相關證券市場代表性指數的漲跌幅作為基準。A 股市場以滬深 300 指數作為基準；新三板市場以三板成指為基準；香港市場以恒生指數作為基準；美國市場以標普 500 指數為基準。股票評級買入相對漲幅 15以上增持相對漲幅 5%15中性相對漲幅-5%5之

85、間減持相對跌幅 5%15賣出相對跌幅 15以上行業評級強于大市相對漲幅 10%以上中性相對漲幅-10-10%之間弱于大市相對跌幅 10%以上分析師聲明分析師聲明本報告署名分析師在此聲明：（i）以勤勉的職業態度、專業審慎的研究方法，使用合法合規的信息，獨立、客觀地出具本報告,結論不受任何第三方的授意或影響。（ii）本人不曾因，不因，也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償法律主體說明法律主體說明本報告由中信建投證券股份有限公司及/或其附屬機構（以下合稱“中信建投”）制作，由中信建投證券股份有限公司在中華人民共和國（僅為本報告目的，不包括香港、澳門、臺灣）提供。中信建投

86、證券股份有限公司具有中國證監會許可的投資咨詢業務資格，本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。在遵守適用的法律法規情況下，本報告亦可能由中信建投（國際）證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎，不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料，但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷，該等觀點、評估和預測可能在不發出通知的情況

87、下有所變更，亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件，而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況，報告接收者應當獨立評估本報告所含信息，基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投

88、建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策，中信建投都不對該等投資決策提供任何形式的擔保，亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內，中信建投可能持有并交易本報告中所提公司的股份或其他財產權益，也可能在過去 12 個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點，分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系，分

89、析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可，任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容，亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有，違者必究。中信建投證券研究發展部中信建投證券研究發展部中信建投（國際中信建投（國際）北京上海深圳香港東城區朝內大街 2 號凱恒中心 B座 12 層上海浦東新區浦東南路528號南塔 2103 室福田區福中三路與鵬程一路交匯處廣電金融中心 35 樓中環交易廣場 2 期 18 樓電話：（8610）8513-0588電話：（8621）6882-1600電話：（86755）8252-1369電話：（852）3465-5600聯系人：李祉瑤聯系人：翁起帆聯系人：曹瑩聯系人：劉泓麟郵箱：郵箱：郵箱：郵箱：charleneliucsci.hk

相關圖表

本文主要內容為對百度大模型研究的分析，包括模型結構、預訓練、下游調試、推理以及行業應用等方面。 1. 模型結構方面，Meta研究團隊提出Megabyte，通過將Transformer架構中的token改為patch，引入局部模塊預測patch內的文本序列，實現計算成本降低、速度提升。 2. 預訓練方面，混合精度訓練通過將權重、參數和激活值量化，降低訓練開銷，提升整體效率。 3. 下游調試方面，UCB研究團隊提出LIMA，強調Alignment環節的數據質量和多樣性比數量更重要。Google DeepMind等團隊提出ToT，通過模仿人類思考的思維樹范式，提升LLM解決復雜問題的能力。 4. 推理方面，CMU Catalyst Group提出SpecInfer推理引擎，通過引入計算代價更小的SSM替代LLM進行投機式推理，提升推理效率。 5. 行業應用方面，英偉達等研究團隊提出VOYAGER，通過自動課程學習、迭代提示機制、技能庫、環境反饋等，實現游戲智能的提升。 6. 投資建議方面，維持對百度集團的“買入”評級，認為百度在AIGC領域的布局和先發優勢明顯。

百度在AIGC領域有哪些布局和優勢？混合精度訓練如何降低訓練開銷和提升效率？過程監督RM如何提升復雜問題解決能力？

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站