《強化學習與大語言模型:算法前沿和產業落地.pdf》由會員分享,可在線閱讀,更多相關《強化學習與大語言模型:算法前沿和產業落地.pdf(14頁珍藏版)》請在三個皮匠報告上搜索。
1、強化學習與大語言模型:算法前沿和產業落地曹宇 阿里巴巴集團本分享所有內容僅代表個人觀點,不代表雇主強化學習的一個最簡單介紹 通過一個獎勵函數或者模型,對于算法設計人員所希望希望其表現的行為進行獎勵,對于不不希望希望的進行懲罰 相比于我們所熟知的預訓練和SFT RL 算法大多采用模型自身輸出的內容作為訓練的依據 通過獎勵模型或者獎勵函數對于該內容進行評價 理論上任何的信號(人類的偏好,做題的正確,agent執行的結果等)都可以作為獎勵信號的一部分LLMReward ModelFunctionsLLMxy產業界比較奏效的RL應用領域 RL 的學習方式本質上是根據獎勵優化LLM的概率分布,我們觀察到
2、了在這些領域中奏效 人類反饋的強化學習(RLHF)基于規則及反饋的強化學習(RLAIF)基于明確可驗證任務(RL)端到端的強化學習(e2e RL)xyrulemodelfeedbackverifierRM systemLLMxy第一代ChatBot編程王者全民深度思考Agent領域萌芽當前RL應用的主要焦點 RL e2e RLRL e2e RL 實現智能水平的提升 在可驗證領域持續增強:Math Code Agent 不斷拉長有效決策時長提升決策精度 完成從Reasoner向Agent技術的躍遷 垂直領域沖擊AGI RLAIFRLAIF 增強模型的編程能力 提升指令遵循的準度 注入用戶通用的偏
3、好 RLHFRLHF 持續提升模型安全性 提升模型的文采風格 增強隱含意圖理解力為什么 RL 未來對于 LM 依然重要 Human Data 向 Experience(AI data)的轉變 Pre-train 速率放緩是較為明確的趨勢 數據成為了主要的瓶頸 數據未來并不會以人類為主 最簡單的一個例子:合成數據 模型產生數據 判斷產生數據的好壞 使用該數據好的部分進行訓練+RL 可以使用其中“壞”的部分產業應用落地挑戰 infra本身是根本 數據是驅動的燃料 算法進步也不容忽視 infra infra 數據數據 算法算法 RL infra 的強需求 在RL的訓練過程中,決定算法迭代效率至少有以
4、下三個方面 推理效率推理效率:長文本的推理效率,多模態推理效率 驗證效率驗證效率:異構系統的驗證效率,工具調用效率 訓練效率訓練效率:大模型本身的訓練效率 這幾乎涵蓋了當前大模型系統工程的方方面面,其中最弱的短板決定系統短板OpenRLHF 使用Ray調度的vLLM+DeepSpeed RL 數據流 6.3K stars Ant Ray Flow Insight VeRL 字節跳動開源 6.9K stars AReal 螞蟻、清華開源 1.1K stars數據獲取的維度 從人類數據向經驗數據的轉變 從單輪交互,向agent交互轉變 從入門難度數據向專業難度數據轉變1.單一領域的 RL 奏效,但
5、往往無法抵抗通用的scaling2.人類數據固然寶貴,但依靠人類的標注無法獲得足夠多的數據3.模型直接和環境進行交互的數據,如agent類數據未來的價值持續提升人類數據 交互數據 專業難度算法本身的復雜度 Generation Phase 生產樣本,在線學習 on-policy,off-policy Reward/Verify Phase 獲得獎勵,環境建模 code execution,browsing Training Phase 更新模型,迭代策略 PPO,GRPO,etc.PPOGRPORF+ReMaxxRM VerifierCodeRM RulesBrowservLLMCodeSGLangBrowserrrryyy幾萬到幾百萬LLMRL 算法能力的挑戰 Alignment Faking CoT 言不由衷 Reward Hacking 個性化的瓶頸總結 RL 在大模型的發展過程扮演了哪些應用價值 RL 在大模型的現在及未來中主要挑戰是什么 RL 作為一項和基座走的很近的技術,未來會逐漸向應用端發力