《張俊林-OpenAI o1技術原理解析.pdf》由會員分享,可在線閱讀,更多相關《張俊林-OpenAI o1技術原理解析.pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、張俊林 新浪微博首席科學家、新技術研發負責人中國中文信息學會理事,中科院軟件所博士。目前擔任新浪微博技術研發負責人,在此之前在阿里巴巴擔任資深技術專家,負責新技術團隊。這就是搜索引擎:核心技術詳解、大數據日知錄:架構與算法的作者,目前主要研發興趣集中在推薦系統及自然語言處理演講主題:OpenAI o1技術原理解析OpenAI o1技術原理解析張俊林新浪微博OpenAI o1模型的意義o1的可能訓練過程強化學習與LLM融合構造o1模型大模型的“思考快與慢”人人類類大大腦腦擅擅長長快快思思考考的的系系統統1 1和和擅擅長長慢慢思思考考的的系系統統2 2,G GP PT T 4 4類類似似于于大大腦
2、腦中中的的系系統統1 1,O Op pe en nA AI I o o1 1類類似似于于大大腦腦中中的的系系統統2 2。人類大腦的兩套系統o1大幅提升了大模型的復雜邏輯推理能力O O1 1相相對對G GP PT T 4 4o o在在數數學學競競賽賽、高高難難度度編編程程競競賽賽、博博士士級級專專業業能能力力方方面面成成績績獲獲得得大大幅幅提提升升復雜邏輯推理能力的極大提升強化學習 Scaling Law(1/2)S Sc ca al li in ng g L La aw w是是驅驅動動最最近近幾幾年年大大模模型型發發展展的的主主要要因因素素,目目前前面面臨臨因因數數據據短短缺缺而而曲曲線線開開
3、始始平平緩緩的的階階段段,不不可可持持續續。大模型發展的第一驅動力:Scaling Law強化學習Scaling Law(2/2)新新型型的的R RL L階階段段S Sc ca al li in ng g L La aw w,大大模模型型發發展展可可能能開開啟啟快快速速能能力力提提升升的的第第二二增增長長曲曲線線o1為小模型發展掃清了障礙(1/2)O1-mini的效果在某些場景甚至比規模大的多的o1-Preview要好。o1為小模型發展掃清了障礙(2/2)“能力分治”模式推進小模型技術發展:把語言、世界知識及邏輯推理三個能力解耦,語言能力靠小模型自身、邏輯推理靠類似o1的通過RL獲得的深度思考
4、能力,而世界知識可以靠外掛RAG獲得增強。O1引發的安全對齊新模式O1在做安全對齊方面,大概采用了類似Anthropic的“AI憲法”的思路:給定一些安全守則,指明哪些行為能做,哪些不能做,在o1邏輯推理能力提高之后,它遵循這些法則的能力也獲得了極大增強,安全能力比GPT 4o強很多。Anthropic Constitutional AI“深度思考”在復雜任務中的廣泛應用-大模型搜索深度思考能力善于解決長鏈條復雜任務,目前在LLM搜索已廣泛采用,也會快速拓展到更多應用領域。Perplexity深度搜索(Open AI 所有聯合創始人何時離開公司以及現在在哪個公司)Perplexity深度搜索開
5、發企業:Perplexity類似產品:Kimi探索版、ChatGPT搜索發布日期:2024年10月15日特點:將復雜問題拆解成若干子查詢,通過復雜推理集成最終搜索1結果Perplexity集成OpenAI o1 mini來實現這個功能新一代搜索引擎范式OpenAI o1模型的意義o1的可能訓練過程強化學習與LLM融合構造o1模型OpenAI o1的在線推理過程4.最終答案3 3.H Hi id dd de en n C CO OT T摘摘要要1 1.用用戶戶問問題題2 2.生生成成H Hi id dd de en n C CO OT To1的完整訓練過程推演(1/3)Post-Training
6、新引入兩個階段,Inference新加入兩個階段。o1的完整訓練過程推演(2/3)只強調Inference-Time Scaling大概率是不對的,也要重視增強基座模型的基礎邏輯能力,兩者相互促進。O Op pe en nA AI I o o1 1發發布布之之前前的的研研究究結結論論o1的完整訓練過程推演(3/3)只強調Inference-Time Scaling大概率是不對的,也要重視增強基座模型的基礎邏輯能力,兩者相互促進。對對o o1 1的的I In nf fe er re en nc ce e-t ti im me e S Sc ca al li in ng g的的探探索索(F Fr
7、ro om m H Hu ug gh h Z Zh ha an ng g o on n X X:h ht tt tp ps s:/x x.c co om m/h hu ug gh hb bz zh ha an ng g/s st ta at tu us s/1 18 83 38 82 28 88 89 92 23 36 65 56 69 94 41 18 86 60 0)o1可能由多個模型構成(1/3)最小構成:主模型+COT摘要模型。o1可能由多個模型構成(2/3)目前已知:o1 Preview比GPT 4o的輸入價格貴3倍,輸出價格貴4倍,o1 mini輸入和輸出價格都是GPT 4o的20
8、倍。o1可能由多個模型構成(3/3)可能構成:主模型+輔助模型池子+COT摘要模型。OpenAI o1模型的意義o1的可能訓練過程強化學習與LLM融合構造o1模型強化學習(Reinforcement Learning,RL)基礎(1/4)Agent通過和外部世界交互獲得長遠收益:1.Agent觀察世界 2.Agent改變狀態 3.Agent作出行為,對外部世界有某種影響 4.外部世界給出反饋,并發生改變 不斷循環上述過程,Agent希望在這個過程中獲得最大收益強化學習(Reinforcement Learning,RL)基礎(2/4)馬爾可夫決策過程(Markov Decision Proce
9、sses,MDP):一個智能體(Agent)采取行動(Action)從而改變自己的狀態(State)獲得獎勵(Reward)與環境(Environment)發生交互的循環過程。狀態集合:系統各種可能狀態行為集合:Agent可以采取的行動狀態轉移概率矩陣:S狀態采取行為a后轉移到s狀態的可能性獎賞函數:狀態s采取行為a后獲得的即時獎勵折扣率:對過去獎賞打折扣強化學習(Reinforcement Learning,RL)基礎(3/4)MDP示例:目標:自動駕駛汽車行駛路程越遠越好越快越好 狀態:Cool/Warm/Overheated(離散狀態空間)行動:Slow/Fast(離散行為空間)Rewa
10、rd:速度越快獎勵加倍,比如R(s=Cool,a=Fast)=2狀態轉移:P(s=Cool|s=Cool,a=Fast)=0.5P(s=Warm|s=Cool,a=Fast)=0.5強化學習(Reinforcement Learning,RL)基礎(4/4)利用強化學習AI打游戲,是典型的連續狀態空間、離散行為空間的例子。O1中強化學習的狀態空間(1/2)關于o1的RL狀態空間,首先的問題是:這個狀態空間是離散的還是連續的?大概率是連續狀態空間,或者說最好把它看成是連續狀態空間。T To ok ke en n序序列列組組成成的的連連續續狀狀態態空空間間O1中強化學習的狀態空間(2/2)關于o1
11、的RL狀態空間,首先的問題是:這個狀態空間是離散的還是連續的?大概率是連續狀態空間,或者說最好把它看成是連續狀態空間。和和游游戲戲R RL L的的類類比比O1中強化學習的行為空間(1/2)人在思考復雜問題時,有比較固定且數量并不太多的“思考模式”或者可以叫“思考因子”。比如拿到一個復雜問題,我們一般會首先明確這個問題的目標是什么,然后把復雜問題拆解成幾個環節或者步驟,為了得到某一個具體步驟的解法,可能會提出一個假設,然后驗證這個假設是否成立,如果不成立,那么繼續提出新的假設,直到解決這個子問題.從Hidden COT可以歸納出一些典型的人類思考問題的一些隱含的“思考因子”O1中強化學習的行為空
12、間(2/2)層級的hidden COT結構,能體現出RL和LLM的優勢結合,離散行為空間比如估算給定狀態S采取何種行為,即函數Q(S,A)的估算,這是RL擅長做的事情,而思考因子標簽中的Token生成則是LLM擅長的事情,LLM可以根據對應“思考因子”的類型,學習調整因子標簽內部Token的生成概率。兩步生成:思考因子(RL)+Tokens(LLM)O1中強化學習的獎勵模型目前常用的Reward模型有兩種:結果獎勵模型(ORM,Output Reward Model)和過程獎勵模型(PRM,Process Reward Model)。OpenAI大概兩者都會用。O OR RM M和和P PR
13、RM MRL和LLM相結合:AlphaZero簡介2017年年底AlphaGo的棋類游戲通用版本Alpha Zero問世,不僅圍棋,對于國際象棋、日本將棋等其他棋類游戲,AlphaZero也以壓倒性優勢戰勝包括AlphaGo在內的最強的AI程序。A Al lp ph ha aZ Ze er ro o的的工工作作流流程程RL和LLM相結合:LLM與RL融合后可能的模型網絡結構(1/2)來自AlphaZero的RL結構+GPT的LLM模型結構,兩者融合,各自發揮特長。融融合合R RL L和和L LL LM M的的網網絡絡結結構構RL和LLM相結合:LLM與RL融合后可能的模型網絡結構(2/2)來自AlphaZero的RL結構+GPT的LLM模型結構,兩者融合,各種發揮特長。蒙特卡洛樹搜索(MCTS):如何應用在o1中(1/2)使用MCTS對每個可能的思維模式(Plan、Proposer、Refine.)進行搜索,模型網絡結構用于樹剪枝來加速搜索過程。蒙特卡洛樹搜索(MCTS):如何應用在o1中(2/2)使用MCTS對每個可能的思維模式(Plan、Proposer、Refine.)進行搜索,模型網絡結構用于樹剪枝來加速搜索過程。具具體體搜搜索索過過程程Thanks!