《特賽發-曾冠奇-特賽發LLM落地實戰分享.pdf》由會員分享,可在線閱讀,更多相關《特賽發-曾冠奇-特賽發LLM落地實戰分享.pdf(16頁珍藏版)》請在三個皮匠報告上搜索。
1、特賽發特賽發LLMLLM落地實戰分享落地實戰分享曾冠奇曾冠奇 特賽發創始人特賽發創始人CEOCEO個人簡介個人簡介曾冠奇簡歷:碩士畢業于武漢大學國家網絡安全學院,師從教授委員會主任王麗娜教授。個人學術公眾號:Agent的潛意識2015年阿里大數據競賽15/4868 2016年上海bot大賽排面自動識別初復賽第一名。工作經歷:平安科技(世界500強)資深工程師(2012-2014)國家某部委841院多媒體深度學習負責人-2016 便利蜂智能零售實驗室team leader。2017-2018 敦煌網算法總監 2018-2020 螞蟻集團數字金融線數金搜索算法負責人2020.1-2022CSDN
2、學院人工智能講師 創新工場AI chanllege 講師 之江實驗室學術客座專家IEEE SMC2020 Adaptive Context Learning Network for Crowd Counting 第一通訊作者 ACM SIGIR2022CTnoCVR:A Novelty Auxiliary Task Making the Lower-CTR-Higher-CVR Upper 第一通訊作者目錄目錄03.落地基本范式04.預訓練模型實戰01.全棧自研垂類模型02.自研GPU資源05.RLHF內核情景06.COT的數學本質07.關鍵實踐1 1、我們為什么要自研垂類大模型、我們為什么要
3、自研垂類大模型預訓練+RLHF+COT三大核心組件全棧自研80%80%LLMLLM預訓練模型預訓練模型+SFT+SFT自訓練(自訓練(vicunavicuna、羊駝等)、羊駝等)50%基于基于chatGPTchatGPT的插件應用開發的插件應用開發(gpt-engineer,gpt-engineer,auto-gpt)20%Langchain+LLMLangchain+LLM的開發的開發30%全棧自研,才有縱深,才有張力、彈性、可伸縮性。能夠深入理解技術本質,提供可定制化的深層服務力。做難而正確的事2 2、自研垂類大模型資源盤點、自研垂類大模型資源盤點彭博社GPT模型大?。?0BGPU:64臺
4、機器,一機8卡A100,顯存40G數據交換速度:節點間600Gb/s,節點內400GB/s數據量:共700B語料庫,使用569B做trainset數據來源:公有數據集+私有數據集訓練時長:139200step,53天,0.8個epoch效果:NER+NED優于Bloom176b Gpt-NeoX OPT66參考文獻:Wu,S.,Irsoy,O.,Lu,S.,Dabravolski,V.,Dredze,M.,Gehrmann,S.,.&Mann,G.(2023).Bloomberggpt:A large language model for finance.arXiv preprint arXi
5、v:2303.17564.特賽發LLM1、A800(100)集群不如H800(100)單機多卡。集群需要管理好網絡數據同步帶寬。因而單機多卡更方便。2、Nvlink 同步數據比PCIE快幾倍。訓練整體速度快20%左右。NVLINK和PCIE都掉卡。3、數據集要有分布多樣性。模型見多識廣,才不會收斂在小的局部最優解。4、一個30B左右的模型,100B tokens完全夠用。5、超大規模模型,里面冗余參數(參數值趨近于0)很多。模型結構需要自行設計。模型大?。?050BGPU:1機十卡H800數據交換速度:單節點,節點內 NVlink數據量:50100B左右數據來源:公有數據集+私有數據集訓練時長
6、:10 day效果:垂類數據上具有優勢。3 3 實戰落地基本范式實戰落地基本范式Step 1預訓練構建具有垂類數據理解能力的底座,底座模型訓練中沒有見過的業務邏輯,后續COT即使寫的再好,也達不到人類推理水平。Step 2RLHF1、SFT。2、reward model3、PPO。Step 3COT如何debug,找到能學到推理能力的Prompt書寫范式是核心模型結構設計優化三要點:1、彈性 2、張力3、可伸縮性1、SFT提供基本能力2、reward model 提供判別式3、PPO來訓練Agent構建具有真正推理能力的LLM收集高質量垂類數據,清洗好,混搭其他數據集,提升數據分布的多樣性構建
7、高質量、海量的標注數據。用于訓練reward model,驗證PPO 學習的有效性手工動腦寫prompt+Auto cot。4 4、預訓練模型結構的優化、預訓練模型結構的優化1 12012年前SVM的天下SVM有嚴格數學支撐,神經網絡效果不穩定,學習速度慢。這是2011年冠軍的論文,引用數只有10。參考文獻:Compressed Fisher vectors for Large Scale Visual Recognition2022年前 BERT GPTBert是一個全transformer結構,既有編碼器也有解碼器,而GPT是半-transformer結構,只有解碼器。相同模型大小的情況下
8、,bert結構的大語言模型效果優于GPT。很多人開始放棄了單一解碼器結構增加神經網絡深度,2012年發明Alexnet2011年,ILSVRC冠軍分類錯誤率為25%。2012年,AlexNet深層卷積神經網絡達到了15.3%的錯誤率,比第二名低10.8個百分點增加transformer解碼器層數,2022年發明 chatgpt通過增加解碼器層數,做出具有涌現能力的驚人效果。這需要技術定力,也需要說服團隊成員朝一個方向努力。一根筋(增加神經網絡深度)的openAI首席科學家 Ilya Sutskever 數學家的思維:世界上所有規律都可以用一個方程表示,如果一個不夠,那就兩個。神經網絡的玄學:A
9、lexnet 卷積層 5個,池化層 3個,全連接層:3個.按數學家的角度,所有卷積層均是一個函數映射,層數增加,多了一層映射關系相當于表達能力更強,但Alexnet增加1層卷積層效果并沒有變好。信號傳播學信號傳播學:當前直播信號,從深圳傳播到北京,存在信息損失;一個優秀的神經網絡結構,從前往后是預測信號的傳播,從后往前是loss信號的反向傳播,他能讓信號在傳播過程中損失最少。從而得到最佳局部最優解4 4、預訓練模型結構的優化、預訓練模型結構的優化2 2 MOEMOE結構分享結構分享0103050402阿里大模型 M6重構transformer 前向傳播層為 prototyped MoE FFN
10、 層參考文獻https:/ Chinese Multimodal Pretrainer 特賽發山下問童也是一個基于MOE架構優化的transformer 模型。后續會公布。2022-谷歌-GLaM:重構transforer中的前向傳播層為gate layer,這樣可以點選多頭注意力機制層中的每個通道。效果優于GPT3,訓練資源只有1/3騰訊混元大模型30億的Dense模型擴展HunYuan-NLP 1T大模型,專家數量設置為1536個。參考文獻:https:/ expert,每個expert 在不同數據集和任務上訓練。參考文獻:https:/www.latent.space/p/geohot#
11、details參考文獻:GLaM:Efficient Scaling of Language Models with Mixture-of-Expertshttps:/arxiv.org/pdf/2112.06905.pdf5 5、RLHFRLHF內核情景分析內核情景分析1 1基于人類反饋學習的本質基于人類反饋學習的本質基于人類反饋學習的本質基于環境反饋學習的經典范式在環境St中,Agent以一定策略范式生成一個Action,作用于環境后,得到環境給出的正負激勵reward,Agent根據這個reward調整自己的策略,然后生成下一個action,得到新的環境狀態St+1和激勵Rt+1Agen
12、t base policy人類標注平臺反饋Agent 胡說八道環境置之不理說出去的話,潑出去的水。說話水平-得分人類手工反饋替代環境直接反饋5 5、RLHFRLHF內核情景分析內核情景分析2 2 馬爾可夫鏈的斷裂馬爾可夫鏈的斷裂基于人類反饋學習的馬爾可夫鏈斷裂基于環境反饋學習的經典馬爾可夫鏈基于環境的反饋是一個連續決策過程:在環境St中,Agent生成的動作A1會得到新的環境St1;如果采用動作A2施加到環境,則會得到新的不一樣的環境St2。Agent base policy人類標注平臺反饋說話水平-得分人類手工反饋替代環境直接反饋Agent學習的reward是整體全盤所有動作得到的長期反饋之
13、和,當前步的reward權重為1,之后時間步的激勵按貼現因子r 貼現求和。這樣保證Agent不短視。張一鳴總所說的延遲滿足感!不存在下一個環境狀態,因而都是單步決策:每次Agent 給出反饋句式,人工標注平臺即時給出分數更高智能(LLM缺陷優化點反思)1、智能講解員。講解完一個知識點后,得到人類反饋,再調整講解策略,從而更有效溝通。2、多輪對話的互動性。多輪對話中可以構建多輪反饋,手動構建馬爾可夫鏈,提升溝通的信息交互量。5 5、RLHFRLHF內核情景分析內核情景分析3 3 RewardReward ModelModel的作用的作用基于環境反饋學習的經典范式Agent base policy
14、人類標注平臺反饋說話水平-得分人類手工反饋替代環境直接反饋1、相同評分體系0-10分,不同標注員存在手松手緊的不一致2、相同標注員,對于相似回答,前后打分存在不一致3、自然語言處理問題本身不存在標準答案,語言靈活性太強關于天氣好的回復,如果給得分?1、今天天氣實在是太好了。2、太陽好大,哈哈美滋滋。3、這樣的天氣不去公園逛逛簡直是犯罪4、向著太陽張開臂膀,就擁有了整個世界5、陽光正溫暖,一直照進我心里1、不需要給具體分數,只需要給一個排序就可以。避免了手松手緊問題。2、對于相似回答,可以給等于=號。3、自然語言處理問題本身不存在標準答案,語言靈活性太強用一個reward model去學習這里面
15、的映射關系:問題回答的自然語言和排序關系之間的邏輯范式Agent base policy人類標注平臺標注排序說話水平-reward scoreReward model學習回答與排序的關系AgentPPO學習器訓練好的Agent輸出給標注平臺輸出回答訓練更新Agent的policy6 6 COTCOT的數學本質的數學本質參考文獻:Zhang Z,Zhang A,Li M,et al.Multimodal chain-of-thought reasoning in language modelsJ.arXiv preprint arXiv:2302.00923,2023.COT本質聯合概率分布P(
16、ans|(Xinput,Yprompt)或者兩階段條件概率分布:1、P(Yprompt|Xinput)2、P(ans|Yprompt)因此,如何構建最優秀的prompt,使得兩次條件概率的計算能盡快收斂非常重要。關鍵實踐關鍵實踐1 1 數據標注平臺數據標注平臺我們自行開發了一個標注系統。這個非常關鍵,保證快速迭代和高效反饋,保證標注數據的質量。關鍵實踐關鍵實踐 2 2 訓練的硬件選型訓練的硬件選型 010203040506分布式訓練需要同步模型參數,因而加速比有限。50臺服務器大概只有20倍單機的提升。不妨提高單卡計算性能構建單機多卡訓練套件。同時可以考慮一機十卡。單機多卡多機多卡標注需要運行
17、模型,需要80G顯存的A800標注平臺需要A800顯卡連接方式,Nvlink 同步數據遠大于 PCIE。對于整個訓練過程而言,提速比有15%左右。NVLINK PCIE NV LINK和PCIE連接的卡訓練過程中都會有掉卡的概率。掉卡后需要重新開始訓練。因而1)保持適度的保存checkppint的頻次,太高影響速度,太低掉卡會浪費一輪時間2)最好做個監控,掉卡就重新開始訓練掉卡模型訓練保存速度太慢影響最終訓練天數。最好大容量固態磁盤?;蛘唛W存都可以。Checkpoint保存盤必須固態內存要大于顯存。2倍是頂峰值。1.5倍比較合適內存=1.5倍顯存下一步展望下一步展望一個模型完成多個垂類任務成為
18、剛需。否則模型管理會非常繁瑣通用垂類大模型大模型太大,推理速度太慢,加速到大模型太大,推理速度太慢,加速到500ms500ms /10/10個個tokenstokens 構建實時服務成為剛需構建實時服務成為剛需推理加速通用大模型永遠也進不去垂類的原因壁壘在于高質量垂類數據。高質量垂類數據模型真正具有助理能力需要有主動發問的能力主動發問需要讓模型構建收斂能力,有限溝通要完成特定任務。而不是山河海闊的閑聊完成特定任務完成特定任務了解更多技術實踐案例了解更多技術實踐案例麥思博(msup)有限公司是一家面向技術型企業的培訓咨詢機構,攜手2000余位中外客座導師,服務于技術團隊的能力提升、軟件工程效能和產品創新迭代,超過3000余家企業續約學習,是科技領域占有率第1的客座導師品牌,msup以整合全球領先經驗實踐為己任,為中國產業快速發展提供智庫。高可用架構主要關注互聯網架構及高可用、可擴展及高性能領域的知識傳播。訂閱用戶覆蓋主流互聯網及軟件領域系統架構技術從業人員。高可用架構系列社群是一個社區組織,其精神是“分享+交流”,提倡社區的人人參與,同時從社區獲得高質量的內容。