《薛金寶-騰訊AngelPTM大模型訓練框架優化與實踐支撐混元大模型訓練的訓練框架.pdf》由會員分享,可在線閱讀,更多相關《薛金寶-騰訊AngelPTM大模型訓練框架優化與實踐支撐混元大模型訓練的訓練框架.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、空白演示Lorem ipsum dolor sit amet,consectetur adipisicing elit.騰訊騰訊AngelPTMAngelPTM大模型訓練框架優化與實踐大模型訓練框架優化與實踐支撐混元大模型訓練的訓練框架支撐混元大模型訓練的訓練框架薛金寶薛金寶2022024 4.6 631 1大模型發展趨勢和訓練面臨的挑戰大模型成為人工智能發展的重要方向大模型成為人工智能發展的重要方向模型參數規模指數級增長生成式大模型突飛猛進,5年時間,模型參數規模增長100萬倍,達到萬億量級Scaling Law1:數據越多、模型越大,模型學習能力越強,模型效果越好1OpenAI“Scali
2、ng Laws for Neural Language Models”,https:/arxiv.org/abs/2001.08361,2020大模型發展趨勢大模型發展趨勢-模態變化模態變化文生文文生圖文生視頻多模態全模態ChatGPTChatGPTLlama3Llama3StableStable DiffusionDiffusionDiTDiTSoraSoraSTDiTSTDiTGPT4VGPT4VGeminiGeminiGPT5GPT5大模型發展趨勢大模型發展趨勢-MOE-MOE以及更長以及更長ContextContext WindowWindow1 GLaM:Efficient Scal
3、ing of Language Models with Mixture-of-Experts2 Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity3 Lifelong Language Pretraining with Distribution-Specialized Experts4 https:/the- 1Expert 2Expert 16門控模塊FFN 層Self-Attention 層(共享參數)120層 Decoder-Only 總參量:1.8T 訓練
4、數據:13T Tokens 激活2個Expert(111B 參數/Expert)Self-Attention層是55B的共享參數 Context Window,最初是8K,逐步精調至32K 模型容量模型容量/效果效果 模型參數量越大效果越好 相同激活參數量,MoE更好 訓練訓練/推理成本推理成本 成本低,e.g.,GLaM1訓練成本相當于GPT-3的1/3,推理成本相當于GPT-3的1/2,但效果超過GPT-3 終身學習終身學習 各類數據,知識和特征分布不同,容易出現知識干擾和遺忘 Dense模型數據的配比挑戰很大,配比小的數據很難表現較好大模型訓練的挑戰大模型訓練的挑戰顯存需求大算力規模大網
5、絡通信量大模型結模型結構構參數參數規模規模模型狀態模型狀態顯存需求顯存需求激活值顯存激活值顯存需求需求(Bs=1,Seq=4(Bs=1,Seq=4k)k)預估模型狀預估模型狀態存儲最少態存儲最少卡數卡數(A100-A100-40G40G)BertBert0.33B0.33B5.94G5.94G0.22G0.22G1 1張張LLaMALLaMA70B70B1260G1260G5G5G3232張張GPT3GPT3176B176B3168G3168G7.64G7.64G8080張張GPT4GPT41800B1800B32400G32400G10.81G10.81G810810張張模型結構模型結構參數
6、規模參數規模通信量通信量(梯度梯度)TPTP通信通信BS=64/Seq=BS=64/Seq=4K4KBERTBERT0.33B0.33B0.66G0.66G-LLAMALLAMA70B70B140G140G1374.39G1374.39GGPT3GPT3176B176B352G352G2104.54G2104.54GGPT4GPT41800B1800B3600G3600G2768.24G2768.24G82 2大模型訓練框架AngelPTM9參數多計算量大參數多計算量大騰訊騰訊AngelAngel機器學習平臺機器學習平臺大模型訓練推理大模型訓練推理面臨雙重挑戰面臨雙重挑戰文生圖萬億參數1.6E
7、24 Flops GPUGPU算力受限算力受限開源框架為高端GPU卡設計產出混元萬億參數模型,訓練性能是業界開源框架的2.6倍,推理性能是業界2.3倍高性能單個訓練任務突破萬卡規模,達到99%線性加速比,并實現萬卡長穩訓練GPU利用率MFU指標突破62%,業界領先(字節55%),訓練成本下降60%,推理成本下降70%20232023年年中國電子學會科技進步中國電子學會科技進步一等獎,一等獎,騰訊首次騰訊首次VLDBVLDB、SIGMODSIGMOD、EMNLPEMNLP3 3篇篇國際頂會論文國際頂會論文,VLDBVLDB最佳論文最佳論文1212項發明專利,多篇媒體報道項發明專利,多篇媒體報道訓
8、練產出混元訓練產出混元萬億萬億MoEMoE模型模型400+400+業務精調,服務調用量業務精調,服務調用量2.32.3億億云上輸出云上輸出框架協同多個框架協同多個OteamOteam云帆AI大模型基礎設施業業務務應應用用影影響響力力A800H20A100H100H200H800突破低端卡限制,性能達到業界領先突破低端卡限制,性能達到業界領先大規模低成本AngelPTMAngelPTM大模型概述大模型概述AngelPTMAngelPTM大模型訓練框架圖大模型訓練框架圖AngelPTMAngelPTM:ZeROCacheZeROCache存儲優化技術提高模型容量存儲優化技術提高模型容量90%90%
9、模型存儲容量提升容量提升90%90%,同時,使得24G/40G低配GPU卡也可訓練大模型,突破了高端算力限制,目前已基于40G顯存低配卡訓練出騰訊混元千億大模型、24G低配卡實現模型精調;基于定長內存Chunk段的內存管理,定長申請復用,避免頻繁申請釋放GPU顯存與系統內存統一編址,統一視角管理,擴大了顯存可存儲模型的容量效效果:果:1T1T內存內存+40G+40G顯存可訓練顯存可訓練60B60B模型;模型;2T2T內存內存+80G+80G顯存最大可訓練顯存最大可訓練120B120B模型模型AngelPTMAngelPTM:多維并行加速訓練效率:多維并行加速訓練效率1D并行(數據并行)數據并行
10、度:122D并行(數據并行+張量并行)數據并行度:4張量并行度:33D并行(數據并行+張量并行+流水并行)數據并行度:2張量并行度:3流水并行度:2AllReduceAllGather/ReduceScatterSend/Recv數據并行數據并行:提高數據吞吐張量并行張量并行:引入通信,多卡分擔顯存壓力流水并行流水并行:流水線提高并行效率,P2P低通信量w0,0w0,1w0,2w0,3w1,0w1,1w1,2w1,3w0w1w2w3w0w1w2w3+Allreducew0,0w0,1w1,2w1,3w0w1w2w3w0w1w2w3Allgather/ReduceScatterTensor+Se
11、quence Parallel序列并行:序列并行:LayerNorm和Dropout的計算和激活值被平攤到各個設備,減少冗余計算和顯存開銷AngelPTMAngelPTM:大規模之計算通信流水線與低精度量化技術:大規模之計算通信流水線與低精度量化技術計算通信Overlap,多流異步解決機間通信效率BF16通信量FP8通信量降低一倍降低一倍挑戰:在多維并行策略中,需避免計算、通信操作串行,以及采用低精度更少字節數,進一步降低網絡通信量計算與通信異步流水線FP8低精度量化通信MOEMOE:ExpertExpert并行并行+Expert+Expert TP+ExpertTP+Expert DPDP實
12、現萬億實現萬億MOEMOE模型的高效訓練模型的高效訓練Router 選擇Expert ChoiceTop-1,2MoE并行策略Expert Parallel+Data Parallel(EP+DP)支持Dense部分采用Tensor Parallel+Sequence Parallel(TP+SP)支持Expert部分采用Tensor Parallel+Sequence Parallel(TP+SP)支持Pipeline Parallel(PP)MoE通信優化通過Expert Sequence Parallel減少Expert Tensor Parallel 帶來的冗余通信All2all通信計
13、算overlapAngelPTMAngelPTM:ContextContext并行實現并行實現100M100M ContextContext WindowWindow訓練訓練精度無損,增加GPU卡量,context windows理論上支持無限大 固定GPU的情況下,如果要繼續增大context windows,需要降低單卡的顯存壓力,可以通過激活值offload優化顯存 可增加卡的情況下,通信壓力會上升,可對通信計算overlap進行優化AngelPTMAngelPTM:ContextContext并行實現并行實現100M100M ContextContext WindowWindow訓練訓
14、練 精度無損,context windows長度受限于GPU卡數量,支持窗口長度和Ring Attention一致。針對decoder-only模型優化計算負載不均衡。AngelPTMAngelPTM:負載均衡的流水并行:負載均衡的流水并行+特定重計算特定重計算FIRST STAGESTAGE2LAST STAGESTAGE3顯存占用大顯存占用大計算量大FIRST STAGESTAGE2LAST STAGESTAGE3EMBEDDING STAGE MODEL PARALLELStage 均衡化劃分+計算換顯存部分layer重計算AngelPTMAngelPTM:整體訓練性能是業界開源框架的:
15、整體訓練性能是業界開源框架的2.62.6倍倍大模型訓練效率對比騰訊自研大模型訓練框架AngelTPM業界傳統大模型Benchmark訓練方案15.2天40天193 3大模型超大規模集群訓練優化和實踐大模型大規模訓練挑戰大模型大規模訓練挑戰 訓練性能能否線性擴展?訓練性能能否線性擴展?實現大規模訓練性能的Scale law,即隨著卡數增加訓練性能線性增加 大規模訓練通信壓力大有效帶寬低、帶寬利用不均衡帶寬利用率低 大模型訓練BatchSize擴大是否有特定的Scale law,即BatchSize的增大不影響模型效果 大規模訓練故障頻繁,持續長時間穩定訓大規模訓練故障頻繁,持續長時間穩定訓練如何
16、保障練如何保障?GPU卡硬件故障導致訓練中斷 訓練速度異常 訓練卡頓 GPU卡精度異常突破NLP 4M BatchSize限制,持續提高算力利用率大規模大大規模大BatchSizeBatchSize訓練,平衡訓練效率和模型效果訓練,平衡訓練效率和模型效果簡單的BatchSize增大會導致模型效果變差利用BatchSize和Lr的Scaling Law突破大BatchSize影響模型效果的挑戰,提高大模型訓練GPU利用率11 https:/arxiv.org/pdf/2405.14578大規模訓練通信優化:大規模訓練通信優化:GPU GPU通信拓撲感知,軟硬件協同親和性優化提高通信效率通信拓撲感
17、知,軟硬件協同親和性優化提高通信效率GPU拓撲感知路由,全鏈路零丟包負載均衡技術和通訊庫優化,帶寬利用率提升3倍優選后通信路徑優選前通信路徑3D并行機制網絡親和性優化,TP以及DP走最優網絡路徑,PP通信次之,保證通信效率,通信帶寬達到有效帶寬80%大規模訓練網絡通信挑戰大規模訓練網絡通信挑戰:1.網絡通信隨著卡數增加通信帶寬衰減2.單個集群多個任務同時運行,每個任務分配GPU不全滿足集群親和性3.隨著模型增大,通信量增加,通信耗時增加大規模訓練穩定性優化大規模訓練穩定性優化360 全方位監控自動續訓機制保障任務快速恢復,減少中斷耗時多團隊保障提前預警故障,問題機器實時提出,快速恢復訓練大規模訓練優化成果大規模訓練優化成果萬卡加速比99%,線性擴展任務穩定性99.5%支撐騰訊混元訓練以及司內支撐騰訊混元訓練以及司內600+600+個業務的訓練個業務的訓練ThanksThanks26