《太極 Angel 助力生成式大模型高效落地-劉凱.pdf》由會員分享,可在線閱讀,更多相關《太極 Angel 助力生成式大模型高效落地-劉凱.pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊Angel助力生成式大模型高效落地混元大模型推理負責人劉凱2019-至今2013 2016 電磁場GPU加速2017 2019 深度學習通用推理引擎2016 2017 Angel-HCF&Angel-SNIP首個工業落地的INT4&稀疏化混元大模型推理方向負責人 PowerPC系統軟件開發目錄生成式AI技術之部署挑戰解析Angel-HCF助力生成式AI部署優化Angel-SNIP助力生成式AI無損壓縮Angel助力混元大模型大規模落地應用生成式AI技術之部署挑戰解析快速增長的模型規??焖僭鲩L的模型規模緩慢增長的設備能力緩慢增長的設備能力 模型規??焖僭鲩L,12年提升1 1個量級個量級 隨著
2、MoE結構的提出,模型整體參數量突破萬億突破萬億 23年開始模型窗口長度不斷加大,各大公司逐步開放至百百KMKM級別級別3232404080808080808080809696V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20訓練訓練GPUGPU顯存容量(顯存容量(GBGB)125125312312312312312312990990990990148148V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20訓練訓
3、練GPUGPU計算能力(計算能力(TFLOPSTFLOPS)900900152015202039203920392039343034303430343040964096V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20訓練訓練GPUGPU顯存帶寬(顯存帶寬(GBGB)161624242424484848484848T4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU顯存容量(顯存容量(GBGB)6565125125165165120120181181362362T
4、4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU計算能力(計算能力(TFLOPSTFLOPS)300300600600933933864864864864864864T4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU顯存帶寬(顯存帶寬(GBGB)越發嚴格的禁令越發嚴格的禁令 GPU顯存增長緩慢,停滯停滯在100G以下 GPU計算能力1代增長3 3倍左右倍左右 顯存帶寬1代增長0.510.51倍倍 訓練卡:A100、H100、A800、H800全面禁售全面禁售 推理卡:L40S、L40、A30全面禁售全面禁售 中
5、國特供:H20、L20算力大幅削減,僅保留大幅削減,僅保留2030%2030%如何使用更差的卡來優化大模型的訓練和推理效率 在現有卡的基礎上設計怎樣的模型結構能在同等參數規模下獲得更好的訓練和推理性能 如何充分發揮國產芯片能力來打造國產大模型周期周期體量體量收益收益模型訓練模型訓練13月千級別學術、社會正收益經濟負收益模型推理模型推理半年數年千萬級別學術、社會正收益經濟正收益支撐太極Angel研發模型壓縮組件壓縮組件SNIP+SNIP+推理部署加速組件推理部署加速組件HCFHCF,保障騰訊混元大模型高便捷、高性能、低成本的落地應用 太極太極Angel-HCF 太極太極Angel-SNIP An
6、gel-HCF之顯存優化 Angel-HCF之計算優化 Angel-HCF之通信優化 Angel-HCF之調度優化Angel-HCF助力生成式AI部署優化 模型權重:固定大小,模型參數量*數據類型 激活空間:動態大小,輸入規模*隱層規模GPU顯存占用拆分 大模型熱+禁令影響下,如何在更小的卡上部署大模型 大模型走向生產階段,降低顯存提升并發能有效降低成本 超長文火熱的當下,如何緩解激活空間顯存的凸顯 KV-Cache:動態大小,輸入輸出規模*隱層規模*層數騰訊混元的解法分布式存儲PrefillPagedAttention一階段優化一階段優化二階段優化二階段優化升級Buffer全共享量化壓縮權重
7、INT8FP8INT4激活INT8FP8INT4KVINT8FP8INT4三階段優化三階段優化再升級Context-Loop細化顯存粒度Angel-HCF之顯存優化Angel-HCF之計算優化 高效算子集合:自定義Kernel、cutlass、cublasLt、開源實現 圖優化&層融合:Graph-Optimizer+人工輔助優化 壓縮適配:w8a8、2:4硬件稀疏化等Angel-HCF之通信優化 百億以上大模型需要分布式部署,卡間、機間通信逐步成為瓶頸 騰訊基于NCCL二次開發,推出自研TCCL加速通信庫 依托騰訊內部的星脈網絡架構,為大模型訓練推理提供高效的網絡通信性能 針對不同的模型規模
8、及結構、需要選擇不同的并行方式 PP并行由于過大的Bubble Time并不適合一般推理場景 事無絕對:MoE+PP有奇效(處理好GlobalBatch&MiniBatch關系)VSVS通信量:O 通信量:O Angel-HCF之調度優化InferRequestStopRequestTriton ServerScheduler優先級、排隊、batch、拒絕等執行隊列拒絕隊列StreamingResponsesHCF BackendLLMGenerationRequest QueueInfer PoolInfer IterSchedulerBatch、KV、交換、提前退出等KV-Cache管理器
9、 Triton+HCF Backend完成調度優化 基礎功能:動態Batch、排隊、拒絕、流式、Continuous、group等 新增功能:請求中止降低無效運算、新增內部調度器提高吞吐等請求(最大生成長度X)狀態機執行隊列調度器用戶歷史請求生成長度線上近期請求平均生成長度1、Token維度調度,弱化Batch和SeqLen2、KV-Cache以最優窗口進行申請1、完成生成、釋放槽位2、生成未完成、逐步擴大窗口獲取更多槽位基礎功能完成原因正常完成:Eos、StopWord、MaxLength、策略停止等異常完成:超參異常、執行隊列等待超時、Cache不足等內部調度優化降低無效運算:用戶中止、網
10、絡斷聯、審核問題等Angel-HCF助力生成式AI部署優化優化手段:顯存優化、計算優化、通信優化、調度優化優化目標:降低耗時、提升并發&吞吐、降低成本其他嘗試:國產AI芯片、端側部署等 Angel-SNIP之量化壓縮 Angel-SNIP之蒸餾壓縮 Angel-SNIP之并行解碼 Angel-SNIP之結構稀疏Angel-SNIP助力生成式AI無損壓縮Angel-SNIP之量化壓縮W8A16策略策略:僅量化模型權重,推理時反量化回BF16,主要目的減少存儲讀寫開銷,量化比特數為8特點特點:無需校準,直接產出量化模型,時間成本開銷最小,推理節省接近一半的顯存開銷,精度損失最小,大規模測試中都基本
11、無損W4A16策略策略:進一步將權重量化的比特數減少到4,減少更多讀寫開銷。采用GPTQ優化策略,更好保持精度,需要少量校準集進行GPTQ優化特點特點:算法耗時短,自研量化工具在7B模型上1小時內產出量化模型加速效果優于W8A16,精度損失在0.5%之內FP8策略策略:采用W8A8C8的策略,權重存儲、kernel計算和KV-Cache的存儲都采用FP8精度,H卡之后支持FP8,需要少量校準集進行FP8校準特點特點:算法耗時短,半小時內完成校準,FP8相比于INT8具有更佳的精度保持效果,推理速度在不同Batch Size下均表現優異問題問題FP8的出現,是否還有必要專門做量化壓縮?Angel
12、-SNIP之文生文蒸餾壓縮 原模型延遲過高,實際業務中需要倍數壓縮模型參數 已有精簡模型訓練不佳,需要借助大模型提升訓練效果結構結構模型模型Pass1Pass1場景1教師 34B76學生 7B distill75場景2教師 70B72學生 7B-MoE distill70需求場景需求場景 壓縮比80%,使用20%參數量的學生,達到原始模型效果 支持熱啟動、冷啟動兩種方案 支持同構和異構的蒸餾壓縮模式蒸餾效果蒸餾效果MHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFN原始模型層裁剪混合裁剪 部分業務場景無尺寸合適的小模型可用 從頭訓練小模型
13、成本高(預訓練+增訓+SFT)需求場景需求場景結論結論繼承大模型的部分權重,有利于小模型更快收斂相比從頭過大量數據訓練(預訓練+增訓)小模型,僅需20%的增訓數據,便可快速裁剪出尺寸、效果相當的模型整體可節省 5X 以上的訓練成本Angel-SNIP之文生圖&視頻蒸餾壓縮30步-4s100步-12s30步-4s100步-12s30步-4s30步-4s文生圖面臨的問題:出圖質感 vs 性能質感質感與與性能并重性能并重原模型(12s)評分蒸餾模型(4s)評分unet結構(3分檔評分方式)29.7729.58(1%)dit結構(3分檔評分方式)35.634.67(1%)unet結構+插件(5分檔評分
14、方式)81.2881.98(1%)改進方案改進方案 構造高質量數據集蒸餾:訓練效率高、出圖質感高 基于漸進式的跨步蒸餾:訓練穩定、質感與性能并重100步-12s100步-12s存在問題存在問題 訓練穩定性較難保障 蒸餾后的小模型質較差步數蒸餾VSVS原模型蒸餾模型原模型蒸餾模型原模型蒸餾模型Angel-SNIP之文生圖首個中英雙語DIT架構全面開源 官網:https:/ 模型:https:/huggingface.co/Tencent-Hunyuan/HunyuanDiT 論文:https:/tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech
15、_Report_05140553.pdfAngel-SNIP之并行解碼 大模型的效果好;但推理耗時長,大規模部署成本高 小模型的推理耗時短,部署成本低;但往往效果不及預期小模型推理,大模型校驗均衡推理時耗及模型效果提升大模型單次生成token數5X 投機采樣投機采樣大模型解碼率大模型解碼率小模型解碼率小模型解碼率pass1pass1largemodel(codellama-34b)100%-76.8%smallmodel(codellama-7b)-100%67.7%投機采樣19.96%81.04%75.6%10X 投機采樣投機采樣大模型解碼率大模型解碼率小模型解碼率小模型解碼率pass1pa
16、ss1largemodel(codellama-70b)100%-82.9%smallmodel(codellama-7b)-100%67.7%投機采樣16.7%83.30%83.5%Angel-SNIP之結構稀疏 NVIDIA從Ampere系列顯卡開始支持硬件結構化稀疏 結構化稀疏可以有效降低存儲和提升計算速度結構化稀疏加速算法改進算法改進 少量數據,不需要訓練 不需要更新參數 引入波動量Entropy存在問題存在問題 數據量需求大 資源消耗過大 產出時間過長PPL最優ACC最優加速明顯Angel-SNIP助力生成式AI無損壓縮壓縮算法多種多樣,各有特點要根據實際場景選擇最適合的方法不被固有方法束縛,積極嘗試新方法Angel助力混元大模型大規模落地應用Angel助力混元大模型落地應用混元已接入600+司內業務,實現技術與應用同行Angel助力混元大模型落地應用文生文騰訊會議小助手Angel助力混元大模型落地應用文生圖公眾號自動配圖Angel助力混元大模型落地應用多模態總結生成式AI部署挑戰HCF助力部署優化SNIP助力無損壓縮 快速增長的模型規模 緩慢增長的設備硬件能力 愈發嚴格的禁令 產品化后的超大體量 顯存優化 計算優化 通信優化 調度優化 量化壓縮 蒸餾壓縮 并行解碼 結構稀疏混元大模型落地應用 文生文 文生圖 多模態革命尚未成功,同志仍需努力