當前位置：首頁 > 報告詳情

太極 Angel 助力生成式大模型高效落地-劉凱.pdf

上傳人：張** 編號：164025 2024-05-31 PDF PDF 30頁 8.70MB

該報告所屬合集： 2024AICon全球人工智能開發與應用大會嘉賓演講PPT合集-北京站

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/30

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《太極 Angel 助力生成式大模型高效落地-劉凱.pdf》由會員分享，可在線閱讀，更多相關《太極 Angel 助力生成式大模型高效落地-劉凱.pdf（30頁珍藏版）》請在三個皮匠報告上搜索。

1、騰訊Angel助力生成式大模型高效落地混元大模型推理負責人劉凱2019-至今2013 2016 電磁場GPU加速2017 2019 深度學習通用推理引擎2016 2017 Angel-HCF&Angel-SNIP首個工業落地的INT4&稀疏化混元大模型推理方向負責人 PowerPC系統軟件開發目錄生成式AI技術之部署挑戰解析Angel-HCF助力生成式AI部署優化Angel-SNIP助力生成式AI無損壓縮Angel助力混元大模型大規模落地應用生成式AI技術之部署挑戰解析快速增長的模型規?？焖僭鲩L的模型規模緩慢增長的設備能力緩慢增長的設備能力模型規?？焖僭鲩L，12年提升1 1個量級個量級隨著

2、MoE結構的提出，模型整體參數量突破萬億突破萬億 23年開始模型窗口長度不斷加大，各大公司逐步開放至百百KMKM級別級別3232404080808080808080809696V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20訓練訓練GPUGPU顯存容量（顯存容量（GBGB）125125312312312312312312990990990990148148V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20訓練訓

3、練GPUGPU計算能力（計算能力（TFLOPSTFLOPS）900900152015202039203920392039343034303430343040964096V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20訓練訓練GPUGPU顯存帶寬（顯存帶寬（GBGB）161624242424484848484848T4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU顯存容量（顯存容量（GBGB）6565125125165165120120181181362362T

4、4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU計算能力（計算能力（TFLOPSTFLOPS）300300600600933933864864864864864864T4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU顯存帶寬（顯存帶寬（GBGB）越發嚴格的禁令越發嚴格的禁令 GPU顯存增長緩慢，停滯停滯在100G以下 GPU計算能力1代增長3 3倍左右倍左右顯存帶寬1代增長0.510.51倍倍訓練卡：A100、H100、A800、H800全面禁售全面禁售推理卡：L40S、L40、A30全面禁售全面禁售中

5、國特供：H20、L20算力大幅削減，僅保留大幅削減，僅保留2030%2030%如何使用更差的卡來優化大模型的訓練和推理效率在現有卡的基礎上設計怎樣的模型結構能在同等參數規模下獲得更好的訓練和推理性能如何充分發揮國產芯片能力來打造國產大模型周期周期體量體量收益收益模型訓練模型訓練13月千級別學術、社會正收益經濟負收益模型推理模型推理半年數年千萬級別學術、社會正收益經濟正收益支撐太極Angel研發模型壓縮組件壓縮組件SNIP+SNIP+推理部署加速組件推理部署加速組件HCFHCF，保障騰訊混元大模型高便捷、高性能、低成本的落地應用太極太極Angel-HCF 太極太極Angel-SNIP An

6、gel-HCF之顯存優化 Angel-HCF之計算優化 Angel-HCF之通信優化 Angel-HCF之調度優化Angel-HCF助力生成式AI部署優化模型權重：固定大小，模型參數量*數據類型激活空間：動態大小，輸入規模*隱層規模GPU顯存占用拆分大模型熱+禁令影響下，如何在更小的卡上部署大模型大模型走向生產階段，降低顯存提升并發能有效降低成本超長文火熱的當下，如何緩解激活空間顯存的凸顯 KV-Cache：動態大小，輸入輸出規模*隱層規模*層數騰訊混元的解法分布式存儲PrefillPagedAttention一階段優化一階段優化二階段優化二階段優化升級Buffer全共享量化壓縮權重

7、INT8FP8INT4激活INT8FP8INT4KVINT8FP8INT4三階段優化三階段優化再升級Context-Loop細化顯存粒度Angel-HCF之顯存優化Angel-HCF之計算優化高效算子集合：自定義Kernel、cutlass、cublasLt、開源實現圖優化&層融合：Graph-Optimizer+人工輔助優化壓縮適配：w8a8、2:4硬件稀疏化等Angel-HCF之通信優化百億以上大模型需要分布式部署，卡間、機間通信逐步成為瓶頸騰訊基于NCCL二次開發，推出自研TCCL加速通信庫依托騰訊內部的星脈網絡架構，為大模型訓練推理提供高效的網絡通信性能針對不同的模型規模

8、及結構、需要選擇不同的并行方式 PP并行由于過大的Bubble Time并不適合一般推理場景事無絕對：MoE+PP有奇效（處理好GlobalBatch&MiniBatch關系）VSVS通信量：O 通信量：O Angel-HCF之調度優化InferRequestStopRequestTriton ServerScheduler優先級、排隊、batch、拒絕等執行隊列拒絕隊列StreamingResponsesHCF BackendLLMGenerationRequest QueueInfer PoolInfer IterSchedulerBatch、KV、交換、提前退出等KV-Cache管理器

9、 Triton+HCF Backend完成調度優化基礎功能：動態Batch、排隊、拒絕、流式、Continuous、group等新增功能：請求中止降低無效運算、新增內部調度器提高吞吐等請求（最大生成長度X）狀態機執行隊列調度器用戶歷史請求生成長度線上近期請求平均生成長度1、Token維度調度，弱化Batch和SeqLen2、KV-Cache以最優窗口進行申請1、完成生成、釋放槽位2、生成未完成、逐步擴大窗口獲取更多槽位基礎功能完成原因正常完成：Eos、StopWord、MaxLength、策略停止等異常完成：超參異常、執行隊列等待超時、Cache不足等內部調度優化降低無效運算：用戶中止、網

10、絡斷聯、審核問題等Angel-HCF助力生成式AI部署優化優化手段：顯存優化、計算優化、通信優化、調度優化優化目標：降低耗時、提升并發&吞吐、降低成本其他嘗試：國產AI芯片、端側部署等 Angel-SNIP之量化壓縮 Angel-SNIP之蒸餾壓縮 Angel-SNIP之并行解碼 Angel-SNIP之結構稀疏Angel-SNIP助力生成式AI無損壓縮Angel-SNIP之量化壓縮W8A16策略策略：僅量化模型權重，推理時反量化回BF16，主要目的減少存儲讀寫開銷，量化比特數為8特點特點：無需校準，直接產出量化模型，時間成本開銷最小，推理節省接近一半的顯存開銷，精度損失最小，大規模測試中都基本

11、無損W4A16策略策略：進一步將權重量化的比特數減少到4，減少更多讀寫開銷。采用GPTQ優化策略，更好保持精度，需要少量校準集進行GPTQ優化特點特點：算法耗時短，自研量化工具在7B模型上1小時內產出量化模型加速效果優于W8A16，精度損失在0.5%之內FP8策略策略：采用W8A8C8的策略，權重存儲、kernel計算和KV-Cache的存儲都采用FP8精度,H卡之后支持FP8，需要少量校準集進行FP8校準特點特點：算法耗時短，半小時內完成校準，FP8相比于INT8具有更佳的精度保持效果，推理速度在不同Batch Size下均表現優異問題問題FP8的出現，是否還有必要專門做量化壓縮？Angel

12、-SNIP之文生文蒸餾壓縮原模型延遲過高，實際業務中需要倍數壓縮模型參數已有精簡模型訓練不佳，需要借助大模型提升訓練效果結構結構模型模型Pass1Pass1場景1教師 34B76學生 7B distill75場景2教師 70B72學生 7B-MoE distill70需求場景需求場景壓縮比80%，使用20%參數量的學生，達到原始模型效果支持熱啟動、冷啟動兩種方案支持同構和異構的蒸餾壓縮模式蒸餾效果蒸餾效果MHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFN原始模型層裁剪混合裁剪部分業務場景無尺寸合適的小模型可用從頭訓練小模型

13、成本高（預訓練+增訓+SFT）需求場景需求場景結論結論繼承大模型的部分權重，有利于小模型更快收斂相比從頭過大量數據訓練（預訓練+增訓）小模型，僅需20%的增訓數據，便可快速裁剪出尺寸、效果相當的模型整體可節省 5X 以上的訓練成本Angel-SNIP之文生圖&視頻蒸餾壓縮30步-4s100步-12s30步-4s100步-12s30步-4s30步-4s文生圖面臨的問題：出圖質感 vs 性能質感質感與與性能并重性能并重原模型（12s）評分蒸餾模型（4s）評分unet結構（3分檔評分方式）29.7729.58(1%)dit結構（3分檔評分方式）35.634.67(1%)unet結構+插件（5分檔評分

14、方式）81.2881.98(1%)改進方案改進方案構造高質量數據集蒸餾：訓練效率高、出圖質感高基于漸進式的跨步蒸餾：訓練穩定、質感與性能并重100步-12s100步-12s存在問題存在問題訓練穩定性較難保障蒸餾后的小模型質較差步數蒸餾VSVS原模型蒸餾模型原模型蒸餾模型原模型蒸餾模型Angel-SNIP之文生圖首個中英雙語DIT架構全面開源官網：https:/ 模型：https:/huggingface.co/Tencent-Hunyuan/HunyuanDiT 論文：https:/tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech

15、_Report_05140553.pdfAngel-SNIP之并行解碼大模型的效果好；但推理耗時長，大規模部署成本高小模型的推理耗時短，部署成本低；但往往效果不及預期小模型推理，大模型校驗均衡推理時耗及模型效果提升大模型單次生成token數5X 投機采樣投機采樣大模型解碼率大模型解碼率小模型解碼率小模型解碼率pass1pass1largemodel(codellama-34b)100%-76.8%smallmodel(codellama-7b)-100%67.7%投機采樣19.96%81.04%75.6%10X 投機采樣投機采樣大模型解碼率大模型解碼率小模型解碼率小模型解碼率pass1pa

16、ss1largemodel(codellama-70b)100%-82.9%smallmodel(codellama-7b)-100%67.7%投機采樣16.7%83.30%83.5%Angel-SNIP之結構稀疏 NVIDIA從Ampere系列顯卡開始支持硬件結構化稀疏結構化稀疏可以有效降低存儲和提升計算速度結構化稀疏加速算法改進算法改進少量數據，不需要訓練不需要更新參數引入波動量Entropy存在問題存在問題數據量需求大資源消耗過大產出時間過長PPL最優ACC最優加速明顯Angel-SNIP助力生成式AI無損壓縮壓縮算法多種多樣，各有特點要根據實際場景選擇最適合的方法不被固有方法束縛，積極嘗試新方法Angel助力混元大模型大規模落地應用Angel助力混元大模型落地應用混元已接入600+司內業務，實現技術與應用同行Angel助力混元大模型落地應用文生文騰訊會議小助手Angel助力混元大模型落地應用文生圖公眾號自動配圖Angel助力混元大模型落地應用多模態總結生成式AI部署挑戰HCF助力部署優化SNIP助力無損壓縮快速增長的模型規模緩慢增長的設備硬件能力愈發嚴格的禁令產品化后的超大體量顯存優化計算優化通信優化調度優化量化壓縮蒸餾壓縮并行解碼結構稀疏混元大模型落地應用文生文文生圖多模態革命尚未成功，同志仍需努力

相關圖表

本文主要探討了生成式大模型的高效落地及其面臨的挑戰，以騰訊的混元大模型為例，介紹了劉凱自2019年以來在模型推理、壓縮和優化方面的工作。關鍵數據包括：模型規?？焖僭鲩L，設備能力提升緩慢，禁令導致硬件選擇受限，模型訓練和推理的顯存和計算優化需求，以及如何使用國產芯片打造大模型等。文章提出了太極Angel-HCF和Angel-SNIP等解決方案，以優化大模型的訓練和推理效率，降低成本，并緩解激活空間顯存的壓力。此外，還探討了模型壓縮技術，如量化壓縮和蒸餾壓縮，以及如何在大模型基礎上快速裁剪出性能相當的小模型。文章還介紹了騰訊混元大模型在多個業務場景的應用，并強調了在實際場景中選擇最適合的模型優化方法的重要性。

"騰訊Angel如何優化大模型推理效率？" "生成式AI技術部署挑戰有哪些？騰訊的解決方案是什么？" "如何通過Angel-HCF和Angel-SNIP實現生成式AI模型的無損壓縮？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站