《曾鳴堃-小紅書訓推異構引擎的設計與應用0622.pdf》由會員分享,可在線閱讀,更多相關《曾鳴堃-小紅書訓推異構引擎的設計與應用0622.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummitDataFunSummit#20242024小紅書訓推異構引擎的設計與應用演講人-曾鳴堃-小紅書-訓推計算引擎負責人小紅書模型工程面臨的挑戰異構彈性引擎的設計與實踐面向未來HPC訓練框架AI編譯技術目錄 CONTENT小紅書模型工程面臨的挑戰高速增長的業務日均曝光:數百億互動UV占比:近50%日均搜索規模:3億+不斷復雜的模型稀疏參數量計算FLOPS多模型應用場景搜索推薦廣告交易直播核心挑戰:面對高速增長,如何通過引擎技術有效降低成本為業務打開迭代空間?異構彈性引擎的設計與實踐核心技術點:支持超大規模稀疏特征(TB級);基于無沖突的高效稀疏Table;高性能Looku
2、p Table算子實現;支持多種參數優化器;Larc(第一代訓練框架)異構彈性引擎的設計與實踐技術背景:模型種類多(Workload不一樣)云廠提供的GPU機型多;核心技術點:計算密集算子Place在GPU執行;支持Lookup相關算子的異步執行;主要問題:框架無法高效利用異構算力優勢;第一代GPU訓練框架異構彈性引擎的設計與實踐異構GPU訓練框架異構彈性引擎的設計與實踐異構GPU訓練框架異構彈性引擎的設計與實踐異構GPU訓練框架覆蓋公司核心場景模型訓練,同成本提速約70%+;異構彈性引擎的設計與實踐第一代GPU推理架構主要問題:1.GPU利用率低,得不到充分使用;2.迭代不靈活,算法迭代只能
3、擴GPU機器;3.小BatchSize對GPU利用不充分;異構彈性引擎的設計與實踐各場景高峰期GPU利用率提高100%+;GPU異構推理架構面臨挑戰:1.模塊拆分引入延遲增長;2.小BatchSize無法使用GPU計算單元;3.有狀態服務如何做到精細拆分;異構彈性引擎的設計與實踐GPU異構推理架構-Latency優化異構彈性引擎的設計與實踐GPU異構推理架構-小Batch優化異構彈性引擎的設計與實踐GPU異構推理架構-有狀態服務優化異構彈性引擎的設計與實踐總結高性能(成本顯著低于上一代引擎,CPU/GPU利用率65-95%)靈活性好(根據機型、模型選擇最優算力拆分策略)迭代ROI高(業務按需申
4、請資源)伸縮性好(訓推機型一致,支持潮汐)面向未來的HPC訓練框架未來趨勢:1)業務增長+算法迭代-更多/更大的樣本-更高訓練吞吐2)模型Dense復雜化(PPNET、PLE、GR)-更大的Dense模型-更旺盛的算力需求現有框架問題:1)PS/Worker隨著節點數的增多,加速比會顯著衰減;2)更多節點數會引入更大的異步性,影響模型收斂;3)基于PCIE+A10/A30的硬件很難高效支持復雜模型訓練;面向未來的HPC訓練框架面臨挑戰:1.顯存不夠用(模型無法全量換入);2.如何高效調度計算&通信;3.如何高效完成GPU內Embedding相關算子的執行;面向未來的HPC訓練框架大批量Pass粒度聚合;增量式換入換出;Embedding置換和圖內計算流水線并行;Table Fusion,減少算子數量;核心技術點:AI編譯技術AI編譯技術-前端優化 針對搜廣推場景場景子圖識別,高效替換改寫;(MTL、MOE、PLE)核心算子針對推理場景進行高效的改寫優化;(CPU Matmul)Fourier優化器AI編譯技術-中后端優化AI編譯技術-項目收益訓練場景:核心訓練場景,將計算圖算子總數降低一個數量級,GPU計算效率提升30%+;推理場景:核心GPU推理場景,計算效率提升30%;核心CPU推理場景,同延遲下吞吐提升60%+;展望未來招聘郵箱:感謝觀看