當前位置：首頁 > 報告詳情

曾鳴堃-小紅書訓推異構引擎的設計與應用0622.pdf

上傳人：張** 編號：168905 2024-07-06 PDF PDF 23頁 3.03MB

該報告所屬合集： DataFunSummit2024：推薦系統架構峰會嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/23

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《曾鳴堃-小紅書訓推異構引擎的設計與應用0622.pdf》由會員分享，可在線閱讀，更多相關《曾鳴堃-小紅書訓推異構引擎的設計與應用0622.pdf（23頁珍藏版）》請在三個皮匠報告上搜索。

1、DataFunSummitDataFunSummit#20242024小紅書訓推異構引擎的設計與應用演講人-曾鳴堃-小紅書-訓推計算引擎負責人小紅書模型工程面臨的挑戰異構彈性引擎的設計與實踐面向未來HPC訓練框架AI編譯技術目錄 CONTENT小紅書模型工程面臨的挑戰高速增長的業務日均曝光：數百億互動UV占比：近50%日均搜索規模：3億+不斷復雜的模型稀疏參數量計算FLOPS多模型應用場景搜索推薦廣告交易直播核心挑戰：面對高速增長，如何通過引擎技術有效降低成本為業務打開迭代空間？異構彈性引擎的設計與實踐核心技術點：支持超大規模稀疏特征(TB級);基于無沖突的高效稀疏Table；高性能Looku

2、p Table算子實現；支持多種參數優化器；Larc（第一代訓練框架）異構彈性引擎的設計與實踐技術背景：模型種類多（Workload不一樣）云廠提供的GPU機型多；核心技術點：計算密集算子Place在GPU執行；支持Lookup相關算子的異步執行；主要問題：框架無法高效利用異構算力優勢；第一代GPU訓練框架異構彈性引擎的設計與實踐異構GPU訓練框架異構彈性引擎的設計與實踐異構GPU訓練框架異構彈性引擎的設計與實踐異構GPU訓練框架覆蓋公司核心場景模型訓練，同成本提速約70%+；異構彈性引擎的設計與實踐第一代GPU推理架構主要問題：1.GPU利用率低，得不到充分使用；2.迭代不靈活，算法迭代只能

3、擴GPU機器；3.小BatchSize對GPU利用不充分；異構彈性引擎的設計與實踐各場景高峰期GPU利用率提高100%+；GPU異構推理架構面臨挑戰：1.模塊拆分引入延遲增長；2.小BatchSize無法使用GPU計算單元；3.有狀態服務如何做到精細拆分；異構彈性引擎的設計與實踐GPU異構推理架構-Latency優化異構彈性引擎的設計與實踐GPU異構推理架構-小Batch優化異構彈性引擎的設計與實踐GPU異構推理架構-有狀態服務優化異構彈性引擎的設計與實踐總結高性能（成本顯著低于上一代引擎，CPU/GPU利用率65-95%）靈活性好（根據機型、模型選擇最優算力拆分策略）迭代ROI高（業務按需申

4、請資源）伸縮性好（訓推機型一致，支持潮汐）面向未來的HPC訓練框架未來趨勢：1）業務增長+算法迭代-更多/更大的樣本-更高訓練吞吐2）模型Dense復雜化（PPNET、PLE、GR）-更大的Dense模型-更旺盛的算力需求現有框架問題：1）PS/Worker隨著節點數的增多，加速比會顯著衰減；2）更多節點數會引入更大的異步性，影響模型收斂；3）基于PCIE+A10/A30的硬件很難高效支持復雜模型訓練；面向未來的HPC訓練框架面臨挑戰：1.顯存不夠用（模型無法全量換入）；2.如何高效調度計算&通信；3.如何高效完成GPU內Embedding相關算子的執行；面向未來的HPC訓練框架大批量Pass粒度聚合；增量式換入換出；Embedding置換和圖內計算流水線并行；Table Fusion，減少算子數量；核心技術點：AI編譯技術AI編譯技術-前端優化針對搜廣推場景場景子圖識別，高效替換改寫；（MTL、MOE、PLE）核心算子針對推理場景進行高效的改寫優化；（CPU Matmul）Fourier優化器AI編譯技術-中后端優化AI編譯技術-項目收益訓練場景：核心訓練場景，將計算圖算子總數降低一個數量級，GPU計算效率提升30%+；推理場景：核心GPU推理場景，計算效率提升30%；核心CPU推理場景，同延遲下吞吐提升60%+；展望未來招聘郵箱：感謝觀看

相關圖表

曾鳴堃，小紅書訓推計算引擎負責人，在DataFunSummit # 2024上分享了小紅書模型工程面臨的挑戰及異構彈性引擎的設計與實踐。主要挑戰包括業務高速增長帶來的模型復雜化、稀疏參數量和計算FLOPS的需求，以及多模型應用場景等。為解決挑戰，小紅書設計了異構彈性引擎，核心技術點包括支持超大規模稀疏特征、基于無沖突的高效稀疏Table、高性能Lookup Table算子實現和支持多種參數優化器等。此外，還介紹了第一代訓練框架Larc和異構GPU訓練框架，以及AI編譯技術在訓練和推理場景中的優化。結果顯示，異構彈性引擎能顯著提高GPU利用率，降低成本，提升迭代ROI，具有高性能和靈活性。面向未來的HPC訓練框架需解決顯存不足、計算和通信調度效率低等問題。

"小紅書如何應對模型工程挑戰？" "異構彈性引擎有哪些設計亮點？" "AI編譯技術在訓推框架中的應用如何？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站