辛文-降本增效利器:快手 CPU&GPU超大規模在離線混部落地實踐.pdf

編號:177498 PDF 35頁 7.70MB 下載積分:VIP專享
下載報告請您先登錄!

辛文-降本增效利器:快手 CPU&GPU超大規模在離線混部落地實踐.pdf

1、降本增效利器:快手 CPU&GPU 超大規模在離線混部落地實踐快手/容器云技術中心/辛文背景與趨勢1 背景與挑戰2 利用提升最佳實踐CPU混部篇3 利用率提升最佳實踐GPU混部篇4 未來規劃及展望目錄頁Contents在離線混部架構搭建CPU在離線混部 CPU潮汐混部計量計費2019202020192020GPU虛擬化與GPU混部AI訓練與潮汐混部隔離能力提升20212021 20222022擴量與精細化快手混部生態發展歷程快手混部生態發展歷程資源合池多場景統一調度全局彈性能力擴量服務畫像及AI資源預測20232023 后續后續全局資源效率混部生態啟動 快速發展的業務:給資源供給帶來了挑戰 服

2、務應用數量眾多類型多種多樣升級變更頻繁資源潮汐化IDC數目眾多峰值資源短缺在離線分離快速增長的業務與資源成本控制間的矛盾日益突出主機主機資源交付壓力某在線業務三天使用率示意圖利用率指標離線離線+非實時作業非實時作業資源利用率較低時延敏感資源需求點全天持續需求大小塊資源較可利用“潮汐”特征明顯 需要足夠buffer 資源套餐固定穩定性要求具備容錯特性允許重試時延、飽和度、錯誤率重試成本高,用戶側有感資源利用率高實時性要求較低在線服務在線服務 流量波峰波谷 SLO保障冗余 用戶估計誤差 突發增長需求CPUCPU業務背景與趨勢業務背景與趨勢IDC數量眾多峰值資源短缺資源交付壓力算力需求多樣化服務量動

3、態增長服務量動態增長微服務改造、長尾增多實時流量潮汐實時流量潮汐實例負載及規??焖僮兓Y源池共享資源池共享推理/訓練/近線多場景混合提升GPU資源效率卡類型多樣卡類型多樣GPU硬件多年持續迭代平臺系統損耗平臺系統損耗故障及主機異構的調度損耗資源彈性需求資源彈性需求單卡、多卡、多機多卡場景GPUGPU業務背景與趨勢業務背景與趨勢GPU算力強需求云原生化多業務場景與GPUGPU應用應用已深刻影響各類業務(搜廣推、音視頻、MMU、風控等)場景快手內部GPU在線服務及離線訓練任務均完成云原生云原生化遷移成本問題逐步凸顯成本問題逐步凸顯GPU卡規模十萬量級多種主流GPU卡型號數萬臺GPU主機&十萬量級G

4、PU卡GPU服務 數千量級在線服務(推理等)、AI訓練任務及近線服務(特征提取等)多樣化場景運行效率在線服務GPU峰均差值約30PP訓練類算力全天需求旺盛峰均差值核心優化目標:CPU&GPU資源利用率提升圖:快手內部某服務GPU使用率趨勢背景與趨勢1 背景與挑戰2 利用提升最佳實踐CPU混部篇3 利用率提升最佳實踐GPU混部篇4 未來規劃及展望目錄頁ContentsMapReduceSpark定時任務質檢、報表等高容錯應用轉碼類通用業務短任務 大數據離線服務與作業離線作業編排在離線容器編排應用編排Job編排動態超售服務畫像跨集群調度負載調度彈性擴縮容Operator定制大數據引擎MR/SPar

5、kFlink容器容器網絡隔離增強分布式 存儲KATArbd/nbd kwaistoreHDFS集群管理層在線容器集群主機部署服務器納管基礎服務混用集群備機池及測試機公司統一基礎設施業務存量物理機容器集群物理機公有云主機備機及測試機統一資源層(容器+存儲)資源成本分帳帳單管理資源審計離線資源監控機房帶寬監測資源貢獻接入審計系統自動化運維如何落地系統能力如何落地系統能力資源類型資源類型特點簡介特點簡介QOS適配業務適配業務Mid 供給資源量基于服務畫像及AI資源預測模型,能夠實現天級別的資源供給保障。適用于對資源驅逐比較友好的在線業務以及一些運行時間要求比較長的近線任務。LS、BE Flink 近

6、線任務 離線基線類服務Batch 基于Mid資源超發后的再次超發,資源供給存在一定波動性,但整體退避率控制在一定sla范圍內。適用于短作業或者對失敗重跑有一定要求的中低優作業。BE 離線批處理任務 高優音視頻異步轉碼任務 gpu混部任務Free 基于單機的利用率水位,資源供給無法提供較高保障,同時存在一定程度壓縮和退避的概率。適用于對延時不敏感,同時具備恢復重跑能力的低優作業。BE 低優音視頻異步轉碼任務 測試任務擴展資源類型擴展資源類型4種資源類型種資源類型 復用原生K8S資源類型 新增三種混部資源更靈活的更靈活的QOS等級等級 在線:LSE、LSR、LS 混部:LS、BECPU毫秒量級采集

7、周期獨占核與共享核管理CPU share分級壓力狀態離線任務按順退避內存毫秒量級秒采集周期服務畫像及AI模型預測壓力狀態離線任務按順退避OOM優先級離線帳戶帳戶級FD整體約束容器內外帳戶映射帳戶權限、配額管理離線任務TC限速流量上限監測調度層優化分布機房流量分級管控網卡流量Pid整機系統負載超過閾值自動退避設置單機離線進程限制設置單容器實例進程限制毫秒量級采集周期混部大框維度管控分級按需退避磁盤空間/IO數十秒級采集周期超閾值清理離線任務及數據重IO接入分布式塊存儲IO throttle限制隔離能力建設隔離能力建設內核隔離內核隔離 調度優先級 超線程隔離 多調度隊列CPU內存磁盤網絡 內存異步

8、回收 MIN水位分級 L3 cache隔離 OOM優先級 在離線分盤 離線云盤 磁盤IO限速 單機TC限速 機房流量分級管控Introduction內核隔離內核隔離 -CPUCPU調度調度優先級優先級CPU調度優先級有高中低高中低三種級別高優可以搶占低優,不可以搶占中優中優可以搶占低優調度QoS目標是通過混部在離線服務,在提高機器利用率的同時,保證高優和延遲敏感的在線業務不受離線業務影響。針對調度延遲優化的絕對優先級絕對優先級,高優任務對低優任務有絕對的優先級。調度搶占時會忽略CFS強調的公平性:wake up的時候,高優任務無條件搶占低優任務 pick next的時候,只要有高優任務處于就緒

9、態,低優任務無法被pickIntroductionIntroduction針對 CPU 微架構資源的 Smt-Denoise,高優任務有權獨占物理核獨占物理核,并壓制/驅逐對端的低優任務,減少低優任務對物理核算力、L1/L2 cache等微架構干擾。TH1TH2TH3TH4ThreadL2 CacheL2 CacheL3 CacheIMC:Memory BandwidthCoreSockethighlowCORECORETH1TH2TH1TH2highlowCORECORETH1TH2TH1TH2內核隔離內核隔離 -CPUCPU超線程隔離超線程隔離IntroductionIntroductio

10、n內核隔離內核隔離 內存內存內存異步內存異步回收回收 當memcg的內存使用量超過閾值時,需要進行直接回收;然而,直接回收給業務的執行路徑引入不可控的長尾;memcg級的后臺異步回收功能,通過將memcg內存維持在一定水線可以避免直接回收MinMin水線水線分級分級 支持給為離線作業設置單獨的離線作業設置單獨的Min Min 水線水線,降低混部后對在線直接內存回收降低混部后對在線直接內存回收。當整機內存不足時,優先對離線進行分配抑制或者直接回收,降低高優先級memory cgroup觸發直接回收的幾率,優化其內存分配延遲。臟頁限制臟頁限制 當整個系統臟頁數量達到限制時,會開始執行writeba

11、ck并限制寫入速度;低優任務可能會產生過多臟頁達到系統閾值,導致高優任務的臟頁被過早flush,并被限制速度。該特性,能限制離線容器的臟頁數。L L3 3 cachecache隔離隔離基于intel的RDT技術,限制離線作業的LLC占用量,降低離線和在線共共socketsocket干擾干擾自研Yarn on k8s 機構,實現離線MR/Spark任務混部YARN on K8S通過對各類混部資源精細化管理,同時借助內核隔離能力,混部深水區探索精細化管理/內核隔離能力常態/潮汐混部模式隔離能力增強服務畫像/干擾檢測 整機利用率提升20%+20%+資源混部供給百萬核量級百萬核量級適配多業務qos等級

12、需求,實現多場景服務混合部署多QOS等級 基于機器學習的資源預測模型,為離線任務提供穩定資源資源畫像及預測資源抽取率提升實踐資源抽取率提升實踐背景與趨勢1 背景與挑戰2 利用提升最佳實踐CPU混部篇3 利用率提升最佳實踐GPU混部篇4 未來規劃及展望目錄頁Contents為什么需要虛擬化與混部類技術為什么需要虛擬化與混部類技術任務顆粒度VGPU大量單實例無法用滿GPU資源硬件算力持續增強形成浪費GPU算力顯存編碼器渲染器在線容量冗余,峰值高而日均利用不足離線訓練成本高昂,近線類需求旺盛高優搶占分時復用削峰填谷消除冗余請求優先級Prioritized-QoS高優保障在線峰值流量離線訓練+近線任務

13、壓縮算力成本提升利用率優化成本保障實時在線需求硬件基礎設施Infrastructure虛擬GPU資源定義與調度框架平臺Framework&Platform業務場景ServicesVGPU在線業務場景混部GPU離線訓練與近線任務API劫持GPU算力隔離顯存隔離限制高優QoS搶占GPU卡CPU內存網絡存儲在線推理機器學習平臺離線AI訓練服務容器部署平臺特征提取等近線任務音視頻增強電商推薦廣告搜索音視頻特效處理直播媒體處理風控顯存水位預測算力請求優先級離線時間片兜底如何落地系統能力如何落地系統能力顯存實時避讓顯存分配識別離線內存監測離線CPU壓制編解碼器攔截什么是什么是GPU虛擬化虛擬化算力單元算力

14、單元GPU顯存編解碼器渲染器N N分之一分之一算力算力/顯存顯存編解碼器編解碼器可選項可選項VGPUVGPU實例實例 :CPU+內存+算力占比+顯存占比+器件選配GPUGPU算力算力GPU GPU 顯存顯存單實例獨占單實例獨占GPUGPU算力算力GPUGPU顯存顯存多實例共享多實例共享允許 多容器多容器 實例在資源 隔離隔離 前提下 共享共享 GPU卡業務:用量用量 減少 成本成本 降低平臺:部署 密度密度 增加 利用率利用率 提升路徑路徑方式方式收益收益GPUGPU虛擬化底層技術選型虛擬化底層技術選型內核層劫持內核層劫持內核層攔截驅動API隔離顯存/算力細粒度的顯存和算力調度策略無需替換CU

15、DA庫上層應用無感Nvidia MPSNvidia MPS多進程共享上下文,吞吐指標更優缺乏故障強隔離,容器間異常會傳導不支持顯存硬隔離CUDACUDA層劫持層劫持(vCUDAvCUDA)CUDA層攔截API隔離顯存/算力依賴容器鏡像替換CUDA庫CUDA發新版需要迭代適配Nvidia MIGNvidia MIG硬件物理切分方式,適用A100、A30等卡型不支持動態劃分依賴CUDA11及以上高版本技術路線:內核態內核態劫持 算力隔離:基于內核態的時間片輪轉時間片輪轉調度,多容器時分復用GPU計算器件 顯存隔離:基于內核態劫持內核態劫持顯存申請、回收等接口,控制容器使用顯存配額快手快手GPU虛擬

16、化方案虛擬化方案Pod1Pod2占用GPU出讓GPU共享GPU的多容器時間軸tVGPU按時間片調度示意圖時間片分配周期Period多容器實例按時間片輪轉切換多容器實例按時間片輪轉切換性能壓測數據性能壓測數據0.0005.00010.00015.00020.00025.00018163264BatchSize聚合QPS對比原生GPU整卡快手虛擬化單卡雙實例MPS方案單卡雙實例0.005.0010.0015.0020.0025.0030.0035.0018163264BatchSizeP99延遲對比原生GPU整卡模式快手GPU虛擬化單卡兩實例MPS方案單卡兩實例 有效吞吐介于原生整卡與MPS搶占模

17、式間 具備故障強隔離能力,顯著優于MPS方案 時間片輪轉引入極端場景P99延遲放大 適用具備一定延遲容忍的業務場景允許 在在線線和離近線離近線容器實例在 優先級保障優先級保障 前提下 共享共享 同一塊GPU卡算力搶占算力搶占顯存避讓顯存避讓在線服務有GPU計算請求時立刻獲取算力執行,離線服務的請求被壓制當剩余GPU顯存低于安全閾值時,離線服務實例會被立即驅逐以釋放顯存供給在線服務進程什么是什么是GPU混部?混部?緩沖閾值空閑顯存離線已用顯存在線已用顯存整卡顯存離線進程可用顯存離線實列B離線實例C時間軸t在線實例A立即執行執行結束在線請求實時搶占在線請求實時搶占請求suspend請求suspen

18、d請求resume請求resumekGPU驅動離線實例單機管理組件DevicePlugin1 申請顯存2 實時檢測顯存余量低于閾值 則生成通知事件3 主動驅動低優離線實例4 感知顯存實時可申請量5 阻止低優實例原地拉起6 重調度后在新主機拉起KGPUKGPU驅動驅動-內核模塊內核模塊Kgpu Device Wrapper 虛擬設備透傳 業務透明無感切換GPU算力調度器算力調度器 搶占調度 權重隔離核心功能因素核心功能因素 離在線混部 顯存隔離 顯存避讓CUDA APP/dev/nvidia0CUDA APP/dev/nvidia0CUDA APP/dev/nvidia0容器1容器2容器NKGP

19、U Device Wrapper算力調度器容器1容器2容器N驅動二進制解析原生Driver硬件GPU卡Doorbell攔截高優QOS搶占Busy檢測判斷離在線混部 CUDA庫逆向IOCTL透明劫持顯存分配識別顯存隔離水位預警實時退避使用預測顯存避讓GPU混部利用率提升混部利用率提升GPUGPU混部提升利用率示例混部提升利用率示例僅在線服務運行的僅在線服務運行的GPUGPU利用率趨勢利用率趨勢在線與離近線復用資源下的在線與離近線復用資源下的GPUGPU利用率趨勢利用率趨勢利用率提升效果利用率提升效果業務成本顯著下降 對接服務成本優化超50%50%數千卡數千卡近線類算力穩態供給穩定性保障 算力,顯

20、存,故障隔離能力 實時量化干擾指標JanFebMarAprMayJuneJulyAugGPU日均利用率趨勢潮汐混部業務背景潮汐混部業務背景GPU整機維度分時復用AI訓練計算量大利用率優化痛點在線服務強保障 多機多卡高算力需求 多角色Gang調度 任務非實時可推遲運行 訓練過程需要穩態運行 內存+IO+網絡等多瓶頸 延時極度敏感 性能波動關乎收入 資源配額實時協調 潮汐特征明顯實時搶占訓練任務運行訓練任務運行推理穩態運行推理穩態運行在離資源轉換穩態穩態07:30 08:30 早高峰在線流量啟動期在線服務逐步擴容增加容量,搶占邏輯最高優保障在線服務資源供給流量預測+彈性擴量+優先級搶占08:30

21、22:30 在線業務流量持續高位保障在線推理場景持續穩定運行,冗余資源支持小微低優任務運行干擾觀測跟蹤+調度策略定制23:30 07:30 凌晨在線流量持續低谷提升訓練任務錯峰規?;\行穩定性,盡力減少運行失敗導致的無效損耗調度實時感知算力分布在線按容量預測縮容,盡力空出整機22:30 23:30 晚高峰在線流量消退期潮汐混部的周期切換潮汐混部的周期切換穩態穩態搶占搶占轉換轉換調度策略定制+重調度干預08:30 22:3022:3023:3023:3007:3007:3008:30策略離線GPU資源逐步增多空閑整機規??焖僭黾佑柧毴蝿贞犃兄鸩竭w移擴量特點離線GPU資源規模趨勢于穩定態空閑整機確

22、定性顯著增強確定性顯著增強高配長任務高配長任務放量啟動運行任務隊列暫停高優提交離線GPU資源持續壓制狀態空閑整機存在不確定性不確定性低配短時低配短時訓練任務排隊提交離線訓練運行保障離線訓練運行保障離線訓練任務運行規模趨勢離線訓練任務運行規模趨勢裝箱優先裝箱優先策略保持整機空閑預留任務失敗自動重試提升成功率干預縮容干預縮容實例盡力空出整機二次調度二次調度主動騰挪提升裝箱率調度器感知任務優先級優先級+運行時長運行時長壓制訓練任務因資源導致的失敗率離線GPU資源被實時搶占空閑整機規??焖贉p少訓練任務保存結果逐步退出切換適量低配短時低配短時訓練任務多在線實例用GPU卡,增加單機部署密度VGPU 虛擬化

23、機器屬性離在線切換,實現GPU機器分時復用GPU機器分時復用在線共享GPU卡/GPU虛擬化GPU常態混部/KGPU模型GPU分時復用重調度資源規整 GPUGPU利用率提升利用率提升 10%10%GPUGPU卡供給卡供給 萬卡量級萬卡量級多優先級服務共享GPU卡,低優先級服務允許被搶占KGPU 常態混部資源抽取率提升資源抽取率提升背景與趨勢1 背景與挑戰2 利用提升最佳實踐CPU混部篇3 利用率提升最佳實踐GPU混部篇4 未來規劃及展望目錄頁Contents利用率深水區利用率深水區全局資源效率提升全局資源效率提升 服務畫像/模型預測優化 內核隔離能力增強 精細管控:干擾識別與避讓 資源合池 多場景統一調度

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(辛文-降本增效利器:快手 CPU&GPU超大規模在離線混部落地實踐.pdf)為本站 (張5G) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站