《李弘博-OS2ATC_TencentOS服務器QoS技術的演進 李弘博.pdf》由會員分享,可在線閱讀,更多相關《李弘博-OS2ATC_TencentOS服務器QoS技術的演進 李弘博.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊 TencentOS團隊 李弘博TencentOS 服務器QoS技術的演進1背景:降低運營成本如意3433754084454835250100200300400500600202020212022202320242025中國x86服務器出貨量(萬臺)服務器,69%存儲設備,6%網絡設備,11%安全設備,9%其他,5%IDC設備成本分布全球服務器CPU平均利用率只有6%-12%,嚴重浪費。-Gartner統計保守估算:1臺服務器成本:5萬元CPU利用率:15%提升到30%1萬臺機器節約成本:5億2CPU:35%內存:9%網絡:5%磁盤:5%轉碼單一業務部署面臨特定資源瓶頸CPU:15%內存:
2、56%網絡:20%磁盤:75%數據庫如意在離線混部在線業務:延時敏感。搜索、支付。離線業務:延時不敏感。AI訓練、轉碼、大數據分析。在離線業務混部服務器A在線業務服務器B離線業務服務器C混部通過資源(容器)隔離,在不影響在線業務服務質量的前提下,盡可能的混部業務提升服務器資源使用率。干擾率、抖動、延遲監控、統計Trace工具降低業務運營成本負載越高,收益越大Cgroup隔離Cpu qosIo qos網絡qos內存qos技術手段前提目標資源競爭,互相干擾通過業務混部提升服務器資源利用率3第一代QoS技術如意K8S集群錯峰部署+cgroup隔離K8S:分時錯峰運行04:0012:0020:0004
3、:00在線離線08:0016:0000:00秒級延遲,處理滯后高優容器的空閑資源無法充分利用挑業務,分時特征明顯,容易預測的業務。對延遲不太敏感的業務。上限比較低,cpu使用率一般壓到50%以下,粗粒度的混部。上報數據調度決策下發執行節點調整處理完畢壓力突發探測上報沖突處理路徑長,耗時高,異常節點無法在第一時間得到調整,在線受影響.壓力突發處理完畢秒級延遲在線離線空閑資源請求資源資源預分配:空閑資源無法利用4如意第二代QoS技術CPU離線調度類離線負載均衡超線程隔離離線壓制水位線IOIOPS限速讀寫統一限速按權重隔離動態回寫抑制網絡入、出帶寬限速帶寬搶占端口白名單整機限速內存高低優預留Page
4、cache隔離按優先級OOM容器級異步回收統計信息QoS指標硬件指標ebpf工具集容器調度資源預測干擾檢測應用畫像作業篩選資源監控沖突處理配置接口TencentOS 如意其他干擾:網絡、IO、內存的離線干擾主要干擾:CPU離線干擾挑戰一:降低CPU層面的干擾挑戰二:網絡、內存、IO層面的干擾Caelus、CraneCaelus、Crane:數平、基架、CSIG:作業調度、干擾檢測、沖突處理作業調度QoS指標5如意6挑戰一:降低CPU維度的干擾Core 0Core 1Cpu 0Cpu 1Cpu 2Cpu 3Node 0Node 1Numa干擾Cpuset 綁核核間干擾核內干擾單CPU干擾單CPU
5、內的干擾(軟件干擾):內核調度延遲:在線、離線進程同時位于run queue中,如果CFS選擇離線進程,導致在線進程被延遲調度軟件干擾CPU干擾硬件干擾核內的干擾(硬件干擾):離線進程會沖掉在線進程的L2 cache核間的干擾(硬件干擾):負載均衡:在線進程被CFS調度器在cpu間調度。導致cache miss增加。一個socket內的cpu共享L3 cache主要干擾如意如何解決CPU調度延遲stop_sched_classdl_sched_classrt_sched_classfair_sched_class在線&離線idle_sched_class主要問題:都是一種比例控制的機制,“量”
6、上的補償,無法直接影響調度延遲 對cfs調度器代碼入侵大,同一棵紅黑樹上,有一定性能損耗 受限于vruntime,非絕對搶占,干擾率5%在線A離線B資源傾斜4261357vruntime最?。▽嶋H運行時間、權重)方案一:Cgroup ACgroup BShares 1024Shares 2048period:100msCgroup A:quota 40ms方案二:period:100msperiod:100msquota 40msquota 40ms方案三(cfs burst):30ms50ms(burst 10ms)離線7在線任務被優先調度多次之后,離線任務vruntime最小,被cfs調度
7、,導致在線被離線干擾如意stop_sched_classdl_sched_classrt_sched_classfair_sched_class在線bt_sched_class離線idle_sched_class按優先級絕對搶占如意獨立于CFS,業界首創離線調度類BT復雜度提升,但與在線紅黑樹解耦絕對搶占,干擾率 逐漸放量 風險可控:業務可以根據需要配置常態水位線5%10%30%50%動態水位=0BT_ 智能化如意業務監控平臺告警平臺驅逐離線通知平臺側業務觀測通知業務異常處理鏈條長平臺側收集如意QoS指標自動判斷是否異常離線驅逐自動化精確的業務畫像業務監控平臺告警業務解決混部前混部后理想情況物理機CVMTencentOS轉碼存儲AI廣告大數據混部后排查問題的難度增大CPUIO網絡內存17如意18QoS技術演進第一代QoS:分時錯峰 cpu shares、quota 干擾率高 沖突處理時間長 資源利用率低第二代QoS:全時間段 容器調度+服務器QoS 無需分時部署 離在線混部 多資源統一優先級第三代QoS:全場景 離在線混部+在線間的混部 CFS+容器優先級 適用非典型離線業務第四代QoS:智能化 精準的業務畫像 系統指標特征庫 平臺側先于業務側發現問題只支持較低負載降低干擾率拓寬應用場景資源調配效率更高THANKYOU19如意