《吳駿龍-互聯網微服務體系智能化容量預測之路.pdf》由會員分享,可在線閱讀,更多相關《吳駿龍-互聯網微服務體系智能化容量預測之路.pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、互聯網微服務體系智能化容量預測之路主講人:Justin Wu領域驅動設計啟發下的AI視覺分析引擎構建主講人:戴 昊演講嘉賓介紹吳駿龍 大型互聯網公司測試負責人歷任Wish測試總監,阿里巴巴本地生活高級經理畢業于中國科學技術大學,碩士學位在服務容量保障、服務穩定性建設、質量基礎設施建設、質量提效等領域深耕多年,善于通過創新手段解決質量和效能難題,擁有多項國內外專利多次受邀于業界各技術大會發表演講和擔任出品人,傳播先進理念和方法論目錄CONTENTS服務容量與容量規劃1234微服務體系下容量預測難點智能化容量預測技術智能化容量預測的應用場景5未來展望服務容量與容量規劃1什么是容量容器能夠容納物質的
2、量軟件系統業務量能夠承載的最大單位時間內=互聯網系統容量典型的容量場景目前系統能支撐1000w訂單量,當訂單量增加到2000w時,能否支撐?訂單量增加到2000w時,哪個(些)服務將成為瓶頸?這些服務需要擴容多少量?局部大促活動場景下,容量風險如何識別?容量規劃與容量預測預測未來負載水平何時會使系統飽和,以及確定一個盡可能延遲系統飽和的最經濟的過程。雙11期間,網站需要舉辦大量的大促活動,我們目前的服務器能不能承載這些大促活動所產生的訪問量,如果不能,用多少服務器可以最小化支撐。容量預測容量vs業務業務階段業務特點成本管理意識探索期驗證模式,從0到1粗放式管理,只控制上限進攻期市場占有率是唯一
3、目標不需要控制成本,要多少給多少發展期穩居市場TOPX,業務成熟看財報,發現設備這么花錢?變革期增速放緩,轉型或變革機器成本要控制了!微服務體系下容量預測難點2微服務體系的復雜度波音777-300ER300萬個零件全球17個國家,900多家供應商215公里線纜大型互聯網公司數以萬計的應用服務百萬級容器部署規模服務依賴錯綜復雜低效的容量預測經驗腦海中的模型抽象分析預測A:馬上要雙11了,服務器撐得住嗎?B:要搞大促了,肯定要擴容A:擴多少?B:依我的經驗,擴1000核吧A:要那么多嗎?B:呃 那500核吧智能化容量預測技術3容量預測步驟容量模型特征選取建?,F狀分析交叉驗證預測容量結果調整一個真實
4、的案例(微服務體系+容器化部署+電商場景)特征選取CPU內存磁盤IO網絡IO帶寬連接數Redis響應時間服務QPS異常量Queue成功率在我們的場景中,絕大部分服務都是計算型服務,CPU利用率是服務容量的重要表現指標根據調研,依賴服務QPS對本服務QPS有較強影響底層資源變化會反映到服務QPS上依賴服務建立模型(選型)必須是回歸模型,而且輸出值必須是連續值能夠支持多輸入-單輸出的映射關系能夠離線計算,生成的模型要能夠持久化建立模型(神經網絡)w1w2wnx1服務自身QPSx2依賴服務A QPSxn依賴服務N QPS偏置by服務CPU輸入突觸權值求和結點激活函數輸出輸入層隱藏層1隱藏層2輸出層建
5、立模型(應用)服務A(QPS|CPU|依賴服務QPS)服務B(QPS|CPU|依賴服務QPS)服務N(QPS|CPU|依賴服務QPS)通用模型(神經網絡)輸入:服務QPS、依賴服務QPS=輸出:服務CPU利用率參數集A參數集B參數集N系統整體容量快照(高峰期)交易鏈路TPS服務A QPS服務B QPS預測集服務A CPU服務B CPU縮放比例,輸入進行預測收斂結果X:Y擬合 過/欠擬合 特征 模型參數 原始數據準確性評價K-折交叉驗證特征選取的一些問題QPS與CPU的映射關系擬合不佳QPS與CPU的關聯性(定量分析)皮爾遜相關系數r=0.99強相關r=0.69弱相關r=0.11不相關QPS與C
6、PU的關聯性(對策)強相關 搜集樣本 建立模型 推導輸出不相關 非計算型 流量極低 其他個例弱相關 概率表 特征選取QPS與CPU的關聯性(特征工程)內存連接數磁盤IO網絡IO帶寬中間件應用owner響應時間服務QPS異常量成功率多余特征無關特征有效特征目測法過濾法成功率長期100%包裹法ABC嵌入法在學習器訓練過程中自動地進行特征選擇如:featureImportanceQPS與CPU的關聯性(概率表)QPSCPUCOUNT600000125660000015.529870000016747000001821680000017.868800000183180000020329樣本數據片段Ba
7、d Case依賴服務QPS激增,導致模型失效數據未清洗,存在大量噪點原始數據取值需要優化樣本過濾或特定模型智能化容量預測的應用場景4智能化容量預測的一個典型應用場景(容量規劃)需要增加多少核CPU資源,能夠將CPU利用率降至90%?服務A 歷史數據(QPS|CPU|依賴服務QPS)通用模型(神經網絡)參數集A建立模型預測過程服務A 目標QPS1000服務A 預測CPU105%某服務目前QPS為600,CPU利用率50%,服務共計使用800核CPU預估大促時該服務QPS將達到1000,那么CPU利用率將達到什么水位?簡單換算(僅供參考)計算出每1%CPU利用率,對應單核貢獻度為 800/50=16105 50 (90-50)*16=240核壓測驗證智能化容量預測的另一個應用場景(容量巡檢)通過容量預測,判斷在更高流量峰值下各服務的容量表現,列出高危服務重點跟進。未來展望5未來展望容量預測與彈性伸縮結合資料來源:AWS官網未來展望AWS使用RNN預測容量,并進行預測性伸縮和動態伸縮資料來源:AWS官網擴展閱讀全鏈路壓測服務容量治理壓測平臺設計智能化容量預測排隊論容量保障組織建設云原生下的容量保障THANKSK+峰會北京站官網AiDD峰會北京站官網