《識貨云原生降本提效實踐 - 瞿晟榮.pdf》由會員分享,可在線閱讀,更多相關《識貨云原生降本提效實踐 - 瞿晟榮.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、識貨云原生降本提效實踐識貨質量運維總監瞿晟榮Contents目錄01背景介紹02云原生降本提效03總結和后續演進識貨App年輕人的生活社區與消費決策平臺新生代消費群集散地年輕用戶的消費風向標和發聲陣地品質與性價比消費新體驗正品商品導購平臺品牌與用戶的溝通中樞提供專業營銷服務激發年輕消費力識貨App整合全行業供給的優勢,通過專業導購營銷服務,致力于為廣大年輕用戶提供專業的網購決策指導,幫助用戶便捷篩選全網正品低價商品。并帶來運動、潮流、生活、時尚等網購前沿資訊,在年輕用戶圈層中建立起強信賴與強引導,幫助品牌與商家挖掘電商平臺之外的用戶流量。年20122014201520202021識貨網上線優惠
2、信息頻道上線球鞋團購頻道上線識貨App正式上線海淘頻道上線MAU破千萬雙11DAU破百萬拍照搜鞋功能上線,幫助用戶簡化消費流程為滿足年輕用戶需求,拓展數碼、美妝、箱包、生活服務等類目聯合上萬商家簽署安心購協議,嚴保正品淘寶聯盟優秀合作伙伴-戰功赫赫影響力獎第九屆娛樂營銷論壇暨5S金獎頒獎盛典活動20182019正品鑒別服務上線商品庫服務上線社區升級上線,為年輕人提供更專業的內容服務與更具歸屬感的交流陣地牽手鑒定國家隊,與中檢集團奢侈品鑒定中心達成戰略合作起源體育社區用戶對正品裝備討論度高,消費需求旺盛識貨十年,初心不變與中國年輕人共同成長2022持續成長國內電商導購細分領域TOP1國內App應
3、用排名前100持續拓展寵物、母嬰、營養保健、潮玩等類目新類目GMV占比超30%上線AR虛擬試穿功能,科技感加速用戶決策淘寶聯盟優秀合作伙伴-匠心獨運創新力獎(數據來源:識貨市場部)業務特點大促場景,每年有多次大促活動節,流量/訂單為平時的10+倍。電商業務,在線業務多為無狀態服務。流量呈現波峰波谷的特點,周期性變化。如何做到低成本、高效能?我們的思考和演進混部&超賣彈性&治理智能&預測延遲敏感服務批處理計算實時計算混部和超賣節點維度:多個類型(在線,離線)的容器部署在一個節點上運行。集群維度:多種應用在一個集群內自動部署,通過預測分析應用特性,業務間錯峰填谷。對數據中心資源利用效率的不懈追求。
4、埃森哲報告顯示 2021 年公有云數據中心的機器利用率平均不到10%,意味著企業的資源成本極高。另一方面大數據技術的發展迅速,計算作業對資源的需求越來越大。什么是混部混部的目標混部需要解決的問題容器混合部署時的互相干擾(noisy neighbor)集群管理在線服務類型應用單機的資源競應用對資源的敏感程度不同,在資源調度和單機服務質量上都需要精細化的管理策略。資源競爭引發應用響應時間出現抖動毛刺的現象,產生長尾問題(tail latency)提升集群資源利用率,降低 IT 成本。簡化對集群資源的管理,可以實現對各類應用的資源容量,分配量,使用量的清晰洞察。面向混部場景的資源優先級和服務質量模型
5、作業類型批處理任務ACK slo-manager提供了以下機制量化超賣資源:分級可靠的策略,滿足差異化的資源質量需求。及時識別干擾源,避免影響 LS 應用。穩定可靠的資源超賣機制細粒度的容器資源編排和隔離機制針對多種類型工作負載的調度能力增強復雜類型工作負載的快速接入能力中心管控大數據/AI以外的服務均部署在ACK資源超賣 將申請而未使用的資源利用起來總內存的1/2資源部署為可超賣,實際超賣1/5資源隔離:確保cpu和內存的隔離,優先保證在線作業為應用提供一鍵接入的能力,自動注入相關優先級、QoS 配置總CPU核數的1/2部署為可超賣,實際超賣1/3容器作業有部分后臺服務和一次性任務,延遲容忍
6、度容忍度較高在線作業只使用非超賣資源離線作業優先調度到超賣節點問題:公司成本壓力較大,機器整體CPU使用率偏低云原生降本提效 超賣混部解決方案部署情況混部落地效果混部實踐中,將大量的后臺服務和任務類的服務應用到混部中,對CPU和MEM進行超賣,目前署571核的業務pod,占整個集群的1/4,整體集群的資源利用率由原來7%提升到20%(數據來自識貨業務場景實踐)(來自識貨業務場景實踐)平時業務使用固定 ECS 承載。彈性業務使用 ECI 承載,無需執行彈性部分容量規劃。通過指定調度策略,自動執行,無需介入復雜調度邏輯。Serverless基礎設施彈性ECI容器服務Kubernetes集群(ACK
7、)ECSPODPODECSPODPODPODECIECIECIECI業務智能預測彈性當前應用冷啟動問題資源調度拉鏡像容器創建容器啟動應用啟動,通用彈性方案面臨的問題應用實例數評估難,少了不夠,多了浪費穩定性風險,HPA 彈性滯后,CronHPA 配置固化易用性差,配置繁瑣,通用性差可用性差彈性現狀彈性滯后客戶意愿普遍目前手段及副作用固定實例數HPACronHPA利用率低健壯性差,配置復雜周期偏移適應性差,配置繁瑣成本+風險+復雜資源提前預熱,實時調整容量無需人工干預,自動彈性規劃彈性降級保護,快速兜底容錯智能彈性目標固定實例數HPACronHPA智能彈性解決客戶彈性滯后冷啟動的問題,通過彈性預
8、測,提前預熱資源,做到按需彈性。根據業務趨勢,自動進行彈性策略規劃,避免人工規劃導致預估不準(過高導致資源浪費,過低導致業務不穩定)按需彈性智能彈性Metrics收集 Pod 生命周期周期檢測資源需求預測配置保護安全降級實例數實時生效彈性預測工作原理預測提前對POD擴容的因素目標CPU使用率(RT/QPS)根據POD生命周期計算 POD 冷啟動時間下圖是商品庫基礎服務的預測情況,實際的CPU和預測的CPU趨勢來看基本保持一致彈性預測業務落地效果(數據來自識貨業務場景實踐)從商品庫基礎服務的預測pod數量的結果來看:預測的pod數量曲線和CPU趨勢保持一致,達到彈性效果彈性預測業務落地效果(數據來自識貨業務場景實踐)總結和后續演進方向降本提效收益CPU使用率從7%上升到35%彈性計算成本節省約40%業務思考大數據容器化,spark/flink/presAI機器學習云原生化(數據來自識貨業務場景實踐)能效提升和服務治理落地(數據來自識貨業務場景實踐)有效的監控體系,保障業務穩定(數據來自識貨業務場景實踐)數據化運維+模版化擴容(數據來自識貨業務場景實踐)THANKS