《貝聯珠貫-梁耀斌-動態用云技術降低30%云成本V1.0.pdf》由會員分享,可在線閱讀,更多相關《貝聯珠貫-梁耀斌-動態用云技術降低30%云成本V1.0.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、動態用云技術降低30%云成本梁耀斌 貝聯珠貫產品負責人個人簡介梁耀斌(追源)貝聯珠貫產品負責人致力FinOps領域,幫助企業優化并降低云資源成本。之前在阿里經歷了基礎設施的升級演進,負責和參與了異地多活,統一調度等項目。負責阿里云的技術服務團隊的工具研發,對企業用云的優化提升有豐富的經驗。目錄 背景:云計算離水電煤還有很大差距 降低云成本的關鍵 三個優化案例分析 總結云計算離水電煤還有很大差距Flexera:云成本管理首次超過云安全,成為使用者面臨的頭號挑戰撤離AWS:3 年省下 27.5 億元每個月在云上“狂燒”180萬,Ruby On Rails之父:我們要直接買硬件!新加坡搜索引擎優化工
2、具廠商Ahrefs撤離aws,節省27.5億37Signals CTO,Ruby On Rails之父David HeinemeierHansson,發文表示將要“下云”“Wanclouds 研究顯示,81%的 IT 管理者表示,隨著成本飆升和市場下行,他們的最高管理層已經指示他們要減少或不承擔額外的云支出。根據調研結果,39%的人已經決定將大量的云消耗和高性能工作負載遷移或留在本地,還有 29%的人表示在 2022 年上半年由于價格貴而更換了公有云廠商?!痹朴嬎汶x水電煤還有很大差距132381.6133458600008000002000040000600008000010000012000
3、0140000160000ecs.c6e.large Intel Xeon(Cascade Lake)Platinum 8269CY 2vcpu 4G內存 40G云盤的機器,26臺ecs.d1ne-c8d3.8xlarge Intel Xeon E5-2682v4,32 core 128G,12塊5500GiB的SATA盤的機器,1臺XX云(5年包年的相應折扣后)自建(含機房等費用,不含運維人員)云的便利性也帶來了高溢價未考慮交付效率和運營成本 高頻變化的業務依賴交付效率 運營成本受規模影響132381.685942.96000002000040000600008000010000012000
4、0140000ecs.c6e.large Intel Xeon(Cascade Lake)Platinum 8269CY 2vcpu 4G內存 40G云盤的機器,26臺XX云(5年包年的相應折扣后)XX云(按量付費)自建(含機房等費用,不含運維人員)數量包5年平均到每天按量付費到天26臺72.547.092備注:4臺包5年=11.15/天12臺每天用14小時=29.03/天10臺每天用4小時=6.912/天按量付費價格同樣4折動態使用云資源是降低云成本的關鍵靜態使用資源動態使用資源云原生技術架構升級典范公司:Snowflake,存算分離,改變計費模型“PAY FOR THE COMPUTE A
5、ND STORAGE YOU ACTUALLY USE.”關鍵優化策略需求側優化:Rightsizing供給側優化:ElasticPool結合已有的云資源,spot instance,按量付費,多云實例等來構建資源池對負載的歷史運行數據進行分析推薦更為合理的需求和規格云資源的使用場景分析在線業務將業務流程在線化大數據對業務積累的數據進行分析和挖掘,幫助進一步的決策AI對大量的數據進行模型訓練,產生類人類的推理,學習和行動計算特征長期運行任務計算消耗小數據量逐漸增加一次性運行任務計算消耗大數據量大一次性運行任務計算消耗極大數據量極大典型場景社交/電商/支付等BI/推薦/用戶畫像圖像理解/渲染/智
6、能問答典型系統webservice/數據庫等Hadoop/Spark/Flink等深度學習/大模型計算等Case1:在線業務的Rightsizing優化問題識別具備彈性能力的在線應用進行自動化策略調整解決方案 在線應用畫像 業務線性/業務非線性 無狀態/有狀態 可預測/不可預測 不具備彈性能力:百分位峰值,保證應用的穩定性 具備彈性能力:根據預測值,利用率,請求量進行彈性伸縮難點對穩定性要求高,負載復雜度高:數量多,類型不同,彈性能力差異大Case1:在線業務的Rightsizing優化Case1:在線業務的Rightsizing優化應用具備彈性能力無狀態存儲計算分離名字服務優雅下線發布監控容
7、量應用架構優化Case2:大數據的Rightsizing優化問題 離線大數據計算場景中,任務運行參數非常多 集群每天有成千上萬個任務運行 異常任務治理難點 手工優化參數工作量巨大 持續優化難度高解決思路 通過對任務的歷史運行數據進行分析和挖掘,為每個任務計算更優的運行參數,并支持在任務提交計算時進行參數的自動運用,從而使任務運行更快或集群利用效率更高,最終節省成本 難以自動解決的異常任務,能夠發現、歸類、分析、給解決建議 Case2:大數據的Rightsizing優化產品特性 支持HBO(History Based Optimization,即基于歷史統計的優化),通過對作業歷史運行數據挖掘,
8、生成更優配置參數 自動化調優,支持自動優化大數據作業運行參數調優(運行時注入的方式)實施成本低,快速見效:通過Hook或只需修改作業提交地址,侵入性小 穩定性保障:優化驗證后逐步灰度,支持多重保護機制 大幅提升離線計算集群效率:成本節省30%-50%Case2:大數據的Rightsizing優化核心優化指標 運行時長 CPU使用量 內存使用量Case2:大數據的Rightsizing優化第一輪優化:可以看到在開啟優化的前后時間段,PendingMB曲線面積有明顯下降第二輪優化:不斷完善優化策略,PendingMB曲線面積較優化前降低更為明顯,曲線峰值約12M降至1M,整體可減少40%左右的離線
9、計算資源Case2:大數據的Rightsizing優化灰度機制異常處理任務失敗重試時,使用優化前參數或加大內存系統不可用時,以優化前參數運行收集任務歷史運行數據,預估收益通過任務白名單機制,少量任務-白天任務-所有任務放開多重穩定性保障動態資源池 ElasticPool已有的云資源通過不同優先級任務混部來實現典范是Google的Borg,通過混部,計算型資源的平均利用率拉升到了50%+,節省了超過30%的整體機器;對基礎設施要求很高:不同優先級任務通常至少要部署在同城機房、網絡帶寬要100G以上、存算分離、操作系統要具備不同優先級任務QoS能力。Spot Instance國外像Cast.ai、
10、Kubecost、BreezeML、Skypilot這些公司基本都是這個方向;國外云在Spot Instance上的成熟度和供應上比國內好很多;多云資源組合對于某些場景,例如計算時需要的數據量小,或依賴的數據在多家云上都有,這種情況下可以臨時根據各家云目前的spot instance等情況,來構建一個最佳的資源池,可以是單云構成的,甚至是跨多云構成的。Spark 發源地 UC 伯克利分校再推開源項目應對云成本飆升:平均降至三分之一。規格名稱規格系統盤按量包月搶占式阿里云ecs.c6.xlarge4核8G40G0.744元/時 535.68元/月356.6元/月0.26元/小時 187.2元/月
11、華為云c6s.xlarge.24核8G40G0.6988元/時 503.136元/月346.6元/月0.29元/小時 208.8元/月騰訊云S5.LARGE84核8G50G0.65元/時 468元/月356.2元/月0.17元/小時 122.4元/月Case3:ElasticPool-離在線混部問題 業務和大數據離線作業的錯峰,集群利用率不高 大量的容器OOM 300+w次/周 1%的夯機率 每周hung task 28.8%難點 資源利用率提升達到瓶頸 單機的資源隔離能力解決思路 穩定性:資源面的邊界壓力感知,單機資源健康度保障 利用率:復用已有機器,構建新的大數據集群Case3:Elast
12、icPool-離在線混部輕量的接入方式0.大數據存算分離架構1.部署新大數據集群控制器2.混部節點部署內核隔離能力3.混部節點部署lcc-agent4.將任務從老集群遷移到新集群5.原集群逐漸釋放Case3:ElasticPool-離在線混部Latency/壓力/邊界感知Case3:ElasticPool-離在線混部內存健康度保障觸發不同內存水位有對應的策略Case3:ElasticPool-離在線混部內存健康度保障延遲回收,充分利用機器的資源總結核心原則云原生技術架構升級:從靜態使用資源 到 動態使用資源優化方向需求側優化(Rightsizing)和 供給側優化(ElasticPool)需求
13、側優化 在線的Rightsizing:調整規格+HPA 大數據Rightsizing:基于作業歷史優化供給側優化 已有資源復用:混部 AutoScaler:spot實例-按量付費-多云調度了解更多技術實踐案例歡迎聯系我們的技術專家交流歡迎聯系關注貝聯珠貫的公眾號不定期分享技術文章了解更多技術實踐案例麥思博(msup)有限公司是一家面向技術型企業的培訓咨詢機構,攜手2000余位中外客座導師,服務于技術團隊的能力提升、軟件工程效能和產品創新迭代,超過3000余家企業續約學習,是科技領域占有率第1的客座導師品牌,msup以整合全球領先經驗實踐為己任,為中國產業快速發展提供智庫。高可用架構主要關注互聯網架構及高可用、可擴展及高性能領域的知識傳播。訂閱用戶覆蓋主流互聯網及軟件領域系統架構技術從業人員。高可用架構系列社群是一個社區組織,其精神是“分享+交流”,提倡社區的人人參與,同時從社區獲得高質量的內容。