《阿里云:ECS成熟度評估&洞察(2023)(37頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:ECS成熟度評估&洞察(2023)(37頁).pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、卷首語3 月 22 日,阿里云宣布 CloudOps(云上自動化運維)套件全新升級,并發布了 CloudOps 云上自動化運維白皮書 2.0 版本。隨著本次產品升級,阿里云推出了配套的智能化產品方案,即“ECS 成熟度評估與洞察(ECS Insight)”,它基于用戶的 ECS 多維度的使用數據,從基礎能力、成本管理、自動化、可靠性、彈性和安全性六個維度幫助用戶分析定位潛在的運維風險,并推薦對應解決方案與最佳實踐,全方位幫助企業用戶降本增效,提升業務連續性。本書內容根據發布會整理而成,供閱覽。目錄重磅發布:云上自動化運維(CloudOps)白皮書 2.0.5阿里云馬小婷:ECS 使用成熟度評估
2、與洞察(Insight)分享.13阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享.30重磅發布:云上自動化運維(CloudOps)白皮書 2.05重磅發布:云上自動化運維(CloudOps)白皮書 2.0摘要:2022 年 3 月 22 日,【全新升級 阿里云 ECS CloudOps 2.0 來啦!】發布會正式播出,本次發布會上阿里云宣布 CloudOps(云上自動化運維)套件全新升級,并發布了 CloudOps 云上自動化運維白皮書 2.0 版本。隨著本次產品的升級,阿里云推出了配套的智能化產品方案,即“ECS 成熟度評估與洞察(ECS insight)”,它結合客戶
3、的資源管理需求以及云上相關的產品實踐,從基礎能力、成本管理、自動化、可靠性、彈性和安全性六個維度幫助用戶分析定位潛在的運維風險,并推薦對應解決方案與最佳實踐,全方位幫助企業用戶降本增效,提升業務連續性。阿里云彈性計算資深技術專家徐海弘在本次直播中帶來了題為 云上自動化運維成熟度模型分享的演講,以下是他的演講內容整理:彈性計算團隊一直期望通過持續的體驗優化,以及相關工具的建設,提升客戶在云上的運維效率。在過去的一年里,我們通過客戶的拜訪,結合云上的一些交付實踐,整理了包括自動化運維在內的白皮書以及建設了相關的工具。重磅發布:云上自動化運維(CloudOps)白皮書 2.06彈性計算團隊在 202
4、1 年 12 月,開始引入 CloudOps 云上自動化運維。大家已經意識到,當線下轉為線上,資源使用方式和客戶關注點也都會發生變化。DevOps in Cloud 并不完全等于把線下 CloudOps 實踐原封不動搬到云上。所以在 2021 年 Puppet 的報告里提到,通過各種調查反饋來看,65%處于發展中期的企業聲稱,他們已經開始使用云上資源。但從調查結果來看,只有 20%的企業充分利用到云自身的一些特性或優勢開展業務。在 1.0 中,我們主要基于云上的資源交付運維等各方面的差異性,從降低成本,提升交付速度,提高自動化程度,提升靈活性,增強系統可靠性,以及提高業務安全性幾個視角的提出一
5、些最佳實踐和對應工具。重磅發布:云上自動化運維(CloudOps)白皮書 2.07在過去一段時間里,ops 生態和趨勢也在發生變化。很多早期已經存在的內容,因為各種原因被大家再度關注。這里涉及到 ops 不同維度的增強版,它們側重點各不相同。有些在垂直業務域的應用,有些強調運維實踐執行的方案。其中,FinOps 是 Finance+DevOps 的組合,側重于提升云上資源的使用率和性能,要求業務、財務與工程師團隊緊密協同,通過數據的方式提升成本的可視化能力,進而優化成本。根據 Flexera 2022 年的評估,云上每年大概 32%的成本支出是因為資源閑置或使用率低被浪費。在過去 12 個月,
6、FinOps 參與團隊的規模增長了 75%。因為最近幾年人工智能和機器學習的突破發展,AIOps 被大家重新提起。如何把相關技術應用到各種運維場景,實現降本增效。從相關的評估報告可以看到,全球 AIOps 市場規模在 2025 年預計會到達 112.5 億美元。除此之外,DevSecOps 是 Security+DevOps 的組合,它是一種將安全作為貫穿整個 IT 生命周期的共同責任實踐方法。重磅發布:云上自動化運維(CloudOps)白皮書 2.08最后,在機器學習領域 MLOps 將 DevOps 的方法論和工具在 ML 領域的應用。根據 MarketsandMarkets 的報告,全球
7、 MLOps 市場規模在 2025 年預計會到達 4.9 億美元。DevSecOps 的概念最早于 2012 年被 IT 安全領域的專家以及從業者提出之后,在后續的時間內,包括 Gartner 以及 RSAC 會議都在逐步強化相關概念和實踐,尤其是安全左移等概念的提出,強調安全應該貫徹在 DevOps 整個生命周期。當前,將風險管理、合規治理等多重因素融入 DevSecOps 框架成為業界趨勢之一。不管是什么類型的 Ops,最終都要圍繞資源展開。資源包含基礎設施,應用團隊,數據業務流程等等,其中典型的參與方有云集成商。在云上,云平臺是集成商這個角色里面最重要的成員。當然其他不同的角色,有最傳統
8、的開發,運維人員,運營人員等。還有一些業務領域的專家,有財務的,還有安全的。從云平臺的視角,我們首要做的是提升基礎產品使用體驗以及能力豐富度,這是CloudOps 之本。它可以從根源上避免問題,比如以 ECS 產品,過去一年內我們從工單的視角去展開,逐步分析客戶的問題,并從產品自身去解決它。從 3 月重磅發布:云上自動化運維(CloudOps)白皮書 2.09份結果看工單的數量同比有相當的下降,取得非常不錯的結果,側面也驗證了產品自身的體驗是 CloudOps 最基礎的部分。除此之外,云平臺屏蔽了資源的一些特性,所以云上的一些 Ops 實踐發生了對應的變化。因此需要綜合客戶的資源運維訴求以及云
9、上資源使用的方式,通過多樣化的產品能力構建云上 Ops 的最佳實踐,這是另外一部分需要持續建設的地飯。最后從業務的角色去看,我們一直認為包括開發/運維等角色在內的業務團隊是CloudOps 重要參與方,但他們也是 CloudOps 最佳實踐的最大貢獻者。很多用戶具備非常豐富的資源管理實踐。在過去一段時間里面,我們的產品團隊以及研發團隊拜訪了不少客戶,了解他們的場景以及現有的工作方式,用于指導我們后續的工作。綜合上面的信息,資源管理實踐分為三部分,發現問題,解決問題,以及預防問題。其中,在發現問題里,我們需要思考,如何設立最佳實踐的規范和基于數據的診斷能力?其中,最關鍵是設立一個最佳實踐規范。其
10、次圍繞規范的數據化的診斷能力可以幫助大家發現問題。因為有了規范和診斷能力后,才可以解決問題和預防問題。從而引導出,接下來要介紹的白皮書以及洞察工具。重磅發布:云上自動化運維(CloudOps)白皮書 2.010我們通過觀察業界的趨勢變化,持續與客戶溝通、拜訪了解客戶使用的應用場景,以及自身產品的能力建設。我們把這些信息進行整理之后,推出了 CloudOps白皮書。這里有兩點需要強調的是,第一,關于成熟度模型。我們把用戶使用云把它分成幾個等級。初級時,企業剛開始使用資源,開始關注云上使用的自動化、彈性、安全、合規等特性。在實踐中,開始有意識的接觸和使用產品。企業更多以默認配置的方式,簡單開啟相關
11、功能。隨著后期逐步的深入,它會慢慢到中級、高級、標準化,智能化等不同階段。第二點在分類方面,通過對 CloudOps 的各個領域進行拆分,我們引入了自動化能力。自動化能力指我們如何運用工具和系統,減少甚至完全取代人工操作。從而更好的提升相關的運維效率。除此之外,典型分類有彈性能力、可靠性能力、安全合規能力、成本和資源量化管理能力等等。上圖展示了阿里云彈性計算 CloudOps 的產品全貌,大家看到在最下層是 IaaS的基礎能力。在這個層面,如我們前面提到的,是整個 CloudOps 之本,彈性計算也一直在致力這些基礎能力的提升以及體驗的改進。重磅發布:云上自動化運維(CloudOps)白皮書
12、2.011在基礎產品的上層,就是 CloudOps 的產品矩陣。如我們上面在 CloudOps 白皮書里面提到的,我們分成了五個維度,即成本管理、自動化服務、可靠性服務、彈性服務、安全合規服務。在大家最熟悉的彈性服務里,以最典型的彈性伸縮工具為例,客戶可以根據業務負載,自動對資源進行擴容或縮容的工作。在彈性資源保障里,我們針對不同場景,提供了資源使用方式,客戶可以通過閱讀實例,預留容量包、容量預定的方式管理資源。ECS 使用成熟度評估與洞察模型,是在控制臺上的一個開放工具。它是我們在白皮書里面提到的,各種最佳實踐以及相關規范標準的實現。如上圖所示,在第一部分,大家可以看到工具可以針對當前登陸用
13、戶的資源使用情況,診斷出不同維度當前成熟度的情況,比如自動化能力,基礎能力、洞察彈性能力、安全能力等方面的使用情況。在第二部分,可以看到不同維度評分的情況,包括得分項以及失分項。比如在穩重磅發布:云上自動化運維(CloudOps)白皮書 2.012定性維度,目前一共有十個評估項。用戶當前可能有七個得分項,三個失分項。在這三個失分項里,我們也會做一些細化,給出一些對應的實踐方案,便于依據做提升和優化。如果系統發現用戶最近七天,沒有使用快照對數據進行備份,針對這個問題用戶可以進行一些優化。當然,CloudOps 是一個持續的過程,不論是白皮書還是洞察工具,它是對過去我們和客戶一起合作整理出來的一些
14、最佳實踐的總結,在后續我們也會融入更多新的內容,感謝大家。點擊鏈接回看精彩直播,點擊鏈接/掃碼還可閱讀/下載CloudOps 云上自動化運維白皮書 2.0阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享13阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享摘要:2022 年 3 月 22 日,【全新升級 阿里云 ECS CloudOps 2.0 來啦!】發布會正式播出,本次發布會上阿里云宣布 CloudOps(云上自動化運維)套件全新升級,并發布了 CloudOps 云上自動化運維白皮書 2.0 版本。隨著本次產品的升級,阿里云推出了配套的智能化產品方案,即“EC
15、S 成熟度評估與洞察(ECS insight)”,它基于用戶的 ECS 多維度的使用數據,從基礎能力、成本管理、自動化、可靠性、彈性和安全性六個維度幫助用戶分析定位潛在的運維風險,并推薦對應解決方案與最佳實踐,全方位幫助企業用戶降本增效,提升業務連續性。阿里云彈性計算高級產品專家馬小婷在本次直播中帶來了題為新品介紹:ECS使用成熟度評估與洞察(ECS Insight)的演講,以下是她的演講內容整理:阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享14ECS 使用成熟度評估與洞察,簡稱 ECS Insight。顧名思義,ECS 使用成熟度評估與洞察是對用戶使用 ECS 的情況,進
16、行分析和評估,然后給出評估后的優化建議。這個產品是一個數據驅動產品,它的目的是幫助 ECS 用戶能夠持續挖掘 ECS 上的業務風險,結合企業云上運維的最佳實踐,進行持續優化,最終實現云上業務的穩定永續。由于 ECS 使用成熟度評估與洞察的名稱比較長,所以后面我們統一簡稱為“ECS Insight”。在Cloud白皮書2.0中,我們對CloudOps的定義給出了明確說明,即CloudOps=DevOps x Cloud。因為我們發現 95%的企業已經開始使用 DevOps 進行軟件開發和交付,但只有不到 20%的企業,真正發揮了云本身的特性和優勢,去提升 DevOps 實踐的效率。比如云天然具備
17、高彈性的特性,以及標準化的自服務能力。與此同時,隨著 FinOps、DevSecOps 等概念的盛行,業務的安全性和成本也是DevOps 落地過程中不可忽略的重要部分。在這些背景下,我們提出了 CloudOps 的概念以及它包含的五個維度,即成本洞阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享15察(Cost)、自動化能力(Automation)、可靠性能力(Reliability)、彈性能力(Elasticity)和安全性能力(Security),五個維度簡稱為 CARES。這也意味著,如果用戶在使用 DevOps 縮短開發周期、提升業務效率的同時,同時希望讓業務保持穩定、
18、安全、可靠,且低成本的持續運營,我們就可以從這五個方面入手,進行持續的完善。這與我們希望用戶能夠提升 CloudOps 成熟度的出發點不謀而合。一、CloudOps vs ECS接下來,讓我們看一看 CloudOps 和 ECS Insight 之間的關系。上圖展示了三部分的內容。最底層是 IaaS 層的基礎能力,它包含平臺側的基礎能力,比如各種計算形態、鏡像等服務和用戶側的原子能力,包括資源分組管理,以及 Guest OS 的個性化配置管理。這些是所有 IaaS 服務必須提供的能力。在中間部分,是阿里云提供的 CloudOps 的產品能力。對于 CloudOps 定義的阿里云馬小婷:ECS
19、使用成熟度評估與洞察(Insight)分享16CARES 五個維度,在每個垂直領域,阿里云都提供了對應的自動化和自服務工具,幫助用戶不斷提升該垂直領域的成熟度。每個維度的成熟度越高,意味著業務在該領域做的更好,整體業務更穩定、更可靠、更高效、更安全,性價比更高。比如在成本管理維度,阿里云目前提供了非常豐富的資源付費方式,包括包年、包月、按量預留實例、節省計劃等等,用來應對不同場景的需求。對于長期穩定的業務,我們推薦用戶采用包年/包月的方式進行購買,這樣能夠享受長周期優惠。對于臨時測試的需求,我們推薦用戶采用按量購買的方式。雖然按量每個小時的單價略高,但它非常靈活,可以隨時釋放。如果業務存在不同
20、時段的臨時需求,且整個業務需求量不小的情況下,我們推薦用戶購買節省計劃進行抵扣。這樣既能享受到隨時需要隨時創建或釋放資源的靈活性,還能夠通過節省計劃按小時進行抵扣,降低整體的使用成本。既然有這么豐富的付費方式,在不同階段我們應該選擇什么樣的付費方式進行組合,既能夠滿足不同業務場景的業務負載需求,還能降低整體的使用成本,持續保持超高性價比的優勢?這需要用戶持續分析和運營。那究竟該怎么運營呢?基于這些問題,我們就推出了 CloudOps 的落地實踐,即 ECS 的使用成熟度評估與洞察。它基于用戶在 CloudOps 定義 CARES 五個維度的使用數據,對該維度的使用情況進行分析,然后提出對應的優
21、化建議,幫助用戶持續完善該維度的不足之處,保障業務高效可用、穩定有序。整體來說,ECS Insight 是 CloudOps 定義的落地指南。阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享17二、ECS Insight 詳細介紹接下來,我將詳細介紹一下 ECS Insight 這個產品。首先,簡單了解一下 ECSInsight 的工作原理。ECS Insight 是對用戶賬號下的所有 ECS 以及關聯資源的使用情況進行分析,包括 ECS 的分布情況,快照的使用情況,ECS、云盤、帶寬、各個維度的使用率數據、以及 ECS 的費用分布等等。通過結合阿里云服務上萬家企業沉淀的云上運
22、維最佳實踐經驗,我們最終會給用戶產出兩個結果。一是當前用戶在 CloudOps 多個維度的成熟度現狀。每個維度以百分制進行統計,采用扣分制,如果某項沒有滿足云上推薦的最佳實踐,則扣除對應的分數。用戶可以查看每個維度的評分項,對應的分值以及是否得分。這個評估結果的更新頻次是 T+1 天。這些用戶數據的分析來源,其實是非常豐富的。它不僅包含 ECS 的操作日志、云監控,還包含用戶去的資源管控行為等等。覆蓋了用戶使用 ECS 的所有關鍵阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享18指標。在 ECS 中,除了 CloudOps 定義的 CARES 五個維度以外,我們還增加了一個
23、ECS基礎能力維度。因為我們發現,對于云上 ECS 規模達到一定程度的企業用戶而言,ECS 對應的規格、可用區、地域分布、以及資源使用率都會影響到整個業務的連續性。所以我們增加了這一部分內容,作為 ECS 的補充。二是,對于沒有得分項,ECS Insight 會明確標識出存在風險的資源,并提供對應優化的最佳實踐指南。這些最佳實踐自于各個行業,中大型企業的經驗沉淀,是大家多年摸索和成長的積累,非常具有參考意義。了解完 ECS 的工作原理之后,我們可以快速看一下 ECS 的產品頁面。目前,這個產品還處于測試階段。用戶通過申請后,就可以在 ECS 控制臺,看到自己當前賬號下,ECS 成熟度評估的報告
24、。這個報告可以分成三部分,如上圖所示。第一部分是左側以雷達圖展示 ECS 使用成熟度評估現狀的全貌,從 ECS 的基礎能力和 CloudOps 的六個維度,對用戶當前使用 ECS 的情況進行全面評分,您阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享19可以看到總得分以及每個維度的分值。第二部分是頁面上方展示的每個維度的得分詳情以及該維度總得分,包括該維度一共包含了多少個評分項,多少項得分,多少項沒得分。雖然最終分值和成熟度的匹配,不完全相關,比如 80 分以上表示高級,79 分是中級,但是,分數越高意味著業務在該維度存在的風險較少。目前,每個維度的評分項并不完善,分值分配仍有
25、完善空間。我們后續將持續進行優化,歡迎大家提供反饋建議。第三部分是頁面下方的評分項詳情。用戶可以經??吹梅猪椈蚴Х猪?。針對每個失分項,我們提供了失分的原因說明,以及如何進行優化的建議指南。對于非常具體的評分項,我們還會列舉具有風險的資源詳細信息,包括資源 ID、可用區、IP 信息等等,從而方便用戶快速定位出現問題的資源,并及時采取行動。接下來,讓我們看一下 ECS 每個維度的產品能力,幫助大家對每個維度成熟度的提升方式有更直接的體驗。首先,看一下 ECS 的基礎能力。雖然 CloudOps 成熟度中,并沒有包含 ECS 的基礎能力,但它與公有云本身的特性密切相關,會直接影響到云上業務的連續性。
26、所以我們增加了這個維度。阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享20大家都知道,公有云上的云服務器都是分為規格族和規格,比如通用型實例、計算型實例、內存型實例。隨著芯片、硬件、服務器的演進,實例規格族還在不斷的增加。阿里云目前提供的實例規格,已經超過了 300 種。上圖展示了,阿里云提供的不同場景的最新實例規格族,這個圖幾乎每年都會全部更新一輪。對于一些比較老的實例規格,比如經典網絡的實例,它不僅性價比低,而且不支持部分新功能的特性,面臨較多的限制。所以我們推薦用戶需要跟隨著實例規格的演進,持續的更新底層資源的規格,不僅能夠提升性價比,還能夠保障業務的穩定性,一舉兩得。
27、此外,隨著資源規模的增加,資源使用者的數量也會逐漸變多。不同用戶對于不同資源的使用權限不一樣。當資源規模達到一定程度后,如果我們不根據業務單元對資源進行分組和分權管理,不僅會面臨資源查找慢的問題,還會因為部分用戶權限過大,導致誤操作等一系列嚴重后果。面對這些痛點,ECS 的基礎能力從計算、存儲、網絡和賬號管理四個維度,評估ECS 以及關聯資源的分布情況、使用情況是否合理,及時發現并識別業務在性能高、可用等維度存在的一些潛在風險,并提供對應的優化建議,為云上業務的持續運營,提供指導方針??傮w來說,ECS 基礎能力的成熟度評估是,識別云上資源管理最基本的分布,使用情況是否合理,從而避免單個資源的常
28、規性風險。第二部分是成本洞察能力。阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享21前面提到的 ECS 實例不僅規格繁多,還提供了非常豐富的付費方式。包括包年、包月、按量、搶占式實例、預留實例、節省計劃等等。上張展示了不同付費方式,適合的業務場景。如何根據業務的形態,選擇性價比最高的付費方式?這非??简灤蠹业乃銛的芰?。同時,如果企業里存在多個不同的團隊,出現一起使用云資源的場景。如果我們不對資源的使用方或團隊進行準確的核算和分攤,會導致大量的資源浪費。最終,導致企業的云上支出遠遠超出預期。這與企業想推進 FinOps 的初衷,背道而馳。如果我們采用一刀切的方式進行成本控制,勢
29、必會影響部分業務的正常發展。如何根據資源的實際使用情況,進行準確識別,并且針對性的進行優化,最終實現成本優化與業務發展兩不誤是非常重要的。面對這些問題,成本洞察能力從三個方面提供了分析和推薦。首先,我們需要幫助用戶識別一些閑置或低使用率的資源。推薦用戶使用云上靈活的變配、停機、不計費等自服務能力,避免一些顯而易見的鋪張浪費。其次,我們推薦用戶使用類似于預留實例券、節省計劃等權益類產品。對一些臨阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享22時的按量資源進行抵扣,最終降低這一部分的使用成本。最后,我們推薦用戶借助標簽、財務單元、預算管理等工具,進行端到端的成本管理分析,持續優
30、化成本支出,最終實現 FinOps 的落地。整體來說,成本洞察能力的成熟度評估是,指導用戶更好地利用云上靈活的付費方式和成本管理工具。在避免不必要的成本浪費的基礎上,端到端的進行成本的管理。第三部分,是自動化能力。不少人對于 DevOps 一直有一個誤解,認為 DevOps 就是自動化。其實自動化只是實踐的一種手段,而且是一個非常重要的手段。為什么自動化如此重要呢?因為受限于技術能力或業務發展階段的限制,不少企業的自動化能力目前都嚴重不足。不少企業靠人海戰術支撐,不僅響應周期長,而且容易出現失誤。同時,我們也觀察到部分用戶能通過腳本完成一些基礎的運維工作。但這部分腳本大多數是個人獨自維護,很難
31、復用或形成規范。上圖展示了,目前在自動化領域的演進方向和現狀。阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享23歐美企業在 IT 管理上的自動化的程度更高,主要是因為歐美企業的人工成本高。國內企業的自動化處于偏下水平,大量用戶依賴 UI 控制臺、終端工具或腳本進行自動化。面對這些問題,自動化能力的成熟度評估從三個層面上提供了分析和推薦。最基礎的是,通過控制臺或 open API 的方式,完成基礎的資源管控操作。這個能力大多數的用戶都能做到。中級水平意味著用戶能夠借助自動化工具,完成 DevOps 中的基礎設施及其代碼、或運維及其代碼的自動化管理,提升類似于 CICD 等高頻管
32、理場景的效率。在阿里云上,用戶可以借助類似資源編排、云助手運維編排等工具,完成應用的發布和部署。它涉及資源交付申請、應用打包分發、以及應用灰度發布等多個環節。如果每個環節都能自動化,可以將整個應用的發布周期從以前的 35 天,縮短到一個小時。如果需要達到更高級的水平,需要用戶組合使用多種自動化的服務和工具。并且形成標準化的運維流程和統一的配置管理平臺,最終實現標準化和統一化的運維。整體來說,自動化能力的成熟度反映了當前用戶在 ECS 管理運維上的自動化的水平。同時也為用戶提升自動化水平,提供了對應的路徑和工具。用戶借助這些自動化工具的使用,能夠更高效地解決日常運維的痛點。第四部分是可靠性能力。
33、阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享24講到可靠性,大家首先想到的是底層基礎設施的穩定性,比如 SLA。但是這里存在一個大家都忽略的問題,即底層基礎設施的穩定性,只要不是 100%,意味著不完全可靠。如果我們將業務的可用性寄希望于單個實例的穩定性是非常不可取的。如果從根源解決問題,應該加強應用構建,使它具備高可用的特性。同時,在同一個企業里,不同的業務團隊對穩定性的訴求不一樣。比如一些離線業務的大數據計算集群,可能會要求晚上 12 點7 點之間業務是不能中斷的。對于一些在線服務業務而言,它的高峰期可能是早上 9 點到晚上 10 點。在不影響業務可用性的情況下,多個部
34、門對底層變更響應的協同成本實非常高。一旦出問題需要一些自動化的輔助工具,幫助工作人員快速排查和定位。上圖展示了 ECS 可靠性的能力支撐,ECS 的可靠性主要來自兩部分。第一部分是,底層基礎設施的穩定性。第二部分是,ECS 內的穩定性?;A設施的穩定性取決于公有云的地域、可用區的分布、以及單個物理服務器的穩定性。所以要實現初級的可靠性,我們需要將業務盡可能的分散在不同的物理機、不同的可用區進行部署,從而避免大規模故障的風險。對于 ECS 內的穩定性,則需要借助高可用架構的保障。我們需要周期性的進行數據備份,需要實時監控實例的性能波動。當實例的性能出現異動時,我們需要阿里云馬小婷:ECS 使用成
35、熟度評估與洞察(Insight)分享25快速的自動完成業務切換,提升業務本身和數據高可用的能力。高級的可靠性則離不開更多維度的實時監控,故障演練、故障注入等工具的支持。這是一個更偏系統工程的建設,工具和能力只是輔助手段,更重要的是多個不同團隊的協同。整體來說,在可靠性的成熟度上,ECS Insight 從實例的穩定性、數據的可靠性、性能的可靠性、以及可觀測性四個維度進行評估。我們推薦用戶先要做到初級和中級的可靠性。目前這四個維度的衡量,基本上可以幫助用戶做到初級、中級和部分高級的可靠性。至于更高級的可靠性,則需要配合持續的演練才能達到。第五部分是彈性能力。彈性能力是云最基礎的優勢之一,按需取用
36、按量付費是彈性的本質,也是云的重要特性之一。相比于線下 IDC,對于臨時大規模的彈性需求,不僅交付周期長,還有可能因為預估不準,導致資源準備不足,最終影響業務效果。對于存在峰谷波動的業務而言,如果提前擴容,會存在資源超配的情況,不僅前期投入高,而且存在大量的資源浪費。如果進行人工擴容,則存在反應慢,可能阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享26因為擴容不及時,導致業務受損,最終影響用戶體驗。所以如何利用云上靈活的彈性能力,在滿足業務需求的同時,避免資源和成本的浪費是至關重要的。ECS Insight 的彈性能力從以下三個維度,為我們提供了指導。最初級的方式是,通過控制
37、臺或 Open API 批量購買或釋放按量的 ECS 實例。這樣就能夠通過半人工的方式,滿足臨時的彈性需求。對于明確的彈性需求,ECS建議使用彈性伸縮,實現資源跟隨業務的波動,自動進行水平擴縮容。在提升業務高可用的同時,降低使用成本。在這個基礎上,如果用戶有更復雜的業務需求。我們可以借助彈性伸縮的生命周期,掛鉤彈性強度評估以及實例規格范式的方式,提升業務的彈性、靈活性和韌性,最終實現全自動的、自適應的彈性資源管理,保障在線業務的連續性。彈性能力是用戶判斷使用是否合適的,最直接的體現之一。彈性能力的成熟度評估,則反映了用戶對云的使用深度。用好了彈性,在某種程度上可以說用戶也就用好了云的一半。最后
38、一部分是安全性能力。阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享27安全問題是一個很難證明,也很難證偽的問題。安全防護不容易直接看到效果,不少企業都存在僥幸心理。一旦安全防護沒有做到位,后果也非常嚴重,輕則業務臨時不可用,重則核心數據丟失,損失巨大?;谶@個事實,我們觀察到不少企業客戶的安全意識嚴重不足。包括對關鍵業務的關鍵數據缺少防護意識,導致實例被攻擊后,重要的數據被刪除,無法找回。云上安全能力的構建是一個責任共擔模式,它需要云廠商和用戶一起進行構建。云廠商負責對底層基礎設施的安全性進行保障,包括云服務器鏡像、支撐云服務器、鏡像底層的軟硬件服務。除此之外,還包括各個地域
39、和可用區的服務器、網絡設備、存儲設備等安全性,以及虛擬化系統的安全性。用戶則需要對語音服務器 ECS 上的操作系統、操作系統里的應用數據、以及應用業務架構的安全性負責。包括環境變量配置,軟件應用,數據安全,安全合規等等。如果用戶自身不做任何安全防護和措施,完全依賴底層基礎設施的安全性,相當于在裸奔。除了安全意識不足,用戶在安全實踐的落地層面,也面臨門檻高的問題,包括明確制定安全規范,及時掃描并發現不符合安全規范的安全問題等等。在這個維度上,ECS Insight 從訪問安全、數據安全和應用安全三個維度為用戶提供了明確的提升路徑。訪問安全關注的是,資源的訪問權限和訪問審計的問題,包括設置更安全的
40、實例登錄方式,為實例訪問提供登錄審計、防止未授權的訪問等等。數據安全是不少用戶面臨的問題,與線下機房不同的是,云上數據一旦被刪除是無法找回的。因此,養成定期備份重要數據或對高敏數據進行加密,能夠大大提升數據的安全性。應用安全性則是業務持續運行的終極目標,應用安全的保障在訪問安全、數據安全的基礎上,需要持續的完善應用本身的代碼的安全性。以及通過類似 WAF、阿里云馬小婷:ECS 使用成熟度評估與洞察(Insight)分享28DDOS 等安全防護能力進行保障。整體來說,安全無小事,業務的安全性需要云廠商和用戶共同創建。在體系化的構建業務安全時,我們需要從訪問安全、數據安全和應用安全等多個維度進行綜
41、合考慮。三、總結與展望綜上所述,ECS Insight 產品和 CloudOps 一脈相承。它從 CloudOps 定義的CARES 五個維度,對用戶使用 ECS 的情況進行全面的分析和評估。結合云廠商的最佳實踐,識別各個維度中存在的可優化點,并提供對應的建議來幫助用戶進行持續優化。目前,每個緯度下的能力評估和準確度不夠完美。因此在新一年里,ECS Insight會持續在兩個方向進行優化。一方面,我們會持續優化并提升 CloudOps CARES五大維度評分的準確度,讓每個維度的評分能更準確的反映用戶的實際情況。這個能力的完善離不開采集更多的 ECS 指標和使用數據,離不開用戶對阿里云的阿里云
42、馬小婷:ECS 使用成熟度評估與洞察(Insight)分享29信任和支持。另一方面,我們將持續完善 CloudOps 的自服務能力,為用戶在云上進行DevOps 的實踐提供更全面、更智能、更自動化的能力支撐,幫助用戶充分利用于本身的優勢,助力其業務高質量的交付和安全穩定的運行。阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享30阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享摘要:2022 年 3 月 22 日,【全新升級 阿里云 ECS CloudOps 2.0 來啦!】發布會正式播出,本次發布會上阿里云宣布 CloudOps(云上自動化運維)套件全新
43、升級,并發布了 CloudOps 云上自動化運維白皮書 2.0 版本。隨著本次產品的升級,阿里云推出了配套的智能化產品方案,即“ECS 成熟度評估與洞察(ECS insight)”,它基于用戶的 ECS 多維度的使用數據,從基礎能力、成本管理、自動化、可靠性、彈性和安全性六個維度幫助用戶分析定位潛在的運維風險,并推薦對應解決方案與最佳實踐,全方位幫助企業用戶降本增效,提升業務連續性。阿里云彈性計算高級產品專家賈少天在本次直播中帶來了題為ECS CloudOps新能力與最佳實踐的演講,以下是他的演講內容整理:阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享31Cloudops
44、 是從自動化、彈性、成本、安全、穩定 5 個維度來提供能力幫助用戶更好的解決日常遇到的各種問題。而這 5 個維度是期望通過各種各樣的能力在用云的不同階段來幫助用戶,主要著力于從用云規劃、架構設計到遷移上云、再到云上使用資源,最后對資源進行運維管理幾個階段讓用戶更高效、更精細、更智能、更開放的使用阿里云產品解決 devops 需求。下面我就從新功能中選擇幾個為大家進行更進一步的介紹。首先在規劃設計階段,第一個需要考慮的是成本問題。從成本優化角度來看,怎么做好成本管理是一個復雜且需要持續投入的過程。從第一步資源付費類型的選擇開始就需要全面的考慮,了解多種付費類型的特點,選擇適合自己的一種或者多種付
45、費類型來滿足業務和成本雙方面的需求,同時我們推薦的最佳實踐是如圖,通過搶占式+按量+預付費或 saving Plan 購買的按量實例多種實例規格的組合來實現成本最優的效果,兼顧了穩定和彈性的多重效果。然后是如何選擇合適的實例規格,用戶需要根據自己的場景選擇最符合性能及成本要求的實例規格,阿里云最近推出了倚天 710 實例,在計算密集型計算場景阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享32性能更加穩定,進一步擴充了更多的選擇。下一步在持續使用資源的過程中,用戶需要根據自身業務不同階段的情況來判斷資源負載的合理性,然后通過垂直伸縮(比如升配降配等方式),水平擴縮容、對資源
46、進行階段性停機降低成本等方式來進一步優化成本。最后,也是最重要的一步就是持續關注成本的變化,通過阿里云提供的企業級財務能力來深入了解費用情況及合理性,然后通過循環的方式回到第一步持續優化之前的選擇,只有把成本視角融入到日常流程中才能達成持續提升成本優化效果的目標。同時,在規劃設計階段,對于云上資源使用的高可用設計也需要有明確的設計,根據用戶自身業務短期和長期的發展情況,選擇合適的高可用設計思路來滿足業務的發展需要。從最基本通過部署集功能實現物理機級別的高可用,到通過彈性產品或自主編程的方式,實現多可用區級別的高可用,再到最復雜、成本相對最高且效果最好的多地域高可用,多種方式可以讓不同場景的用戶
47、在設計階段就打下了高可用的基礎。阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享33當經歷了規劃設計階段之后,如果用戶有線下資源或者其他云廠商資源需要遷移到阿里云,阿里云也提供了“服務器遷移中心”產品,幫助用戶把其他地方的服務器高效的遷移到阿里云。而且在原有的服務器遷移的基礎上進一步發布了 4 種全新的遷移能力,如支持停止維護的 CentOS 實例平滑遷移到 Alibaba cloud linux 及龍蜥系統等長期維護的系統,支持突破實例規劃分布情況限制和可用區限制的跨可用區遷移 ECS、支持從 VMware 通過 agentless 也就是無代理的方式免費遷移到阿里云以及
48、從線下的筆記本、PC 等快速遷移到阿里云無影云桌面的遷移能力,擴展了更多的遷移場景來滿足不同用戶的需求場景。完成了遷移的工作,下一步我們看下幫助用戶高效使用 ECS 資源的彈性伸縮又推出了哪些更精細更智能的功能。第一,當用戶面對上千種實例規格的時候,怎么更快的選擇實例越來越成為一個難題,彈性伸縮基于此推出了基于規格屬性的智能選型,通過定義 vCPU 核數、內存大小、規格族等屬性,彈性伸縮就能自動幫助用戶圈定一批實例規格來完成彈性場景的需求。阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享34第二,發布 15 秒的監控指標和多指標聯合的報警能力讓通過負載變化的觸發速度更快更精
49、準。第三,原有的 ECS 彈性伸縮的基礎上發布了 ECI 彈性伸縮,讓想使用容器的用戶不用 maintain k8s 集群,最簡單的使用上 ECI 這個兼容容器生態的實例類型。第四,持續優化迭代的預測型伸縮組,讓機器學習幫助用戶做擴縮容的決策。它可以通過過去兩天用戶使用 ECS 資源的負載和實例數量的變化,預測未來 114天的實例資源的使用情況。希望這些功能在各個點上能幫助用戶更多的使用云的彈性。另外還有資源使用階段可以幫助提升安全系數,降低風險的安全功能大家也可以了解下,比如阿里云提供了加密計算環境、系統盤的原聲加密能力、非 root 賬號登陸、鏡像原聲加密能力、加密快照等,幫助對安全合規有
50、更高要求的用戶快速的提升安全系數。阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享35再下一個階段就是對資源的運維管理階段了,這里我會著重為大家帶來 4 款新的能力,提升資源運維階段的效率,降低日常運維工作的門檻。第一個是標簽服務提供的創建者標簽功能。用戶只需要在控制臺對功能進行開啟,阿里云的標簽服務就會完全自動的幫助用戶對賬號下創建的資源打上創建者標簽,比如一些資源是由子賬號創建的,則這些資源就會自動打上有子賬號信息的標簽,由主賬號創建的則打上有主賬號信息的標簽。如果是由各個云產品通過用戶授權的方式幫用戶創建的資源,則會打上對應云服務的標簽,讓用戶僅通過一步操作就能從賬號
51、角度對資源進行全面的分類,特別是一個公司內多個團隊通過多個子賬號來創建資源的情況下,方便用戶更清晰的識別出來資源的來源和歸屬,從而進一步通過這個標簽的分組來進行分賬、運維等更多操作。阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享36第二個為大家帶來的運維管理新功能是云助手產品提供的“會話管理功能”,用于優化日常需要登陸到 ECS 機器上進行運維操作的場景。往常用戶如果實現 ECS 資源登陸能力,要么需要設置外網 IP,要么需要購置跳板機來提升安全性,然后通過跳板機進行登記,而且繼續是成功登陸,后續的所有操作都無法進行方便的審計。云助手推出的會話管理功能就是為了解決這些痛點
52、。會話管理推出了免公網、免跳板機、免密碼的快速登錄方式,用戶只需要在控制臺一鍵開啟就能使用,而且所有在資源上的操作都能保存下來進行審計,做到簡化操作的同時具有審計安全的能力。阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享37第三個是我們新推出的阿里云客戶端產品。很多用戶反饋日常管理資源沒有一個相對集中的入口,每次通過傳統的 ssh 進行遠程連接的時候,都需要先獲取 ECS 網絡信息之后再在 ssh 工具中進行操作,而重啟等操作又要去別的地方才能完成。阿里云客戶端是一個集合了 ssh+阿里云資源管理+簡單易用+多賬號管理的軟件,可以下載到本地之后輕松完成對于資源的高效運維,
53、里面也包含了前面提到的支持免密登錄的會話管理功能,真正做到讓每天的運維工作事半功倍。最后一個運維管理功能介紹是資源編排產品推出的 Terraform 托管功能。目前有很多的用戶都是用 Terraform 來管理和使用云資源,資源編排產品在原生 Terraform 的基礎上除了提供幫助用戶執行模版能力外還提供了更多的附加能力,比如通過 Terraform 模版來進行資源詢價和費用計算、進行資源標簽或資源組的傳遞、多賬號多地域一致性部署等能力,讓很多在 Terraform 上無法實現的功能都能在ROS的托管能力上快速實現,幫助用戶更好的使用Terraform能力。阿里云賈少天:阿里云 ECS CloudOps 新能力與最佳實踐分享38以上就是我帶來的從規劃設計、到遷移上云、再到資源使用以及最后的運維管理4 個階段的新功能介紹,感謝大家的觀看。