《阿里云:云治理企業成熟度發展2023年度報告(24頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:云治理企業成熟度發展2023年度報告(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、 前言 在當下用云發展趨勢下,企業管理者越來越需要全局視角來幫助管理云服務在自身企業的有效落地實施。埃森哲聯合阿里云發布的云治理企業成熟度發展:2023 年度報告,結合埃森哲云上咨詢理論知識和實踐經驗,以及阿里云用戶調研、產品體驗反饋、標桿客戶案例,提煉出鮮明的觀點和充分的論證支持,對云治理在市場和企業現狀以及發展趨勢做出前瞻性洞察。本次調研報告數據來源于 326 家企業參與的問卷調研和云產品使用體驗反饋,橫跨金融、互聯網、新零售、跨國企業等多個行業,問卷反饋者主要為運維、架構師、技術人員等對企業在云上資源使用有充分了解、并具有代表的相關人員。在本報告中,我們將在核心結論部分,展示本次調研報告
2、的關鍵發現。之后,報告將幫助讀者理解云治理的概念和企業用云實踐的現狀,并基于云治理框架的五大分類(即穩定性、安全合規、卓越運營、成本效益和高效性能)進行調研數據展開和詳細解讀,包括市場與企業實踐現狀、高低成熟度差異、企業案例等。最后,我們將為讀者展示不同行業企業的治理成熟度的不同趨勢,以及如何基于云治理框架進行云上架構優化,為讀者后續云旅程中的持續治理提供參考借鑒。在本份報告中,根據用戶實際情況的調研和云產品使用深度反饋,我們將調研企業大致分為云治理高成熟度和云治理低成熟度兩類。高成熟度企業在云治理各個領域(穩定性、安全合規、卓越運營、成本效益和性能)的解決方案應用面、和產品功能使用深度上,綜
3、合計算得分更高,相比之下,低成熟度企業在云治理領域內的方案或產品功能實踐均有欠缺,因此綜合計算得分較低。1 https:/ 2 https:/ 第一章 核心結論 到 2024 年,70%的企業會將工作負載轉移至云端1。僅公有云而言,2024 年全球最終用戶在公有云服務上的支出預計將達到接近 6800 億美元2。云計算對企業的價值包括但不限于業務敏捷性或按需使用靈活性,以及更快速進入新業務市場等。云上的創新業務模式,以及以 AI為代表的科技驅動力,同時也要求企業向內進行 IT 治理方式的轉變與升級。根據埃森哲多年客戶服務經驗,多數企業上云后,沒有更新適合自身發展情況的云上 IT 治理實踐方式,因
4、此一定程度上,限制了云計算幫助企業實現全面數字化轉型的潛力、并阻礙了創新業務增長的敏捷性。綜合本次埃森哲聯合阿里云進行的企業客戶調研反饋,以及標桿案例客戶的深度研究,分析總結得出以下結論:1.云治理對企業而言是一個持續過程,并非一勞永逸。在整個云旅程中,無論企業對云計算的使用程度處于哪個階段,都需要進行全面完善的云治理。在針對初上云的企業調研中發現,早期的云治理架構設計和規劃,可以幫助企業搭好云底座的基礎并加固;用云漸深的企業,亟需通過云治理實踐,對當前用云現狀進行分析和復盤,不斷提升企業用云能力和水平。2.通過調研信息收集和數據對比分析,我們發現企業目前的云治理實踐現狀與自身的治理目標之間,
5、存在落差。如云上穩定性、安全和成本,企業將其設為關注的熱點問題,但落地實踐上并未達到期望目標。例如:l 企業將穩定性列為優先級較高的治理領域,但是,約半數企業目前并不具備成熟的穩定性架構設計,在容災、容錯和容量的三要素上缺乏落地實踐。在精細化管理和可觀測實踐上,企業目前并未完全覆蓋從云基礎設施、到應用、再到業務層面的全鏈路監控。故障根因分析和快恢自愈能力上,也僅有 23.9%企業有完善的根因分析機制能快速定位問題。l 企業反饋當下最關注的風險類型為數據安全(71.8%企業列為第一關注),但對于數據安全的核心工作,如數據加密、分類分級和脫敏,仍有一半企業缺乏落地實踐。與 之相比,身份權限安全在企
6、業的關注度偏低(29.8%企業列為第一關注),反而會造成管理疏漏,例如,企業未搭建更高安全度的多賬號統一管控架構,或通過 SSO 單點登錄方式進行賬號運維,容易造成管理混亂、效率低下、且存在隱患。l 近六成企業反饋在今年度有云上降本和效益優化的計劃,但普遍缺乏對云上成本管理和優化的實踐經驗。調研反饋發現,目前仍有近七成企業在基礎的成本分攤環節尚不清晰,成本監測與優化的實踐手段也非常單一。3.企業客戶的云治理現狀隨著成熟度水平的高低不同,呈現出明顯差距。在本份報告中,我們根據用戶實際情況的調研和云產品使用深度反饋,將調研企業大致分為云治理高成熟度和云治理低成熟度兩類。通過數據對比分析,低成熟度企
7、業普遍缺乏治理規劃和落地實踐,而大部分的高成熟度企業在云治理框架下的各個領域,都已完成基礎治理項目實踐,并進入優化提升階段。例如:l 高成熟度企業在自動化能力建設上,普遍比低成熟度企業更為進階。94%的高成熟度企業使用 Open API 進行自動化資源創建,有半數的高成熟度企業自建 CI/CD(持續集成、持續交付、持續部署)平臺或使用開源流水線工具,這些均能夠降低人為風險,提高應用部署和構建的工作效率和準確率。而低成熟度企業僅有 23%使用 API,絕大部分用戶依賴控制臺手動操作。l 低成熟度企業有高達 38%沒有進行過性能測試,缺乏評估系統或組件處理峰值流量的能力,對比高成熟度企業目前 17
8、%沒有相關實踐經驗。3 https:/ 第二章 云治理概覽與發展趨勢 云治理是一個過程,并非一勞永逸 根據行業研判,全球范圍內云基礎設施投入逐年增加的同時,推行先進云戰略(混合云或多云管理、云投資治理等)是企業云采用的大趨勢,國家在政策法規方面對云上安全合規的要求逐年加強,這些都給企業在云上運營管理帶來了不同程度的壓力,尤其成本管控、安全合規、專業技能不足、治理不善等問題日益顯現3。這樣的發展趨勢之下,企業需要通過云治理來完善用云的規范,主動控制與降低風險,提高云投資效益可見度與回報度,才能順應變化,最終幫助企業達成在云基礎設施之上,實現整體運營的可持續發展的綜合目標。那么,如何定義云治理呢?
9、根據埃森哲研究,治理是在診斷執行動作中,找到健康正確的管理路徑并給予指導,目標是找到不依賴于人的管理路徑,為管理打下基石并明確方向。若將企業的運營發展比作道路(如下圖),管理就好比在道路上正確和安全駕駛,而治理則相當于對道路進行安全建設規劃,包括道路方向標識和警示牌等。只有通過治理,才能為企業管理指明正確的方向、明確安全行駛規則、并優化未來暢通行駛的道路。在云旅程中,云管理指通過自助服務門戶提供單個或者多個云的配置和管理資源的能力,側重于實施管理動作;云治理則全面提供了成本、預算、操作、安全性以及多云合規的管理規范與最佳實踐能力,從而構建企業安全合規、可擴展的云采用架構和迭代流程。簡而言之,云
10、治理指幫助企業搭建規范用云策略,保障用云的合理性、安全性、和高效性。根據埃森哲的客戶項目經驗和調研反饋,初上云的企業,如果沒有進行良好的云治理架構規劃,會缺乏對自身企業用云現狀的了解與把握,可能導致資源與成本失控、穩定性隱患、和安全風險敞口等問題。對于已進入用云深水區的企業而言,治理不善帶來的云上資產問題和挑 戰已浮出水面,企業同時也希望可以借助云治理手段,來釋放更多業務發展的空間,從而迎來二次增長的機遇。因此,云治理對于在云旅程任一階段中的企業,都具有重要的發展意義,并非一勞永逸的任務,云治理是企業可持續用云的地基與關鍵要素。全面的云治理,從五大領域展開 根據本次調研數據和埃森哲行業研究,用
11、云企業的痛點主要集中在如何確保應用系統安全穩定、如何優化云成本、如何保障高效運營等。因此,我們總結了以下云治理五大領域方向:云上穩定性:讓業務系統利用現代云平臺的基礎設施達到高可用,做到面向失敗設計,具備一定容災性的能力。同時把控應用系統的變更流程、部署架構、配置規范等,制定企業應用治理規范,設定應用層面的治理標準。安全合規:識別內部、外部的安全要求和監管訴求,在云環境中針對網絡安全、身份安全、主機安全、數據安全等全方位地進行規劃和實施,最大限度的確保數據和工作負載的安全性,滿足區域法律合規等的要求,同時持續對威脅進行檢測和快速響應。卓越運營:高效資源部署管理,實現可持續地運營、監管和管理應用
12、系統,通過關注應用研發態、運行態相關工具與系統的構建和使用,以及日常操作流程定義等,實現云上自動化,指引企業構建自己的運營模型。成本效益:為了平衡業務目標與云上成本支出的實踐行為,包括通過充分高效使用云服務來構建業務應用,盡可能提升云環境和業務需求之問的契合度,通過持續優化來避免資源浪費,減少不必要的云上開支并提升運營效率等。高效性能:根據性能監控指標自動觸發彈性伸縮能力,通過云平臺的資源儲備應對流量高峰,建立完備的可觀測性體系協助定位性能瓶頸。通過性能測試手段建立性能基線,驗證架構設計目標并持續優化。體系化、工程化、整體化去了解云平臺上的工作負載,才能更好理解云治理五個方向的關系:穩定性、安
13、全合規和高效性能這三個領域專注于提高企業基于云平臺原生的治理能力,而成本效益和卓越運營則關注如何更有效地利用云平臺增強運營能力,提供更出色的云運營體驗并實現收益增長。穩定性是一切的基礎,在此基礎之上進行安全合規的加固,通過在安全護欄上進行性能和效率提升,與此同時,需要權衡架構是否能經受住成本瘦身考驗,并將重復性或模版化工作融入到組織業務流中。這兩類不同側重的領域早期需要平衡處理、長期需要協同共進,從而實現強大的云平臺和卓越的云運營能力。第三章 云上穩定性 云上系統穩定性是指系統在運行過程中面對各種非預期事件影響下能夠持續提供可靠服務的能力,是系統建設的重中之重。云上穩定性架構治理,以增強企業系
14、統及應用的穩定性(RTO 恢復時間目標/RPO 恢復點目標),保證業務 7x24 小時可靠運行為核心目標。云計算平臺服務通過動態資源分配降低負載壓力,提供冗余存儲和備份能力,綜合提升系統的可拓展性和可靠性。根據本次調研反饋,61.7%企業擔心由于缺乏數據備份而導致數據丟失;約 50%的企業關注人為變更影響、突峰流量影響、及軟硬件故障問題。企業實踐現狀 1.然而,根據問卷調研數據反饋,約半數企業現狀還不具備成熟的穩定性架構設計,在容災、容錯和容量的穩定性架構設計三要素上缺乏落地實踐。其中治理成熟度較高的企業,87%會進行集群架構、無單點的容災設計;70%會通過壓測獲取集群的峰值容量,根據業務峰值
15、進行擴容;67%會在大促前進行系統容量評估;67%企業會配置重試及超時策略。這些穩定性強化措施的實踐比例顯著高于低成熟度企業,低成熟度企業普遍僅有三成左右的落地率。2.針對核心應用的云資源日常巡檢任務上,云治理高成熟度企業的重視度與完成度均顯著優于低成熟度企業。整體來說,企業對云監控配置和數據備份整體最為關注(如下圖),而 在多可用區架構和開啟刪除保護上,高成熟度比低成熟度企業的領先差距較大。低成熟度企業調研中有高達 12.4%比例(相比高成熟度企業僅 2.2%)日常不關注資源巡檢問題,這樣粗放式的云上運營模式很容易帶來資源與成本失控隱患。3.云治理高成熟度企業在基礎設施和應用層面的可觀測體系
16、建設程度,顯著優于低成熟度企業。尤其是云資源層面(如云主機 CPU 利用率等)可觀測建設上,有高達87%的高成熟度企業有落地實踐。搭建可觀測體系能夠更好地幫助企業監控、分析和管理系統運行狀態。在云原生、微服務等技術流行當下,系統的可觀測性變得越來越復雜,只有從監控指標、鏈路追蹤、日志記錄、監控看板和事件告警等方面來進行綜合設計,才能實現云上全方面的可觀測性體系能力建設。然而在業務行為的可觀測設計與實踐上,需要從基礎設施到應用再到業務的全鏈路追蹤,此方面在訪談調研中發現,多數企業普遍缺乏有效實踐。4.故障根因分析和故障快恢自愈方面,企業整體實踐落地比例較低,調研反饋僅23.9%企業有完整的根因分
17、析機制能快速定位問題。目前,高成熟度企業普遍具備監控告警(74%)和應急處理能力(68%),通過統一的告警平臺、或者分散的監控告警渠道(如云監控、ARMS 應用實時監控服務、或其他自建開源告警工具)實踐落地。監控告警平臺只是故障管理的第一步,當前企業普遍反饋的痛點是,如何在海量的告警信息中區分哪些是跟基礎設施層有關、哪些是跟應用層有關,如何發現關聯問題,從而快速定位真正的故障根因。這就需要企業不斷完善監控體系與響應機制的建設,建立一個高效的應急響應流程機制和可靠的技術平臺,實現故障風險實時發現、應急團隊有效協同、故障快速止損和恢復。企業案例 某知名汽車零部件制造業公司,監控可觀測一直是該企業關
18、注的痛點問題。從基礎設施到應用再到上層的業務缺乏一個體系化的可觀測設計,導致缺乏全局視角。該企業存在多套監控系統,相應也存在多個告警渠道導致告警泛濫,由于監控指標分散在不同監控平臺,因此在故障定位上困難重重,難以第一時間發現核心故障問題。該企業通過加強完善應用、業務監控指標、統一監控大盤,實現全局視角觀測系統健康情況,縮短從發現故障、到根因定位、再到問題解決的故障排查周期。通過這套規范化的可觀測指標和大屏建設,幫助企業及時關注基礎設施、應用以及業務的情況,快速發現問題并推進故障恢復,從而保障業務連續性。同時,還加強云資源層面的配置巡檢規則部署,對于上千款云資源能夠做到每日分鐘級的巡檢,全面、高
19、效識別風險?;谘矙z結果,SRE 人員(Site Reliability Engineering 站點可靠性)可立即完成治理優化,典型規則如:關鍵數據庫實例未 開啟備份、ECS(云服務器)磁盤未開啟快照、核心 ONS(云消息隊列)資源規格過低、核心RDS(云數據庫)資源未開啟刪除保護等。該企業結合事前的風險識別、事中故障發現告警及事后的應急預案,有效地保障系統穩定運行,借助全面監控了解資源利用情況,從而為后續的成本、性能等治理打好基石。第四章 安全合規 如何利用云技術來保護數據、系統和資產,對于企業來說至關重要。對于不同階段企業現狀的洞察發現,隨著云計算的應用逐步加深,企業在安全合規上的關注程
20、度與能力建設力度同步持續加強。云上安全合規的范圍廣闊,本次調研分析中,我們集中針對以下四大重點領域展開:數據安全、基礎設施安全(網絡/主機)、身份和訪問控制、合規審計。企業實踐現狀 1.數據安全是企業目前最關注的風險問題。根據調研數據結果,71.8%的企業選擇數據安全作為第一關注的風險類型;其次是 54%企業關注云上網絡安全風險。相比之下,僅有1/3 企業表示關注主機安全、合規風險、應用安全與身份安全風險,但這些場景均有容易疏漏的安全隱患,企業需加強關注和治理投入以避免潛在風險。2.數據安全作為首當其沖的風險類型,是企業的生命線,云治理成熟度較低的企業中仍有超過一半缺乏落地實踐,在數據分類分級
21、、脫敏和加密的治理工作有所欠缺。建議企業按 照數據分類分級保護制度,來確定業務或行業的重要數據具體目錄,進而對列入目錄的數據進行重點保護,制定云上數據分級保護架構,同時還能夠靈活的根據企業數據保護的管理要求去調整相關的安全控制措施。3.企業對于網絡安全的重視度和完成度均較高,其中高成熟企業在云防火墻和網絡防護上的建設已經達到了80%的落地實踐比例,低成熟度企業中也有超過 50%比例落地實踐。云上業務系統可能位于網絡中的任何位置,每個網絡層次上都需要有完善的安全體系,來確保各類業務的安全訪問。4.本次調研顯示,超過 90%以上的企業有使用 RAM 用戶,但通過 SSO 單點登錄方式,進行賬號運維
22、管理在企業側實踐比例較低,高成熟企業僅有 12%采用,低成熟度的采用率僅有1%。這反映出來企業在云上身份管控的實操層面,仍有較大的治理提升空間。擁有良好的身份和權限的設計,能夠確保只有授權身份才能夠在指定的條件下訪問對應的云資源,才能最大程度保障企業信息安全。5.日志跟蹤及巡檢,作為企業合規審計的基礎,是云上治理成熟度的高低差距較大的實踐落地工作之一。高成熟企業有 66%進行操作日志跟蹤并按照相關合規要求存儲 180 天以上,確保云上運維管理的操作記錄可追溯,相比之下,低成熟度企業僅有 1%企業履行。企業案例 某國內知名的 SaaS 企業,隨著業務快速發展,用戶規模和云上資源都在不斷擴大,尤其
23、是企業的大客戶都非常重視 SaaS 系統的數據安全及網絡強隔離。具體來說,該企業有以下三方面的安全合規關注重點:1、全面的數據安全保障,尤其是針對客戶敏感數據保護。2、網絡安全需求,客戶要求該企業的服務單獨部署在一個 VPC 專有網絡內,包括應用及數據都要跟其他客戶強隔離。3、身份權限安全,內部研發及運維人員經常會有轉崗、離職等流動,而目前企業的應用程序是明文將 AK 寫在代碼中,非常容易出現 AK 泄露風險。針對這三點挑戰,該企業的安全團隊從以下三方面進行專項治理:1、通過數據加密方案對關鍵數據進行端到端加密。比如針對 OSS 對象存儲,開啟服務器端加密,在不影響程序性能的同時可以確保數據安
24、全。借助 KMS 密鑰管理服務對敏感數據進行加密再保存到數據庫,開啟 RDS 云數據庫的透明加密,確保備份文件也是被加密過。2、借助云防火墻的東西向防護能力,能夠有效在不同 VPC 之間做好東西向防護,有效防御惡意流量的非法訪問。3、通過安全掃描和巡檢報告,定期檢測云上身份權限安全,如閑置 RAM 用戶的定期清理,高權限 RAM 配置 MFA 多因子認證。尤其加強對 AK 訪問密鑰的集中管控,通過加密、輪轉等方案來降低 AK 及密鑰泄漏、AK 誤刪等風險。除此之外,企業也嚴格遵循權限最小化的精細化管理原則,持續巡檢治理,收斂不必要的權限外溢帶來的風險隱患。通過以上三個舉措,保障了該企業系統安全
25、、數據安全,實現內部人員身份的有效管理,優化云上用戶體驗的同時,也保證了良好的安全成熟度水位。第五章 卓越運營 卓越運營包括企業運營組織搭建,標準化變更管理,以及企業的自動化高效部署管理,使團隊能夠將更多時間和精力用在構建讓業務受益的新功能上,減少用于維護和處理突發事件的資源,幫助開發人員始終如一地實現高質量的結果,推動持續集成和持續交付,構建適合企業自身的云運營流程和模型。為了達成卓越運營的目標,即運營效率和部署開發質量的雙提升,企業目前主要關注通過自動化和標準化操作,來進行變更管理和部署管理。企業實踐現狀 1.本次調研顯示,有超過50%的企業,沒有建立專門的云運營部門進行業務服務質量管理,
26、多數企業選擇由原有的技術開發團隊負責。而調研中,我們也發現部分金融機構和公司,已采用設立科技子公司的方式進行云運營,保障集團企業間的云資源統一管理。企業搭建云運營組織一方面為了實現對內的云資源管理,一方面也支持對外的云服務供應。2.對于平臺系統的變更管理,云治理高成熟度的企業中超過 50%建立了標準化執行手冊 SOP,并進行了指導實施,低成熟度企業僅有31%有相關工作落地。企業進行變更管理旨在在對關鍵系統和服務進行操作的同時,最大限度的減少服務中斷的風險。建立標準的變更管理流程是變更管理最佳實踐的第一步。3.自動化部署管理水平的高低,是企業在云治理成熟水位差異的關鍵體現。部署管理旨在通過自動化
27、手段實現自動化基礎設施管理和應用部署,以減少人工運維投入、降低手動操作風險。在本次調研中,我們著重關注以下三個部署管理相關的指標:資源創建的自動化率,即非控制臺創建的資源比率;IaC 工具使用比例;應用自動化發布比例。l 云治理高成熟度企業普遍已經深入接觸、并實踐過云上基礎設施自動化。94%高成熟度企業使用 Open API 進行自動化資源創建,節約開發運維人員的時間和精力,降低出錯風險,實現效率提升和卓越運營;而低成熟度企業僅有 23%使用 API,絕大部分使用控制臺手動操作。有 41%的高成熟度企業日常使用 Terraform 和 ROS 編排工具,進行云資源和服務的自動化部署,而低成熟度
28、企業中僅有 15%有相關自動化工具實踐。l 根據調研數據結果,低成熟度企業中高達57.5%選擇手工實現應用打包與部署,這使得他們在面對復雜應用程序背后的大量代碼文件、配置文件等,時間消耗以及錯誤量顯著較高。相比之下,半數左右高成熟度企業已經實現自動化應用發布,以提高應用部署和構 建的工作效率和準確率。據問卷顯示,高成熟度企業中選擇自建 CI/CD 平臺的客戶占比最多,其次是使用開源流水線工具如 Jenkins。企業案例 某國內大型互聯網公司,業務類型及業務團隊分散且龐大,不同業務團隊對資源管理方式不統一,導致無法使用一套技術棧來統一運維。另外,不同業務團隊有自己獨立的運維團隊,隨著企業高層推進
29、云戰略優先和云轉型,集團全部業務決定遷移到公有云。因此,擺在集團CTO 面前以下兩點挑戰,需要盡快解決:1、業務線的運維團隊不統一,造成云上業務運維很難統一規范,整體運營效率低下。2、不同業務線用云方式差異較大,有的團隊是通過人工控制臺,有的團隊是通過腳本API,有的團隊是通過 Terraform。針對以上這兩點挑戰,CTO 也參考了云服務商的最佳實踐,決定從以下兩方面進行治理:1、構建 CCOE(云卓越)團隊,將不同業務部門的運維、架構師、網絡、安全、財務等骨干人員,組建了一支公司內部聯合團隊。由這支團隊來負責云上登錄區 Landing Zone 規劃設計,并通過 Well-Architec
30、ted 卓越架構方案持續對后續的用云、管云鞏固規范。2、經過內部多輪技術研討,最終 CTO 決定采用 Terraform 來做基礎設施管理。能夠對基礎設施做到狀態和版本化管理,便于后續狀態追蹤及快速回滾。通過以上這兩項舉措,該企業在 3 個月時間內完成了云上基礎設施環境的搭建和鞏固,統一各業務云上資源開通流程與技術棧,為后續業務快速上云、用好云打下扎實基礎。第六章 云上成本效益 企業上云目前進入深水區,伴隨深度用云而來的費用問題頻現,加劇了企業對云上成本效益的管理與優化的訴求。根據埃森哲客戶服務經驗,上云后成本費用混亂是企業用云面臨的主要挑戰之一,且部分企業由于缺乏最佳實踐指導,云產品資源使用
31、存在閑置浪費現象。本次調研反饋,60%的企業明確表達有云上成本優化的期望,由此可見,企業進行成本精細化分析與監控,并進行成本效益的提升,已是大多數企業在目前市場態勢下的戰略選擇。根據埃森哲多年客戶實踐,將企業的云上成本優化分為以下四個步驟:第一步,組織流程搭建,指云財務成本管理團隊以及管理流程的搭建;第二步,云上財務管理,包括內部分賬,云支出和使用情況分析報告等工作;第三步,資源配置管理,針對資源閑置等進行優化,保障最佳的供需平衡;第四步,持續的架構優化。企業實踐現狀 1.根據埃森哲客戶實踐經驗和本次調研數據總結,尚有多數企業仍未建立云資源成本的管理團隊和體系。企業設置專門的云財務/成本管理團
32、隊,更有利于形成完善的云成本匯報和管控體系的有效模式。建立團隊或者設置專員,不僅可以實現內部成本的統一管控,以及輔助其他部門進行資源監控、優化和報告等工作,更可以進行成本維度的整體架構優化、成本管理體系的搭建以及平臺運營運維等。2.本次調研發現,僅有32%的企業的云資源能夠清晰準確地分賬到對應的部門或業務線,實現精準有效的成本和用量監控。29%的企業大部分云資源能夠拆分到部門/業務,但少量共享資源無法拆分;還有 15%的企業無法分賬,即大部分云資源費用歸屬混亂,無法掌控各部門和項目如何消耗資源。超過一半的高成熟度企業,能夠通過使用自定義標簽或資源組對云資源進行打標或分組,以支持部門或業務分賬,
33、比低成熟度企業完成度顯著要高。3.通過資源目錄來進行云上多賬號的統一規劃與管理,普遍采用率不高。云治理高成熟度企業有 35%的采用率,而低成熟度企業僅有2%采用率。但通過埃森哲的客戶服務經驗發現,采用多賬號統一管理體系的企業,能通過劃分每個賬號的職責權限,在方便業務更好地使用云賬號資源的前提下,兼顧安全合規統一管控,提升運維效率,并為成本管理和效益優化打下基礎。4.企業目前對云上成本效益優化的實踐工作普遍缺乏,且措施單一。云治理低成熟度企業,仍有15%企業尚未實踐過任何成本監測優化的手段。調研發現,60%以上的高成熟度企業 通過資源包購買和閑置資源發現等手段,來提升資源利用率。另外有 52%的
34、云治理高成熟度企業通過變更資源購買方式來進行成本優化。然而,整體企業在異常費用(或高額消費)預警設置、云產品資源使用的定制優化上,進行成本優化相關經驗目前較少。調研訪談中發現,高成熟度企業往往會跟進云廠商不斷發布的新服務和功能,檢查現有的架構設計并進行優化,確保架構具有最佳成本效益。而低成熟度企業,一般會慣性固守原有服務架構或功能,既而導致舉措更新不及時,錯失成本優化的機遇。企業案例 某知名新零售企業,由于各業務線使用的云資源種類繁雜,成本無法分攤到各個項目,導致財務團隊無法準確的核算經營成本。內部人員的變動也導致部分資源購買后未投入使用,出現較多資源閑置的情況?;谶@兩個痛點,該企業通過設計
35、統一完善的標簽體系、搭建財務單元,將云資源成本有效和準確地分攤到業務線。通過技術手段去提升云資源的分析下探能力并優化成本效益,例如:針對用量大的業務優先看看哪些資源占比高,給出相應的優化方案;針對數據庫用量,可以進行規格上的降配、存儲容量的縮容等;針對存儲類資源可以開啟冷熱數據分層存儲;針對閑置資源設計巡檢規則,定期識別并釋放閑置資源實例,同時監測成本異常使用情況。這一系列舉措,成功幫助該企業降低用云成本,提升資源利用率,繼而推動賬單管理和成本效益的進一步優化。第七章 高效性能 如何高效利用云平臺的資源,以更好地滿足用戶對它的需求,是企業在深入云資源使用之后常見的痛點,尤其是面對海量用戶量和高
36、并發場景的行業,如互聯網等,對高效性能的關注度顯著更高。高效性能,指借助云原生產品和能力,設計和優化應用架構,通過監控、壓測等發現性能問題,持續進行性能優化,打造高效性能的業務應用。具體來說,包含以下三步的工作:首先,在架構設計的初期,進行針對客戶自身的高性能設計,選擇合適的產品和服務;其次,通過完善的性能測試手段和全面的性能監控體系,建立性能基線,協助定位性能瓶頸;在以上基礎上,進行優化策略規劃,設計針對性性能提升的目標和解決方案,并繼續反哺到應用架構設計中去,形成持續優化的閉環。企業實踐現狀 1.低成熟度企業有高達38%的企業沒有進行過性能測試,缺乏評估系統或組件處理峰值流量的能力。企業做
37、性能測試,是為了通過自動化的測試工具模擬多種正常、峰值以及異常負載條件,來測試各項性能指標,以建立性能基線,驗證架構設計目標并持續優化。據本次調研數據顯示,40%左右的高成熟度企業會使用云產品(PTS)或開源工具(JMeter 等)進行性能壓測,并定期(業務上線前、周期性)進行性能壓測,有 33%的高成熟企業還會對業務上下游進行全鏈路壓測。2.企業關注的性能監控涵蓋了可以反映性能問題的各類指標或數據,包括但不限于超時錯誤數、緩存命中率、FullGC 次數與耗時、CPU 使用率、平均負載等等。根據調研結果發現,高成熟度企業中有 54%通過收集應用日志實現性能問題追蹤,37%通過壓測設定性能基線,
38、以此為基準進行告警,或通過全鏈路追蹤(如 OpenTelemetry)監控性能指標,或為業務設定性能目標。低成熟度企業的性能監測落地手段較少,有23%反饋以上手段均沒有實踐。企業案例 某互聯網旅游行業頭部企業,存在大量用戶的高并發訪問情況,需要存儲海量數據,并且有高峰訪問流量帶來的壓力。該企業使用性能測試 PTS(Performance Testing Service)進行云上應用的壓測,通過性能壓測,持續架構調優,確定常態容量和容量上限;針對海外訪問流量,利用阿里云全球加速 GA、CDN 節點設置等,優化網絡路徑,降低海外訪問延遲;結合數據庫自治服務 DAS,洞察和優化數據庫性能。這套規范化
39、的性能測試和監控,保障該企業的業務穩定性和連續性,降低訪問延遲情況,并通過持續的性能優化,提高用戶滿意度和產品競爭力。第八章 云治理的未來展望 行業洞察和趨勢 新零售企業:l 穩定性:穩定的基礎設施和應用系統,可以保證數據在整個供應鏈中順利流轉,將有助于整個供應鏈產能的提高,助力零售行業實現從傳統零售轉型新零售的升級。l 安全合規:新零售企業的系統一般是使用多個供應商或分包商,來進行整體開發和管理,因此在整個人員身份和權限的管理重視程度高,并且對消費者信息數據安全加密上尤為關注。l 成本效益:新零售企業面臨著大量碎片化的數據和全渠道零售的挑戰,因此更希望通過云治理實現企業 IT 支出的下降和成
40、本效益的提升,以及對全渠道供應鏈的穩定支持,用以提高業務運營效率和發展潛力。l 性能優化:零售電商場景客戶非??粗貞眉軜嬙O計和高可用。在線上業務增長背景下,需要提升業務系統的穩定性、提升高并發場景下的系統應對能力等。對 C 端系統的可觀測性監控、運維可視化需求尤為突出?;ヂ摼W企業:l 穩定性:互聯網行業往往面對突發業務峰值流量的情況,對云上穩定性的高要求集中于容量,可考慮引入彈性伸縮策略,預約或根據流量變化觸發系統自動擴縮容,以確保以盡量低成本來自動化滿足突發峰值情況,并通過合理的云資源架構,對突發故障做到高度的容錯容災。l 安全合規:據調研發現,互聯網企業對數據安全的關注在各個行業對比中尤
41、為突出。一方面受到監管部門的合規要求。另一方面,海量的 C 端用戶無疑是互聯網企業的核心競爭力,若數據安全不能保障,會直接影響用戶信任度以及產品競爭力。l 卓越運營:互聯網企業大多已經完成云上數字化轉型或是在云原生環境成長起來,對用云的部署管理自動化水平更加成熟,因此更加關注用云的靈活性,以保證業務快速發展所需 要的高效云資源使用。l 性能優化:互聯網行業在網絡性能方面重點關注時延、丟包率、帶寬、吞吐量、每秒請求數、并發連接數、新建連接數等。多數云治理高成熟度的互聯網企業,進行全面的壓測和持續的監控,以明確工作負載的核心指標并定位鏈路瓶頸,針對瓶頸進行優化提升,對提供更好的產品服務、提高用戶滿
42、意度、增加營收等都有重大意義。金融企業:l 安全合規:據調研發現,金融行業在身份權限管控上更為關注、成熟度也相對更高。例如在不使用主賬號登錄、不使用主 AK、資源組分組率以及 SSO 單點登錄集成等調研反饋上,金融行業企業的落地實踐比例均更高。在金融機構不斷提升安全合規的監管要求下,各金融企業不斷加強保障客戶資金安全和信息安全,并適應數字化金融環境的演進,維護金融系統的穩定性和可靠性。l 卓越運營:金融機構及金融科技公司的云上運營組織模式以設立科技子公司為主,將金融與科技高度融合,以賦能客戶和全新生態體系。在運營組織架構設計上,領先于其他行業并且,在自動化相關工作上,金融機構和企業也顯示出了較
43、高的發展成熟度??鐕髽I:l 安全合規:跨國企業往往面臨各國家不同的數據安全要求,并需要兼顧全球總部 IT 部門管控要求的雙重考驗,因此從架構設計上,不僅要保證云上數據資產的的合規性,還要遵循企業全球總部 IT 已有云治理體系,尤其在多云策略的趨勢下,要形成統一的安全合規管控規范。l 卓越運營:跨國企業的總部 IT 部門往往有著嚴格的管控要求,在其他區域上云時,通常需要遵循企業全球總部 IT 已有的上云標準和成熟的治理體系,尤其在多云策略的前提下,基本沿用統一的運營模式以及自動化方式,因此基本展現出較高的運營成熟度。l 成本效益:隨著全球業務的不斷發展,跨國企業對上云之后的 IT 成本管控更加
44、嚴格、透明度要求更高,并需要 IT 部門能夠隨時以更精細化的顆粒度展現云上成本和賬單的分攤;除此之外,跨國企業的分支及部門眾多,用云的業務部門多,對成本效益轉化的要求也更復雜。綜上所述,不同行業的企業客戶,云治理現狀和關注重點各有不同。例如:互聯網行業云上自動化水平普遍更高,多數已經完成穩定安全架構設計更新,更加關注用云的靈活性,以及挖掘云技術實現業務二次增長的機會。新零售和金融行業對數據、身份安全的關注度更高,其中新零售行業對成本效益優化也給予高度重視;跨國企業以符合當地法規和兼顧總部統一管控為云治理核心工作。因此,各行各業在進行云治理時,通常會根據其特定需求和挑戰來確定重點關注方向和優先級
45、,根據自身行業特性制定相應云治理發展戰略。云治理的實踐路徑 在云治理的具體實踐階段,企業面臨的重要問題,例如從哪個領域開始著手、如何設定成果目標、如何組織內部人員和管理資源、如何采用具體的工具來展開落地工作、如何持續治理優化等,這些都需要有一套可持續發展的實踐路徑以供參考遵循?;诒緢蟾娴钠髽I調研總結,我們建議在云治理的過程中,首先學習并吸收業內的最佳實踐經驗,沉淀對云治理領域的認知和理解。其次,針對企業自身的用云現狀,使用科學的度量模型進行定量評估,并配合專業和深度的定性調研,了解并記錄當前的現狀發現。在學習和度量的基礎之上,推進有效的云治理優化動作。1.學習:即學習云治理各個專項領域的知識
46、、經驗和最佳實踐。2.度量:即通過科學先進的度量模型及手段,客觀度量和主觀度量一起來綜合評估企業當前在云治理的現狀成熟度水位,幫助企業對自身的情況有更加清晰具體的認識,以便于后續進行針對性的治理優化。其中,客觀度量是通過云治理多個領域維度的模型計算評估得分(定量),主觀度量是通過專業人員對企業進行調研訪談等方式(定性)對無法數據量化的情況進行分析解讀。3.優化:即治理方案,基于企業現狀的度量結果發現,梳理企業的治理需求和優先級,制定個性化的治理優化方案并最終落地。通過學習-度量-治理的有機路徑,能夠幫助企業規避“盲目治理”現象,更好的基于科學精確的度量結果,為企業提供更具個性化的指導建議和方案,最終實現可持續發展的云旅程和成熟健康的云現代化之路。出品團隊 阿里云計算有限公司 埃森哲(中國)有限公司 撰寫作者:唐雨微、朱玥、曲駿、周玥琳、朱彩輝、程超、麻芃、周金龍、王觶程 特別鳴謝:戴虹、何登成、姚靖宇、宋廣宇、劉湘雯