1、IBM 商業價值研究院 專家洞察 新一代的混合 云管理能力 疫情新常態下,引領企業走出數 字化轉型困境 關鍵要點 企業在混合云管理中的挑戰 疫情新常態下,企業面臨著數字化轉型加速和 成本及人才壓力激增的兩難困境,同時面臨著 五大挑戰。 新一代混合云管理能力框架 企業需從開放的平臺建設、統一的平臺治理、 全棧的一致管理、智能的運維技術、強大的危 機管理、靈動的交付模式、創新的人才供應七 個維度,打造新型的混合云管理能力。 混合云管理轉型的行動建議 企業要實現混合云管理模式及能力的大規模轉 型,必須配套實施組織、文化、流程、思維模 式的轉型,采取快速、敏捷、創新的轉型方法。 疫情新常態下,企業數字
2、化轉型面臨 兩難困境 疫情加速了企業數字化轉型的步伐,越來越多的企業將工作負 載遷移至云端,開放式混合云已經成為企業新一代的IT基礎 架構的必然選擇。目前,很多企業開始思考的問題是: 如何管 理好混合云,將混合云架構的最大價值發揮出來?這將是決定 企業的數字化轉型能否成功、以及能否實現可持續發展的關鍵 因素。 IBM在幫助全球及中國企業推動數字化轉型的過程中,發現 很多企業CIO在2020年面臨著一個非常突出的兩難困境, 即“數字化轉型加速”和“現金及人才壓力激增”之間的悖論: 他們既期待享受混合云平臺帶來的業務活力,可以彈性、敏 捷、安全地應對業務的不確定性和快速創新,加速業務增長, 深化數
3、字化轉型;同時希望整合新系統和歷史系統的復雜性, 2 在IT預算和人才都非常緊缺的壓力下,低成本、高回報地管 理紛繁復雜的混合云環境。而要完美解決這個困境,企業IT 能力需要進行完整、持續、大規模的轉型,才能真正實現新一 代的混合云基礎架構的價值,推動企業數字化成功轉型。 而企業在IT能力轉型的過程中,主要面臨著五個嚴峻的挑戰: 挑戰1. 如何與應用devSecOps的云原生企業一樣,將業務 的速度和敏捷度提升3-5倍? 疫情中,很多企業CEO比以往任何時候都更迫切地需要創新 與速度,他們想要快速推出新的產品、新的服務,以滿足客戶 不斷提升的需求,快速適應新常態。這就要求企業擁有一個安 全、開
4、放的平臺,該平臺能夠在跨多云和現有IT架構的環境 中都保持一致性,既能保證企業的業務敏捷度,又不鎖定企業 的創新力。 同時,這樣的開放平臺會簡化面對不同環境 (虛擬化/容器化/ 云化) 以及不同工具和方法的開發復雜度, 提高開發人員效率。 最重要的是,這樣的平臺可以讓 IT 部門聚焦到如何建立企業新 的文化和工作模式,用云原生的速度適應業務用戶的需求。根 據 IDC研究,基于領先的企業級開源技術Openshift建設的容 器平臺可以將應用程序的開發生命周期加快66%,發布的應用 程序和功能增加36%,用戶采用率提高136%。1 挑戰 2. 如何通過自動化技術、管理簡化,降低25%-40% IT
5、成本,釋放稀缺技術資源,加速 IT 現代化? 受疫情沖擊,很多企業財務壓力激增,IT 預算緊張,他們希 望降低成本,改善現金流。大多數企業平均至少擁有五個云 平臺以滿足特定應用,每個云平臺都有不同的管理流程和接 口;同時,企業成百上千的應用分布在內部服務器、私有云、 公有云上。這些都大大提高了日常運營的復雜度,并增加了 人員招聘和培訓、IT 維護等間接成本。因此企業需要加速基 于平臺的容器化和現代化建設,將應用平臺層與底層架構解 耦;并應用自動化技術,將架構管理簡單化。同時,平臺的 自服務,自動化工作流,改進的代碼質量以及 CI/CD 技術, 都可以幫助企業進一步提升應用的開發實施效率。根據
6、IDC 研究,基于 Openshift 的容器平臺可以將開發每款應用程序 所需的 IT 員工時間減少 35%,需要員工投入的日常管理時 間平均減少19%。2 圖 1 新一代的混合云管理能力框架 3 挑 戰 3. 如 何 通 過“ 站 點 可 靠 性 工 程 (Site Reliability Engineering)”等舉措以及智能運維技術 (AIOps), 減少 60%以上的計劃外宕機,實現零計劃宕機時間? 疫情帶來了工作方式的變化。盡管某些工作項目仍需在工作 場所就近完成才能發揮最高效率,但大多數工作要采用新型 的遠程執行模式,并成為新常態,以確保業務的連續性。因 此企業需要具備快速應對的
7、彈性能力, 采用新型 IT 交付模式, 實現面對面交付和虛擬交付的最佳組合。并且,當系統一旦 出現問題時,采用新型的 IT 運維技術,加快對問題類別的識 別和修復速度,并提前預見未來的問題,減少計劃外宕機的 風險,提升客戶滿意度。 挑戰4. 如何在實現上述目標的同時,確保企業的 IT 系統安 全以及數據安全? 當世界各國全力應對疫情之際,犯罪分子發現了可乘之機。 2020年2 月份以來,IBM X-Force 監測到的以新冠病毒為 主題的垃圾郵件增幅高達 4,300%。3 70% 的受訪者表示所 在組織過去基本未嘗試過遠程工作。40% 的受訪者表示開展 遠程工作后,網絡攻擊有所增加。4企業如果
8、平時準備不足, 那么疫情期間勢必會措手不及。根據 IBM商業價值研究院 2019 年度報告顯示,76% 的企業并未在整個組織范圍實施 統一的事件響應計劃。5在疫后新常態下,企業的業務連續性 計劃成為一項重要的戰略資產。企業需要制定未來的危機應 對計劃。 挑戰5. 如何保證稀缺的IT人才價值最大化,并且IT人才供 應不斷鏈,確保業務的可持續和創新性? 首先,在很多公司內部,大量的IT人才仍然陷于日常的IT 運營工作中,不能解放出來去關注能夠帶來更高價值和擴大 業務優勢的活動。其次,很多公司隨著新業務的快速發展, 以及越來越多的業務在混合云的新環境下采用新技術,發現 缺乏足夠數量的具備數字化技能的
9、人才供應,大大限制了業 務的可持續性和創新性。這些都要求公司轉型現有 IT 工作模 式,采用自動化技術以及外包服務,釋放寶貴的 IT 人才投入 到高價值活動中;同時在企業內外部采用新型的數字化培養 手段,加速人才供給和技能重塑。 為應對以上挑戰,企業首先需要建設開放的混合云平臺,作 為數字化轉型的堅實基礎。在此之上,企業需要對不同類型 的云環境以及整個 IT 基礎架構進行端到端的管理,達成對混 合云環境下多廠商、多平臺的無縫整合。然后,需要應用混 合云管理平臺對多云環境進行全棧式的一致性的管理,幫助 企業管理、監控、自動運行和統籌各種云供應商的環境。而 要更好地平衡新系統和全棧式一致性管理模式
10、,智能的 IT 系 統運維技術 (AIOps) 可為企業實現從“人治”到“智治”的 轉型,確保業務的高敏捷和可預見性。這些平臺和技術都需 要建立在強大的危機體系上,確保業務的安全性和永續性。 最后,疫情改變了員工的工作方式,靈動的交付模式可以確 保在虛擬環境中安全可靠地交付,確保業務的高彈性。所有 這些,企業需要創新的人才供應方式有力地支撐。 只有將這些能力全面整合之后,才能充分發揮混合云架構的 價值,推動業務不斷加速數字化轉型, 助力實現智慧企業的 戰略目標(見圖1)。 來源:IBM 商業價值研究院分析。 新一代的 混合云管理 能力 創新的 人才供應 開放的 建設平臺 統一的 平臺治理 全棧
11、的 一致管理 靈動的 交付模式 智能的 運維技術 強大的 危機管理 新一代的混合云管理能力 新一代的混合云管理能力包括開放的平臺建設、統一的平臺 治理、全棧的一致管理、智能的運維技術、強大的危機管理、 靈動的交付模式、創新的人才供應。接下來,我們將對每一 種能力進行詳細描述。 (一)開放的平臺建設,確保業務的速度和敏捷度 企業在數字化轉型過程中,需要搭建各種數字化平臺和智能工 作流,會將很多的業務活動遷移至云環境中。然而,多個單一 的云環境會增加數據孤島,嚴重影響業務響應速度和敏捷性。 而開放式的混合多云平臺可以解決這個難題。 開放式的混合多云平臺不僅支持工作負載在內部環境、私有云 和多云環境
12、之間遷移,還支持在不同供應商的云環境之間按需 遷移。這可以讓企業能夠訪問任何平臺的物聯網數據和設備, 實現數據的無縫銜接,支持核心工作流變得更為智能。并且能 夠隨時隨地擴展 AI,借助邊緣計算,將云功能部署到數據所 在的任何位置,實現 AI 規?;瘧?。具體來說,企業需要在 混合云平臺的五個層面建設開放性: 首先,在架構層面上,Docker 容器可以實現云環境與內部環 境之間最高水平的可移植性。通過使用微服務模型來開發云應 用,開發人員能夠基于和用戶的實時互動,以迭代方式快速重 新設計、替換和豐富客戶體驗。虛擬機采用模擬物理服務器的 軟件實現的運行時環境,具有更強的靈活性。虛擬服務器能夠 按需
13、配置和擴展,以滿足不斷變化的工作負載需求。無服務器 平臺使開發人員能夠快速方便地構建功能豐富的應用,用于響 應各種事件。(請參閱邊欄“一汽集團:開放的混合云平臺, 快速實現業務創新”)。 4 一汽集團:開放的混合云平臺,快 速實現業務創新 6 一汽集團在傳統 B2B 業務模式的基礎上,展開了對 B2C 營 銷和新零售方向的開拓和探索。 廠、 商、 用戶之間的關系重構, 對 IT 提出了全新的需求。 IBM 幫助一汽集團總體規劃了平臺化的系統建設思路,旨在 實現前端業務在線共享及快速迭代,支撐數據全面貫通,同 時保證觸點的體驗一致性。 IBM 還幫助一汽集團建立了雙中臺的驅動模型,實現了業務 中
14、臺的持續優化和數據中臺的持續迭代?;旌显频募軜嫗殡p 中臺提供了有效支撐。底層采用行業混合云,滿足業務發展 對資源彈性、敏捷的需求,實現基礎設施從傳統架構向全云 化架構轉型,助力中臺業務快速共享。微服務架構由 IBM 總 體設計并指導實施,支撐多租戶及應用快速擴展。 該項目采用大規模敏捷管理框架,保證跨項目組“同時區” 協作,同節奏交付產品,以管控項目時間進度。同時,應用 敏捷開發流程進行代碼交付,實現產品快速上線,業務價值 得到迅速實現。并通過不斷迭代,實現了產品用戶體驗和質 量的穩步提升。 圖 2 開放的混合云平臺 來源:IBM 商業價值研究院分析。 內部IT 公有云私有云 邊緣計算& 物聯
15、網 生態層面 泛行業生態平臺 企業層面 混合多云服務中心企業數字化能力管理中心 研發層面混合多云環境下的 DevOps開發與運維的深度組合 持續開發/持續集成 架構層面 容器微服務虛擬機無服務器云服務 基于開源技術和開放的云原生架構應用層面 互操作性并能形成規模,可防止任何單一供應商一家獨大。 來自 Red Hat 等供應商的容器技術可以成為混合云環境下的 通用語言和開放架構的生態紐帶,把企業、客戶、供應商、 合作伙伴連接為一個可以無限擴展的、創新的生態系統,塑 造企業的數字化能力。 (二)統一的平臺治理,確保業務的低成本和可視性 隨著企業業務數字化轉型的持續深入,及新一輪“新基建”智 能升級
16、,IT 基礎架構對多數企業的可持續運營起著至關重要的 作用。企業 IT 負責人通常依賴相互獨立的系統跨中間件、服 務器、存儲以及網絡設備進行監控及管理,混合云環境的紛繁 復雜讓傳統系統難以應對。 為了攻克這些挑戰,實現現有投資回報最大化,企業認識到自 己必須對混合云業務環境進行統一治理。如圖3所示,統一的 平臺治理意味著能夠對不同類型的云環境以及整個 IT 基礎架 構提供端到端的一致性管理,并通過云親和度分析,實現最佳 配置、最佳部署,達成對混合云環境下多廠商、多平臺的無縫 整合。(見圖 3)(請參閱邊欄“上海新享智云科技:IT 整合 及優化,助力疫情輕盈轉身”)。 5 其次,在應用層面上,混
17、合云環境下的應用和研發能力應該 運行在一個基于開源技術和開放的云原生架構上,比如紅帽 的Openshift是容器云平臺,有自適應、自愈和自動伸縮的 能力, 能適應企業內外部的各種動態變化, 并且能夠足夠開放、 敏捷,能夠靈活地擴展,結合企業實際情況進行各種復雜性 管理。 接著,在研發層面上,企業應該建立面向混合多云環境下的 DevOps,而非單一環境的 DevOps。同時,關注開發和運 維的深度融合,將場景化的AI 融入到管理流程中,建立全局 組織流程體系,實現持續性的開發,作為項目制研發的常態 補充。 然后,在企業層面上,伴隨著企業建立數字化平臺和流程能 力,企業內 IT 組織的定位也應隨之
18、轉變。過去的定位更多是 內部運維或服務支撐, 現在需要轉變為混合多云的服務中心, 未來還需要有一個更遠大的理想,即成為企業數字化能力的 管理中心。 最后,在生態層面上,為了確保開創性業務平臺可組合,智 能工作流實現動態化,企業希望開放所有選項,包括向生態 系統開放,建設泛行業生態平臺(如開放銀行、工業互聯網、 出行服務平臺、采銷平臺等)。開放平臺和開放軟件支植性、 圖 3 統一的平臺治理 來源:IBM 商業價值研究院分析。 敏捷開發 開放生態集成 云原生應用環境 持續開發/持續集成 與 DevOps 實踐 快速部署與 自動化 兼容傳統與云原生 的自動化平臺 數據與AI 整合運維大數據, AIO
19、ps 智能算法, 快速定位并解決故障 安全合規與 業務永續 混合多云環境下的安全 合規一致性,基于軟件 定義級別的 DR 自動化 確保業務永續 開放混合多云架構統一納管與治理 開放多云 | 整合集成 | 動態擴展 | 安全合規 | 業務永續 傳統數據中心 私有云 IaaS/PaaS 服務 公有云 IaaS/PaaS 服務 行業生態云 SaaS 服務 混合多云業務應用運行環境 具體舉措包括: 通過 Linux、Kubernetes、開放容器三種標準技術接口無 縫地進行互操作,在不同的環境和不同的公有云供應商之 間,實現互操作性和可以移植性,避免被一個供應商套牢; 能夠支持云原生應用、敏捷開發、開
20、放生態集成; 支持業務快速部署與運維服務自動化; 深入分析并挖掘 IT 運維數據的運營價值,實現AIOps; 在混合云架構下,實現統一標準的安全準則與合規審計; 利用軟件定義災備恢復自動化技術,從應用到基礎架構, 端到端實現應用與數據的業務永續保障。 而要實現以上舉措,混合云管理需要持續加強對開源技術與 開放平臺的集成, 增強在云原生應用、 容器與微服務編排調度、 及DevOps等方面的運維能力,并充分運用 AIOps 提升 IT 運維的智能化與自動化程度,從而有效降低企業在混合云環 境下的 IT 運營總體擁有成本。在 IBM 的一個客戶中,通過 運用了AIOps, 降低了總體 IT 擁有成本
21、30%,并大大提升 了 IT 運維效率,支撐未來多年的發展需求。并在新平臺的支 持下,幫助 IT 組織向敏捷化、智能化轉型。7 通過統一的治理平臺,混合云平臺可發揮一站式 “控制塔臺” 的作用,有助于克服因不同基礎架構中數不清的活動錯配而 導致的種種約束和限制。通過這個“控制塔臺”,企業可以 實時監控狀態,查看現有連接,實現跨混合云環境的全面透 徹的可視性功能;還可以前瞻性地決定云環境中的哪些環節 需要優化、擴展或更加開放,提升統籌化管理水平;同時還 可提供切實可行的洞察,把應用和負載所占用的資源做更佳 匹配,提高資產利用率;最后將IT固定成本轉變為可變成本, 將IT資本預算轉變為運營預算,優
22、化資本與資產投入,持續 將混合云資產的價值最大化。 6 上海新享智云科技:IT 整合優化, 助力疫情下輕盈轉身 8 上海新享智云科技公司是一家隸屬于頂新國際集團的智能科 技公司,其所在的餐飲便利事業部遍及各種餐飲品牌,涵蓋 十余家企業,IT 運維及管理極其復雜。如何實現多業態、多 企業的 IT 整合,從而減負、賦能、提效、降廢,是一直以來 困擾頂新集團和新享智云的難題。2020 年,面對新冠疫情 爆發帶來的的“少移動、少出門、少到店、少接觸”的新情況, 新享智云需要一個“低門檻、快復制”的應對策略,從而擴 大線上布局、調整商品布局、降低加盟門檻、加快展店速度, 在特殊時期快速轉身。 IBM 憑
23、借業內一流的專業知識和能力,提供了全新的 IT運 營模式,幫助頂新集團和新享智云管理復雜的混合 IT環境, 實現管理化繁為簡、運營降本增效。在 IBM 的幫助下,新享 智云完成了十多家公司的 IT整合及優化,并成功構建了一個 開放、靈活且安全的多云架構,短時間內完成云遷移,實現 核心應用平穩上云,有效保障了業務數據的安全。 與此同時,IBM 為其提供即需即供、按量付費的彈性資源服 務,徹底幫助其擺脫了大量購置IT基礎設施而造成的IT利 用率不平衡問題,有效緩解現金流壓力,實現輕資產運營。 最后,針對新享智云在多云環境下的積分系統、清算系統、 支付系統等關鍵核心應用和負載,IBM 還提供了無縫、
24、安全、 一致的管理以及高 SLA 服務保障, 確保了 7*24不宕機。 此外, 按照頂新集團的發展需求,IBM 還為其定制化打造和管理 IT 架構,提供具備前瞻性的 IT 架構轉型路線圖和能力,以應對 復雜多變的市場環境,深刻踐行業務永續。 某大型商業銀行:通過混合多云管 理,助力金融業務創新與轉型 10 國內某大型商業銀行,積極應對業務挑戰,引進混合多云架 構及管理平臺,將 AI 與運營管理相結合,為業務創新提供了 堅實的保障。 IBM幫助該銀行搭建了現代化的混合多云架構,利用多個 Kubernetes 集群中的 3000 多個容器,在不同地點實現雙 活模式,關鍵應用可在數秒內實現擴展,“雙
25、十一”期間付 款交易支持系統實現每秒 15000 筆交易。 另外,通過和IBM合作,該銀行還建設了強大的軟件定義的 架構,通過軟件定義,實現跨地點的負載均衡。并利用動態 縮放,實現跨地點的分布式數據存儲。通過智能自動化,進 行根本原因分析,促使自我恢復。 最后,該銀行的IT運營利用針對歷史數據的機器學習功能, 自動累積運營經驗,實時處理海量運營數據,促進動態調整 資源以及基于人工智能的性能監控和自動彈性擴展,實現了 IT運營從“勞動密集型”運營向“認知型”運營的轉型。 (三)全棧的一致管理,確保架構的高可用性和業務的 連續性 盡管絕大多數的企業已在多云環境中開展業務運營,但是實際 上,傳統架構
26、和云架構卻仍將在很長一段時間內并存,企業IT 部門面臨著如何對混合架構下的穩態和敏態雙模IT進行全棧 的一致性管理的挑戰。而技術架構的升級帶來了負載和交付方 式的變化,進而帶來了IT管理方式的變化。但是無論IT架構 和管理方式如何變化,企業所需的永遠是運行在IT架構上的 高可用性和業務的連續性。 IBM商業價值研究院(IBV)的調研表明,預計到2021 年, 將有98% 的企業采用多云架構。但目前只有41% 的企業制 定了多云管理戰略,僅有38% 的企業部署了用于運行多云環 境的流程和工具。例如,只有30% 的企業擁有用于統籌安排 工作負載的多云統籌器或其他多云管理平臺。 其他工具也欠缺。 不
27、足40% 組織擁有可提供資源配置和資源間關系信息的云配 置管理工具。9 因此,企業需要針對混合多云環境,建立全棧的一致性管理平 臺,營造可靠、直觀、響應迅速的云環境,這是企業IT管理 的變革,也是趨勢。通過全棧的一致性管理,既可減少宕機、 應用停運和數據丟失,提高整個IT 基礎架構的可視性、監管 和控制力度;又能降低IT 基礎架構成本和運營成本;最后, 還能改善客戶體驗,增加新收入來源,以及擴張到新市場,提 升企業競爭優勢(請參閱邊欄“某大型商業銀行:通過混合多 云管理,助力金融業務創新與轉型”)。 7 8 那么,企業如何建設全棧的一致性多云管理平臺呢?IBM 通 過自身以及為客戶服務的經驗,
28、不斷演進和總結出適合企業 未來發展需要的全棧的一致性多云管理模式,主要包括三個 成功要素:組織、流程、工具。這三個方面需要統一整合, 不能割裂開來: 組織。傳統架構逐步演進到云上,對IT管理人員的職責和角 色都提出了新的要求,且需兼顧兩種架構長期并存的場景。 IT管理人員需要進行三方面的轉型:從獨立技能向跨領域技 能轉型;分解豎井式團隊模式,并圍繞 IT 服務與 DevOps 交付模式進行組織變革;向共享服務與團隊的模式轉移。除 此以外,企業還需要考慮與第三方多云管理服務團隊建立合 作關系,請他們提供專業的云管理服務,幫助構建和管理協 調的多云環境。根據IBV調研,目前,56% 的企業借助供
29、應商來管理多個云。到2021 年,預計這樣做的受訪企業的 比例將上升至72%。11 流程。多云管理需要改變以手動和少量自動化為特征的傳統 IT管理流程,逐步轉型為云使能IT管理流程及云原生IT管 理流程,最終實現基于服務化的持續集成與持續交付。這些 流程具體包括三類:第一類為核心流程,是大多數公司從向 云過渡的一開始就必須遵循的云服務管理和運營的核心實踐, 可確保服務的可用性和可見性。比如,“事件管理流程”可 以快速恢復服務,“問題管理流程”可以識別問題根因并防 止再次發生。第二類為可擴展流程,隨著云采用率的增長, 需要遵循這些實踐以隨著需求的增長而擴展。它們使其他實 體執行的并行活動與服務管
30、理的需求保持一致。例如,開發 人員構建可管理的微服務。第三類為服務流程,這些實踐添 加了面向服務的視圖和業務重點,與SLA(服務級別協議) 和業務KPI保持高度一致。例如,業務績效信息在儀表板中 可視化,并用于確定操作活動的優先級。 工具。高效的云管理平臺需要集成及廣泛使用多種強化工具和 技術,包括跨服務器、存儲、網絡的開放式管理和開放網絡標 準,即時協作工具,全面自動化與智能化技術,幫助企業管理、 監控、自動運行和統籌各種云供應商的環境,從而降低管理不 同供應商的云服務的復雜性。而使用這樣的工具給企業帶來的 更多的是文化轉型,例如:人機對話運營 ChatOps 不僅僅是 一個聊天工具,而是人
31、與人之間,工具與機器之間,人與機器 和工具之間的全新協作。 從以上可以看出,全棧的一致性多云管理模式,本質上是企業 IT管理模式的轉型。通過轉型,企業可以解放 IT 部門的現有 資源壓力, 創造空間進行面向未來的轉型。并專注核心,以業 務需求為導向,關注新服務的開發,迅速回應市場需求。最后, 還可以利用生態圈,借助外部資源,加速創新技術的引進和落 地(如圖4)。 圖 4 全棧的一致性多云管理平臺的轉型收益 來源:IBM 商業價值研究院分析。 釋放包袱:基礎深專注核心:做得精引進創新:想得新 成長 時間 業績/技術 企業現有的 技術、 人力 企業未來需要的 技術、 人力 (四)智能的運維技術,確
32、保業務的高敏捷和預見性 隨著企業紛紛將各自工作負載遷移至云端,為優化這些負載, 他們通常依賴多個平臺,但如果企業疏于整合每個單獨系統所 提供的數據洞察,擁有多個系統只會加劇原有的復雜程度。既 要采用新系統, 又要設法實現一體化管理, 為了實現二者平衡, 技術團隊常常陷入兩難境地。 智能的IT系統運維技術 (AIOps) 可為企業解決這個難題。它 將傳統的以流程管理為導向的被動式運維,逐漸演進成為以數 據分析和 AI 結合為導向的主動式、前瞻性地運維 (AIOps), 實現從“人治”到“智治”的轉型。 AIOps 是基于人工智能認知與自動化技術,結合數據積累、 知識沉淀和最佳實踐,形成的一個能夠
33、持續智能演進的智慧運 維平臺。在這樣的智能運維平臺中,通過基于機器學習的分析 決策平臺、行業積累的自動化平臺,并配合整體的服務管理平 臺、 事件一體化平臺, 實現全方位的 IT 運營監控管理 (見圖5) 。 9 具體來說,智能運維可以用于企業中的以下主要場景中,并 為企業帶來差異化的競爭優勢: 動態視圖,提升可視性。根據 IBM市場研究發展部的調研, 78% 的受訪企業將跨多云提供商 的 IT 運營可視性視為一項 重要的混合多云管理能力。12在機器學習 (ML) 與 AI 技術的 加持下,AIOps 可為 IT 領導者提供跨系統、跨多個云提供 商的縱覽功能,帶來高效的新流程。并且支持日常 IT
34、 運營專 員通過一份易于獲取的報告,掌握大型機、應用、中間件、 服務器、存儲與網絡的當前狀況。 性能預測,提升高彈性。借助 AI 與實時數據洞察, AIOps 可以持續主動提升性能,減少反復出現的問題,為公司的品 牌認知、性能與間接成本帶來有益影響。AIOps 也可以打造 先發制人的問題解決之道,將問題扼殺于搖籃之中,從而掌 握戰略性差異化優勢。 認知型維平臺 智決 執行饋 認知型維析決平臺 Cognitive Delivery Insight 認知型維自動平臺 System automation and RPA tools 認知型維服務理平臺 Data Lake and Operation
35、Platform IT 營 日志監事件一體平臺 自動工單與服務請求 認知析與決 自動問題與服務執行 專家知識與決 認知洞與建議 方位 IT 營監理 量 IT 營與服務 理資 (即時量歷史) 專家干預 IT 營專家 合 IT 環境 Traditional On-prem IT Private Cloud Public Cloud Software-Defi ned Hybrid Cloud Infrastructure Security,Cognitive,Analytics,Automation and DevOps ITaas Environment Workloads Brokerage
36、IBM Services3rd Party Services Orchestration Operations 圖 5 智能的運維技術(AIOps) 來源:IBM 商業價值研究院分析。 告警壓縮,提升有效性。企業采用 AIOps 策略可以對系統 異常行為觸發的告警,進行識別及過濾,自動記錄事件工單, 大大緩解一線運維團隊的工作負荷。并提前預見停運風險; 或者在磁盤空間即將受到限制時,及時通知團隊,并提升系 統性能。35% 的受訪領導者預計可通過使用云管理平臺, 利用主動監控,規避高成本 IT 停運事故,并從中獲益。13 自動修復,提升響應性。AIOps通過持續的自動化建設,可 以對重復發生的事
37、件,制定自動修復腳本,實現服務恢復作 業的自動執行與狀態跟蹤。22% 的受訪企業預計能夠通過快 速識別故障設備提升可用性并縮短問題解決時間,29% 的受 訪企業則預計能夠提升服務管理水平和改善客戶體驗。14 Slack公司CEO兼聯合創始人 Stewart Butterfi eld表示: “組織面臨的最大挑戰是協調性問題。我們的軟件只有與用 戶每天使用的工具緊密整合,將關鍵業務信息引入團隊協 作的渠道,才能發揮最大價值。我們的Slack軟件與IBM Watson AIOps結合后,IT運營人員可有效協作,針對異 常事件提出解決方案,從而把寶貴的時間花在解決問題而非 尋找問題上”。15 故障預測
38、,提升前瞻性。利用機器學習,AIOps可以持續訓 練并優化算法模型,實現基于異常特征的故障預測,提前作 出預警。并借助相關情報與數據洞察,能夠更快、更高效地 預先制定決策,提升整個 IT 環境的統籌化管理水平,提高 成本和使用的管控能力。 根因分析,提升洞察力。在 AIOps加持下,云管理平臺可 借助機器學習和 AI 技術,前瞻性分析企業 IT 基礎架構的數 據模式,找出問題根源,然后向團隊傳達解決方案,并學習 識別未來實例的模式。因此團隊能夠快速識別問題根源,不 必耗時耗力遍查整個數據集,尋找并解釋異常狀況,從而加 速業務恢復,降低業務影響。 從以上場景中可以看出,通過智能的運維技術,實現了
39、自我 識別,自我預測,自我糾錯,讓事件響應、問題處理等運維 操作逐步做到非接觸、“無人化”,從而降低宕機風險和宕 機時間,在降低管理成本的同時,大幅提升業務的敏捷度、 準確度和預見性(請參閱邊欄“案例1: 某人壽公司,優化 運維流程,降低成本”“案例2:某領先汽車制造商,自動 化運營,提升效率”)。 案例1: 某人壽公司,優化運維流程,降低成本 16 采用 IBM 云原生軟件打造微服務架構,搭建保險核心系統, 同時也引入DevOps 和敏捷式開發,讓內部 IT 人員在保險 開發應用更加快速,優化運維流程,進而降低開發與運維人 力的成本。 案例2:某領先汽車制造商,自動化運營,提升效率 17 由
40、于多個云平臺和數據中心之間分散的監控工具管理不統 一,公司的交付和管理流程非常緩慢。但在實施了IBM 自 動化運營后,公司在全球可以采用統一的端到端管理戰略, 實現更高效的遠程運維及交付。 10 治理環 學習環 應力 穩態行 洞 規劃 預防 營 經驗訓和事后報告 危機后溝 領導力審 改進計劃 型更 時間 事件響應和危機行動 事件響應 類發現證 危機溝 協作 利益相關方理 敏捷性 (五)強大的危機管理 ,確保業務的安全性和永續性 網絡安全永續能力是指組織預防和應對網絡攻擊、重新恢復 運營以及維持內部和外部運營完整性的能力。威脅、漏洞和 風險是三大核心安全問題: 威脅:任何有意或無意利用漏洞以及強
41、占、損害或破壞信 息或運營資產的行為。 漏洞:安全計劃的弱點或不足,很可能被威脅所利用,從 而能夠未經授權地訪問資產。 風險:因漏洞被利用所引發的威脅造成損失、損害或破壞 的可能性。 如果企業只是在危機期間臨時做出決策,只會加劇數據泄露 風險,甚至危及業務運營,由此引發的潛在影響也更加危險。 因此企業的負責人需要根據網絡安全危機的生命周期,建立 完整的管理體系,以應對不確定性環境中可能發生的各種不 可預見的、影響力巨大的事件。具體來講,網絡安全危機的 生命周期由三個階段組成(見圖6): 第 1 階段: 穩態運行,周密規劃 “凡事預則立,不預則廢”。如果組織尚未制定“網絡安全 事件響應計劃”,務
42、必立即采取行動。如果領導者已完成規 劃階段,應立即抓住機會,評估該計劃,確定是否存在任何 不足。 比如:國內某股份制商業銀行,復工后大量銀行員工采用遠 程打卡和遠程會議的方式辦公,這可能導致信息安全風險。 IBM安全咨詢團隊為銀行客戶評估了遠程辦公模式下的數據 泄漏風險和業務連續性風險,及時提供了數據安全和業務應 急預案的改進建議。18 此外,還可通過模擬,優化組織在災難期間的執行力。盡管 無法替代真實情況,但演練和重復模擬有助于發現風險管理 和風險緩解模型的不足。團隊實踐經驗越豐富,認識越深入, 越有利于在實際發生安全事件時做出預測和響應。 組織面臨的如新冠疫情之類的挑戰具有動態、突發及不可
43、預 測等特點,而且往往相互依存。因此危機響應是網絡安全、 技術和運營團隊跨職能、甚至跨組織的協作活動。 風險一旦 變為現實,各團隊就必須調整業務重心,從規劃和建模轉到 事件響應、災難恢復和業務連續等工作上來。最重要的是, 務必確保規劃 、模擬流程與行動 、響應流程保持一致(請參 閱邊欄“某國內商業銀行:企業級安全運營中心規劃,助力 云上安全的全面保護“)。 第 2 階段: 事件響應,危機行動 盡管我們總覺得計劃周密,準備充分,但顯而易見,危機總 是讓我們措手不及。當危機(如新冠病毒疫情)勢不可擋地 席卷各行各業的組織時,很可能引發系統性崩盤。一旦形成 系統性風險,企業的日常運營能力很可能與關鍵
44、基礎設施發 揮同等重要的作用,因此需要大幅調整到穩態運營模式。 圖 6 網絡安全危機的生命周期 11 來源:IBM 商業價值研究院分析。 當真正爆發危機時,經過模擬演練的團隊在更新響應計劃及 優化實施措施方面通常表現更佳。因為團隊知道該做什么, 領導也有能力密切關注形勢發展。同時,還可以根據需要做 出決策和調整, 從而保障員工、 客戶及其他利益相關方的安全 ; 保護數據完整性;應對事件,幫助緩解特定危機。 如果危機肆虐各行業并引發嚴重的社會動蕩,企業必須采用 全新方法, 充分利用運營資源, 提供援助, 幫助社會恢復信心。 一旦發生安全違規或網絡攻擊,高管必須迅速向客戶及其他 利益相關方建立信心
45、,表明正在盡全力解決問題。除了要了 解如何從技術層面控制安全違規事件,還需要做好處理人際 關系的準備。 第 3 階段: 恢復運營,積極改進 新冠疫情只是全球不確定環境中的一次動蕩事件,企業需要 從這次事件中吸取經驗教訓,改善未來的應對之策。這就需 要企業投資培養以下新型技能,增強企業的永續和適應能力: 1. 企業需要具備自動化數據收集的能力,借助現代遙測和日 志文件,捕獲解決方案。即使危機結束后也能對攻擊模式 進行建模,確定攻擊特征以及復盤違規事件。 2. 企業要培養安全措施自動化能力。這樣專家團隊就可以解 放出來,將精力集中在需要深入分析的威脅上面。 3. 企業需要貢獻并利用威脅情報。企業貢
46、獻威脅情報數據, 有助于增強所有組織的網絡安全永續能力,而企業利用威 脅情報中的洞察,可以加快威脅檢測和響應速度。 4. 開展協作和持續學習。網絡安全永續能力較強的組織采用 “發現、學習、適應和迭代”的持續循環,開展運營工作。 5. 提高安全意識。網絡安全永續能力較強的組織將安全視為 自己的優先戰略能力。 IBM調研顯示,僅有 25% 的受訪 者認為所在企業的網絡安全永續能力較強。20 12 某國內商業銀行:企業級安全運營 中心規劃,助力云上安全的全面 保護 19 2018年,為應對安全與合規的雙重挑戰,某商業銀行與 IBM展開合作,通過部署 IBM QRadar SIEM解決方案,打 下良好
47、的安全運營中心(SOC) 基礎。但安全是一場不能停 歇的旅程,今天抵達的終點即是明天的新起點。無論是出于 內部對數字生態戰略的安全保障要求、日益嚴峻的安全大環 境、 愈加嚴格的外部監管要求, 還是來自同業安全建設的壓力, 銀行都需要繼續升級現有的安全運營能力。 SOC 一直在不斷進化以滿足當前和未來的安全運營需求,具 備認知功能的網絡安全以及混合銀行各類風險的融合SOC是 未來趨勢。作為云上全面安全的下一站,該銀行決意把握住 發展趨勢,構建一個具有前瞻性、可持續演進、自適應網絡 威脅態勢感知的數字 SOC。 在就建設路線和目標達成共識的基礎上,IBM評估、規劃、 設計 SOC 以及支撐該中心的
48、整體安全體系,幫助其快速實現 SOC的基本功能,并在不遠的將來使該銀行成為銀行業內重 要的安全托管服務(MSS)提供者。遵循成熟的 SOC 建設方 法論,本規劃經歷了研討、成熟度評估,戰略規劃后即穩步 進入設計與實施階段,依據運行情況將進行相應的后續優化 與改進。 規劃后的企業級安全運營中心將成為該銀行的風險融合中心, 運用演繹推理和自我學習能力,全面應對科技安全風險、重 要業務風險,對整個銀行環境進行安全防御。同時,它將在 未來5年內為客戶的集團及子公司與金融云租戶提供安全服 務,也為數字生態相關合作伙伴提供專業的安全托管服務, 安全護衛其銀行業務的長遠發展。 知名電信運營商:靈動交付,助力
49、 打造供應鏈云平臺,加速數字化 轉型 21 IBM 借助高效的遠程實施能力,助力國內知名電信運營商建 設一套集約高效、精益敏捷的供應鏈集中管理平臺。 平臺系統覆蓋總部、省、地市三級,對原有單體架構進行整 體優化與遷移,通過前后端分離技術,實現供應鏈全業務流 程覆蓋, 實現了總部及全國 5個大區,包括 8個統建省和 23 個接口省的供應鏈全業務流程的覆蓋,有效支撐企業供應鏈 管理的高效數字化轉型。 IBM 強有力的交付能力,以更低的成本實現了高可用、高擴 展、 高響應, 降低了客戶 20% 在人力成本上的投入。 這種 “可 視化”的遠程交付管理模式,獲得了客戶的高度信賴和評價。 (六)靈動的交付
50、模式,打造全新的數字化工作體驗 隨著疫情危機持續蔓延并逐漸成為常態,傳統工作模式和工 作流程受到嚴重沖擊,越來越多的企業員工分散在各地,以 遠程、非接觸式的方式開展工作。在這種新的工作方式下, 企業如何為員工提供必要的技術基礎和工具?如何以不同于 以往的方式與員工互動?如何調整工作方法和實踐,適應新 常態,支持推進工作?所有這些都需要企業必須采用新一代 的彈性工作模式,打造全新的數字化工作體驗,保證業務不 中斷,加速數字化轉型的速度。 靈動交付代表了新一代的創新工作模式,通過“現場”與“遠 程”相結合的混合模式,開啟虛擬互動、交付服務新時代的 大門,讓員工隊伍可以大規模地開展遠程工作,企業也能