《北京金融科技產業聯盟:2023金融數據中心網絡數字化能力建設研究報告(83頁).pdf》由會員分享,可在線閱讀,更多相關《北京金融科技產業聯盟:2023金融數據中心網絡數字化能力建設研究報告(83頁).pdf(83頁珍藏版)》請在三個皮匠報告上搜索。
1、金融數據中心網絡數字化能力建設研究報告北京金融科技產業聯盟2023 年 7 月I版權聲明本報告版權屬于北京金融科技產業聯盟,并受法律保護。轉載、編摘或利用其他方式使用本白皮書文字或觀點的,應注明來源。違反上述聲明者,將被追究相關法律責任。II編制委員會編制委員會編委會成員:王長江聶麗琴編寫組成員:吳仲陽陳鵬霍江游宮晨翟菁張繼東劉洋施海捷徐曉宇李寶琨羅新冬孫其新李培彭志航編審:黃本濤周豫齊吳仲陽陳鵬參編單位:北京金融科技產業聯盟秘書處中國工商銀行股份有限公司中國銀行股份有限公司中國光大銀行股份有限公司中國銀聯股份有限公司華為技術有限公司騰訊云計算(北京)有限責任公司螞蟻科技集團股份有限公司新華三
2、技術有限公司北京凝思軟件股份有限公司III摘要摘要金融科技發展規劃(20222025 年)提出“金融業數字化轉型更深化”的發展目標,要求金融業數字化邁入深化發展新階段,數字化轉型的理論、方法、評價體系基本形成,金融機構數字化經營能力大幅提升。數據中心網絡作為金融機構重要的信息基礎設施底座,其自身也需要進行數字化轉型,從而為金融業務發展創新提供穩定、敏捷、安全和智慧的網絡服務支撐。本報告首先闡述金融數據中心網絡的發展歷程,分析了金融數據中心網絡面臨的挑戰及發展趨勢,圍繞金融數據中心網絡數字化能力建設,定義了數據中心網絡數字化總體架構、能力定級和評價模型,以期為金融機構數據中心網絡數字化建設、維護
3、及運營提供指引與參考。關鍵詞:關鍵詞:網絡數字化轉型、數字化架構、智能運維IV目錄目錄一、研究背景.1(一)引言.1(二)發展歷程.1(三)面臨挑戰.3(四)發展趨勢.5二、金融數據中心網絡數字化能力架構及保障機制.8(一)總體架構.8(二)業務架構.10(三)應用架構.17(四)數據架構.29(五)技術架構.35(六)保障機制.41三、金融數據中心網絡數字化能力定級及評價模型.43(一)整體評分框架.43(二)戰略愿景維度.46(三)用戶體驗維度.48(四)技術能力維度.50(五)組織流程維度.61四、實踐案例.62(一)工商銀行數據中心網絡數字化實踐.62(二)中國銀聯數據中心網絡數字化實
4、踐.67(三)電信運營商網絡數字化實踐.74五、總結.781一、研究背景(一)引言(一)引言人工智能、區塊鏈、云計算、大數據和互聯網等新技術賦予了金融科技新的內涵,支撐新的金融業態不斷發展。金融科技創新如何突破傳統,將金融業務與新技術更緊密融合,加速金融業向數字化、智能化轉型,支撐金融新業態發展,成為需要認真思考的問題。金融業信息系統技術架構從“主機+平臺”向“云計算+分布式”全開放平臺架構演進。作為金融信息系統技術架構的重要基礎底座支撐,數據中心網絡需要建設更靈活的架構、更敏捷的資源交付能力、更易復用的標準化服務,向高可用、高性能、高智能方向發展。傳統的網絡能力和運營模式無法滿足上述金融數據
5、中心網絡的發展要求,金融機構還需加快推進數據中心網絡的自動化、智能化建設,借助網絡自身的數字化轉型,構建端到端網絡自動化、智能化的方法,幫助簡化業務部署,推動網絡自配置、自修復、自優化能力的全面提升,改善網絡服務體驗。(二)發展歷程(二)發展歷程回顧金融數據中心網絡的發展過程,可劃分為下面 4 個階段。1.經驗驅動階段1.經驗驅動階段2金融數據中心網絡初步發展階段,網絡規模小,技術棧相對單一,業務變化小,網絡變更量少,所維護的網絡設備也以傳統的路由交換設備、防火墻等為主。網絡規劃運維等活動主要由運維人員基于經驗作出決策和操作。這一階段通常采用人工維護方式,結合部分自動化工具來管理數據中心網絡。
6、2.流程驅動階段2.流程驅動階段金融數據中心初具規模,工商銀行在國內金融業首開“數據大集中”先河,引領金融業進入集中式超大規模數據中心時代。在數據大集中的背景下,金融業網絡規模呈現快速增長態勢,依賴傳統經驗驅動管理模式無法滿足大量網絡資源交付的要求。這一 時 期,金 融 業 依 托 ITIL(InformationTechnologyInfrastructure Library,信息技術基礎架構庫)及 ITSM(ITService Management,IT 服務管理)實踐框架建立明確的運維和管理組織及職責定義,相關運維和管理工作有明確的流程和規范進行指導。這一階段,金融業圍繞流程管理推出了應
7、急處置、變更執行、批量配置下發等一系列自動化工具,為支撐網絡規?;?、平臺化運維打下了堅實的基礎。3.數據驅動階段3.數據驅動階段金融數據中心進入云計算時代,數據中心網絡引入 SDN(Software Defined Networking,軟件定義網絡)技術,實現3物理網絡和云網絡的解耦。網絡設備也從常見的硬件設備轉向以SDN 轉控分離和 NFV(Network Functions Virtualization,網絡功能虛擬化)為代表的軟件化階段。新技術的引入給網絡運維帶來了極大的壓力。這一階段,云化數據中心為金融業提供按需自助、資源池化、彈性伸縮的標準化服務能力。金融數據中心網絡經歷全面云化改
8、造,以數據驅動的服務化模式提升數據中心網絡自動化運維管理能力及網絡服務化水平。4.智能驅動階段4.智能驅動階段隨著金融數據中心規模的進一步擴大,需要通過大數據和人工智能(AI)技術實現網絡運營過程中的數據、技術、流程和組織的智能協同優化。未來,金融數據中心將成為“數智中心”。金融數據中心系統架構復雜、技術棧多樣化、設施規模擴大,要求數據中心提供更加快捷的彈性擴展,更加便捷的網絡管理,更加可靠的網絡支撐,需要數據中心具備更多的業務創新能力。這一階段,通過大數據和人工智能(AI)技術,實現數據中心網絡的虛實映射,提供更加高效、安全、便捷的數據中心網絡管理。(三)面臨的挑戰(三)面臨的挑戰金融數據中
9、心網絡在支撐金融業務不斷發展和自身技術不斷創新突破的過程中面臨極大挑戰。41.金融業務不斷發展帶來安全生產挑戰。1.金融業務不斷發展帶來安全生產挑戰。金融業持續深化數字化轉型,金融業務快速迭代,每年存在海量的應用上下線。比如雙十一期間,金融機構要求靈活、按需、快速部署上線擴容數千個應用實例,需要數據中心網絡提供敏捷的開發和部署能力。金融業務不斷發展還帶來另一個挑戰,那就是數據中心變更量大,以工商銀行數據中心為例,每年實施超過 3 萬個網絡相關變更,網絡專業團隊近一半人員忙于網絡方案編寫、變更實施以及檢查校驗。2.多中心多活分布式架構帶來互聯挑戰。2.多中心多活分布式架構帶來互聯挑戰。隨著金融數
10、據中心對可靠性要求的提升以及業務量的持續增長,金融數據中心架構經歷了同城主備中心、兩地三中心階段,未來將向多地多活中心持續發展。一方面,數據中心布局的演進支撐信息系統架構分布式轉型發展,給基礎設施網絡帶來持續互聯挑戰。另一方面,分布式信息系統規模龐大,技術棧復雜,存在配置關系多變、分布式架構下調用復雜、異常發現及故障定位困難等痛點問題,對傳統運維模式提出了嚴峻的挑戰。3.超大規模設備帶來海量設備管理挑戰。3.超大規模設備帶來海量設備管理挑戰。隨著金融業務以及金融用戶規模的增長,服務器規模和網絡規模日趨龐大。以大型商業銀行為例,服務器規模普遍在數萬至十數萬臺,網絡設備規模超萬臺,未來向數十萬臺服
11、務器和十數萬臺網絡設備的規模發展。如何管理海量 ICT 設備成為一個新的挑戰。4.多類技術棧共存帶來運維挑戰。4.多類技術棧共存帶來運維挑戰。全棧云成為建設金融云的5主要選擇,包括生產云、測試云、研發云,以及具備公有云屬性的分行云、集團云。多朵私有云之間、私有云與傳統網絡之間、軟件 SDN 網絡與硬件 SDN 網絡之間存在差異,導致彼此之間互聯互通部署效率低且容易出錯。另一方面,數據中心網絡中存在硬件 SDN 網絡、軟件 SDN 網絡以及傳統網絡等多種技術棧,也存在跨廠商異構組網的情況。整體運維效率低,跨廠商、跨技術棧的統一運維管控水平有待提升。(四)發展趨勢(四)發展趨勢當前數據中心網絡整體
12、架構圍繞云計算、分布式等關鍵 IT架構持續演進,重點從數據中心內、數據中心間組網、網絡智能運維及數字化轉型等方面分析其發展趨勢。1.數據中心內組網1.數據中心內組網金融業務發展要求金融機構數據中心網絡架構具備資源池化、靈活彈性、交付自動化與服務化能力。一是面對金融機構創新應用快速發展需求,網絡提供靈活的資源配置、資源調度和敏捷的應用部署能力。二是面對業務快速增長,網絡容量具備足夠的高并發和抗沖擊能力,并且具備靈活的按需擴展能力。三是人工智能、大數據、云計算為代表的新技術與金融業務深度融合,要求提供高帶寬、低時延的高性能網絡。2.數據中心間組網2.數據中心間組網金融機構多地多中心多活部署架構逐漸
13、成熟,應用流量模型發生巨大的變化。數據流從數據中心內部逐漸延伸到數據中心之6間、數據中心與分支機構之間的廣域骨干網上。金融行業廣域網應具備架構簡化、服務差異化、調度自動化的能力,支持全渠道業務的多種鏈路接入,提升網絡可規劃能力,滿足不同業務靈活接入以及不同用戶差異化服務的需求,更好地支撐金融業務創新。3.網絡智能化運維3.網絡智能化運維隨著金融業分布式架構轉型和云計算推廣,傳統運維模式在發布時,網絡就緒能力、運行時可視化能力、異常時感知能力、故障時根源快速定位能力等方面面臨嚴峻挑戰。應結合 AIOPS 運維理念,對網絡運維進行數字化改造,利用大數據及人工智能技術在運維領域的創新應用,解決在 I
14、T 架構轉型背景下大規模數據中心運維的難點痛點問題。4.網絡數字化轉型(1)目標4.網絡數字化轉型(1)目標金融機構在推動數字化轉型方面持續發力,金融數據中心網絡作為金融信息基礎設施的重要組成部分,其數字化建設尤為重要。金融數據中心網絡數字化的目標是到2025年數據中心網絡整體水平與核心競爭力實現跨越式提升,數字化轉型高質量推進,構建數字化、智能化的數據中心網絡,打造金融機構數字化轉型的信息高速公路。一是更高效的數據中心網絡服務。一是更高效的數據中心網絡服務。通過數字化的管理方式,實現數據中心網絡資源的更均衡部署,實現服務供給的更加敏7捷,網絡運行的更加高效。通過AI人工智能、自動傳感器、巡檢
15、機器人等關鍵技術手段,重構高效的數據中心網絡服務體系。二是更可靠、體驗更優的數據中心網絡服務。二是更可靠、體驗更優的數據中心網絡服務。建立高可靠、多層級的容災體系,提升節點感知、異常發現、故障預測能力,降低人工風險,提供高可靠安全的數據中心網絡服務。通過 AI智能調優、多場景協同聯動、一體化管控、運營管理模式轉型升級等手段提供體驗更優的數據中心網絡服務。三是更先進的技術創新服務。三是更先進的技術創新服務。構建運維和管理中臺能力,通過數據共享協同、AI 仿真演算等關鍵技術能力提升,實現技術創新快速落地應用。(2)措施(2)措施為實現金融數據中心網絡數字化轉型目標,構建金融數據中心網絡數字化體系,
16、應在戰略規劃、組織架構、運營規范以及總體架構設計等方面落實關鍵措施。一是戰略規劃。一是戰略規劃。深化數據中心網絡數字化變革,制定明確的戰略愿景、數字化轉型的發展規劃。牽引構建數據中心網絡數字化頂層架構及戰略規劃,數字思維深入組織和成員。二是組織架構文化及人才管理。二是組織架構文化及人才管理。強化數字思維、培育數字文化,提升全員數字素養,將數字理念深度融入組織價值觀,增強對數字化趨勢的洞察力與適應力。改革數據中心網絡的組織結構,匹配數字化轉型,確保金融業務更加敏捷,更加高效。三是數字化運營體系流程規范。三是數字化運營體系流程規范。金融數據中心網絡數字化運8營體系的建立,圍繞數字化,智能化設置流程
17、規范,建立數據中心網絡數據的全生命周期管理規范和體系,有力推進數據中心網絡數據規范。四是總體架構及關鍵技術。四是總體架構及關鍵技術。明確數據中心網絡數字化轉型理論、方法和體系。構建數據中心網絡數字化的總體技術架構和技術體系,定義關鍵技術和競爭力,實現更好的金融業務創新。通過數據中心網絡中臺建設、AI 仿真演算、大數據、數字孿生、可編程網絡等關鍵技術,顯著實現金融服務提質增效。二、金融數據中心網絡數字化能力架構及保障機制金融行業數字化轉型已深刻地改變了金融 IT 服務和運營管理模式,傳統的網絡運營維護工作面臨巨大挑戰。為解決金融網絡系統和服務存在的問題,本章提出有效融合網絡系統和網絡服務的“數字
18、網絡”,參考業界最佳實踐,開展“數字網絡”的頂層設計,為后續轉型路徑和能力評估模型規劃提供指導。(一)總體架構(一)總體架構金融數據中心網絡數字化能力架構是通過企業級架構開發方法進行系統性規劃,結構化地描述“金融網絡數字化需要什么”,進而構建從戰略到執行的橋梁。企業級架構包含如圖 1 所示的 4 個子架構,通過企業架構規劃實現金融業務和網絡的有效融合,從根本上提高網絡給業務帶來的價值。其中,業務架構側重于描述業務“做正確的事情”,通過對業務流程的梳理和設計,確保金融數據中心網絡數字化戰略得到有效執行。應用架構、數9據架構和技術架構側重于“正確的做事”,通過業務實體、應用服務、平臺等數字化手段確
19、保業務架構的規劃和設計能夠得到支撐,使得網絡數字化運營轉型在業務戰略和業務架構規劃設計的指導下有序開展,滿足數字化網絡服務和運營的需求。圖 1 融合的企業架構金融網絡系統和服務的整體藍圖和架構,明確網絡部門關鍵業務和技術要素,確保網絡服務等級和運營效率目標的達成,支撐網絡數字化能力的構建??傮w規劃思路見圖 2。圖 2 規劃思路10通過筑牢云化服務平臺、運維及安全體系兩個基礎,構建 1個數據核心,通過構建基礎層、領域層、應用層、接口層,賦能規劃、構建、交付、運營 4 類業務。實現一站式、實時、按需、自動化、端到端全生命周期的網絡即服務,提供使能金融機構的網絡即平臺,達成更便宜、更快捷、更優質的
20、3 大目標。助力金融數據中心網絡服務和運營管理數字化,以網絡團隊零接觸運維、業務部門零等待創新、最終用戶零故障體驗的數字化愿景,為金融機構 IT 整體服務提供一致化的網絡支撐,支撐智慧金融體驗提升和業務創新。(二)業務架構(二)業務架構業務架構是對業務的結構化表達,描述組織如何運用業務的關鍵要素來實現其戰略意圖和目標,詳見圖 3。圖 3 業務架構體系示意圖業務架構代表了整體、多維的業務視圖,以及這些業務視圖和戰略、產品、策略、計劃及利益相關者之間的關系。通過業務架構的規劃,明確了金融網絡服務的業務能力。這些業務能力聚集在端到端價值交付的價值流中,并由金融機構網絡服務管理和運營的組織和人員、信息
21、和技術系統、價值流和流程等賦能。111.整體設計1.整體設計金融數據中心網絡數字化相關 6 要素如下:(1)價值流:(1)價值流:網絡規劃、網絡建設、網絡維護、網絡優化、網絡運營。(2)能力:(2)能力:感知、分析、決策、執行、體驗等。(3)組織:(3)組織:研發團隊、系統團隊、平臺團隊、平臺網絡團隊、應用網絡團隊等。(4)資源:(4)資源:配置文件、IP、服務器、應用日志、路由域、線路等。(5)流程:(5)流程:變更流程、應急處置流程、資源申請流程等。(6)角色:(6)角色:一線及二線運維人員、廠商支撐等。通過以上分析,進一步推導出金融網絡數字化對應的業務領域和業務子領域,如圖 4 所示(包
22、括部分業務場景,非全量)。圖 4 整體業務架構設計示意圖122.詳細設計2.詳細設計業務架構詳細設計按照規劃、建設、維護、優化和運營 5 個階段展開。本文以場景示例的形式展開說明。(1)規劃階段(1)規劃階段針對新建區域(如數據中心核心區、骨干區、業務區等),設計并規劃組網及相關網絡資源,輸出方案規劃和方案設計。詳細的活動分解如表 1 所示。表 1 區域組網規劃表業務場景業務場景活動活動任務任務步驟步驟網絡區域規劃需求分析預測需求分析預測需求分析預測方案規劃(HLD)架構規劃架構規劃參數配置規劃服務信息解決方案設備規劃訂單選型部件命名規則歸屬物理組網規劃節點位置設備位置邏輯組網規劃邏輯拓撲歸屬
23、區域鏈路帶寬收斂比方案設計(LLD)布局設計布局參數機柜布局13(2)建設階段(2)建設階段應用上線后,需要開通該應用與用戶端及其上下游應用的訪問關系,需要網絡人員定位控制點并生成相關配置下發到相關的設備上。詳細的活動分解如表 2 所示。表 2 開通訪問關系表板卡布局連線設計信息點規劃連線狀態網絡設計IP 設計路由設計聚合口設計子接口設計帶內管理設計VRF 設計高可用設計仿真決策現網數據采集現網數據采集LLD 生成規劃 cfgLLD 生成規劃 cfg仿真驗證路由黑洞檢測路由環路檢測沖突檢測業務場景業務場景活動活動任務任務步驟步驟開通訪問關系感知意圖輸入web 提交需求ITSM 同步需求分析合規
24、檢查跨區合規分析病毒端口分析需求合并IP 聚合應用聚合14(3)維護階段(3)維護階段當發生業務異?;蛘哂脩舯U蠒r,需要網絡人員快速根據故障現象排查網絡問題,識別根因并修復。詳細的活動分解如表 3所示。表 3 故障處理表業務場景業務場景活動活動任務任務步驟步驟故障處理感知意圖輸入同步事件單同步告警分析故障定位查找 IP生成變更單生成變更單NAT 分析是否需要 NAT確定 NAT 資源定位控制點網絡數據采集策略數據采集ACL 數據采集訪問路徑計算決策預檢獲取控制點存量配置判斷需求符合度生成變更腳本生成變更腳本復核變更腳本復核變更腳本執行執行變更腳本登陸設備執行變更腳本校驗網絡校驗ping 連通性
25、測試業務校驗端口連通性測試業務連通性測試異?;貪L異?;貪L15定位接入設備計算訪問路徑檢查設備狀態&告警端口環測,光功率自檢查看歷史變更撥測日志分析業務異常分析(包分析)決策故障映射根據根因查找故障預案執行故障隔離切換上聯節點屏蔽故障恢復設備重啟更換備件校驗網絡校驗ping 連通性測試業務校驗端口連通性測試業務連通性測試業務質量測試(4)優化階段(4)優化階段當數據中心運營一段時間后,業務不斷發展,導致安全策略及 ACL 條目呈指數級增加,幾百萬行的配置,使網絡管理人員無法進行有效的管理,最終可能導致人為配置下發錯誤等風險。詳細的活動分解如表 4 所示。表 4 ACL 優化處理表業務場景業務場景
26、活動活動任務任務步驟步驟ACL 條目優化感知意圖輸入健康巡檢同步告警和事件單16分析故障定位ACL 條目數與規格對標ACL 優化策略日志分析業務異常分析決策優化決策ACL 優化邏輯梳理ACL 接入點架構優化邏輯執行優化執行ACL 優化ACL 接入點架構優化校驗網絡校驗ping 連通性測試業務校驗端口連通性測試業務連通性測試業務質量測試(5)運營階段(5)運營階段金融機構在不同地域規劃建設多個數據中心和大量網點,依賴運營商專線互聯導致專線費用常年高企,如何有效利用專線帶寬實現金融業降本增效是重要關注點。詳細的活動分解如表 5 所示。表 5 專線優化處理表業務場景業務場景活動活動任務任務步驟步驟A
27、CL 條目優化感知意圖輸入專線質量月報健康巡檢分析需求分析專線利用率分析專線丟錯包等質量分析業務 SLA 需求分析業務異常分析決策優化決策專線帶寬調整策略優化思路17鏈路質量感知優化思路執行優化執行專線帶寬調整策略優化鏈路質量感知優化校驗網絡校驗ping 連通性測試業務校驗端口連通性測試業務連通性測試業務質量測試(三)應用架構1.整體設計(三)應用架構1.整體設計金融數據中心網絡數字化應用架構設計按照監控、管理、控制、分析 4 個工作流展開,如圖 5 所示。圖 5 應用架構示意圖2.詳細設計2.詳細設計18(1)監控工作流(a)資源監控。(1)監控工作流(a)資源監控。網絡資源監控是日常網絡運
28、維的核心部分,包括網絡設備的性能指標及日志的監控和告警,是網絡監控的核心能力。監控服務應提供網絡全維度的監控能力,可針對全區域,多維度提供詳細、實時的網絡監控服務。全區域應涵蓋不同廠商、不同業務區域、不同形態云。多維度應包含物理、協議、資源、應用、質量、風險等維度。監控服務應提供開放性網絡監控能力,可根據需要,動態增加一些滿足用戶預期的監控對象和效果,讓統一監控內容更加豐富完善。(b)網絡流量監控。(b)網絡流量監控。網絡流量監控是對網絡中所傳輸的數據進行檢測、分析、診斷,幫助用戶排查網絡故障,提升網絡可用性。網絡流量監控需具備的核心能力應包括數據采集、數據過濾、協議分析、故障分析、數據統計、
29、數據包解碼、數據輸出等。網絡流量監控包含以下場景:查找和排除網絡故障;查找網絡瓶頸提升網絡性能;發現和解決各種網絡攻擊行為;分析統計流量與帶寬;查看監視網絡活動;分析各種網絡協議,管理網絡應用質量。(c)主動診斷監控。(c)主動診斷監控。利用數據中心內以及分布于全球的監測網絡,以應用或真實終端用戶使用場景為視角,提供模擬終端用戶體驗的診斷服務。需對網絡質量、頁面性能、業務行為、端口性能檢測等場景進行監控,支持多維度分析性能指標,保證業務穩定正常運行。19(d)應用性能監控。(d)應用性能監控。應用性能監控能夠提供代碼級性能監控輔助定位故障。通過微服務分布式調用鏈追蹤可實現每一筆交易和請求的傳輸
30、路徑信息。結合用戶體驗監控,可以實現從前端用戶體驗、網絡延遲到后端業務代碼、服務和基礎設施依賴的全棧溯源能力,提供端到端全鏈路數據分析能力。應用性能監控需具備全量數據采集、分層展示調用關系拓撲、調用鏈追蹤、業務關聯等關鍵能力。(e)用戶體驗監控。(e)用戶體驗監控。在用戶日常使用金融產品過程中,偶爾會遭遇一些較差的用戶體驗,如 APP 啟動慢、崩潰、網絡響應超時等,用戶對產品的體驗影響金融產品的口碑。用戶體驗監控實現對全場景、全用戶在產品使用過程中對用戶體驗的實時“監控”,可以感知到多場景多用戶的體驗質量。通過端到端性能管理來優化用戶體驗,監控 Web 應用程序的終端用戶體驗。用戶體驗監控應具
31、備監控實時 Web 用戶的體驗、透視響應時長、了解全局用戶體驗、監控各環節性能、用戶操作路徑分析等核心能力。(f)告警。(f)告警。告警是網絡監控領域傳統的網絡服務,提供了網絡的告警和通知機制,通過定義不同的級別,讓用戶感知告警并處理。數字化告警服務應具備告警清洗、告警通告、聚合關聯、告警監控、智能告警等關鍵能力。(2)管理工作流(a)網元管理。(2)管理工作流(a)網元管理。網元管理是基礎設施的管理維護能力,通20過發現納管網元,實現對網元特定操作,比如對網元修改登錄密碼,對網元隔離修復業務問題等,獲取到的網元數據作為基礎設施數據來支撐上層應用。主要包括定義網元發現的多協議能力、定義網元的維
32、護管理能力以及定義網元數據資產能力。(b)配置管理。(b)配置管理。配置管理指對基礎網絡設施的部署配置,具備基礎網絡設施配置能力和修復能力。配置管理需具備的核心能力包括統一的配置模型、全量設備納管能力、故障修復能力以及易用擴展能力。(c)容量管理。(c)容量管理。數據中心的容量主要包括空間、電力、冷卻、承重和網絡等幾方面。只有當這幾方面指標同時合理時,數據中心的容量才是可用的。容量管理旨在確保數據中心基礎設施的容量與性能以經濟高效、及時的方式滿足不斷演進的業務需求,容量管理應具備容量監控、容量規劃、容量調優、容量分析等關鍵功能。(3)控制工作流(a)作業管理。(3)控制工作流(a)作業管理。作
33、業管理是為網絡運維定制的操作,支持腳本文件的分發、拉取、執行等,可實現各種復雜運維場景自動化操作。應提供端到端開放可編程能力,實現多廠商設備快速適配、新業務快速上線,為網絡自動化奠定基礎。自動化作業平臺架構如圖 6 所示。21圖 6 自動化作業平臺架構示意圖(b)流程管理。(b)流程管理。網絡流程指的是為了達成某個目標的一系列相互關聯、有組織的活動或任務。網絡的一些操作通常是需要串接多個步驟實現某一項管理任務。為了實現端到端流程的自動化,就需要一個流程編排引擎的應用系統,該引擎具備工作流編排、執行和控制能力,同時還支持對流程的狀態、數據進行記錄和管理。流程引擎,可以解析、執行、調度由用戶創建的
34、流程任務,并提供如暫停、撤銷、跳過和重試等控制能力和并行子流程等進階特性,并可通過水平擴展來進一步提升任務的并發處理能力,如圖 7 所示。22圖 7 流程編排示意圖(c)意圖管理。(c)意圖管理。意圖定義為金融業務期望從網絡中獲得的收益。例如“我希望部署開通一項新業務”或者“明天上午 10:00至 12:00 有一個重要的線上活動需要網絡保障”。意圖管理指的是圍繞用戶意圖,借助 AI 和大數據技術,通過觸發式地、交互式地、主動式地自動覆蓋金融網絡生命周期中網絡設計、策略配置和調整操作。將用戶意圖轉換為網絡系統可理解、可配置、可度量、可優化的對象及屬性,實現網絡設計和運維操作。意圖驅動網絡是一個
35、保證網絡能自動在由意圖對象表述出的意圖中實現狀態閉環的系統,如圖 8 所示,主要包含意圖識別、意圖轉譯、配置驗證、自動實施、自動調優等 5 個步驟實現閉環。23圖 8 意圖閉環示意圖(4)分析工作流(a)數字孿生。(4)分析工作流(a)數字孿生。數字孿生技術通過構建物理網絡實體及虛擬孿生體的實時交互映射,打造虛擬網絡數字世界,推動網絡由傳統的人工運維向智能運維的全生命周期網絡演進,提供以服務用戶和保障業務質量為核心的低成本試錯、高質量運維和網絡服務,如圖 9 所示。圖 9 數字孿生使能網絡數字孿生引擎主要圍繞數據、建模、仿真、可視4個方向,結合圖表征等數學和自治理論構建數字孿生引擎核心能力,2
36、4如圖10所示。圖 10 數字孿生引擎核心能力孿生數據。孿生數據。數字孿生引擎會收集網絡設備相關數據,并對這些多源數據進行全量映射,利用局部數據反向生成全網流量數據。通過開放數據采集框架靈活對接三方系統進行數據的自動采集和同步,進行數據清洗和加工,過濾冗余和沖突數據,最終將多源數據全面映射成唯一 ID,挖掘顯式及隱式關系,形成網絡數據資產。孿生建模。孿生建模。孿生建模是數字孿生引擎中核心的能力,也是考驗數字孿生能否發揮價值的重要指標。通常針對大規模組網的海量數據,包括配置、路徑、策略、流量等網絡多層異構數據,因涉及層內自治、層間關聯等問題,難于統一建模。數字孿生引擎25需利用圖論解決層內及層間
37、數據關系的抽象建模;利用圖表征解決網絡與應用行為模型的特征挖掘;利用組合優化實現網絡與應用的資源建模;利用圖論和概率論實現網絡自身可靠性的建模等等,最終解決海量異構多維數據的建模難題。通過網絡指標、日志、表項、應用流等多維異構數據采集、數據治理,實現原始數據向模型的準實時數據映射。孿生仿真。孿生仿真。孿生仿真是基于形式化驗證技術,通過構建大規模網絡虛擬環境執行仿真評估,實現模型運行、校驗,支持事件響應、狀態數據傳遞等數字孿生虛擬環境仿真系統構建。孿生仿真解決了大規模復雜組網、應用的業務抽象建模及高還原度在線運行問題,以及形式化仿真驗證技術在實際業務中的可靠性和準確性問題。仿真的價值在于通過模型
38、雙向映射及形式化建模仿真等技術,實現復雜規模網絡下應用的仿真及業務評估,零風險、低投入實現網絡 SLA 保障。孿生可視。孿生可視。孿生可視是解決最終用戶的數據使用體驗,通過可視化的方式將內部建模后的多維數據進行綜合可視。孿生可視應具備數據整合呈現能力,打造成 IT 基礎設施的數字地圖底座。將來自不同應用/環境等多重信息按照場景有機整合到地圖主畫布中,通過多圖層、多視角、多維度的方式將內部數據進行全方位展示。數字地圖通過在可觀測性數據與直觀的地圖顯示之間搭建橋梁,如圖11,幫助用戶快速理解這些數據。26圖 11 數字地圖分層示意數字地圖的核心能力包括網絡拓撲關系智能還原、網絡狀態實時疊加、應用+
39、網絡全方位關聯映射、全??梢?、一鍵網絡導航、全網檢索等。通過數字地圖的形式將數字孿生的能力進行泛化,孵化更多有價值場景,實現自動、自優、自治的高階服務。(b)知識圖譜(b)知識圖譜知識圖譜(Knowledge Graph)本質是一種大規模語義網絡,包含實體、概念及其之間的各種語義關系。知識圖譜通過對海量信息進行有效的加工、處理、整合,轉化為簡單、清晰的“實體,關系,實體”三元組,三元組關聯形成圖模型來描述客觀世界知識,實現知識的識別、沉淀、推理等應用。通過知識圖譜技術,將網絡配置、狀態、關鍵指標等信息進行自動化建模,并通過故障與網絡事件自動注入,持續訓練實體間因果關系,可實現故障場景下多指標異
40、常傳播關系的模糊推理,快速識別故障類型與根因,如圖 12。27圖 12 知識圖譜示意(c)告警關聯(c)告警關聯故障處理是圍繞如何有效解除設備告警的過程,如何在海量的告警中識別真正有效的告警是故障處理的核心,有效告警數量是故障管理成本的決定性因素,因此提升告警壓縮率把海量告警數量壓縮關聯輸出盡可能少的有效告警是故障管理的首要工作。智能告警關聯特性旨在減少人工處理關聯告警的工作量和難度,從原來人直接面對海量告警人工處理相關性和挖掘相關性,優化成人面對智能告警關聯輸出的相關性規則確認后預置。通過 AI 技術從歷史告警中學習出告警相關性規則,基本思路就是根據告警之間的時間和空間相關性,將經常一起出現
41、的告警挖掘出來。并將關聯規則應用到平臺告警模塊,對告警進行相關性分析。算法流程如圖 13。28圖 13 告警關聯邏輯(d)仿真驗證(d)仿真驗證數字網絡疊加當前運行的網絡數據后,就構成了一個網絡變更仿真的場景。網絡仿真演算能力的核心是基于數字網絡的建模、仿真和驗證算法。首先是通過對于網絡配置層面、資源層面和轉發層面的建模,形成一張與現網接近的虛擬網絡。然后,在這張虛擬網絡通過形式化的數學方法,快速地驗證網絡是否能夠提供可承諾的 SLA,包括連通性、隔離性、必經路徑、轉發黑洞、策略一致性、時延丟包等。網絡仿真的關鍵價值在于驗證,包括在線配置仿真驗證、離線配置仿真驗證和事后驗收。根據現網配置、拓撲
42、和資源信息作為輸入,通過網絡建模和形式化驗證算法,基于現網狀態仿真剩余網絡資源是否足夠、呈現詳細的連通性互訪關系、數字化模擬用戶意圖的執行、驗證意圖的預期效果、分析和評估變更對原有業務影響,并持續驗證業務意圖是否已經被滿足,進而保障用戶29網絡可靠性。網絡仿真的關鍵應用場景包括以下 3 方面。一是端到端意圖設計過程中的方案提前驗證,確保業務部署后,網絡不會因為新的意圖影響存量業務運行穩定性。二是意圖部署之后,驗收和保障意圖在網絡中的部署和實時運行情況,確保真實業務異常之前,發現多意圖疊加的情況下網絡的異常。三是虛擬網絡驗證和生產網絡解耦,實現離線的網絡驗證保障,網絡演算獨立于生產網絡單獨部署。
43、(四)數據架構(四)數據架構數據架構是金融機構信息系統架構的重要組成部分,通過數據架構可打通業務流,消除信息孤島,厘清核心數據與應用系統之間的應用關系。通過數據質量管理、數據生命周期管理等數據管控措施,確保數據的完整性、一致性和準確性,充分發揮數據的價值效應。1.數據資產目錄1.數據資產目錄數據資產目錄必須滿足金融機構各業務環節的使用需求和報告分析的最小粒度要求,通過分層架構表示對數據的分類和定義,分層規則如圖 14。30圖 14 數據資產分層架構示意針對關鍵業務架構設計進行數據資產目錄的分解作為示例,如圖 15。31圖 15 數據資產目錄示意322.數據標準框架2.數據標準框架數據標準用于統
44、一對數據的理解和使用,是對數據表達、格式定義的一致約定,包含數據業務屬性、技術屬性和管理屬性的統一定義。以下約定了金融行業數據中心網絡數字化數據標準的定義規范,包括定義框架和各屬性規范。數據標準框架和示例如圖 16 所示。圖 16 數據標準框架和示例333.數據模型設計3.數據模型設計數據模型是數據關系的一種映射,是將業務之間的關系用模型圖形化展示出來。模型設計遵循如下原則。(1)高內聚和低耦合原則。(1)高內聚和低耦合原則。一個邏輯和物理模型由哪些字段組成,應該遵循最基本的軟件設計方法論中的高內聚和低耦合原則。主要從數據業務特性和訪問特性兩個角度來考慮:將業務相近或者相關的數據、粒度相同數據
45、設計為一個邏輯或者物理模型;將高概率同時訪問的數據放在一起,將低概率同時訪問的數據分開存儲。(2)核心模型與擴展模型分離原則。(2)核心模型與擴展模型分離原則。核心模型包括的字段支持常用核心的業務,擴展模型包括的字段支持個性化或是少量應用的需要。必須在核心模型與擴展模型做關聯時,不能讓擴展字段過度侵入核心模型,以免破壞了核心模型的架構簡潔性與可維護性。(3)成本與性能平衡原則。(3)成本與性能平衡原則。適當的數據冗余可換取查詢和更新性能,但不宜過度冗余與數據復制。(4)命名清晰規范原則。(4)命名清晰規范原則。命名清晰可理解表命名規范需清晰、一致,表命名需易于下游的理解和使用。(5)同一語義原
46、則。(5)同一語義原則。相同語義的字段在不同表中字段名必須相同。以故障分析主題下的業務對象為例建模,如圖 17。34圖 17 故障建模示意4.數據分布模型4.數據分布模型金融數字化需要打通各系統的邊界,讓業務對象在各系統間流通。圖 18 是一個典型的系統間業務對象數據分布的舉例。圖 18 系統間業務對象數據分布示意355.數據生命周期5.數據生命周期首先應建立數據生命周期策略的全流程管理。建立數據生命周期管理設計策略,當數據對象設計或變更時應明確其數據生命周期管理策略,包括清理方式、保留時間、清理周期、是否歸檔等內容,并確認管理策略的合理性。當網絡應用版本發布時,對新增或有變更的數據生命周期管
47、理策略隨同版本同步發布,自動識別并執行數據生命周期管理工具,實現數據生命周期管理策略的賬實相符。其次建立數據生命周期工具的統一工具集,針對不同類型的數據庫環境,開發通用的數據生命周期管理工具(含清理、歸檔等功能),實現數據生命周期的自動統管理。優化實現生命周期管理信息的統計存儲和結果展現。實現各應用各階段信息的總覽視圖,獲知系統壓力情況。對清理作業和文件目錄容量進行監控,避免程序異常導致清理失敗或清理時間過長,避免文件過度增長導致空間資源消耗,影響業務正常開展。(五)技術架構(五)技術架構技術架構,是將產品需求轉變為技術實現的過程。技術架構解決的問題包括了如何進行技術層面的分層,如何選擇開發框
48、架,以及非功能性需求的技術點選擇(安全、性能、大數據)。技術架構包括了應用系統運行的技術組件、技術組件之間的關系,以及部署到硬件的策略。技術架構面臨最大的挑戰是“不確定性”。如何兼顧技術穩36定性和可演進性,需要在技術架構規劃過程中重點考慮。面對這些“不確定性”的架構設計問題,需要提供規劃原則和技術策略自頂向下的指導技術架構落地。規劃原則提供技術架構的方法和思路,屬于頂層設計;技術策略提供技術架構的技術實現方式,更偏向詳細設計。1.規劃原則(1)統一技術平臺:1.規劃原則(1)統一技術平臺:規劃建設統一技術平臺和基礎設施,以平臺化實現技術架構的歸一。(2)資源池化建設:(2)資源池化建設:通過
49、將資源池化,支持彈性擴縮容,以便支撐靈活未來業務發展。(3)服務化建設:(3)服務化建設:一是面向用戶提供自助式服務,按需完成資源申請、變更等;二是面向其他應用以 API 服務方式提供快速對接能力;三是服務便捷化,用戶便捷接入體驗一致的服務;四是整體服務目錄可擴展,服務化質量可度量,持續優化服務化能力。(4)雙模并行:(4)雙模并行:支持雙模 IT,穩態和敏態并存。(5)運營自智化:(5)運營自智化:支持管理和控制流程自動化編排,管控規則和技術平臺融合;部署自動化,自助按需發布。運維智能化,故障自動發現,可視化運營;(6)安全可靠:(6)安全可靠:根據金融監管要求實現生產與辦公業務安全隔離;具
50、備災難快速恢復能力,保障業務連續性運行。(7)架構可演進:(7)架構可演進:架構并非一蹴而就,適應業務需求變化,37需要有效地管理架構需求,持續構建和發展架構確保架構生命力。2.技術策略2.技術策略技術策略應符合先進性、開放性、分布式、服務化等方面,詳見表 6。表 6 金融數據中心網絡數字化能力定級技術策略技術策略技術策略描述成熟先進性描述成熟先進性 滿足業界主流技術趨勢,具備一定的成熟度。要具有先進性,適度超前,以適應未來發展。開放性開放性 開放接口,支持系統間協同交互、信息共享。采用業界主流開放架構平臺和技術。分布式分布式 基于分布式架構,設計適合金融網絡的技術架構。服務化服務化 基于服務
51、化架構,實現系統間的分層、解耦、隔離。易維護易維護 模塊化、標準化、規范化,便于統一運維管理。連續性連續性 關鍵業務保證 99.99%高可用能力。關鍵業務支持容災難場景下的業務連續能力。安全性安全性 具備對基礎設施進行基于事務的安全管控能力。企業內、外部資源訪問須經過授權和認證,支持審計管理。3.技術組件3.技術組件技術組件是業務架構、應用架構、數據架構的具體實現,基于易開發、可重用、簡集成等原則進行技術組件的劃分,總體原則是將復雜的大型系統按功能分解為若干個獨立的單元,其實現框架如圖 19。38圖 19 技術組件框架(1)通用組件(1)通用組件通用組件包含基礎管理和微服務治理等內容?;A管理
52、組件提供網絡數字化系統的基礎服務能力,主要包括用戶管理、權限管理、登錄管理、審計管理、工單管理等業務功能組件,以及消息隊列、緩存、事件驅動框架等功能組件。微服務治理組件包括服務發現、服務網關、服務編排、服務追蹤等。(2)中臺組件(2)中臺組件中臺組件主要完成金融網絡數字化系統的核心基礎業務功能,為上層的應用服務組件提供能力支撐。包括自動化中臺、數據中臺、管理中臺和監控中臺。自動化中臺主要實現網絡運維管理中操作任務的自動化,內容包括對網絡基礎設施進行配置發放、狀態數據的采集、配置變更等。自動化中臺需要將已經明確的配置變更指令或數據采集指39令發送給設備,使得設備可以按預期的方式運行和獲取指定的運
53、行數據。數據中臺匯聚網絡設備的運行數據,包括設備配置、路由表項、指標、日志、流量統計等信息?;诤A康木W絡運行數據及數據關系進行建模,建設基于數據的分析能力,包括告警聚合、根因分析、路徑計算、資源關聯治理等。數據中臺應具備不同數據源的存儲能力,包括時序數據、列式數據、圖數據以及關系型數據。面對不同的場景,需要具備在線和離線計算能力。管理中臺主要負責將金融業務應用系統的意圖轉換為網絡的實施實例,如應用系統間的互訪關系、應用服務器的上線遷移擴容等。應用系統的業務意圖轉換需要借助可編排的流程編排引擎及作業管理框架。管理中臺還應對網元設備、網絡資源等對象具備全生命周期管理的能力,實現對象的上線注冊、運
54、行狀態跟蹤、下線回收全流程線上管理。監控平臺需要實現端到端網絡監控能力,包括服務端的基礎資源監控、網絡流量監控、應用性能監控;客戶端的用戶體驗監控。為保障網絡穩定運行,通過監控數據可以快速發現系統故障及對容量異常變化。(3)功能組件(3)功能組件功能組件主要是支撐金融網絡數字系統的功能實現,包括服務器接入、應用網絡、互聯網運營、外聯網運營、廣域網運營等子系統。本文僅選擇部分子系統做說明,不再逐一贅述。40服務器接入子系統。服務器接入子系統。實現服務器、接入交換機的日常管理功能,包括互聯網應用上下線、外聯網應用上下線、內網應用上下線、服務器擴容、裸機擴容、虛機擴容、交換機設備替換、交換機設備擴容
55、等主要場景。另外需要涵蓋當前主流金融數據中心網絡架構,如傳統物理機網絡、硬件 SDN 網絡、軟件 SDN 網絡;核心網絡、一級分行服務器接入網絡、存儲區網絡、AI 高性能計算區網絡。廣域子系統。廣域子系統。實現廣域網線路的日常管理功能,包括核心骨干線路、一級骨干線路、海外接入線路、網點接入線路、城域線路等。廣域網絡承載了金融系統中核心的業務流量,包括數據中心間 DCI 流量、分支結構與數據中心間的流量、外聯機構與數據中心間的流量、互聯網區與數據中心之間的流量。廣域子系統支持的常用功能應涵蓋線路帶寬調整、QoS 調整、IP 地址變更、路由策略變更、隧道路徑變更等?;ヂ摼W子系統?;ヂ摼W子系統。實現
56、互聯網區網絡的日常端到端管理功能,包括服務于互聯網應用的網絡變更、網絡防護、應用訪問量保障等場景。外聯網子系統。外聯網子系統。實現三方機構金融業務的一站式端到端管理功能,主要功能包括:應用的外部 IP 路由在外聯網的發布和撤銷;Extranet 區的安全權限管理;外聯網接入區和 Extranet 區流量監控;外聯業務帶寬資源評估;外聯網接入區連接保障,快速感知故障、快速隔離故障,并恢復業務連接。41應用網絡子系統應用網絡子系統。實現應用 47 層網絡服務的一站式端到端管理,包括負載均衡和域名解析。(六)保障機制1.理順組織架構(六)保障機制1.理順組織架構建立與金融機構數字化能力架構相適配的組
57、織架構,金融數據中心網絡數字化轉型的組織人員架構應具備支撐業務數字化轉型和服務智能化的能力。一是一是構建以價值創造為導向,跨領域、跨部門、跨職能的橫向協作和扁平化管理組織結構,戰略、保障、實施協同推進,強化數據決策、技術支撐和生態運營能力,推動網絡數字化轉型向縱深發展。二是二是統一運維協同。以大型商業銀行為例,當前數據中心網絡運維職責主要以數據中心屬地劃分兩地或多地,網絡節點的軟硬件運維由所屬地網絡部門負責。同一類別網絡需要兩邊團隊協作維護。存在標準不統一,模式不一致,習慣差異較大等情況,給運維排障、維護管理等帶來新的挑戰。需要推動將同一類別網絡納入統一管理。三是三是成立網絡數據及智能化團隊,
58、加速建設網絡運維數據中臺提升統一的數據服務能力,重點挖掘網絡數據資產價值,支撐網絡數字化智能運營。四是四是成立分支機構數字化支撐團隊,提煉總結數字化轉型過程中的創新成果,促進分支機構數字化能力提升。422.培養人才隊伍2.培養人才隊伍全力打造數字化人才,構建業務科技互通的人才發展通道,著力培養既懂金融業務又懂數據和技術的復合型人才,探索建立有利于吸引留住人才的激勵機制,增強對創新人才的精準激勵。激發數字化人才創新活力。網絡數字化轉型帶來的架構層面“網絡軟件化”和運維管理層面的“軟件化網絡管理”,要求網絡團隊加速培養具備系統管理能力、軟件開發能力的綜合性人才,應建立對網絡團隊數字化轉型人員的配置
59、,一般建議配置不低于 40%。3.加強機制保障3.加強機制保障加大網絡數字化轉型資源投入,優化資源配置,提高資源效用。資源投入從常規的設備及硬件資產為重的傳統模式向數字化、軟件化、平臺化轉變。健全創新機制,加大外部合作,深化產學研用聯合技術創新探索。研究創新孵化機制,試錯容錯機制,實施創新,對突破性項目給予重點激勵。建立數字化轉型管理評估和考核體系,確保網絡數字化轉型各領域各分支機構協同推進。4.改善流程支撐4.改善流程支撐根據網絡數字化轉型的領域組建不同領域條線、優化業務流程,增強快速響應的資源發放、服務響應、研究開發能力。完善利益共享、責任共擔考核機制。建立創新孵化機制,加強新產品、43新
60、業務、新模式研發,完善創新激勵機制。三、金融數據中心網絡數字化能力定級及評價模型金融數據中心網絡數字化能力評估是一項跨領域的系統性工程,需從人員、組織流程、技術、用戶體驗等多個維度對金融機構進行評估。本章以網絡數字化架構為基礎,詳細闡述定級的理念和實施細則。(一)整體評分框架(一)整體評分框架數據中心網絡定級體系從戰略愿景、用戶體驗、技術能力、組織流程 4 個維度展開,其中技術能力包括網絡監控,網絡管理,網絡控制 3 個細分維度。整體評分框架如圖 20 所示。圖 20 整體評分框架六維圖各維度具體評估項和內容見表 7。44表 7 金融數據中心網絡數字化能力定級細則評估維度評估維度占比占比定級評
61、估項定級評估項戰略愿景10%戰略目標:衡量用戶網絡數字化轉型愿景和目標。技術藍圖:衡量用戶用于牽引開展網絡數字化轉型的技術發展路線和規劃。數字化意識:衡量用戶網絡人員的數字化意識,網絡與業務、IT 的合作意識。創新追求:衡量用戶對網絡新技術、新服務模式、新價值的追求。組織流程10%團隊技能:衡量用戶網絡運維團隊的人員數字化技能。組織架構:衡量用戶是否有與網絡數字化轉型程度相匹配的人員組織關系。運維流程:衡量用戶是否有與網絡數字化轉型程度相匹配的流程規范、運作模式。用戶體驗30%DAY 0:衡量用戶網絡新建資源池、資源池擴縮容、資源池搬遷、鏈路變化等場景下的用戶體驗。DAY 1:衡量用戶業務網絡
62、端到端部署、互訪開通、域名申請等場景下的用戶體驗。DAY 2:衡量用戶網絡保障、故障響應、應急恢復、日常巡檢等場景下的用戶體驗。DAY N:衡量用戶網絡日常運營、SLA 調優等場景下的用戶體驗。45技術能力20%網絡監控 可視化能力 狀態/告警/日志監控能力 網絡流量監控能力 虛擬網絡監控能力 網絡巡檢能力 故障診斷能力 采集能力15%網絡管理 拓撲管理能力 網絡資源管理能力 數據檢索能力 安全策略管理能力 轉發資源管理能力 容量管理能力 數據解析、治理能力15%網絡控制 自動化場景編排能力 自動化解析能力 自動化回滾能力 自動化變更校驗能力 自動化驗證能力 自動化下發能力具體的評分方法如下:
63、一是按照評分細則對每一個評估子項進行打分,加權平均后獲得每一個維度的整體打分。二是針對技術能力維度,考慮到用戶不同網絡區域間的差異,技術打分以該技術覆蓋的網絡區域范圍進行加權平均。46三是基于每一個維度的權重占比,總體進行加權平均獲得最終打分。(二)戰略愿景維度(二)戰略愿景維度戰略愿景維度定級與評分細則詳見表 8。表 8 戰略愿景維度定級與評分細則戰略愿景定級戰略愿景定級Level 1初始級Level 1初始級Level 2發展級Level 2發展級Level 3穩健級Level 3穩健級Level 4優秀級整體定級原則Level 4優秀級整體定級原則網 絡 數字 化 起 始階段,開始了 解
64、 網 絡數 字 化 轉型。沒 有 明確 的 轉 型目 標 和 路徑。不 具 備創新能力,需 要 學 習借 鑒 成 功案例。網絡數字化發展階段,已經清楚網絡數字化內涵,對自身數字化水平 有 明 確 評估。制定了明確的網絡數字化轉型目標和實施路徑。具備基于其他企業數字化轉型案例和自身經驗進行場景 創 新 的 能力。網絡數字化成熟階段,開始網絡數字化轉型實踐。開始遵照規劃路徑開始實施網絡數字化轉型,并從組織流程、人員技能上開始轉變。具備自我創新能力,能夠基于現有的轉型框架在實踐中補充新的內容,提供最佳實踐。網絡數字化開拓階段,基 本 完 成 全場 景 的 網 絡數字化轉型,開 始 嘗 試 新場景。不
65、局限于框架限制,開始 從 各 個 維度 嘗 試 網 絡數 字 化 下 一階 段 轉 型 目標和路徑。具備新標準制定能力,能 夠 發 現 不足,探 索 未知。47評估子項評估子項權重權重L1L1L2L2L3L3L4戰略目標L4戰略目標20%沒有清晰的 戰 略 目標。制定了明確的網絡數字化轉型目標。轉型目標主要為網絡降本增效。網絡數字化轉型目標與企業整體數字化轉型目標相契合,相輔相成,在降本增效的同時加速企業的業務數字化轉型。已完成網絡 數 字 化 轉型,并開始從各 個 維 度 嘗試 探 索 數 字化 下 一 跳 轉型目標,使自身 成 為 網 絡數 字 化 賦 能者與開拓者。技術藍圖技術藍圖30%
66、沒有明確的技術實施路徑 具備明確的技 術 實 施 路徑。已通過業務目標完成對技術能力的宏觀拆解,并完成技術選型。開始遵照規劃路徑實施網絡 數 字 化 轉型,并基于實踐在各項關鍵能力上開始重點 技 術 的 布局。完成數字化 轉 型 所 有關 鍵 能 力 的構建。開始對下一 代 轉 型 目標 開 展 技 術探索。數字意識數字意識20%意識到需要網絡數字化轉型。已經清楚網絡 數 字 化 內涵,對自身數字化水平有明確評估。組織流程、人員技能開始隨數字化轉型同時進行。具備完整的 網 絡 數 字化轉型經驗、意識與技能。創新追求創新追求30%不具備創新的能力和想法。具備基于其他企業數字化轉型案例和自 具備自
67、我創新能力,能夠基于現有的轉具備新標準制定能力,能 夠 發 現 不48身經驗進行場景 創 新 的 能力。型框架在實踐中補充新的內容,提供最佳實踐。足,探 索 未知。(三)用戶體驗維度(三)用戶體驗維度用戶體驗維度評分細則詳見表 9。表 9 用戶體驗維度評分細則用戶體驗定級用戶體驗定級Level 1被動響應式服務Level 1被動響應式服務Level 2工單驅動式服務Level 2工單驅動式服務Level 3用戶自服務Level 3用戶自服務Level 4主動無感知服務整體定級原則Level 4主動無感知服務整體定級原則 通過郵件、電話等方式發起業務請求。反復的需求溝通和澄清。DAY 0/1/2
68、場景分別需要周級/天級/小時 級 響 應 時間。DAY N 場景沒有明確的網絡 SLA 承諾。通 過 ITSM以工單形式發起業務請求。標準化的業務請求。DAY 0/1/2場景分別需要天級/小時級/分鐘級需求響應時間。DAY N 場景提供 SLA 承諾與誤差區間。通過網絡服務目錄以自服務形式發起業務請求。提供基于業務場景靈活變化的服務。DAY 0/1/2 場景分別需要小時級/分鐘級/秒級響應時間。DAY N 場景提供確定性的 SLA體驗。提供網絡托管模式,系統自感知業務狀態變化進行網絡調整。DAY 0/1 場景分別需要分鐘級/秒級需求響應時間。DAY2 場景實現零中斷網絡。DAY N 場景能夠基
69、于現有網絡資 源 提 供 最 佳SLA 體驗。評估子項評估子項權重權重L1L1L2L2L3L3L4L449DAY 0 場景用戶體驗網絡區域規劃5%DAY 0 場景用戶體驗網絡區域規劃5%交付時間:月 交付時間:周 交付時間:天交付時間:小時安全規劃5%安全規劃5%交付時間:月 交付時間:周 交付時間:天交付時間:小時DAY 1 場景用戶體驗設備開局7.5%DAY 1 場景用戶體驗設備開局7.5%交付時間:月失誤率:5%交付時間:周失誤率:2%交付時間:天失誤率:1%交付時間:小時失誤率:0%設備擴容7.5%設備擴容7.5%交付時間:月失誤率:5%交付時間:周失誤率:2%交付時間:天失誤率:1%
70、交付時間:小時失誤率:0%線路新建7.5%線路新建7.5%交付時間:月失誤率:5%交付時間:周失誤率:2%交付時間:天失誤率:1%交付時間:小時失誤率:0%線路擴容7.5%線路擴容7.5%交付時間:月失誤率:5%交付時間:周失誤率:2%交付時間:天失誤率:1%交付時間:小時失誤率:0%DAY 2 場景用戶體驗監控告警6%DAY 2 場景用戶體驗監控告警6%準確率:30%準確率:50%準確率:80%準確率:90%網絡巡檢6%網絡巡檢6%交付時間:月 交付時間:周 交付時間:天交付時間:小時網絡變更6%網絡變更6%交付時間:月失誤率:5%交付時間:周失誤率:2%交付時間:天失誤率:1%交付時間:小
71、時失誤率:0%合規檢查6%合規檢查6%交付時間:月 交付時間:周 交付時間:天交付時間:小時故障處理6%故障處理6%交付時間:周 交付時間:天 交付時間:小時交付時間:分鐘DAY N 場景用戶體驗隱患消除6%DAY N 場景用戶體驗隱患消除6%業務連續性:95%業務連續性:99%業務連續性:99.9%業 務 連 續 性:99.99%50策略優化6%策略優化6%策壓縮率:10%策略壓縮率:20%策略壓縮率:30%策略壓縮率:50%線路容量優化6%線路容量優化6%成本降低 10%成本降低 20%成本降低 30%成本降低 40%應急演練6%應急演練6%頻次:1/年頻次:4/年頻次:12/年頻次:N/
72、年應用 SLA保障6%應用 SLA保障6%業務連續性:95%業務連續性:99%業務連續性:99.9%業 務 連 續 性:99.99%(四)技術能力維度1.技術能力(監控)維度(四)技術能力維度1.技術能力(監控)維度技術能力(網絡監控)維度評分細則詳見表 10。表 10 技術能力(網絡監控)維度評分細則能力維度 1能力維度 1Level 1基礎監控Level 1基礎監控Level 2進階監控Level 2進階監控Level 3性能監控Level 3性能監控Level 4業務監控網絡監控(40%)Level 4業務監控網絡監控(40%)事件監控 基礎監控:trap 告 警、syslog 監控?;?/p>
73、礎告警:網 絡 設 備 狀態、接口、單板、CPU 告警。指標監控 進階監控:集成網絡、系統、應用監控、融 入 運 營 流程。進階告警:時 間 關 聯 分析、性能趨勢分析、SLA 報表審計。性能監控精細化監控:包檢測、流分析、協議性能分析?;?ITOA 深度運營。故障自愈:主動識別+自動化處理。業務協同監控 應用與網絡協同監控 故障自愈:數據模型驅動的未知故障發現 和 故 障 學習。智能學件發布51評估子項評估子項權重權重L1L1L2L2L3L3L4可視化能力15%L4可視化能力15%基礎告警、事 件 列 表 展示。各類設備狀態柱狀圖、餅狀圖展示。監控大屏、各領域集中監控可視化?;跁r序的各項
74、性能指標趨勢分析圖。各類監控指標統計報表、對比展示。多層次、多維度數據動態關聯的數字孿生體。網絡流量、會話級別的可視化。交互式輔助決策可視化系統。全息、擬態網絡。業務、IT、網絡多業務域的 聯 動 可 視化。自主決策可視化系統。狀態/告警/日志監控能力15%狀態/告警/日志監控能力15%物理網元告警收集,無告警加工。物 理 網 元syslog 收集、無 進 一 步 挖掘。具備基于規則進行告警關聯、去重、壓縮的能力,壓降 率 不 低 于50%。具備告警定級能力。具備基于知識圖譜的告警壓降、溯源能力。日志、告警壓降率不低于 80%。網元的告警、日志精確度提升。通過融合業務、流量等數據實現故障精確溯
75、源,定位精度99%網絡流量監控能力15%網絡流量監控能力15%無常態流監控。使用各類抓包工具手動抓包。人為對抓包結 果 進 行 分析。關鍵網絡節點部署常態流探針。具備流分析系統,能夠還原 L4 協議報文,并進行統計、篩選、趨 流量探針覆蓋 率 50%區域。具備對應用層協議進行解析的能力,能夠還原應用層報文,實現業 流量探針覆蓋 率 70%區域,具備動態抓包能力。具備對海量私有協議進行解析的能力,能夠實現行業52勢分析。流量處理能力40Gbps務級還原。流量監控延伸至服務器主機側,可以對網卡流量實現監控、解析。流量處理能力100Gbps專屬業務的還原、保障。流量監控和應 用 監 控 聯動,實現從
76、業務-流量-網絡的多級關聯式業務監控。流量處理能力400Gbps虛擬網絡監控能力10%虛擬網絡監控能力10%無虛擬網絡監控、只具備云或 IT 虛擬化系統對于邏輯網元的狀態展示。具備虛擬網元(智能網卡、網橋、流表等)的告警、狀態、指 標 監 控 能力,并可以進行統一展示。具備虛擬網元流監控、分析能力。具備物理網絡與虛擬網絡(容器網絡、云網絡等)聯動運維能力。具備基于虛擬網元流量報文分析反推業務性能,定位業務時延瓶頸的能力。具備與應用監控聯動的能力。網絡巡檢能力 10%網絡巡檢能力 10%使用巡檢腳本逐臺設備進行巡檢。人為分析巡檢結果。使用巡檢工具定期進行批量巡檢?;陬A置規則(指標、閾值)對巡檢
77、結果進行分析。巡檢結果以設備硬件健康 構建網絡健康 度 管 理 系統,對于網絡各類健康指標進 行 實 時 巡檢。具備多維度的網絡健康度評估體系,能 具備網絡巡檢托管能力,使用巡檢機器人對網絡進行7*24 小 時 多維度巡檢。構建網絡混沌工程系統,模擬各類故障53度為主。夠從網元、流量、協議、業務等維度衡量網絡的運行狀態。注入(配置冗余性故障、流量 突 發 故 障等)檢測網絡韌性,并對脆弱 點 予 以 修復。故障診斷能力 15%故障診斷能力 15%故障發現以業務方報障為主。無 排 障 工具,需要人為登錄設備逐跳進 行 故 障 排查。通過故障案例庫,實現排障知識儲備。具備主動發現網絡故障的能力。具
78、備告警抑制、撥測、流量抓包等輔助定位系統。通過腳本或代碼固化經典故障,實現知識儲備。具備主動發現業務問題的能力。具備根因定位系統,對典型的已知故障實 現 主 動 發現、定位、閉環;對無法定位的問題能實現故障定界。通過知識圖譜存儲排障經驗。具備預測網絡 故 障 的 能力,并能夠分析故障對業務的影響。根因定位系統具備在線學習能力,能夠不斷學習未知故障以及對應的恢復手段。采集能力20%采集能力20%設備采集方式 以 snmp、syslog、SSH等協議為主。多廠商集成耗時周級。設備采集具備Telemetry、流采集能力。具備Restful、Websocket、以分布式數據庫同步的方式實現設備數據的采
79、集。多廠商集成耗時小時級。采集能力能夠支撐物理網絡和虛擬孿生體網絡的實時映射。無多廠商集成耗時。54kafka 等東西向數據采集能力。多廠商集成耗時天級2.技術能力(管理)維度2.技術能力(管理)維度技術能力(網絡管理)維度評分細則詳見表 11。表 11 技術能力(網絡管理)維度評分細則能力維度 2能力維度 2Level 1文檔化Level 1文檔化Level 2信息化Level 2信息化Level 3數字化Level 3數字化Level 4孿生化網 絡 管 理(30%)Level 4孿生化網 絡 管 理(30%)基于文檔/表格 人工申請資源 手繪網絡拓撲 數據文本化管理 基于 CMDB標準化
80、資源申請靜態資源管理靜態網絡拓撲數據半結構化管理 基于網絡數據中臺 定制化資源申請 動態資源管理 網絡數字化建模(SSOT)動態網絡拓撲 數據模型化、結構化管理 基于數字孿生 智能資源分配 資源趨勢分析應用/網絡拓撲 數據圖譜化管理評估子項評估子項權重權重L1L1L2L2L3L3L4拓撲管理能力15%L4拓撲管理能力15%手繪網絡拓撲 拓撲準確度依靠人工機器繪制靜態拓撲由多個子域拓撲組成 動 態 網絡 拓撲,自動拓撲布局。支 持 廣 域 網絡數字孿生體,1:1仿真拓撲。以網絡維55確認 物理連線拓撲 基于 LLDP保證拓撲準確度(準確度60%)。拓撲呈現網絡連線狀態。L2/L3 網絡拓撲、協議
81、拓撲。/DCI/DC內/Fabric 多 層級拓撲,支持全域網絡拓撲一體化展示?;谕負溥€原算法保證拓撲準確度(準確度95%)。拓撲呈現網絡告警、流量、帶寬等狀態。能 夠 呈 現Underlay、Overlay 等 多維 度 邏 輯 拓撲。支持虛擬網絡/云網絡拓撲展示。支持任意源、目的 IP 地址的網 絡 路 徑 導航。度還原出應用部署、互訪拓撲。以 網 絡 拓撲為載體,關聯應用、存儲、計算等 領 域 數據,實現企業 IT 拓撲。拓撲可以呈現網絡資源熱力圖,網絡流量熱力圖,幫助用戶進行趨勢分析。56網絡資源管理能力20%網絡資源管理能力20%基于Excel、word等文檔進行配置資源管理、數據
82、存儲以非結構化 數 據 為主。用戶申請資源時需要人為進行申請、規劃、釋放。構建類似CMDB 的信息化系統對配置資源進行管理,數據存儲以半結構化為主?;谝巹t定義靜態資源接口,資源使用者負責申請和釋放。全網配置資源進行模型化建 模,完 成SSOT 工作,數據以全部結構化存儲為主。具備基于場景敏捷發布資源 接 口 的 能力,具備對網絡存量資源進行 還 原 的 能力,具備對網絡資源監控和閑置資源回收的能力 構建全網資源圖譜,實現全網配置資源的圖譜化存儲和相互關聯。實現資源自治,對于各類網絡資源 使 用 場景,能基于存量網絡情況分配最佳資源,人工只需做一些資源分配原則 規 劃 即可。數據檢索能力15%
83、數據檢索能力15%基于文檔的 數 據 檢索?;?CMDB的鍵式數據檢索。具備基于設備名、IP、鏈路等基本網絡元素進行檢索定位的能力?;趫D數據庫的關聯檢索能力。具備基于應用、服務器、虛擬機搜索網絡相關信息的能力?;谥R圖譜的數據聯想檢索能力。具備基于告警、指標等狀態類數據 檢 索 設備、IP、應用等實體數57據的能力以及反向檢索能力。安全策略管理能力15%安全策略管理能力15%基于廠商的防火墻頁面對策略進行管理,無多防火墻策略統一管理能力。人為人工用表格維護區域安全策略 互 訪 矩陣。通過防火墻策略管理軟件實現多臺防火墻策略的統一管理。通過SQL表格維護區域安全策略互訪矩陣。具備對冗余防火
84、墻策略的分析與去重能力。通過路由表、配置等數據,基于算路算法動態計算區域安全策略互訪矩陣。具備網絡安全協同的策略管理能力,能夠做到以 IP、用戶為粒度實現 策 略 隨行,網隨心動。無需計算安全互訪矩陣,具備動態計算安全互訪路徑的能力。轉發資源管理能力15%轉發資源管理能力15%無轉發資源管理,通過人工巡檢方式,定期查看設備轉發內存、FIB表,流量帶寬等相關資源 使 用 情況。對設備轉發資源統一自動上收,并制作各類報表進行監控,通過設置閾值,在資源超限時產生告警。通過對轉發資源時序數據變化進行趨勢分析,基于各類趨勢預測算法給出資源擴容建議。能夠在業務下發、變化前基于仿真環境模擬資源使用情況,并給
85、出業務的最佳部署建議。58數據解析、治理能力20%數據解析、治理能力20%定制場景化數據解析接口。新數據接入 周 級 集成。統一數據解析、治理框架,通過插件實現外部數據解耦。新數據接入天級集成。數據 ETL 平臺,通過低碼化方式實現外部數據的一站式接入、清洗、結構化和模型映射。新數據接入小時級集成?;贏I的數據結構自分析、自解析能力,具備動態適配各類數據結構的能力。新數據接入分鐘級,只需少量人工標注。3.技術能力(控制)維度3.技術能力(控制)維度技術能力(網絡控制)維度評分細則詳見表 12。表 12 技術能力(網絡控制)維度評分細則能力維度 3能力維度 3Level 1工具化Level 1
86、工具化Level 2平臺化Level 2平臺化Level 3服務化Level 3服務化Level 4智能化網 絡 控 制(30%)Level 4智能化網 絡 控 制(30%)基于 CLI工具腳 本 生成工具設 備 批量 配 置 工具變 更 批量檢查設 備 巡檢工具 基于場景自動化平臺 數據產生和消費的數據架構 整合工具統一界面 配置校驗 網絡功能虛擬化 基于服務化控制中臺iBPM 網 絡服務靈活組裝編,快速發布 微服務架構 面向服務的API 接口 網絡仿真網絡 DevOps 基于智能學件、算法驅動的智能自動化平臺 基于數據驅動實現決策自動化 跨域、跨界的場景整合 機器人硬裝作業59評估子項評估
87、子項權重權重L1L1L2L2L3L3L4自動化場景編排能力15%L4自動化場景編排能力15%無 場 景編排能力,通 過 人 工串 接 各 作業環節(意圖解析、資源申請、配置生成、配置校驗、業務下發、業務驗證、配置回滾等)完 成 各 類作業任務。通過編碼實現典型作業場景的預編排,串聯各作業環節,并提供場景化 API 接口或 UI 交互。作業相關環節關鍵能力進行 服 務 化 封裝。通過場景編排器實現敏捷的場景編排,用戶可以基于各類作業場景快速定制場景化 APP,并快速發布使用 機器人基于新的業務場景,自動完成場景編排,人工只需進行少量調整與標注。自動化解析能力15%自動化解析能力15%意 圖 解析
88、 與 任 務分 解 全 部由人完成。對典型用戶意 圖 進 行 固化,通過預置規則的方式在操作實施時無需人為參與意圖分析。對于非確定的用戶意圖需要人為人工完成任務分解。通過算法與AI 學件的 方式完成部分非確定性意圖的解析工作(如故障恢復、互訪 開 通 等 場景)。對于其余非確定的用戶意圖需要人工完成任務分解。對于被動意圖(排障、事件處置等)通過 AI 學件實現 100%意圖解析自動化。對于用戶發起的意圖(業務下發、變更、擴容等)實現 70%60以上意圖解析自動化。自動化回滾能力15%自動化回滾能力15%人 為 人工 制 作 回滾 腳 本 進行回滾。具備基于單個作業任務進行自動回滾的能力。具備基
89、于任務、業務、全網粒度的多級回滾能力。具備自動分析回滾影響性的能力。機器具備基于時間軸的回滾能力。具備自主決策是否回滾的能力。自動化變更校驗能力20%自動化變更校驗能力20%人 為 人工 配 置 校驗、合規性審計。人 為 評估 業 務 影響性。配 置 存檔留痕。配置審計工具,通過腳本固化規則對下發配置進行審計。人為評估業務影響性?;诖媪烤W絡疊加增量配置實現網絡仿真,基于仿真環境實現網絡連通性、路由沖突、配置沖突、路由黑洞/環路等影響性檢測。通過業務與網絡的數據融合,從網絡影響性評估反推業務影響性。仿真系統具備流量、ACL、虛擬網絡仿真能力。自動化驗證能力15%自動化驗證能力15%人 為 通過
90、 業 務 撥測、登錄設備 進 行 配置 檢 查 都手 段 進 行業務驗證。構建full-mesh 撥測系統,完成自動化業務驗證?;诹髁勘O控,DPV 網絡驗證系統對業務實施自動化驗證?;诨ピL還原能力自動還原全網互訪矩陣,并基于該矩陣實施驗證。61自動化下發能力20%自動化下發能力20%CLI 下發為主。以 腳 本方 式 適 配多 廠 商 設備,無多廠商 配 置 差異 屏 蔽 能力。具備 Netconf下發能力。以通用配置模型屏蔽多廠商設備,設備集成,三方設備集成速度周級。以通用配置模型屏蔽多廠商設備,以低碼化方式實現三方廠商驅動集成,集成速度天級。以通用配置模型屏蔽多廠商設備,以 AI 配置
91、解析的方式實現三方配置自動化解析,人工只做少量標注,集成速度小時級。(五)組織流程維度(五)組織流程維度組織流程維度定級細則詳見表 13。表 13 組織流程維度定級細則組織流程組織流程Level 1以專家為中心Level 1以專家為中心Level 2以流程為中心Level 2以流程為中心Level 3以運維平臺為中心Level 3以運維平臺為中心Level 4以業務為中心整體定級原則Level 4以業務為中心整體定級原則 網工型技能樹、一人兼多職。以工具為標準。事件觸發式工作流程。以具體事件為考核指標。定義明確的流程和角色。網絡/安全/應用/工具多種獨立功能團隊。制定標準、規范、制度。以角色指
92、定團 隊 人 員 的KPI 和考核機 構建泛網絡 能 力 中心。DevOps 型團隊,一專多能。提供靈活的 服 務 模式。以服務質量 為 核 心 業務發展和創新的伙伴。網絡、IT、業務一體化復合 型 技 能 團隊。智能的 IT、網絡資源管理調度模式。以最終商業成果為 KPI。62制。KPI。評估子項評估子項權重權重L1L1L2L2L3L3L4團隊技能30%L4團隊技能30%網工型技能樹、熟悉各類網絡協議與工具的使用方法。分工明確,網絡/安全/應用/工具多種獨立功能團隊對各自領域有深入研究,對于其他領域了解不深。DevOps 型團隊,一專多能,人員具備網絡規劃、工具開發、流程設計能力。網絡、IT
93、、業務一體化復合 型 技 能 團隊,對業務全生 命 周 期 負責。組織架構40%組織架構40%救火隊模式、一人兼多職,無明確職責分工。定義明確的流程和角色,區分網絡/安全/應用/工具各 個 獨 立 團隊。網絡各領域融合型團隊,構建泛網絡的能力中心。網絡與 IT、業務融合型運維團隊。運維流程30%運維流程30%事件觸發式工作流程。以具體事件為考核指標。制定標準、規范、制度。以角色指定團 隊 人 員 的KPI 和考核機制。提供靈活的 服 務 模式。以服務質量 為 核 心KPI。智能的 IT、網絡資源管理調度模式。以最終商業成果為 KPI。四、實踐案例(一)工商銀行數據中心網絡數字化實踐(一)工商銀
94、行數據中心網絡數字化實踐隨著 IT 技術架構轉型、云計算技術發展,應用分布式協同63對底層網絡提出了更高的要求(如圖 21),亟需網絡數字化轉型提升效率和體驗。作為“十四五”時期工商銀行新型數字基礎設施建設的一項重要任務,工商銀行開展了網絡數字化轉型建設,順利完成新一代云平臺規劃建設?;?NVMe over RoCE 高性能網絡的存儲體系落地,建設數據中心智能運維門戶集成統一運維地圖、日志分析引擎、指標分析引擎、排障樹等支撐網絡故障定位,滿足金融級業務連續運行保障要求和高性能數據存儲要求,進一步推動網絡數字化轉型升級,率先構建了架構領先、質量可靠、運維便捷的新一代金融網絡,為業界網絡技術演進
95、方向提供了新的發展路徑和建議。圖 21 IT 架構演進對網絡提出的新挑戰1.新一代云平臺建設1.新一代云平臺建設針對新架構下的網絡從硬件向軟件的轉換,工商銀行開展了新一代云平臺規劃及建設工作。圍繞“核心業務系統+開放式生態系統”的新型 IT 架構,建成銀行業技術能力最強、規模最大64的金融級云平臺,打造了體系完備、服務能力領先的分布式技術體系。截至目前,工商銀行已面向行內應用用戶建設交付生產云,面向分行用戶和合作伙伴分別建設分行云和金融生態云,涵蓋通用應用、關鍵應用、特殊應用等資源域。如圖 22。圖 22 工商銀行云資源域分布示意圖2.高性能網絡建設2.高性能網絡建設積極探索高性能低延時的網絡
96、應用場景,加快推進關鍵信息系統基礎設施自主可控,在存儲國產化方面,率先建成金融業全量存儲國產化網絡體系(如圖 23),并開展規?;瘧猛茝V;在 AI 算力方面,與國家重點實驗室開展聯合攻堅,解決大規模分布式 AI 算力集群建設中高帶寬低延時數據傳輸、多算力卡協同等技術難題,首創金融行業基于 100G RoCEv2 高性能無損網絡的分布式 AI 算力集群。在計算機視覺領域業務場景應用中,模型訓練效率提升約 8 倍,20 萬張圖片規模金融憑證識別場景訓練時間由 1 周下降至 1 個工作日,極大地推動了工商銀行人工智65能業務的創新發展。圖 23 基于 NVMe over RoCE 的存儲網絡體系3
97、.網絡數字化運維實踐3.網絡數字化運維實踐隨著 IT 架構轉型升級,基礎設施云化、運行環境容器化、業務系統微服務化為業務開拓創新提供了有力支撐,但也使數據中心運維復雜度上升數倍,對智能運維提出了更高的要求。特別在分布式架構背景下,IT 資產配置管理有以下難點亟需攻克和解決。一是一是 IT 組件相互調用變得十分普遍和復雜,單純通過基礎配置已無法較好地掌握業務部署和運行情況。二是二是隨著技術棧不斷加深,數據中心配套了大量的運維工具,導致數據趨于碎片化,不同工具的信息存在孤島問題。三是三是可視化水平有待進一步提升,目前數據服務仍以表格輸出為主,需要打造運維領域的數字地圖,通過視圖提高運維認知效率。6
98、6工商銀行探索基于圖技術的運維數據管理方法,該方法可以有效組織復雜配置數據,并通過研發視圖、API 接口提供數據服務,提升數字化建設水平,主要成果包括:(1)動態運維地圖。(1)動態運維地圖。構建涵蓋基礎環境節點的分布式調用關系,提供數據中心適用的全鏈路數據。擴展微服務調用鏈數據,關聯配置管理、網絡管理為鏈路補充 F5、宿主機等重要基礎環境節點,并根據網絡探針生成數據庫訪問關系,延伸鏈路的下一跳,為掌握業務全鏈路部署情況提供數據支持,如圖 24 所示。(2)數據整合。(2)數據整合。引入圖技術解決數據整合問題,提升數據質量。用圖的形式存儲關聯關系,解決配置管理、網絡管理、微服務框架、云原生管理
99、、網絡探針等多個平臺及系統數據整合“水土不服”問題,無需創建多張中間表或改變表結構,并在整合基礎上挖掘新的運維數據,例如應用互訪關系等,發揮“1+12”的效果,為突破煙囪式運維和智能運維提供數據基礎。(3)分圖層構建視圖,豐富視圖工具。(3)分圖層構建視圖,豐富視圖工具。動態繪制應用互訪、系統部署、網絡拓撲等視圖,使重點應用外的 300+應用也有視圖可以查看,對了解數據中心全貌起到一定幫助。視圖支持自動更新和導出能減少例行化的拓撲繪制和維護工作,節省約 45 人天/年。(4)知識圖譜技術。(4)知識圖譜技術。率先構建基礎環境配置圖譜,引入最短路徑、中心點等圖智能算法,在業務故障定位場景進行應用
100、,幫助分析故障追蹤范圍。67圖 24 動態地圖分層架構(二)中國銀聯數據中心網絡數字化實踐(二)中國銀聯數據中心網絡數字化實踐2022 年是實施“十四五”規劃的關鍵之年,是人民銀行新階段金融科技發展規劃的開局之年,是傳統產業加速數字化轉型之年。中國銀聯信息總中心在公司的統一規劃部署下,乘勢而上,把握時代機遇,全面貫徹落實監管要求,立足“十四五”規劃創新發展新階段,貫徹數據中心綠色發展新理念,融入金融科技賦能數字發展新格局。在金融行業,中國銀聯的業務模式有別于傳統金融機構,銀行卡跨行、跨境實現一網通用及資金清算是基于聯網聯合規范,68依托轉接系統所衍生出的一種金融服務,IT 信息系統的安全、高效
101、、穩定、不間斷運行尤為重要。在數字經濟全面提速的趨勢下,中國銀聯信息總中心順應技術發展潮流,不斷革故鼎新,以“戰略驅動、價值引領、賦能業務、服務導向、綠色安全”為原則,持續探索金融科技發展新路徑,努力建設行業領先的金融數據中心。1.自主可控運維體系建設1.自主可控運維體系建設從創立“聯網通用”的銀行卡網絡到構建“金融科技賦能”的數字化開放網絡,從第一代跨行轉接清算系統的創建到第三代系統的迭代式升級,從“技術借鑒”到“自主可控”、再到“自主創新”,中國銀聯信息總中心持續優化運營管理體系、技術架構、基礎設施、工具平臺與組織結構,有效保障了業務系統的持續運行,更好適配了公司在不同時期的發展要求。自
102、2012 年開始,隨著一二代系統的順利更替,移動互聯網技術在支付領域得到快速應用,中國銀聯自主構建的云計算平臺投產運行,并自研與之相匹配的云運營平臺。搭建 SDN 網絡架構并擴容廣域網通信,建成了高性能、大容量網絡接入平臺;部署邊界防護、脆弱性檢測、威脅感知等安全系統,運用入侵防御、關聯分析等技術手段,聚力全局性協同防御,串聯網絡、主機、應用,構筑多維度、立體式網絡安全縱深防控體;采用自主研發的運營工具平臺取代商用運營工具,實現運營功能更好定制化迭代以及異常更早發現、事件更快處置、客戶需求更及時響應、流69程環節更高效銜接,尤其是跨地域聯動更便捷有序。在實踐中,中國銀聯不斷深化對云計算平臺的研
103、究和應用,制定了一系列云計算技術運營標準,孕育出自主研發土壤,逐步建立健全銀聯自主產權的運營工具體系;以 ITIL 為基礎,重構運營管理體系,建立標準化、規范化、跨地域的工業化管理機制,構建以服務為核心,由運營服務、流程制度、組織結構、工具平臺、質量監控和持續優化等維度組成的新運營管理體系。銀聯云平臺及自研的云運營平臺、配套的管理機制相繼升級,標志著中國銀聯的技術運營步入自主可控的云計算運營階段,數據中心的角色也從傳統運維服務的提供方轉變為運營能力的輸出方。自 2018 年開始,轉接系統升級為分布式架構,業務系統大量上云,物理服務器數量達萬級。隨著市場的快速發展,業務需求增多、時效性要求提高、
104、業務復雜性增加,系統和設備也隨之迅速擴張,對系統持續穩定安全運行的要求也越來越高。中國銀聯信息總中心確立了多中心、多活智能化的發展方向,圍繞架構、技術、機制等多個方面開展運營能力擴展:架構上,深耕業務連續性管理,制定多中心技術架構規范,使重要系統逐步實現多中心多活部署;技術上,試點容器化、微服務、智能化,建設以算法平臺、銀聯運維大腦、流程編排、自動化引擎為代表的智能化運營平臺,快速應對多中心、規?;瘓鼍?,并大力推進 IPv6、DNS 等網絡基建改造升級;機制上,積極實踐 DevOps,打造“敏穩雙態”版本發布、自助入網等敏捷可靠的自動化流水線服務。70此外,中國銀聯還形成了基于業務連續性管理的
105、應急與容量管理方法、系統多中心評價體系、變更策略等一整套最佳實踐,構建了以“運營技術自主創新、運營平臺自主可控”為顯著特征的運營管理體系。2.開放可編程實踐2.開放可編程實踐面對應用架構向分布式的升級改造,網絡供給的效率成為制約業務敏捷轉型的瓶頸。銀聯嘗試通過開放可編程框架解決網絡異構和自動化程度低等核心問題。開放可編程在架構上由設計態和運行態兩部分組成(如圖 25 所示),其中設計態主要用于建立業務 YANG 模型和設備 YANG 模型之間的映射關系,運行態則是利用在設計態建立的映射關系完成設備管理和業務發放。圖 25 開放可編程架構開放可編程系統基于用戶定義的業務 YANG 模型和設備 Y
106、ANG模型自動生成業務管理界面、設備管理界面、北向接口以及集成在 Web 界面上的 CLI 命令行終端,用戶可以使用這些方式完成設71備管理和業務發放。業務管理是根據業務 YANG 模型自動生成業務創建界面,配合其與設備 YANG 模型之間的映射關系實現業務的增、刪、改、查操作。設備管理是根據設備 YANG 模型自動生成網元管理界面,實現差異對比、數據同步、配置對賬等網元資源的增、刪、改、查操作。北向接口是根據業務YANG模型和設備YANG模型自動生成北向 RESTCONF 接口,配合兩個模型間的映射關系實現業務和網元資源的增、刪、改、查操作。命令行是根據業務YANG模型和設備YANG模型自動
107、生成互操作命令行,配合兩個模型間的映射關系實現業務和網元資源的增、刪、改、查操作。運行態提供試運行能力,幫助用戶提前預覽當前操作的結果以及相關設備配置的修改情況。開放可編程框架目前支持兩層映射邏輯,一是從業務模型映射到設備模型,業務包處理邏輯。二是從設備模型映射到協議報文,網元驅動包處理邏輯,如圖 26 所示。72圖 26 業務映射圖具體的處理邏輯參見業務映射圖,從上往下的邏輯是:業務模型自動生成北向接口或者配置界面。用戶通過業務模型提供的接口下發配置請求到用戶編寫業務邏輯處理。業務包處理包括三部分:一是業務模型處理,該部分處理與廠商無關的業務邏輯,比如一個隧道創建請求,通用業務邏輯包括計算隧
108、道的路徑邏輯。二是廠商模板處理,該部分處理廠商相關的邏輯,這里的模板就是給設備模型下發的數據,不同廠商設備有不同的模板。三是驅動包處理主要是將設備模型轉換為協議報文,如果是NETCONF 設備,系統會自動把模型數據轉換成 NETCONF 協議報文。3.智能運維體系建設3.智能運維體系建設智能化技術是數據中心適應規?;\營趨勢的必然產物,既是自動化運維的迭代升級,又是數字化轉型的落腳點。中國銀聯信息總中心重點聚焦智能化的四域。73一是感知域一是感知域。實現對生產系統和業務異常的自動感知、自動告警,對系統運行狀態趨勢進行預判、預警,對容量進行預測。二是決策域。二是決策域。部署實時計算和離線計算等算
109、法、專家模型進行故障診斷、趨勢分析、容量分析,自動決策給出處置方案。三是執行域。三是執行域。接收決策域指令,按照預設路徑執行重啟、隔離、切換、彈性擴縮等自動處置動作并檢查處置結果。四是學習域。四是學習域。隨著業務和系統結構及邏輯的變化,需不斷收集新增維度、存量運行數據,定期回溯感知、決策、執行域的場景查全率、算法適配性、執行準確率,對出現的偏差及時修正。中國銀聯信息總中心構建了覆蓋數據采集、傳輸、存儲、處理和反饋各節點,打通了不同層級與不同系統間的數據壁壘,形成了全閉環、高效能的數字化運營能力。在此基礎上,中國銀聯信息總中心建立了一套完善的 AIOps框架,將散落在各個領域的平臺,經服務化、數
110、據化串接成為一整套 AIOps 運營工具體系,結合自研 Apollo、Athena、MARS 等36 個智能化算法,建成了銀聯運維大腦。支持對系統、網絡、應用、環境、業務、日志、告警等全領域監控數據的采集和計算,使實時計算量超過百萬級 QPS,具備并發 10 萬級秒級運維自動化執行和指令下發能力,實現自動決策和自愈。隨著自研算法和運營平臺不斷在多中心、規?;瘓鼍爸星度牒蜐B透,智能化已在生產運營中發揮了重要作用。當前,中國銀聯信息總中心智能監控算法已覆蓋所有業務系統,交易異常發現74查全率達 97%以上、告警自愈率達 90%、根因下探準確率達 90%,告警及時性和準確率均處于較好水平。經由 Ga
111、rtner 提供的“私有云 AIOps 能力自評表”測算,當前智能化綜合覆蓋率為 87%。中國銀聯信息總中心通過將智能化技術擴展至發布建設上,從配置、變更、測試、部署與發布、環境、數據庫管理等 6 個維度,對低效、低價值、易返工等環節進行分析、改進,整體發布周期縮短了 25%以上,部分系統可實現 4 小時內交付。(三)電信運營商網絡數字化實踐(三)電信運營商網絡數字化實踐在千行百業數字化轉型逐漸深入的大背景下,電信運營商通信網絡從連接百億人向連接千億物發展。與此同時,新業務新場景的發展也為運營商拓展數字化市場創造了條件,運營商除了專注于網絡的精細化運營和高效運營之外,開始從商業和業務角度思考網
112、絡向自動化、智能化的轉型。2021 年,TM Forum 論壇、CCSA、GSMA、3GPP、IETF、ETSI等相關標準組織高效協同,借助技術標準、白皮書、自智網絡產業峰會等多種形式載體,推動自智網絡產業愿景、目標架構和分級標準在運營商行業內達成廣泛共識,如圖 27 所示。旨在通過完全自動化的網絡和 ICT 基礎設施、敏捷運營和全場景服務,為垂直行業和消費者用戶提供零等待、零接觸、零故障的極致體驗,幫助運營商構建自服務、自發放、自保障的運營運維,實現生產、經營和管理的自動化、智能化。75圖 27 運營商自智網絡產業愿景自智網絡目標架構的內核是“三層四閉環”(如圖 28 所示),即“業務運營、
113、服務運營和資源運營”三個層級,“用戶、業務、服務和資源”四個閉環。三個層級是通用的運營能力,可支撐所有場景和業務需求。一是資源運營層,一是資源運營層,主要面向單個自治域提供網絡資源和能力自動化。二是服務運營層,二是服務運營層,主要面向多個自治域提供 IT 服務、網絡規劃、設計、上線、發放、保障和優化運營能力。三是業務運營層,三是業務運營層,主要面向自智網絡業務,提供用戶、生態和合作伙伴使能和運營能力。四個閉環實現層間全生命周期交互,以“自治域”為基礎,業務/服務/資源閉環解決相鄰層級之間的交互問題,而用戶閉環則是拉通業務/服務/資源閉環的主線。相鄰層級的交互被簡化,以業務為驅動,通過意圖或 A
114、PI 接口進行交互,如業務意圖、服76務意圖和資源意圖。一是用戶閉環,一是用戶閉環,上述三個層級之間和三個閉環間的交互,以支持用戶服務的實現。三個層級間通過意圖驅動式極簡 API 接口進行交互。二是業務閉環,二是業務閉環,業務和服務運營層之間的交互。業務閉環可能會在其實現中調用相關的服務閉環和資源閉環。三是服務閉環,三是服務閉環,服務、網絡和 IT 資源運營層之間的閉環。服務閉環可能會在其實現中觸發相關的資源閉環。四是資源閉環,四是資源閉環,以自治域為粒度的網絡及 ICT 資源運營間的交互。圖 28 三層四閉環目標架構為了衡量網絡自動化和用戶業務體驗的不同水平,運營商定義了從 L0 到 L5
115、六個等級,如圖 29 所示。評估和衡量網絡服務的價值和優勢,并指導網絡和服務的自動化與智能化的逐步升級。77圖 29 自智網絡分級L0-人工運維:L0-人工運維:系統提供輔助監控能力,即所有動態任務都需要人工執行。L1-輔助運維:L1-輔助運維:系統根據預先配置,執行特定的重復子任務,以提高執行效率。L2-部分自智網絡:L2-部分自智網絡:系統在特定外部環境中,根據預定義的規則/策略,面向特定單元使能自動化閉環運維。L3-條件自智網絡:L3-條件自智網絡:在 L2 基礎上,系統可以實時感知環境變化,并在特定網絡領域中進行自優化和自調整,以適應外部環境。L4-高度自智網絡:L4-高度自智網絡:在
116、 L3 的基礎上,系統可在更復雜的跨多網絡領域環境中,實現業務和用戶體驗驅動網絡的預測式或主動式的閉環管理,從而進行分析并做出決策。L5-完全自智網絡:L5-完全自智網絡:這個等級是電信網絡演進的終極目標,系統具備面向多業務、多領域、全生命周期的全場景閉環自治能力。電信運營商出于外部業務挑戰和內在運營數字化轉型的要求,紛紛開始在自動駕駛網絡領域開展實踐,形成理念共識。在TMF 等標準組織的推動下,形成了三層四閉環、單域自治的標準共識。按“目標架構、分級標準、評估體系、運營實踐”閉環的方法論,各運營商結合自身實際情況微調,如移動在 TMF 單域自78治的基礎上提出了要跨域協同,比如聯通提出“分級
117、評估、產品研發、達標賦能”三位一體的思路簡化流程等,形成了方法論共識。在實踐層面,多以分省、分技術領域試點切入,通過協同平臺推動全網有序提升。綜上,電信運營商在理念、標準、方法論以及實踐上形成了行業共識。整體推進工作呈現體系化、標準化的特點。五、總結數字化浪潮下,金融業務加速變革,金融服務方式和邏輯發生深刻變化。金融行業已經從金融信息化步入數字化金融科技時代,金融機構的數字化轉型勢在必行。數據中心網絡作為金融機構重要的信息基礎設施底座,其數字化能力建設尤為重要。本文從技術方向、發展路徑、整體架構等維度,充分論述如何構建金融數據中心網絡數字化能力,旨在指導各金融機構科學進行數字化水平評估及落地實踐。未來,我們將進一步研究適配金融業務發展的多地多中心多活網絡、云原生網絡等新場景的網絡數字化能力要求。