《2019年微眾銀行網絡架構演進及運維實踐.pdf》由會員分享,可在線閱讀,更多相關《2019年微眾銀行網絡架構演進及運維實踐.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、GOP S 全 球 運 維 大 會 2019上 海 站GOP S 全 球 運 維 大 會 2019上 海 站微眾銀行網絡架構演進及運維實踐GOP S 全 球 運 維 大 會 2019上 海 站目錄銀行網絡運維的日常1WeBank生產網構建思路27*24銀行服務下的網絡運維3Netdevops的一些思考4GOP S 全 球 運 維 大 會 2019上 海 站銀行網絡運維的日常業務需求,擴容服務器,配套擴容接入層,涉及連接關系梳理、實施方案,變更方案,IP地址分配,路由發布入網,監控系統錄入,切換演練。機柜擴容IDC建設出品鏈路帶寬擴容,運營商核查資源、新增合作伙伴專線接入專線建設、帶寬擴容業務系
2、統故障、網絡設備故障、網絡質量異常。出口容量監控、上聯帶寬容量監控,網絡架構整體容量擴容計劃故障處理、容量管理全網季度巡檢、以天為單核心設備自動巡檢配置基線、實施規范制定修訂網絡設備OS生命周期管理網絡設備巡檢、制度規范修訂、OS管理NAT地址分配,合作方接入后專線冗余切換,接入個性化需求支持。合作方接入聯調網絡架構調整的優化變更,主動發現網絡架構隱患觸發的架構變更網絡架構優化變更基礎網絡建設日常運營網絡變更GOP S 全 球 運 維 大 會 2019上 海 站銀行網絡運維的日常銀行標準網絡架構與互聯網OTT架構相比較,略有復雜,需要重點考慮安全隔離、監管要求,網絡運營難度高,兩地三中心、多地
3、多中心演進,網絡架構復雜度上升靈活跨靈活跨DC流量調度流量調度需要了解基礎架構層面各個組件的高可靠實現,掌握IDC相關的基本知識,可以更好幫助設計網絡的底層架構,了解上層組件需求,更好的適配業務系統所需要的網絡環境由原來的兩地三中心,演變成多地多中心,DC的流量如何調度,是一個基本能力。流量的可視化,針對網絡設備buffer、管道通信質量的細顆粒度監控,成為網絡運營關注的重點GOP S 全 球 運 維 大 會 2019上 海 站銀行網絡運維7*24應急響應UIOC重大故障現場抗壓能力快速決策升級匯報機制應急預案快速執行ECCTCP/IP協議棧OSPFBGPSTPLACPMPLS VPN數據包分
4、析能力Liunx系統操作能力Pythonshell腳本語言編程能力銀行業務系統理解技術棧網絡架構設計監管要求變更、故障處理規范要求審計風險評估能力操作規范、管理規范。等合規制度GOP S 全 球 運 維 大 會 2019上 海 站目錄銀行網絡運維的日常1WeBank生產網構建思路27*24銀行服務下的網絡運維3Netdevops的一些思考4GOP S 全 球 運 維 大 會 2019上 海 站WeBank分布式架構交易筆數峰值3.23.2億億/天天消息峰值2424萬萬/秒秒子系統10001000個個物理服務器80008000臺臺全分布式架構支持業務快速發展注:“交易”是指交易請求從進入銀行前置
5、到處理完成并返回的整個過程,是對端到端的交易筆數統計?!跋ⅰ笔侵赶到y間調用的消息,是對系統間相互調用次數的統計。數據截至2018.12GOP S 全 球 運 維 大 會 2019上 海 站WeBank分布式架構微眾架構互聯網傳統金融海量用戶海量交易海量數據安全穩定影響可控高性能億級客戶量億級日交易量高彈性容量擴展性性能擴展性低成本開源技術低端服務器資源高可用快速恢復高冗余低風險故障影響隔離影響范圍小高標準自動化運維規?;芾戆踩煽氐娜植际郊軜婫OP S 全 球 運 維 大 會 2019上 海 站7*24不停服-網絡服務能力挑戰實時金融交易-網絡穩定可靠連接合作伙伴能力智慧運維網絡架構穩定
6、,變更、故障流量切換對業務無感知。連接金融機構、連接合作伙伴,具備開放、便捷,靈活、安全的接入能力。海量用戶服務能力,互聯網接入流量需要彈性靈活跨地域BGP切換,避免運營商網絡故障對用戶接入影響實時的網絡監控告警、東西向流flow采集分析、容量監控預警,故障一鍵隔離自動化連接用戶GOP S 全 球 運 維 大 會 2019上 海 站WeBank生產網架構構建思路可擴展性流量可調度可切換低延時可視化標準化 網絡轉發必須是低時延 出口流量可跨DC間進行調度 DC間網絡可平行擴展 架構設計必須標準化、模塊化 管道流量可采集可回溯 Farbic節點故障可快速倒換GOP S 全 球 運 維 大 會 20
7、19上 海 站WeBank生產網架構構建思路 DCN架構應該如何來搭建 BGP還是OSPF?容器的網絡方案如何適配?承載Hadoop大數據業務能力 RDMA場景網絡支撐能力 東西向Flow采集分析展示能力GOP S 全 球 運 維 大 會 2019上 海 站WeBank生產網架構構建思路CSWCSWCSWCSWAGGAGGAGGAGGLCLCLCLCTORTORTORTORTORTORTORTORLCLCDCN隔離帶外聯區DMZ管理區LCLCLCLCLCLCBDBD城域內網TORTORLBLBFWFWSRVSRVWCWCTORTORLBLBFWFWSRVSRVWCWCTORTORLBLBFWF
8、WSRVSRVWCWCTORTORLBLBFWFWSRVSRV城域外網DCN隔離帶外聯區DMZ管理區數據中心網絡架構GOP S 全 球 運 維 大 會 2019上 海 站連接合作伙伴ARARARARARARWeBank DCICPECPE上海SDN-WAN運營商公有云平臺SD-WAN公有云平臺SD-WAN運營商傳輸網公眾互聯網EXPEXPLDLDLDARASLDARAS城市1EXPEXPLDLDLDARASLDARAS城市2CPECPE北京CPECPE成都運營商傳輸網IDC外聯接入區運營商傳輸網IDC外聯接入區FWFWFWDCI專線與SD-WAN運營商對接用戶可以通過三種方式靈活接入WeBan
9、k網絡,VPN/運營商專線/SD-WAN鏈路復雜多樣的接入場景:1、不同業務場景對網絡質量要求不一樣,高頻或低頻2、接入條件限制,如何快速接入?3、實時性高、要求HAGOP S 全 球 運 維 大 會 2019上 海 站數據中心DCI連接公眾用戶-互聯網出口流量切換多活系統的設計,需要考慮多個層次的組件實現負載分擔與故障自愈,不僅僅是網絡層,但網絡是實現多活的第一道入口網絡接入層負載均衡防火墻APP服務器DB網絡接入層負載均衡防火墻APP服務器DB使用DNS切A記錄,運營商緩存記錄怎么辦?負載均衡心跳同步如何解決,配置如何統一?防火墻心跳同步是否需要跨機房,策略如同步,防火墻路由模式部署還是透
10、明部署?GOP S 全 球 運 維 大 會 2019上 海 站連接公眾用戶-互聯網出口流量切換EXPEXPEXPEXPEXEXTORTORLBLBSRVSRVFWFWLCLCEXEXTORTORLBLBSRVSRVFWFWLCLCEXEXTORTORLBLBSRVSRVFWFWLCLCDC內網DC內網DC內網公眾互聯網CRCRCRCRBDBDBDBDBDBD主路由 備路由主路由備路由WeBankDCI網絡AR異地DMZ接入專區關鍵點:不依賴于DNS更改A記錄等方式實現流量切換,7*24實時金融業務要求入口流量快速切換,通過BGP路由優先級方式實現導流,在秒級范圍內完成切換防火墻切換時,需關閉T
11、CP-syn包檢查,僅做狀態檢測防火墻,流量平穩后,恢復TCP-SYN檢測,不做跨機房配置同步,由運維平臺自動化對比配置一致性檢查LB發布VIP時,與交換機聯動發布32位路由,打上community屬性,可按單條路由進行精細化調度。LB間不做跨DC心跳同步,配置同步由自動化工具實現GOP S 全 球 運 維 大 會 2019上 海 站架構設計最重要的是什么?規劃時需盡可能預想可能出現的運營風險 聽取意見,多輪架構測試,輸出輪證數據 考慮建設后的可擴展伸縮性 依據業務需求來綜合設計,一定要滿足業務訴求 穩定與靈活上做好平衡,沒有100%完美的設計符合業務需求,按業務需求適配架構,可持續為業務提供
12、服務才最重要GOP S 全 球 運 維 大 會 2019上 海 站關于SDN架構 金融同業也在逐步設計云架構、行業云、公有云。歸根結底還是業務需求驅動 生產上一定是最需要云化的場景,做SDN架構適配 混合云解決大部份彈性伸縮問題 大部份SDN架構考慮網絡自動化運維,網絡資源編排,資源調度等問題 轉發面是否需軟化,需要結合網絡規模與業務硬性需求看,具體問題具體分析GOP S 全 球 運 維 大 會 2019上 海 站目錄銀行網絡架構的模樣1WeBank生產網構建思路27*24銀行服務下的網絡運維3Netdevops的一些思考4GOP S 全 球 運 維 大 會 2019上 海 站網絡故障幾個場景
13、APP已經提示網絡出問題程序已經拋出異常,socket超時,請網絡同學排查一下應用耗時增加時與該曲線毛刺時間點匹配網絡有網絡有問題問題GOP S 全 球 運 維 大 會 2019上 海 站網絡故障幾個場景-2設備類告警A.協議DOWNB.防火墻HA切換C.端 UP/DOWND.VPN 隧道中斷E.板卡異常F.主控異常G.電源、風險H.端口錯包轉發類、容量告警A.內外網質量異常B.數據包轉發異常C.出口帶寬告警GOP S 全 球 運 維 大 會 2019上 海 站故障處理流程01,網絡自身是否有告警,轉發層面是否現異常,網絡質量是有異常確認網絡異常,執行異常處理,無效,按應急預案執行0203異常
14、處置結束,總結異常原因網絡平臺異常?緊急故障情況下,應急預案內容是否為最新修訂的,近期網絡架構有調整,可否按此版本執行?原因無法明確時,有哪些數據可說明網絡平臺目前的狀態?GOP S 全 球 運 維 大 會 2019上 海 站網絡平臺應對故障的解決思路可視化:SNMP采集流量常態化保存,基于streaming telemetry采集INT數據,獲取完整DC內東西Flow分析網絡質量,基于GRPC 秒級獲取核心設備buffer隊列信息、丟包統計。針對不支持INT的交換芯片,采用ERSPAN方式依據業務需求按需采集,實現自動化的丟包、異常突發流量檢測分析。架構標準化:IDC建設、網絡擴容時,低階設
15、計交付物應系統化輸出,如連接關系、IP分配、路由發布模板、安全基線配置運維智能化:需要主動分析現網網絡運營數據做好容量管理、故障預測。緊急故障,一定避免手工執行故障處理,應急預案落實到SOP自動化中,故障場景預先配置好SOP執行腳本,系統自動下發架構標準化運維智能化 網絡數據可回溯 網絡建設應標準化、模塊化,避免建設時留坑,防止后期運營風險 主動分析現網運營指標數據,預測容量變化,實時巡檢穩健的網絡平臺可視化GOP S 全 球 運 維 大 會 2019上 海 站網絡運營平臺的支撐由運營需求,驅動功能模塊的開發網絡基礎數據一定是網絡團隊人員最清楚最熟悉,統一收集數據存儲供CMDB、運營工具、計費
16、平臺使用GOP S 全 球 運 維 大 會 2019上 海 站SOP自動化思路網絡異常告警命中SOP場景SOP自動化觸發這里添加您需要的說明文字,添加標題文字添加標題文字1.網絡異常告警收斂至指定微信群關注,有異常第一時間告警,告警信息附帶對應SOP編號2.SOP號對應相應處理置流程3.執行SOP場景對應應急預案腳本,運維平臺生成執行事件單,審批后立即執行GOP S 全 球 運 維 大 會 2019上 海 站目錄銀行網絡運維的日常1WeBank生產網構建思路27*24銀行服務下的網絡運維3Netdevops的一些思考4GOP S 全 球 運 維 大 會 2019上 海 站NetDevops的一
17、些思考1、以穩定運營為目標兩地三中心、單IDC機柜規模100,CLI依然可以解決一部份問題,網絡運維者力不從心。需求真的很常見:我需要優化防火墻架構,10萬條策略,需要遷移至新建防火墻上.我需要實時了解數據中心內LLDP關系,繪制實時網絡撲拓.我需要了解每臺網絡設備接口互聯IP,我需要對1000臺交換機執行ACL策略修改.專線流量有突發,上面有10個業務,哪個接口、哪臺服務器流量突增了?GOP S 全 球 運 維 大 會 2019上 海 站NetDevops的一些思考扎實的數通理論知識,豐富的工程實踐經驗、網絡運營全生命周期流程管理熟悉Linux操作系統底層原理,常用文本處理命令,TCP/IP
18、協議深刻理解。熟悉pythongoshell語言,了解jsonYAMLyanxml等數據結構,結合日常自動化需求進行編程。熟悉SDN理念,了解云計算網絡底層轉發實現,熟悉開源控制器ODLONOS、自動化配置工具ansibelchef。了解DB、緩存,容器、中間件等常用互聯網高可用設計方案NetDevops工程師NetDevops扎實專業領域技能+全面的軟性技能緊跟行業趨勢,結合業務場景,提升新技術能力,Segment Routing、IPv6、Streaming Telemetry.GOP S 全 球 運 維 大 會 2019上 海 站NetDevops的一些思考python或go編程語言監控、運維發布管理流量可視化數據分析