阿里云:醫保行業容災演練云上技術白皮書(40頁).pdf

編號:106305 PDF 40頁 41.99MB 下載積分:VIP專享
下載報告請您先登錄!

阿里云:醫保行業容災演練云上技術白皮書(40頁).pdf

1、目錄CATALOG1.1 相關法律法規1.2 建設總體目標 1.3 容災建設政策指引 010101第一章 醫保云容災建設背景3.1 整體系統架構3.2 省級數據中心建設框架3.3 應用容災解決方案框架3.4 云平臺建設保障與運維要求 05060708第三章 醫保云容災建設方案 第四章 醫保云容災演練方案 第二章 醫保云容災建設標準 4.1 容災演練調研4.1.1 調研及改造目標4.1.2 云產品調研及改造要求 4.1.3 應用側調研及改造要求 4.2 容災演練改造 4.2.1 云平臺側容災改造 4.2.2 平臺側網絡改造 4.2.3 應用側網絡改造 4.2.4 云外網絡改造4.3 容災演練場景

2、 4.3.1 容災演練前置準備 4.3.2 容災演練場景規劃4.4 容災演練方案 4.4.1 公共區數據層演練 4.4.2 公共區應用層演練4.4.3 核心區數據層演練 4.4.4 核心區應用層演練 4.4.5 機房公共區&核心區云產品切換演練4.4.6 機房公共區云平臺故障演練(入口斷網)4.4.7 機房核心區云平臺故障演練(入口斷網)4.5 演練風險及應對措施 101010121414162021232323262628283031313233第五章 總結 第一章 醫保云容災建設背景1.1 相關法律法規2017年,我國正式生效中華人民共和國網絡安全法,以保障網絡安全、維護網絡空間主權和國家

3、安全、社會公共利益,保護公民、法人和其他組織的合法權益,促進經濟社會信息化健康發展。網絡安全法第二十一條和第三十四條,分別從等級保護制度和關鍵信息基礎設施運營者的角度,對系統平臺提出了安全技術要求,其中即包括對于重要系統的容災備份要求。1.2 建設總體目標按照黨中央、國務院對醫保信息化建設的部署和要求,國家醫保局2019年即明確了建設全國統一醫保信息系統,搭建國家醫保信息平臺和省級醫保信息平臺,支撐提高全國醫保標準化、智能化和信息化水平,重點推進公共服務、經辦管理、智能監管、分析決策四類醫保信息化應用的總體目標。醫保信息化建設以標準全國統一、數據兩級集中、平臺分級部署、網絡全面覆蓋為要求,依托

4、省級平臺與國家平臺之間的協作聯通,初步實現便捷可及“大服務”、規范高效“大經辦”、智能精準“大治理”、融合共享“大協作”、在線可用“大數據”、安全可靠“大支撐”的建設目標。1.3 容災建設政策指引在國家醫療保障局網絡安全和信息化領導小組辦公室下發的,關于印發地方醫療保障信息平臺實施指引手冊的通知中,明確規范了云平臺高可用驗收規范:01 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書“云平臺支持同城跨機房容災,對數據級容災、應用級容災和業務級容災,容災等級應參照信息安全技術信息系統災難恢復規范(GB/T20988-2007)中災難恢復能力等級劃分的5級標準(實時數據傳輸及完整設備支持),并

5、結合本省情況,制定各業務系統災備能力定級。地方應按照容災恢復計劃進行完整的測試和演練,形成云平臺同城容災驗收報告?!蓖瑫r在國家醫療保障局網絡安全和信息化領導小組辦公室下發的,關于印發地方醫療保障信息平臺驗收指南的通知中明確要求了容災系統的驗收標準以及具體驗收方法:醫保行業容災演練技術白皮書 02第二章 醫保云容災建設標準容災指在不同機房建立一套完整的與本地生產系統相當的備份應用及數據系統,出現機房級別系統故障時,可以在規定時間內完成整體容災切換,前臺業務系統基本不受影響。容災主要針對數據和應用兩大類,根據提供基本的數據保護和提供不間斷的應用服務來區分。一般情況下容災體系可以分成數據級容災、應用

6、級容災和業務級容災三個級別。根據國家醫療保障局醫療信息平臺-可行性研究報告,醫療保障信息業務系統災備能力定級建議如下:03 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書按照國家關于災備系統能力的6級標準,結合國家醫療保障局的實際情況,醫保云數據和應用恢復需要滿足信息系統災難恢復規范(GB/T20988-2007)的第5級要求。如果數據中心出現重大災難性損失,可以達到信息系統數據基本不丟失。容災模式無數據級容災應用級容災應用級容災無數據級容災數據級容災數據級容災應用級容災應用級容災數據級容災數據級容災應用級容災應用級容災應用級容災應用級容災應用級容災應用級容災業務中斷時間(RTO)2天以

7、上30分鐘30分鐘2天以上 2天以上 2天以上 2天以上 2天以上 2天以上 2天以上 30分鐘30分鐘30分鐘30分鐘30分鐘30分鐘最大數據丟失量(RPO)10分鐘3分鐘3分鐘10分鐘10分鐘10分鐘10分鐘10分鐘10分鐘10分鐘3分鐘3分鐘3分鐘3分鐘3分鐘3分鐘信息系統名稱交換庫數據中臺業務中臺財務軟件子系統宏觀決策大數據應用系統醫療保障智能監管系統基金運行及審計監管系統信用評價管理系統支付方式管理系統醫療服務價格管理系統內部控制系統運行監測系統內部統一門戶系統醫保業務基礎系統公共服務系統藥品和醫用耗材招采管理系統跨省異地就醫管理系統基礎信息管理系統序號181716151413121

8、110987654321醫保行業容災演練技術白皮書 04第三章 醫保云容災建設方案3.1 整體系統架構應用系統:所有業務應用系統都必須基于醫療保障應用框架(Healthcare1Secu-rity Application Framework,簡稱:HSAF)開發。HSAF框架:采用分布式云架構,封裝核心云支撐服務適配接口,用于實現云產品解耦設計。適配層:基于HSAF的適配技術,將應用層依賴的分布式技術與具體廠商的分布式技術進行適配,實現應用層可以適配多家廠商的分布式技術。云支撐服務層:基于云基礎設施,為應用層提供通用的技術支撐服務,包括分布式服務、分布式緩存、分布式數據訪問、分布式日志服務、非

9、結構化存儲和消息隊列等。云基礎設施層:采用云架構,在物理設備基礎上,實現計算資源、存儲資源、網絡資源的動態管理和資源調配。05 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書3.2 省級數據中心建設框架逐步建立省級雙數據中心,并行運行,互為容災,進行生產維護、日常操作等工作。兩個數據中心(數據中心A、數據中心B)網絡系統的總體設計保持一致。根據國家網絡安全等級保護三級要求,結合醫療保障業務的實際情況,將數據中心進行網絡區域劃分。數據中心的總體安全域分為基于雙鏈路的核心業務區、基于互聯網應用的公共服務區以及核心業務區與公共服務區之間的安全隔離區。災備系統建設:雙數據中心須實現數據層和業務應

10、用層容災的自動切換。雙數據中心都應具備對稱的基礎設施和網絡接入接出,保障數據管理層面、應用程序層面、訪問通道層面都能夠平滑切換。數據備份方案要做到雙數據中心的數據庫本地備份,各地須制定數據備份和災難恢復方案。計算和存儲資源:計算和存儲資源由各省根據本地醫療保障信息平臺設計規劃和實際業務進行配置建設,對計算和存儲資源性能指標的估算,必須滿足未來3至5年的業務發展和管理醫保行業容災演練技術白皮書 06需求,實現高可靠性、高擴展性、高兼容性、易管理維護性等需求。省級網絡建設:醫療保障核心業務區為非涉密網絡,通過內外網數據交換區與醫療保障公共服務網進行連接。省級、市級醫療保障核心業務區網絡,縱向連接上

11、下級醫療保障部門核心業務網,橫向通過專線方式連接同級資源共享部門及外部關聯單位。網絡安全建設:各地按照等保三級安全要求,結合醫療保障業務實際建設醫療保障信息平臺,著重加強防病毒、網絡態勢感知、終端接入管理、身份認證密碼等網絡安全體系建設,保障醫療保障信息平臺安全可靠運行。3.3 應用容災解決方案框架阿里云提供的醫保云平臺建設模式整體上采用公共服務區+核心業務區2朵云,雙機房+4AZ的同城容災架構。07 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書A數據中心是主機房,B數據中心是同城備機房;醫保專有云有兩個云平臺,包括公共服務區專有云和核心業務區專有云,每朵云都是跨AB數據中心部署。公共

12、服務區對接互聯網,核心業務區對接醫保專網、電子政務外網、其他第三方接入。其中,第三方接入一般對接銀行、稅務。公共服務出口區最外側是GSLB設備,具有域名解析功能,可以通過域名解析控制互聯網流量到A數據中心或者B數據中心。公共服務區互聯網業務經過ISW進入云內。核心服務區電子政務外網業務經過ISW進入云內;醫保專網業務經過CSW進入云內;第三方接入是經過CSW進入云內。A/B數據中心提供CA以及安全管理區。網閘用來控制公共區與核心區之間的互訪,通過網閘地址+端口做映射;A數據中心網閘地址和B數據中心網閘地址一般是不同的(不同的省份網閘功能定位可能會有所區別)。3.4 云平臺建設保障與運維要求由于

13、醫療保障業務的重要性和復雜性,原則上建議地方自建數據中心。醫保云計算平臺的建設和使用過程中應制定保障機制,明確總體目標、范圍、工作原則和制度要求。醫保云計算平臺的數據中有個人隱私、支付交易類等具有高度敏感性質的專有數據,因此各級醫保云計算平臺應建立專業的組織機構保障,組建專有的建設及運維保障團隊,并設定相關崗位。醫保云基礎設施層和支撐服務層總體非功能性要求:a)應保證云基礎設施層和云支撐服務層7*24小時的連續性;b)應保證云基礎設施層和云支撐服務層可用性;c)應保證云基礎設施層和云支撐服務層存儲數據的可靠性。保障機制具體要求:醫保行業容災演練技術白皮書 08a)應制定由醫保云計算平臺管理制度

14、、資源分配管理規范、運維管理手冊、應急處理預案等組成的全面的管理制度體系;b)應定期對制度體系進行論證和評審,對存在不足或需要改進的制度進行修訂。保障團隊具體要求:a)應明確各項目建設和運維團隊和崗位職責;b)應對各類項目參與人員應進行安全意識教育和崗位技能培訓;c)應加強各類項目參與人員和團隊之間的溝通和協作。保障措施具體要求:a)應提供技術保障措施,包括:1)服務臺及管理工具;2)資源管理工具;3)技術服務管理工具;4)運維服務管理工具;b)應提供輔助管理保障措施,包括:1)知識庫管理;2)備品備件服務;3)災備管理服務;c)應提供應急響應保障措施,包含應急預案、監測與預警、應急處置、評估

15、與改進等。09 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書第四章 醫保云容災演練方案4.1 容災演練調研4.1.1 調研及改造目標醫保容災系統旨在構建基于同城雙機房的容災能力,以確保主機房在發生災難時,能夠快速的進行容災切換,保證業務連續性。為了有效保障容災平臺及方案達到預期目標,通過梳理系統架構發現潛在風險點,分別對云產品、業務應用及網絡給出優化改造建議,最終做到面對數據中心級別的故障時能夠具備準確識別、快速切換的能力。4.1.2 云產品調研及改造要求REDIS 4.0集群版專有云支持4種Redis規格,2.8主從版、2.8集群版、4.0主從版及4.0企業版。其中,Redis 4.

16、0集群版不具備容災能力,該規格的實例發生容災切換后,不能繼續提供服務。在確認無兼容性前提下,建議將4.0集群版的實例替換為其他規格,如:4.0主從版。對于新建實例,則直接采用Redis 4.0主從版;對于現有4.0集群版實例可替換為其他規格,如:4.0主從版。在ASCM控制臺選中實例進行變配即可完成規格的替換,變配后實例的域名不變。變配會有業務影響,建議在業務低峰期時實施:注:需先在測試環境下對目標版本(如:4.0主從版)進行功能及性能測試,確認無兼容性問題后再進行變配。產品問題解決方案醫保行業容災演練技術白皮書 10OSS(云外直接訪問OSS)云外直接訪問OSS。OSS在容災切換后,OSS域

17、名保持不變,但其對應的VIP發生變化,因此云外直接訪問OSS時需要調整訪問地址。建議統一使用域名訪問云產品ADB不支持容災,需要評估ADB數據是否為業務強依賴數據。云產品ADB目前不支持容災,且在備機房也沒有部署云產品ADB。此次容災演練不涉及該產品。DRDS查看DRDS是否為單機房實例,即實例的server節點均在一個機房內,未分布在雙機房。當單機房出現故障時,由于對端機房沒有server節點,會導致部分DRDS無法工作。需要變更DRDS實例配置,使得實例的server節點分布在兩個機房。CSB主備機房都要部署CSB broker,建議在備機房部署同樣數量的broker,保證備機房的brok

18、er容量能夠承載全部業務。并且將備機房broker掛載到CSB的SLB下,連同主機房broker一起提供服務。在主備機房各創建若干個ECS,每個ECS均部署CSB broker,需保證任一單機房的broker容量能夠承載全部業務。將全部雙機房broker掛載到CSB的SLB下,即主備機房所有broker一起提供服務。RDS只讀實例RDS只讀實例主要用于實現讀能力的擴展。在專有云里,RDS只讀實例只存在于主機房,如果主機房出現異常不可用,則只讀實例也將不可用。若應用分別配置并使用RDS主實例和只讀實例,則需要變更應用訪問配置將讀請求轉發到主實例;若應用使用數據庫代理(原讀寫分離),則應用無需修改

19、。數據庫代理提供一個代理地址,應用訪問該地址即可自動實現寫請求轉發到主實例,讀請求轉發到只讀實例。11 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書4.1.3 應用側調研及改造要求EIP通常采用EIP方式實現ISW側對外訪問,EIP綁定范圍是ECS或Vswitch,二者都只能在單機房存在,不能跨機房。因此為了應對機房級故障,需要在每個機房都配置EIP。在主備機房需要配置對等的EIP。其他連接池1、hinka2、dbcp3、hikaricp4、odbc確認連接池具備重連重試的能力在應用系統使用數據庫連接池訪問數據庫的情形下,需要確保數據庫連接池組件具備重連重試的能力,以解決數據庫切換、重

20、啟等場景下,訪問RDS異常問題;如果使用其他類型數據庫連接池(dbcp/odbc/hika/hikaricp),也需確認其具備重試重連能力;Druid應用必須具備數據庫連接的重連重試能力,以解決數據庫切換、重啟等場景下,訪問RDS異常問題。通常應用使用連接池訪問數據庫。建議將Druid版本替換為最新的1.2.6。V1.2.6主要修復問題:1.連接池在close后創建中的連接沒有被關閉的問題;2.修復連接池在MySQL服務器主動連接斷開時keepAlive機制失效的問題(1.1.24、1.2.5);在應用系統使用數據庫連接池訪問數據庫的情形下,需要確保數據庫連接池組件具備重連重試的能力,以解決數

21、據庫切換、重啟等場景下,訪問RDS異常問題。如果數據庫連接池為Druid,建議將Druid版本替換為最新的1.2.6;雙機房對等部署在雙機房容災場景下,要求應用做到跨機房的冗余部署,保證每個模塊、接口或微服務對應的資源在雙機房都要對等部署,保證任一個機房內的應用均可獨立承載全量讀寫流量。應用在A、B雙中心部署,如對于ECS實例,按照A:B中心實例數量1:0.6的比例進行部署問題問題描述解決方案醫保行業容災演練技術白皮書 12自建組件部分ISV自建Redis、ES、NG、MYSQL等,存在單中心部署,無數據同步及服務切換能力ES屬于非云產品,需要應用開發商設計容災方案。有2個參考方案:1、主備機

22、房各自部署ES集群,采用數據雙寫或集群間同步機制實現ES的數據復制;2、主備機房部署一個ES集群,利用集群內部機制實現數據復制;其他自建組件例如Nginx/Tomcat,類似處理。對于自建mysql等情況,建議使用云產品RDS替代,云產品RDS具備容災能力,且降低運維管理工作量。其他自建組件例如Redis/MQ,建議類似處理,使用對應的且具備容災能力的云產品替代?;贗P訪問基于IP訪問云產品,部分產品如OSS,在容災切換后,域名不變,IP地址會變建議在ECS外側增加SLB負載均衡,改進后的架構具備應用容災能力。/etc/hosts綁定ECS不具備容災能力,確認該服務是否有容災需求。無非SLB

23、對外服務1、需要所有ECS具有相同的配置項;2、在變更時也要關注,提升了運維復雜度。建議在ECS外側增加SLB負載均衡,改進后的架構具備應用容災能力。數據本地存儲部分ISV應用數據持久化在本地,需要評估是否可將數據保存在OSS,RDS中。針對數據持久化存儲在ECS本地情形,建議結構化數據保存到RDS,非結構化數據保存到OSS,借助云產品的能力實現容災。定時任務在雙機房環境下,當容災切換后,需盡量關閉原機房的定時任務和相應進程。若原機房定時任務依然工作,可能會寫入生產數據,導致主備機房數據不一致。當容災切換后,需關閉原機房的定時任務和相應進程。13 醫保行業容災演練技術白皮書醫保行業容災演練技術

24、白皮書4.2 容災演練改造平臺側由TAM團隊執行precheck項目檢查摸底巡檢等,對不符合容災條件的現有問題或缺陷進行修復。含云產品DNS、RDS/Redis、SLB、OSS、EDAS,云平臺底座Tianji,以及機房服務器帶內帶外網絡狀態等,輸出問題整理及變更。4.2.1 云平臺側容災改造杜康不可切換實例杜康上有部分redis實例缺少到備機房的SLB鏈路信息,導致目前主備機房場景下容災切換狀態為不可切換在dbaas數據庫中修改信息,添加實例到備機房的SLB鏈路信息,使實例狀態為可切換轉態。修復過程會對實例重新掛載slb鏈路,用戶的長連接會斷開,需要用戶的業務代碼重新建立連接,對用戶有感知。

25、需提前溝通客戶確認時間,完成后及時通知客戶重連驗證。OSS產品調整oss_syncWorker_NewMsgMaxReplicateTaskCount參數醫保局容災環境,需要同步的OSS 數據較多,OSS容災集群帶寬速率正常,QPS過高,無法滿足主備集群間數據同步需求需要調整oss_syncWorker_NewMsgMaxReplicateTaskCount參數增加拉取數據的任務數(從30增加為64),加快數據同步。rds 關閉可用區域對其功能rds會自動在凌晨將主備可用區做數據對齊,若不關閉在凌晨做容災切換時則會影響可用區對齊rds關閉可用區域對其功能問題問題描述解決方案醫保行業容災演練技術

26、白皮書 14云外直接訪問公共區OSSEIP場景 1、外部訪問方式調整,建議通過域名進行訪問;2、云外GSLB設備控制流量發給A機房的FW或者B機房FW;FW做地址映射到SLB+EIP;3、兩臺Nginx負載均衡,將全部流量轉發至OSS域名,OSS發生容災切換域名不變;1.外網訪問云上ECS,ECS需要負載均衡的,ECS前端申請SLB,SLB綁定EIP;2.外網單向訪問ECS,或者ECS單向訪問外網,通過Nat網關,做dnat或者snat,綁定EIP;3.外網和云上ECS互訪,直接ECS前端掛載EIP ;DRDS原DRDS僅部署在A中心,不滿足容災需求DRDS變配切換為雙可用區,即A+B模式提供

27、主備功能Redis4.0集群版改造Redis4.0集群版不滿足容災需求,需變配變更為主從版變配為redis4.0 主從版OSS容災同步功能在容災場景下,主備機房容災切換后,實例數據存放調用備機房OSS,需要開啟該功能,實現主備機房OSS數據同步開啟容災同步功能15 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書4.2.2 平臺側網絡改造醫保業務平臺架構按照功能將平臺劃分為核心區與公共區:公共服務區面向公眾提供互聯網服務,核心服務區面向醫保專網和電子政務外網提供服務,兩區之間通過安全隔離區隔離。所謂安全隔離區指的是拓撲中的網閘設備,在兩個主備AB機房的核心區與公共區之間作為安全橋梁連接。醫

28、保云平臺容災建設的網絡規劃中核心邏輯是主備,即云外云內進出流量均優先流經主機房。鏈路異常后,云內邊界設備與云外設備均保持同步切換流量流經備機房,云外依賴GSLB,云內調整優先級優先A機房中斷后從DCI專線從B機房出口。整體網絡拓撲如下,下面根據不同業務流向解析強主備的實現邏輯。4.2.2.1 IDC與VPC并網客戶側雙機房(主備)SLB私網實例:1)對于VPC同一個業務,客戶在VPC內slb同時申請掛載主備機房的ECS;2)VPC內VIP有機房屬性,創建機房A屬性的VIP;部署條件:醫保行業容災演練技術白皮書 161)云機房A的CSW配置用戶側idc機房的路由為A機房出口,云機房B的CSW配置

29、用戶側的IDC路由為B機房出口,2)VPC內vroute上配置去往客戶側的idc路由,主用為A機房的VBR,被用為B機房的VBR。醫保平臺由于AB機房網閘地址不相同,并網時只并A網閘路由、待切換時后將B網閘路由在vrouter上添加配置。3)客戶內網接入去VPC網段均以A機房為主,B機房為備。去往VIP的路由A機房為主,B機房為備。正常情況下所有的出口流量均流經A機房,在主機房A出口故障后才會至備機方B出口。A出口故障后,內網接入區idc客戶側先從互聯鏈路走到B機房入口,流經B機房csw后走橫連DCI到達主機房XGW。機房內的SLB將流量轉發至本機房和對端機房的ecs。云內出口方向由XGW1v

30、pc健康檢查檢測到A機房csw出口鏈路中斷,此時權重0的B機房csw出口的路由將生效,即能尋路到B機房csw出口后去往云外客戶idc側。4.2.2.2 IDC與經典網并網客戶側雙機房(主備)SLB私網實例:17 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書部署條件:醫保A機房和B機房分別對接客戶FW,兩個機房的經典網均與客戶側的兩個機房網絡進行并網??蛻魝嚷酚膳渲茫嚎蛻魝華B機房針對云平臺所有的網段,均以A機房作為主用,以B機房作為備用。專有云側路由配置:1)機房A的CSW配置去往客戶側的靜態路由,且修改路由優先級為10,優于bgp;2)機房B的CSW配置去往客戶的的靜態路由,采用采用

31、前綴列表+策略路由(增加as-path);在重分布靜態路由至云內BGP環境中調用,確保流量優先選擇主機房CSW出訪。4.2.2.3 VPC與網閘并網改造在跨區通信中,云內核心區與公共區均需要有去往客戶側網絡設備的路由。又兩個機房網閘區使用的地址網段不相同,云內建設前期VPC僅有A-網閘路由,故而在容災切換網絡前在VPC上添加B-網閘的路由。4.2.2.4 OSS網絡改造1)跨網閘訪問使用現狀:公共區訪問核心區OSS,開發商將OSS的A中心VIP做了網閘映射進行訪問,進行容災切換到B中心時VIP會變,訪問會不可用。改造:搭建slb+ecs+nginx架構,使用nginx轉發到OSS域名,切換時O

32、SS域名不變,會自動解析到B中心VIP。醫保行業容災演練技術白皮書 182)從互聯網訪問使用現狀:開發商把A中心OSS-VIP1映射到互聯網進行訪問,容災切換后,需使用B中心VIP訪問。改造:云外GSLB設備控制流量發給A機房的FW或者B機房FW;FW做地址映射到slb+ecs+nginx,兩臺Nginx負載均衡,將全部流量轉發至OSS域名,OSS發生容災切換域名不變,解析IP會變為B中心的。19 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書4.2.3 應用側網絡改造4.2.3.1 ECS訪問互聯網/政務外網ECS訪問互聯網/政務網API場景1)容災場景,需同時申請AB中心ECS和EI

33、P,分別綁定,且在A、B中心的出口開通安全策略訪問互聯網。2)也可以使用NAT產品,NAT產品同時綁定有AB中心的EIP,對有需要的ECS開通SNAT。4.2.3.2 從互聯網/政務外網/醫保專網訪問云內業務1)互聯網/政務外網訪問云上ECS,ECS需要負載均衡的,ECS前端申請SLB,SLB綁定EIP。2)醫保專網訪問云上ECS,ECS需要負載均衡的,ECS前端申請SLB。醫保行業容災演練技術白皮書 204.2.4 云外網絡改造4.2.4.1 出口GSLB改造部署條件:云機房A的ISW配置默認路由為A機房出口并修改這條靜態路由優先級為10優于BGP,云機房B的ISW配置默認路由為B機房出口(

34、優先級60),同時isw通過DCI專線建立了ebgp鄰居,由于bgp引入了默認路由傳遞給B學習到的優先級為20大于60,所以B機房出口以A機房為主。正常情況下云內AB機房均以A機房作為互聯網出口流向,只有當A機房端口失效后才會從B機房的接口出去。云外互聯網通過GSLB解析域名均指向線路A,移動運行商承建;當檢測云內鏈路中斷后可切換域名解析到B線路,聯通運營商承建。正常情況下所有云內云外互聯網側流量均以A機房進出。21 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書4.2.4.2 云外網閘配置改造正常情況下,核心區與公共區之間的互訪業務均通過主機房的csw去往客戶側網閘,在網閘上實現ip+

35、port的映射轉換,從而實現兩區通信。當主機房側出口鏈路故障,無論是核心區還是公共區亦或者兩者出口都中斷,此時兩區互訪業務均流經B機房csw出口至B機房客戶側網閘實現通信。此處要求主備機房云外的網閘均需要具備阿里云內的服務地址(VPC)的路由,即保持端口+ip配置的同步。4.2.4.3 80及443端口備案公共區業務流量切換到B中心后,云外GSLB會調整域名解析到B中心公網地址,對使用80及443等端口對外提供服務的業務,需要提前進行備案。4.2.4.4 云外IDC出口防火墻配置主備中心機房云內邊界設備均對接客戶側防火墻后出口,此處需保持主備機房云外防火墻側開通的策略及放行地址+端口保持一致。

36、由云外工程師在容災演練操作前完成。4.2.4.5 云外IDC出口路由交換設備鏈路改造主備中心機房云外設備均具備阿里云對外提供服務地址路由(含VPC與經典網網段),即需要主備機房云外IDC至GSLB出口的設備均添加了到云內地址的路由。大部分醫保平臺前期只在主機房A添加,此次容災切換網絡前需要在B機房云外路由交換設備上添加云內路由,由云外工程師完成。醫保行業容災演練技術白皮書 224.3 容災演練場景4.3.1 容災演練前置準備4.3.2 容災演練場景規劃數據層容災演練場景-公共區(RDS/Redis的RTO與實例數量有關)說明前置條件應用層容災演練數據層容災演練檢查云平臺/云產品容災滿足度,保障

37、其以正常狀態運行(責任方:阿里云)檢查云平臺/云產品容災滿足度,保障其以正常狀態運行(責任方:阿里云)公共區與核心區之間2組網閘部署完成,且可分別實現AB機房的雙向互訪(責任方:網閘、其他廠商)AB機房中業務系統形成容災架構,完成內外部系統的集成及驗證(責任方:廠商)連接池、ES自建組件、OSS訪問等(責任方:廠商)CSB雙活部署等(責任方:阿里云)Redis 4.0集群版、DRDS雙可用區(責任方:阿里云)檢查云平臺/云產品的容災滿足度,保障其以正常狀態運行(責任方:阿里云)檢查云平臺/云產品的容災滿足度,保障其以正常狀態運行(責任方:阿里云)云平臺完成正式交付(責任方:阿里云)核心區云平臺

38、容災巡檢(1-2天)公共區云平臺容災巡檢(1-2天)A、B雙機房網閘部署完成,公共區A、B機房均可訪問核心區A、B雙機房業務部署完成,保證各單機房業務可用應用容災改造云產品容災改造核心區云平臺容災巡檢(3天)公共區云平臺容災巡檢(3天)云平臺轉維目標涉及業務業務影響MQ主備切換公共區子系統MQ保證數據強一致,切換過程中無法處理消息RPO=0,RTO3min演練時長:2小時RDS/Redis主備切換公共區子系統訪問RDS/Redis出現秒級(5s)連接中斷,應用重連可恢復RPO=0,RTO1min演練時長:2小時OSS主備切換公共區子系統訪問OSS的連接出現秒級中斷,重新連接可恢復RPO=0,R

39、TO5min演練時長:2小時場景 23 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書應用層容災演練場景-公共區涉及業務業務影響模擬主A機房云平臺服務整體不可用+B機房承載業務核心區子系統公共區子系統公共區:SLB/RDS/Redis/OSS/EDAS/MQ/LOG/ARMS云產品整體切換至B機房核心區:SLB/RDS/Redis/OSS/EDAS/MQ/LOG/ARMS云產品整體切換至B機房影響:參考單云產品切換影響RPO=0,RTO30min場景應用層容災演練場景-公共區數據層容災演練場景-核心區(RDS/Redis的RTO與實例數量有關)涉及業務業務影響MQ主備切換核心區子系統MQ

40、保證數據強一致,切換過程中無法處理消息RPO=0,RTO3min演練時長:2小時RDS/Redis主備切換核心區子系統訪問RDS/Redis出現秒級(5s)連接中斷,應用重連可恢復RPO=0,RTO1min演練時長:2小時OSS主備切換核心區子系統訪問OSS的連接出現秒級中斷,重新連接可恢復RPO=0,RTO5min演練時長:2小時場景涉及業務業務影響云平臺底座主備切換云平臺管控受影響含天基、DNS、miniRDS、middleware等切換時底座部分管控功能受影響RPO=0,RTO10min演練時長:2小時其他云產品主備切換核心區子系統SLB:已有連接秒級中斷,應用重連可恢復EDAS:無法發

41、布或管理應用,現存應用運行無影響LOG:訪問出現秒級中斷,重連可恢復ARMS:訪問出現秒級中斷,重連可恢復RPO=0,RTO5min演練時長:4小時場景醫保行業容災演練技術白皮書 24應用層容災演練場景2-公共區+核心區涉及業務業務影響A機房核心區云平臺故障核心區子系統(公共區子系統配合驗證)A機房核心區云平臺異常時,將核心區核心云產品(SLB/RDS/Redis/OSS/EDAS/MQ/LOG/ARMS)切換至B機房,利用B機房承載業務。模擬方式:A機房核心區CSW/ISW入口斷網影響如下:公共區到核心區的連接中斷,切換后,公共區到核心區流量走B機房網閘RPO=0,RTO30min演練時長:

42、18小時場景應用層容災演練場景2-公共區+核心區涉及業務業務影響A機房公共區云平臺故障公共區子系統(核心區子系統配合驗證)A機房公共區云平臺異常時,將公共區核心云產品(SLB/RDS/Redis/OSS/EDAS/MQ/LOG/ARMS)切換至B機房,利用B機房承載業務。模擬方式:A機房公共區ISW/CSW入口斷網影響如下:云外互聯網到主機房公共區連接中斷,需要云外切換入口到B機房公共區入口RPO=0,RTO30min演練時長:18小時場景25 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書備注:第三方機構需要同時部署到B機房的專線,否則切換期間部分業務可能受損。4.4 容災演練方案4.

43、4.1 公共區數據層演練RDS/Redis容災切換演練準備登錄RDS控制臺:創建測試RDS實例,如:testRds1。創建測試數據庫,如:testDb1。創建測試表,如:testtb1(id int,memo varchar(100))。插入測試數據,如:insert into testtb1 values(1,switchover)。登錄Redis控制臺:創建測試Redis實例,如:testRedis1。Key賦值,如:set test switchover切換時長(單次)5min業務影響應用訪問RDS/REDIS實例出現秒級(5s)連接中斷,應用重連重試可恢復。切換方案通過ASR一鍵切換。

44、注:ASR中數據庫主備切換支持多種引擎,如:RDS for MySQL、Redis等。要點說明演練目標正常狀態下,RDS/REDIS實例的主節點在A機房提供服務。當出現異?;騿螜C房發生故障時,需要將RDS/REDIS實例的主節點切換至B機房以繼續提供服務。切換后,RDS/REDIS實例的主節點在B機房。演練對象:整體RDS/REDIS平臺,含所有RDS及Redis實例。醫保行業容災演練技術白皮書 26MQ容災切換要點說明演練準備登錄MQ控制臺:創建測試Topic,如:testTopic1??刂婆_發送消息,如:“switchover”。切換時長(單次)分鐘級,10min 業務影響MQ保證數據強一

45、致,數據不會丟失,以Broker維度進行切換,切換過程中無法消費消息。切換方案通過ASR一鍵切換。演練目標正常狀態下,MQ(核心組件為Broker)在A機房提供服務。當出現異?;騿螜C房發生故障時,需要將MQ切換至B機房以繼續提供服務。切換后,B機房的Broker被置為主提供服務。OSS容災切換要點說明演練準備登錄OSS控制臺:創建測試Bucket,如:testBucket1。上傳一個文件file1。切換時長(單次)1min業務影響訪問OSS的連接出現秒級中斷,重新連接可恢復。切換方案通過ASR一鍵切換。切換過程服務不停,無需等待數據同步完成,OSS域名重新綁定到備機房OSS集群的VIP。演練目

46、標正常狀態下,云產品OSS在A機房提供服務。當出現異?;騿螜C房發生故障時,需要將OSS切換至B機房以繼續提供服務。切換后,由B機房的OSS集群提供服務。演練對象:整體OSS,含所有的Bucket。27 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書云平臺底座容災切換4.4.2 公共區應用層演練SLB/EDAS/LOG/ARMS容災切換要點說明切換時長(單次)10min業務影響含天基、DNS、miniRDS、middleware等,切換時底座部分管控功能受影響。切換方案通過ASR一鍵切換。演練目標云平臺底座正常狀態下,由A機房提供服務。當出現異常時,需將其切換至B機房以繼續提供服務。要點說

47、明業務影響SLB:已有連接秒級中斷,應用重連可恢復。EDAS:無法發布或管理應用,現存應用運行無影響LOG:訪問出現秒級中斷,重連可恢復。ARMS:訪問出現秒級中斷,重連可恢復。切換時長(單次)5min切換方案通過ASR一鍵切換。演練目標正常狀態下,A機房的SLB實例在A機房提供服務。當出現異常時,需將其切換至B機房以繼續提供服務。切換后,訪問SLB流量進入B機房,由B機房的SLB集群提供服務。EDAS集群在雙機房部署,依賴跨AZ的組件集群提供服務。當出現異?;虬l生機房故障時,需要切換至B機房以繼續提供服務。正常狀態下,LOG在A機房提供服務。當出現異常時,需要將LOG切換至B機房以繼續提供服

48、務。切換后,由B機房的LOG集群提供服務。正常狀態下,ARMS在A機房提供服務。當出現異常時,需要將ARMS切換至B機房以繼續提供服務。切換后,由B機房的ARMS集群提供服務。醫保行業容災演練技術白皮書 28OSS容災切換演練準備登錄OSS控制臺:創建測試Bucket,如:testBucket1。上傳一個文件file1。切換時長(單次)1min業務影響訪問OSS的連接出現秒級中斷,重新連接可恢復。切換方案通過ASR一鍵切換。切換過程服務不停,無需等待數據同步完成,OSS域名重新綁定到備機房OSS集群的VIP。演練目標正常狀態下,云產品OSS在A機房提供服務。當出現異?;騿螜C房發生故障時,需要將

49、OSS切換至B機房以繼續提供服務。切換后,由B機房的OSS集群提供服務。演練對象:整體OSS,含所有的Bucket。要點說明29 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書4.4.3 核心區數據層演練RDS/Redis容災切換演練準備登錄RDS控制臺:創建測試RDS實例,如:testRds1。創建測試數據庫,如:testDb1。創建測試表,如:testtb1(id int,memo varchar(100))。插入測試數據,如:insert into testtb1 values(1,switchover)。登錄Redis控制臺:創建測試Redis實例,如:testRedis1。Ke

50、y賦值,如:set test switchover切換時長(單次)5min業務影響應用訪問RDS/REDIS實例出現秒級(5s)連接中斷,應用重連重試可恢復。要點說明切換方案通過ASR一鍵切換。注:ASR中數據庫主備切換支持多種引擎,如:RDS for MySQL、Redis等。演練目標正常狀態下,RDS/REDIS實例的主節點在A機房提供服務。當出現異?;騿螜C房發生故障時,需要將RDS/REDIS實例的主節點切換至B機房以繼續提供服務。切換后,RDS/REDIS實例的主節點在B機房。演練對象:整體RDS/REDIS平臺,含所有RDS及Redis實例。4.4.4 核心區應用層演練SLB/EDA

51、S/LOG/ARMS容災切換MQ容災切換業務影響MQ保證數據強一致,數據不會丟失,以Broker維度進行切換,切換過程中無法消費消息。切換方案通過ASR一鍵切換。演練目標正常狀態下,MQ(核心組件為Broker)在A機房提供服務。當出現異?;騿螜C房發生故障時,需要將MQ切換至B機房以繼續提供服務。切換后,B機房的Broker被置為主提供服務。要點說明演練準備登錄MQ控制臺:創建測試Topic,如:testTopic1??刂婆_發送消息,如:“switchover”。切換時長(單次)分鐘級,10min 切換時長(單次)5min業務影響SLB:已有連接秒級中斷,應用重連可恢復。EDAS:無法發布或管

52、理應用,現存應用運行無影響LOG:訪問出現秒級中斷,重連可恢復。ARMS:訪問出現秒級中斷,重連可恢復。切換方案通過ASR一鍵切換。演練目標正常狀態下,A機房的SLB實例在A機房提供服務。當出現異常時,需將其切換至B機房以繼續提供服務。切換后,訪問SLB流量進入B機房,由B機房的SLB集群提供服務。EDAS集群在雙機房部署,依賴跨AZ的組件集群提供服務。當出現異?;虬l生機房故障時,需要切換至B機房以繼續提供服務。正常狀態下,LOG在A機房提供服務。當出現異常時,需要將LOG切換至B機房以繼續提供服務。切換后,由B機房的LOG集群提供服務。正常狀態下,ARMS在A機房提供服務。當出現異常時,需要

53、將ARMS切換至B機房以繼續提供服務。切換后,由B機房的ARMS集群提供服務。要點說明醫保行業容災演練技術白皮書 30云平臺底座容災切換4.4.5 A機房公共區&核心區云產品切換演練切換時長(單次)10min業務影響含天基、DNS、miniRDS、middleware等,切換時底座部分管控功能受影響。切換方案通過ASR一鍵切換。演練目標云平臺底座正常狀態下,由A機房提供服務。當出現異常時,需將其切換至B機房以繼續提供服務。要點說明切換時長(單次)60min 演練時間窗口:12hour業務影響參考單云產品切換影響。RPO=0,RTO30min切換方案通過ASR一鍵切換。公共區切換產品包括:RDS

54、/REDIS/OSS/MQ/SLB/EDAS/LOG/ARMS核心區切換產品包括:RDS/REDIS/OSS/MQ/SLB/EDAS/LOG/ARMS演練目標A機房公共區/核心區云平臺正常狀態下,主要由A機房的云產品提供主服務。當出現異常時,需將其切換至B機房以繼續提供服務。要點說明31 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書4.4.6 A機房公共區云平臺故障演練(入口斷網)切換時長(單次)180min,演練時間窗口:18 hour業務影響公共區入口從A機房切換到B機房公共區與核心區之間的互訪經由A機房網閘切換為B機房網閘RPO=0,RTO A機房公共區2.A機房公共區入口(互聯

55、網)-A機房網閘-A機房核心區 3.A機房核心區入口(政務外網、醫保專網、第三方接入)-A機房核心區4.A機房核心區入口(政務外網、醫保專網、第三方接入)-A機房網閘-A機房公共區切換后流量路徑:1.B機房公共區入口(互聯網)-B機房公共區2.B機房公共區入口(互聯網)-B機房網閘-B機房核心區-A機房核心區3.A機房核心區入口(政務外網、醫保專網、第三方接入)-A機房核心區4.A機房核心區入口(政務外網、醫保專網、第三方接入)-B機房核心區-B機房網閘-B機房公共區要點說明前置工作:1、B機房公共區/核心區應用提前配置好到網閘B的訪問,提前完成訪問鏈路驗證;2、開發商提前完成自建組建的切換驗

56、證工作。4.4.7 A機房核心區云平臺故障演練(入口斷網)醫保行業容災演練技術白皮書 32前置工作:1、B機房公共區/核心區應用提前配置好到網閘B的訪問,提前完成訪問鏈路驗證;2、開發商提前完成自建組件的切換驗證工作。4.5 演練風險及應對措施針對演練的特點及醫保災備系統的現狀,災備項目組對演練的籌備及實施過程中切換時長(單次)180min,演練時間窗口:18hour業務影響核心區入口從A機房切換到B機房核心區與公共區之間的互訪經由A機房網閘切換為B機房網閘RPO=0,RTO A機房公共區2.A機房公共區入口(互聯網)-A機房網閘-A機房核心區 3.A機房核心區入口(政務外網、醫保專網、第三方

57、接入)-A機房核心區4.A機房核心區入口(政務外網、醫保專網、第三方接入)-A機房網閘-A機房公共區切換后流量路徑:1.A機房公共區入口(互聯網)-A機房公共區2.A機房公共區入口(互聯網)-B機房公共區-B機房網閘-B機房核心區3.B機房核心區入口(政務外網、醫保專網、第三方接入)-B機房核心區4.B機房核心區入口(政務外網、醫保專網、第三方接入)-B機房網閘-B機房公共區-A機房公共區要點說明33 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書可能存在的問題及風險進行分析和梳理,并提出相應的風險應對措施,如下表所示:高2ASR云平臺切換異常中1演練目標由于某些產品異常而導致的云平臺整

58、體切換異常時,不能回滾,需要逐個修復切換異常產品。1、修復SR終態,重新觸發切換。天基平臺查看產品狀態,SR不到終態的要先處理到終態。示例如下:2、單產品重新觸發切換。切換失敗時的影響舉例:1)對RDS/REDIS,切換失敗,客戶端訪問的還是主庫,對業務沒影響,嘗試重切,正??苫謴?;2)對OSS/OTS,主要是切換域名,只需保證DNS服務正常,切換失敗,嘗試重切,正??苫謴?,若異常則檢查DNS服務是否正?;蛘咂渌驅е?;3)對MQ切換失敗,先嘗試重切,正常情況下可恢復。極端情況下,MQ主機房broker異常,備機房broker仍處于備角色,則后臺訂正broker狀態可恢復,期間 應用無法訂閱

59、和發布消息。序號 潛在風險應對措施風險等級高3ServerRole(SR)未終態切換過程中,如有SR未達到終態,需要重啟SR以達到終態。1、登錄天基,找到沒有到終態的SR。2、點擊SR的DashBoard。3、重啟SR。醫保行業容災演練技術白皮書 344天基同步異常機房級故障/演練恢復后,如果ASR顯示天基同步有問題,需要重建天基同步。1、清理原來主機房(當前備機房)的數據。1)分別登錄當前備機房的 ops1、ops2、ops3 三臺機器。2)執行如下命令去掉 start 權限。chmod-x/cloud/app/tianji/TianjiMaster#/tianji_master/curre

60、nt/start3)半分鐘后查看pkill tj_master_main 進程是否已啟動。如果未啟動,請繼續執行如下步驟。4)刪除tjmaster目錄下所有文件。rm-rf/apsarapangu/tjmaster/*5)恢復 start 權限。chmod+x/cloud/app/tianji/TianjiMaster#/tianji_master/current/start查看tj_master_main 進程已經自動啟動。2、檢查數據清空后主備同步配置是否丟失。1)檢查原主機房(當前備機房)三個tjmaster的/cloud/data/_global/tjmaster文件。2)如果沒有對端

61、(當前主機房)的IP信息,需要復制對端的tjmaster內容追加到文件中。3)文件修改后執行kill命令關閉tj_proxy進程。3、檢查tj_proxy是否可以訪問。curl localhost:7070/api/v3/column/m.id如果訪問不了可以關閉進程。4、檢查/apsarapangu/tjmaster和/dev/shm/tjmasterchaser/是admin權限如果不是admin權限請執行類似如下命令修改為admin權限。chown admin:admin/dev/shm/tjmasterchaser/如果主機房的服務很多都未達終態,請執行kill命令關閉主機房的tj_p

62、roxy進程。高高5RDS同步異常RDS杜康系統上顯示延遲:-1或者seconds_behind_master=-1或IO異常時,需要進行備庫重搭。1、登錄杜康,在菜單欄中單擊系統管理,選擇權限配置。在超級管理員一欄中單擊分配權限,選擇INSTANCE_OPERATOR_PERMISSION。2、在菜單欄中單擊實例管理單擊實例名稱,進入實例詳情,單擊備庫重搭。3、在掉電恢復場景中,請勾選是否強制主庫備份。35 醫保行業容災演練技術白皮書醫保行業容災演練技術白皮書第五章 總結數據備份和系統容災是保證信息系統平臺長期有效運行的關鍵技術?!笆濉逼陂g,醫保行業以人工智能、大數據、區塊鏈等新興技術為支撐,推進建立全國統一、高效、兼容、便捷、安全的醫療保障信息系統,實現了數據兩級集中和標準統一。面對“十四五”提出的加快醫保信息化建設,健全標準化體系的重要任務,醫保云在保障醫療數據安全、規范數據管理和應用,維護醫療保障信息平臺安全運行方面任重道遠。本書基于在系統容災技術領域多年積累和探索,將技術方法和解決方案書寫成冊,幫助解決不同場景下的數據備份和容災技術問題,為構建安全、可靠的業務系統提供有價值的技術參考。醫保行業容災演練技術白皮書 36

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(阿里云:醫保行業容災演練云上技術白皮書(40頁).pdf)為本站 (securities) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站