《TDSQL容災能力升級解密.pdf》由會員分享,可在線閱讀,更多相關《TDSQL容災能力升級解密.pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、主講人:吳洪輝主機故障、存儲故障、網絡故障、機架機房掉電、地域級災難CPU高、SQL延遲抖動、未提交事務、鎖異常設備維護、環境搬遷、擴縮容、版本升級、切換演練程序邏輯異常、運維誤操作、入侵勒索分布式數據庫技術金融應用規范災難恢復要求 JR/T0205-2020信息安全技術 災難恢復服務要求GB/T 36957-2018.中斷超10分鐘較大事件中斷超30分鐘重大事件應用于金融領域的分布式事務數據庫災難恢復能力應至少達到4級及以上能力要求同城雙中心、同城多中心強同步、自動故障轉移RPO=0,RTO30sDCN同城災備DCN跨城災備全量增量備份邏輯備份PITR恢復SQL鏈路診斷SQL防火墻延遲復制同
2、城雙中心、同城多中心強同步、自動故障轉移RPO=0,RTO30s大規模容災切換提效DCN同城災備DCN跨城災備災備復制強同步全量增量備份邏輯備份PITR恢復備份生態集成SQL鏈路診斷SQL防火墻延遲復制庫表回收站閃回查詢智能診斷升級SQL引擎SQL引擎SQL引擎存儲分片存儲分片DB存儲分片.存儲分片.DB.SQL引擎SQL引擎存儲分片存儲分片存儲分片.存儲分片.SQL引擎SQL引擎存儲分片存儲分片存儲分片.存儲分片.DBDB.存儲分片DB存儲分片.DB.Schedulerzookeeper集群OSSAgent主機DBDBIDC 1監控采集Agent主機DBDBIDC 2Agent主機DBDBI
3、DC 3服務器X86/ARM存儲IDC1網絡服務器X86/ARM存儲IDC2網絡服務器X86/ARM存儲IDC網絡 業務容災分級,按需選擇部署 一云多芯,X86/ARM資源混部,平滑替換 新中心建設持續納管,平滑過渡DB(Master)DB(Slave)IDC1IDC2心跳上報HA切換故障判斷DB(Slave)DB(Slave)異步強同步 產品組件全面高可用 實例故障容災:強同步、自動故障轉移 RPO=0,RTO30sagentagentagentagent賬務支付客戶信息借記卡信用卡OA理財客服積分生產同城異地TDSQL實例.應用單元應用單元應用單元應用單元STDSQL實例MSS災備實例.災
4、備實例負載均衡應用單元接入層真實故障管控-1NAS管控-2NAS管控仲裁NAS管控延遲探測心跳上報優化任務調度并發提升.大規模環境模擬常穩測試藍軍真實場景演練.2023H1多家國有大行/商業銀行實際演練涉及5級/4級/3級多類核心業務系統5000+切換/回切切換窗口內(5-10m)全部達成實例平均耗時15s客戶業務系統眾多,每個業務系統對應若干數據庫實例。容災演練挑選業務系統在不同時間窗切換演練真實故障所有業務系統同一時間點切換NewSwitch over/FailoverDB(Master)SQL引擎DB(Slave)DB(Slaves)DB(Slave)分片1分片2DB(Slaves)DB
5、(Slaves)DB(Slave)DB(Slaves)DB(Master)SQL引擎DB(Slave)DB(Slaves)DB(Slave)分片1分片2DB(Slaves)DB(Slaves)DB(Slave)DB(Slaves)binlog異步binlog異步分片.DB(M)SQL引擎DB(S)分片DB(S)生產中心DB(M)DB(S)DB(S)分片.DB(M)SQL引擎DB(S)分片DB(S)異地DB(M)DB(S)DB(S)異步分片.DB(M)SQL引擎DB(S)分片DB(S)生產中心(X86/ARM)DB(M)DB(S)DB(S)分片.DB(M)SQL引擎DB(S)分片DB(S)同城中
6、心(X86/ARM)DB(M)DB(S)DB(S)強同步異步異地災備實例適用于同城雙活的IT架構規劃。要求:同城中心之間專線帶寬充足。網絡帶寬不足影響:業務層/數據庫日志/數據備份跨中心網絡帶寬爭搶強同步超時、降級數據庫備機延遲跨中心NAS備份速度慢、增量日志備份不及時同城切換RPO=0,RTO30s異地容災演練RPO=0,RTO120s異地故障切換RPO5s,RTO120s適用豎井式IT架構規劃、中心之間帶寬有限的場景災備復制支持多種模式同城災備版本升級驗證&回退ARM/X86同城雙軌并行,按需切換最小化跨中心流量穿梭(僅日志),減少專線帶寬占用強同步強同步New全量/增量數據備份邏輯備份日
7、志備份API源端重復數據塊刪除網絡節流(備份廠商Agent)備份數據NFSHDFSCOSS3Schedulerzookeeper集群OSSAgent主機DBDBIDC 1監控采集Agent主機DBDBIDC 2Agent主機DBDBIDC 3API備份能力集成超長備份周期管理備份冷熱分離異地備份復制跨集群跨地域還原NewNewT1T2不同事務T1.T4T6T5AB不同SQLC.EAD不同事務.T8T9A不同SQLF.分片.TDSQLDB(M)SQL引擎DB(S)分片DB(S)DB(M)DB(S)DB(S)分片.DB(M)DB(S)DB(S)DB(M)DB(M)1.現網QPS高,實時分析難2.事
8、務上下文診斷難TDSQLTDSQLTDSQL.4.實例多,核心系統運維壓力大3.分布式節點多,SQL鏈路長,從線索到具體問題定位慢,抖動隱患排查難New.TDSQL專場:DBbrain 在 TDSOL 運維管理中的應用SQL聚合分析事務聚合分析事務異常診斷可視化追蹤業務標簽管理業務分組聚合定期巡檢報告風險打分事件通知應對程序邏輯錯誤、人工誤操、惡意破壞的快速補救 update不帶where/條件錯誤 庫表誤刪 程序版本bug 2023-8-17 20:55:01Readview_infoDisk2023-8-17 20:55:02Readview_info2023-8-17 20:55:03R
9、eadview_infoUNDO log T1RecordDATA_TRX_IDDATA_ROLL_PTR.innodbUNDO log T2.UNDO Record.UNDO Record行記錄歷史版本歷史Readviewdrop/truncate table xxx;drop database;restore xxx from recycle_bin;database|-table t1|-table t2|-.根據業務需求,選擇合適的容災技術確保系統建設和恢復流程無誤、人員經驗熟練,提升應急處理效率系統性設計整體架構容量、軟硬件故障域,充分識別上下游組件容量盲區針對不同故障場景,制定對應場景的容災恢復預案