《華為:2025卓越架構技術框架與實踐報告(225頁).pdf》由會員分享,可在線閱讀,更多相關《華為:2025卓越架構技術框架與實踐報告(225頁).pdf(225頁珍藏版)》請在三個皮匠報告上搜索。
1、卓越架構技術框架卓越架構技術框架卓越架構技術框架與實踐卓越架構技術框架與實踐文檔版本文檔版本01發布日期發布日期2025-01-22華為技術有限公司華為技術有限公司 版權所有版權所有 華為技術有限公司華為技術有限公司 2025。保留一切權利。保留一切權利。非經本公司書面許可,任何單位和個人不得擅自摘抄、復制本文檔內容的部分或全部,并不得以任何形式傳播。商標聲明商標聲明和其他華為商標均為華為技術有限公司的商標。本文檔提及的其他所有商標或注冊商標,由各自的所有人擁有。注意注意您購買的產品、服務或特性等應受華為公司商業合同和條款的約束,本文檔中描述的全部或部分產品、服務或特性可能不在您的購買或使用范
2、圍之內。除非合同另有約定,華為公司對本文檔內容不做任何明示或暗示的聲明或保證。由于產品版本升級或其他原因,本文檔內容會不定期進行更新。除非另有約定,本文檔僅作為使用指導,本文檔中的所有陳述、信息和建議不構成任何明示或暗示的擔保。文檔版本 01(2025-01-22)版權所有 華為技術有限公司i 安全聲明安全聲明 漏洞處理流程漏洞處理流程華為公司對產品漏洞管理的規定以“漏洞處理流程”為準,該流程的詳細內容請參見如下網址:https:/ 文檔版本 01(2025-01-22)版權所有 華為技術有限公司ii目目 錄錄1 卓越架構技術框架簡介卓越架構技術框架簡介.12 韌性支柱韌性支柱.42.1 韌性
3、支柱簡介.42.2 基本概念.42.2.1 概念表.52.2.2 什么是應用韌性.52.2.3 責任共擔模式.62.2.4 可用性目標定義.62.2.4.1 可用度及 SLO.62.2.4.2 RTO 與 RPO.82.2.4.3 數據持久度.92.2.5 可用性需求.92.3 設計原則.92.4 問題和檢查項.112.5 高可用設計.132.5.1 RES01 冗余.132.5.1.1 RES01-01 應用組件高可用部署.132.5.1.2 RES01-02 應用組件多位置部署.142.5.1.3 RES01-03 云服務器反親和.152.5.2 RES02 備份.152.5.2.1 RE
4、S02-01 識別和備份應用中所有需要備份的關鍵數據.152.5.2.2 RES02-02 自動數據備份.162.5.2.3 RES02-03 定期進行備份數據恢復.162.5.3 RES03 跨 AZ 容災.172.5.3.1 RES03-01 集群跨 AZ 部署.172.5.3.2 RES03-02 跨 AZ 數據同步.182.5.3.3 RES03-03 對接容災仲裁,支持自動切換.182.5.3.4 RES03-04 支持容災管理.192.5.4 RES04 跨 Region/跨云容災.192.5.4.1 RES04-01 定義應用系統的容災目標 RPO 與 RTO.192.5.4.2
5、 RES04-02 部署容災系統以滿足容災目標.202.5.4.3 RES04-03 容災恢復過程自動化.212.5.4.4 RES04-04 定期進行容災演練,以檢查恢復能否滿足容災目標.21卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司iii2.5.5 RES05 網絡高可用.212.5.5.1 RES05-01 網絡連接高可用.222.5.5.2 RES05-02 避免暴露不必要的網絡地址.222.5.5.3 RES05-03 不同流量模型業務的網絡共享帶寬隔離.232.5.5.4 RES05-04 預留 IP 資源以便擴展及
6、高可用.232.6 故障全面檢測.232.6.1 RES06 故障檢測.232.6.1.1 RES06-01 故障模式分析.232.6.1.2 RES06-02 面向所有故障進行檢測.252.6.1.3 RES06-03 支持亞健康檢測.262.6.2 RES07 監控告警.262.6.2.1 RES07-01 定義關鍵指標與閾值并監控.262.6.2.2 RES07-02 日志統計監控.272.6.2.3 RES07-03 監控到異常后發送消息通知.282.6.2.4 RES07-04 監控數據存儲和分析.282.6.2.5 RES07-05 端到端跟蹤請求消息.282.7 故障快速恢復.2
7、92.7.1 RES08 依賴減少與降級.292.7.1.1 RES08-01 減少強依賴項.292.7.1.2 RES08-02 依賴松耦合.302.7.1.3 RES08-03 減少被依賴項故障的影響.302.7.2 RES09 故障重試.302.7.2.1 RES09-01 API 及命令調用需要設計為可重試.312.7.2.2 RES09-02 客戶端需要根據綜合評估是否要重試.312.7.2.3 RES09-03 重試需要避免造成流量壓力.312.7.3 RES10 故障隔離.322.7.3.1 RES10-01 應用控制平面與數據平面隔離.322.7.3.2 RES10-02 應用
8、系統多位置部署.322.7.3.3 RES10-03 采用 Grid 架構.322.7.3.4 RES10-04 健康檢查與自動隔離.342.7.4 RES11 可靠性測試.342.7.4.1 RES11-01 混沌測試.352.7.4.2 RES11-02 壓力負載測試.352.7.4.3 RES11-03 長穩測試.362.7.4.4 RES11-04 災難演練.362.7.4.5 RES11-05 紅藍攻防.362.7.5 RES12 應急恢復處理.372.7.5.1 RES12-01 組建應急恢復團隊.372.7.5.2 RES12-02 制定應急預案.372.7.5.3 RES12-
9、03 定期應急恢復演練.372.7.5.4 RES12-04 出現問題后盡快恢復業務.382.7.5.5 RES12-05 應急恢復回溯.38卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司iv2.8 過載控制.382.8.1 RES13 過載保護.392.8.1.1 RES13-01 采用自動彈性擴縮容.392.8.1.2 RES13-02 應用系統負載均衡,避免流量不均勻.402.8.1.3 RES13-03 過載檢測與流量控制.402.8.1.4 RES13-04 支持主動擴容.402.8.1.5 RES13-05 資源自動擴容
10、考慮了配額限制.412.8.1.6 RES13-06 壓力負載測試.412.9 變更防差錯.412.9.1 RES14 配置防差錯.422.9.1.1 RES14-01 變更防呆檢查.422.9.1.2 RES14-02 自動化變更.422.9.1.3 RES14-03 變更前數據備份.432.9.1.4 RES14-04 提供 runbook 進行標準化變更.432.9.2 RES15 升級不中斷業務.432.9.2.1 RES15-01 自動化部署和升級.432.9.2.2 RES15-02 自動化檢查.432.9.2.3 RES15-03 自動化回滾.442.9.2.4 RES15-04
11、 灰度部署和升級.442.10 參考架構.442.10.1 概述.442.10.2 內部工具或公測類應用典型部署架構(99%).452.10.3 內部知識管理類應用典型部署架構(99.9%).462.10.4 信息管理類應用典型部署架構(99.95%).482.10.5 電商類應用典型部署架構(99.99%).502.10.5.1 單 Region 方案.502.10.5.2 雙 Region 方案.512.10.6 金融類核心應用典型部署架構(99.999%).532.10.7 跨云場景典型部署架構(99.99%).552.10.7.1 跨云容災方案.552.10.7.2 跨云雙活方案.56
12、2.11 云服務可靠性介紹.582.11.1 概述.582.11.2 ECS 彈性云服務器.582.11.2.1 可靠性功能.582.11.2.2 常見故障模式.592.11.3 BMS 裸金屬服務.602.11.3.1 可靠性功能.602.11.3.2 常見故障模式.612.11.4 CCE 云容器引擎.622.11.4.1 可靠性功能.622.11.4.2 常見故障模式.63卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司v2.11.5 ELB 彈性負載均衡.642.11.5.1 可靠性功能.642.11.5.2 常見故障模式.6
13、42.11.6 AS 彈性伸縮.652.11.6.1 可靠性功能.652.11.6.2 常見故障模式.662.11.7 DCS 分布式緩存服務.662.11.7.1 可靠性功能.662.11.7.2 常見故障模式.662.11.8 DMS 分布式消息服務.672.11.8.1 可靠性功能.672.11.8.2 常見故障模式.682.11.9 RDS 云數據庫.682.11.9.1 可靠性功能.692.11.9.2 常見故障模式.702.11.10 云數據庫 TaurusDB 云數據庫.702.11.10.1 可靠性功能.702.11.10.2 常見故障模式.712.11.11 OBS 對象存儲
14、服務.712.11.11.1 可靠性功能.722.11.11.2 常見故障模式.723 安全性支柱安全性支柱.743.1 概述.743.1.1 安全性支柱簡介.743.1.2 責任共擔模型.753.2 基本概念.753.2.1 概念表.763.2.2 概念模型.773.3 設計原則.783.4 問題和檢查項.803.5 云安全治理策略.813.5.1 SEC01 云安全治理策略.813.5.1.1 SEC01-01 建立安全管理團隊.813.5.1.2 SEC01-02 建立安全基線.823.5.1.3 SEC01-03 梳理資產清單.823.5.1.4 SEC01-04 分隔工作負載.833
15、.5.1.5 SEC01-05 實施威脅建模分析.843.5.1.6 SEC01-06 識別并驗證安全措施.853.6 基礎設施安全.853.6.1 SEC02 身份認證.853.6.1.1 SEC02-01 對賬號進行保護.863.6.1.2 SEC02-02 安全的登錄機制.86卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司vi3.6.1.3 SEC02-03 安全管理及使用憑證.873.6.1.4 SEC02-04 一體化身份管理.873.6.2 SEC03 權限管理.883.6.2.1 SEC03-01 定義權限訪問要求.8
16、83.6.2.2 SEC03-02 按需分配合適的權限.883.6.2.3 SEC03-03 定期審視權限.893.6.2.4 SEC03-04 安全共享資源.893.6.3 SEC04 網絡安全.903.6.3.1 SEC04-01 對網絡劃分區域.903.6.3.2 SEC04-02 控制網絡流量的訪問.903.6.3.3 SEC02-03 網絡訪問權限最小化.913.6.4 SEC05 運行環境安全.923.6.4.1 SEC05-01 云服務安全配置.923.6.4.2 SEC05-02 實施漏洞管理.933.6.4.3 SEC05-03 減少資源的攻擊面.933.6.4.4 SEC0
17、5-04 密鑰安全管理.943.6.4.5 SEC05-05 證書安全管理.943.6.4.6 SEC05-06 使用托管云服務.953.7 應用安全.963.7.1 SEC06 應用安全性.963.7.1.1 SEC06-01 安全合規使用開源軟件.963.7.1.2 SEC06-02 建立安全編碼規范.963.7.1.3 SEC06-03 實行代碼白盒檢視.973.7.1.4 SEC06-04 應用安全配置.983.7.1.5 SEC06-05 執行滲透測試.983.8 數據安全與隱私保護.983.8.1 SEC07 通用數據安全.983.8.1.1 SEC07-01 識別工作負載內的數據
18、.993.8.1.2 SEC07-02 數據保護控制.993.8.1.3 SEC07-03 對數據操作實施監控.1003.8.1.4 SEC07-04 靜態數據的加密.1003.8.1.5 SEC07-05 傳輸數據的加密.1013.8.2 SEC08 數據隱私保護.1013.8.2.1 SEC08-01 明確隱私保護策略和原則.1023.8.2.2 SEC08-02 主動通知數據主體.1033.8.2.3 SEC08-03 數據主體的選擇和同意.1033.8.2.4 SEC08-04 數據收集合規性.1043.8.2.5 SEC08-05 數據使用、留存和處置合規性.1043.8.2.6 S
19、EC08-06 向第三方披露個人數據合規性.1053.8.2.7 SEC08-07 數據主體有權訪問其個人隱私數據.1053.9 安全運營.1063.9.1 SEC09 安全感知及分析.106卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司vii3.9.1.1 SEC09-01 實施標準化管理日志.1063.9.1.2 SEC09-02 安全事件記錄及分析.1063.9.1.3 SEC09-03 實施安全審計.1073.9.1.4 SEC09-04 安全態勢感知.1073.9.2 SEC10 安全事件響應.1083.9.2.1 SEC
20、10-01 建立安全響應團隊.1083.9.2.2 SEC10-02 制定事件響應計劃.1083.9.2.3 SEC10-03 自動化響應安全事件.1093.9.2.4 SEC10-04 安全事件演練.1113.9.2.5 SEC10-05 建立復盤機制.1123.10 參考架構.1133.10.1 組織級參考架構.1133.10.2 工作負載級參考架構.1163.11 安全性云服務介紹.1183.12 更多參考文檔.1194 性能效率支柱性能效率支柱.1204.1 性能效率支柱簡介.1204.2 基礎概念.1214.3 設計原則.1214.4 問題和檢查項.1224.5 PERF01 流程與
21、規范.1234.5.1 全生命周期性能管理.1234.5.1.1 PERF01-01 全生命周期性能管理.1234.5.2 應用性能編程規范.1244.5.2.1 PERF01-02 應用性能編程規范.1244.6 PERF02 性能規劃.1254.6.1 性能規劃.1254.6.1.1 PERF02-01 定義性能目標.1254.6.1.2 PERF02-02 容量規劃.1264.7 PERF03 性能建模.1274.7.1 選擇合適的計算資源.1274.7.1.1 PERF03-01 選擇合適類型的計算云服務.1274.7.1.2 PERF03-02 選擇合適規格的虛擬機和容器節點.128
22、4.7.1.3 PERF03-03 使用彈性伸縮.1284.7.2 選擇合適網絡服務資源.1304.7.2.1 PERF03-04 選擇合適類型的網絡云服務.1314.7.3 選擇合適的存儲云服務.1324.7.3.1 PERF03-05 選擇合適類型的存儲云服務.1324.7.4 選擇合適的應用中間件云服務資源.1334.7.4.1 PERF03-06 選擇合適的消息隊列.1334.7.4.2 PERF03-07 選擇合適的 Kafka.1344.7.4.3 PERF03-08 選擇合適的 RocketMQ.134卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-2
23、2)版權所有 華為技術有限公司viii4.7.4.4 PERF03-09 選擇合適的 RabbitMQ.1344.7.5 選擇合適的數據庫資源.1354.7.5.1 PERF03-10 選擇合適的關系型數據庫.1354.7.5.2 PERF03-11 選擇合適的非關系型數據庫.1364.8 PERF04 性能分析.1374.8.1 性能測試.1374.8.1.1 PERF04-01 定義驗收標準.1374.8.1.2 PERF04-02 選擇合適的測試方式.1374.8.1.3 PERF04-03 性能測試步驟.1384.8.2 性能數據采集.1404.8.2.1 PERF04-04 資源性能
24、數據收集.1404.8.2.2 PERF04-05 應用性能數據采集.1414.8.3 建立性能可觀測性體系.1414.8.3.1 PERF04-06 建立性能可觀測性體系.1414.9 PERF05 性能優化.1424.9.1 設計優化.1424.9.1.1 PERF05-01 設計優化.1424.9.2 算法優化.1444.9.2.1 PERF05-02 通用算法優化.1444.9.3 資源優化.1444.9.3.1 PERF05-03 WEB 場景資源優化.1444.9.3.2 PERF05-04 大數據場景資源優化.1454.10 PERF06 性能看護.1454.10.1 性能看護.
25、1454.10.1.1 PERF06-01 分層看護.1454.10.1.2 PERF06-02 性能劣化自動定界定位.1464.10.1.3 PERF06-03 自動告警.1474.11 云服務性能優化介紹.1474.11.1 緩存性能優化.1474.11.2 消息隊列性能優化.1524.11.2.1 Kafka 性能優化.1524.11.2.2 RabbitMQ 性能優化性能優化.1554.11.3 Serverless 性能優化.1574.11.4 數據庫性能優化.1594.11.5 人工智能性能優化.1624.11.6 大數據性能優化.1644.11.6.1 HIVE 優化優化.164
26、4.11.6.2 Spark 性能優化.1674.11.6.3 Flink 性能優化.1685 成本優化支柱成本優化支柱.1705.1 成本優化支柱簡介.1705.2 基礎概念.170卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司ix5.3 設計原則.1715.4 問題和檢查項.1725.5 COST01 規劃成本優化相應的組織機構和流程.1735.5.1 COST01-01 規劃企業組織,將組織結構,流程和成本管理相匹配.1735.5.2 COST01-02 規劃 IT 治理體系,提高管理效率.1735.5.3 COST01-03
27、 明確團隊責任,建立和維護成本意識文化.1745.5.4 COST01-04 指定云資源管理策略和相應的權限管理機制.1745.6 COST02 實施預算規劃管理機制.1745.6.1 COST02-01 建立云預算與預測流程.1745.6.2 COST02-02 精細化預算管理和跟蹤.1755.7 COST03 對成本進行分配.1755.7.1 COST03-01 制定成本分攤原則.1755.7.2 COST03-02 可視化成本分攤結果.1765.7.3 COST03-03 公共成本分配.1765.8 COST04 持續進行成本治理.1775.8.1 COST04-01 建立規范,持續提升
28、成本分配比例.1775.8.2 COST04-02 主動監控成本.1785.9 COST05 優化指定策略和目標.1785.9.1 COST05-01 分析業務趨勢和優化收益.1785.9.2 COST05-02 建立可以量化的優化目標.1795.9.3 COST05-03 定期回顧和審核.1795.10 COST06 使用不同計費模式優化成本.1805.10.1 COST06-01 了解云上不同計費模式的特點.1805.10.2 COST06-02 為工作負載選擇合適的計費模式.1805.10.3 COST06-03 跟蹤并監控權益商品的使用情況.1815.11 COST07 管理和優化資源
29、.1815.11.1 COST07-01 持續監控資源利用率指標.1815.11.2 COST07-02 釋放閑置資源.1815.11.3 COST07-03 考慮不同的云資源技術選型.1815.11.4 COST07-04 合理降配低負載資源或升配高負載資源.1825.12 COST08 進行架構優化.1825.12.1 COST08-01 按地域規劃應用架構.1825.12.2 COST08-02 云原生架構改造.1825.12.3 COST08-03 存算分離.1825.12.4 COST08-04 Serverless 探索.1835.13 成本優化云服務介紹.1836 卓越運營支柱卓
30、越運營支柱.1846.1 卓越運營支柱簡介.1846.2 基礎概念.1846.3 設計原則.1866.4 問題和檢查項.1876.5 OPS01 建立持續改進的團隊文化和標準化的運維體系.188卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司x6.5.1 OPS01-01 建立持續學習和改進的文化.1886.5.2 OPS01-02 規劃標準化的運維組織.1886.5.3 OPS01-03 規劃標準化的運維流程和運維工具.1896.6 OPS02 通過 CI/CD 實現高效的頻繁可逆的小規模變更.1906.6.1 OPS02-01 進
31、行需求管理和迭代開發.1906.6.2 OPS02-02 關聯源代碼版本和部署的應用版本,使用代碼質量最佳實踐.1906.7 OPS03 完備的測試驗證體系.1916.7.1 OPS03-01 推行開發者測試.1916.7.2 OPS03-02 使用多個環境進行集成測試,構建和生產環境相同的預生產環境.1916.7.3 OPS03-03 進行性能壓測.1926.7.4 OPS03-04 對生產環境進行撥測.1926.7.5 OPS03-05 進行混沌測試和演練.1936.8 OPS04 自動化構建和部署流程.1946.8.1 OPS04-01 有效落地持續集成.1946.8.2 OPS04-0
32、2 采用持續部署模型.1946.8.3 OPS04-03 基礎設施即代碼.1956.8.4 OPS04-04 自動化工程運維任務.1956.9 OPS05 運維準備和變更管理.1966.9.1 OPS05-01 進行生產準備度評審(Product Readiness Review).1976.9.2 OPS05-02 進行變更風控.1976.9.3 OPS05-03 定義變更流程.1976.10 OPS06 可觀測性體系.1986.10.1 OPS06-01 建立可觀測性體系.1986.10.2 OPS06-02 定義可觀測對象.1996.10.3 OPS06-03 制定和實施可觀測性指標.2
33、006.10.4 OPS06-04 規范化應用日志.2016.10.5 OPS06-05 實施依賴項遙測.2016.10.6 OPS06-06 實施分布式跟蹤.2026.10.7 OPS06-07 通過可觀測性指標引入自動化措施.2026.11 OPS07 進行故障分析和管理.2026.11.1 OPS07-01 創建可操作的告警.2026.11.2 OPS07-02 創建監控看板.2036.11.3 OPS07-03 支持事件管理.2036.11.4 OPS07-04 支持故障恢復流程.2036.12 OPS08 度量運營狀態和持續改進.2046.12.1 OPS08-01 使用度量指標衡量
34、運營目標.2046.12.2 OPS08-02 進行事故復盤和改進.2046.12.3 OPS08-03 知識管理.2056.13 參考案例.2056.13.1 通過 AOM 助力系統運維能力提升,降低運維成本與難度.2056.13.2 基于 LTS 采集多類端側日志,問題全鏈路追蹤分析和業務運營分析.2066.13.3 LTS 助力某公司高效完成日常業務運維與等保合規.207卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司xi6.14 卓越運營云服務介紹.2086.14.1 軟件開發生產線(CodeArts).2086.14.2 資
35、源編排服務(RFS).2096.14.3 云運維中心(COC).2096.14.4 云監控中心(CES).2106.14.5 云日志服務(LTS).2116.14.6 應用運維管理(AOM2.0).2116.14.7 應用性能管理(APM).2116.14.8 云堡壘機(CBH).2126.14.9 應用管理與運維平臺(ServiceStage).2126.14.10 多活高可用(MAS).2126.15 更多參考文檔.212卓越架構技術框架卓越架構技術框架與實踐目 錄文檔版本 01(2025-01-22)版權所有 華為技術有限公司xii1 卓越架構技術框架簡介卓越架構技術框架簡介卓越架構技術
36、框架(Well-Architected Framework)聚焦客戶業務上云后的關鍵問題的設計指導和最佳實踐。以華為公司和業界最佳實踐為基礎,以韌性、安全性、性能效率、成本優化與卓越運營五個架構關注點為支柱,打造領先的卓越架構技術框架,支撐客戶完成云架構設計、云架構治理體系建設、研發生產力提升、現代化應用構建及運營運維體系建設等關鍵問題解決。架構支柱架構支柱韌性支柱:韌性支柱:旨在幫助企業構建具有高可用的應用系統架構,提高工作負載的韌性,使之在面對各種異常場景時仍能提供和維持可接受的服務水平。韌性支柱結合了華為公司韌性設計經驗和業界最佳實踐,總結并提煉出一系列設計原則與最佳實踐,用以幫助企業利
37、用華為云平臺基礎設施達到高可用、面向各種故障場景進行韌性設計,并具備一定的災備能力;同時通過規范化變更、部署及應急恢復等處理流程,減少業務中斷時長,提升可用性。安全性支柱:安全性支柱:旨在確保業務的安全、可信、合規,通過一系列華為云架構的最佳實踐保護工作負載免受各種安全威脅,降低安全風險。安全性支柱涉及保護云上系統、資產、數據的機密性、完整性、可用性以及合法、合規使用數據,保護用戶隱私的一系列最佳實踐。性能效率支柱:性能效率支柱:聚焦于如何設計出高性能的架構。作為基本的質量屬性,性能的重要性和性能失敗后果的嚴重性是無須質疑的。性通效率支柱為性能設計、性能優化提供一些技術方法和手段,可以用于系統
38、的軟件性能工程,也可用于指導性能調整和優化。成本優化支柱:成本優化支柱:專注于幫助企業高效地使用云服務來構建工作負載,面向工作負載的整個生命周期不斷完善和改進,減少不必要的開支并提升運營效率,讓云上應用始終最具成本效益。成本優化支柱結合了華為公司云成本運營經驗和業界最佳實踐總結提煉出的體系化實踐建議。卓越運營支柱:卓越運營支柱:融合了這些優秀實踐,聚焦如何正確地構建軟件,高效地運維軟件,持續提供卓越的客戶體驗,包含:組織團隊、設計工作負載、大規模運營工作負載和隨時間變化改進工作負載的最佳實踐。卓越架構技術框架卓越架構技術框架與實踐1 卓越架構技術框架簡介文檔版本 01(2025-01-22)版
39、權所有 華為技術有限公司1應用場景應用場景云架構治理體系建設云架構治理體系建設云平臺將虛擬化、數據庫與中間件、大數據與AI等技術融合業界最佳實踐,以托管云服務的方式提供企業使用。隨著業務上云,企業將不受限于自身的技術能力使用先進IT技術,企業可以基于先進的云平臺與WA方法論,構建現代化架構治理體系,使能組織、流程、工具和產品,讓企業在數字化時代處于領先地位。云架構治理體系不同于傳統IT架構治理體系,通過現代化云平臺及輕量化治理體系,使能業務安全、強韌性、資源高效、成本最優、敏捷創新。云架構設計云架構設計由于云平臺封裝了底層軟件技術的復雜度,讓企業可以更聚焦業務應用設計。云架構設計鼓勵以領域驅動
40、設計(DDD)為架構設計起點,結合不同視角的架構視圖,融入韌性、安全性、性能效率、成本和運營支柱,真正將云架構關注點融入到架構設計過程中。云架構審視云架構審視隨著業務需求和技術發展的變化,系統的架構也需要不斷演進和優化。通過對照卓越架構技術框架的最佳實踐,架構師對工作負載的架構進行全面、系統的評估,確保架構符合最新的需求、規范,符合最新的云上最佳實踐。架構審視是一個持續的過程,建議在關鍵里程碑點進行審視或定期例行(如每半年一次)審視。研發生產力提升研發生產力提升基于云的應用研發,技術、工具和工程實踐都有很高的成熟度。業務上云后,基于云最佳實踐升級工具鏈,改造研發流程,提升研發團隊基于云的研發能
41、力,引入先進的DevSecOps體系和確定性運維體系將大幅度提升企業的生產力,真正做到業務敏捷?;谌A為公司20年的數字化實踐和數百萬企業客戶的服務經驗,華為云吸收業界先DevSecOps理念精華,提煉出DevSecOps質量效能管理體系典型特征,同時以價值流創造為核心,摸索出了一套行之有效的質量效能方法論和最佳實踐。構建高韌性、高可用的應用程序構建高韌性、高可用的應用程序華為公司結合內部韌性設計經驗和業界最佳實踐,總結并提煉出一系列體系化設計原則與最佳實踐:幫助客戶利用華為云平臺基礎設施達到高可用、面向各種失敗場景進行設計,并具備一定的災備能力。通過規范化變更、部署及應急恢復等處理流程,減少
42、業務中斷時長,提升可用性。安全合規體系建設安全合規體系建設云安全已經成為多維度的全球性挑戰,華為云卓越架構技術框架結合業界先進的云安全理念和積累的網絡安全經驗和優勢,參考世界領先的 CSP 優秀安全實踐、摸索出了一 整套行之有效的云安全戰略和實踐。并且已經構建起多維立體、縱深防御和合規遵 從的基礎設施架構,用以支撐并不斷完善涵蓋了 IaaS、PaaS 和SaaS 等具有優良安 全功能的常用云服務。確定性運維體系建設確定性運維體系建設IT運維行業正在面臨著顛覆性的變化,我們正在從保障設備穩定的防守型運維轉向支撐業務敏捷的進攻型運維,從關注自身網絡轉向關注客戶應用,從系統維護工程師轉向研發工程師,
43、這個轉型的過程對運維提出艱巨挑戰的同時,也給每個組織和個人提供了難得的發展機會。華為云SRE過去構建了一些能力,也還在持續解決新的挑戰,我們已經構建了一套質量管理機制、一套運維平臺、一支全球專家隊伍,更重要的是,我們已經和很多客戶一起開展了面向應用視角的穩定性提卓越架構技術框架卓越架構技術框架與實踐1 卓越架構技術框架簡介文檔版本 01(2025-01-22)版權所有 華為技術有限公司2升工作,助力客戶提升應用穩定性,從應用層到平臺底層,在成本、質量、效率中尋找最優方案。云財務體系云財務體系(FinOps)建設建設FinOps是“Finance”和“DevOps”的結合,目的是解決企業管理云成
44、本難題。FinOps基金會將FinOps定義為“不斷發展的云財務管理紀律和文化實踐,通過幫助工程、財務、技術和業務團隊在數據驅動的支出決策上進行協作,使組織獲得最大的業務價值”。企業云資源消費貫穿用云的整個過程,管理云成本也需要持續迭代優化。FinOps框架提出三階段(可視、優化、持續運營)實踐模型,指導企業持續優化。在優化時,FinOps指導企業找到成本、質量與效率的平衡,避免企業為了極低成本導致業務效率和穩定性受影響。在一個公司內部業務團隊眾多,各團隊實踐FinOps進展不一,不同團隊可能處于不同的階段。FinOps指導企業通過多團隊協作和基于數據決策,精細化管理云成本。各業務團隊成本可視
45、,主動控制不超支不浪費;企業基于數據決策云投資,保障企業核心業務和戰略業務方向的支出。企業應用FinOps后,持續降低單位業務成本。應用優化應用優化當前,企業大量的存量應用逐漸成為業務發展的阻礙,老舊、復雜、僵化的系統難以更新,昂貴的基礎設施維護成本高,繁雜的部署過程也給發布加上了沉重的枷鎖,導致發布緩慢,現有的架構和技術無法很好地適應現代軟件開發,這些問題都對企業的發展帶來新的挑戰。但對于大多數企業來說,這些應用仍然是公司價值鏈的重要組成部分,為企業提供核心功能和數據。對負責存量應用處理的開發和運營人員來說,同樣面臨諸多挑戰:日益復雜的 IT 環境、不斷增加的“技術債務”、有限的技能以及安全
46、風險等,這些問題都將成為企業無法快速創新和實現業務目標的潛在風險。卓越架構技術框架(Well-Architected Framework)將為企業提供優化建議,企業結合實施策略,有選擇有節奏的優化應用,以提升存量應用的韌性、安全性、性能及資源利用率,適應現代化軟件開發,降低運營成本?;锇槟芰撕炚J證伙伴能力標簽認證華為云合作伙伴能力標簽(簡稱能力標簽)是華為云合作伙伴達到能力標準后獲得的標識,華為云定義并維護能力標簽的全集。合作伙伴通過學習卓越架構技術框架(Well-Architected Framework),理解并參考各支柱的云上最佳實踐,以獲取更專業的云架構設計知識。在構建解決方案或給客
47、戶提供專業服務的過程中,合作伙伴應用這些最佳實踐,持續提升架構設計質量、持續完善工作負載。合作伙伴提交實際的客戶案例并經過華為云審核通過后,可獲得相應領域、場景或行業的能力標簽認證。卓越架構技術框架卓越架構技術框架與實踐1 卓越架構技術框架簡介文檔版本 01(2025-01-22)版權所有 華為技術有限公司32 韌性支柱韌性支柱2.1 韌性支柱簡介韌性支柱簡介韌性支柱旨在幫助企業構建具有高可用的應用系統架構,提高工作負載的韌性,使之在面對各種異常場景時仍能提供和維持可接受的服務水平。韌性支柱結合了華為公司韌性設計經驗和業界最佳實踐,總結并提煉出一系列設計原則與最佳實踐,用以幫助企業利用華為云平
48、臺基礎設施達到高可用、面向各種故障場景進行韌性設計,并具備一定的災備能力;同時通過規范化變更、部署及應急恢復等處理流程,減少業務中斷時長,提升可用性。華為云韌性支柱的設計框架如下圖所示:2.2 基本概念基本概念卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司42.2.1 概念表概念表概念概念解釋解釋韌性(Resilience)系統從故障中保持在已知運行狀態(甚至降級)的能力。在遭遇故障后快速恢復核心功能和數據,且在業務需要的時間窗內恢復到有效運行狀態??煽啃?Reliability)產品在規定的條件下和規定的時間內完成規定功能的
49、能力。它的概率度量稱為可靠度??捎眯?Availability)產品在任意隨機時刻需要和開始執行任務時,處于可工作或可使用狀態的程度。它的概率度量稱為可用度云服務指標SLIService level Indicator,面向服務的指標,如:請求響應成功率云服務目標SLOService Level Object,面向服務的目標,如:一定時間范圍內的請求響應成功率大于XX%,或正常運行時間的百分比云服務協議等級 SLAService Level Agreement,面向用戶的協議等級,涉及不滿足時的補償數據恢復點目標 RPORecovery Point Objective,主要指的是業務系統所能容
50、忍的數據丟失量恢復時間目標 RTORecovery Time Objective,主要指的是所能容忍的業務停止服務的最長時間,也就是從災難發生到業務系統恢復服務功能所需要的最短時間周期。業界對韌性沒有統一的定義。狹義韌性,指的是自動或快速從故障中恢復運行的能力;而廣義韌性,除了從故障中恢復運行的能力外,還包括故障容忍能力。故障容忍(fault tolerance,簡稱“容錯”),是使系統在其某些組件中出現一個或多個故障時能夠繼續提供服務的能力,從客戶的角度來看,該服務仍能完全正常運行,或可能降級運行。而可靠性同樣分為狹義可靠性與廣義可靠性。狹義可靠性工程的目標是提高系統無故障運行的能力,即提高
51、可靠性。而廣義可靠性工程的目標除了提高可靠性外,還包括提高從故障中恢復運行能力,即維修性(maintainability),同時還包括其他圍繞故障展開的各種能力,如可用性(availability)、保障性(supportability)等。因此,從廣義韌性與廣義可靠性的定義來看,并沒有顯著區別。只是可靠性和韌性的側重點不同??煽啃怨こ痰哪繕耸潜M可能減少系統中的故障,保證系統無故障運行。而韌性工程,接受故障總會發生的現實,關注的是如何降低故障帶來的損失以及如何從故障中恢復。2.2.2 什么是應用韌性什么是應用韌性應用韌性是應用系統在運行過程中面對各種異常場景,如基礎設施故障(如數據庫異常)、外
52、部攻擊(如網絡DDoS攻擊超出預定限額流量)、外部依賴故障(如依賴系統訪問超時或不可用)、地域災難(如大面積停電、洪水)等,仍能提供和維持可接受的服務水平的能力,對系統至關重要。系統韌性設計主要涉及以下兩個方面:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司5確保系統具有高可用的架構,如無單點故障各種故障場景下的恢復能力,如數據丟失、設備或站點故障等場景均能恢復相對于傳統數據中心,華為云可以提供具備高可用、彈性伸縮、自動備份、跨AZ容災、跨Region容災等高可用能力的基礎設施與云服務,便于客戶構建高可靠的系統。例如:EVS云
53、硬盤、OBS對象存儲采用分布式存儲,可避免單個硬盤、單個服務器或單個機架等硬件故障的影響。RDS數據庫提供自動數據備份、跨AZ和跨Region的數據復制與切換。不過,即使應用系統利用云平臺能力具有了這些高可用能力,要實現較高的可用性,仍需要構建針對各種偶發故障下的恢復能力,如:由于硬件故障導致的高可用切換或跨AZ切換過程中,導致瞬時鏈接中斷,需要應用系統具備鏈接中斷重試的功能。由于外部流量突發導致業務過載,需要應用系統具備流量控制的能力。部分強依賴于硬件的負載,如依賴本地硬盤、GPU等,由于硬件故障導致服務中斷,需要應用系統自身構建高可用的能力。不同的應用系統,可用性要求可能不同,采用的韌性恢
54、復方案會有差異。2.2.3 責任共擔模式責任共擔模式云上應用系統的韌性,依賴于云基礎設施及應用系統本身的韌性,任何一方故障,都可能會導致云上應用系統故障;因此需要華為云與客戶共同承擔責任,來保障應用系統的韌性。華為云責任:華為云提供高可用的基礎設施,包括運行華為云服務的硬件、軟件和機房設施,并確保服務可用性滿足SLA服務等級協議??蛻糌熑危嚎蛻艨梢詮娜A為云選擇合適的產品并進行可靠性配置以符合應用韌性目標,并參考本白皮書中的設計原則與最佳實踐,充分考慮各種異常場景的檢測和恢復能力,來構建高可用應用系統。2.2.4 可用性目標定義可用性目標定義可用性是衡量可靠性和韌性的綜合性指標。2.2.4.1
55、可用度及可用度及 SLO可用性目標用于衡量應用系統的運行時間和停機時間,其表現形式為應用系統正常運行的時間占總時間(通常是一個月或一年)的百分比(如99.9%),即:可用度=可用時間/總時間*100%常見的簡單表達方式用“9”的數量或“9”的數量加“5”表示,如“三個9”表示“99.9%”,而“三個9一個5”表示“99.95%”。系統可用性目標通過服務等級目標(SLO)定義。不同的應用系統對可用性目標是不同的,明確應用系統的可用性目標,對于衡量應用系統的韌性至關重要。常見IT系統SLO示意如下:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華
56、為技術有限公司6SLO每年最大不可用時間每年最大不可用時間典型典型IT服務服務99%3.65天批處理,后臺任務,數據抽取99.9%8.76小時內部知識管理系統,項目跟蹤系統99.95%4.38小時客戶賬戶管理,信息管理99.99%52.56分鐘電商,B2B web服務,大流量媒體/內容網站99.999%5.26分鐘銀行,投資,金融,政府,電信,關鍵企業應用 系統的可用度依賴于系統內各業務單元的可用度。各業務單元之間典型的可靠性模型有兩類:串聯模型:組成系統的所有單元中任一單元的故障都會導致整個系統故障的稱為串聯系統??煽啃詳祵W模型:舉例:假定系統存在2個串聯單元,每個單元的可用度均為99.9%
57、,則系統可用度為 Rs=99.9%*99.9%=99.8%。串聯系統中系統可用度低于串聯系統中任一單元的可用度。為提高系統可用度,設計時需考慮:盡可能減少串聯單元數目提高單元可靠性,降低其故障率并聯模型:組成系統的所有單元都發生故障時,系統才發生故障的成為并聯系統??煽啃詳祵W模型:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司7舉例:假定系統存在2個并聯單元,每個單元的可用度均為99.9%,則系統可用度為 Rs=1-(1-99.9%)*(1-99.9%)=99.9999%。并聯可顯著提高系統可用度,典型的并聯技術有:主備、集群
58、、雙活或多活等。應用系統要達到可用性目標,需對應用系統內組件及依賴組件進行可用性要求分解,包括:對依賴組件的可用性要求:對依賴組件的可用性要求:通常關鍵依賴組件需要比其他服務提高一個9的SLO目標,如應用系統SLO目標為99.9%,則關鍵依賴組件SLO目標要求達到99.99%。應用系統應用系統SLO分解:分解:綜合系統SLO、故障頻次、云服務SLA,分解得出應用組件的中斷時長要求,進一步分解得出故障檢測、人工介入、干預恢復的時長要求。針對應用系統內薄弱環節進行增強:針對應用系統內薄弱環節進行增強:當云服務SLA無法滿足要求時,需要應用層進行額外的保護和增強。通過冗余提升可用度:包括組件冗余(負
59、載均衡集群),故障回退冗余(fail-back,例如使用DMS訪問失敗時暫時切換到SMN)。2.2.4.2 RTO 與與 RPO災難場景通常采用RTO和RPO目標定義:恢復時間目標RTO:指災難發生后應用不可用的最長時間。RTO決定了應用容災整體架構,是采用數據備份,還是冷備、溫備、熱備?;謴忘c目標RPO:指災難發生后應用數據丟失的最大時間。RPO決定了數據備份頻率或復制方式,是在線備份還是離線備份,是同步復制還是異步復制。國家標準信息系統災難恢復規范(GB/T 20988-2007)中災難恢復等級與RTO/RPO的關系如下:災難恢復災難恢復能力等級能力等級能力要求能力要求RTORPO1基本支
60、持:基本支持備份介質并場外存放2天以上1天至7天2備用場地支持:有備份場地,能調配所有資源24小時以上1天至7天3電子傳輸和設備支持:關鍵數據定時傳送,備用網絡部分就緒12小時以上數小時至1天4電子傳輸及完整設備支持:少量數據丟失,備用數據系統就緒,數據定時傳送,備用網絡就緒數小時至2天數小時至1天5實時數據傳輸及完整設備支持:數據丟失趨于0,備用數據系統就緒,遠程數據復制,備用網絡就緒數分鐘至2天0至30分鐘6數據零丟失和遠程集群支持:數據零丟失,自動系統故障切換,遠程磁盤鏡像,備用網絡active數分鐘0 卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-2
61、2)版權所有 華為技術有限公司82.2.4.3 數據持久度數據持久度數據持久度是指數據不丟失的概率,即存儲在預計周期內不出現數據丟失的概率,可以用于度量一個存儲系統的可靠性。其只表示數據是否丟失的概率,不體現數據丟失多少;數據持久度的預計周期,一般按一年進行預計。影響存儲數據持久度的主要因子有:冗余數、磁盤失效率與數據修復時間。其中每多一個冗余,數據持久度通??稍黾?3個9;云上常用的對象存儲,一般采用3副本冗余,通??商峁?112個9的數據持久度。2.2.5 可用性需求可用性需求根據“常見IT系統SLO示意”中的表格可以得知,不同的IT系統,SLO目標是存在差異的,不是所有的應用系統都需要達
62、到最高可用性要求。當系統可用性目標要求升高時,所需的成本也通常會增加,因此在可用性目標制定時,需要對韌性與成本進行權衡,確定真正的可用性需求。在系統的可用性目標明確后,可參考以下韌性最佳實踐來優化系統,使之滿足可用性目標要求。2.3 設計原則設計原則由于故障不可避免,如硬件故障、軟件錯誤、網絡延遲、突發流量等,因此在設計高可用應用系統時,必須考慮所有的硬件及系統包括的軟件都可能會失效,包括IaaS、PaaS、SaaS及應用系統本身。韌性設計的目標不是試圖防止這些故障的發生,而是為了在這些故障發生時,能最大程度地減輕故障對系統造成的影響,并持續穩定地運行,建議遵循以下設計原則。高可用設計高可用設
63、計單點故障會導致整個系統崩潰、主要功能受到影響、任務延誤的系統輕度損壞或存在較大的故障隱患,因此系統的高可用設計非常關鍵。高可用設計的主要手段是冗余,甚至是多級冗余的組合,包括異地容災方式保證災難情況下無單點:冗余機制:只要條件允許,需要考慮關鍵組件的冗余,甚至是多級冗余的組合(例如:1+1冗余、n+1冗余、N-Way冗余等)異地容災:例如,兩地三中心,保證災難的情況也可以提供業務。數據冗余:可以通過定期備份和多副本備份等方式實現以提高數持久度,并確保數據一致性。冗余的增加,意味著成本的增加;因此在應用高可用設計時需要綜合考慮冗余對成本的影響。故障全面檢測故障全面檢測故障檢測是故障管理的前提,
64、檢測全面與檢測快速都很重要,通常情況下故障檢測全比故障檢測快重要。故障檢測涉及以下方面:檢測范圍:識別并跟蹤檢測所有組件,有重大影響的故障模式需要重點檢測。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司9亞健康檢測:對不引起系統故障卻導致系統或服務KPI下降的亞健康異常需要能檢測,如網絡時延變大、磁盤變慢、內存泄露等亞健康故障。備用檢測:冗余系統中,主備用模塊的故障都需要檢測,避免靜默故障。有特殊壽命器件:應及時監控有特殊壽命(如本地硬盤)要求的期間健康狀態,通過提前預警采取維護錯誤,避免故障的突然發生造成嚴重影響。檢測速度:
65、需要根據業務綜合要求,確定合適的檢測速度。檢測影響:故障定時檢測的周期,需綜合考慮對CPU占用率的影響和檢測延遲對業務恢復速度的影響。檢測模塊要簡單:故障檢測系統、模塊要比被檢測系統、模塊簡單。在檢測到問題后,需要通過監控系統及時發現,迅速處理。故障快速恢復故障快速恢復故障恢復指恢復產品執行規定功能的能力,一般情況下恢復越快影響越小。結合業務情況,綜合考慮技術實現難度、技術方案復雜度、成本等設計合適的故障恢復方案:自動恢復:對于影響業務的故障,系統應盡可能自動恢復自愈,如保護倒換、局部復位或系統服務等。優先恢復:優先對故障發生概率高、故障影響大的故障進行恢復。分級復位:提供分級復位設計,盡可能
66、在更小級別進行復位,以減少對業務的影響。無耦合恢復:盡可能做到系統局部故障或各部件啟動順序不影響系統成功啟動。分層保護:系統故障保護要考慮網絡分層,下層的故障保護倒換要比上層靈敏,防止系統出現乒乓倒換。通過檢測系統運行狀態,或監控系統載關鍵指標,來判斷系統是否發生故障,并針對故障可進行自動恢復處理??梢酝ㄟ^故障分析方法分析各種故障模式、影響及危害,設計對應的可靠可用方案,提供冗余、隔離、降級、彈性等能力;并通過故障注入測試(FIT)驗證可靠可用方案的有效性,最大程度提高業務的可靠性和可用性。對于某些故障,即使通過各種技術手段進行冗余和自動恢復處理,但仍會導致業務中斷,需要人工干預,如備份恢復或
67、災難恢復處理,因此需要建立高效的故障應急恢復處理流程和平臺,以便在故障發生時,能快速恢復業務,減少故障影響。過載控制過載控制在系統請求超過系統容量時,會由于資源飽和而導致系統請求失敗,在云中,可以監控系統和工作負載的利用率,來自動添加或刪除資源,以維持最佳級別來滿足業務需求,而無需過度配置或配置不足??刂茦I務流量一般通過動態資源管理來實現,不建議簡單的使用靜態門限來達到防過載的目的,有可能造成資源大量浪費,過載設計應該考慮以下方面:動態限流:根據系統資源消耗情況動態調整流控門限。彈性擴縮容:自動檢測系統資源利用率,自動進行添加或刪除資源。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版
68、本 01(2025-01-22)版權所有 華為技術有限公司10先負載均衡后流控:多個并行處理單元場景下,優先考慮負載均衡,避免單個處理單元資源受限導致業務受損;然后進行過載控制保護,使得整個系統的處理能力最大化。及早控制:系統過載時,應盡可能在業務流程處理前端或業務處理較早的處理模塊或底層協議層次上控制業務接入,避免中間控制帶來不必要的性能消耗。優先級保障:系統過載時保證高優先級的業務能夠優先獲得資源,優先得到處理,從而保證社會效益最大化。變更防差錯變更防差錯當對系統進行升級部署、配置變更時,需要防止變更過程中由于人因差錯導致系統和業務受損或失效。通常采用防呆的方式來減少人因差錯。防呆是一種預
69、防矯正的行為約束手段,運用防止錯誤發生的限制方法,讓操作者不需要花費注意力、也不需要經驗與專業知識,憑借直覺就可準確無誤地完成操作,在許多場景下可以提升效率和使用體驗,也防止損壞更換的成本,因此優良的產品中防呆設計極為基礎而普遍。變更防差錯通常采用以下方案:角色約束:通過權限控制設計預防對不同角色的配置范圍進行約束,避免越權配置導致錯誤。查改分離:通過產品界面設計將配置界面分層分級,查看與修改分離等降低人為配置失誤風險。配置校驗:通過配置生效機制設計確保在配置生效前進行必要的檢查,避免錯誤配置生效。通過使用自動化方式進行配置變更處理,可減少人因輸入錯誤的可能。刪除保護:在刪除資源時增加保護機制
70、,防止誤刪,如:刪除前運行狀態檢查保護,資源鎖定防止誤刪除,回收站機制等。2.4 問題和檢查項問題和檢查項企業在進行應用韌性設計的過程中,推薦使用如下問題尋找自身可以改進的點,并參考檢查項/最佳實踐進行改進,以下所有檢查項,也是最佳實踐建議,將在下一章節進行詳細描述。問題問題檢查項檢查項/最佳實踐最佳實踐RES01 您如何使用冗余技術確保應用系統的高可用?1.應用組件高可用部署2.應用組件多位置部署3.云服務器反親和RES02 您如何備份應用程序中的關鍵數據?1.識別和備份應用中所有需要備份的關鍵數據2.自動數據備份3.定期進行備份數據恢復卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔
71、版本 01(2025-01-22)版權所有 華為技術有限公司11問題問題檢查項檢查項/最佳實踐最佳實踐RES03 您如何對應用程序進行跨AZ災難恢復?1.集群跨AZ部署2.跨AZ數據同步3.對接容災仲裁,支持自動切換4.支持容災管理RES04 您如何對應用程序進行跨Region或跨云災難恢復?1.定義應用系統的容災目標RPO與RTO2.部署容災系統以滿足容災目標3.容災恢復過程自動化4.定期進行容災演練,以檢查恢復能否滿足容災目標RES05 您如何保證網絡高可用?1.網絡連接高可用2.避免暴露不必要的網絡地址3.不同流量模型業務的網絡共享帶寬隔離4.預留IP資源以便擴展和高可用RES06您如何
72、進行故障檢測處理?1.故障模式分析2.面向所有故障進行檢測3.支持亞健康檢測RES07 您如何監控應用系統資源?1.定義關鍵指標與閾值并監控2.日志統計監控3.監控到異常后發送消息通知4.監控數據存儲和分析5.端到端跟蹤請求消息RES08 您如何減少依賴影響?1.減少強依賴項2.依賴采用松耦合3.減少被依賴項故障的影響RES09 您如何進行重試?1.API以及命令調用需要設計為可重試2.客戶端需要根據綜合評估是否需要重試3.重試需要避免造成流量壓力RES10 您如何進行故障隔離?1.應用控制平面與數據平面隔離2.應用系統多位置部署3.采用Grid架構4.健康檢查與自動隔離RES011 您如何進
73、行可靠性測試?1.混沌測試2.壓力負載測試3.長穩測試4.災難演練5.紅藍攻防卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司12問題問題檢查項檢查項/最佳實踐最佳實踐RES012 您如何進行應急恢復處理?1.組建應急恢復團隊2.制定應急預案3.定期應急恢復演練4.出現問題后盡快恢復業務5.應急恢復回溯RES013 您如何進行過載保護以適應流量變化?1.采用自動彈性擴縮容2.應用系統負載均衡,避免流量不均勻3.過載檢測與流量控制4.支持主動擴容5.資源自動擴容考慮了配額限制6.壓力負載測試RES14 您如何進行配置防差錯?1.變
74、更防呆檢查2.自動化變更3.變更前數據備份4.提供runbook進行標準化變更RES15 您如何進行升級不中斷業務?1.自動化部署和升級2.自動化檢查3.自動化回滾4.灰度部署和升級 2.5 高可用設計高可用設計具有高可用的系統必須避免單點故障,以防由于某個節點故障而導致整個系統不可用。2.5.1 RES01 冗余冗余2.5.1.1 RES01-01 應用組件高可用部署應用組件高可用部署應用系統內的所有組件均需要高可用部署,避免單點故障。風險等級風險等級高關鍵策略關鍵策略應用系統內各組件需要根據其具體能力,采用不同的高可用部署方案:使用原生高可用實例:當云服務既支持單節點資源,又支持主備或集群
75、資源時,應用的關鍵節點應使用主備或集群資源,如CCE高可用集群、RDS主備實例、DDS集群、DCS主備或集群實例等。對于運行在CCE集群上的工作負載,也需要配置多個,以避免單個節點故障就導致業務中斷。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司13單節點實例通過多實例實現高可用:當云服務只支持單節點發放,則需要應用層來實現多個節點之間的主備或負載均衡,如ECS實例,用戶可以通過構建ELB+多ECS實例,來實現無狀態業務在多實例之間的負載均衡和自動切換,或從應用層實現兩個ECS實例的主備等。硬件依賴實例從應用層實現高可用:當E
76、CS使用本地硬盤、直通FPGA、直通IB網卡等物理服務器強相關的硬件資源時,當硬件故障時會導致ECS故障,且無法通過虛擬機HA功能自動恢復;針對此類問題,需要應用系統在設計時就必須要預料到偶發故障,盡可能避免使用,若必須用時需要從應用層來實現高可用,以便在所依賴的硬件故障時業務能快速恢復。虛擬機HA:當ECS不依賴于特殊資源時,可以支持虛擬機故障自動恢復功能,在其所在物理服務器故障的情況下,可以自動在其他物理服務器上重啟;對于部署在這種ECS中的工作負載,需要支持虛擬機重啟后業務自動恢復的功能,并能容忍虛擬機HA期間業務處理性能短暫下降或中斷。對已部署的應用系統,改造為支持高可用能力的實施步驟
77、:a.確定應用系統的關鍵組件;所謂關鍵組件是指一旦故障,會導致整個應用系統或其中的關鍵功能受損。b.針對關鍵組件,檢查其高可用能力,即在其故障的情況下,是否能自動故障轉移,進行業務恢復。c.針對未支持高可用的關鍵組件,進行如下優化處理:若云服務實例為單節點實例,如ECS,則通過申請多個實例承載相同業務,并利用ELB實現負載均衡和自動故障切換,或由應用層實現多實例的自動故障切換能力,來實現高可用。對于不依賴于特殊資源的ECS,支持故障自動恢復功能,在ECS所在物理服務器故障的情況下可以自動在其他物理服務器上重啟;對于部署在這種ECS中的工作負載,需要檢查ECS重啟后業務是否能自動恢復。對于依賴特
78、殊資源的ECS,如本地盤、直通FPGA卡、直通IB卡等,不支持故障自動恢復,針對此類ECS需要檢查是否可以替換為不依賴于這些特殊資源的ECS,以提高ECS的可用性。對于ECS、BMS、MRS等實例,在使用本地盤時,由于磁盤存在使用壽命上的限制,長時間使用后出現故障的概率會比較高,需要避免使用,而盡可能使用具有高可用能力的EVS磁盤;若必須使用時,則建議使用RAID提升本地盤的可用性,并從應用層實現高可用,以便在一個實例故障時,應用可以自動故障切換和恢復業務。相關云服務和工具相關云服務和工具彈性云服務器 ECS裸金屬服務器 BMS彈性負載均衡 ELB云容器引擎 CCE文檔數據庫服務 DDS分布式
79、緩存服務 DCSMapReduce服務 MRS2.5.1.2 RES01-02 應用組件多位置部署應用組件多位置部署應用組件需要部署在多個數據中心,以避免單個數據中心故障而導致業務中斷。風險等級風險等級卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司14高關鍵策略關鍵策略可根據不同需求,將應用的數據和資源部署在多個位置:應用多AZ部署:應用應盡可能部署在多個可用區,避免由于單個可用區故障而導致所有業務中斷。應用多Region部署:對于可用性要求高的應用系統,需要考慮多Region部署,避免由于單個Region故障而導致所有業務中
80、斷。在多AZ部署能滿足需求的情況下,應優先使用多AZ部署。大多數工作負載的可用性目標都可通過在單個Region內多 AZ 部署來實現,只有工作負載具有極高的可用性要求或者其他業務目標時,才考慮多Region架構。2.5.1.3 RES01-03 云服務器反親和云服務器反親和應用內相同業務的ECS需要分散到多臺物理服務器,避免運行到同一臺物理服務器上,當發生這種情況時,可能會由于一臺物理服務器故障而導致業務中斷。風險等級風險等級高關鍵策略關鍵策略針對多個承載相同業務的ECS,需要配置主機組反親和,從而可以將相同業務的ECS調度到不同物理服務器上,以避免由于單臺物理服務器故障而導致所有業務不可用的
81、場景。若ECS通過AS進行彈性伸縮時,則需要AS配置云服務器組反親和,以避免AS自動創建的ECS運行在同一個物理服務器上。若CCE集群節點或節點池采用彈性云服務器ECS時,建議配置云服務器組反親和,以避免CCE集群中的ECS節點運行在同一個物理服務器上。相關云服務和工具相關云服務和工具彈性云服務器 ECS:云服務器組彈性伸縮服務 AS云容器引擎 CCE2.5.2 RES02 備份備份對于應用系統中的重要數據,需要提供備份功能,以便在病毒入侵、人為誤刪除、軟硬件故障等場景,能夠快速將數據恢復到備份點。由于容災通常對數據采用實時復制且沒有多備份點,在主數據被誤刪或誤改的情況下,錯誤數據會同步到備端
82、,從而無法達到數據備份的效果,因此通常不能使用容災來代替備份。備份恢復時的RPO指標(即數據丟失量),與最近一個備份時間點相關;不同類型的數據,允許丟失數據量可以不同,即RPO不同;為了保證數據備份的RPO目標,需要采用定期自動備份,而不要依賴人工進行手工備份。2.5.2.1 RES02-01 識別和備份應用中所有需要備份的關鍵數據識別和備份應用中所有需要備份的關鍵數據不同數據的重要性不一樣,針對應用系統內的所有數據,需要明確其重要性及對應的RPO/RTO指標要求。比如對于重要數據,通常允許數據丟失的時間會比較少,從而需要更頻繁的備份;對于一般的數據,允許數據丟失的時間比較長,可以使用較低的備
83、份頻率;對于一些不重要的數據,其數據丟失對業務沒有影響,則不需要進行備份。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司15風險等級風險等級高關鍵策略關鍵策略識別應用系統中的所有數據。數據可以存儲在多種資源中,如ECS/BMS中的卷、RDS/DDS等數據庫、SFS文件系統、OBS對象存儲等。根據重要性對數據進行分類。應用系統內的不同數據具有不同的重要程度,對備份的要求也不同;如對一些重要數據,RPO要求接近0,需要實時備份;而對另外一些數據,重要性不高,可以容忍數據丟失,可以不做備份;此外還存在一些比較重要的數據,數據丟失的容
84、忍程度各有不同,需要設計不同的備份策略。針對需要備份的數據設計備份方案以滿足其RPO/RTO指標要求。2.5.2.2 RES02-02 自動數據備份自動數據備份對于需要備份的數據,可根據該數據的RPO指標要求,設置定期備份策略進行自動備份。風險等級風險等級高關鍵策略關鍵策略使用華為云備份服務或第三方備份軟件對數據進行備份,并可根據RPO要求設置自動備份頻率。CBR云備份服務可對ECS/BMS/EVS/SFS Turbo以及文件目錄等進行備份;大多數云服務,如RDS、DDS、DCS等具備原生的創建備份功能;云商店也有不少備份軟件可以支持各種數據的備份。華為云云服務提供了備份工作負載數據的功能,典
85、型的備份有:云備份CBR服務:CBR提供對磁盤(EVS)、服務器(ECS、HECS、BMS)基于快照的備份和恢復能力,SFS Turbo文件系統備份,云服務器部署的MySQL或SAP HANA等數據庫備份,以及云上同步和管理線下備份軟件OceanStor BCManager和VMware虛擬機的備份數據。CBR支持一次性備份和周期性備份兩種配置方式。目前備份時間只支持整點,可以同時選擇多個整點進行備份,即最小RPO=1小時,用戶需要根據數據重要性選擇合適的備份周期。數據庫自動備份:RDS、DDS、GaussDB等數據庫服務提供了缺省自動備份功能,實例每5分鐘自動進行一次增量備份,以保證數據庫的
86、可靠性。DCS備份:DCS服務針對非單機實例提供了自動備份和手工備份功能,建議設置自動備份策略進行備份。此外,用戶也可使用第三方備份軟件進行備份。華為云中云服務的數據備份到OBS存儲中,可高度保障用戶的備份數據安全。相關云服務和工具相關云服務和工具云備份 CBR云數據庫 RDS分布式緩存服務 DCS2.5.2.3 RES02-03 定期進行備份數據恢復定期進行備份數據恢復通過定期恢復測試,可以驗證備份數據的完整性與恢復處理過程是否可用,且數據丟失時間以及恢復時間符合數據的RPO與RTO指標要求。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華
87、為技術有限公司16風險等級風險等級高關鍵策略關鍵策略定期執行備份數據恢復,以驗證備份的完整性。為了避免備份恢復對生產業務造成影響,可以構建一個測試環境,并使用已有的備份數據進行恢復處理。華為云云服務提供了手工恢復功能,用戶可定期執行恢復操作,以進行恢復測試。相關云服務和工具相關云服務和工具云備份 CBR云數據庫 RDS分布式緩存服務 DCS2.5.3 RES03 跨跨 AZ 容災容災為了預防單可用區故障,可借助華為云多可用區(Availability Zone,簡稱AZ)能力,應用可以用較小成本來完成容災架構部署。應用系統可設計為使用分布在多個可用區中的資源池,并利用云服務實例本身具備或應用自
88、身支持的跨AZ數據復制與切換能力,在多個AZ之間復制數據、負載均衡和跨AZ故障切換,從而使應用系統具備應對可用區故障的能力。2.5.3.1 RES03-01 集群跨集群跨 AZ 部署部署應用內所有組件均采用跨AZ容災部署,以避免單AZ故障時業務中斷。風險等級風險等級高關鍵策略關鍵策略云服務實例具備跨AZ高可用實例時,優先使用云服務實例自身的跨AZ高可用實例。云服務實例只支持發放單AZ實例,不支持跨AZ高可用實例時,需要借助其他云服務或應用層實現跨AZ容災;以ECS為例:對于無狀態ECS實例,可利用AS彈性伸縮服務的跨AZ伸縮能力,或ELB跨AZ負載均衡能力,實現跨AZ高可用,在一個可用區故障時
89、能自動快速切換。對于有狀態ECS實例,或BMS實例,建議從應用層實現跨AZ容災,支持跨AZ自動切換或通過容災管理工具實現自動化容災切換,減少災難發生時的人工操作。對于已部署的應用系統改造為跨AZ實例的實施步驟:a.確定應用系統的關鍵組件;所謂關鍵組件是指一旦故障,會導致整個應用系統或其中的關鍵功能受損。b.針對關鍵組件,檢查其跨AZ高可用能力,即在一個AZ故障的情況下,是否能自動故障轉移到另外一個AZ,進行業務恢復。c.針對未支持跨AZ高可用的關鍵組件,可進行如下優化處理:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司17若云
90、服務實例支持跨AZ高可用實例且支持由單AZ高可用實例改造為跨AZ高可用實例,如RDS、DDS、DCS實例,則直接原地由單AZ實例改造為跨AZ實例;若云服務實例支持跨AZ高可用實例但不支持由單AZ高可用實例改造為跨AZ高可用實例,如獨享ELB、CCE集群、DMS、OBS桶等,則需要新申請跨AZ高可用實例替換原來的單AZ高可用實例。若云服務實例為單節點實例,如ECS,則通過申請多個AZ的多個實例承載相同業務,并利用跨AZ的ELB實現跨AZ的負載均衡和自動故障切換,或由應用層實現跨AZ多實例的自動故障切換能力,來實現跨AZ高可用。相關云服務和工具相關云服務和工具華為云大部分云服務支持創建多可用區實例
91、,可實現在一個可用區故障時能自動快速切換,不影響實例對外提供服務,如ELB負載均衡、AS彈性伸縮、CCE容器集群、DCS實例、DMS消息服務、RDS數據庫、GaussDB數據庫等。2.5.3.2 RES03-02 跨跨 AZ 數據同步數據同步針對有狀態業務,需要進行跨AZ的數據同步,以便在一個AZ故障的情況下,數據不丟失;對于無狀態業務不涉及。風險等級風險等級高關鍵策略關鍵策略當應用組件對應的云服務實例支持跨AZ高可用實例時,可采用云服務實例自身的跨AZ數據同步;如RDS數據庫、DCS實例、OBS桶等。當應用組件對應的云服務實例不支持跨AZ高可用實例,但提供了同步服務進行跨AZ數據同步時,可利
92、用該服務進行跨AZ數據同步;如存在有狀態數據的ECS實例不支持跨AZ高可用,但可通過SDRS服務進行跨AZ數據同步。當應用組件對應的云服務實例不支持跨AZ高可用實例,且不支持跨AZ數據同步或不使用跨AZ數據同步服務時,則需要由應用層進行數據復制;如存在有狀態數據的BMS實例。相關云服務和工具相關云服務和工具存儲容災服務 SDRS彈性云服務器 ECS云數據庫 RDS分布式緩存服務 DCS對象存儲服務 OBS2.5.3.3 RES03-03 對接容災仲裁,支持自動切換對接容災仲裁,支持自動切換針對有狀態的主備類型業務,在跨AZ部署并支持自動切換時,需要對接容災仲裁,以避免出現雙主或雙備,從而在AZ
93、間鏈路中斷的情況下,業務能自動切換到一個AZ提供服務而不受影響;對于集群類業務不涉及。風險等級風險等級高關鍵策略關鍵策略面向有狀態主備類型業務提供容災仲裁,站點間鏈路中斷不雙主,不破壞數據完整性。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司18應用內所有相關組件對接一致性仲裁,在鏈路中斷的情況下所有組件均能切換到同一個站點,實現端到端的業務可用性2.5.3.4 RES03-04 支持容災管理支持容災管理提供容災管理功能,實現容災狀態及RPO監控,及異常場景下的業務切換。風險等級風險等級高關鍵策略關鍵策略實時監控容災狀態,了解
94、容災運行狀態。支持應用級數據校驗,比較AZ間數據同步差異,監控及PO指標。典型確定性故障場景下自動容災或切換,無需人工接入,業務不受影響,滿足RPO/RTO指標。典型亞健康故障場景,支持業務降級或主動切換,業務不持續受損。相關云服務和工具相關云服務和工具多活高可用服務 MAS2.5.4 RES04 跨跨 Region/跨云容災跨云容災為了預防區域級災難發生,或業務跨云容災需求,需要構建容災系統提供較為完善的數據保護與災難恢復能力,以便在站點級災難發生時,可以保證生產系統的數據盡可能少的丟失,業務系統能在最短時間內由災備中心接替,恢復業務系統的正常運行,將損失降到最小。對于跨Region容災場景
95、,應用系統可在多個Region中部署,并將數據從一個Region復制到另一個Region,以便在發生地區級服務中斷或數據丟失時可進行災難恢復。對于跨云容災場景,當應用系統已部署在IDC或其他云中,可以在華為云中另外部署一套系統并將數據從IDC或其他云復制到華為云中,以便在發生整IDC或整朵云服務中斷或數據丟失時可以進行災難恢復。2.5.4.1 RES04-01 定義應用系統的容災目標定義應用系統的容災目標 RPO 與與 RTO在進行容災設計前,需要根據應用系統的重要性,明確其容災目標,通常以RPO和RTO指標來定義:RPO:允許的數據丟失量,與數據的周期性復制周期或連續性復制延時相關。RTO:
96、允許的業務恢復時長,即業務中斷時長,與災備端業務的部署與切換方式相關。風險等級風險等級高關鍵策略關鍵策略不同的業務系統重要性不一樣,針對應用系統內的各種業務,需要明確其重要性及對應的RPO/RTO指標要求。比如對于核心業務,通常需要保障業務的連續性,允許業務中斷的時間會比較少,從而需要保障故障場景下的業務快速恢復,可采用雙活/多活容災;對于重要業務,允許一定的業務中斷時間,可采用主備容災;對于一般業務,允許中斷的業務時間可達到天級,則可采用遠程備份;對于一些不重要的業務,其業務中斷對外部客戶沒有影響,則不需要進行容災。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-
97、01-22)版權所有 華為技術有限公司192.5.4.2 RES04-02 部署容災系統以滿足容災目標部署容災系統以滿足容災目標針對不同應用系統的容災目標,需要綜合考慮中斷概率、容災成本等因素,來決定采用什么樣的容災方案來實現這些目標。風險等級風險等級高關鍵策略關鍵策略面向跨Region/跨云容災場景,可基于不同的可用性目標要求,采用不用的容災方案,如遠程備份、主備容災、雙活容災等,其中生產站點根據場景不同可能為其他云或IDC或華為云Region:遠程備份:生產站點內的重要數據,備份到異地華為云災備Region,當生產站點發生災難時,需要在異地災備Region新部署一套業務系統并使用最新備份數
98、據恢復數據,并恢復業務。主備容災:生產站點與華為云災備Region各部署一套業務系統,并將生產站點的重要數據異步復制到災備Region;平常只有生產站點提供業務,當生產站點發生災難時,將災備Region提升為主,并將業務流量切換到災備Region并由其提供業務。雙活/多活容災:生產站點與華為云災備Region各部署一套業務系統,并將各自站點的重要數據異步復制到其他站點;每個站點都同時提供業務,通過全局負載均衡器進行流量分發;當一個站點發生災難時,則將業務流量全部分發到其他站點來接管其業務。以跨Region主備容災為例,對于已在一個Region部署應用系統后,增加支持跨Region主備容災能力的
99、實施步驟建議如下:a.選擇另一個Region作為災備Region,部署一套相同的應用系統,包括工作負載、數據庫實例等。b.針對應用系統內的關鍵數據,利用云服務或應用系統自身實現跨Region的數據復制。若云服務實例支持跨Region容災,則配置生產站點與災備Region之間的復制,如對于RDS數據庫實例,需申請DRS實例對主Region與災備Region的數據庫進行實時復制;對于OBS桶,需要配置主Region中的OBS桶到災備Region中OBS通的復制。若云服務實例不支持跨Region容災,但數據比較關鍵,則需要應用層實現跨Region的數據雙寫,以進行數據同步。c.接入側主Region與
100、災備Region各自申請外部IP,并通過DNS域名解析到主Region,在主Region故障時,將DNS域名對應IP地址修改為災備Region中的外部IP。d.申請MAS多活高可用服務,進行容災編排,以便在災難場景快速主備切換恢復業務。相關云服務和工具相關云服務和工具云備份 CBR:支持跨區域復制與恢復數據復制服務 DRS:支持RDS for MySQL、GaussDB for MySQL等數據庫的實時災備,支持跨Region/跨云容災場景對象存儲服務 OBS:支持跨區域復制與雙活卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司
101、202.5.4.3 RES04-03 容災恢復過程自動化容災恢復過程自動化由于容災恢復場景涉及容災站點的業務恢復、數據庫的主備切換、業務到容災站點的流量切換等,恢復過程比較復雜,因此需要提供容災管理功能,實現容災狀態及RPO監控,以及災難場景下的一鍵式自動切換,減少人工干預。風險等級風險等級高關鍵策略關鍵策略實時監控容災狀態,了解容災運行狀態。支持應用級數據校驗,比較AZ間數據同步差異,監控及PO指標。災難場景下的一鍵式自動切換,減少人工干預,滿足RPO/RTO指標。支持容災恢復流程編排、容災演練等功能。相關云服務和工具相關云服務和工具多活高可用服務 MAS2.5.4.4 RES04-04 定
102、期進行容災演練,以檢查恢復能否滿足容災目標定期進行容災演練,以檢查恢復能否滿足容災目標通過定期的容災演練,可以驗證災備系統是否可用,且數據丟失時間以及恢復時間符合數據的RPO與RTO指標要求。風險等級風險等級高關鍵策略關鍵策略每年至少進行一次容災演練;通過演練可提升操作人員的熟練程度。演練期間需要對恢復過程計時,以確定應用系統的RPO與RTO目標能否滿足。演練期間可檢查災難恢復計劃執行順序及恢復時間并進行優化。相關云服務和工具相關云服務和工具多活高可用服務 MAS2.5.5 RES05 網絡高可用網絡高可用應用系統對外或對內通信都依賴于網絡,一旦網絡異常將會導致業務中斷,因此網絡架構的高可用及
103、容災能力至關重要。在進行網絡設計時,需要充分考慮應用系統對內和對外的網絡連接、IP地址管理和域名解析等。華為云中網絡高可用主要涉及三個場景:公有云網絡:構建應用系統相關的公網網絡連接的高可用,可減少由于網絡連接中斷而導致的業務中斷?;旌显凭W絡:對于自建本地數據中心(IDC)或使用其他云的用戶,基于業務發展需要將部分業務部署到華為云時,將涉及到混合云網絡互連;應用系統跨云部署時(如跨云主備容災或雙活),需要構建高可用的混合云網絡連接,以減少由于網絡連接中斷而導致的業務中斷。云上網絡之間訪問:當業務系統涉及到多個部門或業務團隊時,一般會使用多個VPC進行業務隔離,不同團隊和部門之間需要相互訪問,將
104、會涉及不同VPC之間的網絡連接。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司212.5.5.1 RES05-01 網絡連接高可用網絡連接高可用應用系統對外提供服務時,需要確保對外網絡連接的高可用,避免單個網絡連接中斷而導致業務不可用。風險等級風險等級高關鍵策略關鍵策略網絡鏈路冗余:網絡連接需要支持多路徑,以實現高可用能力,以避免在一條網絡路徑中斷的情況下,業務能切換到其他路徑繼續通信。網絡鏈路快速倒換:需要定期檢查網絡鏈路的連通性,但檢測到失敗時需要盡快切換到正常路徑。公有云組網場景可通過多EIP 彈性IP及DNS域名解析實
105、現網絡連接的高可用;對可用性要求較高的場景,需要支持智能DNS功能,能對EIP進行異常監控和自動切換;此外DNS自身也需要冗余容錯,避免由于DNS故障而導致域名解析失敗,業務中斷?;旌显平M網場景鏈路冗余與倒換方案:雙DC專線冗余:用戶數據中心與華為云VPC之間采用兩條DC專線互通;其中兩條物理專線接入同區域的兩個華為云專線接入點,并通過BGP路由協議接入同一個VPC,用戶可設置虛擬接口的優先級以決定業務的主備鏈路。具體的方案參見“用戶通過雙專線雙接入點用戶通過雙專線雙接入點BGP協議訪問協議訪問VPC”。雙VPN冗余:用戶數據中心與華為云VPC之間采用兩條VPN連接保證可靠性;當其中一條VPN
106、鏈接故障時,系統可以切換到另一條VPN連接,保證網絡不中斷。兩條VPN連接可以是雙活或主備部署。具體的方案參見“通過通過VPN實實現云上云下網絡互通(雙活模式)現云上云下網絡互通(雙活模式)”與“通過通過VPN實現云上云下網絡互通實現云上云下網絡互通(主備模式)(主備模式)”。DC專線/VPN主備:用戶數據中心與華為云VPC之間同時部署DC專線和VPN兩條網絡鏈路,互為主備,并通過企業路由器,可以實現DC和VPN主備鏈路的自動切換,不需要手工切換雙聯路,不僅避免業務受損,同時降低維護成本。具體的方案參見“通過企業路由器構建通過企業路由器構建DC/VPN雙聯路主備混合云組雙聯路主備混合云組網網”
107、。相關云服務和工具相關云服務和工具云專線 DC虛擬專用網絡 VPN2.5.5.2 RES05-02 避免暴露不必要的網絡地址避免暴露不必要的網絡地址網絡地址對外暴露時,可能會引入安全風險,需要避免暴露不必要的網絡地址。風險等級風險等級高關鍵策略關鍵策略通常對外網絡地址需要盡可能集中管控,避免分散暴露,如使用網絡服務ELB彈性負載均衡、公網NAT網關、Web云防火墻等作為公網訪問入口。對外的IP地址需要通過安全組、NAT等限制網絡端口訪問,減少安全風險。相關云服務和工具相關云服務和工具虛擬私有云VPC:安全組卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)
108、版權所有 華為技術有限公司22彈性負載均衡器 ELBNAT網關 NATWeb云防火墻 WAF2.5.5.3 RES05-03 不同流量模型業務的網絡共享帶寬隔離不同流量模型業務的網絡共享帶寬隔離不同流量模型業務共享網絡帶寬享時,可能會導致流量搶占,相互影響,一個業務流量突然可能會導致其他業務不可用。風險等級風險等級高關鍵策略關鍵策略相同流量模型的業務,可共享網絡帶寬,帶寬需要滿足所有共享業務的需求不同流量模型的業務,為了避免相互干擾,建議使用各自獨立的共享帶寬實例不同特性的業務,建議使用各自獨立的域名隔離。2.5.5.4 RES05-04 預留預留 IP 資源以便擴展及高可用資源以便擴展及高可
109、用云上網絡需要滿足可擴展以及高可用需求,以便在云上資源彈性伸縮或業務擴展時,有足夠網絡資源支撐業務發展。風險等級風險等級高關鍵策略關鍵策略云上網絡規劃設計應滿足以下原則:針對每個Region,根據業務需要規劃不同的VPC,每個VPC使用獨立的地址空間;并需要預留IP地址空間用于新建VPC。針對每個VPC中,需要根據業務需要規劃子網和IP地址空間;并需要預留IP地址空間用于新建子網。針對每個子網,需要預留IP地址空間用于網絡擴容。當涉及與其他網絡(如VPC、IDC或其他云)互連時,需要確保IP地址空間不重疊。2.6 故障全面檢測故障全面檢測高可用性系統必須具有完善的故障檢測能力,以確保能夠快速發
110、現那些可能導致故障的事件、顯示正在發展的故障、激活的故障,以及潛在的故障的事件。在幾乎所有情況下,故障檢測能力都是故障恢復的前提。2.6.1 RES06 故障檢測故障檢測2.6.1.1 RES06-01 故障模式分析故障模式分析故障模式分析是在系統分析和設計過程,通過對各組成單元潛在的各種故障模式及其對產品功能的影響進行分析,并把每一種潛在故障模式按它的嚴酷度予以分類,找出單點故障和產品的薄弱環節,提出可以采取的預防改進措施,以提高產品可靠性的一種設計方法。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司23當應用系統部署在華為
111、云中時,華為云提供了基礎設施的故障管理,應用系統可減少對機房、電力、環境、計算服務器、存儲設備、網絡交換機等基礎設施的故障模式的檢測和恢復處理,但仍需考慮這些基礎設施故障對應用系統的影響及對應的恢復措施,如機房發生災難(AZ或Region級災難)、計算服務器故障/重啟、使用本地硬盤時硬盤故障/亞健康、網絡通信中斷/丟包等。而對于應用自身相關的故障模式,如軟件系統類、數據類、通信類、負荷過載、人因差錯等類型的故障,更需要充分分析并提供檢測和恢復措施。風險等級風險等級高關鍵策略關鍵策略針對每種故障模式,分析其發生的頻率以及造成的影響,以確定嚴酷度等級。對于存在單點故障的組件對應的故障模式,嚴酷度必
112、須設置為高。云服務通用的故障模式有:CPU過載、內存過載、磁盤使用率過高、數據故障(被誤刪等)、AZ故障、Region故障等。a.定義嚴酷度類別嚴酷度是度量故障給系統造成的最壞潛在后果,一般分為四個等級:類(嚴重)、類(較嚴重)、類(一般)、類(輕微)。I類:這種故障會導致整個系統崩潰或主要功能受到嚴重影響;II類:這種故障會導致系統主要功能受到影響、任務延誤的系統輕度損壞或存在較大的故障隱患;III類:系統次要功能喪失或下降,須立即修理,但不影響系統主要功能實現的故障;IV類:部分次要功能下降,只須一般維護的,不對功能實現造成影響(一般告警或指示燈故障等)。其中,III類故障通常稱為重大故障
113、,也即“單點故障”,它們的區別主要是I類故障可能涉及到安全性問題,或者I類故障是所有/大部分功能喪失。II類故障指主要功能受影響。III類故障可簡單理解為需要盡快修復的故障。通常來說,當一個故障不能被檢測出來時,會認為這是一個故障“隱患”,相應的故障嚴酷度級別上升一級。b.標識系統中的所有組件及功能模塊明確應用系統涉及的所有組件,以及外部依賴項,如提供者、第三方服務等。c.識別故障點對于每個組件,標識可能發生的潛在故障。單個組件可能具有多種故障模式,需要針對不同故障模式分別分析。故障模式的種類需要盡可能完備,若出現遺漏,可能導致該故障在設計中不被考慮,而沒有進行監控和恢復處理。d.故障影響范圍
114、分析(爆炸半徑)針對每種故障模式,分析其發生的頻率以及造成的影響,以確定嚴酷度等級。對于存在單點故障的組件對應的故障模式,嚴酷度必須設置為高。云服務通用的故障模式有:CPU過載、內存過載、磁盤使用率過高、數據故障(被誤刪等)、AZ故障、Region故障等。e.提供故障檢測和緩解措施f.針對每種故障模式,需要分析如何檢測和恢復,提出改進建議措施,并在系統復雜度和成本之間進行綜合考慮,優先解決嚴酷度高的故障模式。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司24相關云服務和工具相關云服務和工具云運維中心 COC:支持故障模式管理。
115、2.6.1.2 RES06-02 面向所有故障進行檢測面向所有故障進行檢測針對所有故障場景,都需要能自動檢測,以便及時發現和恢復故障。風險等級風險等級高關鍵策略關鍵策略所有故障都必須有檢測。支持按不同維度進行故障檢測,如Region、AZ、服務、方法、實例或容器ID等,檢測維度與故障恢復方式對齊。檢測到故障后需及時告警或自動恢復。針對具體故障進行檢測時,根據檢測的類型通??梢苑譃橘Y源檢測、功能檢測和業務檢測。資源檢測:云環境中一般指虛擬化后的物理硬件資源及其對應的軟件資源,具體包含CPU、內存、網絡和磁盤資源等。功能檢測:對組成產品系統的各個內部模塊對象進行檢測的過程,確定模塊功能是否滿足設計
116、的需求。當產品系統的功能發生故障時,對外的呈現即為功能輸出和預期不一致。在產品上線之前,通過功能相應接口,開發者和測試人員需要多次檢測以保證模塊功能的正確性。功能檢測可以使用傳統日志跟蹤技術、調用鏈技術來進行檢測,如華為云APM。業務檢測:模擬用戶的業務操作過程,獲得完成業務的操作過程性能數據和操作結果數據;業務檢測使用撥測技術來完成檢測,由于撥測需要占用網絡資源,對于長周期撥測,一般選擇在空閑時間段進行,屬于抽樣檢測,而如果是短周期撥測(如5分鐘周期),則可例行進行;與功能檢測的聯系是,業務檢測也可以采用調用鏈來完成。故障檢測方法根據類型有很多種,下面是一些在高可用性系統中常用的故障檢測方法
117、。數值范圍檢查:在大多數應用中,一個操作的結果必須處于某個范圍之內。對這些邊界條件可以進行一些測試來驗證數據是否滿足預期要求。數據完整性檢查:每當數據被從一個單元傳遞給另一個單元時,該數據可能會被破壞。對于在硬件單元間傳遞的數據尤其如此。然而,由于軟件層可以隱藏本地內存傳送和跨遠程鏈路的傳送間的差異,因此需要在多個點進行數據完整性檢查??梢圆捎煤芏喾椒▉眚炞C數據的完整性,其中大多數方法都依賴于冗余或者包含在數據中的摘要信息。有些方法采用足夠的冗余,不僅能檢測錯誤,而且能糾正錯誤。但大多數方法中都只包括足夠的額外信息來檢測數據是否有效。典型的方法如奇偶校驗和CRC(循環冗余校驗)。比較測試:當系
118、統具有冗余時,可以使兩個系統并行進行計算,然后對結果進行比較,如果結果不匹配則認為發生了故障。這種概念也稱為表決。比較可以在系統的任何層次上進行,包括在一條內存總線上的cycle by cycle的比較,到最終發送到網絡上結果的比較。時間檢測:時間檢測是故障檢測的一種簡單形式。如果一個事件預期應在某個時間段內發生,而卻沒有在該時間段發生,就檢測到了一個故障。時間檢測的一種特殊方法通常稱為心跳方法。它采用以某個規定的周期頻率執行的某些類型的消息握手。該技術可以用于驗證單元或子系統是否仍然能夠維持某些等級的功能。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22
119、)版權所有 華為技術有限公司252.6.1.3 RES06-03 支持亞健康檢測支持亞健康檢測系統內組件有可能完全故障,也有可能處于亞健康狀態;亞健康是指系統整體業務未超標,但系統中局部實例業務超標。亞健康更多是個相對概念,相對歷史表現的統計,或相對系統整體。因此針對亞健康的檢測和判斷有所不同。當處于亞健康狀態時,系統也需要及時進行隔離或恢復處理,避免對業務造成影響。風險等級風險等級高關鍵策略關鍵策略亞健康檢測通常用于根據亞健康癥狀來預測系統故障,典型的例子是內存泄漏,內存泄漏往往不會立刻導致系統失效,系統首先會因為Swap Memory不足變得運行緩慢,消耗內存量持續增加,因此通過監控實例內
120、的內存占用率,在超過閾值的情況下及時告警,人工介入迅速恢復,可避免造成業務中斷。典型的亞健康場景有:通信鏈路丟包/錯包、硬盤性能下降、CPU/內存過載等,當應用系統內組件出現亞健康時,可能會導致應用系統對外業務成功率下降。由于亞健康并非故障,因此針對亞健康的檢測一般是針對業務監控指標設置閾值,當指標超過閾值時進行告警和恢復處理。2.6.2 RES07 監控告警監控告警應用系統需要監控,以便維護人員能快速識別系統運行現狀及問題。2.6.2.1 RES07-01 定義關鍵指標與閾值并監控定義關鍵指標與閾值并監控對資源進行監控時,需要先定義資源的關鍵指標以及對應的閾值,以便快速有效的發現業務表現和系
121、統狀態,以便在異常狀態下盡早干預恢復,或定位改進系統缺陷。風險等級風險等級中關鍵策略關鍵策略關鍵指標需要與系統內工作負載的關鍵性能指標相關,并能確定為系統性能下降的早期警告信號,如系統處理的API數量及成功率,相比CPU利用率、內存利用率等基礎指標,能更真實的指示系統性能問題。從可用性保證出發,結合有效性和簡化,建議應用系統至少從業務狀態、服務狀態、資源狀態三個層面進行監控。根據業務規模,可以使用CES服務(側重在I層服務)或AOM/APM服務(側重在P層業務),也可以借助Prometheus、Zabbix、Zipkin等部件自行搭建,使用Grafana等部件進行界面展示和時序對齊。1、業務監
122、控以下4個黃金指標,是針對大量分布式監控的經驗總結,可以作為業務監控的參考,包括:延遲:注意需要區分請求成功的延遲和請求失敗的延遲。流量:對系統業務負荷的監控。錯誤率:注意區分顯示失?。ㄈ鏗TTP 500錯誤)和隱式失?。ㄈ鏗TTP 200中包含了錯誤內容)。飽和度:側重在對系統中最為受限的瓶頸資源的監控。對于基于Java的應用系統,華為云用戶可使用APM服務實現基于調用鏈的業務延遲和錯誤率監控。函數服務FunctionGraph、微服務引擎CSE提供了流量、延遲和卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司26錯誤率監控能
123、力?;贏PI網關暴露接口的應用,可使用APIG服務提供的流量、延遲和錯誤率監控能力。如果云服務現有能力不能滿足系統要求,用戶也可以自行埋點或基于Zipkin開源框架實現調用鏈跟蹤、延遲和流量監控。2、服務監控由于服務實例的冗余配置和應用系統的容錯保護,業務指標正常并不意味著服務實例狀態一定正常。例如,在配置了ELB的虛擬機集群中,ELB會主動隔離異常節點,雖然業務會在正常節點上分擔,但應用系統實際已損失了部分處理容量。因此,云服務狀態監控必不可少。云服務具體指標因功能特性而異。站在功能提供者的層面,通常同樣需要重點關注延遲、流量、錯誤率、利用率等指標。此外,服務實例的動態伸縮、過負荷控制、故
124、障自愈或遷移等可靠性關鍵事件也是服務健壯性的表征,如有異常需要預先干預。關鍵事件監控可以使用CTS服務,或自行搭建。CES服務支持ECS、EVS、OBS、VPC、ELB、AS等IaaS服務,以及RDS數據庫,DCS、DMS等高可用中間件的主要指標監控,支持用戶上報自定義監控指標。如果用戶自行搭建監控系統,也可以通過CES SDK獲取指定服務的監控指標。AOM服務提供了微服務應用和節點的關鍵指標監控能力。云容器工作負載關鍵指標在CSE服務中查看。函數服務關鍵指標在FunctionGraph控制臺中查看。3、資源監控資源監控通常用于識別資源瓶頸分析系統性能問題。對應用系統資源進行監控時,需要先定義
125、資源的關鍵指標以及對應的閾值,以便快速有效的發現業務表現和系統狀態,以便在異常狀態下盡早干預恢復,或定位改進系統缺陷。關鍵指標需要與系統內工作負載的關鍵性能指標相關,并能確定為系統性能下降的早期警告信號,如系統處理的API數量及成功率,相比CPU利用率、內存利用率等基礎指標,能更真實的指示系統性能問題。常用USE方法(Utilization Saturation and Errors Method)對資源監控,包含:使用率Utilization:覆蓋系統資源,包括但不限于CPU、內存、網絡、磁盤等。飽和度Saturation:針對資源的飽和度,如CPU隊列長度,注意與業務監控的黃金指標相區分。
126、錯誤Errors:資源處理錯誤,如網絡丟包率等。CES主動監控提供了虛機細粒度的監控能力,其他服務監控指標也不同程度涉及到資源使用率和錯誤監控。如果云服務現有能力不能滿足系統要求,用戶可使用CES或AOM服務的自定義指標監控能力。用戶若自行搭建監控系統,需要覆蓋主機資源、網絡設備和Apache、Java、MySQL等第三方組件,開源的Zabbix是常見選擇。相關云服務和工具相關云服務和工具云監控服務 CES應用運維管理 AOM應用性能管理 APM2.6.2.2 RES07-02 日志統計監控日志統計監控應用系統需要收集日志,在必要時對日志進行統計分析,設置告警規則觸發告警,統計分析的內容可以是
127、統計一定時間段內某些關鍵字出現的次數。風險等級風險等級中卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司27關鍵策略關鍵策略日志關鍵字與出現次數閾值需要合理設置,以免監控信息不正確。日志信息(如關鍵字或出現頻率)發生變化時,需要及時更新告警規則。相關云服務和工具相關云服務和工具云日志服務 LTS2.6.2.3 RES07-03 監控到異常后發送消息通知監控到異常后發送消息通知當對應用系統監控發現應用異常后,需要向相應的人員和系統發送實時通知消息和告警,以便及時處理。風險等級風險等級中關鍵策略關鍵策略采用實時快捷的消息通知方式,以
128、便相關人員能及時得到消息。消息發送人員需要涵蓋運維人員,以便及時恢復。運維人員需要有備份,避免單點風險。SMN消息通知服務可依據用戶需求主動推送通知消息,方式可為短信、電子郵件等。CES、AOM、CTS、APM、LTS等服務均已經對接SMN消息通知服務,在閾值規則發生變化時,可以以郵件或短信等方式通知,以便您在第一時間發現異常并進行處理。相關云服務和工具相關云服務和工具消息通知服務 SMN云運維中心 COC:支持人員管理、排班管理和通知管理,可以根據通知規則自動將消息發送給要通知的人員。2.6.2.4 RES07-04 監控數據存儲和分析監控數據存儲和分析監控數據包括統計和日志信息,均需要存儲
129、并進行生命周期管理,以滿足數據監控的保留要求;并定期對其進行分析,以了解系統運行狀態和趨勢。風險等級風險等級中關鍵策略關鍵策略監控數據存儲時長需要滿足保留要求。監控數據需要定期分析,以便發現或預測系統故障,減少業務中斷。相關云服務和工具相關云服務和工具LTS云日志服務:支持日志分析與數據轉儲2.6.2.5 RES07-05 端到端跟蹤請求消息端到端跟蹤請求消息端到端跟蹤請求消息的處理流程,便于分析和調試問題,并提高處理性能。風險等級風險等級低關鍵策略關鍵策略卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司28消息跟蹤需要包含消息
130、處理流程中所有組件,以便跟蹤結果完整,從而進行準確分析和定位。相關云服務和工具相關云服務和工具應用性能管理 APM:支持調用鏈追蹤,能夠針對應用的調用情況,對調用進行全方面的監控,可視化地還原業務的執行路線和狀態,協助性能及故障快速定位。在查詢后的調用鏈列表中,單擊待查看的調用鏈的鏈接,查看該調用鏈基本信息。調用鏈詳情頁面可以查看調用鏈的完整鏈路信息,包含本地方法堆棧和相關遠程調用的調用關系。調用鏈與日志關聯,提高用戶體驗。用戶可以從調用鏈直接跳轉LTS查看日志。2.7 故障快速恢復故障快速恢復當應用系統采用華為云服務的高可用設計時,在云服務實例發生故障后,云服務能自動檢測和恢復;但對于應用系
131、統本身的故障,需要應用系統自身進行檢測和快速恢復處理,以保證系統能夠正常運行,從而提高系統的可靠性和穩定性。2.7.1 RES08 依賴減少與降級依賴減少與降級對于應用系統,需要識別和管理系統依賴項。應用系統設計人員需要維護對其他系統組件的依賴項的完整列表,包括系統內和系統外的所有依賴。應用系統應盡可能減少關鍵依賴項,即減少由于該依賴項不可用而導致服務中斷的組件。2.7.1.1 RES08-01 減少強依賴項減少強依賴項系統內組件之間強依賴時,一個組件故障會對其他組件造成直接影響,影響系統可用性。風險等級風險等級中關鍵策略關鍵策略可以通過以下技術將強依賴項轉換為非強依賴項:提高關鍵依賴項的冗余
132、級別,降低該關鍵組件不可用的可能性。與依賴項的通信采用異步消息并支持超時重試,或發布/訂閱消息功能將請求與響應分離,以便依賴項從短時故障中恢復。依賴項長時間無法訪問時,應用程序應能繼續執行其核心功能,以便將局部故障對整體系統功能的影響減到最小。如所依賴的數據丟失時,應用程序仍能運行,但可以提供稍微陳舊的數據、替代數據,甚至沒有數據,應用仍處于可預測和可恢復的狀態。避免啟動依賴及循環依賴。若應用系統由于某些原因導致重啟時,若依賴于其他依賴項啟動或加載關鍵配置數據,可能會導致應用系統長時間停在啟動狀態而無法響應外部消息。針對這種情況,應用系統應該先使用缺省配置啟動,再檢查依賴項的狀態或加載最新配置
133、數據,以恢復正常運行。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司292.7.1.2 RES08-02 依賴松耦合依賴松耦合系統內組件之間直接訪問時,會產生緊耦合關系一個組件的狀態變化會對其他組件產生直接影響,從而會導致所有組件的可用性均下降。而采用松耦合架構時,各個組件之間的依賴關系非常弱,它們可以獨立地進行修改和擴展,而不影響其他組件;系統更加靈活,易于維護和升級,并且穩定性和可靠性也更強。風險等級風險等級中關鍵策略關鍵策略組件之間通過消息隊列、消息緩存、負載均衡器等交互(即松耦合關系),可一定程度上屏蔽組件的狀態變化,
134、防止對其他組件造成影響相關云服務和工具相關云服務和工具彈性負載均衡服務 ELB分布式緩存服務 DCS分布式消息服務Kafka版分布式消息服務RabbitMQ版分布式消息服務RocketMQ版事件網格 EG2.7.1.3 RES08-03 減少被依賴項故障的影響減少被依賴項故障的影響被依賴項自身的可用性需要增強,以減少對依賴它的組件的影響。風險等級風險等級中關鍵策略關鍵策略對于被依賴項本身,為減少由于服務故障或運行緩慢對依賴它的組件的影響,需要考慮使用以下技術和原則:減少被依賴項本身的外部依賴。優化性能,減少消息響應時延和負載。使用優先隊列,優先處理高優先級用戶的請求,以便在流量過載時不影響應用
135、系統的核心功能。流量過載時支持功能逐步降級。被依賴項本身的功能受損時,提供缺省處理,以便應用系統仍可繼續正常運行;由于缺省處理可能與實際配置有差異,此時需要告警以便通知系統管理員解決問題。2.7.2 RES09 故障重試故障重試當應用系統部署在云中,雖然云具有一定的高可用和故障自動恢復能力,但對外仍會導致短時間的故障,需要應用系統能針對這種短時間故障進行適配處理,主要是采用重試機制。云中故障需要重試的典型場景有:1.實例主備切換時可能會導致連接中斷,如DCS、RDS實例由于某些原因主備切換時,會導致連接中斷,需要客戶端重試。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(20
136、25-01-22)版權所有 華為技術有限公司302.實例由于故障重啟可能會導致通信中斷,如ECS所在物理服務器由于硬件原因故障時,ECS重啟或在其他物理服務器中自動恢復,恢復過程中與ECS的通信會中斷,需要重試。3.實例由于過載導致無法及時響應,需要重試。2.7.2.1 RES09-01 API 及命令調用需要設計為可重試及命令調用需要設計為可重試在進行重試處理時,API及命令調用會重復發送,服務方會多次重復執行,需要保證重復執行多次的結果不變。風險等級風險等級高關鍵策略關鍵策略應用系統在設計時,應使操作具有冪等性,也就是允許一個操作連續執行兩次或多次時,應該與單次調用產生的結果相同,從而保證
137、重試安全;若不支持操作的冪等性,會導致客戶端難以重試或重試的處理更復雜。2.7.2.2 RES09-02 客戶端需要根據綜合評估是否要重試客戶端需要根據綜合評估是否要重試當客戶端請求超時或收到錯誤響應時,客戶端需要決定是否重試;重試有助于客戶端在請求失敗時,通過重復消息來獲得預期的結果,避免業務失敗,但也會消耗更多的服務器時間來獲取所需的成功響應。風險等級風險等級高關鍵策略關鍵策略請求超時,可能是鏈路閃斷或其他臨時性故障導致消息丟失,可以進行重試。根據錯誤響應碼進行有針對性的重試;對于臨時性故障,如錯誤碼指示為系統繁忙時,可等待一段時間后重試,否則無需重試。請求SDK中內置了消息重試時,客戶端
138、無需重復重試。多層業務棧一般只在源端重試,避免逐層重試。2.7.2.3 RES09-03 重試需要避免造成流量壓力重試需要避免造成流量壓力對于鏈路閃斷等原因導致的臨時性故障,客戶端進行一定的重試,可取得較好的效果;對于流量過載等原因導致的故障,重試可能會導致情況進一步惡化,因此需要避免這種影響。風險等級風險等級高關鍵策略關鍵策略客戶端進行重試處理時,建議:增加指數回退和抖動方法,以避免對服務端造成流量壓力;采用指數回退重試時,每次重試之間的間隔會逐漸延長,并在兩次重試之間引入抖動,以隨機調整重試間隔,避免同時出現造成重試峰值。限制最大重試次數或用時,避免由于消息積壓而導致流量過載。卓越架構技術
139、框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司312.7.3 RES10 故障隔離故障隔離當系統某個單元發生故障時,如果不采取措施,故障可能會大規模擴散,從而造成整個系統失效。故障隔離技術的核心思想是將一個工作負載內的故障影響限制于有限數量的組件內,降低故障影響范圍,防止產生級聯故障。通過劃分故障隔離域,限制工作負載的影響,可有效進行故障隔離。2.7.3.1 RES10-01 應用控制平面與數據平面隔離應用控制平面與數據平面隔離通常應用的數據平面處理業務,比較重要,可用性要求比較高,而控制平面不直接處理業務,因此其故障時不應該影響業務系統
140、。風險等級風險等級高關鍵策略關鍵策略應用控制平面與數據平面隔離,避免控制系統故障影響業務。數據平面所在業務系統的故障恢復可不依賴控制平面,避免由于控制平面故障而導致業務系統無法恢復。2.7.3.2 RES10-02 應用系統多位置部署應用系統多位置部署通過將應用系統部署在多個位置,可以避免由于一個位置的基礎設施故障而導致系統不可用。風險等級風險等級高關鍵策略關鍵策略將應用系統的數據和資源部署在多個AZ,可避免單個AZ故障影響業務。對于可用性要求較高的應用系統,可部署在多個Region,避免單個Region故障影響業務。當多AZ架構可以滿足應用可用性需求時,無需采用多Region部署。2.7.3
141、.3 RES10-03 采用采用 Grid 架構架構采用Grid架構,可將應用系統內的工作負載的故障影響限制在有限Grid業務單元中。風險等級風險等級高關鍵策略關鍵策略應用系統采用多個功能相同的Grid業務單元,每個Grid業務單元具備完整業務功能,處理整個業務負載中的一個子集,不涉及與其他Grid業務單元的交互;在一個Grid業務單元發生故障時,僅影響本Grid業務單元所處理的業務,對其他Grid業務單元沒有影響,從而減少爆炸半徑。應用系統典型Grid架構部署如下:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司32實施步驟:
142、a.確定分區鍵。選擇分區鍵應考慮:選擇分區鍵必須考慮匹配服務的“粒度”或者考慮以最小的方式跨分區互動。對于多用戶系統,可使用用戶ID作為分區鍵;而對于資源為對象的系統,則可以使用資源ID作為分區鍵。所確定的分區鍵,必須在所有API或命令中都能直接包含或可通過其他參數間接轉換得到,以便能使用該分區鍵進行分區處理。按分區鍵進行分區處理時,需要確保對應分區能獨立處理業務,盡可能避免或減少與其他分區的交互。b.確定分區數量與每個分區的大小,后續還存在增加分區的情況。需要綜合考慮:分區數量越多,對應分區會越小,爆炸半徑也越小,運維定位簡單,可用性高,但由于資源共享利用率低,所需的成本也越高。分區數量越少
143、,每個分區的資源多,更容易適合對資源要求較高的大客戶,運維管理簡單,且資源利用率越高,所需的成本低。c.確定分區映射算法。存在以下一些映射算法供參考:原始除模:即使用分區鍵對分區數量取模,該算法分布均勻,但是不適配Grid增刪場景,一旦增刪需要進行業務遷移。Range-Hash/Hash:即使用分區鍵按范圍分區后Hash或直接使用分區鍵Hash,元數據管理相對復雜一些。Full-Mapping:全映射,即針對分區鍵指定Grid,使用全映射會帶來對映射表的嚴重讀寫依賴,讀寫一致性要求考慮,通常需要引入meta dataservice?;谇熬Y和范圍mapping:基于前綴和范圍的映射,將鍵范圍映
144、射到Grid,并在提供靈活性的同時,彌補了Full-Mapping的不足。Mapping代替:強制將特定key分配給特定Grid,方便測試、隔離。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司33d.進行Grid路由層設計。設計原則如下:路由層是系統唯一的一個共享組件,因此需要盡可能的穩定,減少修改。避免業務邏輯,保證盡可能的穩定,減少修改。由于爆炸半徑大,需要足夠輕,足夠簡單,但是不能太簡單。某些情況,要考慮避免路由所有調用,有助于減少延遲,并減小路由層的規模。支持橫向擴展,避免路由層成為性能瓶頸。e.提供Grid遷移功能,
145、以便在增加/刪除Grid業務單元時,可以快速調整分區鍵對應的Grid業務單元。典型處理過程如下:從分區鍵對應的舊位置拷貝數據到新位置。更新Grid路由層路由,使分區鍵重定向到新位置。從分區鍵舊位置刪除數據。f.Grid代碼部署與更新:Grid代碼部署可與跨AZ、跨Region結合,通過多層隔離,減少故障影響范圍。Grid業務單元代碼更新時,建議采用類似金絲雀部署(灰度發布)的方式進行更新,以減少由于版本問題而導致多個Grid業務單元同時故障的可能2.7.3.4 RES10-04 健康檢查與自動隔離健康檢查與自動隔離對應用組件進行健康檢查,當發現故障后進行主動隔離,避免故障擴散。風險等級風險等級
146、高關鍵策略關鍵策略對系統內組件需要定期進行健康檢查,以判斷其狀態是否正常。對于異常組件,需要能支持自動隔離,避免對整體業務造成影響。相關云服務和工具相關云服務和工具彈性負載均衡器 ELB:支持健康檢查,會定期向后端服務器發送請求以測試其運行狀態,并根據健康檢查來判斷后端服務器是否可用,當判斷為異常后就不會將流量分發給該異常后端服務器。云容器引擎 CCE:支持容器健康檢查,容器運行過程中,可根據用戶需要,定時檢查容器健康狀況。若不配置健康檢查,如果容器內應用程序異常,Pod將無法感知,也不會自動重啟去恢復。最終導致雖然Pod狀態顯示正常,但Pod中的應用程序異常的情況。2.7.4 RES11 可
147、靠性測試可靠性測試可靠性測試是為了保證系統在規定的生命周期內,達到預期的可靠性目標;與通常的功能測試不同,可靠性測試需要在業務負荷疊加故障中進行,對測試環境和能力提出了更高要求。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司34可靠性測試和演練通過主動引入故障來充分驗證軟件質量的脆弱性,從而提前發現系統風險、提升測試質量、完善風險預案、加強監控告警、提升故障應急效率等方面做到故障發生前有效預防,故障發生時及時應對,故障恢復后回歸驗證?;诠收媳旧泶蛟旆植际较到y韌性,持續提升軟件質量,增強團隊對軟件生產運行的信心,減少業務運行中
148、出現類似問題。為了保證測試的有效性,測試環境需要與生產環境保持一致。華為云提供了MAS-CAST故障注入服務、CodeArts PerfTest性能測試服務、MAS多活高可用服務,可用于故障注入測試、壓力負荷測試、長穩測試以及災難演練。2.7.4.1 RES11-01 混沌測試混沌測試混沌工程(Chaos Engineering)是通過故障注入的方式,觸發或模擬實際故障,驗證系統的穩定性和容錯保護能力。風險等級風險等級高關鍵策略關鍵策略在真實環境中測試。作為CI/CD管道的一部分例行執行。主動注入故障,以便在問題發生前提前發現并解決問題。以可控方式注入故障,減少對客戶的影響?;煦绻こ潭攘恐笜耍?/p>
149、故障場景的覆蓋率:分析故障場景的覆蓋率,例如容災場景覆蓋 80%,過載場景覆蓋 60%。故障場景的命中率:分析故障場景中,真實發生的比率。應急預案的質量:用于度量應急預案有效性和執行效率。風險發現個數與等級:定期評估分析(季度或年度)主動發現的風險數量和級別。風險消減個數、等級與類型:風險降級的數量,風險消減的數量,增加預案的數量,改進監控項的數量。故障恢復時長提升率:對應故障場景經過混沌工程演練,平均恢復速度提升的比率。故障數量相比上年減少數量:本年度故障數量相比上年度減少多少。相關云服務和工具相關云服務和工具MAS-CAST故障注入服務:針對云應用提供測試工具和注入手段,支持故障和業務流程
150、編排的可靠性評估測試、壓力負荷測試、CHAOS隨機故障注入、生產環境故障演練等能力。云運維中心 COC:支持混沌演練,為用戶提供一站式的自動化演練能力,覆蓋從風險識別、應急預案管理、故障注入到復盤改進的端到端的演練流程。2.7.4.2 RES11-02 壓力負載測試壓力負載測試通過施加超出系統容量的業務壓力,驗證云服務的過載保護、業務隔離和優雅降級等能力。為全面驗證系統整體的容量規劃和業務依賴,云服務應用通常采用全鏈路壓測進行測試。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司35風險等級風險等級高關鍵策略關鍵策略模擬大量接口
151、消息進行壓力測試。模擬各種業務場景進行壓力測試。持續自動測試。性能發生偏差時自動告警,以便及時定位和處理。相關云服務和工具相關云服務和工具性能測試 CodeArts PerfTest:針對HTTP/HTTPS/TCP/UDP/HLS/RTMP/WEBSOCKET/HTTP-FLV等協議構建的云應用提供性能測試的服務,其支持快速模擬大規模并發用戶的業務高峰場景,通過自定義報文內容、時序、多事務組合等復雜場景,幫助用戶測試驗證業務高峰下的服務表現。2.7.4.3 RES11-03 長穩測試長穩測試基于用戶使用場景構建業務模型,自動化構建覆蓋系統容量規格70%的業務量,持續7*24小時進行長時間負載
152、測試以評估系統穩定性。風險等級風險等級高關鍵策略關鍵策略模擬各種業務場景進行測試。持續自動測試。測試結果發生偏差時自動告警,以便及時定位和處理。2.7.4.4 RES11-04 災難演練災難演練通過容災演練,可以驗證災備系統是否可用,且數據丟失時間以及恢復時間符合數據的RPO與RTO指標要求。風險等級風險等級高關鍵策略關鍵策略災難演練著重測試服務跨AZ或跨Region故障轉移能力,驗證系統的容災能力以及面對災難時的應對能力,涉及到多個團隊間配合,通常作為專項開展。容災演練可以幫助企業更好的驗證RPO、RTO指標,及時發現和解決相關問題,提高系統的可用性和可靠性。相關云服務和工具相關云服務和工具
153、MAS多活高可用服務災難演練:支持同城跨AZ災備/雙活、兩地三中心及異地多活等場景下的業務高可用容災管理、工作流編排及演練切換功能。2.7.4.5 RES11-05 紅藍攻防紅藍攻防通過紅藍攻防,可以模擬各種復雜的攻擊場景,幫助全面評估應用韌性,及時發現并解決潛在風險。風險等級風險等級高卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司36關鍵策略關鍵策略藍軍從第三方角度發掘各類脆弱點,并向業務所依賴的各種軟硬件注入故障,不斷驗證業務系統的可靠性;而紅軍則需要按照預先定義的故障響應和應急流程進行處置。演練結束后,建議針對故障中的發
154、現、響應、恢復三個階段的時長和操作內容進行復盤,并梳理改進點進行優化,提升業務系統的穩定性。2.7.5 RES12 應急恢復處理應急恢復處理應用系統無論如何精心設計,仍可能會出現無法恢復的故障,當此類故障發生后,需要進行應急恢復處理。2.7.5.1 RES12-01 組建應急恢復團隊組建應急恢復團隊為了應對緊急故障場景,需要組建應急恢復團隊,明確責任人,并進行培訓。風險等級風險等級高關鍵策略關鍵策略組建應急恢復團隊:組建應急恢復團隊:其中包括應急恢復主席及所有組件及關鍵依賴項的恢復責任人。應急恢復主席:在出現問題后及時組織應急恢復團隊進行快速恢復處理。組件或關鍵依賴項運維責任人:負責問題定位和
155、應急恢復處理。制定應急恢復管理方案:制定應急恢復管理方案:所有應急恢復團隊人員都需要進行應急恢復培訓,熟悉應急恢復處理流程和恢復方法。2.7.5.2 RES12-02 制定應急預案制定應急預案針對常見問題現象,提供標準化的應急恢復指導,以便在出現問題后,可以有序的完成恢復操作,避免操作失誤。風險等級風險等級高關鍵策略關鍵策略需要覆蓋常用典型場景。應急恢復需要有標準的操作流程和動作,確保在事件發生時,相關干系人都能夠明確自身職責和所需要采取的措施。每個恢復操作動作必須明確無歧義,可指導操作人員。相關云服務和工具相關云服務和工具云運維中心 COC:支持應急預案管理。2.7.5.3 RES12-03
156、 定期應急恢復演練定期應急恢復演練定期測試突發事件應急恢復處理,以便在出現問題后能進行高效的恢復處理。風險等級風險等級高卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司37關鍵策略關鍵策略每年至少進行一次應急恢復演練;通過演練可提升操作人員的熟練程度。演練期間嚴格按照應急預案進行恢復,以檢驗應急預案的準確性。演練結束后需要對恢復過程進行回溯,并優化應急預案。相關云服務和工具相關云服務和工具云運維中心 COC:支持混沌演練,為用戶提供一站式的自動化演練能力,覆蓋從風險識別、應急預案管理、故障注入到復盤改進的端到端的演練流程。2.7
157、.5.4 RES12-04 出現問題后盡快恢復業務出現問題后盡快恢復業務應用系統出現故障后,需要能盡快發現,盡快響應。風險等級風險等級高關鍵策略關鍵策略可以通過以下途徑實現故障的快速發現:監控:應用系統需要提供業務監控信息,以便實時了解系統運行狀態;維護團隊需要有專人觀測,并在發現故障發生時,需要及時響應。告警:應用系統在檢測到故障后需要及時告警,并能通過短消息、郵件等方式發送給所有相關人員,確保使相關人第一時間得知故障信息,以便快速組織應急響應。預測:維護團隊需要根據系統運行現狀,通過數據分析、機器學習等方式,預測系統的風險情況,提前進行預防和處理。在進行應急恢復處理時,通常需要盡快緩解或恢
158、復業務,快速結束業務中斷對客戶的影響,然后再啟動問題定位和修復處理流程,以減少業務中斷時間。組織協調:故障發生后,應急恢復主席需要迅速組織相關人員快速恢復業務。應急恢復處理:系統發生故障后需要快速問題分析并按照事先制定的應急預案進行恢復處理。2.7.5.5 RES12-05 應急恢復回溯應急恢復回溯在業務進行應急恢復處理后,需要對事件進行回溯并進行優化,以避免故障的再次發生。風險等級風險等級高關鍵策略關鍵策略對問題進行定位和修復,優化產品能力,減少同類事件的發生。針對應急恢復過程進行總結,優化恢復過程。2.8 過載控制過載控制系統內組件資源有限,在遇到突發流量時可能會造成資源耗盡,而導致業務受
159、損。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司382.8.1 RES13 過載保護過載保護當系統流量超過一定閾值后,導致系統處于過載狀態時,可能會導致部分請求失敗,失敗觸發業務重試,會進一步增加系統的負荷,形成惡性循環,導致業務成功率遠遠低于系統的設計容量,甚至整體不可用。因此應用應該設計過載保護機制,使得在過載狀態下依然可以保證一定比例設計容量的處理能力。通過過載保護,可以緩解客戶流量突增、泛洪攻擊或重試風暴所造成的大量容量峰值情況,讓工作負載能夠繼續正常處理支持的請求量,避免出現資源耗盡而導致所有請求都不能處理的情況。
160、2.8.1.1 RES13-01 采用自動彈性擴縮容采用自動彈性擴縮容當系統突發流量時,通過自動彈性擴容,可減少業務中斷影響。風險等級風險等級高關鍵策略關鍵策略彈性擴縮容需要通過業務處理邏輯與數據分離、狀態外置等技術手段支撐系統處理能力的快速增加或減少。系統擴容和縮容的處理方式有兩種,一種是改變單機的處理能力,包括CPU、內存、存儲等,稱之為縱向伸縮;另一種是單機節點處理能力不變,通過增加節點的數量來改變系統的處理能力,稱之為橫向伸縮。系統設計時一般建議采用橫向伸縮。采用橫向伸縮時,要求業務與數據解耦,即將系統的業務處理邏輯與數據分離、數據(狀態)外置,以實現業務節點(含資源)無狀態,按需快速
161、增加或減少,從而實現系統業務處理能力的伸縮。當節點故障或資源不足時,系統需要自動檢測和擴展節點,以實現自動橫向擴縮容,自動增加資源容量,解決業務處理能力不足的問題,無需人工干預。華為云提供AS彈性伸縮服務,可以根據伸縮組內的負載情況,及伸縮規則,自動調整ECS實例、帶寬等資源。當業務需求增長時,AS自動增加彈性云服務器(ECS)實例或帶寬資源,以保證業務能力;當業務需求下降時,AS自動縮減彈性云服務器(ECS)實例或帶寬資源,以節約成本。此外,華為云還提供了一些內嵌伸縮能力的云服務,對用戶無感知或僅需簡單配置:OBS、SFS、FunctionGraph等服務會根據請求量自動擴展業務處理能力,用
162、戶無感知。RDS服務最多支持5個只讀副本,可在線擴展只讀負載;一鍵規格變更實現CPU、內存擴容/縮容;在線存儲容量擴容。CCE服務支持配置自動擴容集群節點和工作負載,伸縮策略支持告警(按CPU或內存使用率觸發)、定時、周期多種方式。相關云服務和工具相關云服務和工具彈性伸縮 AS云容器引擎 CCE云數據庫 RDS對象存儲服務 OBS彈性文件服務 SFS函數工作流 FunctionGraph卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司392.8.1.2 RES13-02 應用系統負載均衡,避免流量不均勻應用系統負載均衡,避免流量
163、不均勻針對無狀態集群業務,通過負載均衡來保證業務均勻分發,可避免部分組件空閑,而部分組件過載而影響業務;同時還可以充分利用系統資源,提高系統性能,改善系統可靠性。風險等級風險等級高關鍵策略關鍵策略負載均衡分發業務粒度需避免過大,而導致部分組件過載。負載均衡分發時需檢查后端節點的負載狀態,并根據各節點的負載進行業務分發。在后端節點故障的情況下,需要自動將業務分發給其他健康節點處理,以避免業務失敗。相關云服務和工具相關云服務和工具彈性負載均衡 ELB:支持業務負載均衡處理,還支持后端服務器健康狀態檢測,自動隔離異常狀態的ECS。2.8.1.3 RES13-03 過載檢測與流量控制過載檢測與流量控制
164、當應用系統發生過載時,可能會導致系統疲于處理請求而無法有效提供服務,因此需要進行過載檢測并進行流量控制。風險等級風險等級高關鍵策略關鍵策略過載控制(也稱流控)指系統處于過載時,通過限流、降級、熔斷、彈性伸縮等手段,使系統保證部分或者全部額定容量業務成功處理的控制過程;典型過載控制方法定義如下:限流:在系統過載時主動丟棄部分業務請求。降級:在系統過載時提供有損服務,通過減少非核心業務,降低業務質量等措施降低系統負載。熔斷:在分布式系統中,應用調用第三方資源和服務時由于第三方資源和服務故障(包括過載)而失敗,停止調用遠程資源和服務,避免故障擴散。相關云服務和工具相關云服務和工具華為云提供了一些內嵌
165、流控保護的云服務,用戶可直接配置使用:API網關 APIG:支持配置流控策略,用戶可指定單位時間內的單個API、單個用戶或單個APP的請求次數上限。微服務引擎 CSE:支持限流,用戶可指定一定時間內可接受的請求次數上限。2.8.1.4 RES13-04 支持主動擴容支持主動擴容當由于計劃性活動而導致資源需求增加時,需要支持主動擴容,避免由于資源不足而導致業務受影響。風險等級風險等級高卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司40關鍵策略關鍵策略當發現應用系統業務需要更多資源時,可主動擴展資源以滿足需求,而避免影響可用性。典
166、型場景如產品促銷前預測會有突發大流量,則可手工進行擴容處理。華為云服務實例支持主動橫向或縱向擴容功能;如對于ECS實例可以通過創建多個ECS實例實現橫向擴容,也可升級ECS規格實現縱向擴容;對于RDS實例可升級RDS實例規格實現縱向擴容。2.8.1.5 RES13-05 資源自動擴容考慮了配額限制資源自動擴容考慮了配額限制當應用系統在資源不足自動擴容時,需要考慮配額的限制,若配額不足,會導致自動擴容失敗。風險等級風險等級高關鍵策略關鍵策略華為云為防止資源濫用,限定了各服務資源的配額,對用戶的資源數量和容量做了限制。如您最多可以創建多少臺彈性云服務器、多少塊云硬盤。在動態使用云服務資源時,需要了
167、解云服務的限制,避免由于超過云服務配額限制而導致業務故障。當配置自動擴容時,需要確保自動擴容到最大時的規則不超過配額限制。在系統中也可配置資源使用超過一定限額后進行預警,避免配額超過限制后導致業務受影響。相關云服務和工具相關云服務和工具使用華為云“我的配額”,可以查詢每個云服務不同資源類型的總配額限制和已用配額,可根據業務的需要申請擴大對應云服務指定資源的配額,也可配置配額預警,以便在配額達到預警閾值時可收到告警通知,以便提前申請提升配額。當應用系統中涉及到資源的彈性伸縮時,尤其需要關注彈性伸縮的配置是否會被限制,比如AS彈性伸縮服務中可以配置能創建的最大實例數量,而在過載情況下是否能真的創建
168、出那么多實例,會依賴于ECS彈性云服務器配額、EVS云硬盤配額,當需要彈性公網IP時涉及彈性公網IP配額等,當配額不足時會導致無法創建工作負載進行業務分擔,而業務受損。2.8.1.6 RES13-06 壓力負載測試壓力負載測試通過壓力測試,可衡量系統的彈性擴容能力是否能滿足業務要求。風險等級風險等級高關鍵策略關鍵策略參見“RES11-02 壓力負載測試壓力負載測試”章節。2.9 變更防差錯變更防差錯在系統的運行過程中,配置變更是導致生產系統不可用的重要風險之一,如配置修改、工作負載手工增縮或補丁安裝等。當變更失敗時,可能會導致性能下降或業務中斷等嚴重的問題。因此為了降低變更帶來的業務風險,需要
169、為工作負載或其環境的更改做好準備,實現工作負載的可靠操作。變更操作屬于運維的一部分,內容可參考卓越運營支柱部分“運維準備和變更管理”。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司412.9.1 RES14 配置防差錯配置防差錯配置防差錯是針對配置過程中因人輸入了錯誤的配置數據導致系統和業務受損或失效場景下通過產品設計降低或避免配置錯誤產生的影響。2.9.1.1 RES14-01 變更防呆檢查變更防呆檢查防呆是一種預防矯正的行為約束手段,運用防止錯誤發生的限制方法,讓操作者不需要花費注意力、也不需要經驗與專業知識,憑借直覺即可
170、準確無誤地完成的操作。風險等級風險等級高關鍵策略關鍵策略通過以下約束和檢查,可減少配置差錯:角色約束:通過權限控制設計預防對不同角色的配置范圍進行約束,避免越權配置導致錯誤。查改分離:通過產品界面設計將配置界面分層分級,查看與修改分離等降低人為配置失誤風險。配置校驗:通過配置生效機制設計確保在配置生效前進行必要的校驗,避免錯誤配置生效。刪除保護:在刪除資源時增加保護機制,防止誤刪,如:刪除前運行狀態檢查保護,資源鎖定防止誤刪除,回收站機制等。2.9.1.2 RES14-02 自動化變更自動化變更自動化變更是指自動化提供并管理應用程序的環境(計算、存儲、網絡、中間件服務等)、安裝、配置,實現In
171、frastructure as a Code;以解決手工部署中易于出錯、依賴個人能力,手工配置中變更無法跟蹤、難以回滾等難題。風險等級風險等級高關鍵策略關鍵策略使用配置管理工具進行變更:集中管理配置信息,發現和記錄配置變化情況,快速識別變更影響范圍。采用自動化變更流程:幫助組織規劃和自動化變更流程,如預定義變更模板、審批變更流程、自動化測試和驗證等,減少人工錯誤和延遲。進行變更評估和風險管理:評估變更影響范圍,識別潛在風險和沖突,并采取相應的措施進行風險管理。自動化測試和驗證:驗證變更的正確性以及性能、可靠性影響,減少人工測試的錯誤和延遲。監控和審計變更過程:追蹤和記錄變更執行情況,及時發現和
172、解決問題,提供透明度和可追溯性。相關云服務和工具相關云服務和工具云運維中心 COC:作業管理:提供用戶自定義作業的創建、修改、刪除以及在目標虛擬機上執行自定義作業的能力。通過該功能,用戶可以通過自定義作業在目標實例(目前支持ECS)上執行操作。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司42變更中心:支持承載變更流程管理業務,以變更工單模式,從變更的申請、審批、執行三個大環節管控變更業務,為變更人員、變更管理人員提供統一管理平臺。2.9.1.3 RES14-03 變更前數據備份變更前數據備份通過配置數據事前備份與恢復設計,確
173、保在出現配置錯誤時能夠快速恢復到正確的配置數據狀態。風險等級風險等級高關鍵策略關鍵策略進行全量數據備份,以防變更過程中數據被破壞,影響業務。異?;貪L時,可使用備份數據進行恢復。2.9.1.4 RES14-04 提供提供 runbook 進行標準化變更進行標準化變更runbook是指運行手冊,是用來實現變更的詳細操作過程。變更前需提供標準化runbook用于變更和回退,變更過程中嚴格按照runbook執行,在變更失敗時根據runbook進行回退。風險等級風險等級高關鍵策略關鍵策略runbook需涵蓋變更前檢查、變更操作、變更后檢查及變更失敗回退操作。2.9.2 RES15 升級不中斷業務升級不中
174、斷業務軟件版本在重新部署或升級過程中,需要盡可能避免業務中斷,減少業務影響。2.9.2.1 RES15-01 自動化部署和升級自動化部署和升級部署和升級過程由代碼實現,以固化部件間依賴、安裝和配置過程,減少人工錯誤。風險等級風險等級高關鍵策略關鍵策略部署和升級過程自動化完成。2.9.2.2 RES15-02 自動化檢查自動化檢查在部署或升級過程中集成基本測試功能,實現自動化檢查,無需人工參與。風險等級風險等級高關鍵策略關鍵策略在部署或升級過程中集成基本測試功能,在部署或升級完成后自動進行檢查和測試,以驗證新部署的代碼功能是否正確。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01
175、(2025-01-22)版權所有 華為技術有限公司43在部署或升級過程中集成故障注入測試功能,在部署或升級完成后自動注入故障進行測試,以驗證新部署代碼的韌性。2.9.2.3 RES15-03 自動化回滾自動化回滾在升級或部署過程中出現異常,或檢查/測試失敗時,支持自動回滾,減少人工干預,避免回滾失敗。風險等級風險等級高關鍵策略關鍵策略檢測到異常后,可一鍵式回滾?;貪L過程自動化完成。2.9.2.4 RES15-04 灰度部署和升級灰度部署和升級原地升級和回滾時,升級和回滾過程中業務將會中斷,中斷時長受限于升級和回滾的時長,對業務影響比較大;而采用灰度部署和升級,可減少升級和回滾過程中的業務中斷,
176、提升系統可用性。風險等級風險等級高關鍵策略關鍵策略通過金絲雀部署、藍綠部署等方式實現灰度升級或部署,逐步引入新版本部署范圍或切換用戶流量,配合自動回退以降低部署差錯導致業務中斷的風險。金絲雀部署(灰度發布)是將少量客戶引導到新版本的做法,通常在單個服務實例(Canary)上運行;當檢查到任何行為更改或錯誤時,可以將Canary中的流量刪除,并將用戶發回到以前的版本。如果部署成功,則可以繼續以期望的速度進行部署,同時監控更改以便發現錯誤,直到所有部署完成。藍綠部署與金絲雀部署類似,只是會并行部署一整套應用程序,形成兩套生產環境:藍環境和綠環境,藍色是當前版本并擁有實時流量,綠色是包含更新代碼的環
177、境。當應用程序已經準備就緒,用戶可以將所有流量都將路由到綠環境中,當出現問題時,可以快速將流量重新路由回藍環境,進行故障恢復。相關云服務和工具相關云服務和工具部署 CodeArts Deploy:提供可視化、自動化部署能力,提供豐富的部署步驟,有助于用戶制定標準的部署流程,降低部署成本,提升發布效率。微服務引擎 CSE:支持灰度發布。應用服務網格 ASM:支持灰度發布。2.10 參考架構參考架構2.10.1 概述概述本章節以典型Web應用為例,介紹不同可用性目標要求下部署的典型架構示例。針對每種場景,從以下幾個維度進行設計,來達成可用性目標。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文
178、檔版本 01(2025-01-22)版權所有 華為技術有限公司44類別類別應用可用性影響應用可用性影響冗余應用內組件的高可用能力,在應用內部分節點故障時業務自動恢復能力備份應用數據被破壞的情況下的恢復能力容災在Region/AZ/IDC或其他云站點發生災難的情況下的恢復能力監控告警應用系統故障后的檢測和告警能力彈性擴縮容應用容量不足時的自動恢復能力變更防差錯變更對應用業務中斷的影響應急恢復處理應用在故障情況下的應急恢復能力 2.10.2 內部工具或公測類應用典型部署架構(內部工具或公測類應用典型部署架構(99%)內部工具類應用通常用于內部操作,且在故障時只會對內部員工造成影響,不可用時只會帶來
179、不方便,可以承受長時間的恢復時間和恢復點;公測類應用用于面向客戶的實驗性的工作負載,在必要時可以隱藏其功能;針對這些應用,其可用性目標通常要求不高,可達到99%,即每年中斷時間可以為3.65天。導致業務中斷的時間包含故障中斷時間及由于升級配置維護等導致的中斷時間,假定分別中斷時間如下:故障中斷:假定每年故障中斷4次,每次應急恢復決策時長為1小時,應用負載重新部署、配置與數據恢復時長為2小時,則每年故障中斷時長為12小時。變更中斷:假定應用離線更新,每年更新6次,每次更新時長4小時,則每年更新時長為24小時。按照以上評估,每年應用系統不可用的時長是36小時,滿足可用設計目標要求。內部工具類應用典
180、型架構為前端無狀態應用層+后端數據庫,其中前端無狀態應用可采用ECS或CCE(以ECS為例),后端數據庫基于不同業務類型可采用不同數據庫,通常為RDS for MySQL;為滿足對應的可用性目標,建議方案如下:類別類別實施方案實施方案冗余ECS與RDS單節點部署。備份RDS自動備份,在數據故障時使用最新備份數據恢復,可以滿足可用性目標要求。容災不支持容災部署,在站點故障的情況下,重新進行應用部署與備份數據恢復。監控告警進行簡單的監控,檢查應用系統是否能正常返回消息。彈性擴縮容提供常見故障處理runbook,以便在容量不足等場景可以手工擴容。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔
181、版本 01(2025-01-22)版權所有 華為技術有限公司45類別類別實施方案實施方案變更防差錯軟件更新采用離線更新,安裝和重啟應用需要停機,根據runbook進行應用的部署與回滾。應急恢復處理指定應用系統責任人,在突發事件后能找到相關責任人進行恢復處理。根據以上方案,典型部署架構如下:該架構的主要特點包括:應用系統部署在單Region單AZ。為了保證數據的可靠性,RDS數據庫的數據定期自動備份到OBS,在數據丟失時可以快速恢復。2.10.3 內部知識管理類應用典型部署架構(內部知識管理類應用典型部署架構(99.9%)內部知識管理類應用通常用于內部操作,且在故障時只會對內部員工造成影響,可以
182、承受較長的恢復時間和恢復點,其可用性目標通常要求達到99.9%,即每年中斷時間可以為8.76小時。導致業務中斷的時間包含故障中斷時間及由于升級配置維護等導致的中斷時間,假定分別中斷時間如下:故障中斷:假定每年故障中斷4次,每次應急恢復決策時長為30分鐘,恢復處理時長為30分鐘,則每年故障中斷時長為240分鐘。變更中斷:假定應用離線更新,每年更新8次,每次更新時長30分鐘,則每年更新時長為240分鐘。按照以上評估,每年應用系統不可用的時長是480分鐘,滿足可用設計目標要求。內部知識管理類應用典型架構為前端無狀態應用層+后端數據庫,其中前端無狀態應用采用ECS,后端數據庫基于不同業務類型可采用不同
183、數據庫,通常為RDS for MySQL;卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司46基于業務需要,通常還會使用DCS、Kafka等中間件及DDS文檔數據庫;為滿足對應的可用性目標,建議方案如下:類別類別實施方案實施方案冗余ELB、RDS、DCS、Kafka、DDS等云服務實例均采用高可用部署。備份RDS、DDS數據庫自動備份,有狀態ECS通過CBR自動備份,在數據故障時使用最新備份數據恢復,可以滿足可用性目標要求。容災應用使用支持跨AZ的服務進行跨AZ部署,ELB、RDS跨AZ部署,AZ故障時自動恢復。有狀態ECS通過
184、SDRS進行跨AZ容災,在AZ故障時手工切換。監控告警進行站點運行狀態檢查,在發生故障時告警;針對ECS、RDS實例負載狀態進行監控,在資源過載時需要告警。彈性擴縮容針對內部用戶場景,資源足夠,無需自動彈性伸縮;針對ECS,通過ELB實現ECS實例的故障檢測與負載均衡,并可根據ECS監控情況隨時添加和移除ECS實例來擴展應用系統的服務能力;針對RDS,可根據RDS負載監控情況,在維護時段更改實例類型或增加只讀節點。變更防差錯軟件更新采用離線更新,在位替換,根據runbook進行應用的自動部署與回滾。每12個月更新一次軟件。應急恢復處理制定應急處理機制,指定應急恢復人員,以便在突發事件后能快速決
185、策和恢復;并提供常見應用、數據庫問題以及升級部署失敗的相關解決方案,以便在出現問題后可以及時恢復。根據以上方案,典型部署架構如下:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司47該架構的主要特點包括:應用系統采用有狀態虛擬機+有狀態數據庫的分層部署架構。該應用系統在華為云單個Region部署一套完整系統,采用跨AZ部署,其中有狀態虛擬機采用跨AZ主備復制,可以實現云內應用層跨數據中心主備容災。接入層(外部DNS):通過外部DNS進行域名解析與流量負載均衡,單個AZ故障對業務沒有影響。應用層(負載均衡器、應用軟件及虛擬機):對
186、于有狀態應用,通過SDRS服務實現跨AZ的虛擬機數據復制與容災切換,并可通過CBR服務進行自動數據備份。中間件層:Redis、Kafka集群跨可用區高可用部署,單個AZ故障對業務沒有影響。數據層:RDS與DDS數據庫及OBS對象存儲跨可用區高可用部署,單個AZ故障對業務沒有影響。為了保證數據的可靠性,RDS數據庫的數據定期自動備份到OBS,在數據丟失時可以快速恢復。2.10.4 信息管理類應用典型部署架構(信息管理類應用典型部署架構(99.95%)信息管理類應用通常用于內部操作,且在故障時只會對內部員工造成影響,可以承受一定的恢復時間和恢復點,其可用性目標通常要求達到99.95%,即每年故障時
187、長可以為4.38小時。假定故障中斷與變更中斷的時長分別如下:故障中斷:假定每年故障中斷4次,每次應急恢復決策時長為20分鐘,恢復處理時長為10分鐘,則每年故障中斷時長為120分鐘。變更中斷:假定應用支持離線更新與在線補丁,每年離線更新4次,每次更新時長30分鐘,則每年更新時長為120分鐘;在線補丁不影響業務。按照以上評估,每年應用系統不可用的時長是240分鐘,滿足可用設計目標要求。信息管理類應用典型架構為前端無狀態應用層+后端數據庫,其中前端無狀態應用可采用ECS或CCE(以CCE為例),通過ELB負載均衡;后端數據庫基于不同業務類型可采用不同數據庫,通常采用GaussDB提供更高性能與可靠性
188、;基于業務需要,通常還會使用DCS、Kafka等中間件及DDS文檔數據庫;為滿足對應的可用性目標,建議方案如下:類別類別實施方案實施方案冗余ELB、CCE、DCS、Kafka、GaussDB、DDS等云服務實例均高可用部署。備份GaussDB、DDS數據庫自動備份,在數據故障時使用最新備份數據恢復,可以滿足可用性目標要求。容災應用跨3AZ部署,AZ故障時自動恢復。監控告警支持業務運行狀況、成功指標的檢查,在發生故障時告警;支持云服務實例負載狀態及資源故障切換等的監控,在負載超過閾值或狀態異常時告警。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有
189、 華為技術有限公司48類別類別實施方案實施方案彈性擴縮容針對內部用戶場景,資源足夠,無需自動彈性伸縮;針對CCE容器,通過CCE進行負載均衡與彈性伸縮;針對GaussDB,可根據GaussDB負載監控情況,自動擴縮規格或增刪只讀節點。變更防差錯軟件更新采用離線更新與在線補丁,根據runbook進行應用的自動部署與回滾。每12個月更新一次軟件。應急恢復處理制定應急處理機制,指定應急恢復人員,以便在突發事件后能快速決策和恢復;并提供常見應用、數據庫問題以及升級部署失敗的相關解決方案,以便在出現問題后可以及時恢復。根據以上方案,典型部署架構如下:該架構的主要特點包括:應用系統采用無狀態應用+有狀態數
190、據庫的分層部署架構。該應用系統在華為云單個Region部署一套完整系統,采用跨AZ部署,可以實現云內應用層跨數據中心雙活。接入層(外部DNS):通過外部DNS進行域名解析與流量負載均衡,單個AZ故障對業務沒有影響。應用層(ELB負載均衡器、應用軟件及容器):對于無狀態應用采用跨AZ高可用部署,通過ELB負載均衡器進行故障檢測與負載均衡,并可通過CCE容器進行負載監控和彈性伸縮。中間件層:Redis、Kafka集群跨可用區高可用部署,單個AZ故障對業務沒有影響。數據層:GaussDB與DDS數據庫及OBS對象存儲跨3AZ高可用部署,數據分布式強一致,單個AZ故障對業務沒有影響,數據零丟失。為了保
191、證數據的可靠性,GaussDB與DDS數據庫的數據定期自動備份。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司492.10.5 電商類應用典型部署架構(電商類應用典型部署架構(99.99%)電子商務類應用用于外部客戶,需要提供較高的可用性,并能承受組件故障,其可用性目標通常要求達到99.99%,即每年故障時間可以為52.56分鐘。假定故障中斷與變更中斷的時長分別如下:故障中斷:假定每年故障中斷3次,每次應急恢復決策時長為10分鐘,恢復處理時長為5分鐘,則每年故障中斷時長為45分鐘。變更中斷:假定應用支持金絲雀部署或藍綠部署,并
192、自動完成,軟件更新不中斷業務。按照以上評估,每年應用系統不可用的時長是45分鐘,滿足可用設計目標要求。電子商務類應用典型架構為前端無狀態應用層+后端數據庫,其中前端無狀態應用可采用ECS或CCE;后端數據庫基于不同業務類型可采用不同數據庫,通常采用RDS forMySQL;同時通常還會使用DCS、Kafka等中間件及DDS文檔數據庫;為滿足對應的可用性目標,建議采用以下方案。2.10.5.1 單單 Region 方案方案采用單Region時,前端以CCE為例,建議方案如下:類別類別實施方案實施方案冗余ELB、CCE、DCS、Kafka、RDS、DDS等云服務實例均高可用部署。備份RDS、DDS
193、數據庫自動備份,在數據故障時使用最新備份數據恢復,可以滿足可用性目標要求。容災應用在兩個AZ各部署一套,進行雙向復制,雙活容災;AZ故障時自動恢復。監控告警進行站點運行狀態檢查,在發生故障時告警;針對CCE、DCS、kafka、RDS、DDS等實例負載狀態進行監控,在資源過載時需要告警。彈性擴縮容CCE集群支持工作負載的自動彈性伸縮。變更防差錯軟件更新采用金絲雀或藍綠部署,部署過程自動完成,在部署過程中出現問題時自動回滾。應急恢復處理制定應急處理機制,指定應急恢復人員,以便在突發事件后能快速決策和恢復;并提供常見應用、數據庫問題以及升級部署失敗的相關解決方案,以便在出現問題后可以及時恢復;定期
194、進行演練,及時發現問題。根據以上方案,典型部署架構如下:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司50該架構的主要特點包括:應用系統采用無狀態應用+有狀態數據庫的分層部署架構。該應用系統在華為云一個Region兩個AZ中各部署一套,提供同城容災能力。接入層(外部GSLB):通過外部GSLB進行域名解析與流量負載均衡,在單個AZ故障時自動將業務流量切換到另一AZ。應用層(負載均衡器、應用軟件及容器):對于無狀態應用,通過負載均衡器進行故障檢測與負載均衡,并可通過容器進行彈性伸縮。中間件層:每個可用區各部署一套DCS、DMS
195、Kafka集群。數據層:每個可用區各部署一套RDS數據庫,通過DRS數據復制服務實現跨AZ的雙向數據庫復制與容災切換;并支持定期自動數據備份,在數據丟失時能快速恢復。OBS對象存儲跨可用區高可用部署,單個AZ故障對業務沒有影響。為了保證數據的可靠性,RDS數據庫的數據定期自動備份。2.10.5.2 雙雙 Region 方案方案采用雙Region時,前端以ECS為例,建議方案如下:類別類別實施方案實施方案冗余ELB、ECS、DCS、Kafka、RDS、DDS等云服務實例均高可用部署。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司
196、51類別類別實施方案實施方案備份RDS、DDS數據庫自動備份,在數據故障時使用最新備份數據恢復,可以滿足可用性目標要求。容災應用跨AZ部署,AZ故障時自動恢復;支持跨Region主備容災,在出現Region級故障時可以快速在異地恢復業務。監控告警支持業務運行狀況、成功指標的檢查,在發生故障時告警;支持ECS、DCS、Kafka、RDS、DDS等實例負載狀態及資源故障切換等的監控,在負載超過閾值或狀態異常時告警。彈性擴縮容支持自動彈性伸縮;針對ECS,通過ELB實現ECS實例的故障檢測與負載均衡,并可通過AS監控負載隨時添加和移除ECS實例來擴展應用系統的服務能力;針對RDS for MySQL
197、,可根據負載監控情況,自動擴縮規格或增刪只讀節點。變更防差錯軟件更新采用金絲雀或藍綠部署,部署過程自動完成,在部署過程中出現問題時自動回滾。應急恢復處理制定應急處理機制,指定應急恢復人員,以便在突發事件后能快速決策和恢復;并提供常見應用、數據庫問題以及升級部署失敗的相關解決方案,以便在出現問題后可以及時恢復;定期進行演練,及時發現問題。根據以上方案,典型部署架構如下:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司52該架構的主要特點包括:應用系統采用無狀態應用+有狀態數據庫/虛擬機的分層部署架構。應用系統在主備Region各部
198、署一套完整系統,主備Region間數據同步;Region內跨AZ高可用部署,提供同城跨數據中心雙活能力;Region間數據支持數據異步實時同步,采用主備容災,在一個Region故障的情況下能快速將業務恢復到另一個Region。接入層(外部DNS、API網關):通過外部DNS進行域名解析,在一個Region故障時手工將業務流量切換到另一個Region。應用層(負載均衡器、應用軟件及虛擬機):對于無狀態應用,通過ELB負載均衡器進行故障檢測與負載均衡,并通過AS彈性伸縮服務監控負載進行彈性伸縮;對于有狀態應用,通過SDRS服務實現跨云的虛擬機數據復制與容災切換,并可通過CBR服務進行自動數據備份。
199、中間件層:Redis、Kafka集群跨可用區高可用部署。數據層:MySQL數據庫高可用,通過DRS數據復制服務實現跨云的數據庫復制與容災切換;并可定期自動備份數據,在數據丟失時快速恢復業務。OBS對象存儲服務同樣支持跨Region復制能力。為了保證數據的可靠性,RDS數據庫的數據定期自動備份到OBS,在數據丟失時可以快速恢復。2.10.6 金融類核心應用典型部署架構(金融類核心應用典型部署架構(99.999%)金融類核心應用通常比較重要,要求非常短的恢復時間和數據丟失量,其可用性目標通常要求達到99.999%,即每年故障時間可以為5.26分鐘。假定故障中斷與變更中斷的時長分別如下:故障中斷:由
200、于要求的故障中斷時間很短,要求盡可能自動恢復,沒有手動觸發的恢復,假定每年故障中斷4次,每次自動恢復時長為1分鐘,則每年故障中斷時長為4分鐘。變更中斷:假定應用支持金絲雀部署或藍綠部署,并自動完成,軟件更新不中斷業務。按照以上評估,每年應用系統不可用的時長是4分鐘,滿足可用設計目標要求。金融類應用典型架構為三層架構:前端Web集群+后臺應用集群+后端數據庫集群,其中前端無狀態應用可采用ECS或CCE(以CCE為例),后端數據庫通常采用RDS forMySQL提供更高性能與可靠性;為滿足對應的可用性目標,建議方案如下:類別類別實施方案實施方案冗余ELB、CCE、DCS、Kafka、RDS、DDS
201、等云服務實例均高可用部署。備份RDS、DDS數據庫自動備份,在數據故障時使用最新備份數據恢復,可以滿足可用性目標要求。容災應用跨AZ部署,AZ故障時自動恢復;支持跨Region雙活容災,在出現Region級故障時可以自動切換在異地恢復業務。監控告警進行站點運行狀態檢查,在發生故障時告警;針對CCE、DCS、kafka、RDS、DDS等實例負載狀態進行監控,在資源過載時需要告警。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司53類別類別實施方案實施方案彈性擴縮容CCE集群支持工作負載的自動彈性伸縮。變更防差錯軟件更新采用金絲雀或
202、藍綠部署,部署過程自動完成,在部署過程中出現問題時自動回滾。應急恢復處理制定應急處理機制,指定應急恢復人員,以便在突發事件后能快速決策和恢復;并提供常見應用、數據庫問題以及升級部署失敗的相關解決方案,以便在出現問題后可以及時恢復;定期進行演練,及時發現問題。根據以上方案,典型部署架構如下:該架構的主要特點包括:應用系統采用無狀態應用+有狀態數據庫的分層部署架構。應用系統在兩個Region各部署一套完整系統,Region內跨AZ高可用部署,提供同城跨數據中心雙活能力;Region間數據單元化部署,實現跨Region雙活容災,在任一Region故障的情況下能快速恢復業務。接入層(外部GSLB、AP
203、I網關):通過外部GSLB進行域名解析與流量負載均衡,兩個Region同時提供服務,在單個Region故障時自動將業務流量切換到另一Region;API網關支持流量糾正,以便將業務路由到正確單元。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司54應用層(負載均衡器、應用軟件及容器):對于無狀態應用,通過ELB負載均衡器進行故障檢測與負載均衡,并可通過容器進行彈性伸縮。中間件層:Redis、Kafka集群跨可用區高可用部署。數據層:MySQL數據庫跨可用區高可用,通過DRS數據復制服務實現跨Region的雙向數據庫復制與容災切換
204、;并支持定期自動數據備份,在數據丟失時能快速恢復。OBS對象存儲服務同樣支持跨Region的雙向復制能力。為了保證數據的可靠性,RDS for MySQL、DDS數據庫的數據定期自動備份。2.10.7 跨云場景典型部署架構(跨云場景典型部署架構(99.99%)2.10.7.1 跨云容災方案跨云容災方案當重要應用系統已經在IDC或其他云上部署,并需要容災到華為云,以提供高可用的容災方案。假定應用系統在IDC或其他云上可以達到99.9%的可用性,則在容災到華為云后,能提供99.99%的可用性??缭茟玫湫图軜嫗榍岸藷o狀態應用層+后端數據庫,其中前端無狀態應用可采用虛擬機或容器(以容器為例,華為云采
205、用CCE),后端數據庫通常要求采用通用MySQL數據庫(華為云采用RDS for MySQL),以實現跨云容災。華為云上的應用部署建議方案如下:類別類別實施方案實施方案冗余ELB、CCE、DCS、Kafka、RDS、DDS等云服務實例均高可用部署。備份RDS、DDS數據庫自動備份,在數據故障時使用最新備份數據恢復,可以滿足可用性目標要求。容災應用跨AZ部署,AZ故障時自動恢復;支持跨云容災,在IDC或其他云出現故障時可以快速切換到華為云。監控告警進行站點運行狀態檢查,在發生故障時告警;針對CCE、DCS、kafka、RDS、DDS等實例負載狀態進行監控,在資源過載時需要告警。彈性擴縮容CCE集
206、群支持工作負載的自動彈性伸縮。變更防差錯軟件更新采用金絲雀或藍綠部署,部署過程自動完成,在部署過程中出現問題時自動回滾。應急恢復處理制定應急處理機制,指定應急恢復人員,以便在突發事件后能快速決策和恢復;并提供常見應用、數據庫問題以及升級部署失敗的相關解決方案,以便在出現問題后可以及時恢復;定期進行演練,及時發現問題。根據以上方案,典型部署架構如下:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司55該架構的主要特點包括:應用系統采用無狀態應用+有狀態數據庫/虛擬機的分層部署架構。應用系統在IDC/其他云與華為云中各部署一套完整系
207、統;華為云采用跨AZ部署,可以實現云內應用層跨數據中心雙活;云間數據支持將它云數據實時同步到華為云,采用主備容災,在IDC/其他云故障的情況下能快速容災切換到華為云。接入層(外部DNS、API網關):通過外部DNS進行域名解析,在IDC/其他云故障時手工將業務流量切換到華為云。應用層(負載均衡器、應用軟件及虛擬機或物理主機):對于無狀態應用,通過負載均衡器進行故障檢測與負載均衡,在華為云上可通過AS彈性伸縮服務監控負載進行彈性伸縮;對于有狀態應用,通過SDRS服務實現跨云的虛擬機數據復制與容災切換,并可通過CBR服務進行自動數據備份。中間件層:Redis、Kafka集群跨可用區高可用部署。數據
208、層:MySQL數據庫高可用,通過DRS數據復制服務實現跨云的數據庫復制與容災切換;并可定期自動備份數據,在數據丟失時快速恢復業務。為了保證數據的可靠性,數據庫的數據定期自動備份,在數據丟失時可以快速恢復。2.10.7.2 跨云雙活方案跨云雙活方案當重要應用系統已經在IDC或其他云上部署,并需在華為云上部署一套系統實現雙活,以提供高可用的容災方案。假定應用系統在IDC或其他云上可以達到99.9%的可用性,則在容災到華為云后,能提供99.99%的可用性??缭茟玫湫图軜嫗榍岸藷o狀態應用層+后端數據庫,其中前端無狀態應用可采用虛擬機或容器(以容器為例,華為云采用CCE),后端數據庫通常要求采用通用M
209、ySQL數據庫(華為云采用RDS for MySQL),以實現跨云雙活容災。華為云上的應用部署建議方案如下:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司56類別類別實施方案實施方案冗余ELB、CCE、DCS、Kafka、RDS、DDS等云服務實例均高可用部署。備份RDS、DDS數據庫自動備份,在數據故障時使用最新備份數據恢復,可以滿足可用性目標要求。容災應用跨AZ部署,AZ故障時自動恢復;支持跨云雙活,在IDC或其他云出現故障時可以快速切換到華為云。監控告警進行站點運行狀態檢查,在發生故障時告警;針對CCE、DCS、kafk
210、a、RDS、DDS等實例負載狀態進行監控,在資源過載時需要告警。彈性擴縮容CCE集群支持工作負載的自動彈性伸縮。變更防差錯軟件更新采用金絲雀或藍綠部署,部署過程自動完成,在部署過程中出現問題時自動回滾。應急恢復處理制定應急處理機制,指定應急恢復人員,以便在突發事件后能快速決策和恢復;并提供常見應用、數據庫問題以及升級部署失敗的相關解決方案,以便在出現問題后可以及時恢復;定期進行演練,及時發現問題。根據以上方案,典型部署架構如下:卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司57該架構的主要特點包括:應用系統采用無狀態應用+有狀
211、態數據庫的分層部署架構。應用系統在其他云與華為云中各部署一套完整系統;華為與采用跨AZ部署,可以實現云內應用層跨數據中心雙活;云間數據單元化部署,并支持將它云數據實時同步到華為云,實現雙活容災,在第三方云故障的情況下能快速容災切換到華為云。接入層(外部GSLB、API網關):通過外部GSLB進行域名解析與流量負載均衡,兩朵云同時提供服務,在第三方云故障時自動將業務流量切換到華為云;API網關支持流量糾正,以便將業務路由到正確單元。應用層(負載均衡器、應用軟件及容器):對于無狀態應用,通過負載均衡器進行故障檢測與負載均衡,并可通過容器進行彈性伸縮。中間件層:Redis、Kafka集群跨可用區高可
212、用部署。數據層:MySQL數據庫跨可用區高可用,通過DRS數據復制服務實現跨云的數據庫復制與容災切換。為了保證數據的可靠性,數據庫的數據定期自動備份,在數據丟失時可以快速恢復。2.11 云服務可靠性介紹云服務可靠性介紹2.11.1 概述概述本章節介紹常用云服務的可靠性功能與故障模式,以便應用系統能充分利用云服務提供的可靠性能力,提升應用系統的可靠性,并能針對云服務的常見故障模式,進行故障恢復處理,以便最大限度減少故障,并能從故障中恢復。2.11.2 ECS 彈性云服務器彈性云服務器彈性云服務器(Elastic Cloud Server,ECS)是由CPU、內存、操作系統、云硬盤組成的基礎的計算
213、組件。彈性云服務器創建成功后,就可以像使用自己的本地PC或物理服務器一樣,在云上使用彈性云服務器。2.11.2.1 可靠性功能可靠性功能數據備份和恢復數據備份和恢復使用CBR云備份服務可對ECS的備份保護服務,支持基于多云硬盤一致性快照技術的備份服務,并支持利用備份數據恢復ECS數據。詳見“云備份概述云備份概述”。故障自愈故障自愈當ECS支持自動恢復時,可以開啟自動恢復能力,當物理服務器損壞時以冷遷移方式重啟ECS實例,使彈性云服務器具備高可靠性和強大的動態遷移能力。當彈性云服務器所在的硬件出現故障時,系統會自動將彈性云服務器遷移至正常的物理機,保障業務受到的影響最小,該過程會導致云服務器重啟
214、。詳見“物理機故障時,彈性云服務器是物理機故障時,彈性云服務器是否會自動恢復否會自動恢復”。當檢測到彈性云服務所在的硬件出現亞健康時,系統會自動化將彈性云服務器熱遷移到其他物理服務器上繼續運行,遷移過程中會導致業務處理性能下降,業務中斷時間小于1s。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司58反親和反親和通過云服務器組,支持創建ECS實例時盡量分散在不同主機上以提高業務的可靠性。詳見“管理云服務器組管理云服務器組”。集群集群 HA配合共享云硬盤,可以構建AZ內集群或HA關鍵應用。一塊共享云硬盤最多可同時掛載至16臺ECS
215、。并需要搭建共享文件系統或類似的集群管理系統,例如Windows MSCS集群、Veritas VCS集群和CFS集群等。為確保業務可靠性,建議將共享云硬盤掛載至位于同一個反親和性云服務器組內的ECS。詳見“共享云硬盤及使用方法共享云硬盤及使用方法”。負載均衡負載均衡配合彈性負載均衡ELB服務,可以實現多ECS實例的負載均衡。健康檢查健康檢查通過彈性負載均衡ELB服務,可對ECS實例進行健康檢查。詳見“修改健康檢查配修改健康檢查配置置”。彈性伸縮彈性伸縮配合動態伸縮AS服務,可以實現跨AZ的ECS實例重建或均衡??缈?AZ 容災容災配合ELB服務,可以實現跨AZ的故障切換。監控告警監控告警配合
216、CES服務,支持對ECS的CPU、內存、磁盤、網絡等進行監控和告警。詳見“監控監控彈性云服務器彈性云服務器”。2.11.2.2 常見故障模式常見故障模式ECS 的的 CPU/內存內存/磁盤容量磁盤容量/磁盤磁盤 IOPS 使用率過高使用率過高檢測:通過CES監控CPU/內存/磁盤容量/磁盤IOPS使用率?;謴停篴.根據業務情況,手工變更規格以擴展資源或增加ECS實例進行負荷分擔。b.對于無狀態業務,啟動AS彈性伸縮,自動擴展資源。c.應用層進行過載保護,保障優先業務的運行。連接后端連接后端 ECS 失敗失敗檢測:網絡連接失敗?;謴停篴.至少部署2個后端ECS。對于無狀態業務,配置ELB彈性負載
217、均衡保障業務可靠性;對于有狀態業務,由應用層實現多實例高可用。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司59b.應用層進行重試,以應對暫時性故障,如ECS正在進行故障恢復時。應用故障重試處理可參考“故障重試故障重試”。c.當ECS由于過載導致網絡限制時,可參考“ECS的CPU/內存/磁盤容量/磁盤IOPS使用率過高”的處理。ECS 實例不可用或運行異常實例不可用或運行異常檢測:配置ELB彈性負載均衡器的后端服務器健康檢查,以便定期檢查后端服務器的運行狀態。健康檢查應檢查關鍵功能是否能正確響應?;謴停横槍γ總€應用層,配置多個
218、ECS實例,通過ELB彈性負載均衡器進行健康檢查,當檢測到某個ECS實例不可用時,ELB彈性負載均衡器停止向該實例發送業務請求。ECS 實例或掛載的磁盤或數據被意外刪除實例或掛載的磁盤或數據被意外刪除檢測:NA恢復:對于無狀態業務,使用模板快速發放新實例;對于有狀態業務,使用CBR云備份服務對ECS進行定期備份,在數據被刪除時使用備份數據快速恢復。ECS 實例使用本地盤時本地盤故障實例使用本地盤時本地盤故障檢測:應用層檢測本地盤運行狀態?;謴停簯脤硬捎肦AID實現ECS內硬盤高可用,并實現跨ECS的數據復制與高可用,以便在本地盤故障時業務可快速恢復。建議非必須使用本地盤場景,盡可能使用EVS
219、云硬盤,以提升硬盤的可靠性。2.11.3 BMS 裸金屬服務裸金屬服務裸金屬服務(Bare Metal Server,BMS)是一款兼具彈性云服務器和物理機性能的計算類服務,為企業提供專屬的云上物理服務器,為核心數據庫、關鍵應用系統、高性能計算、大數據等業務提供卓越的計算性能以及數據安全。2.11.3.1 可靠性功能可靠性功能數據備份和恢復數據備份和恢復使用CBR云備份服務可對BMS的所有云硬盤(系統盤和數據盤)進行備份,支持基于多云硬盤一致性快照技術的備份服務,并支持利用備份數據恢復裸金屬服務器數據,最大限度保障用戶數據的安全性和正確性,確保業務安全。詳見“備份裸金屬服務備份裸金屬服務器器”
220、。集群集群 HA配合共享云硬盤,可以構建AZ內集群或HA關鍵應用。一塊共享云硬盤最多可同時掛載至16臺BMS。并需要搭建共享文件系統或類似的集群管理系統,例如Windows MSCS集群、Veritas VCS集群和CFS集群等。詳見“共享云硬盤及使用方法共享云硬盤及使用方法”。負載均衡負載均衡配合彈性負載均衡ELB服務,可以實現多BMS實例的負載均衡。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司60健康檢查健康檢查通過彈性負載均衡ELB服務,可對BMS實例進行健康檢查。詳見“修改健康檢查配修改健康檢查配置置”??缈?AZ
221、容災容災配合ELB服務,可以實現跨AZ的故障切換。監控告警監控告警配合CES服務,支持對BMS的CPU、內存、磁盤、網絡等進行監控和告警。詳見“監控監控指標說明指標說明”。2.11.3.2 常見故障模式常見故障模式BMS 的的 CPU/內存內存/磁盤容量磁盤容量/磁盤磁盤 IOPS 使用率過高使用率過高檢測:通過CES監控CPU/內存/磁盤容量/磁盤IOPS使用率恢復:a.根據業務情況,更換規格更高的BMS實例或增加BMS實例進行負荷分擔。b.應用層進行過載保護,保障優先業務的運行。連接后端連接后端 BMS 失敗失敗檢測:網絡連接失敗?;謴停篴.至少部署2個后端BMS。對于無狀態業務,配置EL
222、B彈性負載均衡保障業務可靠性;對于有狀態業務,由應用層實現多實例高可用。b.應用層進行重試,以應對暫時性故障,如網絡過載時;應用故障重試處理可參考“故障重試故障重試”。c.當BMS由于過載導致網絡限制時,可參考“BMS的CPU/內存/磁盤容量/磁盤IOPS使用率過高”的處理。BMS 實例不可用或運行異常實例不可用或運行異常檢測:配置ELB彈性負載均衡器的后端服務器健康檢查,以便定期檢查后端服務器的運行狀態。健康檢查應檢查關鍵功能是否能正確響應?;謴停横槍γ總€應用層,配置多個BMS實例,通過ELB彈性負載均衡器進行健康檢查,當檢測到某個BMS實例不可用時,ELB彈性負載均衡器停止向該實例發送業務
223、請求。BMS 實例或掛載的磁盤或數據被意外刪除實例或掛載的磁盤或數據被意外刪除檢測:NA恢復:對于無狀態業務,使用模板快速發放新實例;對于有狀態業務,使用CBR云備份服務對BMS云硬盤進行定期備份,在數據被刪除時使用備份數據快速恢復。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司61BMS 實例物理服務器或本地盤故障實例物理服務器或本地盤故障檢測:應用層檢測物理服務器和本地盤運行狀態恢復:應用層采用RAID實現BMS內硬盤高可用,并實現跨BMS的數據復制與高可用,以便在物理服務器或本地盤故障時業務可快速恢復。建議非必須使用本地
224、盤場景,盡可能使用EVS云硬盤,以提升硬盤的可靠性。2.11.4 CCE 云容器引擎云容器引擎云容器引擎(Cloud Container Engine,簡稱CCE)提供高度可擴展的、高性能的企業級Kubernetes集群,支持運行Docker容器。借助云容器引擎,可以在云上輕松部署、管理和擴展容器化應用程序。2.11.4.1 可靠性功能可靠性功能集群集群 HACCE集群支持3個Master節點高可用部署,確保集群的可靠性。數據備份和恢復數據備份和恢復為滿足數據持久化的需求,CCE支持將云硬盤(EVS)創建的存儲卷掛載到容器的某一路徑下;CCE通過云硬盤EVS服務提供針對云硬盤的快照功能,當數據
225、丟失時,可通過快照將數據完整的恢復到快照時間點。詳見“快照與備份快照與備份”。健康檢查健康檢查健康檢查是指容器運行過程中,根據用戶需要,定時檢查容器健康狀況。若不配置健康檢查,如果容器內應用程序異常,Pod將無法感知,也不會自動重啟去恢復。最終導致雖然Pod狀態顯示正常,但Pod中的應用程序異常的情況。Kubernetes提供了三種健康檢查的探針:存活探針:livenessProbe,用于檢測容器是否正常,類似于執行ps命令檢查進程是否存在。如果容器的存活檢查失敗,集群會對該容器執行重啟操作;若容器的存活檢查成功則不執行任何操作。就緒探針:readinessProbe,用于檢查用戶業務是否就緒
226、,如果未就緒,則不轉發流量到當前實例。一些程序的啟動時間可能很長,比如要加載磁盤數據或者要依賴外部的某個模塊啟動完成才能提供服務。這時候程序進程在,但是并不能對外提供服務。這種場景下該檢查方式就非常有用。如果容器的就緒檢查失敗,集群會屏蔽請求訪問該容器;若檢查成功,則會開放對該容器的訪問。啟動探針:startupProbe,用于探測應用程序容器什么時候啟動了。如果配置了這類探測器,就可以控制容器在啟動成功后再進行存活性和就緒檢查,確保這些存活、就緒探針不會影響應用程序的啟動。這可以用于對啟動慢的容器進行存活性檢測,避免它們在啟動運行之前就被終止。詳見“設置容器健康檢查設置容器健康檢查”。反親和
227、反親和CCE支持節點反親和,在創建節點池時,可以指定云服務器組以實現反親和策略,在同一個云服務組中的云服務器分散在不同主機上,提高業務的可靠性。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司62CCE支持工作負載與節點之間,及工作負載之間的親和/反親和:節點親和:工作負載部署在指定節點/可用區或不部署在指定節點/可用區。工作負載親和/反親和:負載部署在相同節點(就近部署就近路由降低網絡消耗),或負載部署在不同節點(減少宕機影響);詳見“調度策略(親和與反親和)調度策略(親和與反親和)”。過載控制過載控制CCE集群支持過載控制,
228、在開啟過載控制后,可根據控制節點的資源壓力,動態調整請求并發量,維護控制節點和集群的可靠性。詳見“集群過載控制集群過載控制”。彈性伸縮彈性伸縮CCE支持工作負載彈性伸縮與節點彈性伸縮:工作負載彈性伸縮:即調度層彈性,主要是負責修改負載的調度容量變化。例如,HPA是典型的調度層彈性組件,通過HPA可以調整應用的副本數,調整的副本數會改變當前負載占用的調度容量,從而實現調度層的伸縮。節點彈性伸縮:即資源層彈性,主要是集群的容量規劃不能滿足集群調度容量時,會通過彈出ECS或CCI等資源的方式進行調度容量的補充。兩個維度的彈性組件與能力可以分開使用,也可以結合在一起使用,并且兩者之間可以通過調度層面的
229、容量狀態進行解耦。詳見“彈性伸縮概述彈性伸縮概述”??缈?AZ 容災容災CCE服務支持跨AZ創建或擴展容器集群,工作負載自動在多個AZ間均勻分配。監控告警監控告警CCE支持配合AOM對集群進行全方位的監控,包括集群、節點、工作負載、容器實例POD等。詳見“監控概述監控概述”。2.11.4.2 常見故障模式常見故障模式CCE 集群的集群的 CPU/內存內存/磁盤容量使用率過高磁盤容量使用率過高檢測:通過AOM監控CCE集群的CPU/內存/磁盤容量使用率?;謴停篴.根據業務情況,手工變更集群規格或擴展資源。CCE 節點的節點的 CPU/內存內存/磁盤容量磁盤容量/磁盤磁盤 IOPS/GPU/GPU
230、 緩存使用率過高緩存使用率過高檢測:通過AOM監控CCE節點的CPU/內存/磁盤容量/磁盤IOPS/GPU/GPU緩存使用率?;謴停篴.根據業務情況,手工變更節點規格或增加節點數量。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司63CCE 工作負載的工作負載的 CPU/內存內存/GPU/GPU 緩存使用率過高緩存使用率過高檢測:通過AOM監控CCE工作負載的CPU/內存/GPU/GPU緩存使用率?;謴停篴.根據業務情況,手工調整工作負載的資源配額或增加工作負載個數。2.11.5 ELB 彈性負載均衡彈性負載均衡ELB彈性負載均
231、衡是將訪問流量根據分配策略分發到后端多臺服務器的流量分發控制服務,支持獨享型負載均衡與共享型負載均衡:獨享型負載均衡:獨享型負載均衡實例資源獨享,實例的性能不受其它實例的影響,可根據業務需要選擇不同規格的實例。共享型負載均衡:屬于集群部署,實例資源共享,實例的性能會受其它實例的影響,不支持選擇實例規格。2.11.5.1 可靠性功能可靠性功能集群集群 HAELB采用集群化部署,支持多可用區的同城多活容災,無縫實時切換。后端服務器健康檢查后端服務器健康檢查ELB彈性負載均衡支持定期向后端服務器發送請求以測試其運行狀態。當判斷后端服務器健康檢查異常后,就不會將流量分發到異常后端服務器,而是分發到健康
232、檢查正常的后端服務器,從而提高了業務的可靠性。當異常的后端服務器恢復正常運行后,負載均衡器會將其自動恢復到負載均衡服務中,承載業務流量。詳見“健康檢查介紹健康檢查介紹”??缈?AZ 容災容災ELB采用集群化部署,支持多可用區的同城多活容災,無縫實時切換。ELB支持后端服務器多AZ部署,當某個AZ出現故障時,ELB仍可將流量轉發到其他AZ的后端ECS處理,提高應用系統容災能力。監控告警監控告警配合CES服務,支持對ELB的連接數、帶寬、錯誤響應等進行監控和告警。詳見“監控監控指標說明指標說明”。2.11.5.2 常見故障模式常見故障模式ELB 的并發連接數的并發連接數/新建連接數新建連接數/帶寬
233、使用率過高帶寬使用率過高檢測:通過CES監控ELB的并發連接數/新建連接數/帶寬使用率?;謴停篴.根據業務情況,采用獨享型負載均衡器,并手工調整ELB負載均衡器規格。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司642.11.6 AS 彈性伸縮彈性伸縮彈性伸縮(Auto Scaling,以下簡稱AS)是根據用戶的業務需求,通過設置伸縮規則來自動增加/縮減業務資源。當業務需求增長時,AS自動增加彈性云服務器(ECS)實例或帶寬資源,以保證業務能力;當業務需求下降時,AS自動縮減彈性云服務器(ECS)實例或帶寬資源,以節約成本。A
234、S支持自動調整彈性云服務器和帶寬資源。2.11.6.1 可靠性功能可靠性功能負載均衡負載均衡配合彈性負載均衡ELB服務,可以對彈性伸縮組創建的彈性云服務器進行負載均衡。健康檢查健康檢查健康檢查會將異常的實例從伸縮組中移除,伸縮組會重新創建新的實例以維持伸縮組的期望實例數和當前實例數保持一致,伸縮組的健康檢查方式主要包括以下兩種。云服務器健康檢查:是指對云服務器的運行狀態進行檢查,如關機、刪除都是云服務器異常狀態。伸縮組的健康檢查方式默認是“云服務器健康檢查”方式,指伸縮組會定期使用云服務器健康檢查結果來確定每個云服務器的運行狀況。如果未通過云服務器健康檢查,則伸縮組會將該云服務器移出伸縮組。彈
235、性負載均衡健康檢查:是指根據ELB對云服務器的健康檢查結果進行的檢查。僅當伸縮組使用彈性負載均衡器時,可以選擇“彈性負載均衡健康檢查”方式來做健康檢查。如果將多個負載均衡器添加到伸縮組,則只有在所有負載均衡器均檢測到云服務器狀態為正常的情況下,才會認為該彈性云服務器正常。否則只要有一個負載均衡器檢測到云服務器狀態異常,伸縮組會將該彈性云服務器移出伸縮組。以上兩種健康檢查方式,檢查的結果均是將異常的云服務器從伸縮組中移除。詳見“彈性伸縮健康檢查彈性伸縮健康檢查”??缈?AZ 容災容災AS支持后端服務器多AZ部署,當某個AZ出現故障時,AS可自動將云服務器創建到其他AZ,以快速恢復業務。當選擇多A
236、Z部署時,可配置“多可用區擴展策略”為“均衡分布”或“選擇優先”:均衡分布:云服務器擴容時優先保證選擇的可用區列表中各可用區下云服務器數量均衡,當無法在目標可用區下完成云服務器擴容時,按照選擇優先原則選擇其他可用區。選擇優先:云服務器擴容時目標可用區的選擇按照選擇的可用區列表的順序進行優先級排序。監控告警監控告警配合CES服務,支持對彈性伸縮組的CPU、內存、磁盤、網絡等進行監控和告警。詳見“監控指標說明監控指標說明”。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司652.11.6.2 常見故障模式常見故障模式彈性伸縮失敗彈性
237、伸縮失敗檢測:查看彈性伸縮組的彈性伸縮活動歷史?;謴停篴.根據伸縮活動失敗描述信息進行修復。2.11.7 DCS 分布式緩存服務分布式緩存服務分布式緩存服務(Distributed Cache Service,簡稱DCS)是華為云提供的一款兼容Redis的高速內存數據處理引擎,可提供即開即用、安全可靠、彈性擴容、便捷管理的在線分布式緩存能力,滿足用戶高并發及數據快速訪問的業務訴求。2.11.7.1 可靠性功能可靠性功能集群集群 HADCS服務提供主備、Proxy集群、Cluster集群實例,通過節點冗余方式實現實例容災,當檢測到主節點故障后,快速切換到備節點并自動恢復,在異常檢測和恢復期間,可
238、能會影響業務,時間在半分鐘內。數據備份和恢復數據備份和恢復DCS支持將當前時間點的實例緩存數據備份并存儲到OBS中,以便在緩存實例發生異常后能夠從備份數據進行恢復。DCS實例支持定時和手動兩種備份方式,定時備份頻率以天為單位,最多保存7天,但至少會保留一個數據備份文件;手動備份由用戶觸發,通常在執行業務系統維護、升級等高危操作進行,保存期限無限制。DCS指定備份集恢復?;謴瓦^程中,實例會有一段時間不能處理客戶端的數據操作請求,當前數據將被刪除,待恢復完成后存儲原有備份數據。詳見“備份與恢復說明備份與恢復說明”??缈?AZ 容災容災DCS提供的主備、Cluster集群、Proxy集群實例支持跨A
239、Z容災,當一個AZ異常時,另一個AZ節點不受影響,備節點會自動升級為主節點,對外提供服務。監控告警監控告警配合CES服務,支持對DCS的CPU、內存、磁盤、網絡等進行監控和告警。詳見“支持支持的監控指標的監控指標”。2.11.7.2 常見故障模式常見故障模式DCS 的的 CPU/內存內存/帶寬帶寬/連接數使用率過高連接數使用率過高檢測:通過CES監控CPU/內存/帶寬/連接數使用率?;謴停鹤吭郊軜嫾夹g框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司66a.根據業務情況,手工變更規格以擴展資源。b.應用層進行過載保護,保障優先業務的運行,如將
240、部分性能要求不高的業務切回到原始數據源。連接后端連接后端 DCS 失敗失敗檢測:連接失敗?;謴停篴.應用層進行重試,以應對暫時性故障,如DCS實例正在進行主備切換時;應用故障重試處理可參考“故障重試故障重試”。b.當DCS實例由于過載導致網絡限制時,可參考“DCS的CPU/內存/帶寬/數據庫連接數使用率過高”的處理。c.對于非暫行性故障,應用層需要能回退到原始數據源進行處理,避免由于緩存故障而導致業務無法運行。讀寫讀寫 DCS 概率性失敗概率性失敗檢測:讀寫失敗。針對低概率超時錯誤,是Redis使用的正?,F象。Redis使用受到網絡傳輸、客戶端設置超時時間等因素影響,可能出現單個請求超時問題。
241、恢復:a.應用層進行重試,以應對暫時性故障,如DCS實例正在進行主備切換時;應用故障重試處理可參考“故障重試故障重試”。b.當DCS實例由于過載導致網絡限制時,可參考“DCS的CPU/內存/帶寬/數據庫連接數使用率過高”的處理。c.對于非暫行性故障,應用層需要能回退到原始數據源進行處理,避免由于緩存故障而導致業務無法運行。2.11.8 DMS 分布式消息服務分布式消息服務DMS分布式消息服務支持以下各種消息類型:Kafka版:基于開源社區版Kafka提供的消息隊列服務,向用戶提供計算、存儲和帶寬資源獨占式的Kafka專享實例。RabbitMq版:完全兼容開源RabbitMQ,提供即開即用、消息
242、特性豐富、靈活路由、高可用、監控和告警等特性,廣泛應用于秒殺、流控、系統解耦等場景。RocketMQ版:低延遲、彈性高可靠、高吞吐、動態擴展、便捷多樣的消息中間件服務。2.11.8.1 可靠性功能可靠性功能集群集群 HAKafka實例通過副本冗余方式實現實例容災,當檢測到leader副本故障后,快速完成副本選主,保障Kafka實例持續提供服務。RabbitMQ集群提供鏡像隊列,通過鏡像在其他節點同步數據。單節點宕機時,仍可通過唯一的訪問地址對外提供服務。RocketMQ使用一主兩備架構,備節點通過數據同步的方式保持數據一致。當節點故障時,通過Raft協議自動切換主備關系,保持數據強一致性。卓越
243、架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司67跨跨 AZ 容災容災Kafka、RabbitMQ、RocketMQ實例支持跨AZ容災部署,要求至少3個AZ,當一個AZ異常時,不影響實例持續提供服務。監控告警監控告警Kafka:配合CES服務,支持對Kafka實例、實例節點、實例主題、實例分區、實例分區的消費組、實例隊列的消費組、實例的消費組等進行監控和告警。詳見“支持的監支持的監控指標控指標”。RabbitMQ:配合CES服務,支持對RabbitMQ實例、實例節點、實例隊列進行監控和告警等進行監控和告警。詳見“支持的監控指標支持
244、的監控指標”。RocketMQ:配合CES服務,支持對RocketMQ實例、實例節點、實例隊列、實例消費組、實例隊列消費組、實例的死信隊列進行監控和告警。詳見“支持的監控指標支持的監控指標”。2.11.8.2 常見故障模式常見故障模式CPU/內存內存/磁盤磁盤/帶寬使用率過高帶寬使用率過高檢測:通過CES監控CPU/內存/磁盤/帶寬使用率?;謴停篴.當CPU/內存使用高時,可根據業務情況,手工修改代理規格或增加代理數量以擴展資源。b.當磁盤使用率高時,可根據業務情況,修改實例存儲空間支持更大存儲空間。c.當帶寬使用率高時,可根據業務情況,變更規格以支持更大帶寬。d.應用層進行過載保護,保障優先
245、業務的運行。生產消息失敗生產消息失敗檢測:生產消息失敗恢復:a.應用層進行重試,以應對暫時性故障;應用故障重試處理可參考“故障重故障重試試”。b.當多次重試后仍無法寫入成功,可將數據寫入本地緩存,待服務可用后再寫入實例。c.當實例由于過載導致網絡限制時,可參考“CPU/內存/帶寬使用率過高”的處理。2.11.9 RDS 云數據庫云數據庫云數據庫RDS(Relational Database Service,簡稱RDS)是一種基于云計算平臺的穩定可靠、彈性伸縮、便捷管理的在線云數據庫服務。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有
246、限公司682.11.9.1 可靠性功能可靠性功能集群集群 HARDS服務支持HA主備高可用架構,故障秒級自動切換。數據持久性數據持久性RDS數據持久性高達99.9999999%,保證數據安全可靠,保護業務免受故障影響。數據備份和恢復數據備份和恢復RDS支持每天自動備份數據,備份都是以壓縮包的形式自動存儲在對象存儲服務(Object Storage Service,簡稱OBS)。備份文件保留732天,支持一鍵式恢復。用戶可以設置自動備份的周期,還可以根據自身業務特點隨時發起備份,選擇備份周期、修改備份策略。支持按備份集和指定時間點的恢復。在大多數場景下,用戶可以將732天內任意一個時間點的數據恢
247、復到云數據庫RDS新實例或已有實例上,數據驗證無誤后即可將數據遷回云數據庫RDS主實例,完成數據回溯。詳見“備份原理及方案備份原理及方案”。存儲自動擴容存儲自動擴容RDS支持存儲空間自動擴容,在實例存儲空間達到閾值時,會觸發自動擴容。詳見“存儲空間自動擴容存儲空間自動擴容”??缈?AZ 容災容災RDS支持跨AZ高可用。當用戶購買實例的時候,選擇主備實例類型,可以選擇主可用區和備可用區不在同一個可用區(AZ)。詳見“云數據庫云數據庫RDS支持跨支持跨AZ高可用嗎高可用嗎”。RDS for MySQL也支持通過數據遷移服務DRS支持Region內跨AZ雙主災備,與跨Region容災相同??缈?Re
248、gion 容災容災RDS支持使用數據復制服務(Data Replication Service,簡稱DRS)創建災備任務,當主實例所在區域發生突發性自然災害等狀況,主節點(Master)和備節點(Slave)均無法連接時,可將異地災備實例切換為主實例,在應用端修改數據庫鏈接地址后,即可快速恢復應用的業務訪問。數據復制服務提供的實時災備功能,可實現主實例和跨區域的災備實例之間的單主災備(詳見“MySQL到到MySQL單主災備單主災備”)或雙主災備(詳見“MySQL到到MySQL雙主災備雙主災備”)。監控告警監控告警配合CES服務,支持對RDS的CPU、內存、磁盤、網絡等進行監控和告警。詳見“支持
249、支持的監控指標的監控指標”。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司692.11.9.2 常見故障模式常見故障模式RDS 的的 CPU/內存內存/磁盤容量磁盤容量/磁盤磁盤 IOPS/數據庫連接數使用率過高數據庫連接數使用率過高檢測:通過CES監控CPU/內存/磁盤容量/磁盤IOPS/數據庫連接數使用率?;謴停篴.根據業務情況,手工變更規格以擴展資源。b.開啟存儲空間自動擴容,以便在磁盤容量不足時自動擴容。c.應用層進行過載保護,保障優先業務的運行。連接后端連接后端 RDS 失敗失敗檢測:連接失敗?;謴停篴.應用層進行重
250、試,以應對暫時性故障,如RDS實例正在進行主備切換時;應用故障重試處理可參考“故障重試故障重試”。b.當RDS實例由于過載導致網絡限制時,可參考“RDS的CPU/內存/磁盤容量/磁盤IOPS/數據庫連接數使用率過高”的處理。2.11.10 云數據庫云數據庫 TaurusDB 云數據庫云數據庫云數據庫 云數據庫 TaurusDB是華為自研的最新一代企業級高擴展高性能分布式數據庫,完全兼容MySQL?;谌A為最新一代DFV存儲,采用計算存儲分離架構,128TB的海量存儲,故障秒級切換,既擁有商業數據庫的高可用和性能,又具備開源低成本效益。2.11.10.1 可靠性功能可靠性功能集群集群 HA云數據
251、庫 TaurusDB服務支持主節點+只讀節點的高可用架構,當主節點故障時,系統會自動切換到只讀節點,只讀節點提升為主節點,原來故障的主節點也會自動恢復為只讀節點。云數據庫 TaurusDB服務還支持異構容災實例(MySQL節點),支持在極端場景,如社區未知bug、用戶誤操作、AZ級故障導致服務無法正常提供服務等場景,可以快速將服務切換到異構容災實例繼續提供服務。數據備份和恢復數據備份和恢復云數據庫 TaurusDB實例支持自動備份和手動備份,您可以定期對數據庫進行備份,當數據庫故障或數據損壞時,可以通過備份文件恢復數據庫,從而保證數據可靠性。云數據庫 TaurusDB支持同區域備份與跨區域備份
252、;跨區域備份是將備份文件存放到另一個區域存儲,某一區域的實例故障后,可以在異地區域使用備份文件在異地恢復到新的云數據庫 TaurusDB實例,用來恢復業務。詳見“備份原理備份原理”。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司70自動擴縮容自動擴縮容云數據庫 TaurusDB服務支持自動擴縮容,可自動擴縮規格和增刪只讀節點。詳見“設設置自動變配(自動擴縮容)置自動變配(自動擴縮容)”??缈?AZ 容災容災云數據庫 TaurusDB實例支持將實例的節點分別部署在多個可用區。云數據庫 TaurusDB也支持通過數據遷移服務DRS
253、支持Region內跨AZ雙主災備,與跨Region容災相同??缈?Region 容災容災云數據庫 TaurusDB支持使用數據復制服務(Data Replication Service,簡稱DRS)創建災備任務,當主實例所在區域發生突發性自然災害等狀況,主節點(Master)和備節點(Slave)均無法連接時,可將異地災備實例切換為主實例,在應用端修改數據庫鏈接地址后,即可快速恢復應用的業務訪問。數據復制服務提供的實時災備功能,可實現主實例和跨區域的災備實例之間的單主災備(詳見“云數據庫云數據庫 TaurusDB到云數到云數據庫據庫 TaurusDB單主災備單主災備”),或雙主災備(詳見“云數
254、據庫云數據庫 TaurusDB到云數據庫到云數據庫TaurusDB雙主災備雙主災備”)。監控告警監控告警配合CES服務,支持對云數據庫 TaurusDB的CPU、內存、磁盤、網絡等進行監控和告警。詳見“支持的監控指標支持的監控指標”。2.11.10.2 常見故障模式常見故障模式云數據庫云數據庫 TaurusDB 的的 CPU/內存內存/磁盤容量磁盤容量/磁盤磁盤 IOPS/數據庫連接數使用率過高數據庫連接數使用率過高檢測:通過CES監控CPU/內存/磁盤容量/磁盤IOPS/數據庫連接數使用率?;謴停篴.根據業務情況,手工變更規格以擴展資源。b.開啟自動擴縮容,以便在過載時自動擴容規格和/或只讀
255、節點。c.應用層進行過載保護,保障優先業務的運行。連接后端云數據庫連接后端云數據庫 TaurusDB 失敗失敗檢測:連接失敗?;謴停篴.應用層進行重試,以應對暫時性故障,如云數據庫 TaurusDB實例正在進行主備切換時;應用故障重試處理可參考“故障重試故障重試”。b.當云數據庫 TaurusDB實例由于過載導致網絡限制時,可參考“RDS的CPU/內存/磁盤容量/磁盤IOPS/數據庫連接數使用率過高”的處理。2.11.11 OBS 對象存儲服務對象存儲服務對象存儲服務(Object Storage Service,OBS)是一個基于對象的海量存儲服務,提供海量、安全、高可靠、低成本的數據存儲能
256、力。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司712.11.11.1 可靠性功能可靠性功能數據持久性數據持久性OBS通過存儲介質的慢盤/壞道檢測、AZ內設備和數據冗余、AZ之間數據容災、跨區域復制等技術方案,提供針對介質、服務器、機柜、數據中心和區域的多級可靠性保障。其數據持久性高達99.9999999999%(12個9),可用性高達99.995%,遠高于傳統架構。詳見“OBS的持久性和可用性如何的持久性和可用性如何?”。數據備份和恢復數據備份和恢復OBS支持多版本控制,可以在一個桶中保留多個版本的對象,以便方便地檢索和還
257、原各個版本,在意外操作或應用程序故障時快速恢復數據??缈?AZ 容災容災在創建桶時,數據冗余存儲策略可選擇多AZ存儲,數據將冗余存儲至多個AZ中,可靠性更高??缈?Region 容災容災OBS支持跨區域復制,能夠為用戶提供跨區域數據容災的能力,滿足用戶數據復制到異地進行備份的需求。監控告警監控告警配合CES服務,支持對OBS桶的請求、流量、時延和錯誤響應等進行監控和告警。詳見“監控對象存儲服務監控對象存儲服務”。2.11.11.2 常見故障模式常見故障模式OBS 桶流量過載桶流量過載檢測:通過CES監控請求數、請求成功率、上傳/下載帶寬等流量指標?;謴停篴.應用層調整批量業務,避免業務高峰期進
258、行備份等業務;b.應用層進行重試,以應對暫時性故障,如網絡擁塞;應用故障重試處理可參考“故障重試故障重試”。c.應用層進行過載保護,保障優先業務的運行。OBS 對象上傳對象上傳/下載失敗下載失敗檢測:對象上傳/下載失敗?;謴停篴.應用層進行重試,以應對暫時性故障,如網絡擁塞;應用故障重試處理可參考“故障重試故障重試”。b.當OBS桶由于過載導致網絡限制時,可參考“OBS桶流量過載”的處理。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司72OBS 桶內數據被誤刪桶內數據被誤刪檢測:NA恢復:針對OBS桶啟用多版本控制,在數據被刪
259、除時使用歷史版本快速恢復。卓越架構技術框架卓越架構技術框架與實踐2 韌性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司733 安全性支柱安全性支柱3.1 概述概述3.1.1 安全性支柱簡介安全性支柱簡介華為將安全及隱私保護作為公司的最高綱領。安全性支柱旨在確保業務的安全、可信、合規,通過一系列華為云架構的最佳實踐保護工作負載免受各種安全威脅,降低安全風險。安全性支柱涉及保護云上系統、資產、數據的機密性、完整性、可用性以及合法、合規使用數據,保護用戶隱私的一系列最佳實踐。安全性是現代應用程序的重要維度,需要成體系地考慮工作負載的安全。華為云安全性支柱的設計框架如下圖所示:卓
260、越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司743.1.2 責任共擔模型責任共擔模型基于華為在安全、合規、隱私及數據保護領域積累多年的技術和治理能力,華為云為您提供安全、可靠、可信賴的基礎設施和服務。華為云提出“七層防線+一個中心”的網絡安全建設框架,通過多重、多方面的安全防線來成體系保障云上業務的安全性。華為云把安全合規作為首要任務,安全是華為云和您之間的共同責任。在云服務模式下,華為云與客戶共同承擔云環境的安全保護責任,為明確雙方的責任,確定責任邊界,華為云制定了責任共擔模型。華為云負責云的安全性,華為云客戶負責云上的安
261、全性。詳細內容見:華為云責任共擔模型華為云責任共擔模型3.2 基本概念基本概念卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司753.2.1 概念表概念表概念概念解釋解釋機密性確保只有授權的用戶可以訪問系統中的敏感信息,防止未經授權的訪問和泄露。機密性通常通過加密技術來實現,包括對數據進行加密和解密的過程,確保只有授權用戶能夠訪問和理解數據內容。完整性確保數據在傳輸和存儲過程中不被篡改,保持數據的完整性,防止數據被惡意篡改或損壞。完整性通常通過哈希函數和數字簽名等技術來實現,確保數據在傳輸或存儲過程中沒有被篡改或損壞??捎眯源_
262、保系統和數據在需要時可用,防止因攻擊、故障或其他原因導致系統不可用。從安全的角度,可用性可通過負載均衡、彈性計算、事件監控和告警、防暴力攻擊如DDoS防護等手段來實現??蓪徲嬒到y或數據處理過程能夠被有效地監視、記錄和審計的能力??蓪徲嬓酝ǔMㄟ^審計日志、審計跟蹤、監控系統和審計工具等技術來實現,記錄系統操作和事件,以便后續審計和監控。不可抵賴性在通信或交易過程中,一方無法否認已經發出的消息或行為,也無法否認接收到的消息或行為。不可抵賴性通常通過數字簽名、公鑰基礎設施(PKI)、審計日志和審計跟蹤等技術來實現,確保通信雙方無法否認其行為或消息。賬號帳號是您的華為云資源歸屬、資源隔離、計費的主體,
263、對其所擁有的資源及云服務具有完全的訪問權限。每個賬號具有獨立的身份驗證、訪問控制和資源隔離,賬號之間默認相互隔離。IAM統一身份認證(Identity and Access Management,簡稱IAM)是華為云提供身份認證和權限管理的基礎服務,可以幫助您安全地控制云服務和資源的訪問權限。IAM用戶由帳號在IAM中創建的用戶,是云服務的使用人員,具有獨立的身份憑證(密碼和訪問密鑰),根據帳號授予的權限使用資源。賬號與IAM用戶可以類比為父子關系,賬號是資源歸屬以及計費的主體,對其擁有的資源具有所有權限。IAM用戶由賬號創建,只能擁有賬號授予的資源使用權限,賬號可以隨時修改或者撤銷IAM用戶
264、的使用權限。多因素認證多因素認證(Multi-Factor Authentication,簡稱MFA)是一種安全認證過程,需要用戶提供兩種及以上不同類型的認證因子來表明自己的身份,包括密碼、指紋、短信驗證碼、智能卡、生物識別等多種因素組合,從而提高用戶賬戶的安全性。安全威脅安全威脅指的是可能導致系統、網絡或數據遭受損害、被破壞或被訪問的潛在危險因素或事件。安全威脅可以是意外的,也可以是有意的,可能會導致系統遭受攻擊或受到損害。安全威脅可以是外部的(如黑客攻擊、惡意軟件)或內部的(如員工疏忽、內部泄露)。威脅建模識別系統的潛在威脅以建立防護策略,構建安全的系統。卓越架構技術框架卓越架構技術框架與
265、實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司76概念概念解釋解釋安全風險安全風險是指在面臨安全威脅的情況下,系統、網絡或數據可能遭受損害或喪失機密性、完整性或可用性的概率和影響程度。安全風險通常由威脅的存在、系統漏洞、不恰當的安全措施或其他因素造成。安全風險通常通過風險評估來評估和管理,以確定風險的程度并采取相應的控制措施。Playbook處置劇本安全響應中的處置劇本是一種預定義的操作指南,旨在幫助安全團隊在面對特定的安全事件或威脅時,迅速且有序地采取行動。劇本通常包含詳細的步驟、流程、工具和責任分配,以確保安全事件得到有效處理,減少潛在損失和影響。數據主
266、體提供個人數據,可以通過個人數據識別或個人數據的組合識別的自然人,對個人數據有疑問時,有投訴或提出質詢的權利。如:產品的最終用戶,公司的雇員等。數據控制者單獨或者與他人共同確定個人數據處理的目的和手段的自然人、法人、公共機構、政府部門或其他機構。對個人數據的處理有控制權,承擔個人數據保護的主要責任。數據處理者代表數據控制者處理個人數據的自然人、法人、公共機構、政府部門或其他機構。數據處理者必須按照數據控制者的要求對個人數據進行充分的保護。第三方(特指隱私保護中的第三方角色)指數據主體、數據控制者、數據處理者以及根據數據控制者或者處理者的直接授權而處理數據的人之外的任何自然人或法人、公共權力機關
267、、代理機構或其他機構。個人數據個人數據是指與一個身份已被識別或者身份可被識別的自然人(“數據主體”)相關的任何信息。身份可識別的自然人是指其身份可以通過諸如姓名、身份證號、位置數據等識別碼或者通過一個或多個與自然人的身體、生理、精神、經濟、文化或者社會身份相關的特定因素來直接或者間接地被識別。敏感個人數據高影響個人數據的一個子集。指在個人基本權利和自由方面極其敏感,一旦泄露可能會造成人身損害、財務損失、名譽損害、身份盜竊或欺詐、歧視性待遇等的個人數據。3.2.2 概念模型概念模型華為云的客戶在注冊賬號后,每個賬號下可以創建多個IAM用戶。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔
268、版本 01(2025-01-22)版權所有 華為技術有限公司77對于大型企業的客戶,可能會管理多個賬號,這些賬號可以被統一管理??蛻艨赏ㄟ^一個企業主賬號結合多個企業子賬號來統一管理賬號。主賬號與子賬號中都可以再創建更小層級的IAM用戶,這些IAM用戶分別屬于對應的賬號,可以幫助賬號管理資源。華為云企業中心提供了多個相互獨立的華為賬號之間形成企業主子賬號關聯關系的能力。3.3 設計原則設計原則國際標準化組織(ISO)對計算機系統安全的定義為:確保信息資產(包括硬件、軟件、網絡、數據等)受到保護,以確保其機密性、完整性和可用性。計算機系統安全的目標是保護信息系統免受未經授權的訪問、使用、披露、破壞
269、、修改、中斷或不可用的威脅,同時確保信息系統能夠持續地提供服務。系統安全的基本要素包括機密性、完整性、可用性、可審計、不可抵賴性等。其中最基本的三個要素是機密性(Confidentiality)、完整性(Integrity)、可用性(Availability),簡稱CIA。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司78為實現系統安全所定義的基本要素,業界根據大量的實踐,提煉出一些共性的安全設計原則:零信任原則(零信任原則(Zero Trust)零信任遵循“永不信任,始終驗證”的安全理念,假設任何人或程序都不可信,無論是內
270、部用戶、外部用戶還是網絡設備。系統內的組件進行任何通信之前都將通過顯式的驗證,減少系統信任帶來的攻擊面。零信任把現有的基于實體鑒別和默認授權的靜態信任模型(非黑即白),變成基于持續風險評估和逐次授權的動態信任模型。零信任不根據網絡空間位置決定可信度,其重心在于保護資源,而不是網段。與傳統安全理念對比,它將網絡防御的重心從靜態的、基于網絡的邊界轉移到了用戶、設備和資源上。所有的資源(如人/物/終端/應用/網絡/數據/供應鏈)都需要進行持續身份驗證和信任評估,從全局視角執行動態安全策略。零信任通過動態、持續性的實體風險評估,縮小受攻擊面,保證系統安全??v深防御原則(縱深防御原則(Defense I
271、n Depth)多點、多重的安全防護機制來分層保護組織的網絡、資產和資源。不依賴單層安全防護能力,不因單一安全防護能力失效而完全暴露。假設系統受到攻擊,系統有一定的韌性能力保持最小化系統運行,可以提供最小化服務。最小化原則(最小化原則(Least Privilege)最小化身份:盡可能減少非必要的系統管理員,定時清理過期的身份。最小化權限:給予用戶或實體最小必要權限來執行其工作,以降低潛在的安全風險。最小化暴露面:對不同的訪問區域和訪問對象,僅暴露最小的服務端點和最少的服務應用接口。最小化憑證:盡量消除對長期的、靜態憑證的依賴。數據安全保護原則(數據安全保護原則(Data Security)數
272、據分類分級,定義不同級別的數據防護措施。確保對數據進行適當的加密、備份和訪問控制,以保護數據的機密性、完整性和可用性。維護個人隱私權利,保護隱私數據的機密性和完整性。DevSecOpsDevSecOps的核心理念是將安全性納入到整個軟件開發生命周期中,從需求分析、設計、開發、測試、部署、運維、運營的每個階段都考慮安全性,以確保系統的安全性和穩定性。通過將安全性與DevOps的自動化流程相結合,DevSecOps可更快地檢測和修復安全漏洞,并提高軟件開發的效率和質量。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司793.4 問
273、題和檢查項問題和檢查項問題問題檢查項檢查項/最佳實踐最佳實踐SEC01 如何整體考慮云安全治理策略?1.建立安全管理隊2.建立安全基線3.梳理資產清單4.分隔工作負載5.實施威脅建模分析6.識別并驗證安全措施SEC02 如何管理人機接口和機機接口的身份認證?1.對賬號進行保護2.安全的登錄機制3.安全管理及使用憑證4.一體化身份管理SEC03 如何管理人員和機器的權限?1.定義權限訪問要求2.按需分配合適的權限3.定期審視權限4.安全共享資源SEC04 如何進行網絡安全設計?1.對網絡劃分區域2.控制網絡流量的訪問3.網絡訪問權限最小化SEC05 如何進行運行環境的安全設計?1.云服務安全配置
274、2.實施漏洞管理3.減少資源的攻擊面4.密鑰安全管理5.證書安全管理6.使用托管云服務SEC06 如何進行應用程序安全設計?1.安全合規使用開源軟件2.建立安全編碼規范3.實行代碼白盒檢視4.應用安全配置5.執行滲透測試SEC07 如何進行數據安全設計?1.識別工作負載內的數據2.數據保護控制3.對數據操作實施監控4.靜態數據的加密5.傳輸數據的加密卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司80問題問題檢查項檢查項/最佳實踐最佳實踐SEC08 如何進行數據隱私保護設計?1.明確隱私保護策略和原則2.主動通知數據主體3.數
275、據主體的選擇和同意4.數據收集合規性5.數據使用、留存和處置合規性6.向第三方披露個人數據合規性7.數據主體有權訪問其個人隱私數據SEC09 如何進行安全感知及威脅檢測?1.實施標準化管理日志2.安全事件記錄及分析3.實施安全審計4.安全態勢感知SEC10 如何進行安全事件的響應?1.建立安全響應團隊2.制定事件響應計劃3.自動化響應安全事件4.安全事件演練5.建立復盤機制 3.5 云安全治理策略云安全治理策略3.5.1 SEC01 云安全治理策略云安全治理策略企業安全的最終目標不會隨著采用云服務而改變,但實現這些目標的方式將會改變。為了安全地操作、管理您的工作負載,您必須對安全性的各個方面進
276、行總體策略上的考慮。企業的管理層和安全團隊需要根據企業總體安全戰略和業務戰略制定云安全戰略,并且需要在計劃采用云服務時盡早考慮安全性。云安全治理策略包括安全團隊、安全基線、安全資產、安全建模以及核心的安全控制點。企業需盡早規劃和思考如何使用云技術和云服務來實現安全治理的現代化,并通過實施合理的云安全策略,實現云上業務系統的安全、合規。3.5.1.1 SEC01-01 建立安全管理團隊建立安全管理團隊指定負責工作負載在云環境的安全性、合規性、隱私保護方面的關鍵角色,確保從責任主體上保障工作負載的安全性。風險等級風險等級高關鍵策略關鍵策略明確職責和角色:確定團隊成員的職責和角色,包括安全架構設計、
277、安全測試、安全運營等方面的角色。每個角色應清晰定義其職責范圍和任務??缏毮軋F隊:組建一個跨職能的安全管理團隊,涵蓋安全運營、安全架構、安全合規等不同領域的專業人員,以確保綜合性的安全管理。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司81制定安全政策和流程:制定詳細的安全政策和流程,明確安全管理的標準和規范。團隊成員應遵守這些政策和流程,確保安全管理的一致性和有效性。建立應急響應計劃:開發和測試應急響應計劃,以應對安全事件和緊急情況。團隊應清楚知道如何應對安全威脅和處理安全事件。3.5.1.2 SEC01-02 建立安全基線
278、建立安全基線建立符合合規性要求、行業標準和平臺建議的安全基線,安全基線是團隊內對安全的底線要求。根據基線定期衡量您的工作負載架構和運行情況,持續保持或改善工作負載的安全狀況。風險等級風險等級高關鍵策略關鍵策略確定合規性要求:了解您的工作負載必須符合的組織、法律和合規性要求。相關云服務和工具相關云服務和工具華為云合規中心華為云合規中心華為云信任中心華為云信任中心華為云等保合規安全解決方案華為云等保合規安全解決方案:華為云依托自身安全能力與安全合規生態,為客戶提供一站式的安全解決方案,幫助客戶快速、低成本完成安全整改,輕松滿足等保合規要求。通過華為30年安全經驗積累,結合企業和機構的安全合規與防護
279、需求,來幫助企業與機構滿足國家及行業法律法規要求,同時實現對安全風險與安全事件的有效監控,并及時采取有效措施持續降低安全風險,消除安全事件帶來的損失。3.5.1.3 SEC01-03 梳理資產清單梳理資產清單梳理工作負載涉及的服務器、IP地址、域名、數據庫、證書等全量云資源的資產清單,給資源打上標簽,從而在出現安全事件時,能快速定位到有安全風險的資源。風險等級風險等級高關鍵策略關鍵策略設計態與運行態一致性:對照設計態的架構圖、架構文檔實施云服務資源。工作負載運行時的架構始終保持與設計態一致。自動化資產盤點:使用安全云服務或工具來自動發現和記錄云上資源,包括主機、存儲、數據庫、網絡等。這樣可以確
280、保資產清單的及時性和準確性。標簽和元數據:使用標簽和元數據來對云資源進行分類和描述,以便更好地組織和管理資源清單。通過標簽可以快速識別和過濾資源,有助于監控和安全審計。相關云服務和工具相關云服務和工具解決方案工作臺解決方案工作臺 InnoStageWorkbench:使用解決方案工作臺輔助進行云上架構的可視化設計。安全云腦 SecMaster:安全云腦支持對云上資產全面自動盤點,也可靈活納管云外各種資產,點清所有資產,并呈現資產實時安全狀態。配置審計 Config標簽管理服務 TMS卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限
281、公司823.5.1.4 SEC01-04 分隔工作負載分隔工作負載分隔工作負載是一種架構上進行分治的思想,通過將整個系統的工作負載分割成更小的部分,每個部分獨立運行和管理,從而提高系統的安全性和可維護性。風險等級風險等級高關鍵策略關鍵策略一個企業特別是大型企業往往有多個不同類型(如生產環境、開發環境、測試環境)或不同組織單元(OU)下的工作負載,多個組織單元之間或多個工作負載之間要進行隔離。分隔工作負載在云環境中是非常重要的。從安全治理角度,主要基于以下幾個理由:安全性:分隔工作負載可以降低潛在的安全風險。通過將不同的工作負載隔離在獨立的環境中,可以減少一種工作負載受到攻擊或故障時對其他工作負
282、載的影響。合規性:在一些行業和法規中,對數據隔離和訪問控制有嚴格要求。通過分隔工作負載,可以更容易地滿足合規性要求,保護敏感數據和確保數據隱私。管理性:通過分隔工作負載,可以更輕松地管理和維護系統。每個工作負載都有獨立的配置和管理需求,分隔可以簡化管理流程并降低操作風險。靈活性:分隔工作負載可以提供更大的靈活性和可擴展性。組織可以根據需要調整和擴展不同工作負載的資源,而不會影響其他部分。華為云提供了以下幾種工作負載的分隔機制:通過多VPC分隔工作負載:將不同的工作負載部署在不同的VPC中,每個VPC具有獨立的網絡空間,實現網絡隔離。通過企業項目分隔工作負載:企業項目是云服務資源的邏輯集合,將工
283、作負載部署在不同的企業項目中,實現資源的分組管理和權限控制。通過多賬號分隔工作負載:將不同的工作負載部署在不同的華為云賬號中,每個賬號具有獨立的身份驗證、訪問控制和資源隔離。這種方法可以實現更嚴格的隔離和安全性。為每個賬號分配最小必要權限,避免權限過度賦予。這有助于減少潛在的安全風險和權限濫用。針對需要跨賬號訪問的情況,使用適當的身份驗證和授權機制,如跨賬號委托、資源共享等。多者結合:同時使用以上的兩種或多種方式分隔工作負載。相關云服務和工具相關云服務和工具虛擬私有云 VPC企業項目 EPS統一身份認證服務 IAM華為云華為云Landing Zone解決方案解決方案組織 Organizatio
284、ns資源治理中心 RGC資源訪問管理 RAM卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司833.5.1.5 SEC01-05 實施威脅建模分析實施威脅建模分析威脅建模是一種系統性的方法,用于識別和評估可能對系統或組織造成威脅的潛在威脅源、攻擊路徑和攻擊手段。通過識別威脅理解系統的安全風險,發現系統設計中的安全問題,制定消減措施,降低系統風險,提升系統安全性和韌性。風險等級風險等級高關鍵策略關鍵策略以下是系統運行期間的威脅模型:該模型中涉及的概念如下:威脅主體:有企圖的利用脆弱性的實體稱為威脅主體;威脅主體可以是人、程序、硬
285、件或系統。脆弱性:系統中允許破壞其安全性的缺陷,包括軟件、硬件或過程或人為的缺陷。脆弱性的存在,說明了缺少應該使用的安全措施,或安全措施有缺陷。威脅:利用脆弱性而帶來的任何潛在危險。風險:攻擊者利用脆弱性的可能性以及相應的業務影響;風險將脆弱性、威脅和利用可能性與造成的業務影響聯系在一起。資產:任何對組織有價值的信息或資源,是安全策略保護的對象。處置措施:包括安全角度的消減措施和韌性角度的增強措施,能夠消除脆弱性或者阻止威脅,或者降低風險的影響和保護資產。實施威脅建模,需要有攻擊者思維,像攻擊者一樣思考,發現潛在的暴露面/攻擊目標及可用的攻擊方法,從而發現系統中潛在的安全威脅、建立相應的消減措
286、施。威脅建模的一般步驟如下:a.確定范圍:明確要進行威脅建模的云上系統范圍,包括云服務、數據存儲、網絡架構等。b.收集信息:收集關于云上系統的信息,包括系統架構圖、數據流程、訪問控制策略等。c.識別資產:確定在云上系統中的關鍵資產,包括數據、應用程序、虛擬機、存儲等。d.識別威脅源和攻擊路徑:確定可能對云上系統構成威脅的威脅源和攻擊路徑,考慮不同攻擊者可能采取的攻擊手段。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司84e.評估威脅概率和影響:評估每種威脅的概率和可能造成的影響,包括數據泄露、服務中斷等。f.制定安全對策:根
287、據識別的威脅,制定相應的安全對策和控制措施,包括訪問控制、加密、監控等。g.持續改進:定期檢視和更新威脅模型,以反映新的威脅和安全風險,確保云上系統的安全性得到持續改進。以下是OWASP總結的Web應用系統TOP10的威脅及處置措施:相關云服務和工具相關云服務和工具解決方案工作臺解決方案工作臺 InnoStageWorkbench:使用解決方案工作臺輔助進行云上架構圖的可視化設計,基于架構圖進行威脅分析。3.5.1.6 SEC01-06 識別并驗證安全措施識別并驗證安全措施根據團隊制定的安全基線以及威脅建模分析的結果,對工作負載中涉及的安全措施進行驗證,以確保它們按照預期方式運行并有效地保護系
288、統,從而緩解或消除安全威脅。風險等級風險等級高關鍵策略關鍵策略依據系統的安全設計文檔,通過驗證確保安全措施被正確地集成到系統中,并符合最佳實踐和標準。盡早檢視系統的代碼(此過程稱為代碼白盒安全檢視),確保代碼符合安全最佳實踐,避免在后續階段發現嚴重的安全漏洞。利用安全測試工具進行靜態代碼分析、動態代碼分析、漏洞掃描等測試,以發現潛在的安全問題。使用模擬攻擊工具或技術,嘗試模擬攻擊者的行為,以評估系統的安全性和弱點。3.6 基礎設施安全基礎設施安全3.6.1 SEC02 身份認證身份認證卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有
289、限公司853.6.1.1 SEC02-01 對賬號進行保護對賬號進行保護賬號是華為云租戶的賬號體系中權限最高的用戶,擁有對整個云環境的最高權限。一旦賬號受到攻擊或泄露,可能導致嚴重的安全問題和數據泄露。因此,身份認證的安全性首先要考慮對此賬號進行保護。風險等級風險等級高關鍵策略關鍵策略強密碼:使用強密碼來保護賬號,包括數字、字母、特殊字符的組合,并確保密碼足夠長且復雜。多因素認證(MFA):啟用多因素認證為保護賬號提供了額外的安全層次。除了密碼之外,MFA需要額外的身份驗證信息,提高了賬號的安全性。限制日常操作:避免直接使用賬號進行日常操作,而是創建并使用IAM用戶進行日常的管理操作。賬號應僅
290、用于關鍵操作,如創建新的IAM用戶或修改權限。優先使用臨時憑證并定期輪換憑證:定期更改賬號的密碼,并定期更新MFA設備。這有助于減少被猜測或盜用的風險。啟用審計日志:啟用審計日志功能,以監控賬號的活動。審計日志可以幫助檢測異常行為并及時采取措施。多賬號管理場景:需指定一個賬號作為中央賬號(企業主賬號),由這個賬號再添加成員賬號(企業子賬號)。優先保證中央賬號的安全,再考慮成員賬號。相關云服務和工具相關云服務和工具統一身份認證服務 IAM組織 Organizations企業管理企業管理云審計服務 CTS3.6.1.2 SEC02-02 安全的登錄機制安全的登錄機制將安全的登錄機制用于賬號、IAM
291、用戶以及對接第三方身份提供商。風險等級風險等級高關鍵策略關鍵策略除了賬號,確保IAM管理員(有管理員權限的IAM用戶)也開啟MFA機制登錄,避免登錄憑證泄露帶來的風險。配置IAM的登錄驗證策略,如會話超時策略、賬號鎖定策略、賬號停用策略、最近登錄提示等。配置IAM的網絡訪問控制策略。限制用戶只能從特定 IP 地址區間、網段及VPC Endpoint 訪問華為云。多個賬號或多個IAM用戶間使用不同的密碼。禁止將用戶的密碼共享給其他人,而是為每個管理或使用華為云資源的人創建一個單獨的用戶。修改新用戶的默認密碼。使用IAM創建新用戶時,可通過郵件發送一次性登陸鏈接給新用戶,新用戶使用鏈接進行登陸時需
292、要設置密碼,另外在管理員自定義新用戶的密碼時可選擇強制用戶在激活后修改默認密碼。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司86集中的身份管控:使用單點登錄:考慮使用單點登錄解決方案,集中管理用戶的身份認證信息,簡化用戶登錄流程,提高安全性和用戶體驗。多賬號場景,對賬號的集中管控。相關云服務和工具相關云服務和工具IAM身份提供商身份提供商華為賬號使用的安全最佳實踐華為賬號使用的安全最佳實踐應用身份管理服務 OneAccess:使用OneAccess與您組織的HR系統關聯實現單點登錄。3.6.1.3 SEC02-03 安全管
293、理及使用憑證安全管理及使用憑證在進行身份驗證時,首要選擇使用臨時憑證而非長期或永久性憑證,以減少或消除因憑證意外泄露、共享或被盜而帶來的風險。風險等級風險等級高關鍵策略關鍵策略長期憑證如用戶的登錄密碼、永久AK/SK,短期憑證如臨時AK/SK、通過委托獲取的權限等。禁止將長期憑證硬編碼到代碼中,以免泄露。優先使用臨時憑證調用華為云的SDK或API。如果某些情況下不能選擇臨時憑證,才使用長期憑證。在此情況下,建議將長期憑證放置到代碼之外的文件或由第三方托管,將長期憑證作為變量傳入使用。要定期審計和實施憑證輪換,以幫助降低長期憑證相關風險。對您的身份提供者和IAM中配置的身份進行審計,這有助于驗證
294、只有經過授權的身份才能訪問您的工作負載。使用數據加密服務DEW托管憑據。實現對數據庫賬號口令、服務器口令、SSH Key、訪問密鑰等各類型憑據的統一管理、檢索與安全存儲。使用數據加密服務DEW中的憑據管理服務(CSMS)定期輪換憑證。使用IAM委托。委托操作權限給云服務或者其它賬號。相關云服務和工具相關云服務和工具數據加密服務 DEW統一身份認證服務 IAM3.6.1.4 SEC02-04 一體化身份管理一體化身份管理在公司范圍內構建統一的身份管理系統,統一管理私有云和公有云、公有云上多個賬號的用戶身份。風險等級風險等級中關鍵策略關鍵策略在公司范圍內構建統一身份管理系統,集中存儲用戶身份信息。
295、統一身份管理系統與私有云、公有云平臺的IAM系統進行身份聯邦,統一身份管理系統中的用戶身份可以同時訪問私有云和公有云平臺。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司87統一身份管理系統與公司的HR流程結合,當員工入職、調崗和離職時可以觸發用戶的創建、變更和刪除。針對Landing Zone搭建的云上多賬號環境,利用IAM身份中心集中管理多個賬號的用戶身份,并集中為這些用戶配置能夠訪問多個賬號下云資源的權限,無需在每個賬號的IAM系統分別創建IAM用戶并配置權限,簡化多賬號環境下身份權限管理的工作量。統一身份管理系統與IA
296、M身份中心建立身份聯邦,這樣無需分別與每個賬號的IAM系統進行身份聯邦。相關云服務和工具相關云服務和工具IAM身份中心 IAM Identity Center統一身份認證服務 IAM應用身份管理服務 OneAccess3.6.2 SEC03 權限管理權限管理3.6.2.1 SEC03-01 定義權限訪問要求定義權限訪問要求明確定義哪些人員或機器應當有權訪問哪個組件,選擇用于進行身份驗證和授權的適當身份類型和方法。風險等級風險等級高關鍵策略關鍵策略使用IAM角色來定義應用程序和組件對資源的訪問權限。通過構建最低權限訪問模型,確保只授予必要的權限。根據用戶的角色和職責分配權限,確保用戶只能訪問其工
297、作所需的資源。相關云服務和工具相關云服務和工具統一身份認證服務 IAM3.6.2.2 SEC03-02 按需分配合適的權限按需分配合適的權限權限管理應遵循按需分配、最小授權、職責分離原則。需要根據工作職責限定人員對于關鍵業務系統的訪問權限,以免非必要人員或非授權人員訪問到關鍵系統和敏感數據。如需要臨時權限,應僅向用戶授予有限的時間段內執行特定任務的權限,并且在任務完成后,應撤銷訪問權限。風險等級風險等級高關鍵策略關鍵策略按照IT工作職能劃分用戶組,將用戶加入到與其匹配的用戶組中。用戶組是IAM用戶的集合,IAM可以通過用戶組功能實現用戶的授權。優先基于用戶組授權,而不是基于用戶授權?!癮dmi
298、n”為系統缺省提供的管理員用戶組,具有所有云服務資源的操作權限。避免將所有用戶都加入admin用戶組。遵循最小權限原則,僅授予用戶組必要的最小權限,如某些用戶組只能訪問特定的云服務或者某些用戶組僅有云服務資源的只讀權限。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司88避免IAM自定義策略中包含“*:*”管理權限。如果使用了企業項目,優先在企業項目中對用戶組進行授權。如果需要針對賬號內所有區域或特定區域內的所有資源進行統一授權,如將賬號內所有企業項目的所有資源的訪問權限授予統一資源管理組,則可以使用IAM項目進行授權,避免在
299、各個企業項目中逐一授權,簡化授權操作。相關云服務和工具相關云服務和工具統一身份認證服務 IAM企業項目 EPS云堡壘機CBH:使用CBH限制對運維賬號的使用和訪問。CBH可用于集中管控運維賬號訪問系統和資源的權限,對系統和資源的訪問權限進行細粒度設置。組織 Organizations:多賬號場景使用Organizations云服務的服務控制策略(SCP)。組織管理賬號可以使用SCP指定組織中成員賬號的權限邊界,限制賬號內用戶的操作。服務控制策略可以關聯到組織、組織單元和成員賬號。當服務控制策略關聯到組織或組織單元時,該組織或組織單元下所有賬號受到該策略影響。3.6.2.3 SEC03-03 定
300、期審視權限定期審視權限定期檢視和更新權限,以避免權限蔓延,持續清理無用的權限。風險等級風險等級高關鍵策略關鍵策略使用IAM用戶組控制人員的訪問權限,并設置權限的到期時間。如果用戶組的職責產生變化,應該及時調整用戶組的權限。當賬號委托給另一個賬號時,設置到期時間。通過IAM用戶的“最近一次登錄時間”,判斷該用戶是否為長期未登錄的用戶,及時管理他們的身份憑證及權限。相關云服務和工具相關云服務和工具統一身份認證服務 IAM3.6.2.4 SEC03-04 安全共享資源安全共享資源大企業的不同組織、部門、團隊之間需要安全共享資源。風險等級風險等級中關鍵策略關鍵策略大企業往往涉及多個組織單元、多個賬號,
301、需要對多賬號之間進行共享資源。安全共享資源需遵循以下實踐:使用資源標簽。通過標簽對資源進行分類和標記,以便于管理和應用策略。僅與可信實體共享資源。通過使用服務控制策略(SCP)限制權限,您可以限制組織內賬戶的權限,確保資源僅在組織內部共享。創建專門的服務賬號用于共享資源的訪問。相關云服務和工具相關云服務和工具卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司89組織 Organizations資源訪問管理 RAM:使用RAM為用戶提供安全的跨賬號共享資源的能力。如果您有多個華為云賬號,您可以創建一次資源,并使用RAM服務將該資源
302、共享給其他賬號使用,這樣您就不需要在每個賬號中創建重復的資源。3.6.3 SEC04 網絡安全網絡安全3.6.3.1 SEC04-01 對網絡劃分區域對網絡劃分區域網絡的分區是將網絡劃分為多個部分,以隔離不同敏感性要求的網絡流量和資源,從而增加網絡的安全性。風險等級風險等級高關鍵策略關鍵策略通過網絡分區,可以實現以下目的:隔離敏感數據:將敏感數據和應用程序隔離在獨立的網絡分區中,以減少未經授權訪問的風險??蓴U展性:分區和分層可以幫助管理和擴展復雜的網絡架構,使其更易于維護和擴展。限制網絡流量:控制不同網絡分區之間的通信流量,以確保只有經過授權的流量可以流動。提高性能和可用性:通過分區網絡,可以
303、優化網絡性能和可用性,避免網絡擁塞和單點故障的影響。定義每個分區的邊界,并按照方便管理和控制的原則為各網絡區域分配地址。例如,對于一個Web工作負載,劃分Web區、App區、Data區等。最重要的邊界是公共網絡(互聯網)與應用程序之間的邊界,這個邊界是您的工作負載的第一道防線。華為云的VPC和子網都可以作為每個網絡分區的邊界。VPC劃分:為VPC指定合適的CIDR范圍,以確定VPC的IP地址空間。子網劃分:在VPC中,創建多個子網,并將不同的資源部署在不同的子網中。相關云服務和工具相關云服務和工具虛擬私有云 VPC3.6.3.2 SEC04-02 控制網絡流量的訪問控制網絡流量的訪問控制網絡流
304、量以確保網絡分區之間的流量是可預期的、允許的。依據零信任原則,需在網絡級別驗證所有的流量出入。確保網絡設備的業務能力、網絡每個部分的帶寬滿足業務高峰期的需要。風險等級風險等級高關鍵策略關鍵策略在設計網絡拓撲時,仔細檢查每個組件的連接要求,例如是否需要互聯網可訪問性(入站和出站)、連接到VPC的能力、邊緣服務和外部數據中心等。除非資源必須接收來自公網的網絡流量,否則不要將資源放置在VPC的公有子網中。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司90對于入站和出站流量,應采用深度防御方法。例如對入站流量進行入侵檢測、防范惡意的
305、網絡攻擊。對出站的流量使用NAT網關配置僅出站的單向連接。流量過濾。使用防火墻、ACL控制內部和外部網絡之間的訪問流量以及內部網絡中敏感區域的輸入及輸出流量,并對所有網絡流量進行檢查,阻止與已制定安全標準不相符的流量,以避免系統組件受到來自不可信網絡的非授權訪問。使用應用負載均衡時,七層負載均衡更換為安全的證書。啟用VPC流量日志。VPC流日志功能可以記錄虛擬私有云中的流量信息,幫助用戶優化安全組和防火墻控制規則、監控網絡流量、進行網絡攻擊分析等。關于安全日志更多見:SEC09-01 實施標準化管理日志實施標準化管理日志相關云服務和工具相關云服務和工具VPC、VPCEP企業路由器 ER云連接
306、CC云防火墻 CFW:提供云上互聯網邊界和VPC邊界的防護,包括實時入侵檢測與防御、全局統一訪問控制、全流量分析可視化、日志審計與溯源分析等,同時支持按需彈性擴容、AI提升智能防御能力、靈活擴展滿足云上業務的變化和擴張需求,極簡應用讓用戶快速靈活應對威脅。云防火墻服務是為用戶業務上云提供網絡安全防護的基礎服務。WAF:保護網站等Web應用程序免受常見Web攻擊,保障業務持續穩定運行,滿足合規和監管要求。AAD:華為云DDoS防護提供全球化服務,以應對DDoS攻擊挑戰,可提供毫秒級攻擊響應、多維度行為分析及機器學習、防御策略自動調優,精確識別各種復雜DDoS攻擊,以保護您的業務連續性。用Anti
307、-DDoS流量清洗服務提升帶寬利用率。Anti-DDoS為彈性公網IP提供四到七層的DDoS攻擊防護和攻擊實時告警通知,提升用戶帶寬利用率,確保用戶業務穩定運行。NAT網關:NAT網關位于互聯網與云上VPC之間,通過部署NAT網關可掩蓋內部網絡的IP地址,降低虛擬環境遭受攻擊的風險。ELB:對流量進行負載均衡到后端多個節點。3.6.3.3 SEC02-03 網絡訪問權限最小化網絡訪問權限最小化確保只有必要的人員或組件可以訪問特定的網絡資源。風險等級風險等級高關鍵策略關鍵策略通過配置安全組和網絡訪問控制列表(ACL),控制進出云資源的網絡流量,確保只有授權的流量能夠訪問特定的服務和端口。根據業務
308、實際情況優化每個網絡區域的ACL,并保證訪問控制規則數量最小化。避免暴露多余的公網IP,同時不應對外開放或未最小化開放高危端口、遠程管理端口。安全組僅開放業務所需的網段及端口,禁止設置成對所有IP(0.0.0.0/0)都可訪問。相關云服務和工具相關云服務和工具虛擬私有云 VPC卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司91NAT網關 NAT安全云腦 SecMaster:云服務基線核查3.6.4 SEC05 運行環境安全運行環境安全3.6.4.1 SEC05-01 云服務安全配置云服務安全配置安全配置是一個信息系統的最小安
309、全保障,云服務安全配置是云環境最基本的安全保證,是開展安全防護的基礎。正確配置云服務可以幫助防止安全漏洞和數據泄露,提高整體系統安全性。如果云服務沒有達到安全配置基線要求,云上業務及資產將面臨巨大安全風險。風險等級風險等級高關鍵策略關鍵策略遵循華為云安全配置基線指南,包括對不同服務的安全配置建議,例如:容器安全,例如容器安全配置,CCE里不安全的容器配置可能導致容器逃逸問題系統漏洞,例如操作系統的版本有沒有升到最新版,使用版本是否存在漏洞開放必要的端口,例如系統是否對公網開放22,3306等高危端口禁止將重要業務數據所在的OBS桶設置為公開桶或者配置為公共可讀。定期執行云服務安全配置的基線檢查
310、。全面性檢查:確?;€檢查覆蓋所有關鍵的云服務配置項,包括身份認證、訪問控制、網絡安全等關鍵配置。定期與實時檢查:設置定期自動檢查計劃,并提供實時檢查功能,以便在需要時立即評估云服務的安全狀態。風險評估:對檢查結果進行風險評估,識別不同級別的風險資源,如致命、高危、中危、低危和提示。相關云服務和工具相關云服務和工具華為云服務的安全特性華為云服務的安全特性:在云服務模式下,如何保障云上安全,成為大多數企業和客戶的首要關注問題。華為云致力于保障其所提供的IaaS、PaaS和SaaS各類各項云服務自身的安全及基礎設施安全,同時也為致力于為客戶提供先進、穩定、可靠、安全的產品及服務。文檔中說明了如何配
311、置華為云服務以滿足您的安全性目標。華為云安全配置基線指南華為云安全配置基線指南配置審計 Config安全云腦 SecMaster:使用安全云腦對云服務安全配置基線進行基線檢查,持續保護客戶的云服務安全。企業主機安全 HSS:最新版本支持包含主機安全和容器安全(原CGS服務)的特性卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司923.6.4.2 SEC05-02 實施漏洞管理實施漏洞管理漏洞管理有助于及時發現并修復系統中存在的安全漏洞,防范潛在的安全威脅和攻擊。安全漏洞可能使他人非法獲得系統訪問特權,應通過可信渠道獲取最新的安
312、全情報。風險等級風險等級高關鍵策略關鍵策略安全漏洞可通過及時安裝安全補丁的方式修復漏洞,以防惡意個人或軟件非法利用從而破壞業務系統和數據。通過及時了解最新的華為云和業界的安全公告,實施對應消減建議,來保證工作負載的安全。及時了解最新的華為云和行業安全建議。華為云安全公告華為云安全公告包含有關安全性的最新信息。漏洞掃描和識別:利用華為云云服務對系統、應用程序進行定期掃描,以發現潛在的漏洞和安全弱點。自動化掃描漏洞:使用自動化漏洞掃描工具對運行環境進行定期掃描,以發現潛在的漏洞和安全風險。漏洞修復和補丁管理:制定漏洞修復計劃,及時修復已確認的漏洞,并管理安全補丁的發布和應用過程。在關鍵節點處檢測和
313、清除惡意代碼:應在關鍵網絡節點處對惡意代碼進行檢查和清除,并維護惡意代碼防護機制的升級和更新。相關云服務和工具相關云服務和工具企業主機安全 HSS安全云腦 SecMaster漏洞管理服務 CodeArts Inspector3.6.4.3 SEC05-03 減少資源的攻擊面減少資源的攻擊面通過加固操作系統、減少未使用的組件和外部服務,以及使用工具加強云安全,減少資源的攻擊面。風險等級風險等級高關鍵策略關鍵策略強化操作系統和減少組件:通過減少未使用的組件、庫和外部服務,可以縮小系統在意外訪問下的危險。這包括操作系統程序包、應用程序以及代碼中的外部軟件模塊。創建安全的虛擬機鏡像或者容器鏡像。使用第
314、三方工具進行安全性分析:使用第三方靜態代碼分析工具和依賴關系檢查工具來識別常見的安全問題和漏洞,確保代碼的安全性和合規性。應用其他測試方法:除了工具的使用,還需要在應用程序級別進行測試,如使用模糊測試來查找和修復潛在的漏洞和錯誤。相關云服務和工具相關云服務和工具企業主機安全 HSS卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司933.6.4.4 SEC05-04 密鑰安全管理密鑰安全管理密鑰的安全管理對于整個工作負載的安全性至關重要。如果使用不恰當的密鑰管理方式,強密碼算法也無法保證系統的安全。密鑰的安全管理包括密鑰的生成、
315、傳輸、使用、存儲、更新、備份與恢復、銷毀等完整的生命周期流程。風險等級風險等級高關鍵策略關鍵策略生成密鑰:分層管理密鑰。最少把密鑰分為兩層,即:根密鑰和工作密鑰,根密鑰為工作密鑰提供加密保護。使用安全的隨機數生成器來生成密鑰,確保密鑰的隨機性和不可預測性。避免使用弱密鑰或者固定密鑰。傳輸密鑰:使用安全的通信渠道傳輸密鑰,如加密通道或者物理傳輸。確保傳輸過程中密鑰不被竊取或篡改。使用密鑰:最小化密鑰的使用范圍,避免在不必要的情況下暴露密鑰。實施訪問控制和權限管理,限制對密鑰的訪問。存儲密鑰:使用安全的存儲設備或者加密存儲來保存密鑰。確保只有授權人員可以訪問密鑰存儲。更新密鑰:定期更新密鑰以應對安
316、全漏洞和攻擊。使用安全的方式進行密鑰輪換,確保服務的連續性。備份與恢復:定期備份密鑰,并將備份存儲在安全的地方。確保有可靠的恢復機制,以防止密鑰丟失或損壞。銷毀密鑰:在密鑰不再需要時及時銷毀密鑰。使用安全的密鑰銷毀方法,如加密刪除或者物理銷毀。相關云服務和工具相關云服務和工具數據加密服務 DEW3.6.4.5 SEC05-05 證書安全管理證書安全管理證書的常見用途包括傳輸數據的加密和系統間的身份認證場景。集中管理每個證書的用途、有效期等信息,并及時對證書替換。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司94風險等級風險等
317、級中關鍵策略關鍵策略集中管理證書:建立中心化的證書管理系統,用于存儲、跟蹤和管理所有證書。確保每個證書都有清晰的標識,包括用途、所有者、有效期等信息。有效期管理:定期檢視證書的有效期,并確保及時對即將到期的證書進行更新或替換。避免使用過期證書,以防止安全漏洞和服務中斷。安全存儲:將證書存儲在安全的位置,只允許授權人員訪問。對私鑰進行額外保護,如使用硬件安全模塊(HSM)來存儲私鑰。加密傳輸:在證書的傳輸過程中使用加密通道,如SSL/TLS,以防止證書被篡改或竊取。避免在不安全的網絡中傳輸證書,確保傳輸的安全性。相關云服務和工具相關云服務和工具云證書管理服務 CCM:CCM提供SSL證書的申請、
318、簽發、查詢、吊銷等一站式管理服務。3.6.4.6 SEC05-06 使用托管云服務使用托管云服務將計算、數據庫、存儲等資源使用華為云云服務進行托管,避免自行構建增加的開發和運維成本。風險等級風險等級低關鍵策略關鍵策略實施用于托管資源的服務以便在責任共擔模式中減少安全維護任務。例如使用華為云的數據庫服務而不是自建關系型數據庫的實例。使用Serverless架構的云服務,將計算資源的安全交給華為云處理,減免了用戶自行運維服務器帶來的工作量和人為錯誤,減少了安全漏洞的風險。這樣,用戶能夠將更多精力集中在業務邏輯和應用的安全性上。相關云服務和工具相關云服務和工具云數據庫 RDS for MySQL云數
319、據庫 GaussDB函數工作流 FunctionGraph云容器實例 CCI事件網格 EG卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司953.7 應用安全應用安全3.7.1 SEC06 應用安全性應用安全性3.7.1.1 SEC06-01 安全合規使用開源軟件安全合規使用開源軟件開源軟件在現代軟件開發中的重要性不言而喻。越來越多的企業選擇使用開源軟件來開發和部署軟件應用程序。開源軟件的使用必須嚴格遵守合法合規的底線,包括開源軟件的來源、漏洞管理、可追溯、歸一化及生命周期管理等方面。風險等級風險等級高關鍵策略關鍵策略來源可靠
320、。由于開源軟件是公開的,因此黑客和攻擊者可以更容易地找到其中的漏洞和安全隱患,從而進行攻擊和入侵。確保引入的開源軟件來源于正規社區官網、供應商官網或廠家官網。明確軟件許可要求。確保引入的開源軟件有明確的許可證或簽訂有相關使用協議。確保按許可要求使用開源,遵守相關的開源許可證和法律法規要求,避免知識產權、License帶來的法律風險。應當履行開源義務,避免導致產品或企業的聲譽受損。歸一化管理。企業應進行開源軟件歸一化管理,對開源軟件的引入進行歸一,建立優選庫、路標庫,減少開源的種類和數量。牽引團隊使用優選的開源軟件,保障使用質量和安全。降低開源漏洞的影響。開源軟件的安全漏洞傳播快,影響大。一旦出
321、現安全漏洞,快速排查受影響的產品并進行修復是降低影響的關鍵??勺匪?。對開源軟件的變更過程可控、有記錄可查,建立產品版本與第三方軟件及漏洞的關系。3.7.1.2 SEC06-02 建立安全編碼規范建立安全編碼規范應用安全涉及需求、設計、實現、部署多個環節,實現的安全是應用安全的重要一環。建立安全編碼規范有助于團隊編寫更安全、更高質量的代碼,減少甚至規避由于編碼錯誤引入的安全風險。風險等級風險等級高關鍵策略關鍵策略發布團隊常用編程語言的安全編碼規范。通用的安全編碼規范應包含程序輸入校驗、程序輸出編碼、身份驗證、訪問控制、安全加解密算法、異常處理、IO操作、文件上傳、序列化、輸出格式化等。對于在We
322、b應用場景使用的語言如Java、Python,還要考慮安全會話管理、防SQL注入、防跨站腳本攻擊XSS、防跨站請求偽造CSRF等編碼規范。對于C/C+語言,要考慮緩沖區溢出漏洞、命令注入、危險函數、內存泄露、指針越界、數組讀寫越界等安全風險。對于JavaScript語言,要考慮容易受到XSS攻擊的安全風險。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司963.7.1.3 SEC06-03 實行代碼白盒檢視實行代碼白盒檢視代碼白盒檢視是一種軟件質量保證方法,通過檢視源代碼的內部結構、邏輯和實現細節,以確保代碼符合最佳實踐、編程
323、規范和安全標準。在代碼白盒檢視中,團隊成員會檢查代碼的質量、安全性、可讀性等方面,以發現潛在的問題和改進空間。風險等級風險等級中關鍵策略關鍵策略a.制定檢視計劃制定檢視計劃:i.確定檢視的頻率和時間安排,以確保代碼檢視是持續的活動。ii.確定檢視范圍,例如可以是每次提交、每個功能完成后,或者定期的大規模檢視。b.培訓團隊成員培訓團隊成員:i.提供培訓以確保團隊成員了解如何進行有效的代碼檢視。ii.確保團隊了解代碼檢視的目的和重要性,以及如何識別常見問題和潛在的安全漏洞,建議將常犯的TOP問題整理成清單,在開發人員編寫代碼后自檢以及他人檢視時進行對照。c.選擇合適的工具選擇合適的工具:i.使用代
324、碼檢視工具來輔助檢視過程,例如靜態代碼分析工具,以幫助發現潛在的問題。ii.確保團隊熟悉并能有效使用這些工具。d.設定清晰的標準和準則設定清晰的標準和準則:i.制定明確的代碼檢視標準和準則,以便檢視者能夠一致地評估代碼質量。ii.著重關注安全性方面。e.分配角色和責任分配角色和責任:i.確定誰將參與代碼檢視,例如開發人員、架構師、安全專家等。ii.確保每個團隊成員了解其在檢視過程中的角色和責任。f.記錄檢視結果記錄檢視結果:i.記錄檢視過程中發現的問題、建議和決定,以便后續跟蹤和改進。ii.確保問題得到適當的跟進和解決。g.鼓勵合作和討論鼓勵合作和討論:i.鼓勵團隊成員之間進行合作和討論,分享
325、經驗和觀點,以提高檢視質量。ii.創建開放的氛圍,使團隊成員能夠提出問題和建議,促進共同學習和成長。h.持續改進持續改進:i.定期評估代碼檢視過程,收集反饋意見,并進行必要的調整和改進。ii.著眼于提高檢視效率和質量,以確保團隊不斷提升代碼質量和安全性。卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司973.7.1.4 SEC06-04 應用安全配置應用安全配置對應用運行時的各項配置進行加固,以避免因安全配置錯誤而產生的安全漏洞和風險。風險等級風險等級高關鍵策略關鍵策略根據安全配置規范,對您工作負載中的應用,如Nginx、To
326、mcat、Apache、Jetty、JBoss、PHP、Redis等完成安全配置加固和Web攻擊防護。系統越權,例如系統是否存在capability提權、suid文件提權、定時任務提權、sudo文件配置提權等系統提權問題。服務運行用戶,例如服務運行的用戶是否為最低權限用戶,禁止使用root用戶運行服務。Web攻擊,例如Web應用是否存在SQL注入、XSS跨站腳本、文件包含、目錄遍歷、敏感文件訪問、命令、代碼注入、網頁木馬上傳、第三方漏洞攻擊等常見Web威脅問題。相關云服務和工具相關云服務和工具企業主機安全 HSSWeb應用防火墻 WAF3.7.1.5 SEC06-05 執行滲透測試執行滲透測試
327、滲透測試是一種安全評估方法,模擬攻擊者的行為,通過模擬真實的攻擊場景來評估系統、應用程序或網絡的安全性。滲透測試旨在發現系統中的安全漏洞、弱點和潛在的安全風險,以幫助組織改進其安全措施、加固防御,并保護系統免受真實攻擊的威脅。風險等級風險等級高關鍵策略關鍵策略a.建議在開發周期的后期執行滲透測試,使系統功能接近預期發布狀態,但也要留有足夠的時間來解決發現的問題。b.采用結構化流程:使用結構化流程確定滲透測試的范圍,基于威脅建模的模型保持場景相關性,以確保全面評估系統的安全性。c.自動化測試:利用工具自動執行常見或可重復的測試,以加快滲透測試的速度,并提高效率。d.分析測試結果:對滲透測試結果進
328、行深入分析,以確定系統性安全問題,并為進一步的自動化測試和開發者培訓提供有用信息。e.為構建者提供培訓:提供培訓,讓開發者了解從滲透測試結果中可以期待獲得什么,以及如何獲取有關修復的信息,以促進問題的及時解決。3.8 數據安全與隱私保護數據安全與隱私保護3.8.1 SEC07 通用數據安全通用數據安全卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司983.8.1.1 SEC07-01 識別工作負載內的數據識別工作負載內的數據通過業務流程、數據流動方向、數據分布、數據的所有者等維度,對照合規要求評估數據的敏感度,對數據分級分類。
329、風險等級風險等級高關鍵策略關鍵策略遵循以下步驟梳理、識別數據:a.業務流程分析。了解業務流程,對照業務流程圖,明確在各個環節中產生、處理和存儲的數據類型和用途。與業務部門、開發團隊、運維人員等進行交流,獲取關于數據的詳細信息。b.確定數據的分布:需要確定數據存儲在哪里,例如云硬盤、數據庫、對象存儲等。c.評估數據敏感度。確定數據的類型和內容,例如是否包含個人身份信息(如姓名、身份證號、地址等)、財務數據(如銀行賬號、交易記錄等)、商業機密(如產品研發計劃、客戶名單等)或其他受法規保護的數據;考慮數據的潛在影響。如果數據泄露或被濫用,會對個人、組織或社會造成多大的危害,包括經濟損失、聲譽損害、法
330、律責任等。參考相關的法律法規、行業標準和企業內部的合規政策。不同行業和地區對于敏感數據的定義和要求可能不同,例如醫療行業的患者數據、金融行業的客戶交易數據等,都有特定的法規和標準來規范其保護。結合組織的業務戰略和風險承受能力。對于關鍵業務相關的數據,即使其本身不屬于常見的敏感類型,也可能因其對業務的重要性而被評估為高敏感度。d.借助數據發現和分類工具,自動掃描工作負載以識別數據。自動識別和分類數據可幫助您實施正確的控制措施。e.創建并維護數據清單。將分級分類后的數據整理成清單,包括數據的名稱、描述、來源、分布情況、數據敏感度、所屬分類級別等詳細信息。相關云服務和工具相關云服務和工具數據安全中心
331、 DSC:DSC可根據敏感數據發現策略來精準識別數據庫中的敏感數據,并支持從海量數據中自動發現并分析敏感數據使用情況,基于數據識別引擎,對結構化數據和非結構化數據進行掃描、分類、分級,解決數據“盲點”。3.8.1.2 SEC07-02 數據保護控制數據保護控制針對數據分級分類結果,對每一類數據進行不同級別的數據保護控制,保護數據的機密性和完整性。風險等級風險等級高關鍵策略關鍵策略卓越架構技術框架卓越架構技術框架與實踐3 安全性支柱文檔版本 01(2025-01-22)版權所有 華為技術有限公司99實施適當的數據保護措施,如加密和身份驗證。管理數據訪問權限。了解誰可以訪問、修改和刪除數據,有助于
332、限制數據訪問權限,減少數據泄露風險。驗證只有獲得授權的用戶按照“最小化權限”原則訪問數據,確保只有經授權的用戶才能執行相關操作。在共享或公開數據之前,對敏感數據進行脫敏處理,防止敏感信息泄露。數據完整性保護。通過定期備份和版本控制來保護您的數據,防止數據被篡改或刪除。將關鍵數據與其他數據隔離,以保護其機密性和數據完整性。確保存儲了重要業務數據、敏感數據的OBS桶,配置為非公開可讀,防止數據被非法訪問。制定風險管理計劃:了解數據被意外披露、更改或刪除可能會帶來的業務影響,有助于制定相應的風險管理計劃。相關云服務和工具相關云服務和工具數據庫安全服務 DBSS數據加密服務 DEW3.8.1.3 SE
333、C07-03 對數據操作實施監控對數據操作實施監控根據數據的分級分類,應對數據的修改、批量操作等行為實施限制措施或建立監控機制。風險等級風險等級高關鍵策略關鍵策略對數據的修改、批量操作等行為實施限制措施或建立監控機制。使用數據庫安全服務DBSS對數據庫行為進行審計。數據庫安全審計提供旁路模式審計功能,通過實時記錄用戶訪問數據庫行為,形成細粒度的審計報告,對風險行為和攻擊行為進行實時告警,對數據庫的內部違規和不正當操作進行定位追責,保障數據資產安全。啟用數據庫安全審計告警。通過設置告警通知,當數據庫發生設置的告警事件時,用戶可以收到 DBSS 發送的告警通知,及時了解數據庫的安全風險。使用云堡壘機服務CBH識別并攔截數據庫高危命令。CBH提供數據庫控制策略功能,用戶可設置預置命令執行策略,動態識別并攔截高危命令(包括刪庫、修改關鍵信息、查看敏感信息等),中斷數據庫運維會話。同時自動生成數據庫