《01 中國信通院-穩定可信云能力評估標準體系解讀 final.pdf》由會員分享,可在線閱讀,更多相關《01 中國信通院-穩定可信云能力評估標準體系解讀 final.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、打造穩定可信云服務,保障業務穩定運行云服務穩定性評估體系解讀中國信息通信研究院 云計算與大數據研究所高級業務主管 王海清為什么?背景與價值是什么?標準體系解讀未來怎么做?后續工作計劃CONTENTS目錄3210101為什么?背景及價值故障發生“不可避免”,“失敗”將成常態Everything fails all the time Werner Vogels(Werner Vogels(AWS CTO)企業IT系統停機1小時的平均成本為26萬美元經濟損失社會輿情監管懲處云時代,失敗由小概率事件成為常態“失敗”的后果很嚴重國內云服務穩定運行水平有較大可提升空間p 軟件系統可用性仍有較大可提升空間。
2、受訪用戶公司產品可用性分布圖故障發現與故障修復平均時長分布p 故障發現及故障修復能力有較大提升空間。穩定安全事關人民福祉,事關經濟社會發展大局u 黨中央和國務院始終高度重視安全生產工作,安全生產要求需貫穿到各項工作全過程,需牢牢守住安全底線。習近平總書記關于安全生產的論述習近平總書記關于安全生產的論述各級政府具體政策和措施各級政府具體政策和措施2022.32020.42019.112017.22016.72013.112013.6對東航客機墜毀作對東航客機墜毀作出重要指示強調出重要指示強調對安全生產作出重對安全生產作出重要指示強調要指示強調中央政治局第十九中央政治局第十九次集體學習時強調次集體
3、學習時強調主持召開國家安全主持召開國家安全工作座談會強調工作座談會強調加強安全生產和汛加強安全生產和汛期安全防范工作作期安全防范工作作出指示強調出指示強調在青島輸油管線泄在青島輸油管線泄露引發爆燃事故搶露引發爆燃事故搶救工作時指出救工作時指出就做好安全生產工就做好安全生產工作作出重要指示指作作出重要指示指出出加強民用航空領域安全隱患排查,狠抓責任落實,確保航空運行絕對安全,確保人民生命絕對安全樹牢安全發展理念,絕不能只重發展不顧安全,更不能將其視作無關痛癢的事要健全風險防范化解機制,堅持從源頭上防范化解重大安全風險,真正把問題解決在萌芽之時、成災之前要加強交通運輸、消防、危險化學品等重點領域安
4、全生產治理各級黨委和政府特別是領導干部要牢固樹立安全生產的觀念,正確處理安全和發展的關系,堅持正確絕不能以犧牲安全為代價這條紅線要做到“一廠出事故,完廠受教育,一地有隱患,全國受警示”人命關天,發展絕不能以犧牲人的生命為代價。這必須作為一條不可逾越的紅線2022.62020.42020.42021.6云服務穩定安全運云服務穩定安全運行應急演練行應急演練專項活動專項活動“十四五十四五”國家安國家安全生產規劃全生產規劃全國安全生產專項全國安全生產專項整治三年行動計劃整治三年行動計劃中華人民共和國中華人民共和國安全生產法安全生產法修訂修訂工信部工信部 舉措類舉措類工信部統一部署,開展面向全國云服務運
5、營商的云服務穩定安全運行應急演練專項行動國務院國務院 政策規劃類政策規劃類將安全發展貫穿于經濟社會發展各領域和全過程,努力塑造與安全發展相適應的生產生活方式,筑牢本質安全防線,構建新安全格局國務院國務院 舉措類舉措類聚焦在風險高隱患多、事故易發多發的煤礦、非煤礦山、危險化學品、消防、道路運輸、民航鐵路等交通運輸、工業園區、城市建設、危險廢物等9個行業領域,組織開展安全整治。全國人大全國人大 政策規劃類政策規劃類加大對違法行為的懲處力度;進一步壓實企業安全生產主體責任;進一步明確了各方面的安全生產責任、建立起了一整套比較完善的責任體系。工信部云服務穩定安全運行應急演練專項行動推動健全云服務穩定安
6、全可靠機制和手段,持續提升云服務穩定安全運行水平。形成規范的云服務分級分類應急機制、云服務穩定性保障標準體系。面向國內云服務(互聯網數據中心業務(IDC)中的互聯資源協作服務)經營者開展應急演練專項活動。各地管局應推薦至少一家主體注冊地在當地的云服務經營者參與演練。云服務系統穩定性可靠能力云服務系統容災恢復能力云服務運行事故應急處理能力1.工業和信息化部信息通信管理局指導2.中國信息通信研究院全面支撐:制定方案、成立專班、培訓答疑、執行測試、報告審查。3.各地通信管理局高度重視4.各云服務經營者切實履行面向國內云服務經營者開展云服務穩定安全運行應急演練,旨在提升云服務經營者安全生產工作水平,確
7、保云服務的穩定性,保障基于云服務構建的信息系統穩定性和業務連續性。為深入貫徹習近平總書記關于安全生產重要論述,指導云服務經營者做好云服務安全生產工作,確保云服務的穩定性和業務連續性,為黨的二十大勝利召開提供穩定安全的網絡運行環境,依據中華人民共和國安全生產法中華人民共和國電信條例等法律法規,工業和信息化部信息通信管理局指導發起云服務穩定安全運行應急演練專項活動。背景定位演練目標演練對象演練內容演練機制0202是什么?云服務穩定性評估體系解讀2022年“專項行動”:云服務混沌測試演練環境正式/測試環境演練場景演練方式采用腳本或者平臺工具實現故障模擬及注入開展混沌工程測試,模擬云服務系統誤操作故障
8、、基礎資源故障、應用服務故障等,觀察云服務系統狀態和自愈能力,暴露并驗證系統和應用的脆弱點,主動發現問題,提升云服務穩定性。演練要求云主機/宿主機容器集群云數據庫消息隊列CPU故障:cpu高負荷內存故障:內存滿載磁盤故障:磁盤滿載、磁盤io讀負載、磁盤io寫負載DNS故障:DNS解析被篡改mysql主機關機、mysql主機重啟、主備同步故障、mysql端口占用/禁用、配置文件移動/刪除/修改屬性、mysql進程停止節點故障:節點被刪除、新增節點、節點DNS解析失敗、節點CPU滿載、內存滿載、磁盤滿載、節點出現I/O壓力pod故障:pod出現cpu高負荷、pod出現內存高負荷、pod出現磁盤高負
9、荷主機關機、主機重啟、內存溢出、消息堆積、進程暫停、進程停止(殺死)、端口占用/禁用、隊列節點故障網絡故障云主機/宿主機網絡接口擁塞、端口故障、虛擬交換機擁塞、物理網絡交換機擁塞云服務穩定性評估體系消息中間件穩定性緩存穩定性內容分發穩定性融合云DNS穩定性容器集群服務穩定性云網絡服務穩定性云主機服務穩定性云存儲服務穩定性典型混沌場景節點故障場景流量尖峰場景資源有限場景 典型觀測指標普適性全面性權威性先進級增強級基礎級初始級典型穩態指標云服務穩定性評估流程01020304考察穩定性架構部署方案,以及針對用戶的穩定性保障措施。專家對評測方提供的穩定性架構設計進行打分。企業必須提供真實有效的材料,證
10、明這些穩定性方案已經在實際生產環境中應用。穩定性技術包括但不限于容災/容錯技術、可觀測性技術應用、變更管控流程建設以及高可用性架構設計?!胺€?!被A情況通用能力考察根據云服務產品在應對不同故障注入時的穩態指標波動情況,穩定性可劃分為初始級、基礎級、增強級和先進級4個能力等級,評測方可以根據測試結果挖掘穩定性建設短板,同時明確產品在行業中的水平與定位“穩?!钡燃壌_認在評估方法步驟一的評估結果合格后,評測方需采用混沌工程的思想向被測服務注入多維度、多場景的實驗“穩?!彼津炞C專項能力考察未來,信通院將綜合應用撥測工具等對參與穩定性評估的產品持續開展“穩定性保障”水平監測“穩?!彼奖O測分布式緩存服
11、務穩定性測試要求推薦部署架構推薦部署架構告警日志診斷監控故障可觀測性故障可觀測性容錯容錯地域容災地域容災數據容災數據容災同城雙機房跨域多機房同城單機房備份恢復數據回溯副本管理故障場景資源受限服務發現機器宕機分區異常服務器宕機單項基礎能力單項基礎能力有限資源能力有限資源能力集群高可用能力集群高可用能力大規模服務大規模服務副本數據異常消費者異常觸發自動均衡節點間網絡丟包CPU負載節點網絡隔離I/O壓力海量消費連接內存占用主節點失效Broker擴容與縮容主從復制海量客戶端連接大規模消息隊列大規模服務集群異構化能力異構化能力信創混合部署消息中間件穩定性測試要求消息中間件穩定性測試要求從業務應用視角為消
12、息中間件產品團隊指引能力提升方向,更好地匹配領域應用發展需求。數據重復率數據丟失率關鍵分級指標關鍵分級指標發送成功率消息投遞語義內容分發服務穩定性測試要求請求回源率流量回源率首包時長服務不可用時間關鍵分級指標關鍵分級指標推薦部署架構推薦部署架構節點穩定性節點穩定性調度穩定性調度穩定性管控系統穩定性管控系統穩定性CDNCDN設備穩定性設備穩定性日志指標展示可觀測刷新CDN主機伸縮機制系統資源區域負載均衡節點復位時長測試全局負載均衡回源404攻擊源站異??蛻舳斯羧诤显艱NS服務穩定性測試要求場景架構場景架構DNS管控實例DNS解析云平臺DNS用戶側DNS統管平臺業務功能API調用解析層數據用戶控
13、制臺GTM異常應答DNS解析數據不一致DNS管控實例DNS解析云平臺DNS部署場景用戶側DNS部署場景云上云下混合部署場景節點排空資源高負載宕機/重啟容災能力網絡異常副本伸縮資源高負載Pod容器殺掉I/O壓力文件變更Pod被殺掉證書過期編排系統大版本升級集群存量資源壓力容器集群穩定性測試要求運行pod比例業務服務錯誤率資源使用率業務響應增長比例關鍵分級指標關鍵分級指標推薦部署架構推薦部署架構節點穩定性Pod穩定性集群規?;€定性場景主機網絡異常主機網絡異常主機服務異常主機服務異常主機配置異常主機配置異常宿主機穩定性測宿主機穩定性測試試文件更改屬性句柄耗盡配置文件異常變更宿主機夯機宿主機脫網宿主
14、機宕機云主機服務穩定性測試要求云主機穩定性關注點:看云主機的配置,硬件故障是影響物理機穩定性的一個重要因素;看云主機網絡鏈路的高可用性,雙鏈路網絡能實現對單點網絡故障的屏蔽;看云主機的使用情況。進程停止測試 資源高負載重啟/關機測試端口占用網絡包重排序網絡延遲網絡服務產品網絡服務產品專項能力要求專項能力要求云網絡服務穩定性測試要求QoS保障彈性伸縮控制面規則驗證VPC、SLB、NAT、VPN、EIP計算節點控制面服務監控覆蓋故障隔離遷移方式長連接終端時長關鍵分級指標關鍵分級指標推薦部署架構推薦部署架構測試影響范圍:單臺網卡異常、單機異常、集群部分異常、集群全部異常、可用區異常。云存儲服務穩定性
15、測試要求故障類型塊存儲對象存儲文件存儲性能尖峰場景服務抖動場景熱點數據存儲場景目前該標準在討論收尾階段,歡迎各位專家參與研討CAICT-Chaos 混沌工程故障注入測試平臺-專項行動的練兵場結合前面介紹的標準體系,中國信通院將公益性推出穩保行動測試平臺,提供一個中立的穩定性技術測試平臺,目前包含混沌體檢套餐功能、原子故障庫收錄、穩態指標庫建設,現處于開放測試階段,歡迎更多企業貢獻原子故障與穩態指標,共同維護一個權威公正的穩定性測試平臺。目前參與測試企業目前參與測試企業/組織組織阿里云、天翼云、騰訊云、混沌阿里云、天翼云、騰訊云、混沌工程實驗室工程實驗室TOCTOC專家專家專線行動的練兵場0303后續工作規劃北京站 深圳站上海站 成都站 濟南站公益性推出穩保行動測試平臺開源維護“混沌工程實驗場景”首輪評估啟動!7月“可信云”大會推出評估成果更多云服務穩定性測試方向更多云服務穩定性場景穩定可信云云服務穩定運行能力評估體系持續完善配合“穩保行動”開啟首批評估“穩保網站”即將開放線下/線上活動持續開展聯系我們聯系我們高老師電話:17802205852郵箱:THANKS謝 謝