1、GOP S 全 球 運 維 大 會 2019上 海 站GOP S 全 球 運 維 大 會 2019上 海 站轉型的燈塔:技術運營標準評估權威指南及案例解讀GOP S 全 球 運 維 大 會 2019上 海 站目錄技術運營標準簡介1標準的框架與設計思路2標準的“硬”技術與案例解讀3標準的“軟”能力與案例解讀4GOP S 全 球 運 維 大 會 2019上 海 站互聯網技術的發展驅動運維技術前進移動互聯網時代傳統時代互聯網時代平臺化時代云計算時代AIOPS時代降本增效新場景一體化工具鏈組織文化理念移動遷移多終端去IOE開源熱潮上云運維開發效率應用運維質量&用戶BASE流程化ACIDITILITSM
2、 海量運營技術運營3P平臺化自動化開源架構升級云運維無線技術棧Velocity持續交付ITSM敏捷精益算法AI平臺大數據人工運維云運維智能化運維運維開發應用運維一體化移動運維Devops時代能力側重時代特點GOP S 全 球 運 維 大 會 2019上 海 站2015年技術運營標準的萌芽研發上線聚用戶營銷高可用架構設計持續部署持續部署可用性保障數據服務運營活動支持用戶體驗優化成本優化客戶服務互聯網應用運維框架研發期運營期GOP S 全 球 運 維 大 會 2019上 海 站三年三稿與顧問團模型頂層設計模型驗證立項研討初稿編寫專家評審發布征求意見稿提交送審稿正式發布報批稿起始于2015年互聯網應
3、用運維能力成熟度模型DevOps 標準產生過程GOP S 全 球 運 維 大 會 2019上 海 站標準中的軟能力與硬技術技術運營服務規范意識能力平臺化能力運營服務能力流水線監控自動化質量意識標準化IT服務流程事件管理高可用性管理配置管理發布管理成本管理容量管理持續性管理變更管理數據中心業務理解用戶體驗智能監控設計風控一體化配置中心事件平臺GOP S 全 球 運 維 大 會 2019上 海 站技術運營標準對行業的意義 雖然,DevOps 像水,水無常態 但是,喝水需要容器,這就是標準(無規矩不成方圓)BATJ經驗的總結與傳承(對齊能力、避免重復踩坑、閉門造車)從0到1、自檢、過程改進、建設目標
4、 標準并非“限定”(ITIL V4 已經發布)五級階梯式成長模型(并非0或1)DevOps 標準CMMI/敏捷ITIL/IOS 20000開發測試運維管理管理+技術標準化+工具賦能標準化GOP S 全 球 運 維 大 會 2019上 海 站標準對企業的價值自查了解企業 DevOps 自身發展情況,發現問題,查漏補缺,明確未來持續優化的方向。自證衡量對照被認定為國內領先或頂尖水平,成為 DevOps在中國落地的行業標桿,引領行業發展。明確企業內部各項目 及 外部服務商、合作伙伴的 DevOps 能力現狀、成長情況及工作量。對比同行業及所有行業的 DevOps 優秀實踐,相互取長補短,共同進步。(
5、書同文、車同軌、行同倫)GOP S 全 球 運 維 大 會 2019上 海 站目錄技術運營標準簡介1標準的框架與設計思路2標準的“硬”技術與案例解讀3標準的“軟”能力與案例解讀4GOP S 全 球 運 維 大 會 2019上 海 站DevOps 標準全局框架牽頭單位:中國信息通信研究院(國家智庫,可信云等出品單位)起草單位:云計算開源產業聯盟、DevOps時代社區、高效運維社區、BAT、京東、中國移動、中國電信、中國銀行、平安科技和中國銀聯等目前進展:2018年6月29發布全量征求意見稿,2018年7月在聯合國ITU-T正式立項GOP S 全 球 運 維 大 會 2019上 海 站技術運營標準
6、的框架組成監控管理監控采集數據管理數據應用運營配置管理配置管理容量與成本管理容量管理成本管理事件管理變更管理事件與變更管理高可用管理應用高可用管理數據高可用管理風險管理危機管理應急管理業務連續性管理業務認知管理體驗管理用戶體驗管理技術運營GOP S 全 球 運 維 大 會 2019上 海 站技術運營標準框架&設計思路GOP S 全 球 運 維 大 會 2019上 海 站 具備中等企業技術運營水平 局部建立自動化能力,有標準化的流程輔助工作的完成 覆蓋應用對象全生命周期管理,部分能力項實現聯動二級 具備成熟企業技術運營水平,場景自動化 集中式管理,有標準化規則貫徹應用全生命周期 強調技術運營能力
7、的覆蓋廣度,從被動響應到主動預防 明確量化管理的指標與要求,驅動架構和技術的優化三級 國內頂級的技術運營能力,實現垂直場景的技術深度 復雜場景實現無人治理,實現多對象多事件的關聯與執行 從規則化演進到半智能化,動態決策與調度自動化工具 精細化數據運營,技術運營與業務運營結合,驅動優化四級國內領先水平國內先進水平技術運營標準的重要級別說明GOP S 全 球 運 維 大 會 2019上 海 站各能力項的遞進與關聯級別說明監控管理事件與變更管理配置管理容量與成本管理高可用管理業務連續性用戶體驗管理一級平均級:部分自動化 基礎的監控管理,能滿足企業對 IaaS監控的基本需求?;镜氖录幏逗妥兏僮饕?/p>
8、求,及時處理事件和管控部分變更風險??咳斯けU吓渲糜涗浀墓芾??;A的硬件與業務的指標匯聚 流量切換?;A的健壯性,硬件故障能及時恢復。數據庫備份可靠?;A的業務影響分析能力和業務風險分析能力,基本應急演練。具有快速處理用戶體驗的投訴問題,具備豐富的業務端的數據收集能力。二級先進級:自動化/腳本化 覆蓋更多監控對象。告警收斂,監控數據關聯分析。對常見的場景可以實現告警度量、管控和可視化的能力。完善的事件及變更管理能力,覆蓋全生命周期的管理。流程與場景部分的自動化和可視化。統一的配置管理系統,全生命周期的管理技術運營相關的對象。有規則和流程支持配置變更。技術運營全生命周期的容量和成本的管理。有規則
9、和流程支持,以滿足不同場景的需求。應用服務間調用關系治理平臺,支持應用服務級別的監控報警。IT系統有效打通,故障快速定位。數據庫讀寫分離,主備實時同步,同城多機房備份。整體 RTO 達到99.90%。至少半年進行一次災備測試演練。詳盡的應急響應預案,充分考慮外部輿情和客服的信息反饋。端到端全鏈路事件埋點;全鏈路的體驗告警,用戶體驗優化效果可衡量、可視化體驗管理能力 聯合內部,主要場景的用戶體驗優化三級領先級:系統化/平臺化 精細化和平臺化,通過標準化的管理和自動化工具,強化技術運營過程中的功能細節管控。面向應用場景實現告警管控和可視化管理。各個維度有精細化擴展,能夠與其他技術運營流程打通,平臺
10、化。完善的可視化管理,對過程和團隊做到度量。自動化配置管理平臺,支持靈活擴展和關聯分析,符合技術運營場景的需求。靈活的容量與成本管理規則與流程,所得數據指導技術運營活動,為企業提供數據支撐和優化建議。自動化動態擴容。分布式緩存,分表分庫,跨庫事務。同城多機房實時數據備份,異地數據備份。整體 RTO 為 99.95%。主動模擬注入故障,并被快速定位和解決。2分鐘響應,5分鐘找到原因啟動預案,10分鐘完成問題解決。自動跟蹤及用戶改善工具。用戶體驗類的指標基線,并能聯合外部建立優化工具,驅動整體的用戶體驗指標的改善。5分鐘發現質量數據異常GOP S 全 球 運 維 大 會 2019上 海 站重疊能力
11、項的說明持續交付技術運營GOP S 全 球 運 維 大 會 2019上 海 站技術運營評估首批通過企業-華泰證券華泰證券股份有限公司華泰證券股份有限公司漲樂財富通交易服務項目2級華泰證券為投資者研發的集熱點財經新聞、股市行情報告、委托交易、產品商城為一體的全功能免費手機理財軟件,目前用戶規模千萬級,并發用戶數幾十萬。漲樂財富通月活數超750萬,注冊、下載量超4800萬,穩居行業第一,公司客戶通過漲樂財富通APP進行交易的人數占比已超過87%。多次獲得重量級獎項,如“2018年度券商優秀APP獎”、“2017年度最佳金融APP”等。GOP S 全 球 運 維 大 會 2019上 海 站技術運營評
12、估首批通過企業-北京移動中國移動通信集團北京有限公司中國移動通信集團北京有限公司CRM訂單中心項目2級面向北京移動業務運營及運營支撐,可獨立部署并對外提供一組標準化訂單服務的載體,已擁有1000+容器實例數,千萬級用戶量,并發用戶十萬級。應用場景:北京移動CRM訂單中心系統功能主要完成訂單模板管理、流程編排、訂單審核、訂單創建、訂單分解、訂單變更、訂單調度、訂單撤銷、訂單竣工和訂單查詢等流程化管理功能。GOP S 全 球 運 維 大 會 2019上 海 站技術運營評估首批通過企業特點分析應急演練應用高可用數據高可用成本管理事件管理變更管理用戶體驗管理弱弱項項強強項項故障演練場景固化,缺乏重要業
13、務場景的梳理和沉淀。對變更風險識別暫未有共性規則抽象,更多依賴經驗判斷。依賴人為經驗進行判斷,缺乏客觀量化的判斷指標。未和實際的容量數據、業務使用情況聯動分析管理。高可用架構設計清晰,數據庫充分考慮了數據的分布式和一致性,運行維護機制完善。應急演練未與CMDB聯動分析,實操環節仍存在人為失誤的風險端到端的服務承諾未做明確的規則要求,流程學習未強制實施。運營配置管理統一配置管理平臺較為成熟,實現了配置對象的全生命周期的管理可擴展、可自動更新。監控采集采集服務平臺化,靈活性和擴展性強,可以自定義采集服務。數據管理可根據業務需求進行定制化開發管理,數據處理實時性強。數據應用統一監控平臺,監控指標覆蓋
14、面廣泛,可定制化分析與展示。告警與管控統一告警管控平臺,能根據生產環境定制統計分析視圖,部分常見場景已開始嘗試智能化運維。GOP S 全 球 運 維 大 會 2019上 海 站目錄技術運營標準簡介1標準的框架與設計思路2標準的“硬”技術與案例解讀3標準的“軟”能力與案例解讀4GOP S 全 球 運 維 大 會 2019上 海 站標準中的“硬”技術監控管理配置管理高可用管理容量與成本管理系統設計最佳實踐架構能力數據應用GOP S 全 球 運 維 大 會 2019上 海 站案例1:應用運行自治的技術運營能力配置對象配置數據數據采集數據傳輸數據接收數據處理數據存儲數據服務告警與管控可視化管理彈性能力
15、柔性能力運行與維護數據庫高可用緩存高可用成本合理性預算與核算業務容量基礎設施容量業務配置監控自發現彈性伸縮成本可量化持續交付12435NGOP S 全 球 運 維 大 會 2019上 海 站過程域二級過程域三級評估維度1級(平均級:部分自動化)2級(先進級:自動化/腳本化、小范圍)3級(領先級:系統化/平臺化、大范圍)監控管理監控采集數據采集 具備操作系統級監控指標的采集能力,如CPU、內存等 系統日志、應用日志和接口日志等 數據采集上報到多個服務端 統一的數據采集及跨平臺兼容 支持提供開放式、自定義的采集上報 發送延遲、數據校驗、采集限頻等數據傳輸 通過標準協議傳輸數據 單份數據多份訂閱及分
16、發傳輸 支持多種傳輸及容災方案,如同時具備推與拉 具備平行擴展、數據匯聚和高效傳輸等架構能力數據管理數據接收 僅實現數據接收 支持數據清洗、轉發、丟棄、復制等 異構數據源集中接收 統一的數據上報,支持文本、字符串和加密協議等 空值檢測、亂碼校驗、屬性校驗、過載保護數據處理 原始數據源預處理 異常數據識別 自定義數據四則運算、分類和聚類等 對外提供數據接口,可擴展的 ETL 能力 異構數據源的處理及關聯分析的能力 實時計算數據處理延時小于 1 分鐘 自定義日志字段解析,數據校正、持久化、異常告警數據存儲 具備基本的數據存儲能力 統一的數據存儲,確保完整性和可用性 文本、數值型、位圖和時序數據存儲
17、 高并發查詢,冷熱數據分離 半結構化數據、時序數據的快速檢索與統計數據應用數據服務 提供基礎的數據存儲服務 可計算最大值和平均值等,數據接口支持按條件導出、自定義查詢 支持復制、同步或傳輸數據到其他存儲介質 在線自定義數據統計分析,如在線 SQL 數據權限、加密或脫敏,接口調用限頻、限制訪問源告警與管控 多通道發送告警信息 告警收斂,告警觸達率和準確率統計 告警關聯運維操作提示,自動告警升級 告警關聯收斂,自定義告警關聯自助分析工具 告警關聯自動化工具,常見場景下的故障自愈可視化管理 在線數據圖表展示 自定義圖表,場景化的在線數據查詢 業務監控指標重點展示 基于業務拓撲架構或調用關系的可視化及
18、異常展示 多維度的數據下鉆與展現,全業務級的可視化GOP S 全 球 運 維 大 會 2019上 海 站監控架構能力的演進SDK數據來源應用場景AgentHTTPKafka文件導入日志查詢日志告警多維下鉆分析多維監控告警業務數據大盤實時報表調用鏈查詢依賴分析數據存儲ESHive數據庫Druid數據處理過濾校對聚合格式化分組轉發數據API翻譯吞吐量數據接收接入層解析篩選過濾統計傳輸通道數據采集數據管理數據應用GOP S 全 球 運 維 大 會 2019上 海 站過程域二級過程域三級評估維度1級(平均級:部分自動化)2級(先進級:自動化/腳本化、小范圍)3級(領先級:系統化/平臺化、大范圍)配置管
19、理運營配置管理配置對象 記錄基礎設施級配置對象 全生命周期管理,狀態更新及時通知 支持業務、應用級配置對象 自動發現、可關聯,支持自定義擴展字段 變更關聯技術運營事件,如運維告警關聯返回碼配置數據 依靠文檔記錄配置信息 統一配置管理,實時反饋運行狀態 支持變更回溯、日志審計、API 接口等 關鍵配置數據自動糾正,單一可信數據源 權限與組織相關聯,多用戶視角的統計與展現配置管理能力階梯式提升1.有配置記錄的實踐,納管部分配置對象2.配置記錄能夠為運營活動提供支持3.配置對象間的關聯,觸發規則完成運維操作GOP S 全 球 運 維 大 會 2019上 海 站高可用管理解讀過程域二級過程域三級評估維
20、度1級(平均級:部分自動化)2級(先進級:自動化/腳本化、小范圍)3級(領先級:系統化/平臺化、大范圍)高可用管理應用高可用管理彈性能力 梳理應用調用關系,負載均衡支持多種算法 能流量切換,應用發布對業務影響小 應用服務間調用關系治理平臺,支持應用服務級別的監控告警 應用節點可快速橫向擴展,支持分批發布,且發布過程對生產無影響 根據監控性能指標或計劃,進行應用的自動化動態擴容 多應用相關聯的自動化同步橫向擴展柔性能力 基礎的健壯性,硬件故障能及時恢復 在較短時間內完成應用擴容的上線 良好的健壯性,無單點,硬件故障不易出現業務中斷或異常 失效轉移、限流 軟硬件故障不易產生業務中斷運行與維護管理
21、具備常用信息系統 主機、進程端口監控 IT系統信息有效打通 業務層監控,易于查看業務調度和性能,支持故障快速定位 結合配置管理系統實時更新狀態信息 集中展示能力,信息全面準確數據高可用管理緩存高可用 針對熱點數據使用緩存加速 持久化 有緩存的備份節點,主備節點保持實時同步,能主從切換 主節點宕機可自動切換備份節點并保持數據一致 具備分布式,可快速平滑橫向擴容數據庫高可用 備份可靠,保證數據一致性 主從同步及切換 主備實時同步,讀寫分離 使用數據庫本地事務保障數據一致性 有同城多機房的數據備份 分表分庫橫向擴展,跨庫事務 有同城多機房的實時數據備份,有異地數據備份可按照RPO要求恢復至2分鐘內的
22、數據 數據庫變更不影響業務正常運行1、應用的非功能設計要求2、數據的高效應用與可用性管理GOP S 全 球 運 維 大 會 2019上 海 站過程域二級過程域三級評估維度1級(平均級:部分自動化)2級(先進級:自動化/腳本化、小范圍)3級(領先級:系統化/平臺化、大范圍)容量與成本管理容量管理基礎設施容量 按相關維度聚合 容量監控與告警 實時容量查詢,支持 API 查詢接口 特征管理、基線管理、單機承載的量化管理 動態容量平衡的架構 容量預警、容量預測業務容量 按相關維度聚合 容量監控與告警 特征管理、反饋指標管理 自定義業務容量計算方法 與基礎設施容量關聯分析 決策業務調度、柔性服務、容量預
23、測成本管理成本合理性 基礎的成本意識與管理 基礎設施及軟件的全生命周期成本管理 準確記錄成本相關數據的 多維度、精細化成本管理 成本數據與容量數據關聯分析 成本換算、主動成本優化預算與核算 基礎預算、基礎核算 體系化的預算管理、核算管理 主動成本分析,全局技術運營對象的核算 成本分析與預測 成本數據自動化校對容量和成本管理的階梯式提升1.客觀量化2.關聯計算、場景化使用3.主動管理、驅動優化-(關聯監控管理)-(關聯配置管理)GOP S 全 球 運 維 大 會 2019上 海 站目錄技術運營標準簡介1標準的框架與設計思路2標準的“硬”技術與案例解讀3標準的“軟”能力與案例解讀4GOP S 全
24、球 運 維 大 會 2019上 海 站標準中的“軟”能力業務連續性管理用戶體驗管理事件變更管理流程設計文化運營組織協同數據度量GOP S 全 球 運 維 大 會 2019上 海 站案例2:重大活動保障機制故障影響被動響應變更流程管理部署管理標準化管理事前管理事件處理事后管理建立機制業務認知管理體驗數據管理業務優化管理定義價值災備管理組織機制容災容錯應急預案應急演練組織機制應急管控RTO RPO業務影響分析業務風險分析度量測算GOP S 全 球 運 維 大 會 2019上 海 站用戶體驗管理解讀過程域二級過程域三級評估維度1級(平均級:部分自動化)2級(先進級:自動化/腳本化、小范圍)用戶體驗管
25、理業務認知管理 重視業務運營指標,未涉及對核心用戶群的體驗分級管理 基本的業務認知,定期體驗業務及產品 能使用常用診斷體驗問題的測試工具 擁有衡量用戶體驗質量的體驗類指標 團隊定期的業務培訓,并有上崗資質考試 具備能主動挖掘用戶痛點需求的產品能力,并能以用戶單場景化系統性解決問題 能夠聯動內部產品、客服等團隊,豐富統一的用戶體驗類的知識管理系統團隊定期產品崗培訓,主動優化團隊考核及創新性團隊管理模式體驗數據管理 采用基礎采集工具,全面收集及豐富業務程序、網絡等類型的采集維度 能按用戶到業務端全鏈路用戶事件的數據埋點規劃。擁有大數據實時計算分析的技術解決方案 能定期review及更新用戶體驗指標
26、的數據維度 收集競品及外部相關業務口碑數據,并能夠在5分鐘內發現數據質量異常 能按業務核心體驗指標的動態基線進行數據管理 基于多維度數據的實時可視化,支持用戶鏈路的關聯數據查詢及追蹤體驗優化管理 依靠用戶體驗的場景監控及業務突發預案,快速解決用戶體驗問題 能夠精細化監控及下探用戶全鏈路的體驗問題并形成可視化體驗報告 能依靠與外部團隊的合作豐富用戶端的體驗觸達工具 基于用戶體驗管理系統,整合工具、周邊系統、解決方案,具備自動跟蹤、聯動處理的事件閉環的線上用戶體驗管理 能依靠外部資源合作,引入行業優秀的解決方案或新技術,完善體驗的解決方案庫或觸達用戶的決策庫業務認知管理業務認知管理體驗數據管理體驗
27、數據管理體驗用戶管理體驗用戶管理GOP S 全 球 運 維 大 會 2019上 海 站事件與變更管理解讀過程域二級過程域三級評估維度1級(平均級:部分自動化)2級(先進級:自動化/腳本化、小范圍)3級(領先級:系統化/平臺化、大范圍)事件與變更管理事件管理事前管理 基本的分類,被動受理和處理系統故障 值班接口人實時響應 問題和事故進一步分級,主動的事前流程宣導 重大故障應對預案,事件組織與工具基本具備 達到架構和運營要求 場景和組織進一步擴展 平臺化,平臺間信息共享和協同 高可用和連續性規劃事件處理 故障后快速處理和恢復 應急響應和故障處理時效合理、止損意識 服務臺統籌、預案一站式腳本執行能力
28、 高效決策能力、合理止損、標準化管理流程 平臺化,操作可授權和可視化等、強容錯事后管理 基本的紀錄、分析和通報 學習改善機制,定位客觀,正確找到原因和責任歸屬 事后流程和質量文化 事故分析透徹、度量改進、改善驗收、知識庫沉淀 度量關聯績效考核,平臺反哺變更管理變更流程管理 變更操作周知 突發場景下的變更能力 變更操作規范化和流程化 評審組織、變更工具 變更管理和發布規范完善覆蓋完整,重視變更質量和效率 變更顧問委員會,變更管理平臺化打通部署管理 具備部署能力 定期部署、應用和數據庫分離、各環境支持自動化部署 具備工具能力,部分過程自動化 可回滾,影響可控 靈活和可控的策略、應用和配置分離、所有
29、環境標準化 精細化的部署及灰度策略控制風險 平臺統一,全部自動化、標準化 高質量、度量管理用標準化流程規范事前、事中、事后的事件變更管理并形成閉環事前事前流程流程事中事中規范規范事后事后儀式感儀式感GOP S 全 球 運 維 大 會 2019上 海 站業務連續性管理解讀過程域二級過程域三級評估維度1級(平均級:部分自動化)2級(先進級:自動化/腳本化、小范圍)3級(領先級:系統化/平臺化、大范圍)業務連續性管理風險管理RTO RPO 基礎的RTORPO標準 RTO 達到99.90%(525分鐘/年)同城跨機房RPO(5分鐘/年)RPO 達到99.95%以上(260分鐘/年)同城跨機房 RPO
30、2分鐘,異地10分鐘/年業務影響分析 基礎的業務影響分析 具備業務影響和風險評估 按周評估業務變化及相關風險,落實改進業務風險分析 基礎的業務風險分析 無嚴重影響安全運行的隱患 按月對運行風險進行分析和評估 容量合理且滿足業務的增長需要 按周上報風險評估,評估和預防法律及監管風險危機管理災備管理 災備演習間隔超過半年 間隔小于半年,預期時間內完成且結果符合預期 考慮外因和多機房架構,短時間快速切換且對業務影響最小化組織機制 基礎的危機管理組織 組織完備,角色劃分清晰,職責明確 管理層重視且參與應急管理應急預案 基礎的應急響應預案 詳盡,準確說明啟用條件、操作人和操作步驟 集中管理且及時更新,方便檢索及協同應急演練 基礎的應急演練 定期應急演練 監控準確,報警可升級 模擬硬件或操作系統異常,主動注入故障,快速排查定位問題并解決組織機制 基礎的應急管理組織架構 及時更新的應急組織,應急上報機制完善 考慮外部輿情和客服信息反饋 2分鐘快速響應,5分鐘找到問題原因并啟動預案,10分鐘完成問題解決業務連續性管理風險管理保障業務持續穩定運行的保護傘危機管理應急管理