《石鵬-美圖:低成本全鏈路監控實戰與SRE穩定性運營(61頁).pdf》由會員分享,可在線閱讀,更多相關《石鵬-美圖:低成本全鏈路監控實戰與SRE穩定性運營(61頁).pdf(61頁珍藏版)》請在三個皮匠報告上搜索。
1、 全球敏捷運維峰會 廣州站圍繞監控,淺談SRE穩定性運營 演講人:石鵬(東方德勝)美圖 全球敏捷運維峰會 廣州站AboutAbout me.me.石鵬(東方德勝)9年工作經歷,傳統行業&互聯網運維 2016年加入美圖,目前負責產品SRE團隊 擅長領域:運維架構、SRE、監控/日志系統 當前:專注于云原生、智能運維方向 全球敏捷運維峰會 廣州站美圖公司(1357.HK)成立于 2008 年 10 月,以“變美”為基因開發了一系列產品,目前已經覆蓋超過 100 個國家和地區,在全球擁有 22.2 億用戶。我們的愿景是:整合變美生態鏈,幫助用戶全方位變美。ToBToB面向行業面向行業影像美化美妝平臺
2、皮膚管理影像美化圖片視頻編輯工具高清試妝工具專業測膚工具皮膚檔案服務皮膚醫生服務化妝品測評服務顏值管家服務印刷品服務消費者社區桌面版美圖秀秀影像行業解決方案美妝行業營銷數據與技術服務行業測膚技術服務化妝品功效檢測服務增值服務ToCToC面向面向用用戶戶About Meitu:美圖公司業務體系 全球敏捷運維峰會 廣州站日本孟加拉國韓國越南土耳其菲律賓泰國馬來西亞印度尼西亞美國巴西尼日利亞墨西哥加拿大截2020年 12,海外活躍戶數近 1 億。此外海外用戶總數達8.85億,業務覆蓋超過100個國家和地區。巴基斯坦BeautyPlusAirBrushVCUSPomelo面向用戶美圖秀秀美顏相機美拍剪
3、萌美妝相機美圖問醫 美圖定制面向行業Meitu ADX廣告流量聯盟美圖AI開放平臺美圖宜膚美圖品牌星球美圖云修About Meitu:全球布局 全球敏捷運維峰會 廣州站About Meitu:變美核心數據2.61億月活躍用戶數22.2獨立設備數照片和視頻每月產生數60億億數據截至2020年12月美圖SRE的核心工作職責低成本全鏈路監控大盤實踐基于企業IM機器人的圖文告警實踐基于監控體系的SRE穩定性運營實踐未來展望 全球敏捷運維峰會 廣州站美圖SRE的核心工作職責 全球敏捷運維峰會 廣州站美圖SRE的核心工作職責l 崗位:產品SREl 職責:保障線上服務的穩定性 建設工具/平臺/基礎設施 提升
4、效率 用技術手段來控制、優化服務的運行成本l 愿景:做美圖服務最穩的大后方 全球敏捷運維峰會 廣州站如何平衡3個核心職責之間的關系穩定性成本效率 全球敏捷運維峰會 廣州站如何量化評估?If you cant measure it,you cant improve it.如果你不能度量它,你就無法改進它。-Peter Drucker 彼得.德魯克 全球敏捷運維峰會 廣州站如何量化評估?穩定性/效率SLO/SLIMTTR/MTBF成本資源使用量資源利用率一套穩定可靠的監控系統 必不可少 全球敏捷運維峰會 廣州站低成本全鏈路監控大盤實踐 全球敏捷運維峰會 廣州站美圖監控體系建設:監控組件選型eBPF
5、美圖監控體系建設:梳理歸納流媒體監控業務監控服務監控用戶端監控基礎資源用戶端質量監控體系服務端質量監控體系第三方撥測自研流媒體監控自研APM自研CDN監控大數據流式處理套件PrometheusInfluxDB套件ElasticStackOpenFalconeBPFSkyWalking網絡質量&異常內容&DNS劫持崩潰&卡頓返回碼響應時間錯誤率慢請求請求吞吐量組合分析直播推流/拉流點播拉流主播監控視頻監控直播/點播統計CDN質量CDN評分CDN日志業務可用性訪問量/錯誤Profile監控分布耗時Trace監控A/B Test監控日志中心DNS/ELB七層負載均衡進程/端口后端資源云PaaS服務S
6、LA體系產品運營指標云IaaS監控硬件監控網絡監控專線監控TCP監控容器監控內核監控 全球敏捷運維峰會 廣州站美圖監控體系建設:統一報表入口結果:監控數據匯總到同一個平臺,權限統一管控 全球敏捷運維峰會 廣州站美圖監控體系建設:報表收斂/規范客戶端中間鏈路LB入口后端資源服務端周邊依賴典型請求鏈路痛點:數據散落在多個Dashboard 全球敏捷運維峰會 廣州站美圖監控體系建設:報表收斂/規范Grafana中各種資源的申請和使用約束數據源的管理規范權限管理規范Org/報表命名規范結果:監控數據 匯總到同一張Dashboard形成流程規范 全球敏捷運維峰會 廣州站美圖監控體系建設:還可以更進一步么
7、?監控報表的演進過程多個平臺 覆蓋全面 數據散落?權限混亂?一個平臺 數據集中 權限統一 多個頁面?缺乏層次?一個頁面 多張圖表 分層展示 關聯關系?全局視角?更進一步?How?全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰-Step By Step:繪制大盤 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰-Step By Step:繪制大盤 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰-Step By Step:導入Grafana 全球敏捷運維峰會 廣州站基于Fl
8、owCharting的監控大盤實戰-Step By Step:導入Grafana 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰-Step By Step:綁定數據源 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰-Step By Step:配置展示規則 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰-Step By Step:配置展示規則 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰-Step By Step:關聯圖形 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰-Step By Step
9、:重復上述步驟 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰:最終效果 全球敏捷運維峰會 廣州站基于FlowCharting的監控大盤實戰:總結方案優點 容易操作 展示靈活 無需復雜技術支持方案局限性 監控數據需要前置 數據關系靜態維護 推廣的邊際成本高注意事項 元素數限制(可突破)全球敏捷運維峰會 廣州站基于企業IM機器人的圖文告警實踐 全球敏捷運維峰會 廣州站基于企業IM機器人的圖文告警實戰-核心目標提高告警消息的信息密度(一圖勝千言)快速感知服務整體狀態(上下游/周邊依賴)縮短故障定位時間,降低MTTR,提升服務穩定性 全球敏捷運維峰會 廣州站基于企業IM機器人的圖
10、文告警實戰-思路介紹 全球敏捷運維峰會 廣州站基于企業IM機器人的圖文告警實戰-Step By Step:創建群機器人&Grafana API Key 獲取企業微信Webhook獲取Grafana Org API Key 全球敏捷運維峰會 廣州站基于企業IM機器人的圖文告警實戰-Step By Step:獲取Grafana-Panel圖形鏈接 全球敏捷運維峰會 廣州站基于企業IM機器人的圖文告警實戰-Step By Step:獲取Grafana-Panel圖形鏈接 全球敏捷運維峰會 廣州站基于企業IM機器人的圖文告警實戰-Step By Step:獲取監控Panel渲染圖API調試 全球敏捷運
11、維峰會 廣州站基于企業IM機器人的圖文告警實戰-Step By Step:配置告警策略&實現告警擴展 全球敏捷運維峰會 廣州站基于企業IM機器人的圖文告警實戰-Step By Step:告警示例 全球敏捷運維峰會 廣州站基于企業IM機器人的圖文告警實戰:注意事項方案優點 容易操作 方案簡單 無需復雜技術支持方案局限性 監控圖表需要前置 推廣邊際成本中等注意事項 渲染組件性能瓶頸 多Org權限管理 全球敏捷運維峰會 廣州站基于監控體系的SRE穩定性運營實踐SRE穩定性建設全景圖MTTKMTTIMTTFMTTVPre-MTBFPost-MTBF應急響應建設/演練/OnCall復盤/改進/OnCal
12、l故障預防災備預案容量評估架構設計監控覆蓋MTBFMTTRMTBF持續交付故障發現故障定位故障改進故障恢復故障復盤改進驗收故障模擬混沌工程周邊清查監控告警常規巡檢用戶反饋輿情感知智能預測日志分析監控分析鏈路跟蹤場景復現根因定位故障隔離容災切換服務限流服務降級異常熔斷SRE穩定性建設全景圖MTTKMTTIMTTFMTTVPre-MTBFPost-MTBF應急響應建設/演練/OnCall復盤/改進/OnCall故障預防災備預案容量評估架構設計監控覆蓋MTBFMTTRMTBF故障發現故障定位故障改進故障恢復故障復盤監控告警常規巡檢輿情感知智能預測日志分析監控分析鏈路跟蹤根因定位恢復確認效率 支撐 成
13、本 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:回歸核心價值 看 我們可以做什么?監控/告警覆蓋 大盤推廣應用 應急響應 災備體系建設 容量體系建設穩定性效率/支撐成本 業務理解 個性化支撐 服務周期巡檢 穩定性運營報告 業務架構優化 資源用量監控 資源利用率監控 容量規劃 成本分析持續輸出 定期復盤 量化結果 不斷迭代 長期主義 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們做了什么?巡檢/統計(各類機器人)SLA巡檢/網絡巡檢每日資源統計 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們做了什么?穩定性運營報告穩定性運營報告體系假節日運營報告 全球敏捷運維峰會 廣州站SRE穩定性運
14、營實踐:我們做了什么?穩定性運營報告報告結構報告內容樣例 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:演進方向數據化 量化評估 數據思維 數據意識自動化 解放人力 提高效率體系化 有點到面 全局視角 能力擴展智能化 數據分析 智能預測 科技賦能 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們正在做什么?穩定性運營平臺運營報告-自動化 覆蓋已有報告場景 通用報告需求支持 數據解讀/報告審批 統一接入規范 開放配置/報告分發&訂閱更多運營活動覆蓋 OnCall輪值 節假日值守 SRE權威消息發布 故障發現/報告生成 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們正在做什么?穩定性運營平臺
15、報告列表 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們正在做什么?穩定性運營平臺報告模板 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們正在做什么?穩定性運營平臺報告批注 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們正在做什么?穩定性運營平臺報告樣例 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們正在做什么?由監到控 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們正在做什么?由監到控 全球敏捷運維峰會 廣州站SRE穩定性運營實踐:我們正在做什么?關于成本管控資源申請資源分配資源監控持續優化成本核算資源評估資源分配配額調整利用率監控壓測平臺容器平臺監控系統成本中心利潤中心審批流程賬單分析成本報表 全球敏捷運維峰會 廣州站內容回顧/未來展望 全球敏捷運維峰會 廣州站內容回顧SRE核心價值 穩定性 效率/支撐 成本2個實踐案例 監控大盤 圖文告警穩定性運營 回歸價值 持續輸出 能力擴展 全球敏捷運維峰會 廣州站未來展望擁抱變化 順勢而為葆有價值 泰然自若容器技術微服務服務網格云原生DevOps 全球敏捷運維峰會 廣州站未來展望:堅定地看好AI 全球敏捷運維峰會 廣州站THANK YOU!