《2018年主動監測在定位網絡異常上的實踐.pdf》由會員分享,可在線閱讀,更多相關《2018年主動監測在定位網絡異常上的實踐.pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、主動監測在定位網絡異常上的實踐朱朝 2018.12 關于米路通關于米路通 從用戶視角看問題從用戶視角看問題 主動監測是什么主動監測是什么 具體實踐具體實踐 大網波動感知大網波動感知 CDNCDN效果評估效果評估 網絡劫持監測網絡劫持監測 目 錄關于米路通米路通(https:/)來自內部需求 監測點覆蓋440個地市 真實用戶網絡環境 關于米路通關于米路通 從用戶視角看問題從用戶視角看問題 主動監測是什么主動監測是什么 具體實踐具體實踐 大網波動感知大網波動感知 CDNCDN效果評估效果評估 網絡劫持監測網絡劫持監測 目 錄 用戶投訴反饋 用戶選擇沉默 服務不可用的嚴重問題 問題是通過用戶發現 7
2、3%23%98%2%無法挽回 流失 沉默的用戶從用戶視角看問題用戶 Web服務器 應用服務器 云服務 CDN Internet 設備 網絡 目錄關于米路通關于米路通 從用戶視角看問題從用戶視角看問題 主動監測是什么主動監測是什么 具體實踐具體實踐 大網波動感知大網波動感知 CDNCDN效果評估效果評估 網絡劫持監測網絡劫持監測 不同監測的特點技術點 技術點 主動監測 主動監測 被動監測 被動監測 用戶類型 模擬用戶 真實用戶 樣本量,樣本偏差 采樣,存在樣本偏差 全樣本/采樣,樣本偏差小或無 配置部署 靈活配置,無需部署 有部署工作量 性能影響 非侵入,無性能影響 侵入,輕微性能影響 網絡性能
3、問題定位 支持 ping,traceroute,nslookup,抓包 無法精確定位網絡問題 頁面元素采集 可提供完整訪問瀑布圖,包括錯誤元素 出錯的元素無法提供數據 樣本分布 根據需要可以均衡采集 實際用戶訪問,有忙閑時 監測原理使用場景可用性監測 CDN評估 對比分析 云主機監測 壓力測試 劫持監測 任務類型 全頁面 文件 下載 Ping Trace route 直播 事務流程 私有協議 PC、手機、路由器、盒子 診斷依據 dig 點播 推流 MTR Header 源碼 抓包 業務架構任務管理 數據報表 任務調度 節點管理 數據聚合 API接口 配置管理 調度管理 會員管理 數據收集 數據
4、傳輸 數據存儲 數據監控 數據分析 賬戶系統 積分體系 調度日志 數據質量控制 支付體系 結算體系 節點管理 趨勢 運營商 散點數據 匯總數據 任務配置 即時監測 任務配置 節點組配置 警報配置 賬戶管理 元素 主機 錯誤 PC數據采集 手機數據采集 監控報告 日志查看 運維監控 單點登錄 客戶端 采集 對賬單 點次配置單 聯系人 .目 錄關于米路通關于米路通 從用戶視角看問題從用戶視角看問題 主動監測是什么主動監測是什么 具體實踐具體實踐 大網波動感知大網波動感知 CDNCDN效果評估效果評估 網絡劫持監測網絡劫持監測 什么是大網骨干網 北京大區 天津大區 上海、南京大區 杭州大區 廣州大區
5、 成都大區 武漢大區 西安大區 北京 廣州 陜西、新疆、甘肅、寧夏、青海 天津、河北、黑龍江、吉林、遼寧、山西、內蒙古 上海、江蘇、安徽、山東 浙江、福建、江西 湖北、湖南、廣西、海南、河南 四川、重慶、云南、貴州、西藏 當時的狀態投訴 帶寬圖掉量 監控報警 訪問日志 大網問題 自己問題 故障排查 問題分析 運營商 處理的思路服務故障 機房故障 ISP故障 區域故障 個體原因 任務 數據匯總:按運營商、地區、主機分布、時間粒度、錯誤類型 時間 指標 當時的數據通過查看分類匯總后的數據,可以推測出問題原因 當時的數據下鉆后還可以看到詳細信息,獲取精確 的故障持續時間是11:46-12:23 數據
6、構成要素10000+任務 覆蓋全國探針 分鐘級頻率 警報閾值 大網數據構成網絡鏈路感知https:/ 實時判斷區域間鏈路故障 擴展:故障診斷詳情 異常關聯分析 區域指數感知https:/ 實時判斷區域網絡故障 擴展:LDNS解析成功率 區分不同接入方式 更多地市數據 關于米路通關于米路通 從用戶視角看問題從用戶視角看問題 主動監測是什么主動監測是什么 具體實踐具體實踐 大網波動感知大網波動感知 CDNCDN效果評估效果評估 網絡劫持監測網絡劫持監測 目 錄行業趨勢云帆加速 白山云 同興 快網 帝聯 藍汛 網宿 七牛 云 又拍云 U 云 騰訊云 阿里云 新流 萬聯 網心科技 視界云 供銷科技 金
7、山云 高升 京東云 百度云 傳統 新興 華為云 迅達云 美團云 云 讓服務透明用戶 下層 上層 CDN 源站 讓服務透明前期選型、后期質量考核是否達標效果未知出現故障時是否由于CDN引起故障未知調整加速資源、變更解析策略變更未知使用多家CDN時選型對比未知 CDN評估原則有標準 給建議 定義行業加速基線 結合數據給出優化建議 可量化 可以給出效果得分 評估方法79 63 71 72 69 65 目標主機同省同運營商匹配率 覆蓋率覆蓋率 建連后首個字節返回時間 首包時間首包時間 TCP握手前兩次握手時間 建連時間建連時間 總下載字節數/總下載時間 *100%下載速度下載速度 監測成功次數比率 可
8、用性可用性 78分域名解析消耗時間 DNSDNS時間時間 關于米路通關于米路通 從用戶視角看問題從用戶視角看問題 主動監測是什么主動監測是什么 具體實踐具體實踐 大網波動感知大網波動感知 CDNCDN效果評估效果評估 網絡劫持監測網絡劫持監測 目 錄網絡類型返回非真實網站IP地址 數據流中插入特定報文 使客戶端獲得錯誤數據 彈廣告或顯示其他網站內容 DNS劫持 鏈路劫持 判斷依據 主機IP白名單 CNAME信息 元素域名白名單 源代碼文本 MD5校驗 Header信息 鏈路劫持 鏈路劫持 DNSDNS劫持 劫持 DNS劫持案例烏魯木齊移動該域名全部報無法建連錯誤 DNS劫持案例烏魯木齊 移動 西安移動 鏈路劫持原理鏈路劫持案例建連是客戶端到服務器時延43ms,而劫持數據返回時間變為只有5ms 鏈路劫持案例網頁首元素被跳轉到其他網站 鏈路劫持案例建連和首包服務器返回的TTL相差很多,說明劫持設備進行修改 規避方法HttpDNSHttpDNS DNS劫持問題解決 解析調度更精準 只適用于移動端 HTTPS HTTPS 解決鏈路劫持現象 并非100%杜絕 帶來的性能開銷需要評估 THANKS!