《張康-字節跳動大規模HDFS存儲運維實踐_v1.1.pdf》由會員分享,可在線閱讀,更多相關《張康-字節跳動大規模HDFS存儲運維實踐_v1.1.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、20EB+:大規模HDFS存儲運維實踐張康 大數據存儲SRE負責人19年加入字節,目前在字節跳動負責大數據存儲、塊存儲及文件存儲方向SRE運維管理工作,專注方向為大規模分布式存儲場景下的穩定性體系、成本優化、平臺效率及業務運營字節跳動HDFS架構及生態大規模HDFS運維挑戰大規模HDFS運維實踐未來展望字節跳動HDFS架構及生態字節跳動HDFS發展歷程階段一:基于開源HDFS做定制化階段二:上線自研DancenNN單集群節點:5W+單集群數據量:6EB+三機房架構階段三:全面支持近在線業務單集群節點:15W+單集群數據量:20EB+多機房架構字節跳動HDFS架構mysqlredisDFS Cl
2、ientDN 1DN 2DN nDN 3zkzkzknnproxynnproxynnproxybkbkbkMount tableelecteditlogActiveStandbyzkfczkfcobserverActiveStandbyzkfczkfcobserverQuata及限流、白名單Quota統計quota基線配置Federation ADataNodeseditlogFederation BNameNodesBk元數據,如ledger、edits、bookie等NNProxy層為聯邦集群提供全局統一的目錄視圖限流/熔斷/權限/Quota元數據層DanceNN,C+版本namenode
3、BooKeeper,共享的editlog存儲數據層Datanode,數據存儲多BP存儲池模式字節跳動HDFS業務生態HDFS 在離線調度系統Godel(YARN)MRSparkHiveFlinkBMQHbaseclickhouse廣告數據平臺AML推薦電商datanodedatanodedatanodedatanode機房-1機房-2機房-3機房-4離線場景OLAP 查詢引擎存儲底座,包括Hive/Spark/ClickHouse/Presto 等場景機器學習離線訓練數據,包括Arnold/Primus等場景近在線場景BMQ 近離線消息隊列存儲底座Flink 流式任務Checkpoint/業務
4、實時數倉Clickhouse風神實時查詢Priimus大規模HDFS運維挑戰大規模分布式HDFS的運維挑戰穩定性及智能化運維多機房架構及容量治理業務治理成本優化超大規模集群,需要構建運維智能化,基于數據來驅動運維效率的提升,同時洞察局部熱點及毛刺問題數據傾斜數據放置/數據遷移/數據容災跨機房帶寬海量小文件問題元數據膨脹及業務拆分業務預算交付及quota管理資源利用率提升數據挖掘及治理運維挑戰大規模HDFS運維實踐系統化-運維體系的落地高可用運維體系機房容災監控體系巡檢體系預案體系自愈數據備份故障演練變更管控自動化-運維運營平臺SpaceX-Kepler落地RPC分析流量分析熱度分析容量管理In
5、sight智能診斷小文件分析SLA大盤巡檢大盤容量大盤告警大盤高可用大盤Kepler V2運維平臺性能分析運營大盤版本大盤1.元數據管理2.流控管理3.路由管理nnproxy1.元數據管理2.集群管理BK1.元數據管理2.運維操作3.Copyset管理DN1.元數據管理2.運維操作NN1.主機管理2.模板管理3.備機管理4.混部管理CMDB1.規則管理2.巡檢執行3.監控對接Inspect1.BFC管理2.預案管理3.預案配置Preplan1.包管理2.日常運維3.發布升級DEPS1.消息通知2.操作進度3.運維公告BOTHDFS組件運維體系1.自動重啟2.自動切主3.自動降級Heal基礎能力
6、資源組管理數據管理增長分析TTL管理存儲策略小文件合并誤刪恢復限流查詢路徑認領數據冷熱業務運營預算管理成本管理增長預測用戶管理權限管理工單管理用戶平臺V2數據打通基礎組件HeliumArgonTimetaskOpstaskThrallAuditlDEVSRETAOGalaxySCMSSOTCEArgosAeolus組件依賴廣告成本分析數據化-Data Insight體系落地-構建初衷 業務分類 業務使用姿勢 業務行為 業務負載 業務增長趨勢業務畫像 集群負載 分機房負載 單機負載 QPS集群負載 業務增長趨勢 業務擴容及治理建議 業務成本分析資源管控QPS請求流控調度塊分布與業務讀寫行為匹配帶
7、寬調度數據遷移調度調度策略數據化-Data Insight體系落地離線鏈路實時鏈路容量監測性能監測流量監測業務監測機房分布HDFS業務治理與運營-離線熱表治理限流用戶路徑集群拆分切增量表存量表fastcopy120k/s 讀日增10億+小文件合并自動化合并源頭業務優化格式統一Text轉Parquet日增80P+資源交付預算管理Quota限制全面平臺化自動交付30+BP業務BP穩定性保障業務畫像Insight數據開放HDFS新場景支持-近線ByteMQ存算分離架構高性能低成本獨立池化集群純HDD自適應多機房容災4000GB+/s 寫1000GB+/s 寫Flink存算分離架構離線大集群復用實時c
8、heckpoint自適應多機房容災Clickhouse存算分離架構低延遲持續上量中HDFS多機房架構容災datanodedatanodeDC-1datanodedatanodeDC-2datanodedatanodeDC-3datanodedatanodeDC-4DancennDC-1DancennDC-2DancennDC-3DancennDC-4統一存儲池Major DC 配置集群全局主機房排序例子:DC-1(主)2副本DC-2 1副本Replica policy配置目錄級別的副本放置策略例子:/a/b DC-1 1副本 DC-2 1副本 DC-3 1副本HDFS數據遷移管理Migrati
9、onServiceMoveDCBytecoolBalanceDistcpDecommision50PB+/天30PB+/天HDFS容量管理容量監測水位調節數據均衡帶寬優化實時離線預測切增量挪存量只讀比率Pivot水位線讀寫限速用戶/業務/集群HDFS成本優化成本優化技術優化運營優化紅線水位:88%-92%磁盤預留:5%-1%EC上量:6+33副本-1.5副本優化成果:5EB+優化成果:3EB+100w core混部率:100%臨時數據自動批清:Hive stagingtrash黑洞治理:AIOPS數據挖掘,智能化推薦未來展望未來展望全自研&元數據分布式智能化運維成本及數據治理Thanks開放運維聯盟高效運維社區DevOps 時代榮譽出品