劉明剛-B站一站式大數據集群管理平臺.pdf

編號:177531 PDF 32頁 19.13MB 下載積分:VIP專享
下載報告請您先登錄!

劉明剛-B站一站式大數據集群管理平臺.pdf

1、DataFunSummitDataFunSummit#20242024B站一站式大數據集群管理平臺(BMR)劉明剛/資深工程師背景介紹元倉建設集群管理智能運維定制化Manager目錄未來展望01背景介紹l 業務快速增長l 大數據規模和復雜度顯著增加l 服務器數突增到5,000+l 通用平臺無法滿足需求BMR的誕生2021l 50+服務組件l 10,000+臺服務器l EB級別的存儲l 百萬核的計算資源BMR 孕育而生BMR 走向成熟20202024l Ansiblel Relayl Riderl FalconBMR發展階段階段一:求生存階段二:追溫飽階段三:奔小康階段四:共富裕l 聚焦環境、配

2、置標準化l 滿足核心組件的快速發布l 建設元倉、沉淀數據l 服務組件全面覆蓋l 場景化建設l 擁抱云原生、擴展容器化管理能力l 元倉應用l 智能運維(巡檢平臺、故障自愈)l 智能運維升級(故障預測、智能問答)l 定制化ManagerBMR-產品藍圖l 迭代?安全變更?高效穩定用BMR,構建、發布、驗收 一站式l 查問題?高效穩定用BMR,預警、診斷、自愈、定位 一站式l 資源不夠?降本穩定用BMR,Quota、用量 清晰透明 一站式穩定效率成本02集群管理BMR-集群管理50+每天變更數10,000+變更關聯主機快&穩BMR-集群管理基本能力集群、服務、配置、安裝包管理BMR-集群管理常見操作

3、擴容、縮容、重啟、升級等迭代操作核心能力(高效&安全生產)l可視化流程編輯能力l安全變更、變更防御l服務優雅的下線l自動適配異構機器/環境l節點、服務生命周期管理l跨組件依賴管理BMR-集群管理降本利器-潮汐混部l 錯峰出行l 彈性伸縮l 分級保障1,000+節省機器數60,000+總核數收益顯著03元倉建設BMR-元倉建設元倉業務元數據故障數據黃金指標l數據互通l元數據一致性l歷史回放BMR-元倉應用概覽一眼看盡“黃金指標”SLO性能&穩定性“晴雨表”容量/Quota管理資源合理“動起來”BMR-主機診斷l 覆蓋100+硬件故障、異常日志、異常監控指標l 當前故障、歷史故障一目了然l 故障趨

4、勢清晰可見元倉應用-任務診斷沉淀20+診斷類型l 失敗分析l 耗時分析l 報錯分析l 資源分析l 效率分析04智能運維BMR-智能運維集群規模大服務管理復雜故障排查難主機數量 10,000+磁盤數量 200,000+服務組件 50+混部組件多機器/環境異構組件相互依賴故障發現滯后故障處理速度慢BMR-智能運維l巡檢系統:主動發現風險,自助診斷l故障自愈:智能分析診斷,故障自動恢復l智能問答:讓真相直達用戶巡檢平臺-應用場景已知風險主動探查緊急風險快速響應l 主機硬件故障l 操作系統風險l 核心配置錯誤l 組件部署不符合預期巡檢平臺-產品能力l 巡檢項管理 內置10+個巡檢項 巡檢項快速創建、修

5、改、刪除l 巡檢任務類型 即時任務 期性巡檢任務 定時巡檢任務l 巡檢對象 自定義機器 服務、集群、組件l 巡檢結果訂閱和告警故障自愈-變被動為主動及時性智能化可分析l及時發現l快速處理l減少故障時間l利用元倉數據進行智能診斷分析l結合業務無損/少損修復l減少大量繁重和重復的工作l故障預測,提前消滅風險故障自愈-產品能力l 磁盤故障、性能下降、壽命耗盡l IO Hang住l 服務異常智能問答-直達用戶利用元倉數據+LLM技術05定制化ManagerBMR-定制化Managerl Flink Manager Flink 任務管理 Flink 版本管理 模板管理 節點管理 測試管理l Kafka

6、Manager Topic管理 集群管理 工具集l Spark Manager Spark 任務管理 Spark 版本管理 Spark 迭代管理 測試管理高效變更安全變更差異化需求BMR-Flink Manager7,000+flink任務90+每周變更次數3,000+主機數110+任務模版數量灰度變更精確到任務變更防御前置檢查、后置檢查BMR-Kafka Manager10,000+Topic數40+Kafka集群數2,000+主機數數年沉淀形成工具矩陣lTopic 管理Topic讀寫限流Topic治理Topic回收站管理Leader-1 修復重置consumer offsetPartition Reassignl集群管理容量、Quota管理負載分析Lable管理磁盤管理多機房管理BMR-Spark Manager200,000+Spark任務數/天10,000+主機數努力開發中lOneClient 多版本管理 精確到任務 快速回滾l安全變更 按任務灰度 變更防御 打通測試平臺基準測試性能測試數據質量驗證06未來展望未來展望l完善大數據測試平臺、打通變更和測試l加強變更管控l繼續增強容量管理、風險預測、自愈能力l探索更多大模型的應用場景DataFunSummitDataFunSummit#20242024THANKS

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(劉明剛-B站一站式大數據集群管理平臺.pdf)為本站 (張5G) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站