《2-蘭鋼臨-快手大數據SRE技術運營體系建設之路.pdf》由會員分享,可在線閱讀,更多相關《2-蘭鋼臨-快手大數據SRE技術運營體系建設之路.pdf(45頁珍藏版)》請在三個皮匠報告上搜索。
1、快手大數據SRE技術運營體系建設之路2023 深圳站蘭鋼臨從15年在360公司到18年加入快手至今,一直從事大數據SRE相關工作。目前主要負責快手大數據和云存儲相關服務的保障工作,保障超大規模集群的穩定與高效運行,以及相關引擎服務迭代效率??焓?大數據SRE服務保障團隊負責人嘉賓照片2023 深圳站目錄CONTENTS大數據SRE技術運營體系演進01 當前面臨的痛點和挑戰02 大數據SRE技術運營體系建設03 未來規劃04 2023 深圳站01大數據大數據SRE技術運營體系演進技術運營體系演進2023 深圳站大數據大數據SRE技術運營體系演進技術運營體系演進2017 2018 2019 202
2、0 2021 2022機器增長趨勢機器數2017 2018 2019 2020 2021 2022CPU增長趨勢CPU數2017 2018 2019 2020 2021 2022存儲增長趨勢存儲量2023 深圳站大數據大數據SRE技術運營體系演進技術運營體系演進201720182019202020212022資源規模增長趨勢機器增長趨勢CPU增長趨勢存儲量增長趨勢2023 深圳站大數據大數據SRE技術運營體系演進技術運營體系演進混部 存算混合機型 部署關系復雜 資源利用率低 服務互相影響存算分離 高密度存儲、計算機型 存算分離部署統一調度 計算統一調度 底層統一存儲2023 深圳站大數據大數據
3、SRE技術運營體系演進技術運營體系演進202320182019202020212022適應增長(規模年均增長1倍+)高質量發展(夯實基礎,面向未來)運維腳本化運維平臺化,實現服務平臺化管理,通用流程平臺化操作1、平臺化升級,定制復雜操作流程、故障自動化維修2、運維數據化,建設運維元數據、指標數據、事件數據、知識庫1、運維平臺化,重構實現超大規模集群管理、支持操作流程編排2、成本賬單化1、穩定性運營體系建設2、資源體系建設3、標準化建設4、成本優化專項1、穩定性體系二期2、資源體系二期3、標準化二期4、成本優化專項2023 深圳站02當前面臨的痛點和挑戰當前面臨的痛點和挑戰2023 深圳站當前面
4、臨的痛點和挑戰當前面臨的痛點和挑戰2023 深圳站當前面臨的痛點和挑戰當前面臨的痛點和挑戰超大規模部署復雜變更頻繁9個引擎服務300+集群數萬機器規模日均變更單數量100+10+機房機型不統一系統環境不統一部署不規范穩定性效率成本故障頻率高故障召回率低抗風險能力弱維護難度高變更效率低資源管理效率低機器利用率低2023 深圳站03大數據大數據SRE技術運營體系建設技術運營體系建設2023 深圳站大數據大數據SRE技術運營體系建設技術運營體系建設穩定性穩定性體系建設核心指標:90-2-5-10成本大數據資源體系建設核心指標:資源準時交付率、資源利用率效率大數據運維平臺建設,提高研發效率核心指標:研
5、發運維分離比2023 深圳站大數據大數據SRE技術運營體系建設技術運營體系建設2023 深圳站穩定性體系建設穩定性體系建設/規劃大圖規劃大圖2023 深圳站穩定性體系建設穩定性體系建設/主要問題主要問題開發域變更域加固域檢驗域發現域處置域標準化問題突出標準化問題突出標準化問題故障占比27%演練覆蓋度不足演練覆蓋度不足服務性能容量、基礎設施故障導致的服務故障占比為17%故障發現時間長故障發現時間長故障召回率43%,平均發現時長131分鐘2023 深圳站穩定性體系建設穩定性體系建設/解決思路解決思路系統性的進行標準化治理工作,使得標準化治理成果可持續標準化問題突出標準化問題突出定義穩定性能力模型保
6、障演練覆蓋的全面性,并對線上穩定性能力進行盤點與演練演練覆蓋度不足演練覆蓋度不足系統性的建設報警能力以提升故障召回率,從而降低平均故障發現時長故障發現時間長故障發現時間長2023 深圳站穩定性體系建設穩定性體系建設/標準化治理方案標準化治理方案梳理線上標準化問題,對標準化問題進行分層治理通用標準化層變更規范SOP標準基礎環境準化層裝機標準化內核參數標準化系統環境標準化服務準化層服務部署標準化服務配置標準化服務操作標準化新增治理存量治理2023 深圳站穩定性體系建設穩定性體系建設/標準化治理案例標準化治理案例存算混合機型3W+規模7%混部dn配置版本30+nm配置版本40+機器CPU利用率低DN
7、(defaul)NM(offline)DN(disk reserved)KafkaDN(disk reserved、tag隔離、tc限速)Druid/ClickhouseDN(reserved、tag隔離)FlinkDN(default)Master服務(hs2/metastore/router/raidnode/)DN(defaul)client標準非標非標非標非標非標2023 深圳站穩定性體系建設穩定性體系建設/標準化治理案例標準化治理案例存算混合機型存算分離機型DN/NM標準NMClickhouseFlinkkafkaMaster服務DNDruid標準2023 深圳站穩定性體系建設穩定性
8、體系建設/故障演練范圍盤點方案故障演練范圍盤點方案定義穩定性能力模型,并盤點故障演練范圍單機單tor單idc單az單點容災隔離限流過載保護熔斷分級保護降級熱點避讓短路服務韌性誤刪除校驗鑒權一致性數據正確性2023 深圳站穩定性體系建設穩定性體系建設/報警全面性建設方案報警全面性建設方案2023 深圳站穩定性體系建設穩定性體系建設/報警全面性建設方案報警全面性建設方案2023 深圳站穩定性體系建設穩定性體系建設/收益收益21年度一般故障21個嚴重故障8個90-2-5-10指標:33%-217-137-8322年度一般故障7個嚴重故障故障1個90-2-5-10指標:57%-16-34-7推進4類標
9、準化共計17個標準化項的治理,平均標準化率從59%提升到92%針對故障演練結果系統性排查出線上49個P0風險,解決率83%系統性盤點演練范圍,演練發現11個風險點并得到解決歷史故障報警召回率100%2023 深圳站資源體系建設資源體系建設/規劃大圖規劃大圖2023 深圳站資源體系建設資源體系建設/主要問題主要問題效率預算、交付、使用三方獨立預算信息與交付信息不對等風險資源黑天鵝事件成本機器利用率低資源預算交付人工操作3個平臺預算需求到交付方案時長2周22年北京疫情導致機器大面積延遲交付部署機型不合理,集群利用率低2023 深圳站資源體系建設資源體系建設/解決思路解決思路 整合預算與資源交付系統
10、,并拉齊預算與交付信息預算交付低效預算交付低效建設大數據資源池并建立業務側、引擎側、資管側資源預案機制資源風險應對資源風險應對分析低利用率問題,結合引擎能力置換合適機型機器利用率低機器利用率低2023 深圳站資源體系建設資源體系建設/預算管理系統方案預算管理系統方案打通業務預算和平臺交付系統SKU預算拉齊交付信息業務 提交預算預算平臺 資源預算管理 物理機預算管理大數據預算管理Sku管理資源轉機器部署交付Quota管理資源中控平臺 資源使用 用量管理2023 深圳站資源體系建設資源體系建設/預算管理系統方案預算管理系統方案預算交付信息租戶SKURegionAZ資源組配額預算申請預算交付2023
11、 深圳站資源體系建設資源體系建設/大數據資源池方案大數據資源池方案2023 深圳站資源體系建設資源體系建設/大數據資源池方案大數據資源池方案2023 深圳站資源體系建設資源體系建設/大數據資源池方案大數據資源池方案成本、穩定性、效率資源池上限資源池下限2023 深圳站資源體系建設資源體系建設/利用率優化案例利用率優化案例300臺H換105臺E機器Kafka機型置換優化案例上千規模機器置換年化收益上千W2023 深圳站資源體系建設資源體系建設/收益收益效率:預算和交付閉環拉齊需求和交付信息交付存儲類資源EB級,計算類資源數十萬核,帶寬類資源數百GB、資源準時交付率超95%風險:大規模產品資源池建
12、設建立資源風險預案與機制支撐大規模kafka機型優化22年疫情資源風險應對,業務資源預測內準時交付率超過80%機型優化:上千規模kafka機型置換海外云資源遷移年化收益數千萬2023 深圳站大數據運維平臺大數據運維平臺/整體介紹整體介紹通用化基礎設施,提升SRE集成效率流程編排分場景建設運營平臺資源運營線上變更建設收益操作平臺化率:82%+研發運維分離比:91%+任務調度agent數據采集agent基礎設施層集群管理機器管理服務管理層配置管理監控管理元數據運維數據數據層流程編排故障自愈操作層事件分析數據分析層穩定性分析利用率分析安全管控資源運營操作平臺化服務化層服務化API2023 深圳站04
13、未來規劃未來規劃2023 深圳站未來規劃未來規劃穩定性90-2-5-10黑盒/白盒報警標準化治理AZ逃生故障/預案演練效率可視化穩定性大盤可視化利用率大盤加強資源運營平臺化能力加強大規模集群變更執行效率資源/成本機房搬遷、存算分離、引擎上云精細化資源運營機型優化感謝聆聽CSDN全球最大的中文開發者社區平臺CSDN全球最大的中文開發者社區平臺CSDN創立于1999年全球編程類網站排名第7(來源:Similarweb 2023.04)注冊用戶超過4300萬,覆蓋90%的中文開發者新媒體矩陣粉絲數量超過3100萬超過1000家企業客戶和合作伙伴目前公司員工近800名,分布在北京、長沙、上海、深圳、杭州、成都等城市,并在美國硅谷常設辦事處旗下品牌旗下品牌專業中文IT技術社區:CSDN.NET多媒體專業出版:新程序員開發者專屬移動APP:CSDN APP代碼托管協作平臺:GitCode代碼工具協同平臺:InsCodeIT人力資源服務:科銳??怂关俗W絡高校IT技術學習成長平臺:高校俱樂部