《專家智慧一觸即達:DBbrain在TDSQL運維管理中的應用.pdf》由會員分享,可在線閱讀,更多相關《專家智慧一觸即達:DBbrain在TDSQL運維管理中的應用.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、何威 騰訊云主講人:全鏈路分析助力業務改造總結分布式數據庫運維挑戰DBbrain是什么DBbrain全鏈路分析市場競爭加劇,客戶習慣變化,移動互聯網5G帶來應用新變革,需要快速響應數據是經營的核心資產,“數據二十條”催生新的機遇國家監管要求,要加快金融市場基礎設施建設,穩步推進金融業關鍵信息基礎設施國產化硬件:小機、大機軟件:自主研發,國外廠商技術支持/咨詢技術:技術架構與硬件耦合性強硬件:云化/虛擬化/國產化軟件:開源軟件,自主研發,聚焦金融技術:自主可控,微服務架構,國產數據庫大客戶或金融場景客戶數據庫中,通常數據體量巨大,加大了數據分析、實時性、數據庫運維的難度。在分布式集群中,SQL經
2、過Proxy后可能會轉義,根因分析、關聯分析難度很大。金融客戶數據庫,事務較多,尤其在分布式數據庫集群中,事務的狀態、性能等通常會加大運維的難點。1:摘自信通院報告7*24小時智能監測數據庫,無需人工值守。實時智能異常檢測優化,增加自愈能力。自動健康巡檢排查隱患沉淀專家建議,提供多重優化措施自動出具SQL優化建議SQL重寫Schema優化建議精準耗時分析,掌握數據庫運行各個角度的性能。全鏈路分析,分步耗時性能統計問題根因深度分析數據加密、等保合規性防護確保數據庫安全運行。標準化、規范化的操作減少了登入服務器的次數,降低誤操作概率。所有操作保留審計記錄用于審查。支持公有云數據庫支持云主機自建數據
3、庫支持混合云模式支持私有云模式一鍵式運維管理操作和性能優化,大幅減少了運維的成本。故障主動定位和智能優化,大幅降低了數據庫運維管理的門檻。MySQL運維場景診斷優化健康報告性能監控、健康巡檢死鎖可視化事務分析SQL限流熱點數據保護Kill會話/持續KILL數據庫自治運維場景診斷優化性能監控健康報告高精度審計日志P99/P95分析事務分析鎖分析Kill會話持續KILL健康報告大KEY分析、即時大KEY分析熱KEY分析訪問延遲分析命令字分析健康報告慢日志分析實時日志分析持續KILL會話多維度實時、歷史監控運維場景化診斷優化性能監控健康報告多維度性能監控10-100毫秒區域階梯延遲分布KILL會話、
4、持續KILL索引推薦SQL限流系統與數據庫指標監控告警7*24實時診斷與問題分析熱點保護,SQL限流,持續Kill自動升配/修復 健康巡檢:健康摘要/明細實時預警:用量、規則、潛在問題歷史分析:事后分析復盤,支撐改進數據庫備份與恢復,安全防護,變更管理 根因分析:SQL分析,空間分析,安全分析參數調優:系統的、數據庫的參數優化使用優化:模型優化、數據分布優化、SQL優化 分布式數據庫可觀測性大幅提高。SQL語句明細:執行時間、性能數據、會話ID 事務明細:事務起止、明細語句、統計信息 活躍會話:每個時刻數據庫負載 聚合分析:多種聚合維度,下鉆/上卷分析 點面結合:摘要精準,細節明確備注:數據庫
5、審計日志是一種記錄數據庫活動和事件的機制,用于監控和審查數據庫的使用情況。審計日志通常包括對數據庫的訪問、更改、查詢和其他操作的詳細信息,以及執行這些操作的用戶、時間戳和其他相關上下文信息。New重要 SQL被發往了哪個Proxy?Proxy又將SQL發往了哪個DB分片?是如何執行的?Proxy與DB節點間的網絡情況對SQL執行的影響。匯聚Proxy與DB日志 支持Proxy/DB雙向關系查詢 秒級檢索TB級審計日志 PB級歷史數據檢索 豐富的日志明細 日志壓縮存儲,壓縮率5-10倍 支持的存儲方式多樣,包含對象存儲本地盤NAS 模板化統計SQL,有聚類,也有語句具體的執行明細 分析Top 性
6、能消耗,找出高耗時SQL,高頻率SQL。SQL來源分布分析,來自哪些Host、User,訪問哪些Database?SQL執行統計分析,發往哪些DB分片,輔助是否有傾斜?SQL執行歷史對比,核對調優效果或是發現隱患 支持Proxy 和 DB雙向分析 將相似事務進行了模板化聚合分析,亦能洞察到具體執行的事務,事務中每一條SQL 分析Top 事務來源分析 事務執行分析 與SQL統計分析交互關聯 增強了實時診斷中的事務明細 支持Proxy 和 DB雙向分析連接性檢查DDL 語句等待 Metadata Lock慢 SQLselect 語句等待 Metadata Lock慢 查詢死鎖等待行鎖只讀鎖事務未提
7、交SQL 語句等待 Metadata Lock長事務Waiting for flush tablesSQL執行間隔過大事務磁盤空間利用率存在報錯SQL事務內存利用率復制延遲CPU 利用率事務導致復制延遲活躍會話高報錯執行時間過長的事務單條SQL響應時間長SQL執行間隔過大事務長時間未提交非預期結束未恢復自動提交影響行數過多的事務綜合信息感知限流規則執行黑白名單批量Kill持續Kill觸發規則自動匹配自動探測熱點更新降低大并發損耗優化熱點數據性能自動參數調優自動升配自動擴容并不慢的語句變慢執行計劃發生變化合理的表結構設計此時不再合理夠用的磁盤空間不夠了超過主機承載能力引擎配置不再合理系統與數據庫
8、指標周期快照各種日志 實時預警預測報告眾多實例如何一覽全局?分布式節點信息如何更好呈現?信息要盡可能的豐富形式靈活,可二次開發是問題交流的基礎有根因分析與建議 已知某次業務響應時間,需要知道該次業務訪問的哪一個數據庫節點,哪些SQL語句,耗時情況。需要一個根據業務日志號,知道訪問了哪些數據庫實例,哪些庫表,其中的SQL性能數據。需要支持業務維度的統計和分析,能深入到業務中。能區分不同業務,不同服務,不同用戶性能差異等特征。重要全鏈路SQL分析全鏈路事務分析全鏈路跨實例分析全鏈路跨機房分析整體排障時間縮短至少3倍以上,清晰知道SQL流轉異常定位時間從小時級,降低到分鐘級清晰知道SQL與業務關聯,
9、有效推動業務優化。風險左移:開發工程師可隨時優化低效SQL優化,通過DBbrain的Top排序,開發資源用在刀刃上。出現全表查詢刪除更新帶where避免多表join大事務長事務字段類型字段長度溢出字符集分區鍵選擇索引優化拆表建議避免函數計算過大blob顯式的加鎖廣播表系統與數據庫參數指標監控告警7*24實時數據庫診斷與分析慢查詢分析,空間分析健康巡檢,健康報表SQL限流,持續Kill數據庫調優建議,參數修改自動伸縮,自動調優,自動修復數據粒度更細執行信息更豐富多維分析事務洞察分析關聯業務信息業務流水洞察精準度更高高實時分布式節點洞察歷史趨勢分析更精準的自優化全鏈路業務可觀測監督業務使用問題解決在上線前更精準的問題預警測開環節檢查評估DB問題預警:用量預警、規則預警研發處理:指導開發工程師在研發階段發現數據庫使用問題,完成問題處理。業務改造:修正對數據庫的不合理使用。