《騰訊云+TCHouse-C+:基于Schema-less的半結構化數據分析實踐.pdf》由會員分享,可在線閱讀,更多相關《騰訊云+TCHouse-C+:基于Schema-less的半結構化數據分析實踐.pdf(12頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊云?TCHouse-C?:基于Schema-less的半結構化數據分析實踐張一鳴騰訊云云數據倉庫高級產品經理主講人:吞吐寫性能分析低成本存儲Clickhouse在規模數據分析中的優勢ClickHouse被泛應于海量數據分析任務具備吞吐能,撐峰期每時百億數據的寫數據壓縮、列式存儲、存算分離、冷熱分層降低存儲成本持向量化引擎、聚合分析下,充分發揮了列存引擎優勢半結構化數據處理挑戰 數據來源泛、數據價值潛巨 數據OLAP場景,缺少強分析能的Schema-less數據庫社區22.8-持動態列能社區22.3JSON數據存儲為STRING類型,通過具函數來獲取JSON字段信息,輔助查詢分析缺點:所有字
2、段混合存儲,查詢分析效率低下持動態列能,引擎針對每個寫的?JSON?對象值進動態的類型推導缺點:法持動態列級索引、創建物化視圖、PROJECTION、以及對列的增刪改等功能 構建分布式查詢計劃復雜,性能低下半結構化分析挑戰采GOSSIP協議實現節點之間元數據信息播,使集群范圍內節點的動態列信息保持最終致性內核增強:持Schema-less動態列,應對半結構化數據處理的挑戰社交媒體互聯物聯移動應Clickhouse-serverClickhouse-serverClickhouse-server實時分析數據看板監控告警風控審計應場景Ck內核寫數據源易性、性能、靈活性、可擴展性兼容現有客戶端協議內
3、核持Schema-less能解決案 需預定義數據結構,允許數據結構運時動態擴展 持量半結構化數據寫?,動態增加字段 業務寫更加靈活降低客戶集群遷移成本;沿現有OBJECT或者String類型,沿現有客戶端協議動態增加列使得數據分析兼具性能與靈活性,實現存儲效率與查詢性能之間的平衡動態列信息保持最終致性核優勢應場景Schema-less技術架構解讀:需預定義數據結構,持動態擴展a.b.ea.c.dparserinterpreterQuery?pipelineStorage?engineJSON列以OBJECT或者String類型字段存儲包裝為BlockHouse數據結構BLOCK解析為TUPLE
4、類型的數據構建數據寫的Query?Pipeline,并執數據落盤后,在PART提交過程中更新動態列;創建表時需要設置參數以標識該表持Schema-less功能指定分區鍵,主鍵以及排序鍵引的字段名稱以及類型數據寫時,將半結構化數據以JSON的形式放在已定義字段的后向客戶端返回必要數據在寫了JSON數據后,該表會動態擴展字段,查看數據:半結構化數據寫持Schema-less的tchouse-c集群時,只需要簡單步驟。Step1:標識表Step2:數據寫Step3:查看數據性能對半結構化數據性能提升20倍 某客戶志分析以及APM場景下,對半結構化數據實時分析性能提升20倍 秒級返回查詢結果 將查詢頻
5、字段按普通列存儲,充分利向量化計算性能優勢 持級索引、預計算處理,從提升查詢性能 持基于JSON內部字段構建物化視圖25.31.1051015202530查詢時間/s社區版本TCHouse-C云原技術架構升級:存算解耦,資源管控粒度更細,成本更加可控計算與存儲資源對稱需求愈發強烈,客戶需要常靈活的資源編排能。存算體、法獨按需擴展,帶來成本冗余集群擴容后,新的節點不會動同步元數據信息;數據重分布問題需要介。缺少真正的彈性能需要介。缺少真正的彈性能部分業務在創建初期難以準確估算數據規模和所需資源,且頻繁調整。規模數據量帶來成本壓,為應對調整,快速搭建、擴縮集群是必要能內核升級:持數據重分布內核升級
6、:持數據重分布彈性版彈性版存算解耦,數據動均衡存算解耦,數據動均衡存算分離架構:元數據服務層、計算層、存儲資源層對象存儲/分布式存儲/云盤存儲元數據管理1clickhouse-admin處理DDL請求元數據分發失敗節點檢測數據分布表SCHEMA信息配置信息研表引擎2數據重定向數據查詢數據寫效彈性3存算分離分組隔離數據容災秒級擴容存儲資源層計算資源層云原技術架構解讀研表引擎實現兼容開源代碼,提供了統的抽象視圖?,集成多種存儲clickhouse-admin管理集群全局信息存算分離架構,獨擴展,彈性效率極提升CloudMergeTree?數據讀寫?后臺合并?數據均衡?CloudDistribute
7、d案例:使騰訊云TCHouse-C?構建通志分析系統時效性留存分析留存分析審計歸檔審計歸檔線上監控線上監控運營推運營推實時業務數據洞察志冷存儲查詢頻率秒級分鐘級時級天級季度年問題診斷問題診斷業務洞察業務洞察業務分析業務分析戶畫像戶畫像聚合查詢聚合查詢千億規模數據分析秒級完成,數據寫鏈路平均延時于5s,查詢延遲縮短秒級半結構化數據性能提升20倍效分析 數據動均衡,感擴縮容,降低戶運維成本彈性能應對潮汐業務,維持可控的資源利率,降低資源成本彈性伸縮成本數據量實時性要求客戶價值使 TCHouse-C?構建通志系統:應對不同時效性與查詢效率下的志場景志場景下的痛點:打造更性價的海量數據分析產品未來展望
8、實時UPSERT能研存儲引擎持UPSERT能,增強原ClickHouse的企業級能全?SERVERLESS戶需提前進計算資源預測?,根據負載實時進動態資源的調整,提資源利率分布式查詢引擎持分布式查詢引擎,幅提升分布式查詢能前,TCHouse-C已經具備做到完整的彈性伸縮能,戶可以按需購買計算資源與存儲資源。標準版與彈性版均持schema-less進半結構化數據分析,帶來了志分析場景下的新突破.在運維TCHouse-C依賴云上運維管控系統,為戶提供開箱即的服務。騰訊云云數據倉庫品牌全新升級-TCHouseDCPTCHOUSE-P兼容?PostgreSQL開源數據倉庫,提供簡單、快速、經濟效的?PB?級云端數據倉庫解決案TCHOUSE-D基于業內領先的?OLAP?數據庫?Apache?Doris?內核構建,兼容MySQL協議和Hadoop態,提供便易、靈活穩定的實時數據倉庫服務TCHOUSE-C基于開源引擎clickhouse打造的為云端全托管服務,快速完成海量數據查詢數據倉庫的搭建,簡單輕松地完成對數據的實時查詢分析騰訊云云數據倉庫發布系列企業級托管型云數倉產品打造完整的數據倉庫產品體系,滿戶多種場景下的案選型THANKS謝謝觀看