《騰訊云+DLC+支持百萬級實時Upsert的企業級數據湖計算實踐全解析.pdf》由會員分享,可在線閱讀,更多相關《騰訊云+DLC+支持百萬級實時Upsert的企業級數據湖計算實踐全解析.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊云?DLC?:?持百萬級實時Upsert的企業級數據湖計算實踐全解析主講人:陳萬東產品簡介數據湖計算DLC的介紹、定位與優勢01數據技術發展:業務倒逼技術不斷發展傳統數據庫數據倉庫數據湖現代數據湖倉關系法和關系數據理論建,數據庫技術進關系型數據庫時代。特征:特征:以向事務交易場景為主,數據分析僅作為附帶提供的場景,擴展性差,很難持規模數據分析,性能也法滿需求。隨著數據分析需求的增,數據倉庫應運。最從初的體機形態,逐步發展到基于x86的MPP架構。特征:特征:相對封閉,約束較多,但在要求極致的性能的場景下有較多優化硬件資源彈性;多種數據類型;數據挖掘等都臨新的挑戰?;?Hadoop?態建設
2、數據湖,使?HDFS?作為數據存儲,使MapReduce、Hive等引擎。特征:特征:開放由,更好地保留原始數據,以挖掘數據價值。開源組件眾多,使成本較可能導致數據沼澤云原體化湖倉,兼具數據倉庫和數據湖的優勢,全覆蓋數據分析場景。特征:特征:云原,極致彈性、存算分離實時性強簡單易擴展性強交互式分析基礎可規范標準開放由優勢融合數據湖計算DLC?產品概述4數據湖計算?DLC(Data?Lake?Compute)是基于Spark、Presto、Iceberg構建的云原Serverless湖倉分析服務,具備存算分離、資源彈性、開箱即、托管運維、研內核增強等優勢特性,靈活覆蓋離線/近實時分析、交互式查詢
3、、跨源聯邦分析、數據科學等數據場景,助企業敏捷構建站式的數據分析平臺。產品優勢產品定位新代Lake?House形態先進Lakehouse架構,全覆蓋湖場景(模型數據預處理、數據科學)和倉場景(離線/近實時分析、交互式分析),滿企業數據各類分析需求。實時極速分析研數據優化服務,持百萬級QPS實時湖,端到端分鐘級時延。研加速層,三級緩存結合適應Shuffle,兼顧穩定性的同時幅提升查詢效率,提供企業級數據分析服務。極致性價為降本設計的云原存算分離架構,計算和存儲均按需使,持按量彈性付費,在兼顧性能的同時綜合降本50%+。開箱即云原Serverless產品形態,鍵部署,即買即,免底層運維。統接點、數
4、據智能優化等產品能,需維護復雜組件。DLC數據湖計算湖存儲WeData數據開發治理平臺DLC+行業應用實時分析BI報表交互式分析數據預處理結構化半結構化非結構化csvJSONXML離線分析聯邦分析數據科學特征工程數據湖計算DLC產品架構湖倉計算層倉場景BI報表|離線分析|近實時分析湖場景數據科學|數據預處理|交互式分析|聯邦分析自研增強版自研增強版Serverless Presto自研增強版自研增強版Serverless Spark統一接入點湖存儲層應場景加速層緩存加速緩存加速local cache|result cache|fragment cache存儲格式存儲格式 IcebergACID
5、事務支持|Schema演化|時間旅行|實時Upsert增量寫入數據優化數據優化 Smart Optimizer寫入優化|索引推薦|生命周期管理穩定保障穩定保障Spark 自適應shuffle對象存儲COSDLC托管湖存儲云服務層彈性資源管理權限管理運維管理數據湖計算DLC應場景聯邦查詢離線/近實時數倉分析交互式數據湖探索“企業進海量數據分析時,通常臨性能、穩定性、時效性、復雜性等的挑戰?!彪x線實時數據增量湖分布式計算引擎、查詢引擎、湖存儲引擎適應shuffle、多級緩存、分區、索引推薦等內核增強特性提供極速、穩定、經濟、開箱即的PB級數據離線實時分析服務“靈活助地探索數據,隨時滿個性化查詢需求
6、?!逼粱僮?,使標準SQL即可各類業務指標靈活的交互式查詢和數據探索領先的多級緩存加速技術排隊并發模型提升查詢效率“多源異構數據聯邦分析,打破數據孤島?!狈稚⒃诓煌到y中的數據,統查詢統元數據管理,個數據視圖極速聯邦查詢引擎數據科學“數據是AI的基礎,數據湖則是最適合AI場景數據預處理的數據平臺?!比萜骰渴?,按需彈性,隨隨Serverless免運維,專家全程持持python作業提供內置機器學習包和定義鏡像案例:百萬級/秒?UPSERT實踐數據湖計算DLC的介紹、定位與優勢02客戶主營融保險,使騰訊云DLC搭建近實時數倉,持BI系統、畫像系統、營銷系統,應于理賠、財務營銷分析、風控、投放分析等
7、業務??蛻敉袋c傳統Lambda架構,實時鏈路使Flink寫Hbase,離線鏈路使Hive解決案基于?DLC?+?Flink+?Wedata 搭建湖倉體近實時數據分析平臺,數據從業務數據庫流kafka,所有數據通過Flink實時寫DLC,幅簡化架構,節約資源,實現數據分鐘級可見。業務數據Kafka數據同步UPSERT數據同步T+1數據出庫非UPSERT數據同步ETL離線計算ETL離線計算ODSDWDDWS架構復雜:傳統Hadoop Lambda架構復雜,法滿數據時效性更的業務場景,平臺接新業務流程復雜成本:實時離線兩條鏈路,維護成本;實時數據兩份存儲實時性差:?T+1數據可見,時效性不穩定性不:
8、Upsert出庫到ODS表,易出現數據錯誤、不致問題,排障較困難案例:某頭部融券商案例DLC數據湖ETLODSIceberg/hiveDWDIceberg/hiveDWSIceberg/hiveETL實時離線統,套鏈路實現數據導批流體、存算分離架構,批流數據統為Iceberg表格式存儲全托管免運維T+分鐘級數據時延ACID事務能,持級更新案例:某融券商案例標與挑戰 流式寫入目標:100萬 Upsert/s 200M/s K-line業務場景,單表60萬 QPS寫入 數據時效=30min 1500+表實時導入 demo1/demo2 ETL離線分析計算性能(10億級數據量)=5min 基于傳統H
9、adoop實現的Lambda架構提供T+1時延,在資源有限的情況下,難以做到30min數據時延 大量的實時Upsert流寫入Iceberg,產生大量的deletes小文件,MOR查詢性能產生較大影響 Iceberg小文件治理時效性與穩定性,社區Iceberg需要大量工作用于配置調優參數 存算分離架構下,大數據量ETL離線計算性能挑戰 自研Iceberg湖格式數據優化服務,解決了Iceberg大規模Upsert問題,企業級使用成為了可能 基于Iceberg社區能力,針對存算分離場景增強社區能力客戶新架構要求與標DLC技術撐:研Smart?Optimizer數據優化服務MetricsSnapsho
10、tsTable MetaSpark EngineRewritedataExpiredsnapshotsRemoveorphanAutoTTLAutoIndexTaskScheduleTaskStateTaskanalyze Optimizer PolicyOptimizer RuleOptimizer TaskSnapshots EventMeta Event DataTrashMySQLRedis消息平臺Optimizer Event HandlerOptimizer Task ProducerTask SessionTaskSessionTaskSession Spark Task Con
11、tainerOptimizer Task ExecutorOptimizer Service 基于存算分離的數據智能優化服務 基于事件與時間驅動的可靠性模型 后端旁路優化服務,度解耦Iceberg內核 基于策略事件規則的優化任務,任務間相互獨且擴展性強 智能化優化任務管理,持任務反饋優化策略和規則 社區Iceberg很好解決存算分離場景實時Upsert湖產的系列問題(量件、量快照),法滿產述求 基于存算分離場景的Smart Optimizer數據優化服務,提供解決Upsert產量件、數據優化排布、歷史數據清理等問題,滿Iceberg Upsert規模產應2134UPSERT內核能力增強 增加上
12、游數據同步限流 Checkpoint內預分類與預聚合,解決寫大量分區OOM問題 存算分離場景并發關閉存儲資源,解決寫大量分區Checkpoint超時問題Flink CDC寫入穩定性提升 增加bloom filter過濾deletes文件,提升合并效率約40%按照equality deletes數量調度分配任務 優化快照Summary統計信息,快速統計表分區的變化情況,大幅度減少對存儲系統的依賴存算分離場景小文件合并性能提升 優化在存算分離場景上合并事務并行提交邏輯,減少了對存儲系統的依賴同時提高提交成功率 解決bloom filter對timestamp字段類型支持不完善,導致數據重復問題小文
13、件合并穩定性提升 優化移除孤兒文件/快照過期輸出結果,優化不必要的數據輸出,解決存算分離場景大量文件刪除OOM問題 優化移除孤兒文件/快照過期執行計劃,支持分布式執行,刪除性能提升約30%過期數據清理性能穩定性提升DLC技術撐:基于社區優化增強Iceberg能案例:某融券商案例總結僅需Flink 32CU完成某國外站點數據導Spark 128256CU滿約1600張表數據優化和治理,減少原Lambda架構的Hbase成本,成本降低約40%全鏈路作業時間縮短20%(6h?-4h),分析資源成本降低20%實現百萬級/秒(實測約120萬)實時寫UPSERT能數據分鐘級可見(天 -分鐘),幅提升業務決
14、策效率效率提升成本降低DLC湖倉體解決案案例:某頭部電影票務案例結構化半結構化BIReport實時數倉ETLODSIceberg/hiveDWDIceberg/hiveDWSIceberg/hiveDLC數據湖端到端T+分鐘級延時數據優化服務ETLINSERTUPSERTMERGE批流體湖百萬級QPS實時寫萬核規模 聯動W edata、Inlong實時UPSERT和離線APPEND湖 批流體湖、存儲與分析 約2000張實時寫,約20%表全表更新 百萬級實時UPSERT QPS 10000+CU規模 超3萬數據任務穩定效運 用戶訂單、票房業務更高的時效性和分析性能要求 存算分離場景扁平化建倉,對
15、ODS層分析性能有更高的要求 Upsert全表更新場景 BI分析場景,需提供亞秒級分析性能全鏈路索引全鏈路索引,確保每個環節機制的查詢性能 ODS層索引層索引,大量減少ODS數據掃描量元數據緩存元數據緩存,作業流程提升元數據獲取效率 Local Cache,BI交互式場景達到秒級、亞秒級分析案例:某頭部電影票務案例挑戰與解決案解決案:索引+緩存案例:某電影票務案例總結 全鏈路約2000張表治理優化,百萬級/秒實時UPSERT寫,256 CU滿治理優化需求 全鏈路基于Iceberg搭建湖倉體,分鐘級數據可見性(相與平臺時級可見性)均穩定運超3萬作業數 交互式分析場景秒級、亞秒級時延大幅度減少數據
16、掃描量,提升ETL作業效率約3倍湖倉一體 基于存算分離的湖倉一體架構,全流程大數據解決方案 低使用門檻的Iceberg湖格式 百萬/秒Upsert 寫入能力,分鐘級數據可見性01極致分析性能 自研加速層,提供多種索引、多級緩存,領先的查詢分析性能 自研數據優化服務,自動進行數據優化與排布02 Serverless產品形態,即買即用,基礎設施免運維 標準SQL語法統一接入,低門檻使用成本 大數據專家支撐,協助優化03成功案例:客戶價值與收益降本展望與未來演進數據湖計算DLC的介紹、定位與優勢03Lakehouse?2.0數據湖計算DLC:展望與規劃AI數據基座?2.0從Lakehouse?1.0向批流體演進不AIGC,賦能AI全場景性能增強批流體計算批流統存儲批流體研加速層引擎內核增強AIGC規模應能輸出智能調優功能豐富場景優化能產品化使門檻THANKS謝謝觀看