1-2 邵賽賽-湖倉一體在騰訊的實踐落地.pdf

編號:121600 PDF 26頁 5.84MB 下載積分:VIP專享
下載報告請您先登錄!

1-2 邵賽賽-湖倉一體在騰訊的實踐落地.pdf

1、湖倉一體在騰訊的落地實踐演講人:邵賽賽騰訊大數據實時湖倉團隊負責人,負責流、批、湖等項目Apache Member,Apache Spark PMC Member曾就職于Hortonworks,Intel,多年開源大數據從業經驗個人介紹個人介紹目錄目錄1 1湖倉一體技術誕生的背景和現狀湖倉一體技術誕生的背景和現狀2 2湖倉一體技術現存的問題3 3騰訊在湖倉一體上的工作4 4后續的規劃湖倉的演進(1)湖倉的演進(1)Structured DataStructured DataBIBIReportsReportsData WarehouseData Warehouse數據倉庫(90s)數據倉庫(9

2、0s)優點:優點:高效處理結構化數據缺點:缺點:無法處理半/非結構化數據,無法支持多計算范式Structured,Semi-structured&Unstructured DataStructured,Semi-structured&Unstructured DataBIBIReportsReportsData WarehouseData Warehouse數據科學數據科學機器學習機器學習Data LakeData Lake優點:優點:支持各類型數據存儲、分析缺點:缺點:缺乏數倉的高階特性數據湖 數倉兩層架構數據湖 數倉兩層架構(10s)(10s)湖倉的演進(2)湖倉的演進(2)倉倉湖湖流流A

3、d-hocAd-hocBatchBatchStreamingStreamingBIBIReportsReports數據科學數據科學機器學習機器學習倉、湖、流-孤島式架構倉、湖、流-孤島式架構(15s)(15s)一致性一致性保持數據湖和數倉數據一致性非常困難且耗費成本受限的進階分析受限的進階分析基于海量數據的進階分析非常低效(數據出倉)數據成本數據成本多份數據拷貝(倉、湖、流)帶來了加倍的成本解決之道 湖倉一解決之道 湖倉一體體Structured,Semi-structured&Unstructured DataStructured,Semi-structured&Unstructured D

4、ataB BI IReportsReports數據科學數據科學機器學習機器學習元數據、緩存、索引層元數據、緩存、索引層Data LakeData Lake1.湖上可靠的數據管理湖上可靠的數據管理2.支持機器學習和數據科支持機器學習和數據科學學3.最先進的SQL性能最先進的SQL性能一種開放的,高性能一種開放的,高性能的數據組織格式的數據組織格式一套開放、標準的API一套開放、標準的API一個極致優化的執行一個極致優化的執行引擎引擎湖倉一體架構(20s)湖倉一體架構(20s)湖倉一體技術湖倉一體技術UberUberNetflixNetflixDatabricksDatabricks構建于存儲格式

5、之上的數據組織方式數據組織方式提供ACID能力,提供一定的事務特性和并發能力事務特性和并發能力提供行級別的數據修改能力行級別的數據修改能力具備表結構進化能力表結構進化能力優化數據入湖流程優化數據入湖流程提供ACID事務能力,上游數據寫入即可見,不影響當前數據處理任務,這大大簡化了ETL提供Upsert能力,可以極大地縮小數據入湖延遲支持更多的分析引擎支持更多的分析引擎優秀的內核抽象使之不綁定于特定引擎,目前在支持的有Spark,Flink,Presto,Hive提供了java native API,不用特定引擎也可以訪問表統一數據存儲和靈活的文件統一數據存儲和靈活的文件組織組織批任務和流任務可

6、以使用相同的存儲模型,數據不再孤立。支持隱藏分區和分區進化,方便業務進行數據分區策略更新 支持Parquet,ORC,Avro行存列存兼顧增量讀取處理能力增量讀取處理能力支持通過流式方式讀取增量數據Spark Structured Streaming 支持Flink Table Source支持3種主流開源技術3種主流開源技術湖倉一體技術的優勢湖倉一體技術的優勢2021年Lakehouse技術首次進入Gartner成熟度曲線2021年Lakehouse技術首次進入Gartner成熟度曲線復雜的增量入庫方案來保證exactly-once和數據去重利用HDFS rename操作的原子性和復雜的命名

7、規則來保證一致性、可見性利用調度引擎來構建依賴關系,避免讀寫沖突Iceberg/Hudi格式是Hive/Spark兼容的可讀寫的表格式,可以直接使用Hive/Spark進行處理,無須再次將數據導入到數倉中Iceberg/Hudi支持讀寫分離,寫入并且commit后的數據下游立即可見,因此可以實時讀取到新增的數據,降低整體時延湖倉一體落地場景 加速數據入湖倉一體落地場景 加速數據入湖湖1.統一數據總線,擴展性好,方案成熟,組件維護成本高 2.鏈路更簡單,存儲成本低,擴展性稍差 湖倉一體落地場景 構建CDC Pipeline湖倉一體落地場景 構建CDC Pipeline湖倉一體落地場景 近實時的流

8、批一體架構湖倉一體落地場景 近實時的流批一體架構數據治理的問題數據治理的問題2008-11-012008-11-012008-12-012008-12-012009-01-012009-01-01123456789101112131415161718192021222324252627282930312009-012009-01PARTITIONED BY PARTITIONED BY MONTH(date)MONTH(date)PARTITIONED BY PARTITIONED BY DAY(date)DAY(date)1.無法支持表結構進1.無法支持表結構進化化2.無法支持行級數據修2.

9、無法支持行級數據修正正col_1col_21B3Ccol_1 col_21D3C數據查詢的問題數據查詢的問題col_1col_21B3C1.缺乏ACID能力1.缺乏ACID能力讀讀寫寫2.缺乏高效的data skipping能力2.缺乏高效的data skipping能力湖倉一體落地場景 更好的Hive湖倉一體落地場景 更好的Hive表表目錄目錄1 1湖倉一體技術誕生的背景和現狀2 2湖倉一體技術現存的問題湖倉一體技術現存的問題3 3騰訊在湖倉一體上的工作4 4后續的規劃湖倉一體內核的性能湖倉一體內核的性能數據治理數據治理高并發、準實時寫入所引入的海量小文件問題海量元數據造成的Query Pl

10、an時延查詢性能查詢性能如何平衡讀寫性能,既能保證寫的性能的同時能更快地查詢如何自動加速查詢,發揮極速性能流批一體流批一體如何平衡流批讀寫的性能湖倉一體技術的實時性限制湖倉一體技術的實時性限制計算對存儲的需求不同計算對存儲的需求不同存儲能力的不同存儲能力的不同流式計算流式計算離線計算離線計算訪問要求訪問要求低延遲、高響應高吞吐、低響應訪問方式訪問方式記錄級別的讀寫文件(行列)級別的讀寫存儲周期存儲周期短(一般7天)長(保存較長歷史數據)數據新鮮度數據新鮮度數據成本數據成本數據查詢時延數據查詢時延流式計算流式計算離線計算離線計算優勢優勢劣勢劣勢ObjectObjectStorageStorage

11、高吞吐、低成本、大規模高延遲,Posix支持有限(不可修改)QueueQueueStorageStorage低延遲、高響應順序讀寫,不可修改blockblockblockblockObject StorageObject StorageQueue StorageQueue Storage目錄目錄1 1湖倉一體技術誕生的背景和現狀2 2湖倉一體技術現存的問題3 3騰訊在湖倉一體上的工作騰訊在湖倉一體上的工作4 4后續的規劃第三方測試效果第三方測試效果功能優化功能優化大寬表支持,支持超萬列寬表寫入流轉批,兼容周期調度任務流式寫入支持去重、增量讀取、流量控制性能優化性能優化元數據讀取加速,引入All

12、uxio復雜類型列剪支優化,基于列信息任務切分優化V2表 layout 改進與合并加速向量化,Async-IO,CBO等查詢加速優化湖倉一體技術 內核優優化湖倉一體技術 內核優化化Parquet 內置 bloom filterParquet 內置 bloom filterPros:內嵌parquet文件,無需額外文件以及過濾邏輯Cons:空間浪費,影響寫入;全局索引(bloom filter,bitmap)全局索引(bloom filter,bitmap)Pros:支持多文件格式,異步構建空間節省支持多文件格式,異步構建空間節省,數據準確,不影響寫入,數據準確,不影響寫入Cons:獨立文件,獨

13、立 filter 邏輯CREATE INDEX index_name ON TABLE table_name USING BLOOMFILTER(colName1 options ,.)options OPTIONS(key1 =val1 ,.)File 1File 3File 2File 2Partition Partition 0 0offset1Puffin Puffin filefileIndex Dataoffset2offset3offset4Manifest FileManifest File優化湖倉一體技術 二級索優化湖倉一體技術 二級索引引數據規模數據規模單分區,2500個文

14、件,4.1億 records/260G點查Query點查Queryselect*from xxxwhere partition_time=xxxand site_set=xx and position_set=x and action_info.request_info.id=xxx;優化湖倉一體技術 二級索優化湖倉一體技術 二級索引引優化湖倉一體技術 流批一體的實時湖倉架優化湖倉一體技術 流批一體的實時湖倉架構構基于FLIP-188,MQ+數據湖融合方案基于FLIP-188,MQ+數據湖融合方案LogStoreLogStoreFileStoreFileStorewritewriteStrea

15、ming ReadStreaming ReadBatch ReadBatch Read下游作業下游作業交互式查詢交互式查詢Source 1Source 1Source 2Source 2SinkSinkJoinJoinFilteFilter rAggregationAggregationbackfilbackfill lStreamingStreamingStreamingStreamingbatchbatchbatchbatch流批表流批表流批表流批表流批一體引擎(Flink)流批一體引擎(Flink)完整的批流一體的語義支持批、流任務調度和優化的支持流批一體表流批一體表Hidden MQ+

16、表格式統一流批Schema優點:優點:引擎和表的流批一體,降低業務架構復雜度屏蔽流批差異,統一SQL操作提升時效性,兼顧流式和湖倉優化湖倉一體技術 自動數據治優化湖倉一體技術 自動數據治理理BinpackMergeColumn TTLRow TTLClusteringSortingIndexingCaching湖倉一體存儲湖倉一體存儲分區小文件狀態表示分區小文件狀態表示均方誤差MSE均方誤差MSE,MSE值越大表示分區內小文件比例越大。分區小文件狀態更新分區小文件狀態更新增量誤差更新分區小文件狀態MSEMSEnewnew=(MSEold*N+SE)/(N+M)N N=分區內文件個數Target

17、Target=目標文件大小ActualActual=min(min(實際文件大小,Target)Target)Snapshot EventSnapshot EventtableSummarySummaryPartitionDataSE 2021/8/1524302021/8/22613242021/8/3973442021/8/31213444 SESESETTActual File SizeActual File SizeDiff Diff(Target (Target Actual)Actual)Partition-0Partition-0Partition-1Partition-1MSE

18、 TMSE TMSE TMSE TThreshoThresholdld自動數據治理 小文件合并自動數據治理 小文件合并CREATE TABLE lo_iceberg USING icebergAS SELECT*FROM lineorderJOIN dates ON lo_orderdate=d_datekeyJOIN customer ON lo_custkey=c_custkeyJOIN supplier ON lo_suppkey=s_suppkeyJOIN part ON lo_partkey=p_partkeyDISTRIBUTE BY random();OPTIMIZE TABLE

19、 100_ssb.lo_iceberg_10000 BINPACK;OPTIMIZE TABLE 100_ssb.lo_iceberg_10000 ZORDER BYZORDER BY c_region,s_region,d_year;Original Query100%代表數據沒有Skipping數據有效過濾80%+數據有效過濾80%+查詢計算資源降低6倍+查詢計算資源降低6倍+自動數據治理 自動重分布優化自動數據治理 自動重分布優化 自動索引推薦自動索引推薦根據 scan 上報 filter 信息支持 bloom filter 和 bitmap支持 bloom filter 和 bitma

20、p 自動統計數據構建自動統計數據構建更準確的查詢初始計劃,更準確的 join 順序,更準確的任務切分基于theta sketch框架,支持表級別stats基于theta sketch框架,支持表級別stats和分區級別stats的增量構建和分區級別stats的增量構建自動數據治理 自動索引自動數據治理 自動索引1 1湖倉一體技術誕生的背景和現狀2 2湖倉一體技術現存的問題3 3騰訊在湖倉一體上的工作4 4后續的規劃后續的規劃湖倉一體的演進湖倉一體的演進Ad-hocAd-hocBatchBatchStreamingStreamingBIBIReportsReports數據科學數據科學機器學習機器學習實時湖倉一體存儲實時湖倉一體存儲元數據、緩存、索引優化層元數據、緩存、索引優化層湖倉流一體-實時湖倉架湖倉流一體-實時湖倉架構構THANK YOU!

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(1-2 邵賽賽-湖倉一體在騰訊的實踐落地.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站