大數據技術沙龍會議報告:網易數據湖調研與實踐-范欣欣.pdf

編號:29542 PDF 33頁 2.92MB 下載積分:VIP專享
下載報告請您先登錄!

大數據技術沙龍會議報告:網易數據湖調研與實踐-范欣欣.pdf

1、網易易數打造數據增量計算新架構-網易數據湖調研&實踐C范欣欣網易大數據技術專家HBase&IcebergContributor,HBase原理與實踐作者#page#網易易數數據倉庫平臺建設的痛點01數倉平臺建設的痛點數據湖Iceberg核心原理02數據湖Iceberg核心原理網易Iceberg實踐03網易Iceberg實踐SMiL號未來規劃04未來規劃#page#網新牌D網易易數A1數倉平臺建設的痛點章節PARTCr#page#數倉平臺建設痛點網易易數業務日益增長的小時/分鐘級別分析延退需求和平臺當前T+1天級別延退之間的矛盾!#page#數倉平臺建設痛點網易易數Lambda技術架構d-hoc

2、宣詢HOR3SoarkafkaSkafkaSkafkaApache FlnkDWDDWSODSADDS#page#數倉平臺建設痛點網易易數Lambda技術架構兩套計算路徑指標口徑不統一HDFS&Kafka不支持upsert,延退不滿足Kafka存儲&OLAP能力不足#page#數倉平臺建設痛點網易易數增量計算架構增量處理實時處理離線處理SminIhour5minlatencyeuesol、#page#數據湖Iceberg核心原理網易易數partitionIcebergMetastoredate=20200616/Scalospark.read.format(iceberg).locd(“hiv

3、eicebergtbl3.files”).showl-hour=18/11.file_pathlfile_forwatlpartitionlrecord_countlfile_sizeBytesI-hour=19/upper_boundsikey_metadatalsplit_offsetsl1l-click11-.11131633Ihdfs:/ntsdbo.jd.PARQUETIl-viewnu114!3163221Ihdfs:/ntsdbo.jd.PARQUETIl-hour=20nul1l【4!,2-.!11-.!#page#數據湖Iceberg核心原理網易易數metadataMetas

4、toreIceberg解釋字段CSID列統計編號AG.COLLEN數據的平均長度MAX.COLLEN數據的最大長度COLUMNNAME列的名字COLUMN_TYPE列的類型DB_NAME數據庫的名稱BO.DECIMAHOHVAUE數據中最大的Docmal恒BIO.DECIMAL_LOWVALUE數據中最小的Decmnal值DOUBLEHGHVALUE酸據中最大的Doukle值DOUBLE.LOWVALUE數據中景小的Doukie值LASTANALYZED最新一次解析的時間數LONGHIGHVALE數據中最大的LongiLONG.LOWVALUE數據中曼小的Long值NUMDSTINCTS不同記

5、錄的數量#page#數據湖Iceberg核心原理網易易數Metastore APIHDFSMetastoremamanLadd partitionadd data file#page#數據湖Iceberg核心原理網易易數Iceberg讀寫APIS1manifestsmanifestsmanifestmanifestmanifestdatafilesdatafilesdatafiles#page#數據湖Iceberg核心原理網易易數口新partition模式-避免了查詢時n次調用namenode的list方法,降低namenode壓力,提升查詢性能口新metadata模式-文件級別列統計信息可以

6、用來根據where字段進行文件過濾,很多場景下可以大大減少掃描文件數,提升查詢性能口新API模式-存儲批流一體流式寫入-增量拉?。ɑ贗ceberg統一存儲模式可以同時滿足業務批量讀取以及增量訂閱需求)支持批流同時讀寫同一張表,統一表schema,任務執行過程中不會出現FiileNotFoundExcepttion#page#數據湖Iceberg核心原理網易易數T+1延退降到分鐘lceberg離線ETL批流一體存儲統一性能提升#page#數據湖Iceberg核心原理網易易數INSERT/UPDATE/DELETE實現I(3,5)I(1,3)I(1,3)【(1.2)D(1,2)1(1,2)I(1

7、,2)D(1,2)data filedel filedata filedel filedata fileINSERT (1,2)UPDATE(1,2)-(1,3)INSERT(3,5)CREATE TABLE sample fid INT NOT NULL,data INT NOT NULL3I(3,5)D((1,3)I(1,3)I(1.2)D(1,2)103,5)data filedel fileSELECT * FROM SAMPLEDELETE(1,3)#page#數據湖Iceberg核心原理網易易數同一次事務內同一行數據多次更新CREATE TABLE sample !1(1.2)id

8、 INT NOT NULLD(1,2)I(1,2)I(1,2)D(1,2)I(1,2)data INT NOT NULL3data filedata filedel filedel filedata fileINSERT(1,2)DELETE(1,2)INSERT(1,2)#page#數據湖Iceberg核心原理網易易數SOLUTION:Mixed Equality-Delete and Positional-DeleteCREATE TABLE sample f1(1,3)1(1,3)id INT NOT NULLI(1,2)D(1,2)(df1,1)I(1,2)data INT NOT N

9、ULL3data filepos-deldata fileequality-delINSERT(1,2)DELETE(1,2)#page#ARRA網易Iceberg實踐#page#網易Iceberg實踐網易易數ODS層改造:提升ETL穩定性&性能#page#網易Iceberg實踐網易易數基于Iceberg實現統一存儲的準實時數倉口基于Flink生態構建Flink lceberg Sink/SourceSparkSQL/Hive/ImpalaFlink Compaction口增量消費口批流讀寫用戶日志1A88icebergiceborgicebergS0店PnpCMySQL15o0Soa7bin

10、log日志ODSDWDDWSADS#page#網易Iceberg實踐網易易數Iceberg基建:完善Iceberg對接OLAP查詢引擎生態Impala支持建內(外)表/基于Impala查詢Spark2.4.5支持SQL方式讀寫HiveSQL建內(外)表/基于HivesQL查詢#page#網易Iceberg實踐網易易數lceberg小文件治理運行日志文件治理任務信息運行參數高級配置運行記錄操作記錄內族版本SLOTHLFLNK_SQL_1100依賴文家店1.0.1.起827招型flink_process_timeTIHESTAMP(3)ITHLOCALTIMEZONEdeviceid string

11、,瓦旺pstring,32appverstrimg33osstrimg,34心ds_tinestamp bigint39string創公辦龍臺全ahleSY5CRUyE口址】5#page#網易Iceberg實踐網易易數lceberg小文件治理運行日志任務信息運行參數高級配置運行記錄操作記錄文件治理合井文件數當次合井文件平均大小時間表名持續時間表大小表文件平均大小合并前合井后合井后合井前3124m44SON+LL102.69MB28.92GBONO262020-10-0306:5120mus_usor_action_abe.3324m3sN6CL102.97MB28.80GB8NC62020-1

12、0-0306:21.07music usaraction abte.305.19MB120.00MB28.68GB92.21MB2020-10-0305:50:533m59s132732MB99.06MB2020-10-0305:20374m9s28.56GB91.82MBtion_abte3126.71MB86.30MBONI6L62020-10-0304:20:023m18s28.31GB312753MB99.45MB28.19GB91.82MB2020-10-0303:49:484m545music_user_action_abte.3126.79MB8760MB28.07GB91.72MB3m39s2020-10-0303:19:3232733MB2020-10-0302:49:164m51s99.45MB27.95GB91.32MB3124m3sNIL96.94MB27.82GB91.51MB2020-10-0302:19:00#page#AA未來規劃章節PART0#page#未來規劃網易易數基于Iceberg平臺建設Iceberg內核功能業務增量計算元數據中心T+1-小時-分鐘row-level delete數據資產管理數據增量入湖表權限管理數據增量生產血緣管理基于Alluxio實現查詢加速生命周期管理&小文件合并

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(大數據技術沙龍會議報告:網易數據湖調研與實踐-范欣欣.pdf)為本站 (X-iao) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站