當前位置：首頁 > 報告詳情

3-4 字節跳動全域數據集成演進歷程.pdf

上傳人：云閑編號：102529 2021-01-01 PDF PDF 27頁 3.27MB

該報告所屬合集： DataFunSummit：2022年數據治理在線峰會嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/27

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《3-4 字節跳動全域數據集成演進歷程.pdf》由會員分享，可在線閱讀，更多相關《3-4 字節跳動全域數據集成演進歷程.pdf（27頁珍藏版）》請在三個皮匠報告上搜索。

1、字節跳動全域數據集成演進歷程李暢字節跳動大數據工程師|l 16年加入字節跳動開發套件團隊，從0到1設計、研發了面向字節各業務線的數據集成服務l 專注大規模數據的分布式計算和傳輸領域，提供高效、可靠的全域數據集成解決方案個人簡介|目錄01數據集成背景02數據集成演進歷程03通用能力改造04未來展望數據集成背景01|數據集成背景介紹數據集成是數據中臺建設的基礎，主要解決異構數據源間數據傳輸、加工和處理Dataleap是字節跳動自研的一站式數據中臺套件，并服務字節內部各業務線數據建設場景外部數據源數據庫消息隊列其它存儲數據研發平臺Dataleap 開發集成治理外部系統數據分析在線數據

2、服務機器學習全域數據集成演進歷程02|2022-now:通用能力輸出降低數據建設成本|全域數據集成演進歷程2018之前:每個通道各自實現 MR/Spark/etc.，M*N套系統2018-2019:統一架構，覆蓋批式場景基于Flink 引擎，完成批式場景統一2020-2021:覆蓋流式場景，批流一體覆蓋流式場景，完成批流統一2021-2022:覆蓋CDC場景，湖倉一體一套系統，覆蓋所有數據同步場景初始期成熟期成長期|基于Flink的異構數據源傳輸架構初始架構基于Flink 1.5 DataSet API，只覆蓋批式場景提供抽象的BaseInput和BaseOutput，實現數據源種類

3、線性擴展框架層提供統一基礎服務，包括類型系統、自動并發度、臟數據檢測、流控等支持Yarn部署，資源管理比較彈性|Flink Batch任務進度查詢原始改進|Flink Batch任務進度查詢Source進度SourceProgress=CompletedSplits/TotalSplitsOperator進度CurrentProgress=Min(ParentProgress,Current-Read-Records/Parent-Write-Records)Flink Task執行過程Flink是以任務驅動，JM構建好Split，Task常駐，不斷向JM請求新的Split所有Split處理完

4、Task才會退出|基于Flink批流一體的架構主要升級點Flink 1.5-Flink 1.9,API 統一到DataStream API，支持批流一體架構基礎框架擴展，支持Exactly Once、Event Time、Auto DDL同步等特性對Flink Core進行多項基礎改進，支持推測執行、Region FailoverRuntime升級，支持云原生架構|MQ2Hive寫入流程優化ShufflePipelined|基于Flink湖倉一體的架構CDCBatch ModeKafka(Binlog)Hive(T-1)HDFS（T）StreamingModeSpark MergerHive(

5、T)初始CDC同步架構數據處理流程比較復雜依賴Flink、Spark多種計算引擎*CDC:Change data capture實時性T+1產出，最快小時級延遲，不支持近實時分析場景效率存儲開銷大，每個分區都是全量鏡像計算成本較高，Merge進行全局Shuffle|基于Flink湖倉一體的架構Batch ModeData Integration FrameworkStreaming ModeBatch SourceStreaming SourceIncremental SourceBatch SinkStreaming SinkIncrementalMode主要升級點Flink 1.9-Fli

6、nk 1.11,接入Hudi數據湖引擎，支持CDC數據變更同步對Hudi引擎進行多項基礎改進，以提高整體的寫入效率和穩定性近實時寫入，延遲 Hash Index Compaction服務獨立緩存優化MQ|寫入效果通用能力改造03|通用能力改造目標對外能力輸出，降低數據建設成本能力構建低成本共建能力架構的兼容能力|低成本共建能力思路1模塊拆分現狀大Jar包，模塊間耦合較重數據處理流程不清晰解決方案功能模塊劃分組件可插拔|低成本共建能力思路2接口抽象現狀Flink API深度綁定，較為復雜Connectors接入成本高解決方案抽象新的API接口，與引擎無關屏蔽引擎細節|架構兼容能力現狀Fl

7、ink深度綁定，場景受限制依賴較重，簡單場景資源浪費解決方案預留多引擎入口執行環境抽象探索Local本地執行方式思路1多引擎架構|架構兼容能力現狀內部依賴綁定公司大數據底座解決方案剔除內部依賴，采取通用解決方案大數據底座Provided依賴，不綁定固定底座，運行時由外部指定，針對不兼容的場景，通過maven profile、maven shade隔離針對數據源多版本以及版本不兼容的問題，采取動態加載的策略思路2依賴隔離未來展望04|未來展望多引擎架構Local Engine 落地，支持本地執行，提高簡單場景資源利用率引擎智能選擇策略，針對簡單場景使用Local Engine；針對復雜場景復用大數據引擎的能力流式數據湖統一CDC數據入湖解決方案，穩定支撐千萬級QPS數據湖平臺能力構建，覆蓋批式、流式、增量使用場景通用能力建設新接口推廣，對用戶屏蔽引擎細節，降低Connector開發成本探索Connector多語言方案非常感謝您的觀看|

相關圖表

本文主要介紹了字節跳動全域數據集成演進歷程。李暢，字節跳動大數據工程師，自2016年加入字節跳動開發套件團隊，從0到1設計研發了面向字節各業務線的數據集成服務。文章首先闡述了數據集成的背景，指出數據集成是數據中臺建設的基礎，主要解決異構數據源間數據傳輸、加工和處理問題。Dataleap是字節跳動自研的一站式數據中臺套件，服務于字節內部各業務線數據建設場景。文章詳細介紹了數據集成演進歷程，從2018之前的每個通道各自實現，到2018-2019年統一架構覆蓋批式場景，再到2020-2021年覆蓋流式場景，最后到2021-2022年覆蓋CDC場景。同時，文章還介紹了基于Flink的異構數據源傳輸架構的初始架構和主要升級點，以及湖倉一體的架構優化。在通用能力改造部分，文章提出了對外能力輸出，降低數據建設成本的目標，并提出了相應的解決方案。最后，文章展望了未來多引擎架構、流式數據湖、統一CDC數據入湖解決方案等方向。

"字節跳動數據集成如何演進？" "如何通過Flink實現湖倉一體？" "如何降低數據集成建設成本？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站