基于Apache InLong全場景數據集成.pdf

編號:147870 PDF 32頁 4.26MB 下載積分:VIP專享
下載報告請您先登錄!

基于Apache InLong全場景數據集成.pdf

1、DataFunSummitDataFunSummit#20232023基于Apache InLong全場景數據集成 演講人-莫云卿-騰訊-高級大數據工程師自我介紹自我介紹莫云卿任職信息:騰訊云 DataInLong、Oceanus研發公司InLong(應龍)Oteam PMC/Apache InLong PMC技術成長:大數據平臺建設,自研調度系統、離線作業開發平臺 騰訊全鏈路數據開發平臺WeData研發,WeData最早期數據質量、數據地圖、數據安全建設者 推動InLong上云行業趨勢及挑戰平臺與產品設計應用實踐平臺規劃目錄 CONTENTDataFunSummitDataFunSummit

2、#2023202301行業趨勢及挑戰開放騰訊業界領先開放騰訊業界領先的大數據服務的大數據服務實踐實踐騰訊云擁有業界領先大數據技術與口碑產品生態騰訊云擁有業界領先大數據技術與口碑產品生態產品:騰訊云EMR/ElasticSearch/TBDS/云原生數據湖計算DLC技術:TBDS 萬節點認證/InLong海量集成能力/SortBenchmark性能冠軍服務:近百技術貢獻者/數百萬代碼貢獻/豐富運維工具沉淀/海量算力調度技術生態成熟:以Hadoop為主大數據技術歷經近18年發展,日趨成熟、生態完善技術多樣化:如數據湖格式技術Iceberg、Hudi,MPP 分析Doris等開源技術百花齊放云原生革

3、新:云原生技術與大數據持續融合大數據技術歷經18年發展大數據技術多樣化發展,騰訊云原生服務厚積薄發大數據技術多樣化發展,騰訊云原生服務厚積薄發開源騰訊的騰訊的大數據技術沉淀大數據技術沉淀河圖數據資產管理01數據孤島數據孤島數據集成的必要性數據集成的必要性0504運維成本高運維成本高業務涉及數據源類型繁雜、數據存儲系統分散,業務數據之間彼此孤立難以協作共享02業務數據需求豐富業務數據需求豐富企業持續發展衍生出越來越多樣化的業務訴求,數據量更大,場景更實時,數據種類更豐富.業務涉及技術組件、硬件、及軟件豐富,監控、異常告警觸達等運維成本高昂03自建技術難度大自建技術難度大融合多種技術場景的數據傳輸

4、通道建設包括硬件布局與軟件實施,其技術選型豐富、孵化周期長、技術迭代速度慢難以適應業務高速發展數字化進程不統一數字化進程不統一業務數字化轉型過程中業務部門數字化程度不同,對云產品服務時候對技術、服務、運維的訴求難以統一06同一企業內不同或同一部門常常選購大量云產品服務,各服務存在冗余功能未形成統一生態,甚至造成非必要成本浪費云產品類型多,服務割裂云產品類型多,服務割裂業務驅動業務驅動技術技術驅動驅動大數據生態繁雜:開源Hadoop生態日漸完善,越來越多的技術棧興起,傳統業務數據庫、NoSQL、數據湖、MPP以及搜索等技術在不同的業務場景發揮著不可替代的的作用,數據的入倉入湖需要匹配越來越多的場

5、景。HTAP發展短期承壓:HTAP缺少大一統的產品或技術,數倉的生命周期要依賴多系統協同,跨源數據同步成了必不可少的一環??偩€式架構總線式數據通道提高傳輸效率,降低建設成本數據云原生革新云原生技術與大數據技術的融合場景豐富化滿足不同時效、不同技術方式數據傳輸場景生態一體化實現數據在云存儲、計算、應用的全鏈路各環節內無縫流轉市場市場趨勢趨勢對象多樣化涵蓋不同存儲介質、不同結構的數據對象客戶選擇數據集成產品的數據集成產品的訴求不斷變遷不斷變遷點對點數據抽取工具點對點數據抽取工具總線式數據傳輸通道總線式數據傳輸通道全場景數據集成系統全場景數據集成系統生態化數據集成服務生態化數據集成服務數據集成工具的

6、發展組件豐富靈活各種技術組件提供插拔式靈活適配DataFunSummitDataFunSummit#2023202302平臺與產品設計 DataInLong 源于由騰訊開源并孵化成功的 ASF 頂級項目 Apache InLong(應龍),內部InLongInLong(應龍)(應龍)OteamOteam協同共建協同共建依托 InLong 海量數據集成框架支持 百萬億級 數據接入與處理能力,提供全場景、安全可靠、高性能的數據傳輸服務數據集成DataInLong:產品概述Apache Apache InLongInLong :功能架構圖:功能架構圖數據源OpenAPI調度管理統一安全元數據管理審批

7、管理審計對賬指標告警狀態監控資源管理Realtime SortDataProxy-1DataProxy-n匯聚層TubeMQPulsarKafka緩存層數據分發層ConsoleAPISDKAgentSDKDBSyncHTTP Client采集層Bulk loadRealtime Sort數據目的Hive IcebergPG CKDorisMysqlSqlserver 關系型數據庫:大數據:更多:HbaseNoSQL:ESMongo kafkaCOSHDFS數據來源HivePG CKDorisMysqloracle 數據庫:數倉:數據上報:Hbase文件系統:FTPHDFSAppLogHDFS輕

8、量鏈路標準鏈路u輕量/標準鏈路靈活可選:可根據用戶鏈路靈活插拔隊列組件,可選多種緩沖隊列,極致性能、高穩定、毫秒級時延u獨有DataProxy路由:對外屏蔽隊列差異,統一接口和方便擴展多種協議,同時具備一定數據緩沖能力,提升系統穩定性,對外屏蔽隊列差異u星型鏈路模型:支持異構讀寫數據源任意搭配u開放架構:插件化設計,Agent與Sort可擴展,快速復用已有組件擴展采集與數據分發功能技術支撐技術支撐 開放架構開放架構靈 活 高 效統 一 協 議InLong在數據采集和消息隊列間增加DataProxy,用于連接收斂、路由、數據壓縮和協議轉換消息隊列異常出現發送失敗時,DataProxy 會將消息緩

9、存到本地磁盤進行容災轉發毫秒級時延:基于毫秒級低時延消息隊列,端到端數據同步秒級時延高性能:支持切換不同的緩存隊列,高吞吐、數據傾斜等場景,選擇不同的隊列可以具備更好的性能及穩定性【高性能、低時延隊列組件,可靠容災架構方案】u全鏈路對賬審計:支持任務級、鏈路級、節點級指標統計,提供數據出入條數和流量進行實時審計對賬u安全認證、網絡隔離,網絡防護等一體化:支持租戶認證,隊列訪問鑒權,多網絡部署隔離可以保障數據安全u4A級安全能力:從用戶、功能角色、數據認證多層級提供認證、權限管控、審計等全方位安全能力,支持覆蓋Kerberos、ranger、SASL等技術支撐技術支撐 安全可安全可靠靠基于秘鑰的

10、認證體系以及跨網絡支持,提供賬號、網絡、數據、資源隔離來保障數據安全【全鏈路數據對賬審計、騰訊云4A全方面安全增強】Kerberos/SASL鑒權認證Ranger/.權限控制VPCVPC隔離,隔離,網絡防護網絡防護等一體化騰訊云品質安全加固等一體化騰訊云品質安全加固HDFSHive項目、功能、賬號、任務、庫、表HBaseKafka訪問管理CAMHBase傳輸可靠安全可信技術上云驅動技術上云驅動難運維資源利用率低實時與離線任務資源固化,不具備彈性或者彈性代價高資源隔離和復用性方案復雜,可實施性差擴容周期長易用性不足數據鏈路可視化不足數據源管理與資源管理不透明,使用麻煩生態受限支持數據源種類有限、

11、主要是內部或社區數據源系統,與云生態割裂與外部配套困難,單一平臺或體系難以解決問題,多系統配合支持困難技術體系駁雜,使用門檻高依賴多種MQ、DB、監控組件,維護難告警、日志等運維體系化缺失版本升級與快速迭代受限Apache InLong社區快速的發展以及貢獻值活躍度不斷增高,公司內外部客戶逐步落地,也存在一定的困難,平臺也面臨著如下問題:數據源數據庫(CDB)PG MysqlSqlserver 大數據(TBDS/EMR/DLC)搜索、數倉(ES/CDW)中間件(CKAFKA/TDMQ)存儲(COS/CHDFS)Hive Iceberg kudukafkaPulsarCKDorisESCOS H

12、DFSFTP執執行引擎AgentAPP自定義業務(CVM/TKE)Flink Sort StandAlone SortDataProxyAgent采集數據采集數據采集數據采集數據采集/寫入寫入數據采集數據采集/寫寫入入Manager統一元數據統一調度統一運維作業管理資源管理項目管理WeData數據開發DataInLongWeData數據集成賬戶管理數據安全數據源管理EKS(k8s)數據上報數據上報MetaDB容器底座服務務管理MQ狀態管理資源調度配置管理日志管理指標采集DataDataInLongInLong :融合產品架構:融合產品架構 全托管全托管+資源彈性資源彈性 豐富的數據源:豐富的數

13、據源:多場景:多場景:批流一體批流一體+批流融合:批流融合:公共基礎:公共基礎:統一身份認證 統一元數據 統一調度 云監控安全防護:安全防護:云網絡云網絡 云安全云安全 執行資源:執行資源:云容器 資源調度策略設計資源調度策略設計任務配置執行資源組(serverless容器集群)共享區(Pool)獨占區(Pool)資源調度監控采集DI-LoadersortsortPod4C8GDI-LoadersortsortPod16C32GInlong-ManagerJoBManagerTaskManagerTaskManager任務管理下發執行Sort Ddistributing指定資源動態資源Data

14、ProxyDataProxyAuto ScaleCreateDelete資源管理用戶感知資源調整運行時自適應 基于任務并發參數合理選擇資源分片(POD)分片資源過載時,通過DI-Loader回流。執行環境最優化。公共任務資源彈性 Dataproxy實時監控,根據業務負載動態擴縮容資源分區策略 預留獨享資源池,重要任務獨占資源,確保數據及時產出。高峰期任務執行效率提升30%資源利用率提升 基于時間調度,錯峰運行,資源切片 不同任務運行不同的資源分片,合理劃分資源 在保證資源足夠的前提下,分片共用平臺優勢平臺優勢:l資源池化,成本節約超60%l任務平均排隊時延少于1分鐘l任務Failover率極低

15、資源管理資源管理:任務任務調度調度:整庫遷移與整庫遷移與DDLDDL感知感知Source Table1Source Table2Source Table3DataWriterDDLHandlerReaderDDLParserSourceFlink SortSinkDDLTarget Table1Target Table2Target Table3根據用戶配置讀取源表數據和DDL寫入數據并根據用戶配置的DDL變更策略處理DDL自定義DDL數據模型 設計獨立于Source與Sink的DDL數據模型,Source、Sink可任意擴展豐富的DDL變更類型 支持新建表、刪除表、添加列、刪除列等常見的DD

16、Ll類型處理可控的DDL處理 設計響應、忽略、日志告警、任務出錯等多種處理策略,用戶可根據實際場景選擇響應的DDL處理策略單Source-Sink模型 整庫遷移采用單Source-Sink模型,配置簡單、節省資源統一可擴展的數據結構 采用統一的數據結構,屏蔽不同表Schema差異,目前支持Canal-json、Debezium-json且可擴展 多種的源表選取方式 支持指定表、整庫搬遷、自定義正則匹配等多種源表選取方式豐富的源表與目標表匹配策略 源表與目標表支持同名匹配、基于變量提取的自定義匹配等多種策略 可配置的異常處理策略 整庫遷移支持異常重啟、忽略異常、部分停止等多種策略整庫遷移整庫遷移

17、:DDL感知感知:相比單表同步,同100表表同步,整庫成本節約超過80%+同時支持基于DDL語句和數據Schema差異做DDL變更,極大提高運維效率全程可視化操作,開發、運維成本極低表粒度指標,全量、增量階段指標,數據同步更透明全鏈路審計對賬、臟數據歸檔,數據同步更可靠平臺優勢平臺優勢:臟數據歸檔臟數據歸檔可插拔臟數據Sink 臟數據Sink采取SPI設計,對源系統不侵入,可靈活擴展自定義臟數據Format 用戶可自定義臟數據標識、臟數據標簽,系統會按照標識標簽發生時間:臟數據進行Format明確的臟數據類型 系統要求臟數據歸檔時必須指明具體的臟數據類型和指標系統協同 在臟數據歸檔的同時,可上

18、報臟數據指標臟數據管理臟數據管理:InLong獨有功能,避免臟數據對正常同步鏈路的干擾對臟數據分類、Format,方便臟數據回溯插件化設計,可歸檔到任意外部系統平臺優勢平臺優勢:SourceSinkDirtyHandlerDirtySinkMQDBFileDirtyHandlerMQDBFile處理Source端臟數據處理Sink端臟數據歸檔臟數據到外部系統定義:單條數據在源端讀取、在目標端寫入時發生非主觀異常且不能自恢復導致無法讀取、寫入的數據p讀取|寫入異常且不可自恢復p非用戶主觀(主動忽略過濾eg)數據審計與監控數據審計與監控InLong AgentDataProxyMQInLong S

19、ortAudit SDKAudit SDKAudit SDKInLong AuditMetaDBMinuteHourDayInLong SDKAudit SDKAudit report多維度:包括 Agent、DataProxy、Sort 模塊的出入條數、流量等進行實時審計對賬多粒度:目前 InLong Audit 對賬的粒度有分鐘、小時、天三種粒度全鏈路數據審計可視化展示:圖表實時展示任務讀寫速率、總量、運行時長等指標告警支持:配置任務、同步指標監控,可設定電話、短信、微信、企業微信告警渠道運維可視化Cloud Monitor數據總線構建數據總線構建異構轉換數據源按需搭配無門檻降低技術開發成

20、本DataInLongDataInLong 基于星型數據轉換結構提供中央數據模型,支持30+種數據源及目標類型按需搭配構建數據鏈路,最大化降低異構數據源適配成本,提升數據鏈路搭建及傳輸效率,助力企業構建統一數據傳輸通道??偩€架構中央數據通道傳統做法傳統做法DataInLongDataInLongDataInLong更 多TKECOS數據庫/大數據更 多VS生態對接生態對接【方案融合方案融合/產品連接,支持基礎、中間件、工具、應用各類云產品產品連接,支持基礎、中間件、工具、應用各類云產品】DataInLong+x:獨立化inlong產品可與其他云產品進行組件化融合,完成數據無縫流轉DataInL

21、ong in WeData:全鏈路大數據解決方案升級uWeData:為了提供全鏈路數據開發和治理能力,DataInLong 可一鍵切換至WeData數據開發治理平臺,無縫兼容存量數據及數據鏈路。DataInLong作為WeData功能模塊之一,可結合開發、運營、質量、安全等模塊,幫客戶快速補全鏈路數據開發與治理能力。uInlong+DLC/CDW Doris等,提供快捷數據傳輸uInlong+ElasticSearch/BI,提供實時數據快捷入倉入湖的數據通分析與展示uInlong+云數據庫/云中間件/DTS,連接基礎數據平臺與大數據生態的解決方案u業務場景覆蓋實時、離線同步,支持秒級、分鐘級

22、、小時級、天等豐富時間粒度數據同步u技術場景涵蓋采集與主動上報數據傳輸方式,支持數據庫表讀取、數據庫日志變更訂閱,系統SDK上報u支持30+數據源類型,包含關系型數據庫、大數據、NoSQL、半結構化、消息隊列等u多種同步方式,支持全量、增量、全增量融合的同步策略u單表同步、整庫遷移【支持不同類型、時效、策略、提取方式下全場景的數據集成訴求支持不同類型、時效、策略、提取方式下全場景的數據集成訴求】全場景數據集成全場景數據集成業務1l 離線數據業務,業務需按T+1定期采集ODS層數據,無需轉換處理被動拉取主動上報l 實時進行業務日志采集,投遞到ES進行廣告業務指標分析業務3業務2l 監控數據變更,

23、實時進行數據分析及報表展示,需要清洗非標數據被動拉取l 正在進行架構調整,需進行原有數據遷移,且不可影響現有離線業務業務4被動拉取DataInLong全場景數據集成離線同步實時同步-日志變更實時同步-文件傳輸離線同步【業務場景】ELTETLELTETL/ELT【數據場景】異構數據同步異構數據同步異構數據同步同構數據同步【技術場景】單表增量整庫/單表全增量DataFunSummitDataFunSummit#2023202303應用實踐開箱即用的產品體驗開箱即用的產品體驗無門檻低代碼,開箱即用,一分鐘玩轉ETL免運維無成本,實時感知同步進展畫布式無代碼拖拽配置畫布式無代碼拖拽配置指標監控與展示指

24、標監控與展示資源托管一鍵配置資源托管一鍵配置復雜策略精準控制復雜策略精準控制u開箱即用,提供一站式產品服務,輕松管理數據源、資源、元數據、數據等核心對象u低代碼敏捷開發,提供畫布式任務配置方式完成ETL鏈路配置及同步策略控制,輕松完成復雜場景同步u無需資源運維,所有基礎資源提供全托管服務,采用包年包月計費模式u支持全鏈路(任務/數據流/節點/資源)多對象監控于審計,支持通道、臟數據、流量、資源使用監控以及數據權限安全控制,提供電話、短信、微信、企業微信、郵件等多渠道告警【敏捷產品體驗、開箱即用免運維】全鏈路數據開發與治理平臺敏捷搭建平滑適配遷移支持資源、任務復用 DataInLong 提供了開

25、放的技術能力,可與統一調度、統一元數據、統一安全等技術/產品服務快速深度融合。同時,支持平滑無縫升級至騰訊云數據開發與治理平臺WeData,提供全鏈路數據開發、治理與資產管理、數據安全能力,為企業提供完善的全鏈路數據開發生產與治理解決方案。全鏈路覆蓋開發、治理、安全獨立獨立DataInLongDataInLong數據開發治理平臺數據開發治理平臺WeDataWeData數據集成數據集成(DataInLongDataInLong)無縫無縫切換切換推薦搭配產品:數據開發治理平臺WeData大數據處理套件異構數據批量搬遷入倉入湖轉換能力強大原生函數+UDF+定制轉換節點周期靈活豐富調度、補數策略Dat

26、aInLong(數據集成)提供了簡單、快速、靈活、成本低的技術和產品方案,采用星型模型抽象轉換公共數據類型靈活適配幾十種異構數據轉換,幫助客戶快速搭建業務數據庫與云上數據湖/倉之間批量數據同步鏈路。DataInLong支持用戶靈活接入業務處理邏輯實現多層數倉間數據快速、無縫扭轉,幫助用戶最大效率、最低成本完成異構數據入倉入湖。推薦搭配產品:隨機組合讀寫鏈路豐富、場景靈活;單表、分庫分表讀寫傳統方案傳統方案DataInLongDataInLong更 多DataInLong更 多TKECOS數據庫/大數據VS.業務數據庫與湖倉實時同步(CDC)粒度豐富集群、庫、字段DataInLong 基于Fli

27、nk CDC Connector 體系提供高效率、低延遲、準確的實時數據同步遷移方案,支持通過單表以及整庫粒度實現業務與湖倉數據實時一致,可幫助用戶搭建固定schema、或者DDL變更場景下數據監控與響應。DataInLong支持用戶全量+增量、或者僅增量方式建立數據同步機制,提供實例、數據庫、表或字段級實時數據傳輸方案,幫助用戶最快效率完成數據遷移。策略多樣全量、增量;拉取、上報方式一:單表同步全方位監控日志、告警、審計數據一致DDLDDL響應、指標、臟數據歸檔響應、指標、臟數據歸檔【適合場景】:單表同步、分庫分表同步與回流【同步模式】:依據字段映射關系,進行指定字段數據之間非按序同步。默認

28、對表內字段進行業務數據過濾保持來源于目標關聯字段間數據一致,同步期間非關聯的字段變更不影響同步數據?!咎幚砹6取浚罕?、字段【數據轉換】flink函數movie1movie2movie3hotel1hotel2hotel3moviemoviehotel方式二:整庫遷移【適合場景】:整庫搬遷【同步模式】:根據來源與目標間表對象映射策略,自動路由來源多或單表數據至目標表中。整庫下,默認字段同步映射,來源與目標表之間可按照指定策略、或者字段內容動態映射【處理粒度】:集群、庫、表推薦搭配產品:數據上報主動上報 SDK/Agent海量采集百萬億級數據量免運維資源全托管方案架構方案架構廣告、推薦、企業畫像等

29、業務需要收集在線網站、APP、系統的用戶行為及系統日志等各種業務數據,DataInLong 支持通過配置Agent采集器、系統SDK等方式主動上報對用戶行為、系統日志、訂單等結構化或半結構化數據,從而完成快速數據傳輸與高效分析,有效支撐在線業務實時查詢提高業務響應效率。推薦搭配產品:實時數據主動上報助力數字分析實時化DLC成功案例:公有云電商、傳媒、互聯網行業客戶成功案例:公有云電商、傳媒、互聯網行業客戶某公有云電商某公有云電商:DataInLongDataInLong in in WeDataWeData某傳統企業客戶:某傳統企業客戶:DataInLongDataInLong +DLCDLC

30、全鏈路全鏈路數據平臺數據平臺離線數倉與數據同步離線數倉與數據同步離線數據開發與調度離線數據開發與調度元數據、數據資產管理與治理元數據、數據資產管理與治理企業云原生數據湖企業云原生數據湖構建構建多種同步方式,多種數據源快速搭建云數據湖多種同步方式,多種數據源快速搭建云數據湖實時數據秒級同步實時數據秒級同步icebergiceberg,完成冷熱數據計算,完成冷熱數據計算方方案案架架構構應應用用場場景景個性化推薦個性化推薦 用戶洞察用戶洞察 商品商品/訂單訂單/庫存數倉數據開發庫存數倉數據開發 方方案案架架構構應應用用場場景景信息采集信息采集 日志分析日志分析 實時數據入湖實時數據入湖 業務預測業務

31、預測 成功案例:騰訊內部業務成功案例:騰訊內部業務為支持商戶為支持商戶/個人兩大微信支付業務場景,InLong內部部署交付兩套系統,每套系統支持集群三副本容災,支持三地多活保障支付業務平穩、穩定、安全運行。為了解決廣告部門數據來源廣泛、采集點眾多的難題,InLong為騰訊廣告提供包括MQ在內的多種類型消息通道和接入方式,支持近百萬億級數據接入和處理,最終實現廣告業務統一監控、告警和核心指標運營實時呈現。百萬億級數據量百萬億級數據量實時高性能消息隊列同步全鏈路數據指標監控全鏈路數據指標監控安全、高效、穩定安全、高效、穩定多集群部署多集群部署DataFunSummitDataFunSummit#2023202304平臺規劃后續規劃后續規劃運維強化 一致性校驗 數據質量審查與比對(e.g.,數據跟隨檢驗與告警等,數據一致性比較)運維日志展示優化及智能診斷(e.g.,智能任務診斷與啟停)監控指標擴充海量鏈路-三網合一 數據訂閱能力 資源彈性資源管理優化數據鏈路豐富及特性增強 客需及重點數據鏈路類型及技術特性感謝觀看

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(基于Apache InLong全場景數據集成.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站