《基于 OceanBase 阿里云 DataWorks 構建一站式數據集成、開發和數據服務_羅海偉.pdf》由會員分享,可在線閱讀,更多相關《基于 OceanBase 阿里云 DataWorks 構建一站式數據集成、開發和數據服務_羅海偉.pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、構建一站式數據集成、開發和數據服務羅海偉阿里云高級技術專家基于 OceanBase 阿里云 DataWorks01 DataWorks 介紹介紹阿里云 DataWorks 歷史發展、模塊架構等02 DataWorks OceanBase 數據集成原理介紹 DataWorks 針對 OceanBase 的數據集成原理,以及后續規劃03 在 DataWorks 中做 OceanBase 數據集成、開發示例介紹在 DataWorks 中,基于 OceanBase 做數據集成、開發、服務案例演示Contents目錄DataWorks 與數萬家企業數字化轉型一路同行DataWorks 是一站式智能化數據
2、開發與治理平臺,支持 MaxCompute/Hologres/AnalyticDB/E-Mapreduce/CDH/CDP 等大數據引擎,為企業構建現代數據倉庫、數據湖以及湖倉融合數據架構提供數據平臺產品解決方案。作為阿里巴巴大數據平臺建設者,DataWorks 從 2009 年起不斷沉淀阿里巴巴大數據建設方法論并產品化,同時與數萬家政務/金融/零售/互聯網/能源/制造等阿里云客戶攜手,助力企業數字化升級。非最新數據https:/ 產品模塊架構數據治理業務場景開放平臺政務云/城市大腦行業數據中臺用戶增長/分析/營銷智能搜/推/廣車聯網/智能制造數據報表/大屏數據分析與應用開放接口開放消息開放數
3、據擴展點與擴展程序數據質量質量規則模板智能規則推薦動態規則閾值離線表、消息通數據資產地圖元數據采集數據目錄和檢索全鏈路數據血緣影響分析數據安全數據權限管理數據分級分類隱私數據保護風險預警訪問審計數據治理中心檢查器(事前預防)治理項(事后發現)問題處理方案健康分評估模型規范設計數倉規劃數據標準數據指標維度建模ER建模(Datablau)數據開發離線/實時/交互式分析/AI一體化集成開發環境任務統一調度任務運維和監控數據分析自助分析電子表格Notebook數據服務低代碼化數據API構建服務編排API網關計算存儲引擎阿里自研大數據計算服務(MaxCompute)交互式分析引擎(Hologres/An
4、alyticDB)開源數據湖計算平臺(E-MapReduce)其他數據平臺等(CDH/CDP/StarRocks/OceanBase)數據集成全量同步增量同步實時同步整庫遷移分庫分表同步數據轉換DataWorks 數據集成平臺包含功能異構數據存儲、可靠、安全、低成本、可彈性擴展的數據同步平臺離線/實時全覆蓋繁多異構數據源安全控制運維監控支持復雜網絡同步解決方案10PB+/每日數據同步數據集成 OceanBase 批同步原理基于數據庫JDBC協議或數據源SDK進行讀寫OceanBase 源端jobsplittask1task2task3task4select min(select min(spl
5、itPksplitPk),max(),max(splitPksplitPk)from table)from tableDataX/DataXCDCReaderWriterBuffer Pooltaskthreadthreadselect c1,c2,from table where splitPk=min1 and splitPk=min1 and splitPk 云數倉同步典型場景:OceanBase 中存儲面向OLTP數據,數據匯聚到數倉平臺(MaxCompute、Hologres等)挖掘數據價值一鍵實時同步至MaxCompute:https:/ MySQL/MaxCompute-Ocea
6、nBase 同步典型場景:OceanBase 匯總存儲分析型數據做OLAP分析;OceanBase 存儲分享結果數據支撐數據服務和數據應用https:/ OceanBaseStep3:在 DataWorks 中對 OceanBase 數據執行分析典型場景:配置和編排ELT數據處理工作流,幫助企業構建離線數倉、實時數倉與即席分析系統智能SQL IDE與可視化工作流編排AI加持SQL編輯器,智能提示,拖拽式構建數據工作流穩定高效的調度系統自動解析任務依賴,千萬級日調度能力,細粒度調度周期控制智能監控與運維診斷圍繞任務運行的全鏈路給出診斷建議,快速定位原因Step4:在 DataWorks 中開發
7、OceanBase 數據服務使用場景:幫助企業統一創建和管理對內、對外的API服務,解決數倉、數據庫與數據應用間的“最后一公里”零代碼零運維多數據源彈性擴展螞蟻銀行新加坡分行:實現大集群模式的高效運維管理 OceanBase 通過靈活的部署模式,以及多租戶架構,實現大集群模式的高效運維管理 私有化部署導致建站人力投入以及時間成本巨大TP+AP 技術棧分離,增加數據安全風險大量實例同時帶來與日俱增的運維成本 業務挑戰OceanBase SaaS 化復制能力,加速建站進程 松耦合的分布式架構,無需改變使用習慣,適用不同業務的需求 OceanBase 即時分析能力,提高在線核對效率以及準確度,把控資金風險客戶收益通過 OceanBase 云化服務開箱即用減少部署周期以及運維成本消耗。并且通過OB 3.0 HTAP引擎,優化的整體的數據庫鏈路架構,保持技術棧統一解決方案HTAP降本增效公有云MaxComputeDATAWORKSAPP在線分析實時同步小時增量/增量累計數據回流離線分析聯機交易OceanBase 3.0DataWorks全鏈路大數據開發治理平臺釘釘交流群產品官網:https:/