《離線實時一體化數倉與湖倉一體:云原生大數據平臺的持續演進-大數據平臺技術論壇(14頁).pdf》由會員分享,可在線閱讀,更多相關《離線實時一體化數倉與湖倉一體:云原生大數據平臺的持續演進-大數據平臺技術論壇(14頁).pdf(14頁珍藏版)》請在三個皮匠報告上搜索。
1、離線實時一體化數倉與湖倉一體 云原生大數據平臺的持續演進林偉阿里云智能研究員010203Contents目錄湖倉一體離線在線數倉一體化智能數倉確定建立一個開發、協同、繁榮的電子商務生態系統,其中生態系統的核心是數據。1688數據團隊AliExpress數據團隊淘寶數據團隊天貓數據團隊平臺從分散到統一寧波戰略會議各個業務團隊垂直式發展數據能力2007年2012年2013年B2B數據服務化登月&電商公共層啟動“中臺戰略”2015.12OralceGreenplumHadoopODPSBIEE集團CEO逍遙子:今天起,我們全面啟動阿里巴巴集團2018年中臺戰略,構建符合DT時代的更創新靈活的“大中臺
2、、小前臺”組織機制和業務機制。建立OneData雛形建立OneService服務統一大數據平臺全面推廣OneData統一集團建設標準建立服務商家數據產品-生意參謀建立實時數據技術能力及雙11媒體大屏建立服務小二的“阿里數據平臺”2017開啟“云上數據中臺”集團全域數據深化數據資產的整合與建設-建立OneID體系。全面深入業務,構建數據賦能業務的產品及組織能力。從內而外建立了:Dataphin+Quick系列的產品矩陣目前已經服務1000+企業數據從資源到資產組織從成本到價值2021阿里巴巴從數據湖到數倉歷程對比維度數據湖數據倉庫方法論事后建模Schema-on-read事前建模Schema-o
3、n-Write存儲類型結構化/半結構化/非結構化結構化/半結構化計算引擎向所有引擎開放各引擎有限優化向特定引擎開放易獲得高度優化成本易啟動難運維管理難啟動易運維管理(甚至免運維管理)數據治理質量低難管理使用質量高易管理使用企業級能力靈活性數據倉庫和數據湖業務規??傮w擁有成本(TCO)特定規模前,數據湖靈活性占優,之后數倉成長性占優客戶如何才能同時享受數據湖的靈活性和云數據倉庫的成長性?數據湖云數據倉庫數據倉庫和數據湖系統的增長曲線登月Cloud Data Warehouse-MaxCompute存儲計算分離計算計算.數據云存儲存儲計算一體HiveSpark.開放存儲(HDFS)SaaS云數倉M
4、axCompute+On-perm Data lake開源自建數據湖Cloud Data lake開源云數據湖=湖倉一體新架構隔離&分享隔離&分享隔離&分享.開發平臺/數據管理/介入訪問(Web-UI/SDK/JDBC)認證&訪問控制管理安全開發元數據任務型計算引擎(MaxCompute/PAI/Flink/Spark)交互式服務型引擎(Hologres)數據倉庫實例(Multi-Projects)數據倉庫1(ETL項目)數據倉庫2(BI項目)數據倉庫3(自助分析)數據倉庫4(機器學習)自適應彈性資源池Inside HadoopInside OSSMaxCompute優化內置存儲.HDFS存儲
5、云存儲(OSS)NoSQL存儲(TableStore)數據倉庫(MaxCompute內置存儲)一體化的元數據一體化的湖倉存儲訪問層湖倉一體(如何避免登月)大數據計算規?;?實時化春晚直播實時大屏雙 11 GMV 實時大屏城市大腦實時交通監測銀行實時風控監測淘寶實時個性化推薦發展的相似性HadoopHiveMaxComputeFlink+離線數倉(MC)FlinkFlinkMC+Holo離線在線數倉一體化KafkaFlinkSubscriptionArchivingDim Table JoinHiveClickHouseDruidHBaseCassandraDrillPrestoRedisMys
6、qlAPIApplicationsReportsDashboardsResultCachingBatch Processing批處理Batch Acceleration 離線加速Federated Analytics 聯邦計算Point Lookups 點查詢Realtime Analytics實時計算結果緩存DataHub在線應用運營看版數據大屏MaxCompute服務分析Hologres實時數倉離線數倉實時計算Flink版數據總線從N到1,Hologres簡化大數據架構企業數倉實踐的“紛繁蕪雜”數據湖實時離線數倉一體云化1 Day1 Hour10 Min1 Min7 Sec1 SecLat
7、ency100GB1TB10TBData Vol批處理(Batch)數據量大,資源消耗大由多個任務組成Pipeline,通常由機器自動發起定時任務為主,Query固定資源On-demand,按優先級分部調度典型作業:數據清洗數倉建立報表模型訓練(ML)關系圖Building內部任務(例如冷數據歸檔)流計算(Streaming)時序/流式輸入,有低延期輸出要求Query固定,一直運行對資源一直占用,需要動態伸縮能力交互分析(Interactive)開發Reporting/數據分析為主通?;谝延械臄祩}Query類型不固定,手工提交為主對延遲有一定要求分鐘到亞秒級Indexing/CubePre-
8、cooking/MVMem Cache業務在線化、運營精細化推動數倉實時化、交互化拉通存儲,多種引擎,統一數倉服務數據湖Job類型執行引擎在線服務類型交互式引擎離線分析引擎MaxCompute實時計算引擎Flink交互式分析引擎Hologres統一數倉(離線+在線)數智平臺 DataWorks更加實時在線服務化低成本容錯能力更強自定義能力強其他Spark.服務客戶在各個階段的需求,自然擴展智能進化-阿里巴巴十二年數據平臺建設積累DataWorks 一站式大數據開發治理平臺數據服務數據治理數據建模全域數據集成數據分析開放平臺數據開發數據穩定性智能查詢智能建模離線/實時/交互式/AI四合一開發臟數
9、據監控計算存儲引擎MaxCompute10萬臺集群智能數倉湖倉一體E-MapReduceHologres實時計算Flink版機器學習PAI智能基線管理Elasticsearch零代碼生成API函數計算服務編排數據共享交換電子表格透視分析儀表盤NotebookOpenAPIOpenDataOpenMessagePlug-in逆向建模數倉規劃數據標準數據指標模型評估原創建模語言日千萬級周期任務調度智能編程助手可視化任務編排支持50+種數據源日3萬億+記錄同步百萬級表實時同步整庫一鍵遷移增量同步數據轉換傳輸速率與并發控制單Topic彈性最高256000Records/s百萬核集群云原生數據湖億級數據亞秒級查詢50億條消息/秒業界最大的中文多模態預訓練AI模型監控告警事件管理智能運維診斷比開源內核性能提升7倍數據地圖10+引擎元數據發現30+種表基礎信息表/字段級血緣上下游影響分析數據質量37種質量規則模板彈性規則調度引擎動態閾值智能規則推薦數據安全31種敏感數據自動識別數據水印溯源數據訪問審計數據分級與脫敏數據治理中心檢查項(問題預防)問題處理閉環健康分模型治理項(問題發現)DataWorks 一站式大數據開發和治理平臺THANKS THANKS