《OpenLake:AI時代數據湖倉平臺.pdf》由會員分享,可在線閱讀,更多相關《OpenLake:AI時代數據湖倉平臺.pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、 OpenLake:AI時代數據湖倉平臺演講人:李鈺阿里云資深技術專家,EMR團隊負責人 數據湖、湖倉一體以及大數據搜索AI湖倉一體01010101010101010101OSSOSS文件讀寫外表讀文件引擎解析表數據互通Parquet,Orc,Avro數據湖湖倉一體大數據搜索AI湖倉一體Data Lake01010101010101010101OSS湖表SDK讀寫湖元倉One Copy大數據Iceberg,Delta,Hudi,PaimonData Lakehouse引擎元倉01010101010101010101OSS湖表SDK讀寫結構化/非結構化開發平臺引擎元倉引擎數倉計算引擎AI引擎開發
2、平臺訓練推理公共元倉統一湖元倉(管理表和文件)湖文件讀寫引擎元倉計算引擎計算引擎阿里云OpenLake解決方案OpenLake 大數據搜索AI一體化開發平臺DataWorks IDE,NotebookMeta Service(DLF)IcebergDeltaHudiPaimonFile(圖像、視頻、文本等)ModelOSS(Managed/Incorporated)引擎對接權限管理元數據服務表管理文件管理PAIEMRSparkES/OS/MilvusMaxComputeEMRStarRocksMulti-Engine數據共享統一讀寫標準引擎平權聯合計算HologresFlink 統一的多模態數
3、據管理底座Data Lake Formation 數據湖倉管理平臺新版發布Serverless Engines(Flink Spark StarRocks Hologres MaxCompute)CatalogDatabaseTableViewVolumeFunctionPaimon Open Source Rest APIE-MapReduce&ECS(半托管&開源自建)AI Engines(Python PyArrow Ray DuckDB)Paimon Virtual File SystemData StorageMeta and Data managementLakehouse for
4、mat:Apache Paimon File format:Parquet/ORC/Avro/LanceStorage:Alibaba Cloud OSSCDC 入湖批量入湖遷移入湖Kafka 入湖Lakehouse ManagementLakehouse Ingestion元數據管理智能存儲優化權限管理自適應分桶元倉服務自適應合并HiveIcebergPaimonAI時代湖格式的演進:Hive-Iceberg-Paimon針對多模態的離線、實時、OLAP、AI場景數據處理Shared File Storage ForBatch ProcessingShared Database Storag
5、e ForBatch ProcessingShared Database Storage ForBatch ProcessingStreaming ProcessingOLAP ProcessingAI ProcessingORC&Parquet FilesSimple architectureBasic functionalityACID TransactionDELETE&UPDATEData SkippingTime TravelPK Table based on LSMStreaming Write&ReadDeletion Vectors&IndexMultimodal Lance
6、FormatDLF AI Lake:Paimon Virtual File System 非結構化數據統一管理非結構化數據統一權限管理訪問控制非結構化數據統一身份訪問日志審計虛擬文件系統與對象表虛擬文件系統支持Python FS和POSIX大數據計算可以使用對象表視圖訪問DLF 服務:權限控制和日志審計IOTVolumeOSS bucket音視頻文檔Paimon Object TableAI 計算引擎Volume Location訪問加速原始數據入湖對象元數據發現和同步Paimon Virtual File SystemPython FS&POSIXOSS SDKPaimon REST API
7、大數據計算引擎DLF AI Lake:Paimon+Lance File FormatPaimon Table FormatLance File FormatAlibaba Cloud OSSParquetTfRecordAILanceLarge BlobsFast ScansRandom AccessrdbmsAI&Data Engines(Python PyArrow Ray Flink Spark)表格式存儲多模態數據多模態數據支持:存儲 Large Blobs高效的隨機訪問:低延機隨機查詢高效的列追加:不重寫數據只追加DLF Paimon 智能存儲優化DLF 元數據服務DLF Even
8、t StoreDLF Paimon 存儲優化服務元數據存儲Bin logAccess log作業調度管理 智能優化引擎規則優化引擎作業生成引擎OSS自適應分桶自適應合并根據分桶的數據自適應 Rescale 分桶個數達到固定分桶的性能同時動態分桶的方便對主鍵表進行自適應動態資源 compaction自動小文件合并,自動完成表的持續維護DLF 資源池用戶 Flink VVP計算資源池 靈活選擇的多模態數據計算新一代的流式湖倉:Flink UniFlow一套引擎,一套代碼,一套存儲流批一體基于OSS存儲,增量計算精簡計算量成本低數據口徑一致正確性全鏈路數據可實時流動全實時OSSSLSPolarDBF
9、linkHologresMaxCompute統一元數據服務DLFUniFlow 物化表數據實時攝取010101010101010101010101010101010101 OpenLakeDashboardBI&ReportsData ExploreData Application流批一體統一元數據自動刷新聲明式DataWorks 數據集成Flink CDCApache PaimonODSFlink流/批 流/批FlinkApache PaimonDWDApache PaimonDWS全增量一體化AI Fuction(通義等模型)BI分析AI洞察基于EMR Spark+StarRocks的數據
10、湖倉LogsDatabase 一鍵入湖CTASCDAS 全鏈路實時化 流批一體化 開放兼容主流分析引擎 批讀批寫調度 工作流 流讀流寫 AD-HOC 查詢Apache PaimonApache PaimonApache PaimonQueries Queries Queries 010101010101010101010101010101010101 OpenLake基于MaxCompute+Hologres離線實時一體化 DLF 湖倉管理平臺DLF CatalogDatabaseTable高性能、OLAP分析Apache PaimonApache PaimonApache Paimon高吞吐
11、、低成本批量計算MaxComputeHologres MaxComputeExternal ProjectExternal SchemaExternal TableHologresExternal DatabaseExternal SchemaExternal TableMaxCompute與Hologres互相映射相同層的元數據和數據基于DLF和OSS映射相同元數據和數據010101010101010101010101010101010101 OpenLake高性價比的湖上處理實時離線一體化一份數據按需計算MaxCompute與Hologres都可見和讀寫Openlake上的同一catalo
12、g內的元數據和數據MaxCompute與Hologres都可見和讀取對方元數據和數據,實時離線一體化MaxCompute基于Openlake進行高吞吐,低成本的批處理計算,Hologres進行高性能、OLAP分析基于MaxCompute MaxFrame的Data+AI 一體化AI Function 內置函數 自定義函數鏡像管理 內置鏡像 自定義鏡像模型訓練/推理模型管理數據分析/預處理內置函數MaxCompute SQL在線GPU推理-PAI DLC模型服務-DashScopePAI 模型倉庫模型部署 PAI EASQwen&Llama2ML 開發MaxFrame數據存儲MaxCompute
13、 OSSPaimon數據讀取結果數據寫回Object Table通過MaxCompute、Paimon訪問結構化數據/非結構化和數據 OpenLake0101010101010101010101010101010101010101010101基于OpenSearch構建企業級RAG系統與多模態搜索OpenLake統一入口DataWorks 數據開發DataWorks Notebook元數據構建與管理OpenSearch強大的搜索能力靈活開放的模型服務高性能檢索引擎RAG測評文檔解析文檔切分文本向量化圖片向量化數據識別數據抽取語義切分多粒度切分稠密向量稀疏向量圖片識別意圖識別重排模型提示工程大模型語義拓展多輪對話拓展模型重排臨近片段拓展組成Prompt通義千問微調大模型索引構建稠密/稀疏向量索引全量/實時索引構建高性能查詢百萬+QPS毫秒級結果返回數據湖構建(DLF)對象存儲OSSApache Paimon數據湖存儲ORCTXTJSONCSVParquet OpenLake0101010101010101010101010101010101010101010101大數據AI產品免費試用免費試用阿里云大數據AI產品加入阿里云大數據AI釘釘群嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻