《Data Warebase:實時湖倉 · 多模檢索.pdf》由會員分享,可在線閱讀,更多相關《Data Warebase:實時湖倉 · 多模檢索.pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、Data Warebase:實時湖倉:實時湖倉 多模多模檢索檢索劉一鳴 ProtonBase 產品&解決方案負責人目錄目錄目錄目錄1.1.湖倉技術演進與挑戰湖倉技術演進與挑戰2.2.實時湖倉升級數倉開發方法論實時湖倉升級數倉開發方法論3.3.多模檢索加速多模檢索加速AIAI應用創新應用創新4.4.ProtonBaseProtonBase實踐場景與案例分析實踐場景與案例分析湖倉技術演進與湖倉技術演進與挑戰挑戰結構化為主,BI報表、離線分析存儲計算耦合,擴展性有限Oracle,Teradada數據倉庫數據倉庫20002000年代年代初期初期結構化依舊是主角共享存儲多引擎實時處理能力不足,一致性和事
2、物性有限Hadoop,Hive,Spark,Flink大數據大數據20102010年代年代初期初期 對象存儲興起,存儲成本和擴展性進一步優化 徹底解耦計算和存儲,資源按需使用 EMR數據湖數據湖20102010年代年代末期末期20202020年代年代初期初期數據湖與數據倉庫融合,一方面湖上升倉,一方面倉管理湖支持部分事務管理和實時性Databricks,Snowflake湖倉融合湖倉融合近期近期 實時場景友好,端實時場景友好,端到端實時到端實時 增量計算整合批流鏈路 多模態數據,多模態檢索、AI一體化 ProtonBase實時湖倉實時湖倉湖倉技術發展的幾個關鍵階段湖倉技術發展的幾個關鍵階段關鍵
3、詞搜索語義搜索簡單查詢向量數據庫語義搜索語義搜索簡單查詢簡單查詢簡單查詢簡單查詢應用應用應用服務應用服務CDCCDC增量同步關鍵詞搜索關鍵詞搜索對象存儲快照快照全量同步全量同步離線分析離線分析全量同步增量同步增量同步AIAIBIBI日志日志分析分析APPAPP向量向量檢索檢索全文檢索全文檢索實時實時分析分析數據加工匯總分析湖倉應用現實的路徑依賴:架構湖倉應用現實的路徑依賴:架構搭積木,挑戰復雜度搭積木,挑戰復雜度在線應用在線應用增量同步數據孤島,多份存儲成本(離線、實時、中間件)多份開發成本(批、流、在線)數據口徑不一致同步本身不創造價值,同步成本增加多于業務價值增值數據延遲、損失新鮮度業務迭
4、代周期長、上線慢人才招聘門檻人才依賴門檻業務創新節奏門檻運維專業度、效率湖倉平臺核心挑戰:孤島、效率、人才湖倉平臺核心挑戰:孤島、效率、人才冗余冗余同步同步復雜架構復雜架構大數據已死,大數據永生大數據已死,大數據永生離散結構網絡結構層級結構關系型數據庫成熟于80年代文件型數據管理NoSQL&NewSQL2010+明天理想中的下一代實時湖倉平臺理想中的下一代實時湖倉平臺統一的 API結構化/半結構化豐富的語義表達統一存儲無數據孤島無額外數據同步多模態檢索向量/搜索/統計High QPS,Low Latency存算分離水平擴展負載隔離實時讀寫實時加工實時分析Device(IoT)IDCEvent
5、DataCloud Storage(S3)NoSQL(MongoDB)Log DataCloudServicesDataIntegrationManagementObservabilitySecurityBillingCentralized StorageCloudCloudAlibabaTencentHuaweiAWSVolcanoMulti-ClusterComputeWarebaseWarebaseWarebaseAI/MLReal-Time DecisionSearchBI/AnalyticsBusiness AppMySQL/PostgreSQLLake StorageProtonB
6、aseProtonBase:支持實時湖倉、多模檢索的云:支持實時湖倉、多模檢索的云原生數倉原生數倉Proton 質子:是最穩定的重子,構建萬物的積木,永遠正向所有數據所有數據結構化數據半結構化數據非結構化數據所有場景所有場景關鍵詞搜索語義搜索匯總分析簡單查詢極簡體驗極簡體驗統一的數據存儲兼容開源生態負載隔離標準SQL自適應優化挑戰極限挑戰極限性能正確實時DataData Warebase Warebase DataData WareWarehouse house+Data Databasebase所有數據所有數據 所有場景所有場景 挑戰極限挑戰極限 極簡體驗極簡體驗 Data Warebase
7、 Data Warebase理念:不是發明理念:不是發明 而是發現而是發現數據加工向量數據庫分析分析增量同步BIBI工具工具語義搜索CDC簡單查詢簡單查詢應用應用CDCCDC快照快照全量同步對象存儲關鍵詞搜索應用服務應用服務應用應用應用服務應用服務實時讀寫多模檢索全量同步全量同步增量同步增量同步Data Data WarebaseWarebase數據開發新范式數據開發新范式BIAI實時湖倉升級數倉開發實時湖倉升級數倉開發方法論方法論 場景:廣告營銷分析、AB Test、精準推薦、實時歸因、實時風控等 需求:高吞吐實時寫入、實時更新、實時加工、實時數據端到端實時性 場景:數據晚到、不到,數據口徑
8、調整,數據指標豐富等均需數據高效率修正 需求:明細數據的記錄和靈活更新能力數據質量修正 場景:實時架構鏈路長:消息中間件、流處理引擎、OLAP引擎、KeyValue引擎,運維成本高。需求:避免數據孤島,減少數據移動成本可控、架構穩定 場景:復雜的技術鏈路提高了開發、運維、診斷門檻,無法投入到數據價值挖掘中。需求:業務開發與技術開發解耦,自助分析,自助取數。敏捷響應業務實時湖倉如何提高開發和運維效率實時湖倉如何提高開發和運維效率為實時優化ProtonBaseProtonBase:實時、吞吐、穩定的一站式實時湖倉:實時、吞吐、穩定的一站式實時湖倉010203040506實時寫入、實時更新實時寫入、
9、實時更新 基于 LSM 存儲結構,支持以行為單位寫入與更新 寫入即可見,數據無延遲高吞吐并行導入高吞吐并行導入 分布式架構,支持橫向擴展 支持 INSERT、COPY 多接口增量物化視圖與增量物化視圖與 ZeroZeroETLETL 批流一體的數據加工 通過描述性語言構建 ZeroETL 開發范式彈性與穩定性彈性與穩定性 秒級彈性,應對流量動態性,提高資源利用率 提升大作業運行穩定性事件驅動的開發事件驅動的開發 支持CDC事件吐出,Flink+ProtonBase,有狀態的事件驅動開發,替代 Kafka,改善數據質量修正時間旅行時間旅行 Time Travel回溯數據到歷史時間點 整庫快照、備
10、份、恢復ODS/Brown ZoneDWD/Silver ZoneDWS/Golden ZoneADS/Optional高吞吐并行寫入COPYINSERTTELEPORTTTTMVTTTV增量物化視圖加工Flink消費CDC加工周期性調度加工按需靈活加工數據加工,數據挖掘數據探查,明細報表數據產品,高并發、低延遲極致性能通過視圖表達業務靈活性、按需物化原始數據,實時入湖(Iceberg),實時入庫,寫入即可見,存儲成本低被治理的明細數據,為多團隊共享數據底座構建主題模型,性能優化,口徑準確業務團隊自助開發的應用層,滿足靈活性分層的實時湖倉:分層的實時湖倉:From Brown Zone to
11、Golden ZoneFrom Brown Zone to Golden ZoneProtonBase on AWS ProtonBase on AWS 實時湖倉參考架構實時湖倉參考架構分布式緩存,加速查詢分區剪枝、文件剪枝,減少IO支持Iceberg,支持Parquet、ORC存儲湖表和倉表關聯、導入導出元數據集成,Import Foreign Schema批量同步湖表元數據讀取 Iceberg 增量更新,實現湖表到倉表的ZeroETL同步集成支持Iceberg REST API的Catalog支持阿里云MaxCompute、AWS Glue、Databricks Unity Catalog
12、湖表湖表加速加速湖表倉表關聯湖表倉表關聯分析分析湖表增量物化視圖湖表增量物化視圖*統一統一元數據元數據數據數據重復存儲重復存儲重復的作業開發重復的作業開發業務迭代緩慢業務迭代緩慢離線部分使用HDFS實時部分使用消息隊列開發方言不統一實時 SQL 語義特殊性 調整業務邏輯需要兩邊同步實時部分回刷代價大如何破解如何破解LambdaLambda難題難題批流一體的三次批流一體的三次演進演進1.0 1.0 計算運行時計算運行時一體一體2.0 2.0 存儲存儲一體一體3.0 3.0 計算模型計算模型一體一體降低了一定的學習成本,未成為主流兩份腳本,兩份數據計算支持批模式和流計算支持批模式和流模式模式存儲、
13、計算雙創新增量計算統一批流模型一份腳本、一份數據批流計算模型批流計算模型統一統一支持面向Scan的高吞吐訪問支持面向Upsert的靈活更新支持CDC場景存儲存儲優化批模式和流優化批模式和流模式模式統一語義統一語義:標準SQL描述業務邏輯統一計算統一計算:增量計算統一計算模型-對齊離線SQL,沒有額外的流計算學習門檻、調試門檻-全量初始化+增量刷新-增量不依賴外部 State,自由靈活切換計算形態-無Flink多流Join數據晚到造成數據不一致問題統一存儲統一存儲:所有表可查詢,可修正-結果表無需同步至外部系統-調優手段通用(存儲格式,索引等)ProtonBaseProtonBase:批流一體化
14、的增量物化:批流一體化的增量物化視圖視圖Table1Table2MV全量初始化Table1Table2MV增量刷新DeltaDelta多模檢索加速多模檢索加速AIAI應用應用創新創新多模檢索典型多模檢索典型場景場景 任意字段過濾(主鍵、非主鍵)統計、關聯、嵌套ER模型、寬表模型、多維模型、KeyValue模型結構化結構化檢索檢索湖表格式(Iceberg等),文件格式(Parquet,ORC等)湖數據訪問加速湖數據湖數據檢索檢索向量存儲與查詢向量與標量混合檢索向量向量檢索檢索可觀測性場景、日志分析、關鍵字檢索JSON存儲與壓縮,JSON PATH表達式全文檢索、模糊檢索、相似度檢索關鍵詞檢索關鍵
15、詞檢索多模檢索核心需求多模檢索核心需求 多模檢索核心需求 數據平臺對外提供服務(toC、to API)From BI-based to Agent-based 用數人員/API 數倍于數倉團隊 高并發、低延遲、低抖動、實時性性能可預期的在線業務性能可預期的在線業務 業務場景創新不要提升數據系統復雜度 業務場景數量差別大、角色多、需求變化多、數倉團隊無法滿足所有取數需求,支持業務取數與IT開發解耦 通過優化索引實現多場景的性能優化針對多樣場景的索引針對多樣場景的索引自助優化自助優化 在線服務業務敏感、高可用性 動態的流量,需要動態的資源支持 基于SLA(業務優先級、租戶重要性)隔離負載和故障穩定
16、性、隔離、高可用行存列存混存全局二級索引Btree索引倒排索引JSON向量.簡單查詢統計分析全文檢索向量檢索自適應存儲層自適應計算層行存、列存、混存JSONB自適應壓縮.SQL接入&CBO優化器執行節點執行節點執行節點執行節點JSON索引向量索引Bitmap索引ProtonBaseProtonBase:豐富索引,支持高頻、實時、:豐富索引,支持高頻、實時、多維度檢索多維度檢索 Btree(有序)、Bitmap(等值)、GIN(關鍵字JSON)索引、局部索引(稀疏數據)全局二級索引(高并發)、本地局部索引(不影響吞吐)向量索引(IVFFlat、HNSW)在線索引變更,讀寫不中斷向量化算子、MPP
17、并行執行熱點數據自適應分裂KafkaDatabaseIngestIngest在線推薦引擎Raw DataFeatures實時數據系統TransformIngestApp實時決策App實時分析探索數據科學家機器學習工程師實時實時 AI AI 工作流,工作流,Feature Store Feature Store 落地落地 Data+Data+AIAI多模態檢索企業級RAG庫,向量、標量混合查詢支持聚類索引IVFFlat和圖索引HNSW原生向量支持原生向量支持離在線一體的離在線一體的Feature StoreFeature Store支持高QPS正排檢索,倒排檢索、向量檢索、全文檢索等Featur
18、e Retrieval支持在線推薦、對話等智能應用高性能特征訪問高性能特征訪問 離在線統一模型 增量物化視圖迭代刷新依賴特征 支持Time Travel,支持特征回填和特征快照單一引擎,統一存儲單一引擎,統一存儲 支持PythonUDF,SQL集成AI服務 集成pycopy2,MCP Server,dbt等生態工具可擴展可擴展AIAI生態生態ProtonBaseProtonBase:離在線一體的:離在線一體的Feature StoreFeature Store100%100%兼容兼容PGPG協議,融入協議,融入Data+AIData+AI生態生態PG MCP Server 只讀查詢 模式探查M
19、CP ClientAgentChat AppMCP 協議 連接MCP Server 執行命令大語言模型 處理與大模型的交互 自然語言交互 通過LLM處理MCP Server響應秒級彈性:應對ETL大作業,流量洪峰橫向擴并發:同構多計算節點,線性高并發擴展負載隔離:讀寫隔離,讀讀隔離、寫寫隔離,減少抖動數據共享:支持業務二次開發成本優化:存儲冷熱分層、計算彈性,平衡性能、成本。低SLA場景冷存+Cache,高SLA場景熱存。全托管存儲服務 Managed Storage開放的湖存儲 Lake Storage邏輯數據庫Logical DatabaseWarebaseWarebase A A彈性計算
20、Elastic Computing實時寫入(Realtime)WarebaseWarebase BWarebaseWarebase D DWarebaseWarebase DWarebaseWarebase D負載隔離:數據無延遲,無冗余橫向擴展,支持高并發縱向擴展,提升作業穩定性WarebaseWarebase C C數據加工(ETL)數據消費(OLAP&Search)Database Database 1Database 2Database 2ProtonBaseProtonBase:彈性、隔離,保障:彈性、隔離,保障SLASLA ProtonBaseProtonBase實踐場景與案例實踐
21、場景與案例分析分析業務痛點業務痛點1.數據任務復雜性:Flink SQL 編寫復雜,維護成本高2.成本效率低:復雜性帶來開發資源增加,整體性價比不足。3.數據處理局限:實時數據存儲在 RDS,歷史數據存儲在離線數倉,導致系統復雜性和運營成本上升。業務收益業務收益1.架構簡化:通過物化視圖簡化架構,替換Flink ETL,降低開發和運維難度,增強系統的靈活性。2.性能提升:查詢性能提升 9 倍以上,開發和運維成本降低,系統響應速度提升。3.增強數據處理能力:統一實時與離線數據處理,支持復雜業務分析需求,提升業務決策效率。服務質量監控:實時鏈路升級、穩定性服務質量監控:實時鏈路升級、穩定性提升提升
22、數據源數據源POS機網站移動端電商渠道媒體渠道三方平臺服務服務資金管理庫存管理導購管理財務審計智能營銷CRM門店管理多源異構數據多源異構數據直接訪問 MySQLPostgreSQLMongokafkaTeleport數據同步工具業務收益業務收益1.數據實時入倉、寫入即可見2.作為TP回傳庫直接供業務應用訪問3.數據強一致,解決了數據變更無法同步和不準確的問題 4.查詢性能平均性能提升 2-32-3 倍,成本節省 50%50%。5.負載有效隔離,為不同業務設置不同SLA,怎么查集群都不會掛怎么查集群都不會掛SaaSSaaS服務服務商:多模檢索、負載隔離、數據強一致商:多模檢索、負載隔離、數據強一
23、致 實時湖倉匯聚,實時實時湖倉匯聚,實時OLAPOLAP分析分析 業務痛點業務痛點1.上游業務Schema變更頻繁,原有同步鏈路無Schema Evolution能力,導致數據同步需要大量的人工介入修正2.不支持分庫分表的自動匯聚3.Redshift OLAP并發低,延遲嚴重,流量高峰期幾乎停滯業務收益業務收益1.所有作業可以做到實時同步入湖(Iceberg)(以前是T+1)2.Teleport(ProtonBase)實現分庫分表的匯聚3.不需要再維護canal/kafka/hudi,節省了人力成本,TCO降低60%4.AP性能瓶頸消除,實現了實時交互式分析IDCMySQLOracle.CanalKafkaHudiSparkS3SparkHiveRedshiftQuickBIIDCMySQLOracle.TeleportS3SparkHiveProtonBaseQuickBI數據同步替換Hudi實時匯聚能力替換Redshift OLAP分析能力 0202增效增效才能才能降本降本多模檢索:多模檢索:From BI to From BI to AIAI分層分層的實時湖倉:的實時湖倉:提效數據加工提效數據加工0101劉一鳴 ProtonBase 產品&解決方案負責人ProtonBase 公眾號最新方案&技術解讀期待與更多期待與更多朋友交流朋友交流