《胡月軍-分布式Data Warebase-加速企業數據智能化.pdf》由會員分享,可在線閱讀,更多相關《胡月軍-分布式Data Warebase-加速企業數據智能化.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、分布式Data Warebase-加速企業數據智能化ProtonBase 技術VP/胡月軍目錄0101 /企業數字化背景和趨勢企業數字化背景和趨勢0202 /Why Data Warebase?/Why Data Warebase?0303 /Data/Data WarebaseWarebase 系統架構系統架構0404 /Data Warebase/Data Warebase 關鍵技術關鍵技術05/05/企業私域數據智能化探索企業私域數據智能化探索企業數據資產的DIKW模型用于預測、決策并符合價值觀的知識智慧智慧有上下文、可被解釋的信息知識知識建模后的數據信息信息基本經營的數字化表征數據數據
2、結結構構化化技術實現價值挖掘抽抽象象數據處理歷程智能化智能化規?;幠;畔⒒畔⒒粋€招獵業務的數據架構向量數據庫語義搜索語義搜索簡單查詢簡單查詢簡單查詢簡單查詢應用應用應用服務應用服務增量同步CDCCDC關鍵詞搜索關鍵詞搜索對象存儲快照快照全量同步全量同步分析分析BI工具全量同步增量同步關鍵詞搜索關鍵詞搜索語義搜索語義搜索匯總分析匯總分析簡單查詢簡單查詢增量同步上述數據架構的弊端 數據不一致數據不一致開發效率低開發效率低成本不可控成本不可控運維復雜運維復雜 系統穩定性差系統穩定性差 數據延遲數據延遲 開發門檻高開發門檻高開發視角開發視角運維視角運維視角業務視角業務視角分布式 Data Wa
3、rebase 所有數據所有數據結構化數據半結構化數據非結構化數據所有場景所有場景關鍵詞搜索語義搜索匯總分析簡單查詢極簡體驗極簡體驗統一的數據存儲兼容已有生態隔離統一的API自適應挑戰極限挑戰極限性能正確實時不是發明不是發明 而是發現而是發現DataData WarebaseWarebase Data Warehouse+Database數據開發的新范式分析分析增量同步BIBI工具工具語義搜索語義搜索CDC簡單查詢簡單查詢簡單查詢簡單查詢應用應用CDCCDC快照快照全量同步對象存儲關鍵詞搜索關鍵詞搜索應用服務應用服務應用應用應用服務應用服務簡單查詢簡單查詢關鍵字搜索關鍵字搜索語義搜索語義搜索分析
4、分析BIBI工具工具向量數據庫全量同步全量同步增量同步增量同步分布式分布式Data Data WarebaseWarebase總體系統架構Device(IoT)IDCEvent DataCloud Storage(S3)NoSQL(MongoDB)Log DataCloudCloudServicesServicesDataIntegrationManagementObservabilitySecurityBillingCentralized Centralized StorageStorageCloudCloudAlibabaTencentHuaweiAWSAzureMulti-Cluster
5、Multi-ClusterComputeComputeWarebaseWarebaseWarebaseAI/MLReal-Time DecisionSearchBI/AnalyticsBusiness AppMySQL/PostgreSQLTeleportTeleport關鍵技術關鍵技術多種存儲格式高性能多場景查詢高性能數據操作高性能分布式事務存算分離自適應多云架構豐富的索引多種數據提升開發運維效率所有數據所有數據多云原生多云原生所有場景所有場景 挑戰極限挑戰極限極簡體驗極簡體驗分層存儲兼容 PostgreSQL 生態無限擴展負載隔離安全可信全托管多云多云存算分離存算分離Multi-Clust
6、erMulti-ClusterComputeComputeCloud StorageCloud StorageWarebaseWarebase B BUnit 2 WarebaseWarebase A AUnit 1 Unit 3Unit 1 Centralized Centralized StorageStorageWarebaseWarebase 一個虛擬化的計算集群 由基于容器化的多個 Units 組成 Units 可以快速增減 無需拷貝數據,新擴 Units 可立刻服務DatabaseDatabase 數據存儲的邏輯單元 數據存儲在EBS,S3等云存儲中 多副本保證高可用性 存儲不夠時
7、系統會自動快速擴容 新擴存儲可立刻被所有數據庫使用存儲格式存儲格式列存列存適合分析型場景高效的多維過濾與聚合更高的壓縮率混合存儲混合存儲適合適合 HTAP HTAP 場景場景行存行存適合事務型場景高性能實時寫入高性能點查通過 Json/JsonB 類型支持半結構化數據Json/JsonB 列同一個路徑允許有不同類型關系型數據和半結構化數據可存儲在同一個表通過 SQL/Json path 提供豐富的查詢能力高維向量文字/圖像/音視頻的嵌入向量關系型數據和向量數據可存儲在同一個表通過 SQL 提供查詢半結構化數據半結構化數據非結構化數據非結構化數據多種數據豐富的索引豐富的索引索引特點索引特點索引和
8、主表保持事務型強一致支持并發創建(concurrently)支持表達式索引支持部分索引支持包含列索引類型索引類型支持全局二級索引支持倒排索引支持 Json 索引支持向量索引支持位圖索引 分層存儲分層存儲熱數據熱數據/實時數據實時數據高性能存儲冷熱分離冷數據冷數據/歷史數據歷史數據低成本 S3無限擴展無限擴展Unit 2 Unit 1 Unit 3 水平擴展水平擴展只讀實例只讀實例*該功能開發中 高性能多場景查詢高性能多場景查詢分布式執行計劃向量化執行引擎索引加速物化視圖簡單查詢關鍵詞搜索向量搜索復雜的分析查詢 高性能高性能 多場景多場景高吞吐/零延遲支持 UPSERT/MERGE/UPDATE
9、 JOIN支持輸出更新的數據高性能導入 COPY FROM高性能導出 COPY TOCDC交互式增刪改交互式增刪改導入導出導入導出高性能高性能數據操作數據操作高性能分布式高性能分布式事務事務支持完整 ACID 語意支持多語句事務支持對話式事務高吞吐低延遲分布式事務分布式事務兼容兼容 PostgreSQL PostgreSQL 生態生態QuickBI驅動、框架、工具、文檔、擴展驅動、框架、工具、文檔、擴展DBeaverGormMybatisSQLAlchemyDBTpgAdmin負載均衡負載均衡Unit 1 WarebaseWarebase B BUnit 2 WarebaseWarebase
10、A AUnit 1 不同業務的隔離不同業務的隔離WarebaseWarebase A AUnit 1 同一個業務軟隔離同一個業務軟隔離同一個業務的硬隔離同一個業務的硬隔離Unit 1 WarebaseWarebase A AUnit 2 Unit 1 WarebaseWarebase A A Unit 2 自適應自適應數據自動分片和均衡自適應建索引自適應編碼策略一階段事務查詢自動選擇存儲格式和索引查詢自動決定并發度自適應自適應 生成式AI加速企業私域數據智能化Pre-TrainedPre-TrainedFine-TuningFine-TuningRAGRAG 檢索增強生成-RAG5 5相關文檔
11、知識庫6 6提示+上下文LLMLLM2 28 87 7召回系統生成答案1 1問題WarebaseWarebase A A搜索4 43 3EmbeddingEmbeddingServiceService Omni SearchStructured DataStructured DataJSONJSONEmbeddingsEmbeddingsData Warebase Data Warebase NL2SQL SQL SQL NLNL LLM ServiceLLM ServiceEmbeddingEmbedding ServiceServiceData Warebase 挑戰極限,讓數據涌現智能正確正確性能性能實時實時體驗體驗更好的關系型數據庫更好的關系型數據庫 分布式事務 水平擴展 半結構化數據 向量數據更好的更好的 NoSQL NoSQL 數據庫數據庫 分布式事務 表達所有關系 SQL 查詢語言 生態工具更好的數倉更好的數倉 高性能插入和更新 數據強一致 數據無延遲更好的向量數據庫更好的向量數據庫 數據強一致 數據無延遲 數據關聯更好的更好的搜索引擎搜索引擎 語義搜索 數據強一致 數據無延遲