《AI 時代的多模數據庫:ArcNeural.pdf》由會員分享,可在線閱讀,更多相關《AI 時代的多模數據庫:ArcNeural.pdf(22頁珍藏版)》請在三個皮匠報告上搜索。
1、ArcNeuralAI時代的多模數據庫陳輝 楓清科技(Fabarta)技術專家自 主 創 新 引 領大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會Fabarta與ArcNeural概覽ArcNeural實踐與應用ArcNeural架構與實現總結與展望:AI時代的基礎設施01020304目 錄Contents大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大
2、數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會Fabarta與ArcNeural概覽Chapter 01大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會團隊歷程愿景產品創始團隊來自于阿里、IBM、百度、Microsoft 以及 SAP 等世界知名公司,對云原生,分布式數據庫、AI等領域有深刻理解。團隊創始人曾擔任大型跨國公司中國研究院院長和本土互聯網巨頭大數據與人工智能技術、產品和
3、商業化負責人,帶領400+團隊,實現全球數億美金的軟件營收,具有將前沿技術與商業成功結合的卓越能力。Fabarta 成立于2021年,公司成立之初就得到眾多頭部資本的睞,并獲得近億元天使輪融資。在 2022 年底又獲得億元頭部人幣基金的 Pre-A 輪融資。目前擁有近百人的團隊規模,在北京、杭州、上海、寧波和西安設有研發辦公室?!皵德撌澜?,智見未來”,Fabarta 定位于AI 基礎設施公司,致力于通過探索和聯結數據資源,助力企業實現智能驅動的持續創新?;趯Υ竽P蜁r代 AI 應用落地范式的理解,結合當前服務的多家大型頭部金融、制造業等客戶的業務痛點和需求,提出了“一體兩翼”的產品矩陣。一體指
4、的是 ArcNerual多模態智能引擎,兩翼則分別指代數據與AI。產品推出后獲得多個獎項及客戶好評。Fabarta 資深技術專家,目前專注于 AI 時代的多模數據庫引擎 ArcNeural 的研發。曾在騰訊從事騰訊云原生數據庫 CynosDB(TDSQL-C)的研發。在百度設計并帶領團隊從 0 到 1 開發百度云原生數據庫 GaiaDB 存儲層。在 IBM 期間,參與 DB2 share-disk 集群 pureScale 和 HADR 等項目的開發。ABOUT US關于我大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大
5、數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會數據技術演進1970 之前大數據時代智能時代數據分析期 磁帶 磁盤 關系數據庫1970 1990199020102010 現在 數據倉庫 數據挖掘 數據可視化 云計算 分布式系統 分布式計算 機器學習和深度學習 大模型數據收集期大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會企業智能中的 Large Model與Knowledge Kn
6、owledge Data Large ModelPublic DataPrivate DataFinetunePretrainEnterpise DataETLHTAPStreamSearchUserInteractivePrompt Engineering優勢:語言意圖理解智能內容生成挑戰:知識更新高成本、低時效幻覺問題不可控,隱私安全泄漏優勢:低成本高能效的數據訪問數據管理準確、實時、安全挑戰:缺乏數據洞察能力缺乏語義關系理解大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員
7、會大數據技術標準推進委員會大數據技術標準推進委員會云服務IDC/容器國產軟硬件AI大模型金融風控智能對話智能營銷企業服務應用側模型工廠低代碼應用構建LLM Ops數據血緣數據盤點數據治理及服務ArcFabric多模態數據編織平臺ArcPilot企業智能分析平臺架構上存算分離、功能上存查算一體:數據統一檢索、資源統一調度、模型統一服務企業知識中臺ArcNeural 多模態智能引擎多模態融合存儲多模態計算模型微調推理加速GNNGPU調度ArcGraphArcVector基礎設施產品體系圖計算企業智能決策構建AI時代的基礎設施Fabarta“一體兩翼”產品矩陣1考慮到企業基礎設施仍然在不斷演進,在引
8、擎層全面支持各類基礎設施類型。2確保企業在數字化過程中積累下來的大量多模態數據資產變得Ready For AI。企業中所有數據的資產顯式關系,隱式關系,以及所有數據資產特征抽象都需要融合在統一的數據存儲當中,憑此繪制一張真正的企業數據資產的龐大導航地圖,這樣才能真正把企業數據資產為己所用,為 AI 所用。4一方面,我們認為“符號”+“概率”是實現可解釋人工智能的關鍵,所以我們從圖和向量入手。另一方面,要為人工智能的算法提供長效記憶體,把我們真正核心的數據使用前,使用中和使用后的數據真正能夠存儲和記憶下來,沉淀企業專有的、可重復使用的數據。3建立企業內部高質量數據與大模型之間的連接,通過低代碼化
9、的方式來快速構建場景化AI能力。大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會ArcNeural 架構與實現 Chapter 02大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會為什么以圖為基礎來構建多模態智能引擎原因及難點以圖為基礎來構建多模態智能引擎的范式轉
10、移:從存儲&計算到記憶與推理符號與概率大數據疊加數據耦合數據的不規則與多模態實時更新從大數據到智能化,對與數據的關注點發生了本質的變化,更加關注對全部數據的理解。圖與關系數據庫不同,不僅不強調數據的本地性與局部性,而是強化了關系、變化?,F實世界數據豐富多樣,要利用好數據,必須接納數據這些特性。實時更新的不僅是數據,還有數據之間的關系,這些關系也必須得到實時處理。ArcNerual大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會多
11、模態智能引擎 ArcNeural概覽ArcNeural TP GroupArcNeural AP GroupTP Partition PrimaryCypher Ext ParserOptimizer Session ManagementPlan Parallel ExecutorArcGraph EngineTopo Cache Memory map Partition locate Delta updateProperties Cache LRU evict Index build Delta updateWAL Raft LogLeaderLogLogLogDistributed Sha
12、red StorageTransactionPipelineCoordResultCacheBlock1Block2Block3PipelinePipelineWorker1 PipelineOP1OP2QueueOP3Stat MachineWorker2 PipelineQueueOP2OP1OP3Stat Machine Share Read/Single Write Cloud Native Infra High Throughput/Low costPagePageLogTP PartitionSecondaryRaft LogFollowerLogLogMemEngineApply
13、QueryEngineLogLogPagePagePageAP NodeAnalytics AlgorithmsLearning AlgorithmsfragmentPull SubDataAP NodeTP PartitionSecondaryAP NodeAP NodeCoordinatorMeta StoragePageArcVector EngineVector IndexesStorageGraphIDGraphIDGraphIDGraphIDHNSW BuilderServerlessResource Manager AP NodeLogAsync CheckpointPipeli
14、ne多模引擎圖&向量GraphHTAP云原生與多樣化存儲LoadLoadCall(AP Job)大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會多模態智能引擎 ArcNeural 存儲Mem EngineStorage Pool內存同步寫入本地日志并更新內存,低延遲高吞吐。不依賴底層存儲能力即可實現上層事務功能。異步checkpoint,并Merge Delta。解耦遠端存儲架構模式,降低性能依賴TOPO索引 常駐內存 結構緊湊
15、排列 反向邊索引屬性緩存 LRU置換 屬性索引臟頁管理 Delta Update CPU Cache優化 無鎖并發事務管理 MVCC 分布式事務向量HNSW索引 批量構建 復用圖索引Log as DatabaseWrite Ahead LogRaft本地存儲 Log Buffer Group Commit LSN管理 Leader選舉多副本高可靠 Sync Thread模式3:分布式存儲池模式1:KV存儲模式2:敏捷部署共享塊存儲對象存儲遠端存儲存儲適配器:抽象多種存儲模式數據訪問接口 圖轉換為KV Page存儲 可適配主流分布式KV存儲引擎 KV存儲引擎保障數據可靠性Page共享存儲 Raf
16、t高可用/單機本地 多副本可讀擴展 存儲Serverless低成本高性能原圖存儲Vertex PageV_IDV_TYPEE_TYPEEdge PageN+1P_V_2.E_1E_2.NP_V_n本地磁盤Edge Page大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會多模態智能引擎ArcNeuralGraph HTAPArcGraphTP引擎TP分布式并行執行器HTAP查詢計劃TP查詢計劃子圖:內存中間結果MemEngineT
17、P:低延時高并發Create:CREATE(:Person name:Alice,company:Fabarta)CREATE(alice)-:likes-(bob)Query:MATCH(a:Person)-:likes-(b:Person)WHERE pany=Fabarta RETURN a,b;AP:離線超復雜計算Data:CSV,TXT,HDFS etc.Query:Call graph_matching(graph,edge_csv_path,vertex_csv_path)YIELD*return sub_graph_listHTAP:實時復雜計算Query:MATCH(a:Pe
18、rson)-:likes-(b:Person)WHERE pany=Fabarta Call pagerank(n)-e-(b),0.85,10)YIELD*return id,result;Graph FlowAP引擎AP執行器PIE計算模型算法庫CSRPEvalGraph MemEngine for Graph ComputingVertex with Re-arranged IDEdgewith CSC&CSRPartition RebalancerMessage with remote vertex-id indexWorkerComputing EngineMasterWorkerC
19、omputing EngineWorkerComputing EngineWorkerComputing EngineWorkerComputing EngineWorkerComputing EngineComputing EngineIncvalAssembleAP引擎 高性能圖計算內存引擎 高性能網絡通信框架,高吞吐 開放性與兼容性,支持自定義算法HTAP架構 統一Cypher查詢語句與入口 數據實時可見全量/增量計算 TP/AP資源分離,獨立彈性支持混合負載大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術
20、標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會多模態智能引擎 ArcNeuralVector Column TypeArc HNSW Vector Index SIMD距離計算加速:4倍性能提速 支持屬性Filter:支持字段屬性過濾TopKCREATE VERTEX IF NOT EXISTS Movie(PRIMARY KEY vid INT(64),info JSON,content VECTOR(1536),VECTOR INDEX v_idx(content)HNSW)columnvaluevid0 x110111infotitle:“xxx”
21、,year:2023content0.9,1.1數據庫級管理:完善的CRUD與ACID大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會多模態數據查詢One QueryMATCH(m1:Movie)-:DIRECTED-(d:Director)(a:Actor)WHERE m1.embedding“0.9,0.4,0.1”0.9 AND jsonValue(m1.movie_info,$.release_year)=2023RET
22、URN d.name,jsonValue(m2.movie_info,$.title)AS title,a.name;大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會ArcNeural 2.1版本核心特性Vector國產化RustJsonTableACID分布式高效內存引擎多地多中心Raft多副本Graph彈性云原生多模態企業級數據管理多跳并行化短跳高吞吐GPU硬件加速企業級交付架構全面自主可控面向合作企業開源OnlineDDL
23、2023.9 v2.1 PoC Beta版發布2023.12 v2.1 正式版Release模塊化Blob大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會ArcNeural 實踐與應用Chapter 03大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會基于Faba
24、rta產品矩陣加速大模型時代AI新范式落地問答信息抽取文本分類大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會實踐:企業智能ITArc42Step 1:抓取企業信息元數據建模入圖Step 2:文本、圖片建立向量索引Step 3:利用LM語義理解,圖譜信息關系補全Step 1:問題理解與拆解Step 2:檢索“存儲層”相關性文檔Step 3:檢索“存儲層”相關性代碼Step 4:查找“文檔”/“代碼”的作者Step 5:加權統計,
25、返回結果ArcFabricArcNeuralArcPilot企業私域數據大模型(GLM2、ChatGPT etc.)ArcVector隱式關系ArcGraph顯式關系LM-QA 控制器查詢計劃生成DocsOrganizationCodeQuestionAnswer知識提取數據血緣數據集成元數據管理數據消費:智能洞察ArcNeural挖掘增強大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會總結與展望:AI時代的基礎設施Chapte
26、r 04大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會企業從數字化到智能化所需要的基礎設施Data Ready for AI:數據治理和資產服務AI Ready for Apps:模型+數據+場景Infrastructure Ready for AI:存算&記憶推理的數據基礎設施圖數據向量數據智能化數據治理智能化數據資產盤點智能化數據編織模型工廠LLM Ops低代碼應用構建企業知識中臺企業決策智能解決多模態數據存儲計算&面向大
27、模型時代的記憶和推理解決智能化治理多模態數據資產,面向 AI 模型和應用提供高質量數據服務的問題解決借助低代碼無代碼方式,平臺化快速落地大模型應用的問題大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會Data Centric LLMLLMsLLMs知識生成語義理解LLMs邏輯構造ArcNeuralMultimodal DatabaseArcGraphEngineArcVectorEngineMultimodal computin
28、gGraph Analysis GNN/KNNLLM AgentMemoryIntelligence企業知識模型推理ArcFabricArcPilot企業文檔交互數據CRM/ERP音視頻企業數據庫日志企業私有數據Data AssetCopilot ChatbotData Governance企業智能應用可解釋,可追溯自然語言知識更新數據私有化安全可控大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會THANKS感謝聆聽自 主 創 新 引 領大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會大數據技術標準推進委員會