《向量數據庫-AI時代的基礎設施- 李成龍.pdf》由會員分享,可在線閱讀,更多相關《向量數據庫-AI時代的基礎設施- 李成龍.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、https:/nebula-向量數據庫AI時代的基礎設施李成龍01Zilliz 和 Milvus 簡介Zilliz向量數據庫的開拓者和全球領先者作為全球最受歡迎的開源向量數據庫 Milvus 的創造者,Zilliz 提供面向 AI 應用的新一代數據庫技術,幫助企業便捷開發 AI 應用。以 AI 民主化為使命,Zilliz 致力于簡化 AI 數據管理基 礎設施,通過向量數據庫賦能更多企業。2017創始于$113 M融資總額130+員工Forrester Wave向量數據庫報告:Zilliz 獲評領導者象限最高分https:/ 10,000 家企業用戶共同打磨 5 年,是全球范圍內最成熟的分布式向
2、量數據庫Enterprise users10K+stars30Kdocker pulls66mforks2.8k用戶生態02向量數據庫基本知識為什么需要向量檢索-關鍵詞檢索丟失上下文,語意和用戶意圖VS蘋果面包更換輪胎面包吐司VSVS什么是向量數據庫向量數據是什么“向量數據”:向量數據是由多個數值組成的序列,一個向量的模長和方向都包含了信息量。圖像,文本,語音,視頻都可以通過深度學習提取向量進行語意學習向量數據庫是什么向量數據庫是專門用于存儲和查詢高維向量數據庫的數據庫系統向量數據使用方式提取插入索引搜索運算767 653Embedding+向量數據庫,處理非結構化數據的新范式ML Model
3、sPerformSearchUnstructured DataData ApplicationML ModelsVectorEmbeddingsStore in Vector Database向量數據庫面臨的挑戰維度!維度!維度!Less than 100%Accurate Matters數據實時性查詢本身越來越復雜,不僅僅是ANN海量向量數據的處理,擴展性分治解決隨著AI技術的發展,Embedding space本身的語意更加豐富03Milvus-全球領先的向量數據庫Milvus 設計理念復雜Schema支持靈活的部署模式云原生彈性擴展至100B向量存算分離,秒級擴縮容K8s原生架構,無狀態
4、支持筆記本邊端一鍵安裝開源自運維,云免運維一套API,滿足不同場景支持Dense,Sparse,Binary向量支持復雜標量和對應索引支持Hybrid Search,Group By,多租戶為云而生的向量數據庫Coordinator ServiceRootQueryDataIndexSDK&APIMeta StorageetcdCONTROL SIGNALNOTIFICATIONAccess LayerProxyMessage StorageLog BrokerWorker NodeQuery NodeData NodeIndex NodeObject StorageLocal File Sy
5、tem/Minio/S3/Azure BlobLog SnapshotData FileIndex fileDefinitions&ControlInsertSearchDATADATA向量查詢能力TOP-K 近似查詢RANGE 近似查詢表達式過濾與近似查詢混合按表達式過濾按主鍵查詢Milvus 2.0-核心能力動態Schema豐富的數據類型支持百萬級用戶多租戶能力支持Float,Binary等多種向量數據即增即查,實時落盤支持修改和刪除標簽+向量存儲獨家過濾性能優化基于磁盤的ANN索引MMap存儲GPU支持Intel+ARM Cpu支持支持數據離線倒入支持索引池化混合查詢關鍵詞+向量檢索RB
6、AC支持TLS,數據加密擴展能力從 6500萬 向量水平擴展至 10億 向量,系統查詢延遲與查詢吞吐基本保持穩定03Zilliz Cloud-向量數據庫即服務Zilliz Cloud-全托管免運維的向量服務 支持主流云廠商 三機房可用,SLA 99.95%支持Serverless,Dedicated Cluster,BYOC多種部署模式 完善的監控,報警,企業級能力 支持非結構化數據處理Pipeline 安全合規,完成SOC2,ISO27001,HIPAA,GDPR認證Cardinal Zilliz Cloud 高性能向量檢索引擎極速向量搜索Zilliz自研索引結構,充分利用SIMD指令級進行
7、加速。AUTOINDEX根據數據集和硬件特性動態選擇最佳搜索策略和量化算法,以實現最佳性能分層存儲可以支持內存中,本地磁盤和遠程存儲等多種存儲類型AUTOINDEXAlgorithmCalculationIndexBuilderIndexSearcherIndex StructureCalculatorQuantizerRefinerStorageZilliz 向量數據庫生態體系AUTOINDEXAlgorithmStorageHardwareInfrastructureLLMsSoftware InfrastructureEmbedding ModelsFrameworkVector Dat
8、abase04應用案例基于 Milvus 向量數據庫構建您的 AI 應用檢索增強生成應用(RAG)通過將外部數據源整合到大型語言模型(LLM)和 AI 應用程序中來擴展 LLM 的知識。將用戶行為或內容特征與其他相似的進行匹配,以提供有效的推薦。推薦系統在大量自然語言文檔中搜索語義相似的文本。文本/語義搜索圖像相似性搜索從大量圖像庫中識別并搜索視覺上相似的圖像或對象。視頻相似性搜索從大量視頻庫中搜索相似的視頻、場景或對象。音頻相似性搜索在大型數據集中查找相似的音頻,用于流派分類或語音識別等任務。分子相似性搜索搜索特定分子的相似子結構、超結構和其他結構。異常檢測檢測顯著偏離常規模式的數據點、事件
9、和觀察結果。自動駕駛數據準備海量樣本數據存儲、高效檢索,精準匹配,優化決策與導航。知識庫系統基于 Milvus 的 VOC 評論分析流程1.建立用來判斷評論的標簽庫:在向量數據里面存儲的表結構包括評論文本、評論的 embedding、評論的正負情感標簽等等。2.選擇待分析的商品類目:在上萬個類目的商品中選擇感興趣的品類作為后續進行評論分析的對象。3.選擇待分析的商品類目:選擇上一步中品類的數萬條評論(包含正負評論、意思相近的評論)輸入給大模型,讓 GPT-4 對每個評論進行標簽,將這些標簽而后進行聚類后生成標簽的樣本庫。4.用向量數據庫做分類打標:在將生成的標簽樣本輸出給向量數據庫里進行該類目
10、商品的全部評論 embedding數據的檢索,結合向量數據庫來進行分類,判斷這些評論的正負情感。5.生成結構化的統計報表:基于向量數據庫的分類情況,進行用戶對該商品屬性的情感、正負向的分析,然后生成報表。大模型+Milvus 長尾樣本挖掘 利用視覺大模型 LVM(Large Vision Model)進行特征特征提取實現了大貨車&異型車細分類檢索能力 進一步利用多模態大模型 LMM(Large Multimodal Models)Embedding模型實現任意場景文字to圖片的模糊語義搜索 采用 Milvus 的高度橫向擴展能力,實現十億、百億級別向量高速檢索方案基本原理 完成180TB視頻數據入庫 交付約120幀有效數據,并完成人工標注 準確率高、樣本分布均勻:高速異形工程車0.7分以上相似圖準確率80%,數據分布在100城市/20場景 成本對比:當找圖規模擴大后,相比與人工檢索方式邊際成本明顯降低效果及優勢GitHub:vesoft-inc/nebulaTwitter:NebulaGraphFacebook:NebulaGraph微信公眾號開源項目https:/nebula-https:/nebula-https:/discuss.nebula-感謝觀看