1、湯雪Zilliz 高級產品經理向量數據庫出海實踐與展望2024 全球產品經理大會Zilliz Cloud 產品概述出海實踐及案例分享向量數據庫全球市場洞察未來展望Zilliz Cloud 產品概述Zilliz 向量數據庫的開拓者和全球領先者Milvus 全球最受歡迎的開源向量數據庫Milvus 最大的社區+最快迭代速度+最廣泛驗證全球最大的向量數據庫用戶與開發者社區最快的新特性迭代速度最廣泛的行業覆蓋最大規模的場景驗證傳統數據庫基于精確匹配搜索搭建語義理解錯誤 用戶意圖忽略上下文丟失向量數據庫典型搜索流程解析典型應用場景解析Zilliz 提供多種部署形式,滿足安全與合規要求Zilliz Clo
2、ud 助力企業構建云上全托管向量檢索服務 Zilliz Cloud 自研高性能搜索引擎 Cardinal通過在各種向量搜索應用中進行技術創新,Zilliz Cloud 相比 Milvus 增加了 50%容量和提升了 10 倍性能多種數據格式支持,并且可以處理內存中或內存映射數據根據數據集和硬件特性動態選擇最佳搜索策略,以實現最佳性能極速向量搜索 通過高級算法、內核優化和 CPU 指標分析注釋:以上性能測試中采用的配置為:Zilliz Cloud-8 CU 和 Milvus-16 c 64g CPU。均采用 HNSW 索引。全球服務覆蓋:5朵云,19個區Zilliz 出海實踐及案例分享出海策略:
3、PLG 和 SLG 雙輪驅動 發現:提高聲量,線上線下兩手抓TSEO 優化A生態集成LLM 上下游及主流開發者集成,如 llamaindex,langchain、Datadog 等,完成 53 個工具,12 家正在集成R開源社區運營聯合伙伴開展幾十場 Meetup,擴大北美開源影響力,招募布道師,布道宣講、運營 Discord,一線支持大企業客戶;招募社區大師輔助聲量提升I渠道運營在 Github、Stake overflow、G2 等平臺及時回答用戶問題,添加內部提醒;Product Hunt 打榜;提升 DB engine 排名等關鍵詞優化、補齊高質量內容、招募寫手;網頁結構及代碼優化、本
4、地SEO優化、建立高質量外鏈 激活:打造面向開發者友好的用戶旅程提供全面的文檔支持幾十種場景化 Demo 及完整代碼,方便開發者上手體驗;生態集成分步驟演示豐富場景化 Demo降低 Onboarding 摩擦產品能力細節、實現原理、技術限制、FAQ 等在文檔補全;優化文檔結構、API 及 SDK 易讀性去除問卷及不必要的個人注冊信息,支持 Github、Gmail 等第三方注冊,提供 Free Plan 及 Free Trial轉化:Leads自動化運營和及時引入銷售 了,X面用戶行為采集記錄網站流程與產品行為事件,深入了解用戶互動定義清晰用戶旅程明確每個關鍵事件,確保用戶體驗連貫流暢自動化
5、Leads 打分系統對關鍵事件進行評分,自動流轉用戶至不同旅程階段及時銷售介入在用戶進入SQL 階段時,立即通知銷售團隊,提高轉化率 擴張:建立需求反饋閉環和需求本地化1多渠道用戶支持體系建設Zendesk 工單系統、Milvus 微信群、Discord、全流程行為數據,大客戶貼身搜集、Doc Ask AI 等多渠道用戶支持體系搭建,及時獲取一線用戶需求2產品需求本地化深入了解市場差異,分析中美市場需求的不同,本地化產品設計,特別是在付款和賬單、產品售賣形態上,以適應不同市場的用戶習慣3產品能力內外部宣傳賦能通過手冊、博客和最佳實踐文檔,幫助用戶了解產品功能;為銷售、市場團隊提供深度培訓,確保
6、他們能夠有效推廣新功能向量數據庫全球應用場景xxShulex:Zilliz Cloud 打造 VOC 數字化加速Shulex 國際化 VOC SaaS公司,相繼推出 Shulex VOC評論分析、Shulex智能客服等一系列出海應用,致力為中國企業出海提供全方位VOC數字化解決方案,賦能品牌全球化運營,助力企業在海外市場百尺竿頭、更進一步。向量數據暴增:隨著業務的高速發展,僅在 VOC 評論分析業務上,Shulex 就訓練了 10,000 條以上電商類目的評論標簽,產生了上億規模的向量數據。搜索準確率要求高:目前Shulex VOC 智能客服業務每秒 有90 次的客戶詢問,Shulex 智能客
7、服機器人承擔 80%以上的客服工作。因此對搜索的準確性要求高。運維成本高:基于 Milvus 自建方案,費時費力,穩定性無法保障,運維成本非常高昂,出現故障會費時間長、客戶滿意度持續走低構建RAG應用:采用Zilliz Cloud+Amazon Bedrock 支持的大模型構建了 RAG 應用;大模型 RAG 應用VOC 智能問答系統文本搜索場景VOC評論分析向量數據庫是該業務場景的關鍵組件,基于 Zilliz Cloud 的 VOC 評論分析流程包含建庫、選品、分析樣本、全量打標、報表生成 5 個步驟。其中在建庫和全量打標兩個環節:標簽庫數據存儲:30%報表生成速度 0宕機 98%50%召回
8、率成本圖 1 基于 Zilliz Cloud 的 VOC 評論分析流程圖 2 基于 Zilliz Cloud 的 VOC 智能問答系統打造外接記憶體:除了自動提取公網鏈接,還將企業文件、郵件、工單等多渠道的知識 embedding 后存入 Zilliz Cloud 來構建企業專屬知識庫,為大模型增加外接記憶體。建立用來判斷評論的標簽庫:在向量數據里面存儲的表結構包括評論文本、評論的 embedding、評論的正負情感標簽等等;用向量數據庫替換大模型打標:將生成的標簽樣本輸出給向量數據庫里進行該類目商品的全部評論 embedding數據的檢索,結合向量數據庫來進行分類,判斷這些評論的正負情感;9
9、0 次/秒客戶問詢VOC評論分析 VOC評論分析 智慧樹:Zilliz Cloud 助力 AI 在線教育xx智慧樹不僅是一個在線教育平臺,通過提供直播、大學共享課、虛擬實驗課、社會實踐課等多種在線視頻類內容,為廣大用戶提供了一個豐富多樣的學習資源庫。同時,智慧樹還為學校機構、教師和學生提供了一系列的教育管理、教學和學習工具,極大地促進了教育資源的共享和優化配置。在教育行業深刻變革的當下,智慧樹一直致力于通過技術創新來提升教育質量和效率。業務穩定性差:部署的 Milvus 平均一個月左右會宕機一次,影響了線上業務。運維成本高:基于 Milvus 自建方案,費時費力,不僅穩定性無法保障,運維成本非
10、常高昂,出現故障會費時間長、客戶滿意度持續走低語義召回檢索推薦(用戶)文本相似性檢索題庫去重(教師)50%題庫管理效率 0宕機 72%50%知識圖譜構建時間語義召回響應速度圖 1 基于 Zilliz Cloud實現智慧樹大型學科圖譜實體對齊通過理解用戶的查詢意圖,Zilliz Cloud 能夠幫助智慧樹更準確地匹配用戶需求,提供更為相關和高質量的搜索結果,其召回響應速度比之前方案提升了大約 50%。高效地處理億萬級別的海量試題,避免數據冗余。通過 AI 算法,智慧樹將題目文本轉換為向量,再利用 Zilliz Cloud 進行相似度檢索,從而實現準確的試題去重。在2021年6月,智慧樹就在向量數
11、據庫選型時選擇了 Milvus,但是在實際生產中遇到了以下問題:百萬節點上千萬條邊級別的大型學科圖譜對齊:在構建知識圖譜的過程中,實體對齊是一個至關重要的步驟。智慧樹采用 Zilliz Cloud 進行實體屬性向量的持久化和相似度計算,有效地解決了大規模數據處理中的內存消耗問題(從上百G降低為32G),并提高了圖譜構建的效率(從原來的3天降低為20小時左右)。向量化持久化存儲+相似性計算圖譜實體對齊78%計算節點內存消耗向量數據庫全球市場洞察 向量數據庫 LandScope:原生 vs 非原生優勢 高精、高效的相似性搜索 大規模數據具備可擴展性 有效管理高維向量數據 專為向量設計的索引算法 豐
12、富的 SDK 接口和 API 生產就緒和生態集成劣勢 數據類型支持有限 缺乏 SQL 支持 Index 構建耗時 不適合頻繁創建、更新和刪除操作 計算資源需求高,性能和成本要取舍原生向量數據庫 vs 非原生2024 新趨勢:從快速驗證=生產就緒 2024 新趨勢:豐富語義,查詢準確性 更豐富的數據語義表示及檢索能力:多向量、BM25、稀疏向量、JSON2024 新趨勢:查詢準確性,豐富語義多向量列+混合搜索稀疏向量支持 分組聚合搜索 Before:每個 collecion 只支持一個向量列存儲和搜索After 原生支持多向量、多模態信息的存儲 Hybrid search 為搜索提供了更高的靈活
13、度,可以從更多息維度進行 召回+rerank釋放開發人力以專注于最重要的事情減少管理分布式 VectorDB 的運營負擔Before 僅支持基于 vector 維度的召回,一個 vector 對應一段文本 chunk,因此缺少全文視角After 通過 Group_by 按更高維度做聚合Before 只支持稠密向量After 在域外知識搜索性能、關鍵字感知和可解釋性方面均優于密集矢量模型 A hybrid search solution based on:Sparse+Dense 2024 新趨勢:極致的成本控制 90%10%小客戶:數量多,但絕大多數用戶非活躍典型場景:個人知識庫,情感機器人等
14、大客戶:數據多,但絕大多數數據非頻繁訪問典型場景:智能客服,企業內部文檔知識庫,互聯網內容檢索等 2024 新趨勢:極致的成本控制索引方式:HNSW,IVF,FLAT索引方式:DiskANN內存型向量數據庫綜合服務成本:15002500 每GB每年SSD型向量數據庫綜合服務成本:400750 每GB每年多層存儲:熱數據查詢性能接近內存型方案,冷數據成本接近文件存儲Zilliz Cloud 未來展望 保持開源技術領先,產品賦能 AI 應用創新拓展出海區域,如東南亞靈活的產品售賣形態擴展更多行業和場景深入海外一線商業化推出冷熱分層存儲豐富集群類型,滿足多樣化場景增強安全能力,表+行級 RBAC 支持原始數據 Data in Data out保持開源領先性,持續突破性能提升向量檢索易用性和準確度產品演進搭建本地化團隊和賦能數據化運營及工具建設流程化中美團隊協助搭建客戶成功體系,增強大客戶粘性組織建設