《2023向量數據庫市場空間及全球主流向量數據庫介紹報告.pdf》由會員分享,可在線閱讀,更多相關《2023向量數據庫市場空間及全球主流向量數據庫介紹報告.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、2023 年深度行業分析研究報告 2/31 目目 錄錄 1.向量數據庫是什么:存儲向量的數據庫向量數據庫是什么:存儲向量的數據庫.41.1.向量:AI 的核心.41.2.向量化:技術已經充分擴散.61.3.向量數據庫:專門用來存儲和查詢向量的數據庫.82.向量數據庫有什么用:給向量數據庫有什么用:給 AI 插上騰飛的翅膀插上騰飛的翅膀.112.1.拓展大模型的邊界:向量數據庫的核心應用.112.2.多模態搜索:向量數據庫的拿手好戲.122.3.近似搜索:給向量數據庫帶來巨大的商業化潛力.143.市場空間:向量數據庫五百億美元藍海市場待引爆市場空間:向量數據庫五百億美元藍海市場待引爆.164.全
2、球主流向量數據庫介紹全球主流向量數據庫介紹.204.1.Pinecone.20 4.2.Milvus.22 4.3.Vespa.24 4.4.Weaviate.24 4.5.Qdrant.26 5.國內二級市場相關標的國內二級市場相關標的.286.風險提示風險提示.29圖表目錄圖表目錄 圖圖 1:CNN 模型也是把圖像向量化之后進行處理模型也是把圖像向量化之后進行處理.5 圖圖 2:深度學習算法將萬物轉化為向量:深度學習算法將萬物轉化為向量.6 圖圖 3:部分向量化框架:部分向量化框架.7 圖圖 4:向量數據庫與其他非關系型數據庫的對比:向量數據庫與其他非關系型數據庫的對比.8 圖圖 5:向量
3、數據庫常見工作流程:向量數據庫常見工作流程.9 圖圖 6:向量搜索工作原理:向量搜索工作原理.9 圖圖 7:未來向量數據庫的技術棧:未來向量數據庫的技術棧.10 圖圖 8:OpenAI 泄露隱私數據泄露隱私數據.12 圖圖 9:使用向量數據庫用中文搜索英語圖書:使用向量數據庫用中文搜索英語圖書.13 圖圖 10:用俄語基于圖片理解來進行搜索(:用俄語基于圖片理解來進行搜索(“藍色的鞋子藍色的鞋子”).13 圖圖 11:傳統的關鍵詞搜索太表層:傳統的關鍵詞搜索太表層.15 圖圖 12:公司采用了成熟的:公司采用了成熟的 Mishards 中間件中間件.15 圖圖 13:2010-2025 年全球
4、創建、使用和存儲的數據量變化(年全球創建、使用和存儲的數據量變化(ZB).16 圖圖 14:2017-2026E 年全球數據庫市場規模變化(億美元)年全球數據庫市場規模變化(億美元).16 圖圖 15:2019 年關系型與非關系型數據庫用戶規模(年關系型與非關系型數據庫用戶規模(%).17 圖圖 16:2022 年關系型與非關系型數據庫市場份額(年關系型與非關系型數據庫市場份額(%).17 圖圖 17:2017-2022 年關系型及非關系型數據庫規模及增速(百萬美元,年關系型及非關系型數據庫規模及增速(百萬美元,%).17 圖圖 18:中國與全球數據產生量及占比(:中國與全球數據產生量及占比(
5、ZB,%).18 圖圖 19:中國與全球數據庫市場規模及占比(億美元,億元,:中國與全球數據庫市場規模及占比(億美元,億元,%).18 圖圖 20:中國數據庫市場規模及增速(億元,:中國數據庫市場規模及增速(億元,%).19 圖圖 22:Pinecone 向量數據庫結構向量數據庫結構.21 圖圖 21:Milvus 向量數據庫生態和社區布局向量數據庫生態和社區布局.22 圖圖 22:Milvus 向量數據庫架構向量數據庫架構.23 圖圖 23:Vespa 向量數據庫架構向量數據庫架構.24 圖圖 24:Weaviate 向量數據庫架構向量數據庫架構.25 圖圖 25:Qdrant 向量數據庫架
6、向量數據庫架構構.26 3/31 表表 1:全球向量數據庫信息匯總:全球向量數據庫信息匯總.20 表表 2:Pinecone 向量數據庫設置索引分步內容向量數據庫設置索引分步內容.21 表表 3:Pinecone 融資情況匯總融資情況匯總.22 表表 4:Zilliz 一級市場融資情況匯總一級市場融資情況匯總.24 表表 5:Weaviate 一級市場融資情況匯總一級市場融資情況匯總.26 表表 6:Qdrant 一一級市場融資情況匯總級市場融資情況匯總.27 4/31 1.向量數據庫向量數據庫是什么:存儲向量的數據庫是什么:存儲向量的數據庫 1.1.向量:AI 的核心 AI 的全流程其實都是
7、圍繞著向量的數學運算。的全流程其實都是圍繞著向量的數學運算。向量在人工智能(AI)中扮演著非常重要的角色,尤其在機器學習和深度學習領域。以下是向量與 AI 的一些關系(來自 OpenAI):1、數據表示:在機器學習和深度學習中,數據通常以向量形式表示。例如,圖像可以表示為像素值的向量,文本可以表示為詞向量或句子向量;2、詞嵌入:在自然語言處理(NLP)中,詞嵌入技術(如 Word2Vec,GloVe 和 BERT)將詞語轉換為多維向量,這有助于捕捉詞語之間的語義關系。這些向量表示可用于文本分類、情感分析、機器翻譯等任務;3、神經網絡權重:在深度學習中,神經網絡的權重和偏置通常以向量和矩陣的形式
8、存儲。在訓練過程中,優化算法(如梯度下降)會不斷更新這些權重向量,以最小化損失函數;4、向量運算:許多機器學習算法,如支持向量機(SVM)、K-近鄰(KNN)和主成分分析(PCA)等,都涉及到向量間的距離計算、內積計算或其他向量運算。這些運算有助于找到數據中的模式或者對數據進行分類;5、優化和梯度:在機器學習和深度學習中,優化算法(如梯度下降和 Adam)通常使用梯度(一種向量),來更新模型參數,從而找到損失函數的最小值。這有助于改進模型的性能;6、強化學習:在強化學習中,智能體使用向量表示狀態和動作。例如,Q 學習和深度 Q 網絡(DQN)中的 Q 值函數會輸出一個動作向量,智能體根據這個向
9、量選擇最佳動作??傊?,向量對于 AI 至關重要。無論是之前的 CNN、RNN 模型還是當前火熱的Transformer,內部的數據流轉其實都是向量的處理和變化。而高維空間向量所隱含的海量信息也造就了 AI 應用的非凡潛力。5/31 圖圖 1:CNN 模型模型也是把圖像向量化之后進行處理也是把圖像向量化之后進行處理 數據來源:ImageNet,東北證券 單就數據而言,只有向量化之后的數據才能被單就數據而言,只有向量化之后的數據才能被 AI 模型所分析。模型所分析。數據能夠被分類為結構化數據和非結構化數據,其中,結構化數據結構化數據一般指可以使用關系型數據庫表示和存儲、可以用二維表來邏輯表達實現的
10、數據,典型的結構化數據例如成績單、工資單等;非結構化數據非結構化數據沒有固定的結構,包括文本、圖像、蛋白質結構、地理空間信息和物聯網數據流等。在人工智能時代,目前主流的對非結構化數據進行管理和目前主流的對非結構化數據進行管理和處理的方法是,利用處理的方法是,利用 RNN 或或 Transformer 等嵌入模型(等嵌入模型(Embedding Model),將非),將非結構化數據的語義內容轉化為高維、密集的向量嵌入結構化數據的語義內容轉化為高維、密集的向量嵌入(Vector Embeddings),即多維向量,并直接對這些嵌入進行存儲、處理。非結構化數據轉化為嵌入后,其語義的相似性能夠通過向量
11、空間點的距離進行量化表示,并進行常見的機器學習操作,如聚類、分類、推薦等。6/31 圖圖 2:深度學習算法將萬物轉化為向量:深度學習算法將萬物轉化為向量 數據來源:Pinecone 官網,東北證券 1.2.向量化:技術已經充分擴散 向量化技術已經十分成熟,并且存在大量的開源解決方案。向量化技術已經十分成熟,并且存在大量的開源解決方案。盡管向量化這個詞對于大多數普通民眾而言較為陌生,但實際該技術早已成熟(目前大量應用的 Word2Vec發表在 2013 年),在不同的領域,存在不同的向量化的方案。需要注意的是,不同的領域,如文字、圖片、視頻等,向量化的技術是不同的。這些技術可以是諸如OpenAI
12、 等大模型廠商提供,也可以是諸如 Hugging Face 等中間層提供,當然還有大量第三方廠商/開源提供。7/31 圖圖 3:部分向量化框架部分向量化框架 數據來源:東北證券 以下是一個向量化的例子。以下是一個向量化的例子。例如,對于“我喜歡吃蘋果”這句話的向量化,我們可以為每個不同的詞語分配一個唯一的數字 ID。以下是一個可能的映射關系:我:1 喜歡:2 吃:3 蘋果:4 接下來,我們可以用這些數字 ID 來表示每個句子。例如,句子“我喜歡吃蘋果”可以表示為向量1,2,3,4。這樣,我們就可以將這些向量輸入到機器學習模型中進行訓練和預測。然而,這種方法存在一些問題。例如,這些向量并沒有捕捉
13、到詞語這些向量并沒有捕捉到詞語之間的語義關系之間的語義關系。為了解決這個問題,我們可以使用詞嵌入技術,如 Word2Vec 或GloVe。這些方法會將每個詞語表示為一個固定長度的向量(如 50 維),這些向量可以捕捉詞語之間的相似性。例如,我們可能得到以下的詞向量:我:0.1,0.3,-0.2,.,-0.1 喜歡:-0.3,0.5,0.2,.,0.4 吃:0.4,-0.1,0.2,.,-0.3 蘋果:-0.5,0.2,0.1,.,0.3 這些詞向量可以通過訓練預先處理大量文本數據得到。然后,我們可以將句子中的每個詞替換為對應的詞向量,從而得到一個向量化表示的句子。向量化數據有著高昂的向量化數據
14、有著高昂的計算計算成本成本,因此尋求存儲,因此尋求存儲成本成本替代是必須的替代是必須的。向量化數據的計算成本主要來自數據預處理、特征提取和向量化表示的生成。這些過程通常涉及大量復雜數學運算,如矩陣乘法、特征變換和統計計算等。在處理大規模數據集和高維數據時,這些運算可能會消耗大量的計算資源和時間。此外,許多機器學習和深度學習算法都需要對向量化數據進行復雜的計算,如梯度下降、聚類和神經網絡訓練。這些計算任務通常需要強大的硬件支持,如高性能 CPU 和 GPU,以及專用 8/31 的深度學習加速器。相比之下,存儲成本主要受向量化數據的規模和維度影響。雖然高維向量和大規模數據集確實會導致存儲需求的增加
15、,但存儲技術的不斷發展使得存儲成本相對較低。例如,現代硬盤和固態硬盤的存儲容量越來越大,同時價格也逐漸降低。此外,通過使用稀疏向量表示和數據壓縮技術,我們可以進一步降低存儲成本。更重要的是,隨著云計算技術的普及,企業和個人用戶可以按需購買存儲空間,使得存儲成本變得更加可承受。相比之下,計算資源的按需購買通常價格較高,尤其是在需要強大計算能力的場景中。綜上所述,向量化數據所需的計算成本遠高于存儲成本。這主要是因為計算任務通常涉及大量復雜數學運算,而存儲成本可以通過優化技術和云計算服務得到有效控制。1.3.向量數據庫:專門用來存儲和查詢向量的數據庫 向量數據庫向量數據庫是專門用來存儲是專門用來存儲
16、和查詢和查詢向量的向量的數據庫數據庫。向量數據庫是一種專門用于存儲、管理、查詢、檢索向量向量(Vectors)的數據庫,主要應用于人工智能、機器學習、數據挖掘等領域。同傳統數據庫相比,向量數據庫不僅能夠完成基本的 CRUD(添加、讀取查詢、更新、刪除)、元數據過濾、水平縮放等操作,還能夠對向量數據進行能夠對向量數據進行更快速的相似性搜索更快速的相似性搜索。目前 AI 主流的大模型如 Transformer、Clip、GPT 等均能夠將文本、圖像等非結構化數據轉化為高維向量,而伴隨大模型應用場景的擴展,這些高維向量數據的存儲、檢索將顯著帶動向量數據庫的市場需求。圖圖 4:向量數據庫與其他:向量數
17、據庫與其他非關系型數據庫的對比非關系型數據庫的對比 數據來源:Pinecone,東北證券 向量數據庫的工作流程包括以下步驟:1、向量數據的存儲:向量數據的存儲:向量數據通常是高維的數值型數據,如圖像特征向量、文本詞向量等;向量數據庫使用基于向量的存儲結構,以便快速查詢和處理;2、向量索引:向量索引:向量數據庫使用 PQ、LSH 或 HNSW 等算法為向量編制索引,并將向量映射到數據結構,以便更快地進行搜索;3、向量查詢:向量查詢:向量數據庫將查詢向量與數據庫中的向量進行比較,從而找到最近鄰的向量;4、查詢結果的返回:查詢結果的返回:向量數據庫返回查詢結果,通常包括與給定向量最相似的向量列表、向
18、量之間的相似度得分等信息;該環節可以使用不同的相似性度量對最近鄰重新排序。9/31 圖圖 5:向量數據庫常見工作流程:向量數據庫常見工作流程 數據來源:Pinecone,東北證券 向量數據庫向量數據庫能夠通過能夠通過向量向量搜索搜索(Vector Search),實現更為高效、準確的執行和結),實現更為高效、準確的執行和結果輸出。果輸出。當前主流的數據庫檢索采用關鍵詞搜索(Keyword Search)的方式,將搜索關鍵詞與數據庫中的值進行匹配,根據詞匯相似性、單詞出現的頻率,得到輸出結果。關鍵詞檢索的缺點在于,其對于語義相同、表達方式不同的文本理解能力較差,且不具備多模態或多語言的檢索能力。
19、向量搜索向量搜索利用神經網絡模型,將對象(如文本和圖像)和查詢表示為高維向量,采用采用 K 近鄰法(近鄰法(KNN,K-Nearest Neighbor)或或近似臨近算法(近似臨近算法(ANN,Approximate Nearing Neighbor),計算目標對象與數據庫,計算目標對象與數據庫中中向量嵌入的向量嵌入的距離(通常采用余弦距離、歐氏距離等方法)以表示兩者的相似度距離(通常采用余弦距離、歐氏距離等方法)以表示兩者的相似度,并按照向量的相似度進行排序,返回結果。同關鍵詞搜索相比,向量搜索能夠實現對語義更為精準的理解,在多模態、不同語言等環境下能夠輸出更為準確的結果。例如:英文的例如:
20、英文的 Capital 可以指“可以指“資本資本”或者“首都”,“從中國去美國”和“從美國或者“首都”,“從中國去美國”和“從美國去中國”存在方向,去中國”存在方向,傳統的數據庫不能很好地解決這些問題。傳統的數據庫不能很好地解決這些問題。圖圖 6:向量搜索工作原理:向量搜索工作原理 數據來源:Elastic,東北證券 向量數據庫的主要特點和優勢包括:向量數據庫的主要特點和優勢包括:1、高效的相似性搜索:向量數據庫通過優化的索引結構和查詢算法,能夠在大規模向量數據集中快速地找到與給定查詢向量相似的向量。這有助于實現實時或近實時的搜索和推薦功能;10/31 2、靈活的向量表示:向量數據庫通常支持各
21、種向量表示方法,包括稠密向量(如詞嵌入)和稀疏向量(如詞袋模型和 TF-IDF)。這使得向量數據庫可以處理各種類型的數據,如文本、圖像、音頻和視頻等;3、可擴展性:向量數據庫通常具有良好的可擴展性,可以在多個計算節點上分布式存儲和查詢向量數據。這使得向量數據庫可以應對大規模數據集和高并發查詢的需求;4、高級查詢功能:向量數據庫通常提供豐富的查詢功能,如相似性搜索、近似最近鄰查詢、向量加權查詢等。這使得向量數據庫在各種應用場景中具有較高的靈活性和實用性。圖圖 7:未來向量數據庫的技術棧未來向量數據庫的技術棧 數據來源:Pinecone,東北證券 11/31 2.向量數據庫有什么用:向量數據庫有什
22、么用:給給 AI 插上騰飛的翅膀插上騰飛的翅膀 2.1.拓展大模型的邊界:向量數據庫的核心應用 向量數據庫一個很重要的功能是拓展大模型的邊界。邊界又分為時間邊界和空間邊向量數據庫一個很重要的功能是拓展大模型的邊界。邊界又分為時間邊界和空間邊界。界。時間邊界的擴展指的是時間邊界的擴展指的是向量數據庫能夠使得大模型向量數據庫能夠使得大模型 LLM 擁有“長期記憶”擁有“長期記憶”。眾所周知,目前的大模型(無論是 NLP 領域的 GPT 系列還是 CV 領域的 ResNET 系列)都是預先訓練 Pretrain 的大模型,有著非常明晰的訓練截止日 Cut-off Date。這導致這些模型對于訓練截止
23、日之后發生的事情一無所知。而信息的價值隨著時間的流逝呈現出指數級下降,這也使得 LLM 在很多場景的適用性有限。隨著向量數據庫的引入,其內部存儲的最新的信息向量能夠極大地拓展大模型的應用邊界。向量數據向量數據庫可以使得大模型保持準實時性,提高大模型的適用性,并使得大模型能夠動態調庫可以使得大模型保持準實時性,提高大模型的適用性,并使得大模型能夠動態調整。整。也就是說,也就是說,向量數據庫使得向量數據庫使得大模型的長期記憶得到了可能大模型的長期記憶得到了可能。例如,假設一個預訓練的新聞摘要模型在 2021 年底完成了訓練。然而,到了 2023年,許多新聞事件和趨勢已經發生了變化。為了使大模型能夠
24、處理這些新信息,可以使用向量數據庫來存儲和查詢 2023 年的新聞文章向量。通過這種方式,大模型可以根據最新的數據生成更準確和相關的摘要。同樣,在推薦系統中,預訓練的大模型可能無法識別新用戶和新產品的特征。通過向量數據庫,可以實時更新用戶和產品的特征向量,從而使大模型能夠根據最新的信息為用戶提供更精準的推薦。此外,向量數據庫還可以支持實時監測和分析。例如,在金融領域,預訓練的股票預測模型可能無法獲取訓練截止日期之后的股票價格信息。通過將最新的股票價格向量存儲在向量數據庫中,大模型可以實時分析和預測未來股票價格走勢。還有就是在客服領域,向量數據庫將使得大模型可以追溯到對話的開始??臻g邊界的擴展空
25、間邊界的擴展指的是向量數據庫指的是向量數據庫能夠能夠協助協助解決目前企業界最擔憂的大模型泄露解決目前企業界最擔憂的大模型泄露隱私的問題。隱私的問題。用戶給出的 Prompt 可能會包含一些敏感信息。根據媒體報道,員工 A用 ChatGPT 幫自己查一段代碼的 bug,而這段源代碼與半導體設備測量數據有關;員工 B 想用 ChatGPT 幫自己優化一段代碼,就直接將與產量和良品率記錄設備相關的一段代碼輸入了其中;員工 C 則先用 AI 語音助手 Naver Clova 將自己的會議錄音轉成文字,再用 ChatGPT 幫他總結一下會議內容,做成摘要。這些行為直接導致了三星關鍵數據的泄露。而 Cha
26、tGPT 本身其實也出現過隱私泄露事件,使得有一小部分的對話歷史/支付數據會被其他用戶查看。這些數據都極為敏感。通過本地部署,通過本地部署,向量數據庫能夠在很大程度上解決這個問題。向量數據庫能夠在很大程度上解決這個問題。向量數據庫本地部署后可以存儲企業有關的大量隱私數據。在本地部署或者專有云部署大模型后,通過特別的 Agent 大模型可以在有保護的情況下訪問向量數據庫的隱私數據,進而可以在不向外網暴露公司的隱私的情況下,使得公司的業務得到大模型的助力。12/31 圖圖 8:OpenAI 泄露隱私數據泄露隱私數據 數據來源:東北證券 2.2.多模態搜索:向量數據庫的拿手好戲 向量數據庫自帶多模態
27、功能,這意味著它能夠通過機器學習方法處理和理解來自不向量數據庫自帶多模態功能,這意味著它能夠通過機器學習方法處理和理解來自不同源的多種模態信息,如文本、圖像、音頻和視頻等。數據向量化過程使得這些不同源的多種模態信息,如文本、圖像、音頻和視頻等。數據向量化過程使得這些不同模態數據的內部隱藏信息得以暴露同模態數據的內部隱藏信息得以暴露,進而為多模態應用提供支持。一個典型的應用場景是多語言搜索。向量數據庫支持跨語言的信息檢索,用戶可以使用英語、法語、中文等多種語言搜索圖書庫,而無需事先對書名進行多語言翻譯處理。這得益于向量表示能夠捕捉到語義相似性,使得來自不同語言的查詢和內容能夠相互匹配。此外,向量
28、數據庫還可以實現跨模態搜索,例如讓用戶用文字來搜索圖片。假設用戶用俄文搜索“藍色的鞋子”,盡管商品的標題和描述都是英語,但向量數據庫仍然能夠返回顏色為藍色的鞋子商品的結果。這是因為向量數據庫能夠識別出不同模態數據之間的語義關聯,進而實現跨模態的信息檢索。13/31 圖圖 9:使用向量數據庫用中文搜索英語圖書使用向量數據庫用中文搜索英語圖書 數據來源:東北證券 圖圖 10:用俄語基于圖片理解來進行搜索(“藍色的鞋子”)用俄語基于圖片理解來進行搜索(“藍色的鞋子”)數據來源:東北證券 14/31 2.3.近似搜索:給向量數據庫帶來巨大的商業化潛力 即使不考慮需要即使不考慮需要 LLM 支持的邊界拓
29、展型應用和多模態搜索,近似搜索功能就可以支持的邊界拓展型應用和多模態搜索,近似搜索功能就可以給向量數據庫帶來巨大的商業化潛力。給向量數據庫帶來巨大的商業化潛力。向量數據庫的近似搜索(Approximate Nearest Neighbor Search,簡稱 ANNS)是一種在高維數據中查找與給定查詢向量相似的項的搜索方法。這種搜索方法的目標是找到距離查詢向量最近的數據點,即“最近鄰”。在向量數據庫中,數據經過向量化處理后,每個數據點都會被表示為高維空間中的一個向量。當我們需要查找與某個查詢向量相似的數據點時,近似搜索算法會在這個高維空間中快速定位到與查詢向量距離較近的數據點。這種相似性度量通
30、?;谙蛄恐g的距離(如歐氏距離、余弦相似性等)。由于在高維空間中進行精確的最近鄰搜索非常耗時,所以通常采用近似方法來加速搜索過程。近似搜索主要依賴于一些特定的算法和數據結構,如 Locality-Sensitive Hashing(LSH)、Hierarchical Navigable Small World(HNSW)、Annoy 等。這些算法和數據結構能夠在犧牲一定精度的前提下顯著加速搜索速度,從而實現在大規模高維數據中的高效查找。近似搜索有著巨大的商業化潛力:1、推薦系統:通過利用近似搜索功能,向量數據庫可以幫助推薦系統為用戶提供更精準、更個性化的內容推薦。這可以顯著提高用戶滿意度和使
31、用時長,進而提升商業價值;2、文本挖掘:在自然語言處理領域,向量數據庫的近似搜索功能可以幫助快速檢索相關文檔、發現隱含的話題和關鍵信息。這對于新聞分析、競爭情報、法律(特別是判例法)和市場研究等領域具有顯著的商業價值;3、圖像檢索:向量數據庫可以運用近似搜索功能在海量圖像庫中快速查找與給定圖像相似的圖像,這對于廣告、設計、版權等領域具有重要應用價值。通過快速、準確地找到相關圖像,企業可以降低成本、提高工作效率;4、語音識別和處理:近似搜索功能可以應用于語音識別和處理領域,幫助企業在語音數據庫中快速匹配相似語音片段。這對于客戶服務、語音助手和自動翻譯等應用具有顯著的商業潛力;5、生物信息學:在生
32、物信息學領域,近似搜索可以幫助研究人員在基因序列、蛋白質結構等復雜數字數據中查找相似性。這可以加速新藥研發、疾病診斷和基因治療等領域的進展,從而創造巨大的商業機會。實際上,印尼最大的電商之一 Tokopedia 就已經部署了向量數據庫進行近似搜索。之前 Tokopedia 采用基于 Elastic Search 的關鍵詞搜索,這種搜索很難提取出搜索關鍵詞的內在含義,主要權重在于詞頻。通過從關鍵詞搜索轉為基于向量的近似搜索,Tokopedia 能夠更好地滿足用戶的搜索需求,進行更精準的商品推薦,智能化水平提升了 10 倍,從而大幅度地提升財務指標。15/31 圖圖 11:傳統的關鍵詞搜索太表層傳
33、統的關鍵詞搜索太表層 數據來源:東北證券 圖圖 12:公司采用了成熟的公司采用了成熟的 Mishards 中間件中間件 數據來源:東北證券 16/31 3.市場空間:市場空間:向量數據庫向量數據庫五百億美元藍海市場待引爆五百億美元藍海市場待引爆 海量數據爆發產生巨大數據庫需求。海量數據爆發產生巨大數據庫需求。在互聯網化趨勢下,數據量呈爆炸式增長,同時隨著數據大集中、數據挖掘、商業智能、協同作業等大數據處理技術的日趨成熟,數據價值呈指數上升趨勢。根據 Stastista,2022 年全球創建、使用和存儲的數據量約為 97ZB,預計到 2025 年數據量將達到 181ZB,2021-2025 年全
34、球數據量復合增長率約為 23%。數據量的爆發式增長為數據存儲、處理帶來更為龐大的需求。圖圖 13:2010-2025 年全球年全球創建、使用和存儲的數據量創建、使用和存儲的數據量變化變化(ZB)數據來源:Statista,東北證券 全球數據庫市場規模仍處在高速成長期。全球數據庫市場規模仍處在高速成長期。根據 Gartner 數據,2021 年全球數據庫市場規模接近 800 億美元(5201 億人民幣),同比增長約 20.3%,五年內已實現市場規模翻倍。根據前瞻產業研究院,預計到 2026 年,全球數據庫市場規模將達到 2086億美元,2021-2026 年復合增長率達到 21.13%。圖圖 1
35、4:2017-2026E 年全球數據庫市場規模變化(億美元)年全球數據庫市場規模變化(億美元)數據來源:Expert Market Research,IDC,Gartner,前瞻產業研究院,東北證券 關系型數據庫仍然占市場主導,關系型數據庫仍然占市場主導,靈活拓展與高并發能力助力靈活拓展與高并發能力助力 NoSQL 數據庫騰飛。數據庫騰飛。根據 IDC 報告,2017 年至 2022 年,非關系型數據庫(DDMS)市場規模年復合增長率為 30.94%,而關系型數據庫(RDBMS)復合增長率僅 8.12%;但從市場規模 17/31 看,關系型數據庫仍然占據主導,83%的數據庫市場由關系型數據庫構
36、成。根據ScaleGrid 2019年統計,關系型與非關系型數據庫的用戶規模分別為60.5%和39.5%。根據 IMARC,2022 年全球 NoSQL 市場規模將達到 73 億美元,預計 2023-2028 年復合增長率將達到 29.92%。未來,Not-only-SQL 類型數據庫市場規模的增速將持續領先于傳統關系型數據庫。圖圖 15:2019 年年關系型與非關系型數據庫用戶規模關系型與非關系型數據庫用戶規模(%)圖圖 16:2022 年年關系型與非關系型數據庫市場份額關系型與非關系型數據庫市場份額(%)數據來源:ScalGrid,東北證券 數據來源:IDC,東北證券 圖圖 17:2017
37、-2022 年關系型及非關系型數據庫規模及增速(百萬美元,年關系型及非關系型數據庫規模及增速(百萬美元,%)數據來源:IDC,William Blair,東北證券 向量數據庫或向量數據庫或將將迎來迎來超超 500 億美元市場。億美元市場?;炯僭O:1、參考Gartner、IDC的市場規模數據,2021年全球數據庫市場規模為800億美元;2、到 2030 年,全球數據庫市場規模以 18%的年復合增長率增長,即 2030 年全球數據庫市場規模約為 3548 億美元;3、參考 NoSQL、云服務數據庫的占比,同時考慮到 AI 的快速滲透,假設 2030 年,NoSQL 數據庫中向量數據庫占比將達到
38、50%;根據上述假設我們得出,預計預計到到 2030 年,年,全球全球向量數據庫向量數據庫市場規?;驅⑦_到市場規?;驅⑦_到 522億美元。億美元。60.50%39.50%關系型數據庫非關系型數據庫83%17%關系型數據庫(RDBMS)非關系型數據庫(DDMS+NDBMS)18/31 中國中國向量數據庫市場空間或將達到向量數據庫市場空間或將達到 253-949 億元億元。根據中國信通院數據,2021 年中國數據庫市場規模約為309億元,占全球數據庫800億美元市場的比重約為5.94%;預計到2025年,中國數據庫市場規模為688億元,2020-2025年復合增長率為23.4%,占全球數據庫市場的
39、比重約為6.14%。根據IDC,2020年中國數據量規模約為7.92ZB,占全球總量的 18%;預計到 2025 年,中國數據量規模將增至 48.6ZB,占全球數據量的 27.8。中國數據量在全球的占比遠超數據庫市場規模占比,錯配情況較為明顯?;谏鲜鰯祿?,我們做出如下假設:1、到 2030 年,中國數據庫市場將以 20%的年復合增長率增長,對應 2030 年市場規模 1711 億人民幣,占全球數據庫市場的 7.4%;2、中國向量數據庫市場占全球比重的下限中國數據庫市場占全球數據庫市場的比重,即 7.4%;3、到 2030 年,中國數據量占全球數據量規模的比重維持在 2025 年水平;4、中國
40、向量數據庫市場占全球比重的上限中國數據量占全球數據量的比重,即28%;根據上述假設我們得出,預計到預計到 2030 年,中國向量數據庫市場規?;驅⑦_到年,中國向量數據庫市場規?;驅⑦_到 39-146億美元,對應億美元,對應 253-949 億人民幣。億人民幣。需要特別指出的是,相比于傳統數據庫,向量數據庫其實不止有存儲功能,也有一需要特別指出的是,相比于傳統數據庫,向量數據庫其實不止有存儲功能,也有一定的計算屬性,因此其定的計算屬性,因此其 TAM 是可以擴大的。是可以擴大的。圖圖 18:中國與全球數據產生量及占比(:中國與全球數據產生量及占比(ZB,%)圖圖 19:中國與全球數據庫市場規模及
41、占比(億美元,:中國與全球數據庫市場規模及占比(億美元,億元,億元,%)數據來源:IDC,東北證券 數據來源:IDC,Gartner,中國信通院,東北證券 18.00%23.01%27.77%0%5%10%15%20%25%30%020406080100120140160180200全球中國占比5.36%9.04%0%2%4%6%8%10%12%14%16%18%20%020040060080010001200全球中國占比 19/31 圖圖 20:中國數據庫市場規模及增速(億元,:中國數據庫市場規模及增速(億元,%)數據來源:中國信通院,東北證券 240.9309.35368492.75611
42、.05688.020%5%10%15%20%25%30%35%40%010020030040050060070080020202021E2022E2023E2024E2025E市場規模YOY 20/31 4.全球全球主流向量數據庫介紹主流向量數據庫介紹 目前全球已有的向量數據庫產品主要包括 Pinecone、Milvus、Weaviate、Vespa 等。其中,超過 70%的向量數據庫選擇了開源,超過一半的向量數據庫具有云化部署的能力,大部分向量數據庫產品在進行 ANN 相似性搜索時采用 HNSW(Hierarchical Navigable Small World)算法。向量數據庫公司普遍以
43、初創型企業為主,在一級市場上普遍獲得較多投資者的青睞。表表 1:全球向量數據庫信息匯總:全球向量數據庫信息匯總 公司公司 向量數據庫產品向量數據庫產品 是否上云是否上云 是否開源是否開源 算法算法 SeMI Weaviate 是 是(Go)Custom HNSW Pinecone Pinecone 是 否 Multiple proprietary GSI APU chip for Elasticsearch/Opensearch 否 否 Neural hashing/Hamming distance Qdrant Qdrant 否 是(Rust)HNSW(graph)Yahoo!Vespa 是
44、 是(Java,C+)HNSW(graph)Ziliz Milvus 否 是(Go,C+,Python)FAISS,HNSW Yahoo!Vald 否 是(Go)NGT 數據來源:東北證券 4.1.Pinecone Pinecone 擁有技術背景雄厚的工程團隊,先后上架擁有技術背景雄厚的工程團隊,先后上架 Google 云和云和 AWS 并打開市場并打開市場。2019 年,Pinecone 創始人 Edo Liberty 創立 Hypercube.ai,提供基于深度學習的多媒體搜索解決方案;2021 年初,Hypercube.ai 正式轉化為 Pinecone,專注于向量數據庫領域研發。團隊多
45、數工程師出自 Google、Databricks、Splunk 等知名科技企業。公司創始人兼首席執行官 Edo Liberty 獲得耶魯大學計算機科學博士學位,曾擔任Yahoo 的高級研究總監和紐約地區 Yahoo 研究實驗室的負責人,后加入 AWS 帶領團隊構建了尖端的機器學習算法、系統和服務。2022 年 12 月起,Pinecone 先后上架 Google Cloud 和 AWS,用戶可以在 Marketplace 購買并使用 Pinecone,在不改變基礎架構的前提下,將 AI 技術支持的搜索加入到應用程序。Pinecone 通過借助平臺流量逐步提升產品知名度,有望進一步打開銷售渠道,
46、搶占市場份額。Pinecone 是一個閉源、全托管、僅使用簡單是一個閉源、全托管、僅使用簡單 API 的云原生向量數據庫,大致劃分為的云原生向量數據庫,大致劃分為核心索引、容器分布(核心索引、容器分布(container distribution)、云管理層三部分)、云管理層三部分。Pinecone 核心索引負責將來自第三方數據源的高維向量轉換成 ML 可讀取的格式。容器分布確保數據庫在收到查詢、更新和嵌入指令后,以延遲低于 50 毫秒的運行狀態處理負載平衡、進行數據復制、管理命名空間、分割數據庫。云管理層使得用戶在不安裝硬件的情況下,僅通過創建索引并導入向量數據就可實現查詢。此外,用戶可以使
47、用API 隨時隨地更新、查詢向量索引。公司經歷了三次重要技術創新:1)技術團隊在保證托管系統穩定運行,元數據與圖像遍歷(graph traversal)相結合等條件下,研發出動態、可過濾的圖形索引;2)原 RocksDB 存儲引擎達到極限后,團隊構建了全新的“memkey”向量存儲,其在大型數據庫對生成對象的存儲速度超 RocksDB 10倍,降低 30%-50%的運營成本;3)基于 C+和 Python 產出的代碼庫問題不斷,團隊最終決心在 Rust 中重新搭建數據庫和開發環境的架構,有效提高了開發速度并降低了運營事件概率。21/31 圖圖 22:Pinecone 向量數據庫結構向量數據庫結
48、構 數據來源:Pinecone,東北證券 Pinecone 數據庫擁有數據庫擁有 4F 特性:快速(特性:快速(Fast)、實時()、實時(Fresh)、可過濾()、可過濾(Filtered)、)、全托管(全托管(Fully)。)。即使有數十億規模的數據存儲,依然可以保持極低的查詢延遲。在增加、編輯和刪除數據時,實時更新索引。向量搜索與元數據過濾相結合,提高查詢結果的相關性。平臺保證穩定、安全的運行環境,產品入門簡單、使用便利。操作流程可劃分創建索引(操作流程可劃分創建索引(Index)、連接索引、插入索引、使用索引四步。)、連接索引、插入索引、使用索引四步。通過創建一個索引對象,通常為 js
49、on 格式的數據,將向量嵌入和元數據寫入到索引中,然后調用索引對象的方法來執行相似性搜索或其他操作。pinecone 還提供了一些預定義的索引類型(Index Type),如 Image Search,Text Search 等,可以讓開發者更容易地開始特定的用例。表表 2:Pinecone 向量數據庫設置索引分步內容向量數據庫設置索引分步內容 創建索引 索引是向量數據的最高組織單位。創建新索引時可以設定 Pod 與 Distance metrics。Pod 是運行服務的預配置硬件單元,可選種類包括 s1 pods、p1 pods、p2 pods,每種類型的 pod 尺寸可在 x1、x2、x4
50、、x8 四擋調節。Distance metrics衡量向量對象的相似度,有 euclidean、cosine、dotproduct 三種可選。此外,支持從集合(collection)中創建索引,集合是向量與元數據的不可查詢表示。連接索引 如果使用 Pinecone 客戶端訪問索引,需要與索引進行交互。插入索引 將向量嵌入與元數據插入索引。向量對象以(id,vector)的元組列表(tuple)形式插入,含元數據的向量以鍵值對(key-value pairs)形式插入用于條件過濾。使用索引 完成索引設置后,即可利用索引進行數據查詢、數據篩選、數據獲取、數據管理,以及管理索引、插入更多數據或更新現
51、有向量等操作。數據來源:Pinecone,東北證券 定價標準:當前存在定價標準:當前存在初學者、標準、企業級三種初學者、標準、企業級三種模式模式。初學者版本使用免費,但僅限創建一個索引與一個計劃;標準版本適用于任何規模的生產應用程序,支持將向量數據庫保存在集合中,能夠進行自由索引,每月收費 70 美元起;企業版本能夠實現標準版本中的所有功能,并支持多個可用區以及 24/7/265 專屬支持服務,每月收費 104 美元起。Pinecone 一級市場獲一級市場獲 1.38 億美元融資,估值超億美元融資,估值超 7 億美元。億美元。2021 年 7 月,Pinecone種子輪收到 1000 萬美元投
52、資,投資方 Wing Venture Capita;2022 年 3 月底,公司 A輪融資 2800 萬美元,Menlo Ventures 領投,Tiger Global、Wing Venture Capital 跟投,公司估值達到1.68億美元。2022年底,伴隨ChatGPT推出而引發生成式AI開發熱,22/31 作為 LLM“海馬體”的向量數據庫需求激增,開發者、投資者紛紛涌入向量數據庫賽道。截至 2023 年 4 月,公司 B 輪獲 Andreessen Horowitz、ICONIQ Growth、Menlo Ventures、Wing Venture Capital 投資超 1 億
53、美元,三輪融資總額達到 1.38 億美元,投后估值已升至 7.5 億美元。表表 3:Pinecone 融資情況匯總融資情況匯總 估值(美元)融資金額(美元)參投機構 種子輪 1000 萬 Wing Venture Capital 領投 A 輪 1.68 億 2800 萬 Menlo Ventures 領投,Tiger Global、Wing Venture Capital 跟投 B 輪 7.5 億 1 億 Andreessen Horowitz 領投,ICONIQ Growth、Menlo Ventures、Wing Venture Capital 跟投 數據來源:東北證券 4.2.Milvu
54、s Milvus向量數據庫由中國創業團隊向量數據庫由中國創業團隊ZilliZ研發,并于研發,并于2019年面世。年面世。Zilliz成立于2017年,擁有超過 100 名員工。通過向量數據庫 Milvus,Zilliz 與 Nvidia、IBM、微軟、AWS 等公司建立合作。目前開源 Milvus 已成為業界領先的向量數據庫解決方案,有18000 個 GitHub Star。圖圖 21:Milvus 向量數據庫生態和社區布局向量數據庫生態和社區布局 數據來源:Zilliz,東北證券 Milvus 是一個基于云原生、開源的自托管向量數據庫。是一個基于云原生、開源的自托管向量數據庫。Milvus
55、數據庫包含以下特點:易于使用:易于使用:借助 Milvus 向量數據庫,使用者可以在不到一分鐘的時間內創建大規模的相似性搜索服務;SDK 簡單直觀,也可用于各種不同的語言;速度快:速度快:Milvus 具有較高的硬件效率,并提供先進的索引算法,檢索速度可提升 10 倍;高可用性高可用性:Milvus 向量數據庫已成功在一千多名企業用戶中進行了實戰測試,通過對各個系統組件的廣泛隔離,Milvus 具有較高的彈性和可靠性;高度可擴展高度可擴展性:性:Milvus 的分布式和高通量特性使其面對大規模向量數據時能夠提供高效的服務;云原生云原生:Milvus 向量數據庫采用系統化的云原生方法,將計算與存
56、儲分離,并允許使用者橫向、縱向擴展;功能豐富功能豐富:Milvus 支持各種數據類型、具有屬性過濾的增強向量搜索、UDF 支持、可配置的一致性級別、時間旅行等。為了增強彈性和靈活性,Milvus 由存儲層和計算層組成。該系統包括四個級別:接入層接入層 Access Layer:接入層由一組無狀態代理組成,充當用戶的系統和端點的前端;23/31 協調協調器器服務服務 Coordinator service:協調器服務將任務分配給工作節點,并充當系統的大腦;工作器節點工作器節點 Worker nodes:工作器節點充當人類的手臂和腿,是一種啞執行器,遵循協調器服務的指令并執行用戶觸發的數據管理語言
57、 DML/數據定義語言DDL 命令;存儲存儲 Storage:存儲是系統的骨骼,確保數據可持續性,包括元存儲、日志代理和對象存儲。圖圖 22:Milvus 向量數據庫架構向量數據庫架構 數據來源:Milvus,東北證券 Zilliz 目前已進入目前已進入 B 輪融資階段,輪融資階段,獲得投資獲得投資總額總額超超 1.13 億美元。億美元。2022 年 8 月 24 日,Milvus 的開發者公司 Zilliz 宣布,已在其最初 4300 萬美元 B 輪融資基礎上追加了6000 萬美元的融資。本輪融資由沙特石油巨頭 Aramco Ventures 旗下多元化增長基金 Prosper Ventur
58、es 領投,現有投資者 Temaseks Pavilion Capital(淡馬錫)、Hillhouse Capital(高瓴)、5Y Capital 和 Yunqi Capital(云啟資本)跟投。本輪融資后,公司的總融資額達 1.13 億美元,融資將用于支持其云矢量數據庫的工程設計和上市工作。24/31 表表 4:Zilliz 一級市場融資情況匯總一級市場融資情況匯總 融資輪次融資輪次 融資金額(萬融資金額(萬美元)美元)參投機構參投機構 A 輪 1000 5Y Capital 領投,Yunqi Partners、Eminence Ventures 跟投 B 輪 4300 Hillhous
59、e Capital Group 領投,5Y Capital、Yunqi Partners、Trustbridge Partners、Pavilion Capital 跟投 B 輪(Extension)6000 Prosperity7 Ventures 領投,Hillhouse Capital Group、5Y Capital、Yunqi Partners、Pavilion Capital 跟投 數據來源:東北證券 4.3.Vespa Vespa 由由 Oath 開發,發布之初被定義為一款開發,發布之初被定義為一款開源的開源的“大數據處理和服務引擎大數據處理和服務引擎”,”,。2003年2月2日
60、,Yahoo以1億美元收購Vespa前身挪威搜索引擎公司AlltheWeb;2017 年 9 月 28 日,由 Yahoo 和 AOL 業務合并后誕生的公司 Oath 宣布開源 Vespa,并將代碼托管于 GitHub。Vespa 能夠部署于本地或云上,能夠實現不同類型的搜索功能。能夠部署于本地或云上,能夠實現不同類型的搜索功能。作為開源的應用,Vespa 應用程序可以部署在本地或 Vespa Cloud 上,并可以接入 Java 組件和 Python API。部署完成后,Vespa 能夠實現基于傳統 BM25 的信息檢索、向量最近鄰搜索、機器學習模型服務、問答、內容推薦等功能。目前 Vesp
61、a 已被應用于 Oath 的多個產品,包括 Y、Yahoo News、Yahoo Sports、Yahoo Finance、Yahoo Gemini、Flickr 等,每日可以處理數十億個用戶請求,為用戶返回基于數十億文檔得出的搜索結果和推薦內容,并提供定制化內容和廣告。Vespa 由多個無狀態的由多個無狀態的 Java 容器集群和零個或多個存儲數據的內容集群組成。無狀容器集群和零個或多個存儲數據的內容集群組成。無狀態容器集群態容器集群包括傳入數據、查詢以及響應的組件。這些組件提供包括索引轉換和查詢執行的平臺功能,也可以提供應用程序的中間件邏輯。容器集群將查詢和數據操作傳遞到內容集群中的相應節
62、點,也可以添加組件訪問來自外部服務的數據。內容內容集群集群負責存儲數據并對數據執行查詢和推理。查詢的范圍包括簡單數據查找、使用機器學習模型對數據進行排序、以及對數據進行分組和聚合。圖圖 23:Vespa 向量數據庫架構向量數據庫架構 數據來源:Vespa,東北證券 4.4.Weaviate 25/31 Weaviate 前身為前身為 SeMI Technology,成立于,成立于 2019 年,是一家全球性初創企業。年,是一家全球性初創企業。目前Weaviate在荷蘭、美國、加拿大等地設有分支機構,擁有超過30名團隊成員。Weaviate創始人 Bob van Luijt 與 Etienne
63、Dilocker 擁有 10 年以上的自由工程師經歷,具有深厚的技術積累。Weaviate 是一個低延遲的是一個低延遲的向量向量數據庫,對不同的媒體類型(文本,圖像等)具有開數據庫,對不同的媒體類型(文本,圖像等)具有開箱即用的支持。箱即用的支持。Weaviate 提供語義搜索、問答提取、分類、定制化模型(PyTorch/TensorFlow/Keras)等功能,基于 Go 語言,能夠存儲對象和向量,并允許將向量搜索、結構化篩選和云原生數據庫的容錯能力相結合,且支持 GraphQL、REST 以及各種客戶端編程語言進行訪問。Weaviate 可進行本地或云化部署可進行本地或云化部署,具有多種定
64、價模式,具有多種定價模式。Weaviate 可提供 SaaS 以及混合 SaaS 的服務,其中 SaaS 服務定價分為三類:標準、企業、關鍵商務型,起價分別為 25/135/450 美元/月,實際定價將伴隨向量存儲、搜索的維度的增長而提升。標桿應用場景標桿應用場景Weaviate 于于 2023 年推出年推出 ChatGPT 的的 Plugin 插件插件,其功能包括:1、允許用戶連接一個向量數據庫到 ChatGPT,其中包含用戶的專有數據,可以被ChatGPT 調用并用于回答特定的問題;2、允許用戶對個人文檔進行存儲,使 ChatGPT 的回答更加個性化;3、用戶可以在向量數據庫中儲存與 Ch
65、atGPT 的對話,在關閉并再次打開 ChatGPT后,根據數據庫中的內容繼續對話。Weaviate 的索引流程:的索引流程:以文本編碼器(text2vec-transformer)和問答編碼器(qna-transformers)為例,用戶可以創建任意數量的索引,每個索引包含一定數量的分片,索引中的分片是獨立的存儲單元,每個分片均可以進行對象、倒置和向量存儲,其中對象和倒置存儲使用 LSM 樹方法進行實現,向量索引獨立于這些對象存儲,不受 LSM 分割的影響。此外,Weaviate 本身是純原生的向量數據庫,不自帶任何模塊,因此各類功能將由可選模塊進行執行。除上述提到的文本、問答等編碼模塊外,
66、Weaviate 還支持加載例如其他媒體類型的向量化、物體識別、拼寫檢查等外部模塊。圖圖 24:Weaviate 向量數據庫架構向量數據庫架構 數據來源:Weaviate,東北證券 26/31 投后估值投后估值 2 億美元,融資總額超過億美元,融資總額超過 6700 萬美元。萬美元。2023 年 4 月 22 日,Weaviate 宣布,繼 2022 年 A 輪融資獲得 1650 萬美元后,B 輪融資獲得 5000 萬美元(約合 3.5 億人民幣),由 Index Ventures 領投,Battery Ventures 等機構跟投。公司截至目前共獲得6770 萬美元融資,投后估值 2 億美元
67、。表表 5:Weaviate 一級市場融資情況匯總一級市場融資情況匯總 融資輪次融資輪次 融資金額(萬融資金額(萬美元)美元)參投機構參投機構 種子輪 120 萬 Zetta Venture Partners 領投,ING Ventures、Alex van Leeuwen(個人投資者)跟投 A 輪 1650 萬 Cortical Ventures、NEA 領投,GTMfund、Zetta Venture Partners、ING Ventures、Scale Asia Ventures 跟投 B 輪 5000 萬 Index Ventures 領投,Battery Ventures、NEA、
68、Cortical Ventures、Zetta Venture Partners、ING Ventures 跟投 數據來源:東北證券 4.5.Qdrant Qdrant 成立于成立于 2021 年,是一款針對人工智能軟件開發人員,提供用于非結構化數年,是一款針對人工智能軟件開發人員,提供用于非結構化數據的開源向量搜索引擎和數據庫。據的開源向量搜索引擎和數據庫。Qdrant 的創始人 Andre Zayarni(CEO)和 Andrey Vasnetsov(CTO)曾就職于智能招聘公司 moberries,均具有較為深厚的技術背景和經驗,并曾在多家歐洲科技公司擔任技術團隊的領導者。Qdrant
69、當前能夠進行本地化自托管部署,云化版本仍在測試中。當前能夠進行本地化自托管部署,云化版本仍在測試中。目前 Qdrant 已在Github 上進行開源,使用者可以免費本地化部署 Qdrant 向量數據庫。同時 Qdrant還提供起價 25 美元/月的云化試用版,用戶可以在托管云中使用向量數據庫解決方案,無需復雜的部署和維護,并由 Qdrant 團隊進行專業服務支持。Qdrant 開發團隊還能夠提供專業的企業級服務,包括協助企業進行向量數據庫的本地化部署、神經網絡模型的微調、數據的遷移和監控等。目前 Qdrant 能夠提供圖片相似搜索、語義文本搜索、推薦、對話機器人、匹配引擎、非正常監控等解決方案
70、,包括向量數據庫的搭建和模型預訓練與微調。圖圖 25:Qdrant 向量數據庫架構向量數據庫架構 數據來源:Qdrant,東北證券 27/31 Qdrant 仍處于種子輪融資階段,融資總額接近千萬美元。仍處于種子輪融資階段,融資總額接近千萬美元。2022 年 1 月 Qdrant 獲得preseed 輪融資 200 萬歐元;隨后于 2023 年 4 月,Qdrant 再次獲得 750 萬美元的種子輪融資,領投方為 Unusual Ventures,42cap、IBB Ventures 以及包括 Cloudera 聯合創始人 Amr Awadallah 在內的個人天使投資人。表表 6:Qdran
71、t 一級市場融資情況匯總一級市場融資情況匯總 融資輪次融資輪次 融資金額(萬融資金額(萬美元)美元)參投機構參投機構 種子輪 750 萬 Unusual Ventures 領投,42CAP、IBB Ventures、Amr Awadallah(個人投資者)跟投 Pre-seed 200萬 歐 元(約合220萬美元)42CAP 領投,M cke Roth&Company、IBB Ventures 跟投 數據來源:東北證券 28/31 5.國內國內二級市場二級市場相關標的相關標的 所有人都意識到了 ChatGPT 所帶來的 AI 巨浪,很多人認為這個浪潮接近甚至超越移動互聯網水平。我們認為,我們認
72、為,AI 絕對是浪潮,這是無可置疑的。絕對是浪潮,這是無可置疑的。事實上,在本文的事實上,在本文的寫作中,我們得到了寫作中,我們得到了 LLM 的的巨大幫助,節省了我們至少巨大幫助,節省了我們至少 20%的工作量。的工作量。但是有一個問題一直困擾著海內外的投資者:Killer App 在哪里?浪潮所要求的顛覆性創新在哪里?明天的VEEV、NOW、WDAY等Application在哪里?明天的DDOG、SNOW、MDB 等 Infrastructure 在哪里?經過長期深入的思考,我們認為 GPT 可能是目前 Application 最大的單一 Killer App,其余的 Application Killer App 還需要孵化的時間,而 Infrastructure 最大的 Killer App將會是向量數據庫Vector Database,由于底層的關鍵因素如Indexing和算法的改變,符合顛覆性創新的定義,傳統 Database 公司面臨著危機,而類似 SNOW、MDB 等Infra 巨頭的企業正在孕育。由于向量數據庫仍處于萌芽階段,建議關注國內具有向量化計算、向量搜索、向量化執行引擎等技術儲備的公司:云天勵飛、星環科技、云天勵飛、星環科技、創意信息創意信息、中亦科技、佳華、中亦科技、佳華科技科技、海量數據、科藍軟、海量數據、科藍軟件件等。等。