當前位置：首頁 > 報告詳情

王琦智下一代 RAG - DA數智大會 .pdf

上傳人：張** 編號：178915 2024-10-25 PDF PDF 45頁 24.41MB

該報告所屬合集： 2024年DA數智大會·深圳站嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/45

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《王琦智下一代 RAG - DA數智大會 .pdf》由會員分享，可在線閱讀，更多相關《王琦智下一代 RAG - DA數智大會 .pdf（45頁珍藏版）》請在三個皮匠報告上搜索。

1、演講嘉賓：王琦智王琦智7 年編程與架構經驗。曾在騰訊音樂、錦江等公司擔任重要職務，始終致力于代碼的開發與精進，并專注于開發者生態建設，研發效率及體驗提升，開發者賦能。目前，在 PingCAP 負責 TiDB 生態系統架構及開發者 Advocate。實現 TiDB 與 AWS、GORM、MySQL Connector、Hibernate、DBeaver及 vscode-sqltools 等平臺集成。并撰寫了 TiDB 的開發者文檔，使得開發者獲得更流暢的 TiDB 開發體驗。同時作為業務開發者代表，保障 TiDB 在開發者間的持續競爭力。1tidb.ai 是什么2簡單 RAG 的實現方案3為什么

2、需要 Rerank？4知識圖譜助力 RAG5Vector type within TiDB TiDB+Vector Database6All in one 數據庫幫助開發者減負7EndingPart 01社區用戶提出的技術問題，將會由技術支持工程師在看到之后，再逐一解決，這個過程很可能會很久，如果有多輪溝通，那就會更久TiDB 社區過去一直使用技術支持小組輪班回答一些社區成員提出的問題。但我們一直都缺乏相應的人力TiDB 的文檔豐富，但反過來看，過多的文檔導致用戶不知道選擇哪些去看?？赡軙е掠脩魶]辦法得到 TiDB 的全盤認知缺乏技術支持人力技術回答間隔較長文檔太多沒時間看幫用戶看文檔寫代碼

3、，回答問題0 延遲回答多輪對話也無需等待解放技術支持工程師人力Part 02RRetrieval檢索AAugmented增強GGeneration生成降低幻覺給予額外知識突破上下文窗口限制Part 03Jina.ai CO.Reranker,Jina AI-Reranker.Available at:https:/jina.ai/reranker(Accessed:22 May 2024).專注于語言關系余弦相似性會忽略語言之間的關系查詢與文檔之間的意圖的交互這種排序更重，但是也能讓我們進一步知道文檔與問題之間的關聯性排序The goal of a search system is to

4、 find the most relevant results quickly and efficiently.Traditionally,methods like BM25 or tf-idf have been used to rank search results based on keyword matching.Recent methods,such as embedding-based cosine similarity,have been implemented in many vector databases.These methods are straightforward

5、but can sometimes miss the subtleties of language,and most importantly,the interaction between documents and a querys intent.This is where the reranker shines.A reranker is an advanced AI model that takes the initial set of results from a searchoften provided by an embeddings/token-based searchand r

6、eevaluates them to ensure they align more closely with the users intent.It looks beyond the surface-level matching of terms to consider the deeper interaction between the search query and the content of the documents.Jina.ai CO.Reranker,Jina AI-Reranker.Available at:https:/jina.ai/reranker(Accessed:

7、22 May 2024).上下文窗口限制可能會在不應該截斷的地方截斷文字文本混淆信息丟失數據關聯丟失.王叔叔夸我作業做得好，于是就抱起了我，媽媽Token 耗盡叫叔叔小心點Indexing 階段上下文窗口限制Chunks 之間沒有關聯忽略了文檔結構關系Part 041 Edge,D.,Trinh,H.,Cheng,N.,Bradley,J.,Chao,A.,Mody,A.,Truitt,S.,&Larson,J.(2024).From Local to Global:A Graph RAG Approach to Query-Focused Summarization.ArXiv./a

8、bs/2404.16130首先，我們需要擁有一個豐富的文檔以及生態社區問答，用以構建知識圖譜。使用 DSPy 庫進行節點及邊的定義，以及及節點和邊的抽取方法，最后填入文檔即可檢索時，首先會使用 Vector Search 在 TiDB Serverless 集群中搜索最近鄰的 Top N 節點。隨后使用這些節點擴散 K 度，取回其相關節點及邊。最后使用這些節點和邊生成回答。豐富的文檔及社區問答使用 LLM 進行知識圖譜構建存入 TiDB Serverless 集群檢索時使用 Vector Search 和知識圖譜我們沒有這么多人力將構建好的知識圖譜，在節點和邊上增加 Embedding Ve

9、ctor 數據后，存入 TiDB Serverless 集群豐富到什么程度英文 Markdown 文檔：1276 篇中文 Markdown 文檔：1098 篇而且這些文檔不是 AI 翻譯的，是我們的文檔團隊進行維護的。日文文檔是機翻的，因此不算在這里更進一步的是，我們的文檔的跟隨版本的，也就是說，你總是能找到最新 Feature 的文檔 Colab Demo手把手教你編寫一個 GraphRAG（Jupyter Notebook）既可以向量搜索又不限數據量級這不巧了嘛這不是，歡迎體驗 TiDB Serverless，這邊請：檢索過程1.首先將用戶問題進行 Embedding，得到一個向量

10、2.在 TiDB Serverless 數據庫內使用 VEC_Cosine_Distance 函數對問題的 Embedding 和節點的 Embedding Vector進行排序，取出 Top N 個關聯節點，此處示例為 N=13.在 TiDB Serverless 數據庫內搜索 K 度內的關聯節點，此處示例為 K=14.取回關聯節點，及關聯節點之間的關系圖數據庫的數據會被存在獨立的實例里，這就意味著我的查詢就需要至少做兩次第一次查 RDB，第二次再查圖數據庫圖數據庫的查詢語句和 RDB 的不一樣我沒用過，我菜如無必要，勿增實體我菜我懶奧卡姆剃刀Part 05Part 06免費OSM(Ope

11、nStreetMap)2009 年的 Twitter2.5億 RU1200QPS2400QPS205.21QPS$121/m$267/m以上計算結果使用讀負載場景進行估算，實際支出請以 TiDB Cloud Billing 計算結果為準Part 07RAG 技術棧優點&解決問題缺點原生 RAG降低幻覺，給予額外知識，突破 Retrieve 階段上下文窗口限制僅考慮問題和答案的相似度RAG+Rerank在原生 RAG 的基礎上，提高了回答生成質量Indexing 階段上下文窗口限制，Chunks 之間無關聯RAG+知識圖譜在 RAG+Rerank 的基礎上，增加了 retrieve 的關聯性解決方案相對復雜數據庫技術棧優點缺點RDB簡單可用數據量限制，可用性較低，無 Vector 能力，無分析能力RDB+Vector DB在 Vector DB 內的向量計算性能更高需數據同步，數據一致性問題，架構復雜，不同的語法RDB+圖數據庫在圖數據庫內，圖的操作更直觀需數據同步，數據一致性問題，架構復雜，不同的語法自部署 TiDB數據量無限制，可用性高，有分析能力無 Vector 能力，運維復雜，大量虛擬實例TiDB Serverless數據量無限制，可用性高，有分析能力，有 Vector 能力，價格便宜持續高負載時，價格比自部署 TiDB 貴演講嘉賓：王琦智

相關圖表

本文主要介紹了王琦智先生在編程與架構領域的經驗，以及在騰訊音樂、錦江等公司的貢獻。他目前負責PingCAP的TiDB生態系統架構和開發者倡導工作，成功實現了TiDB與多個平臺的集成，并撰寫了開發者文檔，提升了開發體驗。王先生還討論了TiDB社區面臨的技術支持不足和文檔過多導致的選擇困難問題。文章提到了tidb.ai、簡單RAG實現方案、為什么需要Rerank、知識圖譜在RAG中的作用、TiDB中的向量類型、一站式數據庫的優勢，以及Jina.ai CO.Reranker等技術和工具。此外，還探討了檢索系統、排序方法、上下文窗口限制、圖數據庫的優缺點以及RAG技術棧的優點和解決問題。關鍵數據包括TiDB文檔的數量，以及不同數據庫技術棧的優缺點。文章最后提供了TiDB Serverless的示例，展示了如何通過向量搜索和知識圖譜生成回答?？傮w而言，王琦智先生的工作集中在提升開發者的體驗，優化檢索和排序方法，以及探索數據庫技術的創新解決方案。

"TiDB如何實現與多個平臺的集成？" "RAG技術在TiDB中的作用和優勢是什么？" "王琦智在TiDB生態系統架構方面的貢獻有哪些？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站