《關于 GraphRAG 的思考、展望與進展 - 余毅航.pdf》由會員分享,可在線閱讀,更多相關《關于 GraphRAG 的思考、展望與進展 - 余毅航.pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、https:/nebula-關于 GraphRAG 的思考、展望與進展余毅航ppt請跳轉 https:/nebulagraph-slide.yanli.onehttps:/nebula-ChatDBA:智能數據庫助手蘇鵬https:/nebula-根據 Uptime Institute 在數據中心調查中,超過一半(55%)的受訪者表示,在過去三年中曾發生過停機。與此同時,2023 年有十分之一的故障被歸類為嚴重或者很嚴重。同時超過一半的受訪者表示他們最近的一次重大、嚴重或極端的停機事件成本超過十萬美元,而 16%的受訪者表示成本超過一百萬美元。數據庫運維現狀數據庫作為核心基礎設施,其穩定性直接
2、影響著數據中心的整體穩定性。然而,企業在數據庫運維方面正面臨以下挑戰:1.故障問題難以快速定位:數據庫故障的定位往往需要綜合多個系統的情況進行分析,排查耗時且復雜,帶來了較高的運維成本。2.高昂的人力成本:根據行業經驗,DBA 與研發人員的配比不應低于 1:200,然而擴大 DBA 團隊的人力成本非常高。數據來源:Uptime Institutehttps:/nebula-企業中數據存在多樣性:多種類型數據庫并存隨著企業數字化轉型的深化,企業數據特征的復雜性不斷提升,單個數據庫產品已無法滿足企業全方位的需求。甲方企業普遍缺乏多元混合數據庫管理的人才和技術IT行業人才緊張,近9成IT服務行業的畢
3、業生進入了信息通信技術行業,流入其他行業甲方企業的人才顯著不足。數據庫原廠商無法提供多數據庫統一管理和服務數據庫原廠將主要力量投入到自身數據庫產品的研發中,但受到技術壁壘、行業分工及其他市場因素限制,數據庫原廠無法提供自身產品以外的跨數據庫統一管理和配套服務。https:/nebula-業務增長太快,數據庫該如何擴展,讀寫分離、分庫分表該怎么選?多大的表該做拆分,怎么拆呢?數據咋遷移呢?網上流傳的雙主架構,數據經常不一致,復制老中斷,該咋整?業務要用的數據庫種類太多了,MySQL、Redis、MongoDB、PostgreSQL、TiDB、OB,能不能統一維護起來?Oracle是去掉了,用了一
4、堆開源庫,運維太麻煩了。業務抱怨數據庫運行緩慢,沒有足夠信息采集,該如何診斷?開源數據庫占比越來越大,怎么樣才能快速掌握它們的最佳實踐呢?前期沒有做標準化,現在數據量增長太快,運維效率下降,問題越來越多。開發drop庫了,恢復起來太費勁,有沒有快速恢復的方案?安全掃描又來,數據庫又要升級,有沒有批量自動化的升級方案?https:/nebula-可以完成基本問答,但對DBA的日常工作實際價值不大答案很泛泛,邏輯不夠強。雖然沒錯誤,但對實際工作指導性不大故障診斷場景中一個故障現象可能對應多個故障原因,不同的原因又有不同的排查手法和解決方案大模型傾向基于已有的信息推測所有的可能結果,和DBA的工作習
5、慣并不相同https:/nebula-高效的故障診斷需要具備復雜隱性推理能力Retrieval Augmented Generation(RAG)and Beyond:A Comprehensive Survey on How to Make your LLMs use External Data More Wiselyhttps:/nebula-查詢重寫查詢擴充Level 1 Level 2 面臨的挑戰檢索準確性https:/nebula-Level 1 Level 2 面臨的挑戰檢索準確性https:/nebula- Level 1 Level 2 面臨的挑戰檢索準確性https:/neb
6、ula-Level 1 Level 2 面臨的挑戰可觀測性問題https:/nebula-Level 3 Level 4 面臨的挑戰數據處理https:/nebula-Level 3 Level 4 面臨的挑戰多輪交互https:/nebula-Level 3 Level 4 面臨的挑戰長短時記憶自信息壓縮:自信息是信息論中的一個概念,用于量化某個特定事件發生的信息量。自信息的大小與事件發生的概率成反比,即一個事件發生的概率越小,該事件的自信息就越大。這意味著,如果一個事件總是發生,那么它并不提供任何新的信息。因此,我們可以利用自信息來識別prompt中的關鍵信息,將其保留下來,而忽略那些不提
7、供新信息的部分。Question-Aware Coarse-Grained Compression 問題感知的粗粒度壓縮。不再單獨查看每個文檔,而是檢查每個文檔與問題的關聯性。Question-Aware Fine-Grained Compression問題感度的細粒度壓縮Subsequencerecovery子序列恢復https:/nebula-Level 3 Level 4 面臨的挑戰多輪對話中的邏輯性保持https:/nebula-Level 3 Level 4 面臨的挑戰多輪對話中的意圖與主題識別https:/ 3 Level 4 面臨的挑戰COT 導致推理時長劇增https:/nebula-Level 3 Level 4 面臨的挑戰多模態數據處理https:/nebula-GitHub:vesoft-inc/nebulaTwitter:NebulaGraphFacebook:NebulaGraph微信公眾號開源項目https:/nebula-https:/nebula-https:/discuss.nebula-ChatDBA:智能數據庫助手