《丁瑞雪-通義百煉RAG應用落地實踐與挑戰 .pdf》由會員分享,可在線閱讀,更多相關《丁瑞雪-通義百煉RAG應用落地實踐與挑戰 .pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、丁瑞雪 通義實驗室高級搜索算法專家目前主要負責通義百煉產品RAG算法架構與通義實驗室其他多個產品RAG的離線算法技術。7年NLP&AI算法研發以及落地經驗。曾在ACL、EMNLP、NAACL、SIGIR等頂級會議上發表多篇論文,研究領域涉及NLP傳統任務、多模態預訓練、RAG。曾提出業界第一個地理多模態預訓練模型MGeo,下載量過百萬。目前致力于流程化、模塊化的可落地RAG技術方案建設,開源了CQDA RAG數據集以及CoFE-RAG全鏈路RAG評估框架。演講主題:通義百煉RAG應用落地實踐與挑戰!#$%&()*+,-./0!#$%&()*+,-./0!#$%&()*+,-./$%&01$%&
2、23$%&45678!#$%&()*!#$%!#$%RAG出現背景幻覺問題長尾問題知識受限時效性知識:今天天氣怎么樣?2024云棲大會舉辦時間長尾知識:fishier rc4 2019的板腰長度是多少?ATOMIC CS SKI BOOT硬度是多少?私域知識:我入職3年,今年有多少天年假?空調買了三年壞了,還在保修期嗎?!#$!%#Retrieval Augmented*Generative modelREALMDialogue systemRaNERRaRLRa-imagenRetrieval Augmented Generation!#$!%#搜前搜中搜后RewriteRetrievalR
3、erank異源知識路由長文本壓縮搜索規劃反思!#&()*+,Nave RAGAdvance RAG用戶Query知識庫向量索引查詢召回輸出結果PELLM用戶Query知識庫Query改寫查詢檢索意圖Query路由文本向量多模態向量稀疏向量索引查詢召回PELLM輸出結果ReRank 丨 長期記憶 丨 安全策略FinetunePERAGALL-./!#01痛點業務know how注入系統級調優模型幻覺控制badcase快速定位領域數據解析領域應用定制管理運營百煉RAG挑戰多模態文檔管理可控RAG生成RAG全鏈路評估企業知識管理復雜文件格式眾多文檔模態多樣!#$%&(!#$&!#$&23456多模態
4、多模態文檔理解文檔理解表格理解KV信息抽取公式識別Chart DerenderingLayout分析閱讀順序理解Text SpottingChemical Structure Recognition截圖解析文件格式眾多文件格式眾多多模態版面元素多模態版面元素文本/表格/圖片版面層級結構多樣版面層級結構多樣論文/圖書/財報/說明書多頁長文檔多頁長文檔1-unlimited23456789:01.PPT閱讀順序理解不同于word、PDF等順序理解文檔,PPT文檔通常具有二維的空間理解順序。閱讀順序的正確理解對文檔內容理解起到重要作用復雜的表頭關系、無線表格分割、表格合并、表格跨頁等表格繪制方式均會
5、對表格解析造成困難03.圖表數據理解傳統的依賴OCR的解析方式難以將餅圖、折線圖、柱狀圖等多模態數據信息準確地傳達出來之百分比佔本公司已發行股份女性20%男性80%13%9%78%02.復雜表格理解按性別劃分的雇傭情況按級別劃分的雇傭情況股東姓名/名稱實益擁有人於受控法團之權益權益性質權益合計(股份)(股份)(股份)(%);?ABCDEFGHIDJKFhttps:/arxiv.org/pdf/2306.00526LAMAAN23456=OPQ多模態文本多路解析結果融合離線解析路由表格PPTOCR離線VL規則解析layout prompt在線VL混合OCR、規則解析、離線VL、在線VL、layo
6、ut pompt等多種理解方式解決復雜文檔理解問題RSTUPPTPDF持平Text+58%Chart+6%中文+35%英文+4%TableDOCX+3%Chart+7%Table)*&(+,!#$!#$.VWXDYGZDY行業行業FAQ話術FAQ干預FAQ知識補充FAQ行業黑話行業黑話講師-醫生上上簽-電子簽中文簡稱-英文原名知識體系知識體系行業知識通過知識庫類別體系體現多知識庫編排&agent3模型自有知識知識庫知識互聯網知識知識未包含 拒答能力知識沖突 知識優先級編排能力知識正確 減小無關知識誤導_aRAG全鏈路指令遵循處理較短行業know how知識注入(例如行業黑話)拒答能力多知識庫編
7、排靈活編排FAQ庫、互聯網庫、多類目層級業務庫工作流知識未包含時承認缺乏知識包含正確知識時降低無關噪音干擾!#b?cdef知識庫文檔1文檔2正確文檔普通rerank文檔1文檔2文檔3行業黑話知識+instruction知識庫文檔1文檔2正確文檔指令遵循rerank文檔1文檔2正確文檔行業黑話知識+instruction行業黑話gh_用戶Query知識庫向量索引搜索召回輸出結果LLM:根據以上文檔回答問題文檔1文檔2文檔nLLM:請判斷該文檔是否與問題相關文檔1文檔4文檔kInstruct:嚴格按照車型匹配,注意*XsmortSmart精靈#1和精靈1號是同一種型號。Query:精靈1號的尺寸是
8、多少?Doc1:精靈2號尺寸是170mm*180mm Doc2:XsmortSmart精靈#1尺寸是150mm*160mm依賴先驗知識:Instruct:嚴格按照型號匹配,注意*107和*107光輝版是不同的型號,問題中如果提到107是指*107,不是*107光輝版Query:107電源接口Doc1:*107有兩個type-cDoc2:107光輝的電源接口包含3個type-c電源接口難區分實體:基模對于幻覺處理指令遵循能力弱,召回難負樣本文檔rank模型難以區分2291%badcase解決率2ijklm工作流編排工作流編排高度自定義的SOP流程執行,顯著降低編碼成本智能體編排智能體編排Mult
9、i-Agent+Workflow 智能決策的混合應用編排no!#pqrs知識庫編排配置回答范圍配置prompt組裝配置意圖配置搜中搜后搜前知識庫路由Query改寫FAQ干預意圖分析搜索融合prompt壓縮層級片段組裝相關性檢測業務庫1業務庫2業務庫3互聯網庫FAQ庫tuvwx效果可控、可干預搜索精度提搜索精度提Metadata增強、模板化文檔chunk切分模型生成幻覺降低模型生成幻覺降低搜索前置/后置過濾、意圖識別后恢復召回等&(-./01!#$(!#$(yvz|Badcase怎么修復沒有標注數據怎么辦自動評估數據生產什么配置是最優的評估驅動的模塊選擇鏈路排查分析、問題路由定位.PQTruLe
10、nsGroundedness、Answer RelevanceCRUDCreate、Read、Update、Delete能力評估RGB噪聲魯棒性、拒答、信息整合和反事實魯棒性百花齊放的百花齊放的Generate能力評估能力評估RAGAS忠實性(faithfulness)、答案相關性(answer_relavency)少數涉及少數涉及RA能力能力評估評估RAGAS、TruLensContext Relevance(model based)R針對事實類答案,如果RA能夠召回正確片段,回答正確率78%,不能召回正確片段時,回答正確率15.0%RA的評估很重要基模迭代成本高需要評測的模塊不止RA和G不
11、改變基模的情況下,Generate評測只能對比系統優劣,無法幫助迭代效果、排查鏈路問題文件解析準確率:重點關注PPT閱讀順序、表格解析能力、圖表解析能力文件切分完整性:關注分塊后內容完整性以及對全局信息感知召回準確率:評價embedding能力搜索準確率:評價RA整體能力回答準確率:評價大模型能力?!#$%&()&(*+,-./01234565789:;?Simple QueryPlain TextChunkingRetrievalRerankingGenerationGolden ChunksReference AnswerComplex QueryDocumentsMulti-granular KeywordsReferenceAnswer(a)Previous Methods(b)CoFE-RAGEvaluationChunkingRetrievalRerankingGenerationEvaluation!#$%&()&(*+,-./01234565789:;?https:/arxiv.org/pdf/2410.12248https:/