《向量化與文檔解析技術加速大模型RAG應用落地-常揚.pdf》由會員分享,可在線閱讀,更多相關《向量化與文檔解析技術加速大模型RAG應用落地-常揚.pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、TextIn文檔解析與向量化技術加速大模型RAG應用落地演講人:常揚目 錄01RAG背景與問題02文檔解析技術方案03向量化技術方案04實際場景產品實踐RAG背景與問題01大模型應用的四大問題RAG技術定位領域知識缺乏信息過時幻覺安全RAG(Retrieval Augmented Generation)檢索增強生成技術,利用檢索外部文檔提升生成結果質量領域知識和私有數據實時數據減少生成不確定性增強數據安全解決問題LLM應用知識數據來源模型幻覺用戶上下文輸入用戶意圖大模型知識外部文檔RCG:Retrieval-Centric Generation 檢索中心型生成將知識記憶與LLM生成分開,將檢索
2、知識作為知識源。Fine-Tuned LLM:使用外部數據微調語言模型使LLM具備領域理解能力RAGRCG微調RAG標準技術流程知識庫構建檢索生成文本嵌入文本嵌入RAG問題:一周快速出Demo,半年產品不好用https:/ RAG產品如何快速達到可用、好用,開始增長?PMF:Product Market Fit 產品和市場達到最佳契合點,產品滿足市場的需求,令客戶滿意,這是創業成功的第一步,業務增長的起點。MVP 最小可用產品-PMF 產品滿足市場需求快速達到大模型RAG項目落地關鍵點理解技術邊界避免過于樂觀、悲觀尋找適合技術的場景深度理解業務用戶需求是關鍵技術來服務業務考慮產品壁壘用戶/業務
3、壁壘如何抵抗復制用最好的模型確定產品有市場需求確定技術可以滿足避免僅考慮技術業務優先,價值第一AI產品最大失敗原因文檔內容解析出錯文檔存在太多Corner Case知識庫更新耗時長解析速度慢用戶體驗差機械分chunk丟失語義信息目標檢索內容召回不到答案生成有幻覺召回結果排序困難問題出現在文檔解析與向量化檢索RAG本質問題細節大語言模型(LLM)驅動的檢索增強生成(RAG)技術中確保能夠從源文檔中快速、精準地提取內容,對于提高最終輸出的質量至關重要。在實際工作場景中,非結構化數據遠比結構化數據豐富。但如果這些海量數據不能被解析,其巨大價值將無法發掘,其中 PDF 文檔尤為突出。RAG優化目標一:
4、快速、穩定、精準解析文檔大語言模型(LLM)驅動的檢索增強生成(RAG)技術中嵌入式模型的作用是確保能夠從源文檔中快速、精準地提取內容。高效的處理能力是實現快速響應用戶查詢的關鍵,識別并提取與用戶查詢高度相關的文檔片段,從而生成更準確、更相關的輸出。RAG優化目標二:高精度、高效率向量檢索研究方向:文檔解析技術與向量化技術TextIn 通用文檔解析acge_text_embedding 向量化模型將任意格式、版式的文檔(圖片、PDF、Doc/Docx等)高效、精準解析為Markdown格式,開源版面解析評價基準,排名第一在CMTEB文本嵌入基準上對6個任務的中文綜合評估超越其他模型,排名第一T
5、extIn通用文檔解析02有標記文檔無標記文檔Word文檔HTML文檔計算機視角下有標記的文檔:#有標記文檔MarkDown示例#第一部分#子標題|表格列1|表格列2|表格列3|-|-|-|正文:有標記的文檔指的是可以直接用計算機處理,結構化文檔 機器可以直接讀取機器無法直接讀取掃描文檔圖像PDF文檔MarkDown文檔計算機視角下無標記的文檔:%PDF-1.04 0 obj stream 1.0.0.1.50.700.cmBT/F0 36.Tf(Hello,World!)TjET endstreamendobj計算機視角下兩種類型的文檔PDF文件:一系列顯示打印指令的集合,非數據結構化格式。
6、顯示不受設備、軟件或系統的影響PDF(Portable Document Format 便攜式文檔格式),獨立于應用程序、硬件和操作系統呈現文檔的文件格式,能夠完全保留原文檔的格式。非結構化文檔、不具備可編輯性文本的位置、字體、間距、縮放比例、頁邊距等所有屬性在文件格式中限定死,讓軟件沒有自由發揮的空間。解析 PDF 文檔的挑戰、讓計算機可以獲得PDF信息準確提取整個頁面的布局,并將所有內容(包括表格、標題、文本段落和圖像)轉化為結構化數據形式。PDF文件格式MarkDown文件:關注內容而非打印格式,表示文檔元素。MarkDown文件格式“優雅、簡約、統一”表達多種形式的數據被互聯網世界接受
7、,充斥在各種數據中可以被大模型所理解文檔多版式示例元素遮蓋重疊復雜版式:雙欄、跨頁、三欄元素本身有多樣性頁眉形式1頁眉形式2多欄的影響多欄+插入表格的影響123456234561無線表格識別合并單元格識別單行公式與行內公式表格內公式文檔解析典型技術難點基于規則的開源庫問題無法全部解決pyPDF2PyMuPDFpdfminerpdfplumberpapermage基于深度學習/大模型的開源庫UnstructuredLayout-parserPP-StructureV2PDF-Extract-Kitpix2textMinerUmarkerGptpdfPDF掃描件不支持無法支持全部版式文檔多頁可用性
8、低閱讀順序無法還原文檔解析精度較低速度慢不滿足需求文檔解析庫尚未解決的問題TextIn文檔解析電子檔、掃描件文字識別物理版面分析邏輯版面分析文檔圖像預處理解析更穩、識別更準、性能更快TextIn文檔解析TextIn文檔解析 算法框架Pipeline拆分電子化版面分析輸出構建版面分析算法框架版面分析典型輸出TextIn版面分析 算法框架物理版面分析-聚合 側重于視覺特征。主要任務是把相關性高的文字聚合到一個區域,比如一個段落等。物理版面分析-布局 選用目標檢測任務進行建模,使用基于回歸的單階段檢測模型進行擬合,從而獲得文檔中各種各樣的布局方式。邏輯版面分析 側重于語義特征。主要任務是把不同的文字
9、塊根據語義建模,比如通過語義的層次關系形成一個樹狀結構。檢測模型的發展 FasterRCNN/YOLO-DETR/DINO在產業落地時,綜合考慮任務難度和推理速度,我們選用:單階段的檢測模型,更多關注數據和模型小規模調優檢測模型可視化:column區域(左圖)vs section區域(右圖)版面分析算法 物理版面分析與邏輯版面分析通過檢測獲得各個布局要素之后,我們可以建立文檔的布局關系。例如,一個雙欄的節(section)通常包括兩個欄(column)。層級概念page層級頁(page)section層級節(section)欄(column)paragraph層級段落(paragraph)列表
10、(list)表格(table)圖片(image)run層級切片(run)版面分析算法 物理版面分析輸入文檔文檔樹引擎輸出目錄樹-樹狀結構提取embedding計算段落關系構造文檔樹子標題子段落合并旁系主標題表格標題算法核心:通過Transformer架構,預測旁系類型與父子類型預測每個段落和上一個段落的關系,分為子標題、子段落、合并、旁系、主標題、表格標題如果是旁系類型,則再往上找父節點,并判斷其層級關系,直到找到最終的父節點版面分析算法 邏輯版面分析最新研究方向 真實世界中更豐富布局的版面分析Cheng H,Zhang P,Wu S,et al.M6doc:A large-scale mul
11、ti-format,multi-type,multi-layout,multi-language,multi-annotation category dataset for modern document layout analysisC/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:15138-15147.合合信息華南理工聯合實驗室TextIn開源文檔解析測試基準及工具 https:/ 文檔解析可視化效果指標指標說明TextIn 表現其他產品表現單頁耗時單張PDF的
12、耗時,從調用請求到收到請求通常300ms900ms通常4001200ms多頁耗時整份多頁PDF的耗時,從調用請求到收到完整返回100頁,P902s文件錯誤率一定周期內,無法解析或解析失敗的文件占總文件數的比值約20份/萬份-頁面丟失率一定周期內,解析失敗的頁面占總頁面數的比值約5頁/萬頁-TextIn 文檔解析 工程性能測試集:年報全元素測試-單頁-432張測試集:年報全元素測試-單頁-540張textintextin-V2其他產品A其他產品B平均表格文本全對率0.6380.6360.2940.628平均表格樹狀編輯距離0.9420.9420.6880.891平均表格結構樹狀編輯距離0.959
13、0.9590.7340.953平均段落識別率0.790.7960.4410.785段落召回率0.7540.7540.6310.806平均標題識別率0.7530.7630.570.855標題召回率0.8770.9160.7160.52平均標題樹狀編輯距離0.3070.3330.1710.1平均閱讀順序指標0.8530.8450.6520.841textintextin-v2其他產品A其他產品B平均表格文本全對率0.6030.6030.160.587平均表格樹狀編輯距離0.9180.9180.5350.874平均表格結構樹狀編輯距離0.940.940.6210.921平均段落識別率0.6920.6
14、920.2220.563段落召回率0.7750.7750.6720.716段落f10.7310.7310.3340.63平均標題識別率0.9380.9380.7140.857標題召回率0.7710.7710.4230.466標題f10.8460.8460.5310.604平均標題樹狀編輯距離0.4820.4840.2880.193平均閱讀順序指標0.680.680.3480.467注:其他產品在解析部分樣本時存在亂碼,因此分數偏低注:textin為純OCR方案,textin-V2為綜合方案TextIn 文檔解析技術 定量測試向量化技術方案03向量化Embedding技術原理Embedding/
15、嵌入/向量化 將海量的文本數據轉化為一個有方向有數值的列表(向量),利用計算機高效率計算文本相似性通過與已知文本的相似度應用在下面場景內容審核意圖分析情感分析推薦系統信息檢索RAG系統中向量模型的作用1.對文檔塊(Documents chunk)進行向量化表示2.對問題(query)進行向量化表示,查詢高文本相似度的文檔塊(chunk)召回3.文檔塊向量庫實時動態更新,低成本高擴展4.數據向量化處理后保證了數據安全性文本嵌入模型效果評測標準 MTEB&C-MTEB大規模文本嵌入基準評價中文大規模文本嵌入基準評價覆蓋8類任務,58個數據集:文本分類,聚類,成對分類,重排序,檢索,語義文本相似性,
16、摘要、判別應用中向量化Embedding Model的選擇結合業務選擇合適的向量模型,MTEB/C-MTEB作為參考支持語言文本塊長度檢索精度模型大小特定領域檢索效率acge_text_embedding 高精度、高效率Massive Text Embedding Benchmark(MTEB)中文榜單(C-MTEB)第一名的成績(20240311-20240514)與其他開源模型相比,acge模型較小,占用資源少;模型輸入文本長度為1024,滿足絕大部分場景的需求acge模型支持可變嵌入維度,讓企業能夠根據具體場景去合理分配資源。(1)對比學習技術,通過最小化正對之間的距離和最大化負對之間的
17、距離來呈現文本語義表示(2)數據挖掘,構造多場景、數量龐大的數據集提升模型泛化能力,挑選高質量數據集加快模型收斂(3)多任務混合訓練,多loss適配場景,適應各種下游任務(4)MRL訓練,訓練可變維度的嵌入,提高了處理速度,降低了存儲需求(5)持續學習,改善引入新數據后模型災難性遺忘問題acge_text_embedding模型技術特色acge_text_embedding模型可變嵌入維度俄羅斯套娃Matryoshka Representation Learning技術,讓文本嵌入模型在推理時具備可變Embedding大小的能力,可以根據企業場景采用不同的計算和存儲消耗。實際場景產品實踐04大
18、語言模型傳統方法翔鷺鎢業(9.500,0.12,1.28%):股東眾達投資854.68萬股股份解除質押 來源:每日經濟新聞每經AI快訊,翔鷺鎢業2,收盤價:9.50元)5月20日晚間發布公告稱,公司股東潮州市眾達投資有限公司(以下簡稱眾達投資)將其質押給海通證券(12.440,-0.03,-0.24%)股份的854.68萬股股份辦理了解除質押。公司表示,其實際控制人陳啟豐及其一致行動人潮州啟龍貿易、眾達投資質押的股份目前不存在平倉風險,也不會導致實際控制權發生變更。2019年年報顯示,翔鷺鎢業的主營業務為有色金屬冶煉和壓延加工業,占營收比例為:100.0%。記者:曾劍,翔鷺鎢業的董事長為陳啟豐
19、,男,年齡60歲,中國國籍,無境外永久居留權,大專學歷。翔鷺鎢業的總經理為陳偉東,男,年齡32歲,碩士,中國國籍,無境外永久居留權。建立schem標注數百或數千份訓練樣本模型訓練和調優【信息抽取任務】從以下資訊文本/多文檔/票據圖像 中抽取出關鍵信息請從如下文本中判斷出事件類型和相應的事件要素,結果按照results_style形式進行呈現:翔鷺鎢業(9.500,0.12,1.28%):股東眾達投資854.68萬股來源:每日經濟新聞每經AI快訊,翔鷺鎢業2,.需要開發人員有豐富的算法經驗新樣本如語句變化則將難以確保效果后處理和補缺Prompt提示詞普通員工會寫提示詞prompt即可模型對語句變
20、化后的自適應性強開放域信息抽取產品介紹智能解讀業務文件,完成非結構化的關鍵信息提取,提高閱讀效率,挖掘文檔價值字段抽取列表抽取元素抽取創建文檔類型設置提取字段上傳文件AI提取返回結果后續應用三種抽取模式開放域信息抽取產品模式企業財報(年報、季報、半年報)行業/公司研報(行業分析、個股深度分析)其他公告(招股說明書、業績預告、股權變動等)知識庫信息檢索通過自然語言問答,精準檢索知識庫中相關內容;關鍵內容總結提煉文檔重點內容,提高信息篩選效率;多文檔問答支持多源信息檢索及對比,洞察潛在趨勢;信息來源可靠有效規避大模型幻覺,完整展示真實可靠來源;金融文檔知識庫專注有效信息閱讀提高案頭分析效率分析師個
21、人投研助手投研知識管理重點內容問詢、標記、收藏,構建投研知識庫;個人知識庫非公開文檔(專家調研報告、會議紀要等)分析師知識問答 場景及價值分析師知識問答產品效果TextIn文檔解析文本表格段落文檔目錄樹問題解析Elastic Search關鍵信息抽取停用詞處理問題改寫文件定位表格召回標題召回目錄樹節點召回關鍵詞&新問題Prompt+召回內容LLM問題答案重排后答案來源關鍵詞匹配系統稀疏檢索系統稠密檢索系統(acge_embedding)模型重排打分段落倒數排序層級命中率粗召精排分析師問答產品系統架構設計單擊此處編輯母版標題樣式總結05RAG應用目標:可用、好用的技術與產品RAG應用中存在的突出問題的本質文檔解析問題向量化檢索問題聚焦本質,優化RAG的研究內容TextIn通用文檔解析acge文本嵌入模型快速、精準、穩定解析文檔高效率、高精度信息檢索TextIn 通用文檔解析掃描件支持多版式支持閱讀順序精度及效率TextIn acge_text_embedding向量化模型高精度高效率理解技術邊界,深度理解業務,打造產品壁壘,用最好的模型,避免僅考慮技術單擊此處編輯母版標題樣式THANKS智能未來,探索 AI 無限可能Intelligent Future,Exploring the Boundless Possibilities of AI