《面向企業數字化的文檔智能技術與應用-王夢佳-2023(1).pdf》由會員分享,可在線閱讀,更多相關《面向企業數字化的文檔智能技術與應用-王夢佳-2023(1).pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummit#2023面向企業數字化的文檔智能技術與應用演講人-王夢佳-阿里巴巴-企業智能-高級算法專家01背景介紹02文檔智能技術03大模型之下的文檔智能04面向企業數字化的文檔智能應用目錄CONTENTDataFunSummit#202301背景介紹背景介紹分析:理解:閱讀:文檔解析與結構化多模態預訓練統一文檔表示版面分析信息抽取文檔分類文檔比對文檔問答文檔生成企業級文檔合同文書合同文書個人簡歷個人簡歷協議文書協議文書政策文檔政策文檔發票收據發票收據產品文檔產品文檔文檔智能Document AI行業應用企業級應用通用文檔智能文檔解析表格理解文檔樹文檔糾錯知識抽取知識搜索知識問
2、答文檔搜索合同要素抽取合同搜索合同審查合同比對文檔問答合同起草技術挑戰需求場景多&標注數據少合同/協議/表單/文檔小樣本學習領域自學習for業務定制文檔格式多Word/圖片/pdf/html統一文檔表示內容元素種類多段落/表格/目錄/圖形多模態識別文檔理解預訓練DataFunSummit#202302文檔智能技術文檔智能技術演進文檔理解預訓練大規模無標注數據多模態大一統文本+布局Layout+圖像信息抽取&文檔問答文檔解析為純文本,NLP文本任務,序列標注,NER等版面分析&文檔圖像分類圖像任務圖像任務,文檔圖像的物體檢測,檢測和識別文檔中的標題,段落和表格等單一模態大規模標注數據驅動的特定任
3、務設計文本單一模態文本+布局Layout聯合文本+布局Layout+圖像image預訓練任務設計,跨模態對齊下游任務,預訓練+微調MLVMMDCText-Image對齊信息抽取文檔分類版面分析文檔視覺問答文檔智能技術ApachePOIOCRXMLParserPDF Parser文本布局表格圖像目錄公式統一文檔表示多模態文檔理解行業預訓練文檔樹版面分析信息抽取文檔分類文檔問答文檔解析表格理解文檔樹文檔糾錯知識抽取知識搜索文檔問答文檔搜索合同抽取合同搜索合同審查合同比對文檔問答合同起草文檔解析文檔理解文檔分析文檔智能技術底層技術文字檢測文字識別結構化檢測手寫檢測OCR詞法分析句法分析語義分析文本分
4、析NLP文本文本+布局+視覺文本+布局預訓練多模態文檔解析WordPDFExcelPPTJPGHTMLMarkdown多模態文檔理解通用文檔理解領域預訓練文本預訓練StructBERT文本+布局+視覺聯合訓練LayoutLM法務預訓練Legal-BERT合同預訓練Contract-BERT文檔樹文檔層級樹文檔知識塊文檔理解DI版面分析通用文檔合同文書制度文件咨詢報告信息抽取實體關系事件文本分類零樣本小樣本預訓練+微調其他文檔比對文檔問答文檔糾錯領域自學習上層應用通用能力垂直領域解決方案文檔解析文檔糾錯文檔樹表格理解合同抽取合同比對合同審查合同起草企業級應用文檔問答知識搜索知識抽取知識推薦文檔智
5、能技術typestringparagraph:正文,title:標題,image:圖片,table:表格textstring文本信息fontSizedouble字體大小fontNamestring字體名稱,華文仿宋boldboolean是否加粗tableInfoDTOdict表格結構信息autoNumberingboolean是否自動編號indexint段落索引pageNoint頁碼alignmentstring對齊,left/center/right/unknownstylestring段落樣式indentint段落索引統一文檔表示文本信息富文本meta信息(字體,字號,加粗,對齊)邏輯結構
6、信息文檔智能技術文檔層級樹DataFunSummit#202303大模型之下的文檔智能行業預訓練模型-LegalBert領域數據大模型底座多任務預訓練合同管理合同文書協議文書簽章檔案知識產權專利創新提案商標版權合規管理風險管理項目管理外部渠道爭議管理訴訟案件維權競爭管理StructBERTToken-levelSentence-levelMLMWWMNWM領域大模型LegalBert行業應用合同要素抽取合同審查合同起草合規風險檢測專利查重查新合同條款抽取合同文本比對合同信息抽取任務合規文本分類任務行業預訓練(PreTrain):法務行業文檔密集型,四大領域數據和知識,在通用基礎模型基礎上構建行
7、業知識預訓練模型基礎模型:阿里巴巴達摩院開源的預訓練模型StructBERT數據:合同域(200W+),合規管理域(100W+),知識產權域(100W+),爭議管理域(100W+)多任務預訓練:通用自監督Token-level:MLM,WWM通用自監督Token-level:NWM,法務行業詞典分詞領域預訓練任務:合同要素信息抽取領域預訓練任務:合規文本分類多模態文檔理解大模型Transformer Encoder Layers E(CLS)E(項目)E(采購)E(合同)E(甲方)E(:)E(浙江)E(向陽)E(公司)E(0)E(x01)E(x02)E(x03)E(x04)E(x05)E(x0
8、6)E(x07)E(x08)E(0)E(y01)E(y01)E(y01)E(y02)E(y02)E(y02)E(y02)E(y02)E(maxW)E(x11)E(x12)E(x13)E(x14)E(x15)E(x16)E(x17)E(x18)E(maxH)E(y11)E(y11)E(y11)E(y12)E(y12)E(y12)E(y12)E(y12)PositonEmbeddings y1PositonEmbeddings x1PositonEmbeddings y0PositonEmbeddings x0TextEmbeddingsCLS項目采購合同甲方:浙江向陽公司Text+LayoutE
9、mbeddingsDownstream TasksOCR多模態預訓練TextText+Layout模型結構BERT backboneText+2D Position embeddings預訓練任務自監督任務:MVLM-保持坐標輸入,mask文字并且預測文字(與MLM一致)監督任務:合同類型分類預測多模態文檔理解大模型多模態預訓練Text+LayoutText+Layout+image模型結構TransformerSelf-AttentionText+2D Position+imageembeddings 預訓練任務MVLMText-Image AlignmentText-Image Match
10、ingOCRparserTextLayoutVisualEncoderFeatureMap項目采購合同甲方:浙江向陽公司01230123456789!:!#:!#!$:!$!%:!%&::&$:&$&%:&%&:&(:&(&):&)&*:&*&+:&+&,:&,Multi-Modal Transformer Encoder Layers Visual/TextEmbedding2D PositionEmbedding1D PositionEmbeddingVisual/TextRepresentationV1V2V3V4T1T3T5T6T7T8T2T4Task1:MVLMTask2:T
11、ext-Image AlignmentTask3:Text-Image MatchingMatchedCoveredCoveredNotCoveredNotCoveredNotCoveredNotCovered多模態文檔理解大模型Text EncoderVisual EncoderLayout Encoder法務行業大模型-從PLM到LLM行業預訓練模型法務行業數據和知識,在通用基礎模型基礎上,構建行業知識預訓練模型合同域(200W+),合規管理域(100W+),知識產權域(100W+),爭議管理域(100W+)行業業務微調高質量法務行業標注數據,對行業預訓練模型進行有監督微調,優化業務效果合
12、同審查(4大類審查項,60+審查點),合同要素抽?。?大通用合同要素,18類領域要素),合同條款抽?。?0大類條款)業務反饋精調業務回流數據進一步將SFT的行業模型做業務價值對齊精調合同起草(10大類合同模板),合規風險檢測(22類合規風險標注數據)行業預訓練模型通用大模型之上行業知識增強行業大模型微調高質量行業數據進行有監督SFT業務回流數據法務專家業務反饋結果排序微調精調業務價值獎勵對齊精調業務回流強化學習RM和RLBF行業預訓練數據合同/合規/知識產權/爭議管理行業精標數據合同審查項合同模板合同分類合同要素/條款通義千問法務行業大模型/合同大模型DataFunSummit#202304面
13、向企業數字化的文檔智能應用文檔智能助力企業數字化合同文書合同文書個人簡歷個人簡歷協議文書協議文書發票收據發票收據產品文檔產品文檔政策文檔政策文檔結構化,可查看知識化,可管理數智化,可決策Document AI法務HR財務行政公共事務采購戰略投資其他文檔智能+法務數字化降本合同解析合同要素提取法務智能問答提效合同起草&分類合同比對專利查重查新控風險合同審查合規風險檢測資產沉淀法務條款庫法務口徑庫政策文檔庫文檔智能+法務數字化合同全生命周期管理合同條款搜索合同模板推薦合同智能起草起草提交審查/審批簽署歸檔履約合同要素審查合同條款審查合同風險評估合同解析合同要素抽取合同條款抽取合同文本比對用印比對合
14、同知識庫合同搜索推薦履約要素結構化履約監控文檔智能+LLM+法務數字化信息抽取文檔審查文檔分類文本摘要文檔生成ChatContract-和合同對話合同要素抽取任務合同條款抽取任務合同審查類任務合同起草類任務合同摘要生成類任務文檔智能+LLM+法務數字化法務生成式問答法律法規業務指引制度TextQA文檔解析知識抽取TextChucks知識庫文檔切分向量表征關鍵詞檢索向量檢索Query理解與擴展向量表征Prompt生成Query意圖理解相關性排序知識增強業務干預法務LLM生成質量評估文檔智能+業務定制全鏈路業務場景定制數據標注-模型訓練-模型優化-模型部署全鏈路,滿足業務定制化需求,實現更多業務場
15、景覆蓋多場景覆蓋合同要素提?。ㄐ畔⒊槿。﹫鼍皩崿F內外部20+細分場景落地合同審查(文檔審查)實現10+細分場景落地合規風險檢測(小樣本文本分類)實現10+細分場景落地數據標注模型訓練評測反饋服務部署iTAG模板配置,樣本標注,樣本質檢可查看模型評測結果和自學習增長曲線訓練達標的模型需人工進行加密和部署模型訓練,可實時查看訓練時間進度其他Document AI法務HR財務行政公共事務采購戰略投資文檔信息抽取文檔版面分析文檔比對文檔分類文檔生成文檔審查簡歷解析人崗匹配簡歷搜索簡歷推薦合同抽取合同比對合同起草合同分類合同審查提案起草合規檢測chatContract條款抽取知識管理財報解析研報解析政策解析政策問答票據解析一鍵報銷知識問答文檔智能助力企業數字化歡迎交流探討合作!感謝觀看