1、文檔智能技術應用與研究姚 聰阿里巴巴達摩院 資深算法專家|01文檔智能技術平臺02前沿技術研究03產業應用案例04更多技術展望目錄 CONTENT|文檔智能技術平臺01|技術挑戰和應對方案|文件格式多圖片/pdf/html統一解析和表示元素種類多段落/表格/目錄/圖形多模態識別和抽取版式類型多文書/票據/表單/合同預訓練和小樣本技術文件頁數多1200頁多頁長文檔抽取技術亮點|層次化版面分析OCR文字檢測文字識別印章識別結構化檢測NLP手寫識別多語言識別預訓練電子文檔解析電子文檔渲染器電子文檔解析器語言預訓練視覺-語言聯合預訓練詞法分析句法分析語義分析文本分析多模態文檔識別樣式識別表格識別多版式
2、異構表格理解多模態文檔理解文檔結構重建預置處理器文檔分割文檔KV抽取海關文檔司法卷宗行業表單合同標書視覺-語言聯合預訓練技術文字識別(OCR)智能文檔處理(IDP)l 文檔理解預訓練文檔預訓練模型Bi-VLDoc,通過視覺-語言交叉監督引導模態交互,學術界標準數據集上指標處于領先水平l 文字檢測預訓練業界首創將視覺-語言聯合預訓練模型應用于文字檢測領域,在學術界數據集和真實數據集上均取得顯著效果提升l OCR基礎平臺能力形成了證件、票據、多語種、多場景原子能力100+l 多語言識別與國際化卡證支持中、英、日、韓、俄、泰、馬來、印尼、越南、土耳其、泰米爾等十余種文字的識別國際護照:覆蓋世界主要國
3、家和地區固定版式信息提取l 層次化版面分析在視覺版面的基礎上,引入語義標簽信息,豐富了版面的標簽體系,我們提供有42種視覺版面標簽l 多版式異構表格理解針對復雜、豐富多變的表格理解,構建領先的無線表格、有線表格、固定版式表格、表單等多鐘算法能力矩陣,在算法效果上應用在法律、海關等行業目前效果達到SOTA基礎技術IDP技術前沿技術研究02|核心技術:文檔預訓練模型Bi-VLDoc|預訓練任務:不同模態信號交叉監督,引導模態對齊RWTP(語言監督視覺)TIPA(視覺監督語言)BTIA(雙向交叉監督)模型結構:不同模態強制混合注意力,引導模態對齊視覺端:語言端跨模態注意力+視覺自注意力語言端:視覺端
4、跨模態注意力+語言自注意力創新點:視覺-語言雙向精準對齊三個預訓練任務多模態強制混合注意力效果核心技術:多模態文檔理解|基于預訓練模型Bi-VLDoc微調下游任務在4項多模態下游任務上達到業界SOTA再次證明了預訓練模型的價值核心技術:表格結構識別|不規則極端長寬比傾斜扭曲單元格位置和關系識別:CycleCenterNet邏輯坐標預測:基于transformer直接回歸在學術數據集上超過之前最優模型能自適應解析各種有線、無線的復雜表格核心技術:從版面分析到多頁文檔結構|一級標簽二級標簽標題文檔名稱文檔標題文檔副標題段落一級標題段落二級標題段落標題段落子文檔標題子文檔副標題子文檔名稱目錄標題表格
5、有線表格無線表格段落表名表注目錄主體圖名圖注普通段落多欄文字無公式無注解腳注尾注頁眉頁碼logo普通頁眉圖表普通圖片logo頁腳頁碼普通頁腳logo印章無版面分析二級版面標簽(語義標簽)業內數量最多的版面標簽跨頁合并跨頁段落合并跨頁表格合并跨頁表格單元格合并文檔邏輯結構父子層級樹指代等關系利用動態規劃和圖網絡構建文檔結構圖當前業內最全的多頁文檔結構抽取應用:文檔比對和文檔轉換|文檔比對基于文檔層級結構進行內容比對支持格式:word、pdf、圖片之間兩兩比對文檔格式轉換輸入圖片、pdf文檔,轉成word、excel文件基于文檔層級結構還原內容、樣式和版式PDFWORD應用:公益-盲文文檔識別|采
6、用的文檔技術文字識別版面分析表格識別翻譯盲文領域的成果盲文轉中文盲文轉公式盲文表格識別文檔智能技術應用在盲文領域應用在盲校的作業、試卷批改上產業應用案例03|場景痛點傳統的報關模式下,報關員需要人工輸入所有海關需要的申報信息,肉眼核對紙制單證,各環節都是人工操作,通關時效和準確率都無法控制。達摩院通過文檔AI技術,突破國際物流單據種類繁多,版式不固定等識別技術難點,提供智能海關單據抽取能力,解決了80%的人工流程,報關效率提升3.5倍,出錯率下降95%。方案架構技術亮點 單據支持多 支持報關、訂艙場景二十多種單據(固定/非固定版式)涵蓋報關105個字段、訂艙36個字段 識別準確率高 報關平均在90%以上 訂艙平均在95%以上 支持各類文件內容 兼容圖片、壓縮包、pdf、excel、word文件格式 支持對多語言、手寫、印章內容 貼合海關業務根據字段優先級進行多單據結果融合支持報關關鍵詞、轉碼字段和品名等內容糾錯進行海關要求處理字段轉碼(港口、幣制等)產業應用智能報關更多技術展望04|更多技術展望|預訓練技術的發展 版式語篇預訓練 多格式文檔預訓練 長文檔預訓練上下游技術的融合 OCR UIE QA KG更豐富的應用技術 更多格式文檔轉換 目錄摘要生成 行業自學習非常感謝您的觀看|