《5-2 信息抽取統一建模技術及應用.pdf》由會員分享,可在線閱讀,更多相關《5-2 信息抽取統一建模技術及應用.pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、信息抽取統一建模技術及應用戴岱 百度NLP-資深研發工程師|01信息抽取技術在業務中的定義、問題和挑戰02封閉式信息抽取統一建模技術03開放式信息抽取統一建模技術04開源通用信息抽取技術及工具目錄 CONTENT|信息抽取技術在業務中的定義、問題和挑戰01|信息抽取*:從無結構內容中抽取有用的結構化信息|情感傾向觀點描述前所未見華語超級大片場面燃爆了戰狼2實體關系事件信息主題標簽娛樂影視泛標簽華語大片首映要素標簽戰狼2吳京篇章主體PDF/Word網頁HTML掃描圖片戰狼2吳京導演主演上映時間7月27日晚8點01分戰狼29741萬59.1%名稱票房上座率7月27日晚8點01分,由吳京自導自演的電
2、影戰狼2正式全國上映,4小時內橫掃9741萬票房,上座率高達59.1%,徹底點燃了暑期檔。一起被點燃的還有觀眾的情緒和好口碑。在超百萬觀眾看片后,前所未見的華語超級大片,場面燃爆了成為影評關鍵詞。戰狼2上映首日票房破億純文本圖像特征布局特征跨模態無結構內容信息抽取技術多維度結構化信息主體識別評論抽取標簽計算情感分類實體識別關系抽取事件抽取是非分類MONETTransformerTextPromptBounding Box通用信息抽取*與學術界俠義上的定義不同,在實際業務場景中,我們將從內容中抽取信息的任務都定義為信息抽取信息抽取是百度業務中不可或缺的核心技術|Query新聞評論票據病歷財報案宗
3、對話智能檢索輔助決策消費建議內容推薦自動審校自動錄入知識構建客戶分析信息抽取技術搜索搜索智能化智慧醫療輔助診斷、病案質控、數據治理電商消費決策、屬性補全、商品推薦智慧金融單據錄入、審核比對、風險評估智慧法律類案檢索、法條推薦、輔助判決客服工單分析、信息錄入、案例推薦C端B端信息流內容推薦業務的循證要求,使信息抽取成為不可或缺的一環信息抽取面臨任務多、領域多、跨模態、缺數據等挑戰|標簽計算情感分類主體識別觀點抽取實體識別 關系抽取任務復雜多樣互聯網醫療金融政務法律電商面向多個領域語言視覺融合文檔數據標注困難網頁圖文視頻任務復雜領域專業數據私密傳統方法單獨建模各類信息抽取任務,耗時耗力|分類任務標
4、注任務CLSW1W2W3預訓練模型LabelW4SEPCLSW1W2W3預訓練模型OW4SEPBIESO標簽分類關鍵詞抽取情感傾向問答相關性實體識別閱讀理解關系抽取對話理解粒度:句子級/實體級任務:情感/觀點/情緒領域:電商/新聞/輿情多模:語音/視頻每個場景均需要單獨定制p 數據專員標注上千數據p 深度學習專家設計和調優模型p 迭代周期長達幾周到幾月通用、統一的建模方式有助于降低模型研發成本|通用性差不同任務需要單獨設計模型 任務統一單模型支持多種IE任務任務層設計大量數據標注訓練調優交付使用少量數據適配交付使用項目3任務層設計大量數據標注訓練調優交付使用項目2任務層設計大量數據標注訓練調優
5、交付使用項目1項目1交付使用項目2交付使用項目3 遷移性差跨領域難以相互遷移和增強 開放領域優秀的跨領域遷移能力通用信息抽取多任務統一建模傳統單任務建模實體關系事件情感多任務訓練跨領域數據互聯網醫療金融法律通用信息抽取依托于文心ERNIE大模型技術|2019.72019.3ERNIE 2.0全球首次突破90分大關超越人類平均得分GLUE 摘冠ERNIE-ViLERNIE-Doc5項跨模態任務取得最好效果VCR 榜單冠軍13項中英文長文本任務取得最好效果2019.12ERNIE-M2021.12020.12理解96種語言在XTREME 榜單奪冠2021.7ERNIE 3.0首個知識增強百億參數大
6、模型同時具備語言理解與生成能力SuperGLUE 摘冠登頂全球榜首超越人類0.8個百分點2021.12全球首個知識增強千億大模型鵬城-百度文心ERNIE-ViLG全球最大中文跨模態生成模型ERNIE 1.0中文效果超越BERT國內首個開源預訓練模型2020.7中英文16個公開數據集全面領先同時提升單/跨模態任務效果VQA/aNLI 上取得最好效果ERNIE-UNIMO2022.3ERNIE-GeoL2022.5任務知識增強的千億大模型ERNIE 3.0 ZeusERNIE-SAT地理-語言跨模態大模型語音-語言跨模態大模型基于知識增強的理解與生成大模型ERNIE3.0|持續學習各行各業應用Em
7、beddingEmbeddingTransformer BlockTransformer Block1 1Transformer BlockTransformer Block k k大規模文本數據大規模知識圖譜小樣本學習自然語言生成網絡Transformer BlockTransformer Block k+1k+1Transformer BlockTransformer Block n nTransformer BlockTransformer Block k+1k+1自然語言理解網絡通用語義表示任務語義表示微調零樣本學習Transformer BlockTransformer Block
8、n n融合自編碼和自回歸結構既可語言理解也可語言生成特色二從大規模知識圖譜和海量無結構數據中學習,突破多源異構數據難以統一表示與學習的瓶頸特色一飛槳4D 4D 混合并行技術,高效支持超大規模模型訓練特色三ERNIE學習了海量的語料和知識,極大的提升了通用信息抽取泛化能力|7100萬篇領域文章1200萬輪人類對話數據7400萬知識圖譜三元組2.1億條問答知識10.9億篇網頁語料和詞語實體知識封閉式信息抽取統一建模技術02|信息抽取的兩種建模方式對比|封閉式建模開放式建模VS建模方式抽取目標固化在網絡結構中抽取目標通過Prompt輸入訓練方式不同領域、任務需要單獨訓練模型多任務訓練需要單獨設計所有
9、任務轉化為一種任務形式跨領域、跨任務可以統一訓練遷移能力任務間較難遷移可跨領域、跨任務遷移數據成本需要較多訓練樣本(1k)需要較少訓練樣本(1001k)開放抽取無法實現可實現跨領域、跨任務的開放抽取復雜任務通過不同的任務層設計可以解決各類復雜抽取問題統一任務層設計難以適配所有復雜抽取問題推理性能較好,1-pass預測模型可壓縮較差,N-pass預測(N為抽取目標數)模型壓縮后遷移能力下降明顯適用場景成熟業務場景目標需求封閉、任務定義復雜、推斷性能要求成長業務場景需求目標開放、任務定義簡單、缺少數據積累封閉式統一建模技術:簡化模型選型、攻克復雜任務、提升推理速度|技術首創:位置關注序列標注hph
10、t+ctofinNewYorkOS-LOCOB-Loc_inI-Loc_inCRFBi-LSTMWordCharacter?atPositionAttention?QueensCurrent attentive position phpht復雜場景:級聯指針標注 右 胸 疼 痛,呈持 續 鈍痛,3天 前 加 重 ERNIE EncoderSelf-AttentionSpan Prediction上腹部疼痛加重轉歸狀態轉歸時間三天前上腹部疼痛,呈持續性鈍痛癥狀身體部位 癥狀描述癥狀描述多粒度嵌套要素識別任務Position-AttentionSpan Prediction屬性關系抽取任務Shar
11、ed hidden高效解碼:單階段詞對標注ERNIE Encoder墜痛加重三腹天小M EntitiesSESESESEN RelationsToken Pair Representation小 腹 墜 痛 加 重 三 天小腹墜痛加重三天小 腹 墜 痛 加 重 三 天基于位置關注序列標注的實體和關系聯合抽取|Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling.AAAI 2019Background實體和關系聯合抽取能夠使用單個模型同時建模實體抽取和關系
12、識別,有助于降低誤差傳導等問題先前方法如NovelTagging*使用一個序列標注模型,無法應對三元組重疊等復雜抽取任務的挑戰*Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme.ACL 2017.Novel Tagging*基于位置關注序列標注的實體和關系聯合抽取|Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling.AAAI 2019 提出基于每個位置進
13、行序列標注的Tagging Scheme 引入位置關注的Attention機制,使得模型可以基于不同的位置給出不同的標注結果Methodhpht+ctofinNewYorkOS-LOCOB-Loc_inI-Loc_inCRFBi-LSTMWordCharacter?atPositionAttention?QueensCurrent attentive position phpht基于位置關注序列標注的實體和關系聯合抽取|Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence
14、 Labeling.AAAI 2019Results 在同期工作中取得SOTA效果,同時顯著提升了復雜三元組抽取能力實現初步的封閉式統一建模,即相同模型結構可以建模實體、關系、事件等不同任務,可簡化業務中的模型選型基于指針標注的級聯信息抽取模型:攻克復雜場景|醫療等行業面臨復雜信息抽取?1?3?3?0?(?)kgid?1?1?基于指針標注的級聯信息抽取模型:攻克復雜場景|?fij?P?lj?,32?1?-=3?=?32,?23?.3?4?*?3?.?-=32?1?c?fH?e?e?.?=32?+?223?Sa?M-?*?3?.?-=32?1?-?*?3?.?-=32?1?hd?a?_?Ma?M
15、?)?(?(?$?1?3?2?4?3=?A?23?1=?$?1?1?)?2?4?3=?A?23?1=?$?(?$?(?fijlj?/?fij?flj?問題:需要multi-stage預測,解碼效率很低文心大模型ERNIE3.0單階段(single-stage)詞對標注:提升推理速度|推理速度較級聯模型最高提升10倍文心大模型ERNIE3.0墜痛加重三腹天小M EntitiesSESESESEN RelationsToken Pair Representation小 腹 墜 痛 加 重 三 天小腹墜痛加重三天小 腹 墜 痛 加 重 三 天開放式信息抽取統一建模技術03|信息抽取的兩種建模方式對比
16、|封閉式建模開放式建模VS建模方式抽取目標固化在網絡結構中抽取目標通過Prompt輸入訓練方式不同領域、任務需要單獨訓練模型多任務訓練需要單獨設計所有任務轉化為一種任務形式跨領域、跨任務可以統一訓練遷移能力任務間較難遷移可跨領域、跨任務遷移數據成本需要較多訓練樣本(1k)需要較少訓練樣本(1001k)開放抽取無法實現可實現跨領域、跨任務的開放抽取復雜任務通過不同的任務層設計可以解決各類復雜抽取問題統一任務層設計難以適配所有復雜抽取問題推理性能較好,1-pass預測模型可壓縮較差,N-pass預測(N為抽取目標數)模型壓縮后遷移能力下降明顯適用場景成熟業務場景目標需求封閉、任務定義復雜、推斷性能
17、要求成長業務場景需求目標開放、任務定義簡單、缺少數據積累開放式統一建模技術:攻克跨領域、少樣本等難題|前身:基于MRC的抽取式建模UIE:生成式文本到結構建模UIEv2:Domain Pretrained Model總總租金金 SEP總租賃52元,總租賃金額為13852.52元(大寫 Span Prediction13852.52元Query:Passage:租金Transformer Layer 1Transformer Layer NUniversal IETransformer?Structural Schema Instructor(person:Steve(work for:Appl
18、e)(start position(employee:Steve)(employer:Apple)(organization:Apple)(person:Steve)(organization:Apple)(time:1997)Structural Extraction Language基于MRC的抽取式統一建模|人物戰狼2的導演地震的震級情感傾向正向,負向屏幕色彩的評價詞哈萊會見了中國駐埃及大使廖力強由吳京自導自演的戰狼2上映發生地震,震級為7.1級,震中屏幕色彩十分鮮艷,顯示效果極佳屏幕色彩十分鮮艷,顯示效果極佳哈萊廖力強Span Prediction實體關系事件情感評價F1實體關系事件情
19、感平均單任務建模87.692.179.194.788.4統一建模87.892.579.095.688.70.4p Full-set全樣本效果不弱于單任務建模p 跨領域小樣本場景效果大幅提升自建行業測試集(F1)純文本平均互聯網醫療金融強基線69.657.048.958.5zero-shot81.282.854.172.714.25-shot88.989.868.482.423.9該模型的Base版本已在PaddleNLP開源(UIE抽取版)Transformer Layer 1Transformer Layer N文心大模型ERNIE3.0UIE:生成式文本到結構統一建模Unified Str
20、ucture Generation for Universal Information Extraction.ACL-2022Background幾乎所有信息抽取任務都可以統一成結構生成范式生成模型具有足夠的靈活性,可以解決各類復雜抽取問題對于復雜schema情況,相比于MRC抽取式模型的N-pass推理,生成模型可以實現1-pass推理|UIE:生成式文本到結構統一建模Unified Structure Generation for Universal Information Extraction.ACL-2022Method(person:Steve(work for:Apple)?Ste
21、ve became CEO ofApple in 1997.Structural Schema InstructorTransformer Layer 1Transformer Layer NUniversal IETransformer(person:Steve(work for:Apple)(start position(employee:Steve)(employer:Apple)(organization:Apple)(person:Steve)(organization:Apple)(time:1997)Structural Extraction LanguageEntityRela
22、tionEvent首創提出了結構化指令提示(SSI)統一刻畫不同的抽取任務目標,結構化抽取語言(SEL)統一表達抽取結果UIE單個模型統一建模了實體、關系、事件和情感任務,不同任務數據集可統一訓練,使模型具備優秀遷移性通過一個簡單的遠監督預訓練,使得生成模型提前適應SSI和SEL的輸入輸出形式|UIE:生成式文本到結構統一建模Unified Structure Generation for Universal Information Extraction.ACL-2022ResultsUIE在4大任務13個項目上取得了SOTA效果,平均提升了1.53%|UIE:生成式文本到結構統一建模Unif
23、ied Structure Generation for Universal Information Extraction.ACL-2022ResultsUIE具備非常優秀的小樣本遷移能力|開源通用信息抽取技術及工具04|UIE中文版已在PaddleNLP開源,形成了整套的通用信息抽取工具抽取式版本支持Taskflow一鍵調用、一鍵微調、一鍵部署,極大降低了信息抽取任務定制門檻生成式版本提供了完整訓練評估流程,供交流學習|Taskflow一鍵調用新任務docanno標注少量數據一鍵微調定制一鍵部署+推理加速Zero-shot效果可用?微調效果未達標?UIE支持Taskflow一鍵調用,Schema不限定抽取目標實體抽取Key-Value抽取關系抽取屬性抽取觀點抽取情感傾向UIEhttps:/