《非結構化數據智能風控.pdf》由會員分享,可在線閱讀,更多相關《非結構化數據智能風控.pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummit#2023非結構化場景智能風控實踐曾利彬-算法專家-螞蟻集團DataFunSummit#202301業務背景介紹業務背景全球收款業務風險點:商戶入駐真實性貿易真實性禁限售信用欺詐收單渠道盜用賬戶資金安全全球付款跨境電商收款外貿B2B收款匯兌服務中國企業(賣家)1 交易撮合,締結合同貿易材料:貿易合同發票,詢盤記錄境外企業(買家)2 發貨貿易材料:快遞單、海運提單、報關單,溝通記錄2 發貨貨運公司(optional)3 匯款4 收款并結匯入境主要風險點主要風險點為真實性風險,非真實貿易收款可能帶來合規風險或欺詐風險業務背景-B2B跨境貿易真實性B2B跨境貿易一般流程業務
2、背景-B2B跨境貿易真實性真實性風險案例一商戶提供的材料無法證明其真實貿易背景,資金來源不明,例如提供了無法驗證的跨境物流單據業務背景-B2B跨境貿易真實性真實性風險案例二商戶通過電信詐騙等方式騙取境外用戶的資金,偽裝成B2B跨境貿易背景跨境收款結匯,例如使用虛假的物流單據和網站 物流狀態一直是label created,處于攬收狀態,未有實際貨物運輸虛假的物流單據:網頁主體不匹配:客戶提供了的商戶主頁,網頁顯示名稱與商戶報備企業名稱不符業務背景-B2B跨境貿易真實性用戶提交貿易背景證明材料貿易真實性審核貿易合同發票跨境物流證明其他材料-貿易材料完整性審核:資金、合同、貨物三方面信息是否一致,
3、例如收款人=合同賣方=發貨人,付款人=合同買方=收貨人-貿易材料真實性審核:基于第三方數據驗證、信息匹配程度等判斷其真實性-網址:售賣商品的網址-溝通記錄:咨詢溝通詢盤等記錄-委托證明:代理發貨、委托付款等證明國際快遞、海運、空運、鐵路運輸單跨境貿易合同,標明了買賣雙方、商品、交貨和付款方式信息DataFunSummit#202302算法技術介紹非結構化場景算法技術介紹算法技術鏈路:用戶提交材料OCR文本內容:Parcop S.r.l.文本位置(文本框坐標)信息獲?。何臋n分類、關鍵信息解析文檔分類:國際快遞信息比對:主體一致性+收貨人與付款人名稱是否一致?智能風控目標:借助算法技術手段實現B2
4、B跨境貿易驗真場景的自動化驗真,實現風險與成本的最優場景特點:非結構化數據場景,所有信息都需要從非結構化的貿易文檔獲取關鍵字段結果收貨人名稱:Parcop S.r.l.非結構化場景算法技術介紹技術難點1:非標文檔如何獲取信息技術難點2:企業多語種名稱如何比對拼音相似讀音相似中文名:廣州必一科技有限公司英文名:guangzhou biyitechnology co.,ltd.中文名:蘇州拓浦微實業有限公司英文名:suzhou top view industrial co.,ltd每個商家提交的文檔風格都不一樣,有圖像多的,有文字多的,有KV型的,有非KV型的,文檔理解是個難題企業的多語種名稱(例
5、如中英文)如何比對是個難題非結構化場景算法技術介紹非標文檔中如何獲取想要的信息?VeLayoutLM:多模態對齊預訓練模型1.充分利用文本周圍的圖文信息多模態對齊:圖像、文本、布局文本+周圍文本推測:這是一個發貨人名稱文本+周圍圖像推測:這是一個物流服務商2.模型有足夠的先驗知識:大規模數據預訓練-Hightlight 1:層次化的mask方案,解決多模掩碼難題-Hightlight 2:多模對齊的預訓練任務,充分利用圖像、文本、布局信息Mask Image Modeling:通過周圍圖像預測掩蓋圖像Multimodel Mask Language Modeling:通過周圍文本+布局預測掩蓋
6、文本,布局和文本的對齊Hierarchical mask Text-Image:推測某段文本是否被mask,圖像+布局與文本對齊-效果:在公開數據集和業務數據集的多模文檔分類、信息解析任務F1均超過90%非結構化場景算法技術介紹企業的多語言名稱比對如何做?語義語音分別表征中英文音譯模型魯棒性問題:拆分與合并規則如何設計?通用性問題:如何推廣到更多實體更多語言?中英文企業名稱規則拆分多語言語義表征規則合并判斷 XLM語義語音融合的多語言表征中文企業名稱多語言名稱庫人名:NEWS 2018世界人名詞典企業名稱:業務數據英文企業名稱拼音相似檢索模糊匹配檢索傳統文本增強:同義詞替換 詞序替換 翻譯替換
7、讀音相似增強:語義+讀音的數據增強方案使用語義語音融合表征+表征距離計算方案,相比較于初版方案效果更優 有的詞是語義翻譯 有的詞是拼音 有的詞是讀音相似 語義和語音結合比對語義語音融合表征 參考多模態模型結構,把音標作為一個模態 使用對比學習方式拉近句子級別表征中文名:廣州必一科技有限公司英文名:guangzhou biyitechnology co.,ltd.中文名:蘇州拓浦微實業有限公司英文名:suzhou top view industrial co.,ltdDataFunSummit#202303智能風控實踐非結構化場景智能風控實踐貿易模式分類中國企業(賣家)境外企業(買家)買賣家締結
8、合同貨代公司貨代公司發貨給買家買家匯款給賣家合同&資金關系(貿易發票、銀行來款信息)物流關系(物流單據)中國企業(賣家)境外企業(買家)賣家發貨給買家貨代公司/三方收貨人賣家發貨給第三方貨代公司發貨給第三方兩方模式三方模式-第三方發貨三方模式-第三方收貨四方模式-第三方發貨和收貨貿易模式還原基于用戶上傳的貿易材料,匹配合同&資金關系、物流關系,判斷其貿易模式 資金收款人 VS 合同賣家 資金付款人 VS 合同買家 資金付款人 VS 物流收貨人 資金收款人VS 物流發貨人用戶歷史有材料證明使用了第三方發貨模式貿易模式:第三方發貨業務解決方案-貿易材料完整性如何保障?貿易材料完整多方參與的B2B跨
9、境貿易,天然存在例如發貨人與賣家不同的情況,針對每種貿易模式設計針對性的解決方案非結構化場景智能風控實踐業務解決方案-貿易材料真實性如何保障?物流履約驗真網址驗真用戶上傳物流單物流單分類模型物流單解析模型用戶網址爬蟲網頁元素提取網頁分類模型:是否合格網頁信息比對模型:名稱是否匹配 物流狀態 發貨國家 收貨國家三方數據查詢三方數據驗證適合非標文檔的偽造識別方案,核心是“找重復”和“找不同”找重復:關鍵要素重復識別貿易單據解析結果:快遞單號發貨人手機號發票號碼文本向量化相似性檢索找不同:文字風格差異識別可以進行三方數據驗證的點-物流驗證和網址驗證預訓練backboneContrastive Lea
10、rningPositive:同一張單據相近的文本框Negative:不同類型單據的文本框/樣本生成篡改檢測:計算貿易單據上文本框與周圍文本框的差異性文檔篡改檢測三方數據驗證和對文檔進行篡改檢測,提高造假成本非結構化場景智能風控總結算法能力非標文檔信息獲取文檔OCR貿易文檔智能解析商戶營業執照/個人證件海關報關單/合同發票/快遞單/海運提單/網頁截圖外部數據查詢工商數據查詢物流數據查詢快遞/海運/空運/報關單 網址查詢驗證主體名稱比對行業比對文檔風險識別非標文檔篡改識別重復性檢測黑圖庫檢索信息比對業務場景實踐方案用戶提交材料:貿易合同發票、物流單、網址資金信息:資金收付款人、金額材料完整性驗證:貿易模式還原 貿易合同發票、物流單OCR和智能文檔解析 根據文檔解析結果還原貿易模式閉環,驗證材料完整性物流驗真網址驗真 物流單OCR和智能文檔解析 根據解析物流服務商和單號進行外部查詢驗真 網頁內容智能解析 網址與商戶名稱匹配驗證 效果:90%+外貿收款及結匯入中材料可由智能風控系統自動審核完成,相比較于人工審核在風險和成本上均大幅下降,并有效縮短外貿商家整個交易流程耗時文檔篡改檢測 非標文檔篡改檢測 重復性檢測感謝觀看