《知識圖譜在法律領域的研究與實踐.pdf》由會員分享,可在線閱讀,更多相關《知識圖譜在法律領域的研究與實踐.pdf(22頁珍藏版)》請在三個皮匠報告上搜索。
1、知識圖譜在法律領域的研究與實踐演講人:趙新顏阿里巴巴達摩院 2023 業務背景圖譜構建圖計算問答交流業務背景阿里巴巴達摩院-語言智能實驗室-應用算法-智能司法組 致力于研究自然語言處理、知識圖譜、數據挖掘及文檔智能相關前沿技術,并在司法行業取得了豐碩的落地成果。具體研究方向包括法律生成式對話大模型、司法UIE、司法預訓練、信息檢索、司法知識圖譜、司法文本生成以及知識表示與知識推理。團隊重視基礎研究,近年來在人工智能領域頂會發表論文數十篇,申請專利50余篇,主導/參與四項國家級科技部課題(司法相關),在多項重要競賽中取得較好的成績,并在國際A類大會SIGIR2020上承辦第一屆智能司法works
2、hop(LegalAI2020)。其研究成果在最高人民法院、多家省級高級人民法院、省級人民檢察院以及銀行等法律相關政府部門及企業上實現成功落地。其中在浙江省高級人民法院落地的“平臺+智能司法”項目,被浙江省列為2020十大數字化轉型重點項目之一,“鳳凰智審”產品被社科院納入2022法治藍皮書經典案例,同時智能司法實驗室為評為浙江省巾幗創新工作室稱號。全國首個超大規模司法知識圖譜全國首個超大規模司法知識圖譜知識圖譜規模高達2.2億節點、4.9億關系,融合中國裁判文書網全量數據1.3億、浙江本地裁判文書全量數據800余萬支持檢索、畫像、問答、邏輯推理等智能應用,且可多元化、低成本擴展深度檢索的檢索
3、量在2500余次/工作日全國首個落地應用的全國首個落地應用的“法院大腦雛形法院大腦雛形”4大知識服務基礎引擎,創新開發60余個算法模型,為全省法院生態提供30余項通用化智能服務,60余項案由化智能服務2大知識服務支持平臺,具備模型自學習能力和知識圖譜管理能力,實現全場景模型標注、訓練和應用一體化服務為浙江全域為浙江全域“數字法院數字法院”提供數智支撐提供數智支撐支撐智慧服務、智慧審判、智慧執行、智慧管理四大業務場景支撐“鳳凰智審”案由和地域全面拓展,支持案由從1個擴展為7個;全省使用智審的法院數量增至30家;通過智審立案超8000件;標的額超80億人民幣杭州杭州1313家法院家法院湖州湖州3家
4、法院家法院紹興紹興2家法院家法院嘉興嘉興2 2家法院家法院寧波寧波2 2家法院家法院溫州2家法院臺州臺州2 2家法院家法院麗水2家法院衢州衢州1 1家法院家法院金華1家法院法律法規解析引擎司法文書解析引擎司法邏輯推理引擎司法人機對話引擎司法NLP自學習平臺司法知識圖譜管理平臺9 9種實體種實體1313種關系種關系智能中臺應用成效法律智能15985227422849934794384982015 2016 2017 2018 20192015-2019最高人民法院受理案件數量(單位:件)1170122013241421156519512303257328003156201020112012201
5、32014201520162017201820192010-2019地方各級人民法院受理案件數量(單位:萬件)翻了2.7倍案多人少,345件/人/年 并且持續上升簡單案件花費大量精力,重復勞動多案件審理周期長,群眾滿意度不高ABC法官司法公信司法公信提速升效提速升效裁判標準難統一,同案同判缺標尺D法律法律普惠普惠為什么需要法律圖譜高精度多源數據結果可解釋任務導向復雜-直觀信息聚合可解釋性強圖計算法律智能法律智能圖譜特性圖譜特性法律圖譜和通用圖譜的異同 知識圖譜是結構化的語義知識庫,用于迅速描述各個事物的概念及其相互關系。通常為“實體-關系-實體”的三元組結構形式 司法圖譜是實體+事件圖,通過實
6、體將不同案件關聯起來,沉淀業務規則,進行信息聚合和直觀展示,可以更好的建模實體、事件、案件法律圖譜構建法律圖譜的構建流程歷年裁判文書+數據中臺辦案數據文書結構化實體抽取案件特征抽取法律法規抽取事件抽取司法知識圖譜構建圖譜構建 圖譜融合知識推理知識更新通過對自然語言描述的檢索條件進行語義理解,結合底層強大的司法知識圖譜挖掘算法,對海量司法數據進行召回處理,將滿足條件的案例聚合后進行多維切片,從案由、時間、地域、主題等不同維度進行匯總分析,為法院領導、法官提供不同視角的案例研判分析數據。司法圖譜Schema的演進1.0只有實體類節點 實現簡單 通用性好 信息量低司法圖譜Schema的演進2.0 從
7、文書要素出發 擴展性強 通用性好 案情表示粒度較粗 規模 覆蓋全量裁判文書 節點和邊的規模均在10億級別司法圖譜Schema的演進3.0 加入案由化的案情描述節點 信息豐富 實現復雜,對信息抽取能力要求較高由文書形成圖歷年裁判文書+數據中臺辦案數據文書結構化實體抽取案件特征抽取法律法規抽取事件抽取司法知識圖譜構建圖譜構建 圖譜融合知識推理知識更新通過對自然語言描述的檢索條件進行語義理解,結合底層強大的司法知識圖譜挖掘算法,對海量司法數據進行召回處理,將滿足條件的案例聚合后進行多維切片,從案由、時間、地域、主題等不同維度進行匯總分析,為法院領導、法官提供不同視角的案例研判分析數據。生成式信息抽取
8、構建基于生成式的要素、關系抽取、歸一一體模型;與業界SOTA效果可比,但更加簡潔靈活MicroMicro f1 f1 scorescore模型模型交通肇事交通肇事危險駕駛危險駕駛業界SOTA79.290.2BERT序列標注82.786.6生成式抽取85.285.290.390.3通過行為類型“利用信息技術實施盜竊”將同類型案件關聯通過律師律所案件的關聯,可實現案件律師的匹配線索挖掘,通過地點關聯,發現發生在“長清區”的偷車盜竊的比較多,可提醒民警與當地群眾防范偷車圖計算基于圖的數據挖掘多維統計分析/預測企業司法畫像分析關聯企業風險分析轄區歷年企業風險分析企業司法風險預測司法圖譜檢索個人/企業涉
9、訴查詢關聯企業查詢關聯案件查詢轄區法院辦案類型分布舉例檢索條件:XX企業近三年年涉訴情況查詢檢索結果:XX企業2018-2020年共涉訴5起,其中買賣合同糾紛3起,金融借款糾紛1起,民間借貸糾紛1起,涉訴金額達3800萬元。舉例檢索條件:XX區去年企業風險分析分析結果:展示轄區內金融相關案由分布及涉訴金融分布,企業規模分布,未執行案件分布等。通過對自然語言描述的檢索條件進行語義理解,結合底層強大的司法知識圖譜挖掘算法,對海量司法數據進行召回處理,將滿足條件的案例聚合后進行多維切片,從案由、時間、地域、主題等不同維度進行匯總分析,為法院領導、法官提供不同視角的案例研判分析數據?;趫D游走的類案推
10、薦 類案一定具有共同案由,共同法條 具有同一當事人、律師、法官的案件為類案的概率較高p5p5結果為空比例結果為空比例純文本算法0.639831%圖游走算法0.80890%基于圖表示的律師推薦 場景:根據用戶的法律提問,推薦合適的律師 模型:構建問題-律師圖,在圖中學習律師表示,計算問題表示與律師表示的相似程度,進行律師推薦三類圖計算方法的對比圖數據挖掘 可解釋性好 運算復雜度高,對數據質量要求高 當需要挖掘圖中節點和邊之間的關系和規律時圖游走 可解釋性好 容易受到超級節點的影響;需要業務的深刻理解 當需要在圖中進行遍歷和搜索時圖表示 特征建模能力強:能夠捕捉圖結構特征和節點自身特征 可解釋性差;動態圖處理復雜 當需要處理圖中節點和邊的特征和結構時,比如節點嵌入感謝聆聽Q&A