中國電子技術標準化研究院:知識圖譜標準化白皮書(2019)(200頁).pdf

編號:8730 PDF 200頁 14.46MB 下載積分:VIP專享
下載報告請您先登錄!

中國電子技術標準化研究院:知識圖譜標準化白皮書(2019)(200頁).pdf

1、知識圖譜標準化白皮書 I 主編單位:中國電子技術標準化研究院 二零一九年八月 知識圖譜標準化白皮書 (2019版)  II 中國電子技術標準化研究院 牽頭編寫單位: 中國電子技術標準化研究院 聯合編寫單位: 第一章 背景介紹 北京京航計算通訊研究所 南華大學 中電科大數據研究院有限公司 第二章 知識圖譜需求 聯想(北京)有限公司 成都數聯銘品科技有限公司 阿里巴巴網絡技術有限公司 上海思賢信息技術股份有限公司 創新工場人工智能工程院 南華大學 南京柯基數據科技有限公司 中車株洲電力機車研究所有限公司 上海交通大學 第三章 知識圖譜推動條件和驅動因素 中電科大數據研究院有限公司 阿里巴

2、巴網絡技術有限公司 上海思賢信息技術股份有限公司 創新工場人工智能工程院 中國電子科技集團公司第二十八研究所 成都數聯銘品科技有限公司 北京京航計算通訊研究所 湖北暢云時訊軟件技術有限公司  III 中國電子技術標準化研究院 中車株洲電力機車研究所有限公司 南華大學 上海交通大學 阿里云計算有限公司 第四章 知識圖譜主要技術 南華大學 中電科大數據研究院有限公司 東軟集團股份有限公司 聯想(北京)有限公司 星環信息科技(上海)有限公司 成都數聯銘品科技有限公司 阿里巴巴網絡技術有限公司 上海思賢信息技術股份有限公司 創新工場人工智能工程院 南京柯基數據科技有限公司 拓爾思信息技術股份

3、有限公司 天津大學 上海交通大學 第五章 知識圖譜應用 中電科大數據研究院有限公司 東軟集團股份有限公司 聯想(北京)有限公司 星環信息科技(上海)有限公司 南華大學 成都數聯銘品科技有限公司 阿里巴巴網絡技術有限公司 上海思賢信息技術股份有限公司  IV 中國電子技術標準化研究院 創新工場人工智能工程院 南京柯基數據科技有限公司 拓爾思信息技術股份有限公司 北京京航計算通訊研究所 湖北暢云時訊軟件技術有限公司 中車株洲電力機車研究所有限公司 中國電子科技集團公司第二十八研究所 京東集團 北京歐拉認知智能科技有限公司 上海交通大學 北京三快在線科技有限公司(美團點評集團) 第六章 知

4、識圖譜存在的挑戰 中電科大數據研究院有限公司 東軟集團股份有限公司 南京柯基數據科技有限公司 聯想(北京)有限公司 星環信息科技(上海)有限公司 創新工場人工智能工程院 成都數聯銘品科技有限公司 第七章 知識圖譜標準化現狀與需求 中電科大數據研究院有限公司 成都數聯銘品科技有限公司 第八章 結論與展望 中電科大數據研究院有限公司 南京柯基數據科技有限公司  V 中國電子技術標準化研究院 編寫組成員 中國電子技術標準化研究院 郭韋楠韋韋韋韋莎韋韋李瑞琪韋韋李韋佳韋韋張韋欣韋韋 夏娣娜韋韋馬原野韋韋何宏宏韋韋程雨航韋韋紀婷鈺 中電科大數據研究院有限公司 曹韋揚韋韋程韋序韋韋王韋進韋韋張婧

5、慧韋韋蔡惠民韋韋 鄒麗華韋韋闞丹會 東軟集團股份有限公司 趙耕弘韋韋湯一凡韋韋蔡韋巍韋韋崔朝輝 聯想(北京)有限公司 楊韋帆韋韋范雪琴韋韋鄧人菠韋韋陶宏芝 南華大學 劉永彬韋韋歐陽純萍韋羅凌云陽小華韋韋萬亞平 星環信息科技(上海)有限公司 楊一帆韋韋宋群豪韋韋李逸安韋磊韋韋朱哲偉 上海思賢信息技術股份有限公司 王韋瑩韋韋邱夢娟何志亮韋韋安自珍 成都數聯銘品科技有限公司 任韋渝查琳韋韋岳韋冰韋韋黃韋蓉 阿里巴巴網絡技術有限公司 胡寧王韋昊韋韋戴韋健韋韋楊勇華 南京柯基數據科技有限公司 漆桂林韋韋吳韋剛韋韋王虎斌 創新工場人工智能工程院 王博宇韋韋程正濤 上海交通大學 金耀輝  VI 中

6、國電子技術標準化研究院 拓爾思信息技術股份有限公司 王亞強韋韋岳韋松 北京京航計算通訊研究所 王鳳敏韋韋白韋洋韋韋顧楠希 中車株洲電力機車研究所有限公司 張慧源韋韋李韋晨韋韋熊敏君 中國電子科技集團公司第二十八研究所 張韋超韋韋周韋穎 湖北暢云時訊軟件技術有限公司 袁韋野韋韋陳韋榴 京東集團 趙韋楠 阿里云計算有限公司 李龑翔 北京歐拉認知智能科技有限公司 王韋濤韋韋王緒剛 天津大學 劉安安 北京三快在線科技有限公司(美團點評集團) 萬峻辰 編輯組成員 李瑞琪韋韋王韋進韋韋張韋欣  VII 中國電子技術標準化研究院 第一章  背景介紹 1 一、知識圖譜的起源與發展1 二、知

7、識圖譜的定義5 三、白皮書范圍6 四、白皮書概述7 第二章  知識圖譜需求 9 一、公共安全9 二、數字經濟 10 三、金融科技 12 四、資源優化 15 五、科學研究 16 六、制造業轉型 18 七、公眾健康 19 八、人文發展 21 九、政府管理 23 第三章  知識圖譜推動條件和驅動因素  27 一、推動條件  27 二、驅動因素  36  目 錄  VIII 中國電子技術標準化研究院 第四章  知識圖譜的主要技術  47 一、知識獲取 47 二、知識表示 52 三、知識存儲 57 四、知識融合 6

8、3 五、知識建模 68 六、知識計算 71 七、知識運維 80 第五章  知識圖譜應用  87 一、智慧金融 87 二、智慧醫療 94 三、智能制造 99 四、智慧教育104 五、智慧政務108 六、智慧司法112 七、智慧交通117 八、智能電網121 九、智能公安125 十、智慧農業130 十一、社交網絡133 十二、新零售136 十三、智慧外交141  IX 中國電子技術標準化研究院 十四、智慧城建143 十五、其他147 第六章  知識圖譜存在的挑戰 149 一、數據相關的挑戰149 二、算法相關的挑戰150 三、基礎知識庫相關的挑戰154 四、

9、開發工具相關的挑戰155 五、隱私、安全和倫理相關的挑戰157 六、測試認證相關的挑戰160 七、商業模式相關的挑戰162 八、人才相關的挑戰164 第七章  知識圖譜的標準化現狀與需求 167 一、知識圖譜標準化現狀167 二、知識圖譜標準體系170 三、知識圖譜標準化需求175 第八章  結論與展望 179 一、趨勢展望179 二、支持與監管政策相關建議180 三、技術開發與應用相關建議182  X 中國電子技術標準化研究院  圖目錄 圖1.1知識圖譜發展歷史1 圖1.2人工智能發展過程中數據關聯的必要性4 圖1.3知識圖譜標準化白皮書整體結構7 圖

10、2.1我國數字經濟發展情況 11 圖2.2金融生態的金融科技要素分布 13 圖3.1全球數據總量預測2016-2025年 29 圖3.2全球數據圈規模 33 圖3.3全球計算機視覺行業投資趨勢 44 圖4.1知識圖譜技術架構圖 47 圖4.2知識獲取示意圖 48 圖4.3知識圖譜的向量表示 53 圖4.4TransE模型 55 圖4.5帶條件損失度量的KR-EAR方法 55 圖4.6知識存儲方式 58 圖4.7屬性圖結構 59 圖4.8普通圖與超圖 60 圖4.9關系數據庫的使用熱度趨勢  61 圖4.10基于圖模型數據庫的使用熱度趨勢  62 圖4.11知識融合概念分解

11、 64 圖4.12自頂向下的構建方法  68  XI 中國電子技術標準化研究院 圖4.13自底向上的構建方法  68 圖4.14手工建模方式  69 圖4.15半自動建模方式  70 圖4.16知識計算概念  72 圖4.17圖信息檢索示例  73 圖4.18圖特征統計示例  74 圖4.19關聯分析計算示例  75 圖4.20異常檢測示例  76 圖4.21知識推理示例  78 圖4.22知識運維  81 圖4.23數據從消息隊列導入圖譜  81 圖4.

12、24利用工作流引擎定時更新圖譜  82 圖4.25知識容災備份  84 圖5.1智慧金融全景圖 87 圖5.2智慧金融知識圖譜構建 88 圖5.3知識圖譜在智慧金融中的應用 89 圖5.4基于知識圖譜的個人信用反欺詐應用 90 圖5.5基于知識圖譜的產業鏈分析 91 圖5.6營銷流程圖 92 圖5.7風控流程圖 93 圖5.8基于知識圖譜的醫療應用系統 94 圖5.9醫療知識圖譜支撐智慧醫療應用 95 圖5.10煉油化工產業鏈示意圖 100  XII 中國電子技術標準化研究院 圖5.11煉化過程影響因子分析(局部) 100 圖5.12鋼鐵產業的流程圖 102 圖5

13、.13設備制造商全數據鏈整合示例 103 圖5.14知識圖譜在智慧教育中的應用示意圖 104 圖5.15基于知識圖譜的學習成效分析示意圖 107 圖5.16智能校園管理系統架構圖 108 圖5.17基于知識圖譜的智慧政務全景圖 109 圖5.18基于知識圖譜的政策公文智能應用 110 圖5.19醫保審計知識圖譜 111 圖5.20政務服務審批系統運行流程 112 圖5.21知識圖譜在智慧司法中的應用 113 圖5.22司法知識圖譜的構建 114 圖5.23文書生成流程 116 圖5.24智慧調節流程圖 116 圖5.25智慧交通中知識圖譜應用框架 117 圖5.26“智慧交通系統”應用分類 1

14、18 圖5.27利用知識圖譜構建人臉天網的流程圖 118 圖5.28人、車識別與標簽實例 119 圖5.29路徑規劃實例 119 圖5.30城市交通知識圖譜 120 圖5.31知識圖譜在智能電網中的應用分類 122 圖5.32智能客服問題系統的知識檢索架構 123 圖5.33知識圖譜智能搜索視圖 124  XIII 中國電子技術標準化研究院 圖5.34設備故障檢測知識圖譜示意圖 125 圖5.35智能公安全景圖 126 圖5.36基于公安知識圖譜的應用分類圖 127 圖5.37基于知識圖譜產品進行犯罪分析的案例圖 128 圖5.38基于知識圖譜的農業信息檢索 131 圖5.39農業病

15、蟲害知識問答系統架構圖 132 圖5.40蘋果產業實體關聯結構圖 133 圖5.41知識圖譜在餐飲娛樂中的應用示例 135 圖5.42基于知識圖譜的智能檢索結果示例 136 圖5.43電商知識圖譜示意圖 137 圖5.44阿里巴巴電商認知圖譜概覽 138 表5.1認知圖譜關系舉例(部分)139 圖5.45手機淘寶搜索框下搜索詞提示 139 圖5.46手機淘寶首頁猜你喜歡主題卡片推薦 140 圖5.47國家間關系分析的一般流程 141 圖5.48Palantir系統鎖定嫌疑人分析功能界面 142 圖5.49智慧城建結構概念圖 144 圖5.50人工承載力知識圖譜示意圖 145 圖5.51城市市政

16、公用設施知識圖譜 146 圖6.1美國倫斯勒理工學院知識圖譜測評系統架構圖160 圖7.1知識表示關鍵技術標準168 圖7.2知識圖譜標準體系結構圖 171 圖7.3知識圖譜標準體系框架173  XIV 中國電子技術標準化研究院  1 中國電子技術標準化研究院 第一章 背景介紹 一、知識圖譜的起源與發展 (一)知識圖譜的發展歷史 知識圖譜始于20世紀50年代,至今大致分為三個發展階段:第一階段 (1955年1977年)是知識圖譜的起源階段,在這一階段中引文網絡分析 開始成為一種研究當代科學發展脈絡的常用方法;第二階段(1977年-2012 年)是知識圖譜的發展階段,語義網得

17、到快速發展,“知識本體”的研究 開始成為計算機科學的一個重要領域,知識圖譜吸收了語義網、本體在知 識組織和表達方面的理念,使得知識更易于在計算機之間和計算機與人之 間交換、流通和加工;第三階段(2012年至今)是知識圖譜繁榮階段, 2012年谷歌提出Google Knowledge Graph,知識圖譜正式得名,谷歌通過知 識圖譜技術改善了搜索引擎性能。在人工智能的蓬勃發展下,知識圖譜涉 及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解 決和突破,知識圖譜成為知識服務領域的一個新熱點,受到國內外學者和 工業界廣泛關注。知識圖譜具體的發展歷程如圖 1.1 所示。  圖1

18、.1 知識圖譜發展歷史  知識圖譜標準化白皮書 2 中國電子技術標準化研究院 起源階段(1955年1977年):1955年,加菲爾德提出了將引文 索引應用于檢索文獻的思想。1965年,普賴斯在Networks of Scientific  Papers一文中指出,引證網絡-科學文獻之間的引證關系,類似于當代 科學發展的“地形圖”,從此分析引文網絡開始成為一種研究當代科學 發展脈絡的常用方法,進而形成了知識圖譜的概念???J. R. Quillian)于 1968年提出語義網絡,最初作為人類聯想記憶的一個明顯公理模型提出, 隨后在AI中用于自然語言理解,表示命題信息,語義網

19、絡是一種以網絡格 式表達人類知識構造的形式,是人工智能程序運用的表示方式之一。 發展階段(1977年-2012年):1977年,在第五屆國際人工智能會議 上,美國計算機科學家B.A. Feigenbaum首次提出知識工程的概念,知識 工程是通過存儲現存的知識來實現對用戶的提問進行求解的系統,其中最 典型和成功的知識工程的應用是基于規則的專家系統,此后,以專家系 統為代表的知識庫系統開始被廣泛研究和應用。1991年,美國計算機專 家尼徹斯(R. Niches)等人在完成美國國防部高級研究計劃局(Defense  Advanced Research Projects Agency, 簡稱

20、DARPA)關于知識共享的科研項 目中,提出了一種構建智能系統的新思想,該智能系統由兩個部分組成, 一個部分是“知識本體”(ontologies),另一部分是“問題求解方法” (Problem Solving Methods,簡稱PSMs),知識本體是知識庫的核心,涉 及特定領域共有的知識結構,是靜態的知識;后者(PSMs)涉及在相應 領域的推理知識,是動態的知識,PSMs使用知識本體中的靜態知識進行 動態推理。自1998年萬維網之父Tim Berners-Lee提出語義網,同時隨著鏈 接開放數據(Linked Open Data)的規模激增,互聯網上散落了越來越多的知 識元數據。2002年,

21、機構知識庫的概念被提出,知識表示和知識組織開始 被深入研究,并廣泛應用到各機構單位的資料整理工作中。 繁榮階段(2012年至今):21世紀,隨著互聯網的蓬勃發展,信 息量呈爆炸式增長以及搜索引擎的出現,人們開始渴望更加快速、準確地  知識圖譜標準化白皮書 3 中國電子技術標準化研究院 獲取所需的信息。知識圖譜強調語義檢索能力,關鍵技術包括從互聯網的 網頁中抽取實體、屬性及關系,旨在解決自動問答、個性化推薦和智能信 息檢索等方面的問題。目前,知識圖譜技術正逐漸改變現有的信息檢索 方式,如谷歌、百度等主流搜索引擎都在采用知識圖譜技術提供信息檢 索,一方面通過推理實現概念檢索(相對于現有的

22、字符串模糊匹配方式而 言);另一方面以圖形化方式向用戶展示經過分類整理的結構化知識,從 而使人們從人工過濾網頁尋找答案的模式中解脫出來。 (二)知識圖譜的重要性 哲學家柏拉圖把知識定義為“Justified True Belief”,即知識需要 滿足三個核心要素:合理性(Justified)、真實性(True)、被相信 (Believed)。簡單而言,知識是人類通過觀察、學習和思考有關客觀世 界的各種現象而獲得和總結出的所有事實(Facts)、概念(Concepts)、 規則或原則(Rules RongrongJi;PengCui;QionghaiDai;GangHua.Hyperspectr

23、alImage ClassificationThroughBilayerGraph-BasedLearningEB/OL.https:/ieeexplore.ieee.org/ abstract/document/6804696,2014-7.  知識圖譜標準化白皮書 61 中國電子技術標準化研究院 (三)知識存儲基礎工具 知識圖譜的存儲并不依賴特定的底層結構,一般的做法是按數據和應 用的需求采用不同的底層存儲,甚至可以基于現有關系數據庫或NoSQL數 據庫進行構建。關系型數據庫是典型的基于表結構的存儲,圖數據庫是典 型的基于圖結構的存儲。 1、關系型數據庫 關系數據庫通過屬性對現實

24、世界中的事物進行描述,采用關系模型來 組織數據的數據庫,其以行和列的形式存儲數據。一行一個記錄,一列表 示一個屬性。用戶通過查詢來檢索數據庫中的數據,而查詢是一個用于限 定數據庫中某些區域的執行代碼。根據DB-Engines的統計數據,從2013年 到2019年,Oracle、MySQL和Microsoft SQL Server穩居關系型數據庫的前 三甲,如圖4.9所示。 圖4.9關系數據庫的使用熱度趨勢 (數據來源:https:/db-)  知識圖譜標準化白皮書 62 中國電子技術標準化研究院 2、圖數據庫 圖數據庫源起歐拉和圖理論(graph theory),也可稱為面向/基于圖

25、的 數據庫,圖數據庫的基本含義是以“圖”這種數據結構存儲和查詢數據。 它的數據模型主要是以節點和關系(邊)來體現,也可處理鍵值對,優點是 快速解決復雜的關系問題。圖數據庫是一種非關系型數據庫,支持對圖結 構進行查詢、增加、刪除、更新等操作。相對傳統的關系型數據庫,查詢 速度快、操作簡單、能提供更為豐富的關系展現方式。根據DB-Engines的 統計數據,列舉了一些近幾年來常用圖數據庫的使用熱度趨勢曲線,如圖 4.10所示。 圖4.10 基于圖模型數據庫的使用熱度趨勢 (數據來源:https:/db-) (四)技術發展趨勢 知識存儲過程完成對各類知識圖譜組成元素的存儲,以支持對大規 模圖數據的有

26、效管理,滿足快速查詢、讀取、寫入的操作,為知識計算等 應用提供服務支撐。針對知識圖譜的分布式存儲、知識存儲的伸縮性和靈 活性,以及基于LOD的知識存儲,是技術發展的重點方向,同時,超圖  知識圖譜標準化白皮書 63 中國電子技術標準化研究院 (Hyper Graph)也是未來知識存儲的研究熱點。知識存儲相關技術發展趨 勢包括以下幾個方面: 1、基于RDF知識表示的分布式存儲 隨著互聯網及各領域數據的持續積累,各個領域方向的知識圖譜數量 與規模日益增長,單機系統的數據存儲能力難以應對知識圖譜數據的大規 模增長。同時,基于資源描述框架(RDF)存儲的知識圖譜更便于知識推 理和計算,符合知

27、識圖譜應用的未來需求。但RDF存儲模式所含有大量三 元組的數據,使其索引效率與更新維護成本大于其它圖存儲模式。因此, 未來知識存儲的一種研究趨勢為如何利用分布式數據庫系統來解決RDF數 據的大規模增長問題。 2、設計高適應性的知識存儲 隨著知識圖譜的規模越來越龐大、知識的表示方式越來越復雜,這對 目前的知識存儲方式提出了挑戰。如何設計出可支持對復雜節點的定制、 具有良好可伸縮性和靈活性的知識存儲模式,滿足復雜的查詢、讀取、計 算和應用需求成為面向知識圖譜的知識存儲的迫切要求。 3、基于LOD(Linked Open Data)的知識存儲 由于知識表示RDF模型的通用性和靈活性,知識圖譜供應方越

28、來越 傾向將自身的知識圖譜數據表示成RDF格式并發布到互聯網上。通過URI 相互鏈接起來,這些發布在互聯網上的RDF數據共同構成了一個覆蓋整個 互聯網的龐大知識圖譜。為了讓這個龐大知識圖譜網絡更加豐富和完善, W3C積極推進LOD項目。LOD已成功將數百個RDF數據集相互鏈接在一起 以增強數據的可用性。 4、超圖的進一步研究和應用 超圖所擁有的簡單圖無可比擬的復雜關系表示方式,能更加全面詳 盡地描述業務、還原場景。但目前對超圖的可視化表示方法還沒有理想方 案,對于超圖的劃分方式、深度學習及應用,大部分仍處于實驗室研究階  知識圖譜標準化白皮書 64 中國電子技術標準化研究院 段。推廣

29、到各領域進行工程化運用,無論在計算效率和成本上都存在較大 問題。但隨著知識圖譜的普及,未來對于復雜關系的表示的需求,將逐步 增多,超圖技術的研究和應用探索將是知識圖譜的下一個方向。 四、知識融合 (一)知識融合概述 知識融合的概念最早出現在1983年發表的文獻HOLSAPPLE C,et  al,1983 1中,并在20世紀九十年代得到研究者的廣泛關注。而另一種知識 融合的定義是指對來自多源的不同概念、上下文和不同表達等信息進行融 合的過程維基百科。A.Smirnov,et al,2002 2認為知識融合的目標是產 生新的知識,是對松耦合來源中的知識進行集成,構成一個合成的資源, 用

30、來補充不完全的知識和獲取新知識。唐曉波,魏巍,et al,2015 3在總 結眾多知識融合概念的基礎上認為知識融合是知識組織與信息融合的交叉 學科,它面向需求和創新,通過對眾多分散、異構資源上知識的獲取、匹 配、集成、挖掘等處理,獲取隱含的或有價值的新知識,同時優化知識的 結構和內涵,提供知識服務。 (二)知識融合過程 知識融合是一個不斷發展變化的概念,盡管以往研究人員的具體表述不 同、所站角度不同、強調的側重點不同,但這些研究成果中還是存在很多共 1HOLSAPPLEC,WHINSTON,ASoftwaretoolsforknowledgefusionJ Computerworld,1983

31、,17(15):1118 2SMINOVA,LEVASHOVAT,SHILOVNContext-basedknowledgefusionpatterns indecisionsupportsystemforemergencyresponseC/Proceedingsofthe10th internationalISCAMConferenceKarlsruhe:KarlsruheInstituteofTechnology, 2013:597606. 3唐曉波,魏巍知識融合:大數據時代知識服務的增長點J,圖書館學研究,2015(5):9 14.  知識圖譜標準化白皮書 65 中國電子技術

32、標準化研究院 性,這些共性反應了知識融合的固有特征,可以將知識融合與其他類似或相 近的概念區分開來。知識融合是面向知識服務和決策問題,以多源異構數據 為基礎,在本體庫和規則庫的支持下,通過知識抽取和轉換獲得隱藏在數據 資源中的知識因子及其關聯關系,進而在語義層次上組合、推理、創造出新 知識的過程,并且這個過程需要根據數據源的變化和用戶反饋進行實時動態 調整。從流程角度對知識融合概念進行分解,如圖4.11所示: 參數校正反饋評估 統一的知識表示形式 用戶(應用問題) 融合結果 本體庫 數據源 信息源 知識源 知識抽取 知識轉換 知識 因子 知識 因子 知識 因子 知識 因子 融合算法 知識融合

33、規則庫 圖4.11 知識融合概念分解 (三)研究現狀 知識融合從融合層面劃分可以分為數據層知識融合與概念層知識融 合,數據層知識融合主要研究實體鏈接、實體消解,是面向知識圖譜實例 層的知識融合;概念層知識融合主要研究本體對齊、跨語言融合等技術。 1、數據層知識融合技術 實體鏈接問題是數據層知識融合研究的主要任務,其核心是構建多類 型多模態上下文及知識的統一表示,并建模不同信息、不同證據之間的相 互交互,主要的實體鏈接方法有:基于實體知識的鏈接方法、基于篇章主 題的鏈接方法和融合實體知識與篇章主題的實體鏈接方法。  知識圖譜標準化白皮書 66 中國電子技術標準化研究院 2、概念層知識融

34、合技術 概念層知識融合是對多個知識庫或者信息源在概念層進行模式對齊 的過程。本體對齊或者本體匹配是概念層知識融合主要研究任務,是指確 定本體概念之間映射關系的過程。本體匹配可以分為單語言本體匹配和跨 語言本體匹配,單語言本體匹配是指同一自然語言中本體的對齊映射,跨 語言本體匹配是指從兩個或多個獨立的語言本體中建立本體之間映射關系 的過程 1。本體匹配的研究核心就在于如何通過本體概念之間的相似性度 量,發現異構本體間的匹配關系,本體匹配基本方法包括基于結構的方 法、基于實例的方法、基于語言學的匹配算法、基于文本的匹配算法和基 于已知本體實體聯結的匹配算法。 3、跨語言知識融合技術 在大數據時代背

35、景下,如何將跨語言的知識圖譜進行對齊與融合,實 現知識的全球共享,為跨語言知識服務提供便利,是知識圖譜進一步研究 的過程中需要解決的問題 2??缯Z言知識圖譜研究的目的是構建一個包含 當前重要知識庫的大規??缯Z言知識庫,提高不同語言之間鏈接數據的國 際化以及知識共享全球化,便于跨語言信息檢索、機器翻譯和跨語言知識 問答等跨語言處理任務的研究與應用。Hailong Jin,et al,2019 3構建了一 個有42萬中英跨語言實體鏈接的雙語言知識圖譜(XLORE2),自動化融合 了來自維基百科、百度百科和互動百科的信息。 4、現有知識融合工具 現有的知識融合工具包括:Falcon-AO、YAM+、

36、Dedupe等。以 Falcon-AO為例,其是由南京大學計算機軟件新技術國家重點實驗室開發 1BoF,BrennanR,OSullivanD.Aconfigurabletranslation-basedcross-lingual ontologymappingsystemtoadjustmappingoutcomesJ.SocialScienceElectronic Publishing,2012,15(6):15-36. 2費宇星.跨語言知識圖譜的對齊與融合研究D.哈爾濱工業大學,2018. 3JinH,LiC,ZhangJ,etal.XLORE2:Large-scaleCross-lin

37、gualKnowledgeGraph ConstructionandApplicationJ.DataIntelligence,2019,1(1):77-98.  知識圖譜標準化白皮書 67 中國電子技術標準化研究院 的一個基于Java的自動本體匹配系統,已經成為RDF(S)和OWL所表達的 Web本體相匹配的一種實用和流行的選擇。Falcon-AO系統采用了相似度 組合策略,首先使用PMO進行分而治之,然后使用語言學算法(V-Doc、 I-Sub)進行處理,然后使用結構學算法(GMO)接收前兩者結果再做處 理,最后連通前面兩者的輸出使用貪心算法進行選取。 (四)技術發展趨勢 盡管知

38、識融合已經在學術和工業應用中取得了非常顯著的成效,然 而隨著網絡社會數據特征、跨語言融合、知識規模增加等帶來挑戰越發緊 迫,針對短文本及資源缺乏環境下的實體鏈接方法、融合先驗知識的深度 學習端到端實體鏈接方法、大規模本體的高效匹配方法將成為未來研究的 重要趨勢。 1、短文本及資源缺乏環境下的實體鏈接方法 傳統的實體鏈接任務主要是針對長文檔,長文檔擁有在寫的上下文信 息能輔助實體的歧義消解并完成鏈接。而由于日常生活中人們在社交網絡 中常常會產生大量短文本數據,相比之下,短文本的實體鏈接存在口語化 嚴重、短文本上下文語境不豐富等巨大挑戰,因而面向短文本的實體鏈接 方法研究將會成為未來的研究熱點。另

39、外目前絕大部分的實體鏈接模型依 賴于有監督模型,需要大量標簽數據集訓練來達到實用目的。因此短文本 及資源缺乏環境下,基于無監督/半監督和遷移學習的實體鏈接模型是解 決問題的關鍵。 2、融合先驗知識的端到端深度學習實體鏈接方法 今年來,基于深度學習模型(如BiLSTM-CRF)在實體鏈接任務上取 得了較大的進展,同時展現出了巨大的應用潛力,然而基于深度學習的算 法訓練需要大量標注數據集,缺少面向特定領域特點和任務的針對性設 計。另一方面當前實體鏈接方法易受到實體識別等前序過程的誤差影響,  知識圖譜標準化白皮書 68 中國電子技術標準化研究院 因此結合先驗知識訓練端到端深度學習實體鏈接

40、模型成為未來的一大研究 趨勢。針對這個問題,一方面,當前許多算法嘗試已經證明結合先驗知識 的思路在實體鏈接任務中的有效性,如在深度學習模型中增加句法結構、 語言學知識、特定領域任務約束、現有知識庫知識和特征結構等,如何更 好的結合有效利用這些先驗知識是提升實體鏈接算法性能的有效手段。同 時設計基于端到端的深度學習模型將有助于降低實體鏈接過程中的誤差傳 播效應,提高實體鏈接準確度。 3、大規模本體的高效匹配方法 隨著當前各類型知識庫的出現和知識規模的快速增長,而由于通常 本體匹配的計算復雜度與本體規模成正比,因此大規??缯Z言本體匹配成 為知識庫融合的重大挑戰,主要面臨的挑戰有:大規模本體匹配的快

41、速 并行計算問題和人機協同匹配問題。針對這個問題主要的思路有:研 究基于分布式處理技術的大規模本體匹配分布式處理算法,如研究利用 MapReduce、GPU等技術的并行匹配算法,提高匹配效率;研究利用現 有本體匹配結果實現潛在本體匹配的方法,同時利用啟發式相似度計算方 法提高計算效率;通過對實體匹配進行預剪枝,預先過濾不匹配的實體 對,避免本體之間一對一的相似度計算。 五、知識建模 (一)知識建模概述 知識建模是指建立知識圖譜的數據模型,即采用什么樣的方式來表 達知識,構建一個本體模型對知識進行描述。在本體模型中需要構建本體 的概念,屬性以及概念之間的關系。知識建模的過程是知識圖譜構建的基 礎

42、,高質量的數據模型能避免許多不必要、重復性的知識獲取工作,有效 提高知識圖譜構建的效率,降低領域數據融合的成本。不同領域的知識具  知識圖譜標準化白皮書 69 中國電子技術標準化研究院 有不同的數據特點,可分別構建不同的本體模型。 知識建模一般有自頂向下和自底向上兩種途徑:1自頂向下的方法 (如圖4.12所示)是指在構建知識圖譜時首先定義數據模式即本體,一般 通過領域專家人工編制。從最頂層的概念開始定義,然后逐步細化,形成 結構良好的分類層次結構。2自底向上的方法則相反(如圖4.13所示), 首先對現有實體進行歸納組織,形成底層的概念,再逐步往上抽象形成上 層的概念。自底向上的方法則

43、多用于開放域知識圖普的本體構建,因為開 放的世界太過復雜,用自頂向下的方法無法考慮周全,且隨著世界變化, 對應的概念還在增長,自底向上的方法則可滿足概念不斷增長的需要。 圖4.12 自頂向下的構建方法              圖4.13 自底向上的構建方法 (二)知識建模方法 知識建模目前的實際操作過程,可分為手工建模方式和半自動建模方 式 1。手工建模方式適用于對知識建模容量小、質量高的要求,但是無法 滿足大規模的知構建,是一個耗時、昂貴、需要專業知識的任務;混合方 式將自然語言處理與手工方式結合,適于規模大且語義復雜的

44、圖譜。 1、手工建模方式 手工建模方式過程主要可以分為以下的六個步驟:明確領域本體及任 1胡兆芹.本體與知識組織M.中國文史出版社:北京,2014:63.  知識圖譜標準化白皮書 70 中國電子技術標準化研究院 務、模型復用、列出本體涉及領域中的元素、明確分類體系、定義屬性及 關系、定義約束條件。在人工建模的過程中,以上的六個步驟并不是一一 順序執行的,可以根據知識建模的具體需求,組合其中的步驟達到知識建 模的目的。下面分別對這些步驟作詳細的介紹,如圖4.14所示。 圖4.14 手工建模方式 2、半自動建模方式 半自動建模方式先通過自動方式獲取知識圖譜,然后進行大量的人工 干預過程,

45、如圖4.15所示。運用自然語言處理技術先自動建模的方法可以 分為三大類 1:基于結構化數據的知識建模方法,基于半結構化數據的知 識建模方法和基于非結構化數據的知識建模方法。近年來,對于非結構化 數據的知識建模方法研究較多,涌現出一批優秀的基于非結構化數據的知 識建模方法的高水平研究成果。 1Al-ArfajA,Al-SalmanA.Ontologyconstructionfromtext:challengesandtrendsJ. InternationalJournalofArtificialIntelligenceandExpertSystems(IJAE),2015,6(2):15-26

46、. 圖4.15 半自動建模方式  知識圖譜標準化白皮書 71 中國電子技術標準化研究院 (三)知識建模評價 對知識建模質量評價也是知識建模的重要組成部分,通常與實體對 齊任務一起進行的。質量評價的作用在于可以對知識模型的可信度進行量 化,通過舍棄置信度較低的知識來保障知識庫的質量。一個合理的本體模 型宜滿足以下標準:  明確性和客觀性:用自然語言對所定義術語給出明確的、客觀的 語義定義。  完全性:定義是完整的,完全能表達所描述領域內術語的含義。  一致性:正確一致地展示數據、對象和信息,由術語得出的推論 與術語本身含義不會產生矛盾。  最大單

47、調可擴展性:添加通用或專用的術語時,不需要修改己有 的內容,便于知識圖譜擴展。  最小承諾:盡可能少的約束,指本體約定應該最小,對建模對象 盡可能少的約束。  易用性:有效地支撐業務的分析和決策需求。 (四)技術發展趨勢 知識建模核心解決了采用什么樣的形式高效組織和表達知識的問題,偏 向于知識建模的方法論,在未來的發展趨勢中,將會解決知識建模的規范化 和標準化。同時隨著大數據時代的到來,知識建模將會朝著對大規模數據的 進行建模的方向發展,屆時多人在線編輯,并且實時更新知識建模將成為可 能。針對傳統人工知識建模耗時、耗力、效率低下等弊端,知識建??膳c自 動語義處理算法進行結合

48、,實現全自動建模方式,避免人工干預和操作;另 外,快速集成現有的結構化知識模型,支撐起事件、時序等復雜知識形式的 表達模式,建立功能更加完善、表達更加強大的知識模型。  知識圖譜標準化白皮書 72 中國電子技術標準化研究院 六、知識計算 (一)知識計算概述 隨著知識圖譜技術及應用的不斷發展,圖譜質量和知識完備性成為 影響知識圖譜應用的兩大重要難題,以圖譜質量提升、潛在關系挖掘與補 全、知識統計與知識推理作為主要研究內容的知識計算成為知識圖譜應用 的重要研究方向。知識計算是基于已構建的知識圖譜進行能力輸出的過 程,是知識圖譜能力輸出的主要方式。知識計算概念內涵如圖4.16所示, 主要包

49、括知識統計與圖挖掘、知識推理兩大部分內容,知識統計與圖挖掘 重點研究的是知識查詢、指標統計和圖挖掘;知識推理重點研究的是基于 圖譜的邏輯推理算法,主要包括基于符號的推理和基于統計的推理。 圖4.16 知識計算概念  知識圖譜標準化白皮書 73 中國電子技術標準化研究院 知識計算的概念中明確了以下幾個層面的問題: (1)知識計算是針對已構建的知識圖譜所存在的問題:不完備性和 存在錯誤信息,在此基礎上通過將知識統計與圖挖掘、知識推理等方法與 傳統應用相結合進行能力輸出,為傳統應用形態進行賦能,進而提高知識 的完備性和擴大知識的覆蓋面。 (2)知識計算中兩種具有代表性的能力:知識統計與圖挖

50、掘、知識 推理。知識統計和圖挖掘的方法是基于圖特征的算法來進行社區計算、相 似子圖計算、鏈接預測、不一致檢測等;知識推理的目標在于從給定知識 圖譜中推導出新的實體、關系和屬性。通過這兩種能力實現對已有圖譜的 知識補全、知識糾錯、知識更新、知識鏈接等功能。在此基礎上,知識計 算的能力輸出可應用于用戶精準畫像、決策數據、輔助決策意見、智能問 答/搜索等方面。 (二)研究現狀 知識圖譜的應用大多基于對復雜網絡的大規模計算,計算的結果或以 在線服務,或以離線結果的形式提供給應用者。知識計算的能力輸出方法 包括:知識統計與圖挖掘、知識推理。 1、知識統計與圖挖掘 知識統計與圖挖掘是指基于圖論的相關算法,

51、實現對知識圖譜的基礎 性查詢、統計分析和圖挖掘計算,主要包括:圖查詢檢索、圖特征統計、 關聯分析、時序分析、節點分類、異常檢測、預測推理等。 (1)圖查詢檢索 圖查詢和檢索是最常見的計算,常用于查詢目標節點的n度關聯方、 或者查詢某子圖結構,主要是以深度優先或廣度優先等方式遍歷網絡,輸 出關聯節點或同構實例。圖4.17為圖信息檢索示例。  知識圖譜標準化白皮書 74 中國電子技術標準化研究院 圖4.17 圖信息檢索示例 (2)圖特征統計 圖特征統計是指對圖譜中單一節點、或多個節點的圖特征以及屬性特 征進行統計計算的過程,如圖4.18所示。其中,單主體圖特征包括出度、 入度、介度和中心度,出度表征某節點發出的邊的多少,定義為統計節點 發出的關系總條數;入度表征某節點接收到的邊的多少,定義為統計指向 該節點的關系總條數;介度表征某節點橋接作用的重要性;中心度表征

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(中國電子技術標準化研究院:知識圖譜標準化白皮書(2019)(200頁).pdf)為本站 (風亭) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站