《清華大學:2020升級版:人工智能之數據挖掘(334頁).pdf》由會員分享,可在線閱讀,更多相關《清華大學:2020升級版:人工智能之數據挖掘(334頁).pdf(310頁珍藏版)》請在三個皮匠報告上搜索。
1、 人工智能之人工智能之數據挖掘數據挖掘 Research Report of Data Mining 2020 年第 9 期 清華大學人工智能研究院 北京智源人工智能研究院 清華中國工程院知識智能聯合研究中心 2020 年 12 月 人工智能之數據挖掘 Research Report of Data Mining I 摘要摘要 數據挖掘(Data Mining)旨在從大規模、不完全、有噪聲、模糊隨機的數 據集中自動抽取隱含的、以前未知的、具有潛在應用價值的模式或規則等有用 知識的復雜過程,是一類深層次的數據分析方法,也是知識發現的關鍵步驟。 本報告圍繞數據挖掘的概念內涵、關鍵技術、人才研究、應
2、用場景、發展 趨勢等方面展開深入研究,主要內容包括: 一、數據挖掘基本概念、發展歷程、研究進展、問題與挑戰。詳細介紹了 數據挖掘的基本概念、發展歷程、技術研究關鍵詞圖譜、研究進展,以及研究 過程中面臨的問題與挑戰。 二、數據挖掘技術研究現狀分析。分別對數據挖掘十大經典算法、統計數 據分析方法、科技情報挖掘技術、社交網絡與圖數據挖掘技術、自然語言數據 挖掘技術、多媒體數據挖掘技術、大規模數據挖掘技術、數據隱私保護和安全 等方面進行了詳細介紹和深入分析,并解讀了 SIGKDD 會議收錄的代表性論文。 三、數據挖掘領域人才現狀分析?;?AMiner 平臺提供的論文和學者大數 據,從學者分布、學術水
3、平、國際合作、學者流動等維度,對國內外相關研究 學者和機構進行了對比分析,總結中國科研學者隊伍建設過程中的弱勢環節和 問題,并提出對策建議。 四、數據挖掘典型應用場景分析。分別介紹了數據挖掘技術在零售業、旅 游業、物流業、醫學界、金融業、電信業等不同行業的應用場景,并如何助力 這些行業的發展。 最后分析了數據挖掘相關技術研究發展趨勢和創新熱點,以及中國的專利 數據和國家自然科學基金支持情況,并展望了數據挖掘未來發展趨勢。 人工智能之數據挖掘 Research Report of Data Mining II 目錄目錄 1 概述篇 . 13 1.1 數據挖掘基本概念 . 13 1.2 數據挖掘發
4、展歷程 . 17 1.3 數據挖掘知識圖譜 . 19 1.4 數據挖掘研究進展 . 20 1.5 數據挖掘問題與挑戰 . 21 1.5.1 數據挖掘的統一理論框架的構建 . 22 1.5.2 高維數據和高速數據流的挖掘 . 22 1.5.3 序列和時序數據的挖掘 . 24 1.5.4 復雜數據中復雜知識的挖掘 . 25 1.5.5 網絡環境中的數據挖掘 . 26 1.5.6 分布式數據和多代理數據的挖掘 . 27 1.5.7 生物和環境數據的挖掘 . 29 1.5.8 數據挖掘過程中的相關問題處理 . 30 1.5.9 數據挖掘中數據安全、數據所涉及到的隱私和數據完整性的維護 . 31 1.5
5、.10 非靜態、非平衡及成本敏感數據的挖掘 . 32 2 技術篇 . 37 2.1 數據挖掘十大經典算法 . 38 2.1.1 C4.5 . 38 2.1.2 K-Means . 40 人工智能之數據挖掘 Research Report of Data Mining III 2.1.3 SVM(Support Vector Machine) . 41 2.1.4 Apriori . 43 2.1.5 EM(Expectation Maximization) . 44 2.1.6 PageRank . 47 2.1.7 AdaBoost . 48 2.1.8 KNN(K-Nearest Neig
6、hbor) . 49 2.1.9 Naive Bayes . 51 2.1.10 CART(Classification and Regression Trees) . 53 2.2 統計數據分析 . 54 2.2.1 基本統計分析方法 . 54 2.2.2 回歸分析方法 . 60 2.2.3 關聯分析 . 63 2.2.4 聚類分析 . 64 2.3 科技情報挖掘技術 . 82 2.3.1 知識溯源 . 82 2.3.2 趨勢分析 . 83 2.3.3 前沿預測 . 85 2.3.4 命名排歧 . 86 2.3.5 決策支持 . 87 2.3.6 人才情報 . 88 2.3.7 科學計量 .
7、 89 2.4 社交網絡與圖數據挖掘技術 . 91 人工智能之數據挖掘 Research Report of Data Mining IV 2.4.1 圖的度量算子 . 92 2.4.2 社交網絡上的算法 . 96 2.5 自然語言數據挖掘技術 . 101 2.5.1 詞表示分析 . 101 2.5.2 語言模型 . 106 2.5.3 話題模型 . 107 2.6 多媒體數據挖掘技術 . 108 2.6.1 文本挖掘 . 109 2.6.2 音頻挖掘 . 111 2.6.3 圖像挖掘 . 112 2.6.4 視頻挖掘 . 112 2.7 大規模數據挖掘技術 . 114 2.7.1 大數據平臺
8、架構 . 115 2.7.2 大數據平臺實例 . 117 2.8 數據隱私保護和安全 . 119 2.8.1 數據隱私保護 . 119 2.8.2 數據安全 . 123 2.9 數據挖掘論文主題分析 . 124 2.10 數據挖掘經典論文概況 . 127 2.10.1 SIGKDD 2013 . 128 2.10.2 SIGKDD 2014 . 136 2.10.3 SIGKDD 2015 . 145 人工智能之數據挖掘 Research Report of Data Mining V 2.10.4 SIGKDD 2016 . 158 2.10.5 SIGKDD 2017 . 168 2.10
9、.6 SIGKDD 2018 . 179 2.10.7 SIGKDD 2019 . 188 2.10.8 SIGKDD 2020 . 200 3 人才篇 . 213 3.1 學者情況概覽 . 213 3.1.1 學者分布地圖 . 213 3.1.2 學術水平分析 . 215 3.1.3 國際合作分析 . 218 3.1.4 學者流動情況 . 220 3.2 學者簡介 . 222 3.2.1 發展過程中代表學者簡介 . 222 3.2.2 近十年代表學者簡介 . 245 3.3 部分國內學者的研究成果 . 260 3.3.1 數據挖掘基礎理論 . 260 3.3.2 社交網絡分析和圖挖掘研究 .
10、 262 3.3.3 大數據挖掘 . 264 4 應用篇 . 269 4.1 零售業 . 269 4.2 旅游業 . 271 4.3 物流業 . 272 人工智能之數據挖掘 Research Report of Data Mining VI 4.4 醫學界 . 273 4.5 金融業 . 274 4.6 電信業 . 276 5 趨勢篇 . 281 5.1 技術研究發展趨勢 . 281 5.2 技術研究創新熱點 . 282 5.3 數據挖掘專利數據分析 . 286 5.4 國家自然科學基金支持情況 . 287 6 總結與展望 . 293 參考文獻. 295 附錄 1 數據挖掘領域關鍵詞 . 30
11、6 附錄 2 期刊和會議列表 . 307 附錄 3 國家自然科學基金 NSFC 項目 . 307 圖表目錄圖表目錄 圖 1 數據挖掘是知識發現的核心過程 . 13 圖 2 數據立方體模型示例 . 15 圖 3 Data Mining 知識圖譜 . 20 圖 4 數據流挖掘流程圖 1 . 24 圖 5 挖掘的復雜數據類型 . 26 圖 6 分布式數據挖掘框架 6 . 28 圖 7 面向基于 Multi-Agent 間通信和協作的智能分布式框架的數據挖掘模型 . 29 圖 8 大數據特征 12 . 31 圖 9 不平衡數據分布圖 . 34 圖 10 柯潔烏鎮大戰 AlphaGo 憾負的微博熱議 .
12、 37 人工智能之數據挖掘 Research Report of Data Mining VII 圖 11 數據挖掘十大經典算法 . 38 圖 12 C4.5 算法生成的決策樹 19 . 39 圖 13 K-Means 算法效果圖 21 . 41 圖 14 SVM 的決策平面 . 42 圖 15 SVM 的核函數 . 43 圖 16 EM 算法要解決的問題 . 45 圖 17 身高問題 EM 算法求解步驟 . 45 圖 18 AdaBoost 結果 . 49 圖 19 KNN 算法簡單示例 . 50 圖 20 KNN 算法分類示例 . 51 圖 21 Nave Bayes 算法分類示例 . 5
13、2 圖 22 兩個微博名人的微博點贊數據的箱型圖 . 56 圖 23 組數較大組距較小的頻率分布直方圖 . 58 圖 24 K-medoids 算法樣例 . 65 圖 25 不確定性目標的 CLARANS 聚類算法對于不同大小數據庫的運行時間比較 36 . 66 圖 26 BIRCH 流程圖 39 . 68 圖 27 CURE 算法的基本流程 40 . 68 圖 28 Chameleon 運作過程示意圖 . 70 圖 29 STING 聚類層次結構 . 75 圖 30 COBWEB 算法邏輯流程圖 . 79 圖 31 Kohonen Network . 81 圖 32 基于回歸分析的趨勢擬合曲
14、線示例 . 84 圖 33 基于引用關系的技術演變路徑分析流程 . 84 圖 34 基于 IRD 的前沿技術預測總體思路 . 85 圖 35 命名實體消歧架構圖 . 87 圖 36 決策支持系統的發展演變過程 . 87 圖 37 文獻計量學、科學計量學和情報計量學(信息計量學)的聯系與區別 . 90 圖 38 Girvan-Newman 算法結果 . 99 圖 39 基于優化 Q 值的算法結果 . 100 圖 40 Louvain 算法步驟 . 101 人工智能之數據挖掘 Research Report of Data Mining VIII 圖 41 Skip-Gram 模型結構 . 104
15、 圖 42 話題模型的概率圖 . 108 圖 43 多媒體文本數據挖掘的過程 . 110 圖 44 音頻波形圖 . 111 圖 45 圖像數據挖掘的基本過程 . 112 圖 46 典型視頻結構圖 . 113 圖 47 基于內容的視頻檢索與挖掘結構圖 . 114 圖 48 大數據處理平臺技術架構圖 . 116 圖 49 基于開源系統的大數據處理平臺架構 . 117 圖 50 隱私保護數據挖掘生命周期模型 . 120 圖 51 大數據安全技術框架 . 124 圖 52 LDA 結構圖 . 125 圖 53 2013-2020 KDD 研究性論文投稿與接收情況 . 128 圖 54 2013-202
16、0 KDD 工業界論文投稿與接收情況 . 128 圖 55 SIGKDD2017 論文研究熱點的詞云圖 . 174 圖 56 SIGKDD2018 論文研究熱點的詞云圖 . 185 圖 57 SIGKDD2019 論文研究熱點的詞云圖 . 196 圖 58 SIGKDD2020 論文研究熱點的詞云圖 . 204 圖 59 數據挖掘領域 h-index 排名前 1000 學者的全球分布地圖 . 214 圖 60 數據挖掘領域 h-index 排名前 1000 學者的中國分布地圖 . 215 圖 61 各國數據挖掘領域論文合作網絡圖 . 219 圖 62 中國與其他國家的論文合作情況 . 220
17、圖 63 全球學者的流動情況 . 221 圖 64 中國學者的流動情況 . 222 圖 65 數據挖掘方法在零售業中的應用 118 . 269 圖 66 數據挖掘應用于智慧旅游的概念結構 121 . 271 圖 67 基于數據挖掘的物流信息系統 123 . 273 圖 68 醫療領域數據挖掘工具的準確性對比 124 . 274 圖 69 互聯網數據挖掘與金融數據挖掘對比 127 . 275 圖 70 電信大數據的數據挖掘流程 129 . 276 人工智能之數據挖掘 Research Report of Data Mining IX 圖 71 數據挖掘領域的技術研究發展趨勢 . 282 圖 72
18、 數據挖掘領域的研究熱點詞云圖 . 283 圖 73 中國歷年的專利數量分布(2010-2019 年) . 286 圖 74 2010-2019 年中國專利數量 TOP 10 機構 . 287 圖 75 數據挖掘領域國家自然科學基金項目支持歷年分布情況 . 288 圖 76 數據挖掘領域國家自然科學基金項目支持數量 TOP 15 機構統計 . 289 表 1 事物數據庫的片段 1 . 15 表 2 數據挖掘領域十大問題與挑戰 . 21 表 3 網絡數據挖掘的分類 5 . 27 表 4 超市購物清單樣例 . 43 表 5 ID3、C4.5 和 CART 的比較總結 . 54 表 6 兩個比較受歡
19、迎的微博名人在 2018 年 3 月到 2018 年 5 月間的一部分微博數據54 表 7 常用技術趨勢分析方法的優缺點對比 . 83 表 8 科學計量學與文獻計量學、信息計量學的關系 . 90 表 9 LDA 模型中的變量和標記 . 108 表 10 多媒體數據挖掘的 SWOT 分析表 . 109 表 11 大數據的特征 . 114 表 12 數據挖掘領域論文主題分布 . 125 表 13 專題分會場報告主題 . 145 表 14 h-index TOP1000 全球學者的國家統計 . 214 表 15 h-index TOP1000 學者的中國省市統計 . 215 表 16 論文總被引頻次
20、排名前 10 的國家 . 216 表 17 論文總被引頻次排名前 10 的全球機構 . 217 表 18 論文總被引頻次排名前 10 的中國機構 . 218 表 19 合作論文數量排名前 10 的國家列表 . 219 表 20 數據挖掘領域關鍵詞的論文數統計 . 284 表 21 數據挖掘研究熱點子領域的代表性學者的學術指標統計 . 285 表 22 數據挖掘相關國家自然科學基金項目分類情況(2010-2020 年) . 287 表 23 數據挖掘領域關鍵詞列表 . 306 人工智能之數據挖掘 Research Report of Data Mining X 表 24 數據挖掘領域代表性期刊和
21、會議列表 . 307 表 25 數據挖掘相關國家自然科學基金項目列表(2010-2020 年) . 307 人工智能之數據挖掘 Research Report of Data Mining XI 1 1 概述篇概述篇 人工智能之數據挖掘 Research Report of Data Mining XIII 1 概述篇概述篇 1.1 數據挖掘基本概念 數據挖掘(Data Mining)的廣義觀點:從數據庫中抽取隱含的、以前未知 的、具有潛在應用價值的模式或規則等有用知識的復雜過程,是一類深層次的 數據分析方法。數據挖掘旨在從數據中挖掘知識,是一種跨學科的計算機科學 分支,使用人工智能、機器學習、統計學和數據庫等交叉學科領域方法在大規 模、不完全、有噪聲、模糊隨機的數據集中自動搜索隱藏于其中的有著特殊關 系性的數據和信息,并將其轉化為計算機可處理的結構化表示,是知識發現的 一個關鍵步驟(如圖 1 所示) 1。 圖 1 數據挖掘是知識發現的核心過程 知識發現是從各種媒體表示信息中,根據不同的需求獲得知識的過程,向 使用者屏蔽原始數