《中國人工智能學會:2015年中國機器學習白皮書(70頁).pdf》由會員分享,可在線閱讀,更多相關《中國人工智能學會:2015年中國機器學習白皮書(70頁).pdf(70頁珍藏版)》請在三個皮匠報告上搜索。
1、中國機器學習白皮書中國機器學習白皮書中國人工智能學會中國人工智能學會二二一五年十一月一五年十一月1中國人工智能系列白皮書編委會中國人工智能系列白皮書編委會主任:李德毅執行主任:王國胤副 主 任:楊放春譚鐵牛黃河燕焦李成馬少平劉宏蔣昌俊任福繼楊強委員:陳杰董振江杜軍平桂衛華韓力群何清黃心漢賈英民李斌劉民劉成林劉增良魯華祥馬華東馬世龍苗奪謙樸松昊喬俊飛任友群孫富春孫長銀王軒王飛躍王捍貧王萬森王衛寧王小捷王亞杰王志良吳朝暉吳曉蓓夏桂華嚴新平楊春燕余凱余有成張學工趙春江周志華祝烈煌莊越挺中國機器學習白皮書編寫組中國機器學習白皮書編寫組組長:陳松燦高陽組員:黃圣君李武軍薛暉俞揚余志文詹德川詹志輝張利軍張
2、敏靈莊福振2目錄第 1 章 引言.1第 2 章 主流機器學習技術進展.32.1 度量學習.32.2 多核學習.72.3 多視圖學習.102.4 集成學習.142.5 主動學習.182.6 強化學習.22第 3 章 新興機器學習技術選介. 273.1 遷移學習.273.2 深度學習.313.3 統計關系學習.343.4 演化學習.36第 4 章 大數據時代的機器學習. 414.1 并行機器學習.414.2 哈希學習.464.3 在線學習.48第 5 章 結束語.521第 1 章 引言“機器學習” (Machine Learning)是人工智能的核心研究領域之一, 其最初的研究動機是為了讓計算機系
3、統具有人的學習能力以便實現人工智能1。 機器學習領域奠基人之一、 美國工程院院士 T. Mitchell教授在其經典教材Machine Learning中所給出的機器學習經典定義為“利用經驗來改善計算機系統自身的性能”2。一般而言,經驗對應于歷史數據(如互聯網數據、科學實驗數據等) ,系統對應于數據模型(如決策樹、支持向量機等) ,而性能則是模型對新數據的處理能力(如分類和預測性能等) 。因此,機器學習的根本任務是數據的智能分析與建模。隨著信息技術不斷向網絡化、 低成本方向發展, 人們在社會生活、科學研究等各個領域中的數據正以前所未有的速度產生并被廣泛收集、存儲。如何實現數據的智能化處理從而充
4、分利用數據中蘊含的知識與價值,已成為當前學術界與產業界的共識。正是在這樣的大趨勢下,機器學習作為一種主流的智能數據處理技術,其作用日漸重要并受到了廣泛關注。例如,美國科學院、工程院兩院院士 T. J. Sejnowski 等人 2009年在Science上撰文指出,機器學習正成為發展新的學科的基礎之一3;美國政府 2012 年公布的大數據研究發展計劃中,將機器學習作為核心支撐技術;在我國制定的國家中長期科學和技術發展規劃綱要(2006-2020 年)中,以機器學習為核心的“智能”關鍵詞在目錄中 6 次出現。特別值得一提的是,計算機界最高獎圖靈獎在 2010年與 2011 年連續兩年授予機器學習
5、領域的兩位杰出學者 (L. Valiant,2010 年度;J. Pearl,2011 年度) ,這標志著機器學習經過 30 余年的蓬勃發展,現已成為計算機科學中最重要和最活躍的研究分支之一。本白皮書旨在簡要闡述當前機器學習領域的研究和應用現狀, 主2要包括三方面內容: 第 2 章對機器學習領域主流學習技術的研究進展進行了介紹,包括度量學習、多核學習、多視圖學習、集成學習、主動學習以及強化學習;第 3 章對近年來新興的機器學習技術做了選介,包括遷移學習、深度學習、統計關系學習以及演化學習;第 4 章對大數據時代一些重要機器學習技術進行了介紹,包括并行機器學習、哈希學習以及在線學習。在內容組織上
6、,各章節主要包括背景介紹以及相關技術進展, 并在必要時對所涉及的產業應用及未來可能的研究方向進行了討論。3第 2 章 主流機器學習技術進展2.1 度量學習度量是計量的準則。脫離度量,收集的數據、分析的結果也就喪失了物理意義和現實指征。 而距離的度量對眾多機器學習方法的性能都起到了決定性作用:例如在分類方法中,K 近鄰分類器、使用了高斯核的核方法;在聚類方法中,K 均值聚類、譜聚類方法都與距離度量密切相關。一般來說,對于任意樣本 x, y, z 而言,距離度量函數需要滿足自反(任意樣本到自身的距離為 0) 、對稱(x 到 y 的距離等于 y 到 x 的距離) 、非負(任意樣本對之間的距離大于等于
7、 0)以及直遞(三個樣本之間的距離滿足三角不等式)等性質。為了適應不同的具體應用場景, 人們提出了諸如閔可夫斯基距離 (歐幾里得距離、 曼哈頓距離、切比雪夫距離均為其特例) 、馬氏距離、海明距離等距離度量函數,并針對某些特定問題,提出了一些衍生距離度量,例如,動態時間規整距離 DTW4, 推土機距離 EMD5等。隨著機器學習應用面的日益拓展, 通過人工設計或定義特定的衍生距離度量函數未必吻合面對的問題,因此,通過學習獲得問題相關的度量成為研究主題, 卡內基梅隆大學機器學習系的邢波教授于2003年提出了距離度量學習6。在隨后的 10 余年里,各類距離度量學習方法不斷被提出,并在諸如社交網絡連接預
8、測、強化學習的狀態連接學習、信息檢索與推薦、身份驗證、甚至醫療效果評估等方面都獲得了廣泛應用。對距離度量學習的研究首先始于對馬氏距離的深入探討。 對于任意兩個 d 維樣本,其馬氏距離的平方定義為.其中 M 是度量矩陣,并且為了保持距離的非負對稱性,M 應當為對4稱半正定矩陣。一般的距離度量學習針對度量矩陣 M 展開。例如:E.Xing等人提出的距離度量學習方法在已知某些樣本在語義層面相似、某些樣本相異的語境下,通過引入必連(must-link)和勿連(cannotlink)約束集概念(分別記為 和,即相似樣本組成的樣本對屬于必連約束集、相異樣本對屬于勿連約束集) ,學習出一個滿足給定約束的度量
9、矩陣,為此設法學到一個 M,使相似樣本間距離盡量小、同時相異樣本間距離盡量大,即優化如下式所列的約束優化問題6:其中限定 M 半正定??紤]到度量矩陣的對稱正定性,必然存在正交基 P,使得,也即對度量矩陣 M 的學習,等效于學習一個線性空間變換矩陣 P。更進一步地,若 M 是一個低秩矩陣,那么存在正交基,該正交基可以作為降維矩陣使用。也即低秩距離度量學習可以衍生出一個降維方法。圖2-1 給出了對距離度量學習(等效于對空間進行線性變換)前后 3 近鄰分類結果變化的示意圖。圖圖 2-1 距離度量學習前后距離度量學習前后 3 近鄰分類效果示意圖,問號為測試樣本,訓練樣本近鄰分類效果示意圖,問號為測試樣
10、本,訓練樣本分屬于紅、黑兩個類別。左側為各向同性的歐氏空間,測試樣本根據多數投票分屬于紅、黑兩個類別。左側為各向同性的歐氏空間,測試樣本根據多數投票應當分類為黑;右側為度量學習后的空間,可以發現某些特征組合對近鄰選取應當分類為黑;右側為度量學習后的空間,可以發現某些特征組合對近鄰選取的作用得到了放大的作用得到了放大/縮小,從而導致縮小,從而導致 3 近鄰分類結果出現差異,分類為紅。近鄰分類結果出現差異,分類為紅。必連、勿連約束往往來自于樣本的標記信息,而且約束所有的樣5本,故而使用必連、勿連約束的距離度量學習方法往往是全局度量學習方法,此類方法的代表還有:將必連約束刻畫為等價關系的相關成分分析
11、7; 使用對數行列式(logdet)差異度作為正則項的信息論度量學習8;全局距離度量學習也被多個知名研究團隊推廣到在線學習環境910。圖圖 2-2 LMNN 學習前后,黃色圓點為同類訓練樣本,其他異色方塊為類別不同學習前后,黃色圓點為同類訓練樣本,其他異色方塊為類別不同的樣本。的樣本。LMNN 學習得到的度量旨在局部區域將同類樣本點拉近、異類樣本點學習得到的度量旨在局部區域將同類樣本點拉近、異類樣本點排斥開排斥開,并在同類和異類樣本之間建立一個邊界區域以便于并在同類和異類樣本之間建立一個邊界區域以便于 kNN 取得較好的分取得較好的分類效果。類效果。不同于這些全局度量學習方法, Weinber
12、ger 和 Saul 提出了一種利用鄰域內三元關系進行度量學習的方法 LMNN11,圖 2-2 給出了LMNN 方法的直觀示意。在 LMNN 中所有的約束關系都限于某個樣本的局部鄰域,故此類方法也被稱為局部距離度量學習方法。自LMNN 提出后,局部距離度量學習方案得到眾多研究者的青睞,多種擴展方案被分別提出,例如,能處理多任務的 mt-LMNN16,可在不同集簇中學習多個度量的 mm-LMNN12等; 在局部距離度量學習方面, Huang 等人提出了能夠處理一定噪音和錯誤的魯棒度量學習方法RML13;Chechik 等人借鑒 LMNN 的思想,直接對內積形式的相似6度利用局部約束加以學習,并將
13、相關算法運用于大規模圖像檢索,取得了很好的效果14; 利用與局部距離度量學習類似的思想, 研究者不僅針對馬氏距離度量矩陣進行學習,甚至對前述的 EMD 距離進行了學習,例如-LMNN 就針對與直方圖類特征對應的 EMD 距離進行學習15; 在局部信息和性質的利用方面, 有些研究者甚至為每個樣本都學習了合適的距離度量16。隨著數據收集手段的提升,大數據時代已經開啟。在大數據情境下,距離度量學習和降維之間的關系得到了研究者的關注。事實上,早在2003年Goldberger等人提出的NCA一文中就明確指出距離度量學習和降維之間的關系17,Bellet 等人在 2005 年就明確指出:幾乎每種線性距離
14、度量學習方法都對應著一類降維策略18。 在意識到距離度量學習和降維的關系之后, 研究者們提出了很多能夠直接進行降維或者利用降維能力簡化計算的距離度量學習方法。例如,Shi 等人提出在有限基上進行距離度量學習, 其中僅需學習一組基的線性組合系數即可,從而消減了距離度量學習的計算量19。值得注意的是,除了降維之外,距離度量學習研究者們也設計出了獨到的高維數據處理方法, 如 Qian 等人于 2014 年提出了一種基于隨機投影的距離度量學習方法,通過隨機投影降低數據維度,并通過對偶空間的基重構獲得原空間的距離度量20;Schultz 和 Joachims、以及 Gao 等人都提出了學習一個對角距離度
15、量矩陣代替學習完全的度量矩陣的替代方案等2122。 此外, 最近興起的稀疏學習技術在距離度量學習研究中也獲得了運用23。距離度量學習同樣在計算機視覺、 信息檢索和生物信息學相關領域受到關注。在計算機視覺領域,距離度量學習除了被用于圖像分類24、物體識別25、視覺追蹤26之外,還在一些計算視覺的本質問題,如圖像表示方面等,被加以利用;信息檢索的結果對距離和相似度的定義十分敏感,因此這方面的工作也相對豐富2728;對 DNA 和蛋白7質分子的結構分析涉及諸如編輯距離和 DTW 方面的研究,度量學習在這些特殊距離度量處理方面也有對應的研究工作2930。2.2 多核學習核方法是機器學習中一類強有力的統
16、計學習技術, 被廣泛應用于分類、回歸、聚類等諸多領域。核選擇是核方法的關鍵內容,因其是提高核方法泛化性能的重要一環。多核學習(Multiple KernelLearning,MKL)通過利用多個基本核的組合代替單核,將核選擇問題轉化為對組合系數的選擇,有效地改進了核方法。其最早應用于生物信息學領域,例如在蛋白質功能預測與定位、蛋白質分子間的交互預測等問題中,由于來自異構源的數據具有不同的特性,可以通過多個基本核矩陣的線性組合實現異構數據源的融合, 基于此訓練分類器取得了很好的性能。構造多核模型,最基本的方法就是考慮多個基本核函數的凸組合:1( , )( , )MiiiKKxx,0i,11Mii
17、其中( , )iK x 是基本核函數,M 是基本核的總個數,i是組合系數,條件0i可以確保由此產生的Gram矩陣是半正定的。 因此, 在MKL框架下, 樣本在特征空間中的表示問題轉化為基本核與組合系數的選擇問題31。 在這個由多個特征空間構建的組合空間中, 利用了各個基本核的特征映射能力, 通過將異構數據的不同特征分量利用對應的核函數進行映射,使數據在新的特征空間中得到更好的表達,能顯著提高分類性能31。MKL 的本質問題就是,如何得到這個組合的特征空間,即如何通過學習得到組合系數31。近年來,研究者們提出了一系列 MKL 算法,主要側重于算法的優化求解和性能提高兩個方面。Lanckriet
18、等人考慮組合系數和分類器參數的聯合優化, 提出了基于二次約束二次規劃問題的 MKL 算法32,但是算法僅適用于具有少量樣本和核的小規模問題。Bach 等人進一步提出了一種新對偶形式,8將其刻畫為二次錐規劃問題,可利用 Moreau-Yosida 正則化,采用序列最小優化算法求解33。 Lanckriet 等人通過在核矩陣中綜合考慮訓練樣本和測試樣本,利用半定規劃技術實現了核矩陣的學習問題,也為MKL 提供了一種漸近直推式算法34。Sonnenburg 等人在多核矩陣錐組合的基礎上, 將 Bach 等人的對偶形式改寫為半無限線性規劃問題,可利用線性規劃方法迭代求解組合系數和分類器參數, 并可推廣
19、到回歸、單類分類等學習問題35。但是,這種迭代算法在收斂到一個合理解之前, 需要過多的迭代運算, 計算效率仍然不高31。 Rakotomamonjy等人用一種自適應的 l2-范數正則化方法來考慮 MKL 問題, 每個核矩陣的組合系數被包含在經驗風險最小化問題中,并利用 l1-范數約束以提高解的稀疏性36,然后采用了一種基于分塊 l1-范數正則化的算法來求解,顯著提高了算法的收斂速度和效率37。Xu 等人認為求解大規模多核學習的次梯度下降方法和半無限線性規劃方法均存在不足:前者僅利用了當前解的梯度,后者在割平面模型中得到的近似解有可能遠離最優解。因此,擴展了最初為非光滑目標函數優化而設計的水平方
20、法,利用了之前迭代過程中的所有梯度,通過向水平集投影對解進行修正,從而克服了這兩種方法的缺點38。Xu 等人進一步利用 MKL 和分組 Lasso 之間的一致性優化組合系數,得到了一個閉式解, 從而提出了一種新的MKL求解方法并可推廣到lp-范數的情況39。Vishwanathan 等人利用序列最小優化算法訓練以 lp-范數平方或Bregman 散度為正則化的線性 MKL, 保持了算法簡單性和高效性40。Jin 等人基于貪婪坐標下降算法, 提出了一種新的稀疏 MKL 算法, 不但保持了解的稀疏性,而且在適當的條件下能夠達到幾何收斂率41。除了研究如何高效求解 MKL 優化問題,研究者們還從核的
21、非稀疏性以及組合方式等角度出發,深入探討了提高 MKL 算法性能的方法。在多核學習中最常用的是組合系數的 l1-范數約束,其優勢在于可提高核組合的稀疏性31。然而,Kloft 等人認為盡管稀疏的核組合9能夠提供很好的可解釋性并提高計算效率, 但當某個問題多個特征編碼間具有正交性時, 稀疏性可能導致有用信息的丟失和泛化性能的下降31。因此,他們通過對組合系數引入 l2-范數約束,提出了非稀疏的 MKL 算法,顯著提高了 MKL 算法在抗噪聲和特征集冗余方面的魯棒性31。此后,Kloft 等人又將 l2-范數約束推廣到任意的 lp-范數,采用牛頓下降法和割平面法求解,進一步增強了 MKL 的通用性
22、和魯棒性42。另一個可能的拓展是探索核的組合方式或混合范數組合31。Varma 和 Babu 研究了核的非線性組合,將 l1-范數約束推廣至任意的可微函數約束,提出了推廣的 MKL 算法43。Jain 等人進一步提出了一種譜投影梯度下降優化算子,通過考慮步長選擇中的二階信息,采用了一個非單調步長選擇策略, 有效地提高了該算法的魯棒性和計算效率44。 Hinrichs 等人將 l1-范數和 l2-范數約束推廣至二次函數帶權約束,嵌入了核中的聚類結構,以挖掘核間的高階信息45。Cortes 等人在回歸問題中研究了核的多項式組合問題, 采用了投影梯度下降算法求解優化問題46。近年來,多核學習已被成功
23、應用于機器學習的許多領域,如多示例學習、 半監督學習、 增量學習等4748, 并在生物特征識別、 無人機、信息檢索等領域得到了廣泛應用。例如,在虹膜圖像檢測方面,研究者利用多核學習, 融合了頻譜能量分布、 奇異倒譜直方圖等多個特征,有效地提高了檢測效果。在醫學診斷方面,多核學習可克服采用單一核函數所導致的多個檢測指標很難同時兼顧的問題, 充分發揮了多個核函數不同的刻畫能力,提高了檢測算法的泛化能力和魯棒性,較好地提升了診斷的準確度和敏感度,為醫學診斷提供了更準確的信息。在無人機故障診斷方面,多核學習在單核的基礎上,進一步融合了無人機平飛時俯仰角速率、 爬升和下滑兩種縱向飛行模態時速率陀螺發生沖
24、擊、偏差、卡死、乘性故障時俯仰角速率等多源數據信息,達到了更高的故障診斷準確性。在高光譜遙感圖像分類方面,多核學習實10現了空間特征和光譜特征的聯合分類, 分別從高空間分辨率的可見光圖像和高光譜分辨率的高光譜圖像中提取空間特征和光譜信息, 構建多特征多核學習模型, 有效地提高了空譜特征可利用性和高光譜遙感圖像分類效果。盡管多核學習取得了上述諸多優越性能, 但其仍存在一些問題亟待解決。首先,基本核的選擇和組合方式缺乏理論依據。多核學習中的很多方法都是基于有限個基本核的線性組合加以討論, 基本核的選擇也大都是啟發式的。當面對一些復雜問題時,這些方法未必有效,有限個核函數融合的決策函數的性能也不可能
25、達到處處最優。 將多核學習由有限核向無限核擴展,以及考慮基本核的非線性組合方式,是一個重要的研究方向,現有的相關研究才剛剛起步。此外,目前的多核學習大多選擇滿足 Mercer 條件的正定核為基本核,但在實際應用中存在著大量的不定核, 將不定核與多核學習相結合具有重要的理論與應用價值。其次,在“大數據”背景下,如何將多核學習擴展至大規模學習問題中需要進一步研究。對于大規模數據集,由于涉及到多核矩陣的快速求解、高維多核擴展矩陣的各種分解等問題,通常的多核學習方法的學習效率會很低, 如何提高其學習速度值得我們進行深入的探討。2.3 多視圖學習伴隨著 “大數據” 時代, 數據的采集越來越呈現出多源異構
26、特性,在越來越多的實際問題中存在著大量對應著多組數據源的樣本, 即多視圖數據。如圖 2-3 所示49,每個因特網網頁可被表示為其所含文檔和指向它的超鏈接; 一幅網頁圖像可被表示為其周圍的文本和視覺信息;3D 物體的圖像可能來源于不同的視角;視頻片段可被表示為聲音信號和視頻幀;語言文件在不同的語言中具有不同的表示等等。這些不同視圖的數據中蘊含著大量的先驗知識, 如何從中獲取更多的有用信息以有效地指導學習, 即設計有效的多視圖學習模型正逐步成為11機器學習的研究熱點之一。圖圖 2-3 多視圖數據多視圖數據多視圖學習與多核學習之間具有天然的聯系, 這是因為不同的核函數自然地對應著不同的視圖, 多核學
27、習為多視圖學習提供了一種融合不同視圖數據和不同結構數據的有效方式。除此之外,典型的多視圖學習模型還包括協同訓練和子空間學習。協同訓練是最早的多視圖學習范式之一,由 Blum 和 Mitchell 于1998 年提出50。其來源于半監督學習問題,算法首先利用有標號樣本在兩個視圖上分別訓練一個樸素貝葉斯分類器, 然后每個分類器從無標號樣本中選出若干預測置信度較高的樣本進行標記, 并將其加入到另一個視圖的有標號樣本數據集中, 隨后用擴充后的有標號數據集在每個視圖上重新訓練分類器,直至達到某一終止條件50。Nigam 和Ghani 進一步在兩個視圖上利用期望最大化算法,對無標號樣本賦予一個可變的概率標
28、記,而非一個明確的類標號,有效地提升了算法性能51。Sindhwani 等人將最大化無標號樣本上的一致性刻畫為兩個希爾伯特空間中的協同正則化問題,通過選取不同的正則化框架,如12Tikhonov 正則化、 流形正則化等, 優化不同視圖上數據的一致程度和光滑程度52。Zhou 和 Li 進一步將協同訓練的思想推廣至回歸問題,提出了協同回歸算法53。Bickel 和 Scheffer 研究了無監督情況下的協同訓練算法,提出了 k-means、k-medoids 等經典聚類算法的多視圖學習模型54。子空間學習假設所有視圖都由一個潛在的子空間產生, 進而直接利用所有的視圖,以期獲得這樣的子空間。典型相
29、關分析是運用最為廣泛的多視圖降維算法,其為每組視圖數據尋找一個投影向量,使兩組視圖數據在投影后的低維空間中相關性最大, 本質上屬于無監督方法。在有監督的情況下,Yu 等人將樣本數據作為一個視圖,樣本的類標號作為另一個視圖, 有效地將類信息引入到了降維過程中55。 但是,這種方法本質上屬于單視圖學習范疇,并非真正的多視圖學習。Sharma 等人將多種經典的監督和無監督特征抽取方法刻畫成二次約束二次規劃的特殊解形式,進而提出了廣義多視圖分析算法,推廣了有監督的典型相關分析方法56。Zhou 等人利用典型相關分析,提出了只有一個有標號樣本的半監督學習算法, 其通過度量無標號和有標號樣本之間的相似性,
30、 將若干具有最高和最低相似性的無標號樣本分別選為正類和負類樣本,進而可應用傳統的半監督學習方法求解57。除了典型相關分析算法,多視圖子空間學習方法還包括多視圖 Fisher判別分析、多視圖譜嵌入、多視圖度量學習等。在過去的十年中,多視圖學習取得了長足的發展,并拓展出很多新的研究領域,諸如異質多視圖學習、多態學習等。異質多視圖學習不僅假設每個學習任務的特征來源于多個視圖(特征異質) ,更假設不同的學習任務之間通過一個或多個共享的視圖相關聯 (任務異質) 。He和Lawrence提出了一個基于圖的框架以利用多個任務和視圖的信息,但是這個框架是直推式的,不能預測未見樣本,而且只能處理具有非負特征的問
31、題58。Zhang 和 Huan 利用協同正則化,保證學習器13在不同視圖的無標號樣本上彼此一致59。 但是, 該算法要求所有的任務都彼此相似,這顯然是不合理的。Jin 等人進一步提出了一個共享結構學習框架,打破了上述限制,其從多個相關任務的共同視圖上學習共享預測結構, 并利用不同視圖上的一致性提高性能60。 多態學習研究不同模態樣本之間的學習問題, 比如圖像和語句之間的關聯就可刻畫為多態匹配問題。Hodosh 等人利用核典型相關分析算法挖掘圖像和語句之間的共享特征空間, 但是基于淺層表示的圖像和語句通常具有高度的非線性性,導致了模態間的關聯很難被挖掘61。Ma 等人進一步使用卷積神經網絡刻畫
32、圖像、 將語句中的詞組成不同的語義片段,學習圖像和語義片段之間的匹配關系和相互作用,取得了很好的性能62。伴隨著理論研究的發展, 多視圖學習亦被廣泛應用于許多產業領域。例如,在垃圾網頁檢測中,多視圖學習可綜合利用基于內容作弊和基于鏈接作弊的多網頁特征,對垃圾網頁進行更有效地檢測;在微博話題檢測中, 多視圖學習可整合微博中的文本語義關系和社會化關系, 克服傳統的基于純文本話題檢測方法的不足; 在網絡入侵檢測中,多視圖學習可針對多種不同的入侵類型,如拒絕服務、網絡嗅探、遠程非法登入、非法權限提升等,在特定的屬性空間中進行檢測,以獲得更好的檢測效果;在跨語言信息檢索中,對同一個自然語言描述對象,多語
33、言的信息表示是該對象賦予不同語言符號系統的字符串表示,可自然地表示為該對象的多個視圖,這些視圖在本質上是語義等價的, 多視圖學習可充分利用這些視圖的信息, 取得較好的檢索性能。雖然目前多視圖學習在理論分析和應用研究上取得了一定的進展,但其仍然存在值得進一步研究的問題:第一,視圖的構造、分析和評價。多個不同的視圖是多視圖學習的根本,其性質不可避免地將對多視圖學習的性能產生關鍵影響。如何構造多個視圖數據、如何評價多個視圖數據的有效性等一系列問題, 都是多視圖學習中的重要研14究內容。第二,多視圖學習框架的建立。協同訓練、多核學習和子空間學習提供了三種不同的多視圖組合方式, 但目前對于三者的研究仍是
34、相對獨立的, 如何建立一個融合不同方法優點的多視圖學習框架亦值得深入研究。第三,多視圖研究領域的擴展。立足于實際問題,異質多視圖學習、 多態學習等新興研究領域的出現為多視圖學習提供了更加廣闊的發展前景,而目前對于這些領域的研究仍處于起步階段,對其的深入探索必將為多視圖學習提供更多的發展機遇。2.4 集成學習與單一的學習模型相比, 集成學習模型的優勢在于能夠把多個單一學習模型有機地結合起來,獲得一個統一的集成學習模型,從而獲得更準確、穩定和強壯的結果。近年來,各種各樣的集成學習模型相繼被提出,并應用于各種類型的數據集中6364。集成學習能夠把多個單一學習模型所獲得的多個預測結果進行有機地組合,從
35、而獲得更加準確、穩定和強壯的最終結果。集成學習的 原 理 來 源 于 PAC 學 習 模 型 ( Probably Approximately Correctlearning) 。Kearns 和 Valiant 最早探討了弱學習算法與強學習算法的等價性問題65, 即提出了是否可以將弱學習算法提升成強學習算法的問題。如果兩者等價,那么在學習概念時,只要找到一個比隨機猜測略好的弱學習算法,就可以將其提升為強學習算法,而不必直接去找通常情況下很難獲得的強學習算法。近年來,研究人員在集成學習方面,特別是分類集成方面進行了大量的探索和創新。大部分的集成學習模型都可以歸為三大類:分類集成學習模型、半監督
36、集成學習模型和非監督集成學習模型。監督集成學習模型,又稱為分類集成學習模型(classifier ensemble),包括一系列常見的分類技術,如:bagging66、boosting67、隨機森林68、隨機子空間69、旋轉森林70、基于隨機線性預測器的集成技術71、 神經網絡集成技術72等等。 一方面, Adaboost算法是學習過程集成的典型例子。 它在學習過程中不斷地調整訓練樣15本的權重,從而把多個弱分類器有機地結合成一個強分類器。另一方面,bagging 技術是學習結果集成的典型例子。它通過合適的投票機制把多個分類器的學習結果綜合為一個最具代表性的結果。如:圖2-4 顯示了學習結果集
37、成的基本框架圖。當給定一個訓練集,集成學習首先通過一系列的數據映射操作,如:采樣、隨機子空間、擾動、投影等,生成多個不同的新訓練集。新訓練集之間,以及新訓練集與原訓練集盡可能不同。這樣,我們才能夠探索樣本在相對穩定的類結構下的不同的表現形式。與此同時,要確保新訓練集仍然保持原有的相對穩定的類結構。然后,集成學習采用新訓練集訓練一種或多種基本分類器,并通過選擇合適的投票機制,形成組合分類器。最后,運用組合分類器對測試集中的樣本進行預測,獲取這些樣本的標記。圖圖 2-4 Bagging 集成基本框架圖集成基本框架圖圖 2-5 顯示了 Adaboost 集成基本框架圖。 當給定一個原始訓練集,Ada
38、boost 算法首先賦予訓練集的每個樣本相等的權重系數, 然后用這圖圖 2-5 Adaboost 集成基本框架圖集成基本框架圖16些樣本訓練一個弱分類器,并對原始訓練集的樣本進行預測,接著更新訓練集樣本的權值。標記預測錯誤的樣本,權重減少;標記預測正確的樣本,權重增加。最后,Adaboost 獲得權值更新的訓練集。算法不斷地重復之前的步驟,不斷生成新訓練集,不斷訓練新的分類器,直到獲得一組分類器。 這組帶權重系數的分類器將用于預測測試集中樣本的標記,并獲得最終結果。圖 2-6 顯示了隨機子空間集成基本框架圖。當給定一個原始訓練集,該算法首先對屬性維進行隨機采樣,生成一組隨機子空間;然后在子空間
39、中生成相應的訓練集, 并用不同子空間下的一組新訓練集來訓練出一組分類器。在測試階段,首先把測試集中的樣本投影到相應的子空間中,然后用子空間的分類器預測樣本標記,最后通過合適的投票機制把所有的預測結果進行綜合,從而獲得最終結果。半監督集成學習模型包括多視圖學習模型、 共性最大化學習模型等。非監督集成學習模型,又稱為聚類集成(cluster ensemble)或一致性聚類(consensus clustering), 最早由 Strehl 所提出。 經過多年的研究,大量的聚類集成學習模型被提出來,如:基于圖論的聚類集成算法、基于多次譜聚類的聚類集成算法、混合模糊聚類集成算法等。圖圖 2-6 隨機子
40、空間集成基本框架圖隨機子空間集成基本框架圖17然而集成學習模型的性能往往受到外在環境(如:樣本空間和屬性空間)和內在環境(基本分類器的參數和基本分類器的權重)的影響。但是傳統的集成學習模型沒有考慮到這些因素的綜合影響,沒有考慮到如何尋找最優的集成學習模型。 而多角度自適應集成學習模型不但能夠考慮到集成模型的內在環境, 而且能夠把握集成模型和外在環境之間的關系73。 自適應集成模型之間會根據解決問題的需要進行一定的信息交互,不斷地進行調整,直到達到最佳的狀態。多角度自適應集成學習模型將在傳統集成學習模型的基礎上, 從多個不同角度加入自適應學習過程,從而獲取最優的集成學習模型。國際上與集成學習模型
41、的相關研究工作還很多, 以上只是列舉了部分經典的研究工作的情況。 國內許多著名的專家學者也在集成學習模型上做了很多的研究, 如: 周志華教授的團隊等, 在此不一一列出。如需了解更多信息,可參考周志華教授關于集成學習的新書74。集成學習未來的發展趨勢主要有兩大塊: 集成學習模型的優化和集成學習模型的并行化。在大數據時代,數據來源各有不同,大數據的海量多元異構特性已經成為大數據智能處理的瓶頸。 如何對多元數據進行融合和挖掘成為大數據智能處理函需解決的問題。 集成學習非常適合用于多元數據融合和挖掘,在集成學習里,集成器由一組單一的學習模型所構成,每一個學習模型都可以對應每一個來源的數據,并自動地提取
42、該數據源所蘊含有價值規律。因此,集成學習能夠提供一個統一的框架用于分析異構性極強的多元數據, 實現多元數據的融合、建模和挖掘,并從中尋找出有價值的數據語義,為政府的決策提供支持。然而,由于大數據的海量特性,使得集成學習模型的并行化處理技術變得日益重要。 利用高性能服務器集群實現集成學習模型的并行化處理將成為集成學習未來發展趨勢之一。集成學習作為一種提升學習系統泛化性能的常用技術, 在諸多領域有著廣闊的應用前景。在美國 NETFLIX 電影推薦比賽中,基于集18成學習的推薦算法獲得了第一名。在多次 KDD 和 ICDM 的數據挖掘競賽中,基于集成學習的算法都取得了最好的成績。集成學習算法已成功應
43、用于智能交通中的行人檢測、車輛檢測等,圖像和視頻處理中動作檢測、人物追蹤、物體識別等,生物信息學蛋白質磷酸化位點預測、基因組功能預測、癌癥預測等,數據挖掘中的腦電數據挖掘、數據流挖掘等。例如,在生物信息學領域,Yu 等人75成功地把集成學習模型應用于預測蛋白與酶綁定的磷酸化位點。 在數據挖掘領域, Zhu等人76把集成學習模型與主動學習相結合,應用于數據流的模式挖掘。在多媒體領域,Xu 等人77把集成學習模型用于檢測交通視頻中的行人。2.5 主動學習機器學習主要研究計算機如何利用經驗數據提高自身性能。 充分和高質量的數據是有效學習的基礎和關鍵。在傳統的有監督學習中,要求用于訓練學習模型的數據均
44、是已標記的。一般認為,已標記的數據越多,標記越精準,基于這些數據訓練得到的模型也越高效。大數據時代為機器學習提供了豐富的原材料, 使其發揮著越來越重要的作用,成為當前最熱門的研究領域之一。然而,大數據提供機遇的同時也帶來了嚴重的挑戰,其中最典型的便是數據質量低下。在許多實際任務中, 我們可以輕松獲取大量數據, 但這些數據大部分是未標注的。比如在圖像分類任務中,絕大部分用戶上傳照片缺乏準確的語義標簽。 因此如何從僅有少量標記的大數據中學習出有效模型是一個極具挑戰的重要問題。一個最直接的解決方案是先人工標注好所有數據再進行模型訓練。 面對海量數據時這種方案將耗費大量人力物力, 顯然是不現實的。實際
45、上,在某些現實任務中,即使標注少量數據也需要昂貴的代價。比如在語音識別任務中, 一個熟練的語言學家對一段 1 分鐘的語音數據進行語素級標注將耗費近 7 小時78。19一個更合理的方案是挑選一部分數據進行標注。實際上,不同數據樣本對于學習模型的貢獻度是不一樣的, 如果我們能夠選取一部分最有價值的數據進行標注, 有可能僅基于少量數據就能獲得同樣高效的模型。為了實現這一目標,關鍵在于如何選擇出最有價值的數據樣本并去獲取它們的標記信息。 主動學習就是研究這一問題的一種機器學習框架。其核心任務是制定選擇樣本的標準,從而選擇盡可能少的樣本進行標注來訓練出一個好的學習模型79。目前主要有三種主動學習場景:基
46、于數據池的主動學習、基于數據流的主動學習以及基于合成樣本查詢的主動學習79。 下面將分別對這三種主動學習場景進行介紹?;跀祿氐闹鲃訉W習是最常見的一種場景, 其假設所有未標記數據已經給定,形成一個數據池。主動學習算法迭代進行,每一次從未標記數據池中選擇樣本向專家查詢標記, 并將這些新標注的樣本加入訓練集,模型基于新的訓練集進行更新,進而進入下一次迭代;基于數據流的主動學習假設樣本以流的形式一個一個到達, 因此在某時刻當一個樣本到達的時候,算法必須決定是否查詢該樣本的標記。這種場景在一些實際應用中也比較常見,比如數據流源源不斷產生,而又無法保存下來所有數據時,基于數據流的主動學習就更為適用;基
47、于合成樣本查詢的主動學習并不是從已有樣本中選擇來查詢標記信息,而是直接從特征空間里合成出新的樣本進行查詢。由于新合成的樣本可能是特征空間里任意取值組合產生的, 因此在某些應用問題中可能導致人類專家也無法標注這些合成樣本。比如在圖像分類任務中,任意像素取值合成的一幅圖片可能并不能呈現出清晰的語義。主動學習的關鍵任務在于設計出合理的查詢策略, 即按照一定的準則來選擇被查詢的樣本。目前的方法可以大致的分為三種策略:基于信息量的查詢策略、 基于代表性的查詢策略以及綜合多種準則的查詢策略。20基于信息量的查詢策略是最為常見的, 其基本思想是選擇那些能最大限度減少當前模型不確定性的樣本進行查詢。具體而言,
48、信息量又可以通過模型預測的置信度80、 模型錯誤率下降期望81、 委員會投票82等多種形式進行度量。 這類方法選擇樣本時只基于現有的已標記樣本,忽略了大量的未標記樣本中蘊含的數據分布信息,可能導致采樣偏差問題; 基于代表性的查詢策略傾向于選擇那些更能刻畫數據整體分布的未標記數據進行標記查詢。 這些方法往往通過聚類83或密度估計84等無監督技術來評估樣本的代表性, 由于忽略了已標記樣本因此整體性能也可能會依賴于聚類結果的好壞; 綜合多種準則的查詢策略能夠同時考慮選擇樣本的信息量和代表性, 能夠有效避免采樣偏差和依賴聚類結果的問題。 近年來已有研究者從不同角度提出綜合多種查詢準則的主動學習方法,并
49、展示出較好的實驗性能8586。隨著主動學習的廣泛應用, 一些實際任務中的新設置和新條件促進了主動學習技術的進一步延伸和發展。 比如, 在多標記學習任務中,一個樣本可以同時具有多個標記,這時查詢方式(即以何種方式查詢所選樣本的監督信息) 對主動學習性能非常關鍵87。 此外在一些任務中,提供標記信息的不再是一個專家,而是一群可能提供錯誤信息的用戶, 這時如何從帶有噪音的數據中獲取正確的標記信息變得非常重要88。還有一些任務中,可能標注每個樣本的代價不一樣,這使得主動學習算法在選擇樣本的時候不僅要考慮樣本可能帶來的價值, 還要考慮標注它可能花費的代價89。 這些新的主動學習設置和形式正引起越來越多的
50、關注,使得其應用前景更為廣闊。隨著大數據時代的來臨,數據分析任務變得更加困難,同時也為主動學習的進一步發展和應用提供了巨大的機遇。首先,數據規模龐大但是質量低下,具有精確標記信息的數據尤其稀少。因此如何從海量數據中選擇最有價值的部分數據進行人工標注成為了一個常見的重要步驟,這也恰是主動學習研究的內容。其次,數據分析任務的難21度越來越高,許多學習任務僅僅依靠機器已經難以達到實用的效果。因此, 人與機器在學習過程中進行交互成為了一種更有效更現實的方案。在這樣的背景下,主動學習可能會發展出更多新穎的設置,從傳統查詢樣本標記衍生出更多的查詢方式, 從用戶獲取更豐富的監督信息。最后,隨著數據來源的多樣
51、化趨勢,主動學習在流數據、分布式學習、眾包等場景下的研究和應用將會受到更多的關注。在產業應用方面,CrowdFlower 是一家專門通過網絡用戶收集和標注數據的公司,其創始人兼 CEO、畢業于斯坦福大學的 LukasBiewald 曾領導 Yahoo 日本的搜索團隊,是一位對主動學習非常熟悉且推崇的業界人士。他在最近的一次報告中稱,主動學習是現實應用中最好用的機器學習技術之一, 能夠非常簡單地嵌入實際任務并帶來顯著效果。OREILLY 最近發表了一篇專門關于主動學習的報告,名字是“Real-WorldActive Learning” 。該報告中列舉了許多主動學習的真實應用案例。Stitch F
52、ix 是一家為女性提供時尚建議的在線購物網站,成立于 2011 年,在 2014 年估值為 3 億美元。該公司通過機器學習算法將客戶資料與結構化的服飾特征進行匹配, 從而提供個性化的時尚建議和推薦。同時,該公司有近 1000 名時尚專家,在算法遇到困難時進行人工干預,一方面為客戶提供更精準的推薦,一方面增加了標注數據使得算法性能不斷提升。Google 地圖能夠提供準確的地圖服務,其背后實際上也采用了主動學習技術。Google 強大的算法會根據衛星圖、航拍圖以及街景車拍攝的圖片提取出相關的特征并提供較為準確的服務, 但是仍然會出現錯誤的地方,需要人工進行標注。特別是對于那些街景車無法到達的路外地
53、點, 人工標注提供了重要的幫助。 GoDaddy 公司有一個叫“Get Found”的服務產品,為商家提供管理和呈現他們信息的在線平臺。該服務中一個關鍵技術問題是識別同一商家的不同別名。算法能夠識別一些簡單的別名,而對于那些機器難以識別的別名,則需要22尋求人工幫助。 該產品中就是利用主動學習技術在最有價值的數據上獲取人工標注從而提升算法匹配性能。此外,在垃圾郵件過濾、搜索引擎結果優化等常見產品背后, 都用到了主動學習技術來選擇性的獲取人工標注,以此提高算法性能。2.6 強化學習機器學習任務可以劃分為監督學習、 無監督學習、 和弱監督學習。監督學習面臨的數據樣本有完整的標記, 即每一項觀察都有
54、與之對應的決策,機器從這樣的樣本中可以直接學習到從觀察到決策的映射。無監督學習面臨的數據樣本完全沒有標記, 機器需要從數據中發現內部的結構信息。弱監督學習的目的,與監督學習一致,然而其獲得的樣本并沒有完整的標記。從標記缺失的形式和處理方式的不同,又可以分為半監督學習、主動學習、多示例學習多標記學習、和強化學習。半監督學習中,只有少量的樣本具有標記;主動學習中,機器可以詢問真實的標記,但需要考慮詢問的代價;多示例學習中,一個對象表示為一組樣本的包,而標記只在包的層面上,在樣本的層面上卻沒有標記;多標記學習中,一個樣本對應一組標記,因此需要處理巨大的標記組合空間問題; 強化學習中, 機器需要探索環
55、境來獲得樣本,并且學習的目的是長期的獎賞,因此樣本的標記是延遲的,下面我們詳細介紹。強化學習研究學習器在與環境的交互過程中, 如何學習到一種行為策略, 以最大化得到的累積獎賞90。 與前面我們提到的其它學習問題的不同在于, 強化學習處在一個對學習器的行為進行執行和評判的環境中:環境將執行學習器的輸出,發生變化,并且反饋給學習器一個獎賞值;同時學習器的目標并不在于最大化立即獲得的獎賞,而是最大化長期累積的獎賞。強化學習的設定可用圖 2.7 來表示。例如在俄羅斯方塊游戲中,學習器所處的環境為游戲規則,學習器根據當前游戲的狀態輸出動作,以游戲得分作為每一次動作的獎賞,學習器需23要最大化最終的獎賞總
56、和。圖圖 2.7 強化學習設定強化學習設定由于強化學習框架的廣泛適用性, 已經被應用在自動控制91、 調度92、金融93、網絡通訊94等領域,在認知、神經科學領域,強化學習也有重要研究價值,例如 Frank 等人95以及 Samejima 等人96在Science 上發表了相關論文。強化學習也被機器學習領域著名學者、國際機器學習學會創始主席 T. G. Dietterich 教授列為機器學習的四大的研究方向之一97。強化學習的目標是最大化累積獎賞,這一點與馬可夫決策過程(MDP)的目標一致,因此強化學習也常常用 MDP 來建模。一個MDP 定義為四元組, 其中 S 表示環境狀態的集合; A 為
57、“動作”集合,即學習器的輸出值域;T 為轉移函數,定義了環境的根據動作的轉移;R 為獎賞函數,定義了動作獲得的獎賞。MDP 尋找最優動作策略以最大化累計獎賞。當 MDP 的四元組全部給出且 S 和 A為有限集合時, 求解最優策略的問題即轉變為求解每一個狀態上最優動作這一優化問題,而該優化問題通??梢酝ㄟ^動態規劃來求解:在最終時刻,只需要考慮立即獲得的獎賞,即可得知每個狀態最優動作獲得的獎賞;這一時刻狀態的最優獎賞,隨后用于求解退一時刻狀態的最優動作和最優獎賞。這一關系即著名的 Bellman 等式90。因為MDP 四元組全部已知,實際上并不需要與環境交互,也沒有“學習”的味道,動態規劃就可以保
58、證求解最優策略。強化學習通常要面臨的難題是,對于學習器,MDP 四元組并非全部已知,即“無模型” (model-free)。最常見的情況是轉移函數 T 未24知以及獎賞函數 R 未知, 這時就需要通過在環境中執行動作、 觀察環境狀態的改變和環境給出的獎賞值來學出 T 和 R。 我們可以把強化學習方法分為基于值函數估計的方法和直接最大化累計獎賞的直接策略搜索方法?;谥岛瘮倒烙嫷姆椒ㄔ噲D在與環境交互的過程中估計出每一狀態上每一動作對應的累積獎賞,從而得出最佳策略。這一類方法的代表有時序查分學習方法 SARSA98和 Q-Learning99?;谥岛瘮倒烙嫷姆椒ㄓ捎谄淠繕瞬⒉皇侵苯忧蟮貌呗?, 而
59、是通過值函數的學習來得到策略,即最終的策略是選擇值函數大的動作,因此在較復雜的任務上會出現“策略退化”的現象100,即雖然值函數估計較準確,但得到的策略卻不好。 直接最大化累計獎賞的直接策略搜索方法則不依賴于對狀態上累積獎賞的估計,而直接優化策略獲得的累積獎賞。這一類 方 法 的 代 表 有 使 用 策 略 梯 度 方 法 優 化 參 數 化 策 略 的REINFORCE101方法, 以及使用演化算法等全局優化算法來搜索策略的 NEAT+Q102方法等。強化學習在實際問題上的廣泛使用還面臨諸多挑戰, 主要包括特征表示、搜索空間、泛化能力等方面的問題。經典強化學習的研究中,狀態和動作空間均為有限
60、集合,每一個狀態和動作被分別處理。然而,一方面許多應用問題具有連續的狀態和動作空間,例如機械臂的控制;另一方面即使對于有限狀態空間,狀態之間也并非沒有聯系,例如棋盤上走棋有位置關系。因此如何將狀態賦予合適的特質表示將極大的影響強化學習的性能。 這一方面的工作包括使用更好的特征編碼方式102103104等,而近期得益于深度學習技術的發展, 特征可以更有效的從數據中學習, Google DeepMind的研究者在 Nature 上發表了基于深度學習和 Q-Learning 的強化學習方法 Deep Q-Network105,在 Atari 2600 游戲機上的多個游戲取得“人類玩家水平”的成績。一
61、方面可以看到特征的改進可以提高強化學習25的性能, 另一方面也觀察到, Deep Q-Network 在考驗反應的游戲上表現良好,而對于需要邏輯知識的游戲還遠不及人類玩家。由于強化學習關于累積獎賞的優化目標,涉及多步決策,這使得策略的搜索空間巨大、累積獎賞目標極其復雜,優化非常困難。一方面需要研究更加有效的優化方法,例如使用 Cross-Entropy 等方法進行優化106107。另一方面,通過引入模仿學習108109,可以極大的緩解這一問題。模仿學習中,存在能做到接近最優策略的“教師”,并且由“教師”進行示范,提供一批演示樣本,這些樣本可用于直接指導每一步的動作,因此可以借助監督學習幫助強化
62、學習。同時模仿學習的另一作用是從演示樣本中學習獎賞函數,稱為逆強化學習110111112,從而可以在應用問題中免去對獎賞函數的定義,例如 IJCAIComputers and ThoughtAward得主斯坦福大學Andrew Ng教授使用逆強化學習進行運動軌跡規劃113。經典的強化學習研究多假設學習器處在穩定環境中,即 MDP 四元組都是固定不變的,學習器在這樣的環境中進行學習,學習到的策略也只在相同的環境中進行使用和評價。 經典的強化學習研究在車床控制、工業機器人等穩定環境中取得了成功的應用。然而隨著強化學習的應用向更多的領域拓展,面對的環境更加復雜,以往的限定條件下的假設不再成立。例如在
63、自動駕駛中,不同配置的車輛駕駛到各種各樣的地形,某一種車輛在某一種地形上學習到的策略可能難以應對。IJCAI Computers and Thought Award 得主、AAAI Fellow、美國德克薩斯奧斯丁大學 Peter Stone 教授也發文指出限定條件下的強化學習算法面臨領域過配問題(domain overfitting), 限定條件下設計的算法只能用于特定領域、而難以通用103。對此問題,已出現了一些關于強化學習領域遷移的研究114115116??傊?,強化學習的發展是以滿足越來越廣泛的應用需求為方向,除了上面闡述的工作,最近在獎賞反饋延時方面也出現一些工作,試26圖解決在線應用
64、中實際獲得獎賞的過程存在延時、 難以精確得知環境獎賞具體來自哪一步動作的問題117。值得注意的是,在國際上,強化學習是機器學習領域的重要分支,以 ICML 2015 為例,專門的強化學習占兩個session, 另外Bandit學習session和兩個在線學習session中大半也是關于強化學習的工作。 然而國內強化學習方面的研究相對較為冷淡,在頂級會議上發表的強化學習工作較少。27第 3 章 新興機器學習技術選介3.1 遷移學習在傳統分類學習中, 為了保證訓練得到的分類模型具有準確性和高可靠性,都有兩個基本的假設:(1) 用于學習的訓練樣本與新的測試樣本滿足獨立同分布;(2) 必須有足夠可用的
65、訓練樣本才能學習得到一個好的分類模型。但是,在實際應用中我們發現這兩個條件往往無法滿足。首先,隨著時間的推移,原先可利用的有標簽樣本數據可能變得不可用,與新來的測試樣本的分布產生語義、分布上的缺口。另外,有標簽樣本數據往往很缺乏,而且很難獲得。這就引起了機器學習中另外一個重要問題, 如何利用少量的有標簽訓練樣本或者源領域數據, 建立一個可靠的模型對具有不同數據分布的目標領域進行預測。近年來,遷移學習已經引起了廣泛的關注和研究118。遷移學習是運用已存有的知識對不同但相關領域問題進行求解的新的一種機器學習方法。它放寬了傳統機器學習中的兩個基本假設,目的是遷移已有的知識來解決目標領域中僅有少量有標
66、簽樣本數據甚至沒有的學習問題。遷移學習廣泛存在于人類的活動中,兩個不同的領域共享的因素越多, 遷移學習就越容易, 否則就越困難, 甚至出現“負遷移”,產生副作用。比如:一個人要是學會了自行車,那他就很容易學會開摩托車;一個人要是熟悉五子棋,也可以輕松地將知識遷移到學習圍棋中。但是有時候看起來很相似的事情,卻有可能產生“負遷移”,比如,學會自行車的人來學習三輪車反而不適應,因為它們的重心位置不同。近幾年來,已經有相當多的研究者投入到遷移學習領域中,每年在機器學習和數據挖掘的頂級會議中都有關于遷移學習的文章發表, 比如, ICML, SIGKDD, NIPS, IJCAI, AAAI, ICDM
67、以及 CIKM等。28近十幾年來,很多學者對遷移學習展開了廣泛的研究,而且很多集中在算法研究上,即采用不同的技術對遷移學習算法展開研究?;谔卣鬟x擇的遷移學習方法是識別出源領域與目標領域中共有的特征表示,然后利用這些特征進行知識遷移。Jiang 等人119認為與樣本類別高度相關的那些特征應該在訓練得到的模型中被賦予更高的權重, 因此他們在領域適應問題中提出了一種兩階段的特征選擇框架。第一階段首先選出所有領域(包括源領域和目標領域)共有的特征來訓練一個通用的分類器; 然后從目標領域無標簽樣本中選擇特有特征來對通用分類器進行精化從而得到適合于目標領域數據的分類器。Dai 等人120提出了一種基于聯
68、合聚類(Co-clustering)的預測領域外文檔的分類方法 CoCC,該方法通過對類別和特征進行同步聚類,實現知識與類別標簽的遷移。CoCC 算法的關鍵思想是識別出領域內(也稱為目標領域)與領域外(也稱為源領域)數據共有的部分,即共有的詞特征。 然后類別信息以及知識通過這些共有的詞特征從源領域傳到目標領域。Fang 等人121利用遷移學習對跨網絡中的協作分類進行研究,試圖從源網絡遷移共同的隱性結構特征到目標網絡。該算法通過構造源網絡和目標網絡的標簽傳播矩陣來發現這些隱性特征?;谔卣饔成涞倪w移學習方法是把各個領域的數據從原始高維特征空間映射到低維特征空間,在該低維空間下,源領域數據與目標領
69、域數據擁有相同的分布。 這樣就可以利用低維空間表示的有標簽的源領域樣本數據訓練分類器,對目標測試數據進行預測。Pan 等人122提出了一種新的維度降低遷移學習方法, 他通過最小化源領域數據與目標領域數據在隱性語義空間上的最大均值偏差(Maximun Mean Discrepancy),從而求解得到降維后的特征空間。在該隱性空間上,不同的領域具有相同或者非常接近的數據分布,因此就可以直接利用監督學習算法訓練模型對目標領域數據進行預測。Blitzer 等 人123提 出 了 一 種 結 構 對 應 學 習 算 法 (Structural29Corresponding Learning, SCL),
70、該算法把領域特有的特征映射到所有領域共享的“軸”特征,然后就在這個“軸”特征下進行訓練學習。Yeh 等人124提出一種新的領域適應性方法解決跨領域模式識別問題。他們使用典型相關分析方法(CCA)得到相關子空間作為所有領域數據的聯合表示,并提出核典型相關分析方法(KCCA)處理非線性相關子空間的情況。特別地,他們提出一種新的帶有相關性正則化的支持向量機方法, 可以在分類器設計中加入領域適應性能力從而進行領域適應性模式分類。在遷移學習中, 有標簽的源領域數據的分布與無標簽的目標領域數據的分布一般是不同的, 因此那些有標簽的樣本數據并不一定是全部有用的。 如何側重選擇那些對目標領域分類有利的訓練樣本
71、?Jiang等人125提出了一種實例權重框架來解決自然語言處理任務下的領域適應問題。他們首先從分布的角度分析了產生領域適應問題的原因,主要有兩方面:實例的不同分布以及分類函數的不同分布。因此他們提出了一個最小化分布差異性的風險函數,來解決領域適應性問題。Dai 等人126擴展 Boosting學習算法到遷移學習中, 提出了TrAdaBoost算法。在每次迭代中改變樣本被采樣的權重,即在迭代中源領域中的樣本權重被減弱,而有利于模型訓練的目標領域中的樣本權重被加強。他們還用 PAC 理論分析證明了該算法的有效性。根據是否從多個源領域數據學習, 遷移學習算法又可以分為單個源領域以及多個源領域的遷移學
72、習。Gao 等人127解決了不同模型的一致性問題。 這兩個多源領域學習的工作很好地處理了多個模型的集成問題。為了更加深入地挖掘、開發各個源領域數據的內部結構或者數據分布, Zhuang 等人128提出了一致性正則化框架, 在這個框架下,局部的子分類器不僅考慮了在源領域上可利用的局部數據, 而且考慮了這些由源領域知識得到的子分類器在目標領域上的預測一致性。 最近,Zhuang 等人129130提出基于深度學習自動編碼機的遷移學習算30法,遷移學習效果得到了進一步提升。遷移學習已在文本分類128、文本聚類131、情感分類123、圖像分類132、協同過濾133等方面進行了應用研究。香港科技大學 Qi
73、angYang 實驗室還做了一系列的室內定位的遷移學習方面的工作。遷移學習作為一個新興的研究領域,還很年輕,主要還是集中在算法研究方面,基礎理論研究還很不成熟,因此值得我們進一步的研究。遷移學習最早來源于教育心理學,借用美國心理學家賈德(Judd,C.H.) 提出的“類化說”學習遷移理論來討論下目前機器學習領域遷移學習研究存在的幾個挑戰性問題。首先,賈德認為在先期學習 A中獲得的東西,之所以能遷移到后期學習 B 中,是因為在學習 A 時獲得了一般原理,這種原理可以部分或全部運用于 A、B 之中。根據這一理論,兩個學習活動之間存在的共同要素,是產生遷移的必要前提。這也就是說,想從源領域中學習知識
74、并運用到目標領域中,必須保證源領域與目標領域有共同的知識, 那么如何度量這兩個領域的相似性與共同性,是問題之一。第二,賈德的研究表明,知識的遷移是存在的,只要一個人對他的經驗、知識進行了概括,那么從一種情境到另一種情境的遷移是可能的。知識概括化的水平越高,遷移的范圍和可能性越大。把該原則運用到課堂上,同樣的教材采用不同的教學方法,產生的遷移效果是不一樣的,可能產生積極遷移也可能產生相反的作用。即同樣的教材內容,由于教學方法不同,而使教學效果大為懸殊,遷移的效應也大不相同。所以針對不同的學習問題,研究有效的遷移學習算法也是另一個重要問題。 第三, 根據賈德的泛化理論,重要的是在講授教材時要鼓勵學
75、生對核心的基本概念進行抽象或概括。抽象與概括的學習方法是最重要的方法,在學習時對知識進行思維加工,區別本質的和非本質的屬性,偶然的和必然的聯系,舍棄那些偶然的、非本質的元素,牢牢把握那些必然的本質的元素。這種學習方法能使學生的認識從低級的感性階段上升到高級的理性階段, 從31而實現更廣泛更成功的正向遷移。也就是說在遷移學習的過程中,應該避免把非本質的、偶然的知識,當成本質的(領域共享的)、必然的知識,實現正遷移。所以,如何實現正遷移,避免負遷移也是遷移學習的一個重要研究問題。針對以上討論分析,未來的遷移學習研究可以在以下方面進行努力。第一,針對領域相似性、共同性的度量,研究準確的度量方法;第二
76、, 在算法研究方面, 對于不同的應用, 遷移學習算法需求不一樣。因此針對各種應用的遷移學習算法有待進一步研究;第三,關于遷移學習算法有效性的理論研究還很缺乏,研究可遷移學習條件,獲取實現正遷移的本質屬性,避免負遷移;最后,在大數據環境下,研究高效的遷移學習算法尤為重要。目前的研究主要還是集中在研究領域,數據量小而且測試數據非常標準,應把研究的算法瞄準實際應用數據,以適應目前大數據挖掘研究浪潮。盡管遷移學習研究還存在著各種各樣的挑戰,但是隨著越來越多的研究人員投入到該項研究中,一定會促進遷移學習研究的蓬勃發展。3.2 深度學習自從 Hinton 教授 2006 年在著名期刊 Science 上發
77、表深度學習134一文以來,深度學習已受到了學術界和工業界研究人員的廣泛關注。鑒于深度學習對大數據處理的有效性,斯坦福大學、多倫多大學、清華大學等許多著名大學都有學者在從事深度學習的理論研究,而谷歌、微軟、百度等知名公司也投入了大量的資源研發深度學習應用技術。在數據和計算資源足夠的情況下,深度學習在許多領域中體現出占據支配地位的性能表現,如語音識別135136、視覺對象識別137138139、自然語言處理140141142等領域。傳統的方法是通過大量的工程技術和專業領域知識手工設計特征提取器,因此在處理未加工數據時表現出的能力有限;另外,多數的分類等學習模型都是淺層結構,制約了對復雜分類問題的泛
78、化能32力。而深度學習作為一種特征學習方法, 把原始數據通過一系列非線性變換得到更高層次,更加抽象的表達,這些都不是通過人工設計而是使用一種通用的學習過程從數據中學習獲得。 深度學習主要通過建立類似于人腦的分層模型結構, 對輸入數據逐級提取從底層到高層的特征,從而能很好地建立從底層信號到高層語義的映射關系。相比傳統的方法, 具有多個處理層的深度學習模型能夠學習多層次抽象的數據表示,也受益于計算能力和數據量的增加,從而能夠發現大數據中的復雜結構,從而在語音識別,圖像分類等領域取得了最好結果,同樣也成功應用于許多其他領域,包括預測 DNA 突變對基因表達和疾病的影響143144,預測藥物分子活性1
79、45,重建大腦回路146等。圖圖 3-1 典型卷積網絡結構典型卷積網絡結構其中,深度卷積神經網絡138(如圖 3-1)在處理圖像,視頻,語音和音頻方面表現出優異的性能,這是一種前饋式神經網絡,更易于訓練,并且比全連接的神經網絡泛化性能更優。卷積神經網絡以其局部連接,權值共享,池化和多網絡層四個特征非常適用于處理多維數組數據的,最典型的是具有三個顏色通道的彩色圖像。自二十世紀九十年代以來, 卷積神經網絡被成功應用于檢測, 分割, 識別以及語音,圖像的各個領域。比如最早是用時延神經網絡147進行語音識別以及文檔閱讀148,其是由一個卷積神經網絡和一個關于語言約束的概率33模型組成,這個系統后來被應
80、用在美國超過百分之十的支票閱讀上;再如微軟開發的基于卷積神經網絡的字符識別系統以及手寫體識別系統149; 近年來, 卷積神經網絡的一個重大成功應用是人臉識別150。而 Mobileye 和 NVIDIA 公司也正試圖把基于卷積神經網絡的模型應用于汽車的視覺輔助駕駛系統中。如今,卷積神經網絡用于幾乎全部的識別和檢測任務, 最近一個有趣的成果就是利用卷積神經網絡生成圖像標題。也正是因為卷積神經網絡易于在芯片上高效實現151152,許多公司如 NVIDIA, Mobileye, Intel, Qualcomm 以及 Samsung 積極開發卷積神經網絡芯片,以便在智能手機,相機,機器人以及自動駕駛汽
81、車中實現實時視覺系統。雖然深度學習在理論和應用上取得了一定的進展, 但仍有一些問題亟待解決。 第一、 深度學習模型都是非凸函數, 理論研究存在困難。第二、深度學習模型訓練耗時,需要設計新的算法進行訓練,或者采用并行計算平臺來加快訓練速度。 如何克服深度學習的局限性從而提高模型的性能是未來一段時間值得研究的問題。 深度學習的動機源于腦科學。隨著認知神經學的發展,科學家發現了許多與人腦動態學習相關的特性,如:神經元自組織特性、神經元之間的信息交互特性、人類認知的進化特性等, 而這些特性將為深度學習模型的構建提供更多的啟發,促進深度學習的進一步發展。是否能夠利用認知科學的一些新進展,構造更好的深度學
82、習模型也是值得我們探討的問題。目前,人類已經走進大數據時代。大數據是信息科技領域的研究熱點。如何從大數據中挖掘出有價值的規律,為政府和企業的決策提供支持成為新一代信息技術亟需解決的問題。 而以深度學習為代表的人工智能技術是大數據智能處理的關鍵算法。 深度學習已經成功應用于各種領域。比如:在計算機視覺領域,深度學習已成功用于處理包含有上千萬圖片的 Imagenet 數據集。在語音識別領域,微軟研究人員通過與 Hinton 合作,首先將深度學習模型 RBM 和 DBN 引入到語34音識別聲學模型訓練中, 并且在大詞匯量語音識別系統中獲得巨大成功,使得語音識別的錯誤率相對減低 30%。在自然語言處理
83、領域,采用深度學習構建的模型能夠更好地表達語法信息。各大 IT 公司也非常關注深度學習的應用前景,紛紛成立相關的實驗室。2012 年,華為成立諾亞方舟實驗室,運用以深度學習為代表的人工智能技術對移動信息大數據進行挖掘,尋找有價值的規律。2013 年,百度成立深度學習研究院,研究如何運用深度學習技術對大數據進行智能處理,提高分類和預測等任務的準確性。國際 IT 巨頭 Google、Facebook 等也成立了新的人工智能實驗室,投入巨資對以深度學習為代表的人工智能技術進行研究。 Hinton 等多位深度學習的知名教授也紛紛加入工業界, 以深度學習為支撐技術的產業雛形正逐步形成。3.3 統計關系學
84、習傳統機器學習模型假設數據是獨立同分布的 (independent andidentically distributed, iid),也就是說,數據樣本之間相互獨立,不存在任何關系。然而,在很多實際應用中,尤其是最近出現的像Facebook、微信和微博這種社交網絡應用中,數據樣本之間是有關系的,也就是說,樣本之間是不獨立的。例如,互聯網上網頁之間存在超鏈接關系,學術論文之間存在引用關系,社交網絡中的對象之間存在各種各樣的關系,人與人之間存在著通信關系,蛋白質之間存在各種交互關系。我們把這種樣本之間存在關系的數據叫做關系數據(relational data),把基于關系數據的機器學習叫做統計關系
85、學習(statistical relational learning, SRL)。由于關系數據在互聯網數據挖掘、社交網絡分析、生物信息學、經濟學、恐怖和惡意行為預測、以及市場營銷等各個領域不斷涌現, 統計關系學習已經成為一個具有重要科學意義和應用價值的研究課題153。目前主流的統計關系學習方法可以大致分為以下五類154:基于35個體推理模型的方法(IIM), 基于啟發式聯合推理的方法(HCI), 基于概率關系模型的方法 (PRMs) , 基于概率邏輯模型的方法 (PLMs) ,以及基于隱因子模型的方法(LFMs)?;趥€體推理模型的方法 (IIM 方法) 從關系信息中抽取出特征,并將關系數據轉
86、化成適合傳統機器學習算法的特征向量形式, 然后用傳統學習算法來進行分類。 由于 IIM 方法忽略了關系數據中樣本之間的相關性, 分類性能往往比較差。 另外, 這類模型主要用于分類任務,而不適合于鏈接預測等其它統計關系學習任務。因此,IIM 方法實用性不是很強; 基于啟發式聯合推理的方法 (HCI 方法)利用有關系的樣本之間的相關性, 采用啟發式的循環迭代方式對多個樣本同時進行分類。由于考慮了有關系的樣本之間的相關性,這類方法在實際應用中取得了比 IIM 方法更好的分類性能。但是,HCI 方法主要用于聯合分類,而不適合于其它統計關系學習任務。因此,HCI 方法的實用性也比較有限。概率關系模型 P
87、RMs 通過拓展傳統的圖模型來對樣本之間的相關性進行建模155。典型的 PRMs 包括關系型貝葉斯網絡(RBNs) 、關系型馬爾可夫網絡(RMNs)和關系型依賴網絡(RDNs)?;诟怕赎P系模型的方法 (PRMs 方法)從概率統計角度對關系數據進行建模, 能很好地處理不完整和不精確數據。但是,學習一個圖模型需要進行結構學習和參數學習。結構學習是對變量之間的各種依賴關系進行確定, 是一個組合優化問題, 因此復雜度非常高。 另外, RMNs 和 RDNs的參數學習也沒有收斂和快速的方法, 實際應用中往往采用一些近似的逼近策略。因此,PRMs 方法的一個主要缺點是學習速度慢,只適合于小規模數據的處理
88、。概率邏輯模型 PLMs 將概率引進一階謂詞邏輯, 能夠很好地對關系數據進行建模156157158。代表性的 PLMs 有概率 Horn 溯因(PHA),貝葉斯邏輯編程(BLP),馬爾可夫邏輯網絡(MLNs) 。PLMs 的底層建36模工具還是基于圖模型, 因此基于概率邏輯模型的方法 (PLMs 方法)也具有 PRMs 方法的學習速度慢的缺點,只適合于小規模數據的處理?;陔[因子模型的方法(LFMs 方法)將統計學中的隱因子模型引進統計關系學習。其中,常用的矩陣分解算法對應于某個 LFM 的一個最大似然估計或者最大后驗估計。因此,矩陣分解方法可以看成LFMs 的一種特例。大部分 LFMs 方法
89、具有相對于觀察到的鏈接數的線性復雜度,學習速度遠遠超過 PRMs 方法和 PLMs 方法,能很好地對較大規模數據進行建模。 因此, 包括矩陣分解這個特例在內的 LFMs方法已經發展成為目前統計關系學習算法的主流, 具有比其他方法更廣闊的應用前景。近年來,大數據應用中的關系數據呈現出下面兩個特性: (1)動態性: 數據是隨著時間的推移不斷變化的, 例如, 在一個社交網絡中,隨著時間推移, 可能有成員退出, 也可能有新成員加入; (2) 海量性:隨著數據采集設備自動化程度的不斷提高, 很多應用中的數據已經從TB(TeraByte)級迅速發展到 PB(PetaByte)級甚至更高的數量級,對這些超大
90、規模數據(大數據或海量數據)的分析和處理將給統計關系學習研究帶來極大的挑戰。 目前已有的統計關系學習方法不能很好地對動態關系數據進行建模和分析,因此,設計在線學習模型以實現對動態關系數據的有效建模是統計關系學習的一個研究熱點159。另外,目前大部分統計關系學習模型都是集中式的,也就是說,都是基于單機實現的, 無論在存儲還是計算方面, 都不能實現對海量數據的處理。因此, 設計超大規模分布式學習算法以實現對海量關系數據的有效建模是另一個值得深入探索的研究熱點160。此外,將統計關系學習理論和方法應用到知識圖譜(knowledge graph)是最近發展起來的一個新的研究熱點,已經引起了越來越多研究
91、人員的關注161。3.4 演化學習演化學習基于演化算法提供的優化工具設計機器學習算法。 演化37算法起源于上世紀 50 年代162163,經過半個世紀的發展,今天廣義的演化算法還包括模擬退火算法164、蟻群算法165、粒子群算法166等等,成為啟發式優化算法的一個重要家族。演化算法通常具有公共的算法結構:1. 產生初始解集合,并計算解的目標函數值;2. 使用啟發式算子從解集合產生一批新解,并計算目標函數值,并加入解集合;3. 根據啟發式評價準則,將解集合中較差的一部分解刪除;4. 重復第二步,直到設定的停止準則滿足;5. 輸出解集合中最優的解。不同的演化算法,主要在于其啟發式算子、評價準則、停
92、止準則等部件的設計不同。演化算法通常維護一個解的集合,并通過啟發式算子來從現有的解產生新解,并通過挑選更好的解進入下一次循環,不斷提高解的質量??梢?,演化算法進行優化的過程不依賴于梯度等信息,也常被稱為 0 階優化方法、無梯度(derivative free)優化方法、黑箱優化方法等; 也因此能夠用于處理非凸、 高度非線性、 組合優化、目標函數未知等問題。演化算法已經被用在眾多領域中,顯示出演化算法解決復雜優化問題的優越性。在化學工業上,演化算法被用于設計化學反應控制,有效提高了反應產量165。在無線電制造領域,美國 NASAAmes 研究中心的研究者使用演化算法設計高性能天線,并強調演化算法
93、能夠突破人的思維局限, 獲得更好性能的天線設計167。演化算法領域的著名學者、美國 Standford 大學的 Koza 教授等人與2003 年發表的文章168總結了由演化算法產生的 “與人匹敵” 的設計,涵蓋了量子算法的設計、通訊協議的設計、機器人足球賽的應用、蛋白質鑒定的應用、 濾波器的設計、 電子電路的設計、 天線的設計等等,并強調了演化算法的幾項電路設計得到了比已登記的專利設計更好的性能。 美國UCSC大學和NASAAmes研究中心的學者在Science16938上介紹了與用戶交互的智能互聯網網頁, 并指出這種智能網頁的主要技術就是演化算法。 該文章還舉例介紹到一家網頁廣告公司使用演化
94、算法成功提升了廣告點擊率。據報道日本新干線的 N700 列車車頭形狀使用了演化算法進行優化, 使得新一代的列車能夠以高時速低能耗運行。與此同時,機器學習任務中存在大量的復雜優化問題有待解決,這就使得機器學習與演化算法的結合, 即演化學習有了自然的動機和天然的條件。實際上,在機器學習發展初期,就已經開始出現演化學習的研究170171,并且一度成為機器學習中的熱門領域。很多學者已經嘗試將演化算法應用于分類、聚類、規則發現、特征選擇等等諸多機器學習與數據挖掘問題上172,下面以聚類和人工神經網絡的學習為例做簡要介紹: 演化聚類:聚類將樣本劃分為多個類別,以使得給定的評價指標(例如類內距越小越好、類間
95、距越大越好等)最優。尋找最優聚類通常是 NP 難的任務。演化算法可以直接優化數據的劃分進行聚類。如圖 x.1 的數據包含 8 個樣本,如果希望聚類為 3 類,可設定解空間為 0,1,28,例如 0,0,1,1,1,2,2,2 對應了圖中的聚類,表示第 12個樣本為一類,第 35 個樣本為一類,第 68 個樣本為一類。啟發式算子可包括變異算子:將每一位以一定的概率 (例如 1/8) 改變為0,1,2 中的隨機值;以及交叉算子:交換兩個解的部分元素。這樣圖圖 3-2 聚類示意數據聚類示意數據1276854339的處理方法雖然可行,但當樣聚類數量較大時,搜索空間很大。另一種處理方法可優化聚類中心,并
96、設定聚類中心位于現有樣本上,對于圖 3-1 的數據,可設定解空間為0,18,例如1,0,0,1,0,0,1,0,其中 1表示該樣本為一個類中心;得到類中心后,通過最近類中心歸類,將每一個樣本都分配給距離其最近的中心,從而得到一個聚類。該方法將類中心的優化任務交給了演化算法,聚類的其他過程可以更加高效;但由于使用類中心歸類,需假設聚類的凸性。詳細的綜述可參見文獻173。 演化神經網絡:尋找最優神經網絡同樣是 NP 難的任務,演化算法在神經網絡的網絡結構和權值優化上都可以幫助尋找更優的解。以神經網絡結構優化為例,網絡結構可以編碼為 0-1 鄰接矩陣,如圖3-3 所示。對于一個給定的鄰接矩陣,可以使
97、用 BP 算法等對網絡的權值進行訓練,得到的網絡,在數據上的擬合程度可以作為對鄰接矩陣好壞的評價指標。于是就可以用演化算法來優化鄰接矩陣,其目標函數為進一步使用 BP 算法訓練權重后的數據擬合程度。更多的相關工作可見174。1 1 10 1 11 0 01 1 01 1 10 0 1圖圖 3-3 演化神經網絡中的結構編碼示意演化神經網絡中的結構編碼示意從上面的例子可以看出,由于演化算法的簡單易用,演化學習可以處理很多麻煩的優化問題, 從而有可能取得更好的學習性能。 然而,由于演化算法作為優化算法的理論性質缺失,其優化效率高低、求得解的逼近程度如何、啟發式算子有何效用等等問題難以有嚴格的答案,演
98、化學習也因此缺乏有效的理論解釋。最近,演化學習在理論基40礎方面得到發展。針對演化算法的理論分析工具開始出現175176,演化算法求解的逼近性能開始得到了揭示177178,啟發式算子的效用也逐漸被了解179。值得一提的是,近來演化學習方法在理論上和實驗上都顯出超越經典學習方法的潛力180181。同時,在大數據環境下,演化學習的進一步發展也面臨挑戰:當學習模型變得復雜、面臨的數據增長迅速、對模型訓練時間的要求苛刻時,演化學習如何能夠進行有效、高速的優化,還有待深入的研究。41第 4 章 大數據時代的機器學習4.1 并行機器學習經過多年的發展,互聯網已獲得巨大的成功。由此,人們可以在不同時間與地域
99、獲取自己希望獲得的數據。隨著數據量的激增,如何有效獲得并通過機器學習技術來更好地利用這些數據已成為信息產業繼續興旺發展的關鍵。因此,機器學習算法和技術就成為解決這類問題的有力工具。在中小規模問題上, 機器學習已經從理論研究階段逐漸上升到了實際應用階段。但是在大規模的實際應用中,特別是在大數據環境下的大數據體量大、結構多樣、增長速度快、整體價值大而部分價值稀疏等特點,對數據的實時獲取、存儲、傳輸、處理、計算與應用等諸多方面提出了全新挑戰。 傳統的面向小數據的機器學習技術已很難滿足大數據時代下的種種需求, 并且使用單個計算單元進行運算的集中式機器學習算法難以在在大規模的運算平臺上執行。因此,在大數
100、據時代,突破傳統的思維定式和技術局限,研究和發展革命性的、可滿足時代需求的并行機器學習的新方法和新技術, 從大數據中萃取大價值,具有重要的學術和應用價值182。目前, 機器學習應用非常廣泛的很多領域都已經面臨了大數據的挑戰。如互聯網和金融領域,訓練實例的數量是非常大的,每天會有幾十億事件的數據集。另外,越來越多的設備包括傳感器,持續記錄觀察的數據可以作為訓練數據,這樣的數據集可以輕易的達到幾百TB。再如亞馬遜或者淘寶上的商品推薦系統。每天都很多用戶看到了很多推薦的商品,并且點擊了其中一些。這些用戶點擊推薦商品的行為會被亞馬遜和淘寶的服務器記錄下來,作為機器學習系統的輸入。輸出是一個數學模型,可
101、以預測一個用戶喜歡看到哪些商品,從而在下一次展示推薦商品的時候,多展示那些用戶喜歡的。類似的,42在互聯網廣告系統中,展示給用戶的廣告、以及用戶點擊的廣告也都會被記錄下來,作為機器學習系統的數據,訓練點擊率預估模型。在下一次展示推薦商品時, 這些模型會被用來預估每個商品如果被展示之后,有多大的概率被用戶點擊。從這些例子我們可以看出來,這些大數據之所以大,是因為它們記錄的是數十億互聯網用戶的行為。而人們每天都會產生行為,以至于百度、阿里、騰訊、奇虎、搜狗這些公司的互聯網服務每天收集到很多塊硬盤才能裝下的數據。 而且這些數據隨時間增加,永無止境。傳統機器學習技術在大數據環境下的低效率以及大數據分布
102、式存儲的特點使得并行化的機器學習技術成為了解決從大規模、海量數據中學習的重要途徑。由此可見,并行機器學習是隨著“大數據”概念和“云計算”的普及而得到迅速發展的。大數據給并行機器學習帶來了需求;云計算給并行機器學習帶來了條件。所謂并行機器學習,就是在并行運算環境下(例如云計算平臺) ,利用大量運算單元合作完成機器學習任務,通過擴大時間單位內使用的運算單元規模,減小整個任務的完成時間,其主要目的有二:(1)處理在單個運算單元上在可容忍的時間范圍內無法解決的超大規模問題;(2)充分利用多運算單元的優勢,提高機器學習效率,減小整個任務的完成時間。在大數據環境下進行并行機器學習算法的研究在近年來得到了高
103、度的關注和快速的發展。從目前主要技術進展來看,并行機器學習算法的研究在以下一些方面取得了重要的成果。第一,并行化編程技術的研究。目前比較流行的研究是通過MapReduce、MPI、CUDA、OpenMP 等并行編程模型對傳統的機器學習技術進行并行化的改造和拓展183,出現了如并行聚類算法、并行分類算法、并行關聯規則挖掘算法和神經網絡并行化算法等等。由43于各種并行化技術的通用性和效率不一樣, 不同的機器學習算法在并行化的過程中必須結合自身特點以及被處理問題的特點而選擇合適的并行化技術。在云計算時代,云計算平臺為機器學習算法的并行化提供了強大的并行與分布式處理平臺。 因此結合云計算平臺在大數據環
104、境下開展并行與分布式機器學習算法的研究與應用已經成為了機器學習領域的一個重要方向184。一個典型的例子就是 Zhao 等人185于 2009 年最早提出了適用于大數據聚類的多節點并行 K 均值算法PKMeans,給出了基于 Hadoop 云平臺的并行聚類算法的具體并行方法和詳細策略。第二,學習數據的并行化處理研究。面對超多樣本和超高維度的數據進行學習和挖掘, 傳統的機器學習和數據挖掘方法無論是在處理時間上還是在求解性能上都失去了實際的應用價值。另一方面,傳統機器學習方法大多數都需要將學習樣本和挖掘對象裝載到內存中, 然后再進行處理。但是在大數據環境下,大數據已經不可能在單一的存儲節點上進行集中
105、存儲,這就給學習過程帶來了困難和挑戰,分布式存儲成為了必然的選擇。 如何針對大數據本身的特征進行高效分拆以及對分拆后的處理結果進行高效組裝, 這是能夠有效利用并行化機器學習技術對大數據分拆后得到的小數據進行求解的關鍵。 并行化機器學習技術的本質在于每一個并行運行的算法處理一些可解的數據, 因此大數據的分拆是并行化機器學習技術能夠在大數據環境下使用的前提。大數據的分拆問題可以理解為一個優化問題。隨機拆分、平均拆分、 基于實驗設計方法的拆分等各種方法都可以在一定意義上為并行化的機器學習技術提供可解的數據輸入。然而,這些拆分方法不一定是最優的,如何對大數據進行最優分拆是一個困難問題。作為一種高效的全
106、局最優化方法, 計算智能優化方法一直以來都被研究者認為是能夠輔助機器學習技術提高性能的有效途徑。然而,面對大數據的分拆, 由于傳統集中式的計算智能方法在處理時間上和規模容納上存44在嚴重的效率瓶頸, 分布式計算智能算法成為了在大數據時代下實現問題優化的新途徑。通過分布式計算智能算法,可以為大數據的最優分拆提供有效的手段, 并使得大數據成為并行機器學習技術可解的數據輸入, 最終將并行機器學習技術得到的結果進行高效組裝而實現對大數據應用問題的求解。 分布式計算智能優化方法與并行機器學習技術進行有機結合, 將是并行機器學習技術未來重要發展方向之一186。第三, 并行算法協同處理技術的研究。 一些高準
107、確性的學習算法,基于復雜的非線性模型或者采用非常昂貴的計算子程序。 在這兩種情況下,將計算分配到單個處理單元是大數據機器學習算法的關鍵點。單臺機器的學習過程可能會非常慢,采用并行多節點或者多核處理,可提高在大數據中使用復雜算法和模型的計算速度。 但是如何在多個處理單元上對這些機器學習算法進行協同成為了制約學習效率的關鍵因素。 很多應用, 如自動導航或智能推薦等, 都需要進行實時預測。在這些情形下由于推理速度的限制,需要推理算法的并行化。決定系統計算時間的因素一般有兩個:一是單任務的處理時間,該情況下計算時間的縮短可以通過提高系統單機的處理能力和吞吐量來解決; 另一個因素是時延,在絕大多數應用場
108、合,任務由多個相互關聯的進程組成,不同進程的處理時間長短不一,任務整體的處理實際有待于各個進程的結果,如某一進程處理時間延長會造成時延,整個任務的處理速度會隨著時延的增加快速下降。例如,自動導航需要基于多個傳感器做出路徑規劃的決策;智能推薦需要綜合用戶的特征分析、歷史記錄等。 因此, 如何對這些分布在不同處理單元的并行程序進行協同,提高學習效率,成為了并行機器學習算法的一個重要研究內容187。并行機器學習技術因其作為解決大數據挖掘和學習的重要手段,得到各級政府部門和國內外 IT 廠商的高度重視。目前,多核技術和計算機集群技術的實現,使得單個任務在成百上千,甚至數萬個計算單元上同時運行變得可行。
109、我們可用的計算資源在飛速發展。雖然單45個計算單元運算能力的提高已經逐步陷入停滯狀態,尤其在 PC 機的處理器上,納米級的顆粒度已經難以逾越。但是新的處理器多核技術給我們帶了巨大的改變。在如今的個人電腦 CPU 市場,各大廠商都已經意識到這個領域的廣闊市場,將多核 CPU 作為主流產品,大幅提高了個人電腦的性能。而在大型機領域,近年來國內陸續上線多個超級計算中心, 一臺普通的超級計算機的運算單元數量已經增加到幾萬甚至更多。這些都給并行機器學習技術的研究、發展和應用提供了重要的支持。目前, 大規模并行化的機器學習算法不僅在理論研究和算法設計方面引起了學術界的廣泛關注, 而且在軟件系統開發和產業應
110、用方面已經由學術界和工業界形成了相應的成果,產生了積極的影響。例如中科院計算所開發了基于云計算的并行分布式數據挖掘工具平臺(PDMiner)188。PDMiner 開發實現了各種并行數據挖掘算法,比如數據預處理、關聯規則分析以及分類、聚類等算法。PDMiner 在處理數據規模上可以支持 TB 級別、具有很好的加速比性能,可以有效地應用到實際海量數據挖掘中。此外,在 PDMiner 中還開發了工作流子系統,提供友好統一的接口界面方便用戶定義數據挖掘任務,并且開放了靈活的接口方便用戶開發集成新的并行數據挖掘算法。 清華大學設計了面向大規模文本分析的主題模型建模方法 WarpLDA,可以實現數十億文
111、本上的百萬級別主題模型學習189。微軟提出了用于圖數 據 匹 配 的Horton-QueryingLargeDistributedGraphs(http:/ 開 源 工 具 包 DMTK - Distributed Machine Learning Toolkit(https:/ ;Google 提出了適合復雜機器學習的分布式圖數據計算 Pregel 框架,但不開源;CMU 提出了GraphLab 開源分布式計算系統。百度的大規模機器學習技術搭建了一個容納萬億特征數據的、分鐘級別模型更新的、自動高效深度學習46的、高效訓練的點擊率預估系統。百度相關技術負責人表示: “百度的并行機器學習技術讓百
112、度走在世界前列,甚至比谷歌做的還要好,谷歌目前做的是二分類、并行化,處理百億特征,分鐘級別。這些,百度通過自己的創新也已達到,百度的技術可以容納百億數據特征,讓特征學習效率提升千倍,模型分鐘更新,訓練速度提升十倍。 ”4.2 哈希學習哈希學習(learning to hash)通過機器學習機制將數據映射成二進制串的形式,能顯著減少數據的存儲和通信開銷,從而有效提高學習系統的效率190191192193。哈希學習的目的是學到數據的二進制哈圖圖 4-1哈希學習示意圖哈希學習示意圖希碼表示,使得哈希碼盡可能地保留原空間中的近鄰關系,即保相似性。具體來說,每個數據點會被一個緊湊的二進制串編碼,在原空間
113、中相似的兩個點應當被映射到哈希碼空間中相似的兩個點。圖 4-1 是哈希學習的示意圖,以圖像數據為例,原始圖像表示是某種經過特征抽取后的高維實數向量,通過從數據中學習到的哈希函數 h 變換后,每幅圖像被映射到一個 8 位(bit)的二進制哈希碼,原空間中相似的兩幅圖像將被映射到相似(即海明距離較小)的兩個哈希碼,而原空間中不相似的兩幅圖像將被映射到不相似(即海明距離較大)的兩個哈希47碼。使用哈希碼表示數據后,所需要的存儲空間會被大幅減小。舉例來說,如果原空間中每個數據樣本都被一個 1024 字節的向量表示,一個包含一億個樣本的數據集要占用 100 GB 的存儲空間。相反,如果把每個數據樣本哈希
114、到一個 128 位的哈希碼, 一億個樣本的存儲空間只需要 1.6 GB。單臺機器(包括配置很高的單臺服務器)處理原始表示時,需要不斷地進行外內存交換,開銷非常大。但如果用哈希碼表示,所有計算都可以在內存中完成,單臺普通的個人電腦(PC)也能很快地完成計算。由于很多學習算法,比如 k 近鄰(kNN)、支持向量機(SVM)等的本質是利用數據的相似性,哈希學習的保相似性將在顯著提高學習速度的同時,盡可能地保證精度。另一方面,因為通過哈希學習得到的哈希碼位數(維度)一般會比原空間的維度要低,哈希學習也能降低數據維度,從而減輕維度災難問題。此外,基于哈希學習得到的二進制哈希碼可以構建索引機制, 實現常數
115、或者次線性級別的快速近鄰檢索,為上層學習任務的快速實現提供支撐。因此,哈希學習在大數據學習中占有重要地位。隨著大數據概念的廣泛普及,哈希學習研究在近幾年也取得了很大的進展,研究者從非監督哈希學習、監督哈希學習、多模態哈希學習等方面進行了系統的研究193-197,并在信息檢索、計算機視覺和多媒體領域得到了廣泛應用198-203。目前大部分哈希學習研究的思路為:針對某個機器學習場景(比如排序學習場景)或者應用場景,只要以前沒有人嘗試過用哈希學習的思想來加速學習過程,就可以考慮把哈希學習用進去,然后在一個傳統模型(這個傳統模型不用哈希學習)解決不了的數據或者應用規模上進行實驗驗證。 從解決實際問題的
116、角度來講, 這些工作雖然初步,但還是很有研究價值的, 畢竟為大數據中傳統模型不能解決的問題提供了一種可行的解決思路。但從哈希學習本身的研究來講,目前大部分工作還沒有從哈希學習問題的本質上進行考慮。因此,哈希學習雖48已被廣泛關注并在某些應用領域取得了初步成效,但研究才剛剛開始,問題本質和模型構建有待于進一步深入思考,模型參數的優化方法有待于進一步探索。另外,大部分學習場景和應用領域到目前為止還只出現很少的哈希學習方法, 有的場景和應用甚至還沒有研究者進行哈希學習的嘗試。例如,推薦系統是個很大的應用方向,但到目前為止這方面采用哈希學習的工作還不多。因此,怎樣將哈希學習的思想和方法拓展到新的學習場
117、景和應用領域, 用來解決傳統方法在遇到大數據時不能解決的問題,將是非常有意義的工作。特別值得一提的是,很多分布式機器學習的瓶頸在于節點間的通信開銷。因此,將哈希學習引入到分布式機器學習算法, 并驗證哈希學習在減小通信開銷方面的有效性,也是非常有意義的研究方向。4.3 在線學習傳統的機器學習算法是批量模式的, 假設所有的訓練數據預先給定,通過最小化定義在所有訓練數據上的經驗誤差得到分類器204。這種學習方法在小規模規模上取得了巨大成功,但當數據規模大時,其計算復雜度高、響應慢,無法用于實時性要求高的應用。與批量學習不同,在線學習假設訓練數據持續到來,通常利用一個訓練樣本更新當前的模型,大大降低了
118、學習算法的空間復雜度和時間復雜度,實時性強205。在大數據時代,大數據高速增長的特點為機器學習帶來了嚴峻的挑戰,在線學習可以有效地解決該問題,引起了學術界和工業界的廣泛關注206207208209。早期在線學習應用于線性分類器產生了著名的感知器算法210,當數據線性可分時,感知器算法收斂并能夠找到最優的分類面。經過幾十年的發展,在線學習已經形成了一套完備的理論,既可以學習線性函數,也可以學習非線性函數,既能夠用于數據可分的情況,也能夠處理數據不可分的情況211。下面我們給出一個在線學習形式化的定義及其學習目標。在線學習可以定義為學習器和對手之間的博弈:49在每一個時刻 ,學習器從決策空間選擇一
119、個決策,同時對手選擇一個損失函數,這樣學習器在當前時刻遭受損失;根據遭受的損失, 學習器對當前的決策進行更新, 從而決定下一時刻的決策。學習器的目的是最小化 個時刻的累計損失,即。以線性分類為例,在這種情況下,學習器所選擇的決策就是分類平面,對手選擇的損失函數則是一個訓練樣本上的分類誤差, 學習器的目的是最小化在 個訓練樣本上的累計誤差。在分析在線學習算法的效果時,我們通常將在線學習的累計誤差與批量學習的累計誤差相比較, 將其差值稱為遺憾(regret) 。因此,在線學習最小化累計誤差也等價于最小化遺憾,遺憾的上界也就成為衡量在線學習算法性能的標準。根據學習器在學習過程中觀測信息的不同, 在線
120、學習還可以再進一步分為:完全信息下的在線學習212和賭博機在線學習213。前者假設學習器可以觀測到完整的損失函數, 而后者假設學習器只能觀測到損失函數在當前決策上的數值,即。依舊以在線分類為例,如果學習器可以觀測到訓練樣本,該問題就屬于完全信息下的在線學習,因為基于訓練樣本就可以定義完整的分類誤差函數;如果學習器只能觀測到分類誤差而看不到訓練樣本, 該問題就屬于賭博機在線學習。由于觀測信息的不同,針對這兩種設定的學習算法也存在較大差異,其應用場景也不同。與賭博機在線學習相比, 完全信息下的在線學習觀測到的信息更多,因此相對容易。由于損失函數是已知的,因此可以計算其梯度、海森(Hessian)矩
121、陣等信息,輔助學習器更新決策。在線梯度下降是針對該設定最常用的算法,該算法利用損失函數的梯度更新當前的決策。理論可以證明,當損失函數是連續凸函數時,在線梯度下降可以達到最優的遺憾上界214;當損失函數是強凸函數時,可以達到的遺憾上界205。其他常用的學習算法還包括在線牛頓法215、正則化最優決策法216、在線核學習217等。50雖然完全信息下的在線學習已有大量成熟算法, 但在許多現實應用中,學習器能夠觀測到損失函數的這種假設并不成立,使得這些算法不能被直接應用。以在線廣告推薦為例,當學習器向用戶推薦廣告后,可以得到用戶是否點擊該廣告的反饋,但是用戶產生該反饋的機制學習器并不知曉。這種情況就是賭
122、博機在線學習的研究范疇。之所以被稱為賭博機在線學習, 是因為這類研究最早被用來建模賭場中的多臂賭博機問題218。由于觀測的不充分, 賭博機在線學習存在探索和利用兩者之間的困境213。一方面,為了準確地估計損失函數的結構,學習器需要嘗試更多的新決策;而另一方面,為了最小化遺憾,學習器又傾向于選擇能最小化損失函數的決策。與完全信息相比,賭博機在線學習更加復雜,學習算法達到的遺憾上界也更大;并且難以設計通用的學習算法,需要針對不同的函數類型、不同的隨機假設設計不同的算法219。置信上界220221和指數加權222223是用來解決探索和利用之間困境的常用策略,前者適用于損失函數是隨機產生的情況,后者針
123、對非隨機情況。對于多臂賭博機問題,假設存在 個臂,已知的遺憾上界是224和222,分別對應于隨機和非隨機情況。對于 維線性函數, 已知的最優遺憾界分別是224和223。 對于 維連續凸函數,已知的最優遺憾界分別是226和227。一方面,在線學習存在豐富的理論研究,側重于從理論上刻畫算法的遺憾上界;另一方面,在線學習也有廣闊的應用場景,并被成功應用于許多實際問題中。 完全信息下的在線學習主要被應用到在線分類205、在線物體識別228等反饋充分的問題中,主要目的是降低訓練復雜度,提高算法實時性。賭博機在線學習主要應用于商品推薦206、廣告投放207、網絡路由229等反饋受限問題中,主要目的是支持模
124、糊決策,在探索和利用之間尋找最優的平衡。在解決這些實際問題時,51又會發現一些新的問題,產生新的研究方向,促進在線學習算法和理論的發展。完全信息下的在線學習研究前沿包括非凸函數在線學習、非線性函數在線學習等問題。 賭博機在線學習的研究熱點主要圍繞如何將算法和理論拓展到弱反饋場景,比如基于比較的賭博機。52第 5 章 結束語本白皮書從主流機器學習技術、 新興機器學習技術以及大數據機器學習三方面對機器學習的研究和應用現狀做了有選擇的簡要介紹。機器學習經過 30 余年的發展,目前已成為計算機科學中研究內涵極其豐富、新技術、新應用層出不窮的重要研究分支。國際上關于機器學習的主要學術會議包括每年定期舉行
125、的國際機器學習會議(ICML) 、國際神經信息處理系統會議(NIPS) 、歐洲機器學習會議(ECML)以及亞洲機器學習會議(ACML)等,主要學術期刊包括Machine Learning 、 Journal of Machine Learning Research 、 IEEETransactions on Neural Networks and Learning Systems等。此外,人工智能領域的一些主要國際會議(如 IJCAI、AAAI 等)和國際期刊(如Artificial Intelligence 、 IEEE Transactions on Pattern Analysisand
126、 Machine Intelligence 等) 也經常發表與機器學習相關的最新研究成果。國內機器學習的重要學術活動包括每兩年舉行一次的中國機器學習會議(China Conference on Machine Learning, CCML) ,該會議目前由中國人工智能學會和中國計算機學會聯合主辦, 中國人工智能學會機器學習專業委員會和中國計算機學會人工智能與模式識別專業委員會協辦,目前已歷經 15 屆。此外,每年舉行的中國機器學習及其 應 用 研 討 會 ( Chinese Workshop on Machine Learning andApplications, MLA) ,該會議遵循“學術
127、至上、其余從簡”的原則,每屆會議邀請海內外從事機器學習及相關領域研究的多位專家與會進行學術交流,包括特邀報告、頂會交流、以及 Top Conference Review等部分。迄今已歷經 13 屆,2015 年度參會人數超過 1200 人。目前,大數據浪潮正對人類社會生活、科學研究的方方面面產生深刻影響。早期機器學習研究通常假設數據具有相對簡單的特性,如53數據來源單一、概念語義明確、數據規模適中、結構靜態穩定等。當數據具有以上簡單特性時, 基于現有的機器學習理論與方法可以有效實現數據的智能化處理。然而,在大數據時代背景下,數據往往體現出多源異構、語義復雜、規模巨大、動態多變等特殊性質,為傳統
128、機器學習技術帶來了新的挑戰。為應對這一挑戰,國內外科技企業巨頭如谷歌、微軟、亞馬遜、華為、百度等紛紛成立以機器學習技術為核心的研究院,以充分挖掘大數據中蘊含的巨大商業與應用價值??梢灶A見, 在未來相當長的一段時期內, 機器學習領域的研究將以更廣泛、更緊密的方式與工業界深度耦合,推動信息技術及產業的快速發展。54參 考 文 獻1周志華. 機器學習與數據挖掘. 中國計算機學會通訊中國計算機學會通訊, 2007, 3(12): 35-44.2T. Mitchell. Machine Learning, New York: McGraw-Hill, 1997.3A. N. Meltzoff, P. K
129、. Kuhl, J. Movellan, T. J. Sejnowski. Foundations for a new science oflearning. Science, 2009, 325(5938): 284-288.4X. Wang, A. Mueen, H. Ding, G. Trajcevski, P. Scheuermann, E. Keogh. Experimentalcomparison of representation methods and distance measures for time series data. DataMining and Knowledg
130、e Discovery. 2013, 26(2): 275-309, 2013.5E. Levina, P. Bicke. The earth movers distance is the Mallows distance: Some insights fromstatistics. In Proceedings of the 8th International Conference on Computer Vision,Vancouver, Canada, 2001, 251256.6E. Xing, A. Ng, M. Jordan, S. Russell. Distance metric
131、 learning, with application toclustering with side-information. In Advances in Neural Information Processing Systems15, Cambridge, MA: MIT Press, 2003, 505-512.7A. Bar-Hillel, T. Hertz, N. Shental, D. Weinshall. Learning distance functions usingequivalence relations. In Proceedings of the 20th Inter
132、national Conference on MachineLearning, Washington, D.C., 2003, 11-18.8J. Davis, B. Kulis, P. Jain, S. Sra, I. Dhillon. Information-theoretic metric learning. InProceedings of the 24th International Conference on Machine Learning, Corvallis, OR.,2007, 209-216.9S. Shalev-Shwartz, Y. Singer, A. Ng. On
133、line and batch learning of pseudo-metrics. InProceedings of the 21st International Conference on Machine Learning, Alberta,Canada, 2004, 128-135.10 P. Jain, B. Kulis, I. Dhillon, K. Grauman. Online metric learning and fast similarity search.In Advances in Neural Information Processing Systems 21, Ca
134、mbridge, MA: MIT Press,2008, 761-768.11 K. Weinberger, L. Saul. Fast solvers and efficient implementations for distance metriclearning. In Proceedings of the 25th International Conference on Machine Learning,Helsinki, Finland, 2008, 11601167.12 S. Paramswaran, K. Weinberger. Large margin multi-task
135、metric learning. In Advances inNeural Information Processing Systems 23, Cambridge, MA: MIT Press, 2010,1867-1875.13 K. Huang, R. Jin, Z. Xu, C.-L. Liu. Robust metric learning by smooth optimization. InProceedings of the 26th Conference on Uncertainty in Artificial Intelligence, CatalinaIsland, CA,
136、2010, 244-251.14 G. Checik, U. Shalit, V. Sharma, S. Bengio. An online algorithm for large scale imagesimilarity learning. In Advances in Neural Information Processing Systems 22,Cambridge, MA: MIT Press, 2009, 306-314.15 M. Cuturi, D. Avis. Ground metric learning. Journal of Machine Learning Resear
137、ch,2014, 15: 533-564.16 D.-C. Zhan, Y.-F. Li, Z.-H. Zhou. Learning instance specific distances using metricpropagation. In Proceedings of the 26th International Conference on Machine Learning,Montreal, Canada, 2009, 12251232.5517 J. Goldberger, S. Roweis, G. Hinton, R. Salakhutdinov. Neighbourhood C
138、omponentsAnalysis. In: Advances in Neural Information Processing Systems 17, Cambridge, MA:MIT Press, 2004, 513520.18 A. Bellet, A. Habrard, M. Sebban. Metric learning. In: Synthesis Lectures on ArtificialIntelligence and Machine Learning, San Francisco, CA: Morgan and Claypool Publishers,2015, 1-15
139、1.19 Y. Shi, A. Bellet, F. Sha. Sparse compositional metric learning. In: Proceedings of the 28thAAAI Conference on Artificial Intelligence, Qubec City, Canada, 2014, 20782084.20 Q. Qian, R. Jin, S. Zhu, Y. Lin. An integrated framework for high dimensional distancemetric learning and its application
140、 to fine-grained visual categorization. arXiv: 1402.0453,2014.21 M. Schultz, T. Joachims. Learning a distance metric from relative comparisons. InAdvances in Neural Information Processing Systems 16, Cambridge, MA: MIT Press,2004, 41-48.22 X. Gao, S. Hoi, Y. Zhang, J. Wan, J. Li. SOML: Sparse online
141、 metric learning withapplication to image retrieval. In: Proceedings of the 28th AAAI Conference on ArtificialIntelligence, Qubec City, Canada, 2014, 12061212.23 K. Liu, A. Bellet, F. Sha. Similarity learning for high-dimensional sparse data. arXiv:1411.2374, 2014.24 T. Mensink, J. Verbeek, F. Perro
142、nnin, G. Csurka. Metric learning for large scale imageclassification: Generalizing to new classes at near-zero cost. In Proceedings of the 12thEuropean Conference on Computer Vision, Firenze, Italy, 2012, 488-501.25 N. Verma, D. Mahajan, S. Sellamanickam, V. Nair. Learning hierarchical similarity me
143、trics.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Providence, RI, 2012, 2280-2287.26 N. Jiang, W. Liu, Y. Wu. Order determination and sparsity-regularized metric learningadaptive visual tracking. In Proceedings of the IEEE Conference on Computer Visionand Pattern
144、 Recognition, Providence, RI, 2012, 1956-1964.27 G. Lebanon. Metric learning for text documents. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2006, 28(4): 497-508.28 D. Lim, B. McFee, G. Lanckriet. Robust structure metric learning. In Proceedings of the30th International Conference
145、 on Machine Learning. Atlanta, GA, 2013, 615-623.29 T. Kato, N. Nagano. Metric learning for enzyme active-site search. Bioinformatics, 2010,26(21): 2698-2704.30 J. Wang, X. Gao, Q. Wang, Y. Li. ProDis-ContSHC: Learning protein dissimilaritymeasures and hierarchical context coherently for protein-pro
146、tein comparison in proteindatabase retrieval. BMC Bioinformatics, 2012, 13(S-7): S2.31 汪洪橋,孫富春,蔡艷寧,陳寧. 多核學習方法. 自動化學報自動化學報, 2010, 36(8): 1037-1050.32 G. R. G. Lanckriet, T. D. Bie, N. Cristianini, M. I. Jordan, W. S. Noble. A statisticalframework for genomic data fusion. Bioinformatics, 2004, 20: 262
147、6-2635.33 F. R. Bach, G. R. G. Lanckriet, and M. I. Jordan. Multiple kernel learning, conic duality, andthe SMO algorithm. In: Proceedings of the 21st International Conference on MachineLearning, Banff, Canada, 2004, 41-48.5634 G. R. G. Lanckriet, N. Cristianini, P. Bartlett, L. E. Ghaoui, M. I. Jor
148、dan. Learning thekernel matrix with semidefinite programming. Journal of Machine Learning Research,2004, 5: 27-72.35 S. Sonnenburg, G. Rtsch, C. Schfer, B. Schlkopf. Large scale multiple kernel learning.Journal of Machine Learning Research, 2006, 7: 1531-1565.36 A. Rakotomamonjy, F. Bach, S. Canu, Y
149、. Grandvalet. More efficiency in multiple kernellearning. In: Proceedings of the 24th International Conference on Machine Learning,Corvallis, OR, 2007, 775-782.37 A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet. SimpleMKL. Journal of MachineLearning Research, 2008, 9: 2491-2521.38 Z. Xu, R. Jin, I
150、. King, M. R. Lyu. An extended level method for efficient multiple kernellearning. In: Advances in Neural Information Processing Systems 22, Cambridge, MA:MIT Press, 2009, 1825-1832.39 Z. Xu, R. Jin, H. Yang, I. King, M. R. Lyu. Simple and efficient multiple kernel learning bygroup lasso. In: Procee
151、dings of 27th International Conference on Machine Learning,Haifa, Israel, 2010, 1175-1182.40 S. V. N. Vishwanathan, Z. Sun, N. Ampornpunt. Multiple kernel learning and the SMOalgorithm. In: Advances in Neural Information Processing Systems 23, Cambridge, MA:MIT Press, 2010, 2361-2369.41 R. Jin, T. Y
152、ang, M. Mahdavi. Sparse multiple kernel learning with geometric convergencerate. arXiv:1302.0315v1, 2013.42 M. Kloft, U. Brefeld, S. Sonnenburg, P. Laskov. Efficient and accurate lp-norm multiplekernel learning. In: Advances in Neural Information Processing Systems 22, Cambridge,MA: MIT Press, 2009,
153、 997-1005.43 M. Varma, B. R. Babu. More generality in efficient multiple kernel learning. In:Proceedings of the 26th International Conference on Machine Learning, Montreal,Canada, 2009, 1065-1072.44 A. Jain, S. V. N. Vishwanathan, M. Varma. SPG-GMKL: Generalized multiple kernellearning with a millio
154、n kernels. In: Proceedings of the 18th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining, Beijing, China, 2012, 750-758.45 C. Hinrichs, V. Singh, J. Peng, S. C. Johnson. Q-MKL: matrix-induced regularization inmulti-kernel learning with applications to neuroimaging. In: Advanc
155、es in NeuralInformation Processing Systems 25, Cambridge, MA: MIT Press, 2012, 1421-1429.46 C. Cortes, M. Mohri, A. Rostamizadeh. Learning non-linear comibinations of kernels. In:Advances in Neural Information Processing Systems 22, Cambridge, MA: MIT Press,2009, 396-404.47 Q. Mao, I. W. Tsang, S. G
156、ao, L. Wang. Generalized multiple kernel learning withdata-dependent priors. IEEE Transactions on Neural Networks and Learning Systems,2015, 26(6): 1134-1148.48 A. Nazarpour, P. Adibi. Two-stage multiple kernel learning for supervised dimensionalityreduction. Pattern Recognition, 2015, 48(5): 1854-1
157、862.49 C. Xu, D. Tao, C. Xu.Asurvey on multi-view learning. arXiv:1304.5434v1, 2013.5750 A. Blum, T. Mitchell. Combining labeled and unlabeled data with co-training. In:Proceedings of the 11th Annual Conference on Computational Learning Theory,Madison, WI, 1998, 92-100.51 K. Nigam, R. Ghani. Analyzi
158、ng the effectiveness and applicability of co-training. In:Proceedings of the 9th International Conference on Information and KnowledgeManagement, McLean, VA, 2000, 86-93.52 V. Sindhwani, D. S. Rosenberg. An RKHS for multi-view learning and manifoldco-regularization. In: Proceedings of the 25th Inter
159、national Conference on MachineLearning, Montreal, Canada, 2009, 976-983.53 Z.-H. Zhou, M. Li. Semi-supervised regression with co-training. In: Proceedings of the19th International Joint Conferences on Artificial Intelligence, Edinburgh, UK, 2005,908-916.54 S. Bickel, T. Scheffer. Multi-view clusteri
160、ng. In: Proceedings of the 4th IEEEInternational Conference on Data Mining, Brighton, UK, 2004, 19-26.55 S. Yu, K. Yu, V. Tresp, H. P. Kriegel. Multi-output regularized feature projection. IEEETransactions on Knowledge and Data Engineering, 2006, 18(12): 1600-1613.56 A. Sharma, A. Kumar, H. Daume, D
161、. W. Jacobs. Generalized multiview analysis: Adiscriminative latent space. In: Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, Providence, RI, 2012, 2160 - 2167.57 Z.-H. Zhou, D.-C. Zhan, Q. Yang. Semi-supervised learning with very few labeled trainingsamples. In: Proce
162、edings of the 22nd National Conference on Artificial Intelligence,Vancouver, Canada, 2007, 675-680.58 J. He, R. Lawrence. A graph-based framework for multi-task multi-view learning. In:Proceedings of the 28th International Conference on Machine Learning, Bellevue,Washington, 2011, 25-32.59 J. Zhang,
163、 J. Huan. Inductive multi-task learning with multiple view data. In: Proceedings ofthe 18th ACM SIGKDD International Conference on Knowledge Discovery and DataMining, Beijing, China, 2012, 543-551.60 X. Jin, F. Zhuang, S. Wang, Q. He, Z. Shi. Shared structure learning for multiple tasks withmultiple
164、 views. In: Lecture Notes in Artificial Intelligence 8189, Berlin: Springer, 2013,353-368.61 M. Hodosh, P. Young, J. Hockenmaier. Framing image description as a ranking task: Data,models and evaluation metrics. Journal of Artificial Intelligence Research, 2013, 47(1):853-899.62 L. Ma, Z. Lu, L. Shan
165、g, H. Li. Multimodal convolutional neural networks for matchingimage and sentences. arXiv: 1504.06063v1, 2015.63 M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I. H. Witten. The WEKA datamining software: An update. SIGKDD Explorations, 2009, 11(1): 10-18.64 J. Alcala-Fdez, A. Fernandez,
166、J. Luengo, J. Derrac, S. Garcaa, L. Sanchez, F. Herrera. KEELdata-mining software tool: dataset repository, integration of algorithms and experimentalanalysis framework. Journal of Multiple-Valued Logic and Soft Computing, 2011,17(2-3): 255-287.5865 M. Kearns, L.G. Valiant. Crytographic limitation o
167、n learning boolean formulae and finiteautomata. In: Proceedings of the 21st Annual ACM Symposium on Theory ofComputing, Seattle, Washington, 1989, 433-444.66 L. Breiman. Bagging predictors. Machine Learning, 1996, 24(2): 123-140.67 Y. Freund, R. E. Schapire. A decision-theoretic generalization of on
168、line learning and anapplication to boosting. Journal of Computer and System Sciences, 1997, 55(1): 119-139.68 L. Breiman. Random forests. Machine Learning, 2011, 45(1): 5-32.69 T. K. Ho. The random subspace method for constructing decision forests. IEEETransactions PatternAnalysis and Machine Intell
169、igence, 1998, 20(8): 832-844.70 J. J. Rodriguez, L. I. Kuncheva, C. J. Alonso. Rotation forest: A new classifier ensemblemethod. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(10):1619-1630.71 L. I. Kuncheva, J. J. Rodriguez. Classifier ensembles with a random linear oracle
170、. IEEETransactions on Knowledge and Data Engineering, 2007, 19(4): 500-508.72 Z. -H. Zhou, J. Wu, W. Tang. Ensembling neural networks: Many could be better than all.Artificial Intelligence, 2002, 137 (1-2): 239-263.73 Z. Yu, L. Li, J. Liu, G. Han. Hybrid adaptive classifier ensemble. IEEE Transactio
171、ns onCybernetics, 2015, 42(2): 177-190.74 Z.-H. Zhou. Ensemble Methods: Foundations and Algorithms, Boca Raton, FL:Chapman & Hall/CRC, 2012.75 Z. Yu, Z. Deng, H.-S. Wong, L. Tan. Identifying protein kinase-specific phosphorylationsitesbasedonthebagging-adaboostensembleapproach.IEEE TransactionsonNan
172、oBioScience, 2010, 9(2): 132-143.76 X. Zhu, P. Zhang, X. Lin, Y. Shi. Active learning from stream data using optimal weightclassifier ensemble. IEEE Transactions on Systems, Man, and Cybernetics - Part B:Cybernetics, 2010, 40(6): 1607-1621.77 Y. Xu, X. Cao, H. Qiao. An efficient tree classifier ense
173、mble-based approach for pedestriandetection. IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics,2011, 41(1): 107-117.78 X. Zhu. Semi-supervised learning with graphs. PhD thesis, Carnegie Mellon University,2005.79 B. Settles. Active learning literature survey. Computer Sciences
174、Technical Report 1648,University of WisconsinMadison, 2009.80 S. Tong, D. Koller. Support vector machine active learning with applications to textclassification. In: Proceedings of the 17th International Conference on MachineLearning, Stanford, CA, 2000, 9991006.81 N. Roy, A. McCallum. Toward optima
175、l active learning through sampling estimation of errorreduction. In: Proceedings of the 18th International Conference on Machine Learning,Williamstown, MA, 2001, 441448.82 Y. Freund, H. S. Seung, E. Shamir, N. Tishby. Selective sampling using the query bycommittee algorithm. Machine Learning, 1997.
176、28(2-3):133168.83 S. Dasgupta, D. Hsu. Hierarchical sampling for active learning. In: Proceedings of the 25thInternational Conference on Machine Learning, Helsinki, Finland, 2008, 208215.5984 B. Settles, M. Craven. An analysis of active learning strategies for sequence labeling tasks.In: Proceedings
177、 of the Conference on Empirical Methods in Natural LanguageProcessing, Honolulu, HI, 2008, 10691078.85 S.-J. Huang, R. Jin, Z.-H. Zhou. Active learning by querying informative and representativeexamples. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014.36(10): 1936-1949.86 R. Cha
178、ttopadhyay, Z. Wang, W. Fan, I. Davidson, S. Panchanathan, J. Ye. Batch modeactive sampling based on marginal probability distribution matching. In: Proceedings of the18th ACM SIGKDD International Conference on Knowledge Discovery and DataMining, Beijing, China, 2012, 741-749.87 S.-J. Huang, S. Chen
179、, Z.-H. Zhou. Multi-label active learning: Query type matters. In:Proceedings of the 24th International Joint Conference on Artificial Intelligence,Buenos Aires, Argentina, 2015, 946-952.88 P. Donmez, J. Carbonell, J. Schneider. Efficiently learning the accuracy of labeling sourcesfor selective samp
180、ling. In: Proceedings of the 15th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining, Paris, France, 2009, 259268.89 D. Margineantu. Active cost-sensitive learning. In: Proceedings of the 19th InternationalJoint Conference on Artificial Intelligence, Edinburgh, UK, 2005, 16221
181、623.90 R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction. Cambridge, MA:MIT Press, 1998.91 P. Abbeel, A. Coates, M. Quigley, A. Y. Ng. An application of reinforcement learning toaerobatic helicopter flight. In: Advances in Neural Information Processing Systems 19,Cambridge, MA: MIT
182、Press, 2007, 1-8.92 Y. C. Wang, J. M. Usher. Application of reinforcement learning for agent-based productionscheduling. Engineering Applications of Artificial Intelligence, 2005, 18(1): 73-82.93 J. J. Choi, D. Laibson, B. C. Madrian, A. Metrick. Reinforcement learning and savingsbehavior. The Journ
183、al of Finance, 2009, 64(6):2515-2534.94 J. A. Boyan, M. L. Littman. Packet routing in dynamically changing networks: Areinforcement learning approach. In: Advances in Neural Information ProcessingSystems 6, Burlington, MA: Morgan Kaufmann, 1994, 671-671.95 J. Frank, L. C. Seeberger, R. C. OReilly. B
184、y carrot or by stick: Cognitive reinforcementlearning in Parkinsonism. Science, 2004, 306(5703): 1940-1943.96 K. Samejima, Y. Ueda, K. Doya, M. Kimura. Representation of action-specific rewardvalues in the striatum. Science, 2005, 310(5752): 1337-1340.97 T. G. Dietterich. Machine learning research:
185、Four current directions. AI Magazine, 1997,18(4), 97-136.98 C. H. Watkins. Learning from delayed rewards. Ph.D. Thesis, Kings College, University ofCambridge, 1989.99 P. L. Bartlett, J. Baxter. Infinite-horizon policy-gradient estimation. Journal of ArtificialIntelligence Research, 2001, 15: 319-350
186、.100 G. Rummery, M. Niranjan. On-line Q-learning using connectionist systems. TechnicalReport, University of Cambridge, 1994.101 R.J.Williams.Simplestatisticalgradient-followingalgorithmsforconnectionistreinforcement learning. Machine Learning, 1992, 8(3): 229256.60102 G. Konidaris, S. Osentoski, P.
187、 Thomas. Value function approximation in reinforcementlearning using the Fourier basis. In: Proceedings of the 25th AAAI Conference onArtificial Intelligence, San Francisco, CA, 2011, 380-385.103 M. Bellemare, J. Veness, M. Bowling. Sketch-based linear value function approximation. In:Advances in Ne
188、ural Information Processing Systems 25, Cambridge, MA: MIT Press,2012, 2222-2230.104 X. Xu, D. Hu, X. Lu. Kernel-based least squares policy iteration for reinforcement learning.IEEE Transactions on Neural Networks, 2007, 18(4): 973-992.105 V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M
189、. G. Bellemare, A. Graves, M.Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou,H. King, D. Kumaran, D. Wierstra, S. Legg, D. Hassabis. Human-level control through deepreinforcement learning. Nature, 2015, 518: 529533.106 S. Mannor, R. Y. Rubinstein, Y. Gat.
190、The cross entropy method for fast policy search. In:Proceedings of the 30th International Conference on Machine Learning, Atlanta, GA,2013, 512-519.107 I. Szita, A. Lrincz. Learning tetris using the noisy cross-entropy method. NeuralComputation, 2006, 18(12): 2936-2941.108 S. Schaal. Is imitation le
191、arning the route to humanoid robots. Trends in Cognitive Sciences. 1999, 3(6): 233-242.109 C. Atkeson, S. Schaal. Robot learning from demonstration. In: Proceedings of the 14thInternational Conference on Machine Learning, San Francisco, CA, 1997, 12-20.110 P. Abbeel, A. Y. Ng. Apprenticeship learnin
192、g via inverse reinforcement learning. In:Proceedings of the 21st International Conference on Machine Learning, Banff, Canada,2004, 1-8.111 B. Ziebart, A. Maas, J. Bagnell, A. Dey. Maximum entropy inverse reinforcement learning.In: Proceedings of the 23th AAAI Conference on Artificial Intelligence, C
193、hicago, IL,2008, 1433-1438.112 A. Y. Ng, S. J. Russell. Algorithms for inverse reinforcement learning. In: Proceedings ofthe 17th International Conference on Machine Learning, Stanford, CA, 2000, 663670.113 P. Abbeel, D. Dolgo, A. Y. Ng, S. Thrun. Apprenticeship learning for motion planning withappl
194、ication to parking lot navigation. In: Proceedings of the IEEE/RSJ InternationalConference on Intelligent Robots and Systems, Nice, France, 2008, 10831090.114 M. E. Taylor, P. Stone. Transfer learning for reinforcement learning domains: A survey.Journal of Machine Learning Research, 2009, 10: 163316
195、85.115 M. E. Taylor, G. Kuhlmann, P. Stone. Autonomous transfer for reinforcement learning. In:Proceedings of the 7th International Conference on Autonomous Agents andMultiagent Systems, Estoril, Portugal, 2008, 283290.116 B. Da Silva, G. Konidaris, A. Barto. Learning parameterized skills. In: Proce
196、edings of the29th International Conference on Machine Learning, Edinburgh, UK, 2012, 1679-1686.117 W. B. Knox, P. Stone. Framing reinforcement learning from human reward: Rewardpositivity, temporal discounting, episodicity, and performance. Artificial Intelligence, 2015,225: 24-50.61118 S. J. Pan, Q
197、. Yang. A survey on transfer learning. IEEE Transaction on Data Engineering,2010. 22(10): 1345-1359.119 J. Jiang, C. X. Zhai. A two-stage approach to domain adaptation for statistical classifiers. In:Proceedingsofthe16thACMConferenceonInformationandKnowledgeManagement, Lisbon, Portugal, 2007, 401-41
198、0.120 W. Y. Dai, G. R. Xue, Q. Yang, Y. Yu. Co-clustering based classification for out-of-domaindocuments. In: Proceedings of the 13th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining, San Jose, CA, 2007, 210-219.121 M. Fang, J. Yin, X. Q. Zhu. Transfer learning across netwo
199、rks for collective classification.In: Proceedings of the 13th IEEE International Conference on Data Mining, Dallas, TX,2013, 161-170.122 S. J. Pan, J. T. Kwok, Q. Yang. Transfer learning via dimensionality reduction. In:Proceedings of the 23rd National Conference on Artificial Intelligence, Chicago,
200、 IL,2008, 677-682.123 J. Blitzer, R. McDonald, F. Pereira. Domain adaptation with structural correspondencelearning. In: Proceedings of the International Conference on Empirical Methods inNatural Language Processing, Sydney,Australia, 2006, 120-128.124 Y. Yeh, C. Huang, Y. Wang. Heterogeneous domain
201、 adaptation and classification byexploiting the correlation subspace. IEEE Transactions on Image Processing, 2013, 23(5):2009-2018.125 J. Jiang, C. X. Zhai. Instance weighting for domain adaptation in NLP. In: Proceedings ofthe 45th Annual Meeting of the Association for Computational Linguistics, Pr
202、ague,Czech Republic, 2007, 264-271.126 W. Y. Dai, Q. Yang, G. R. Xue, Y. Yu. Boosting for transfer learning. In: Proceedings of the24th International Conference on Machine Learning, Corvallis, OR, 2007, 193-200.127 J. Gao, W. Fan, Y. Z. Sun, J. Han. Heterogeneous source consensus learning via decisi
203、onpropagation and negotiation. In: Proceedings of the 13th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining, Paris, France, 2009, 339-348.128 F. Z. Zhuang, P. Luo, H. Xiong, Y. Xiong, Q. He, Z. Shi. Cross-domain learning frommultiplesources: A consensusregularizationperspect
204、ive.IEEETransactionsonKnowledge and Data Engineering, 2010, 22(12): 1664-1678.129 F. Z. Zhuang, X. Cheng, P. Luo, S. J. Pan, Q. He. Supervised representation learning:Transfer learning with deep autoencoders. In: Proceedings of the 24th International JointConference on Artificial Intelligence, Bueno
205、sAires, Argentina, 2015, 4119-4125.130 F. Z. Zhuang, X. Cheng, S. J. Pan, W. Yu, Q. He, Z. Shi. Transfer learning with multiplesources via consensus regularized autoencoders. In: Lecture Notes in Computer Science8726, Berlin: Springer, 2014, 417-431.131 Q. Q. Gu, J. Zhou. Learning the shared subspac
206、e for multi-task clustering and transductivetransfer classification. In: Proceedings of the 9th IEEE International Conference onData Mining, Miami, FL, 2009, 159-168.132 M. Kan, J. Wu, S. Shan, X. Chen. Domain adaptation for face recognition: Targetize sourcedomain bridged by common subspace. Intern
207、ational Journal of Computer Vision, 2014,109(1): 94-109.62133 W. Pan, E. W. Xiang, Q. Yang. Transfer learning in collaborative filtering with uncertainratings. In: Proceedings of the 26th AAAI Conference on Artificial Intelligence, Toronto,Canada, 2012, 662-668.134 G. E. Hinton, R. R. Salakhutdinov.
208、 Reducing the dimensionality of data with neural network.Science, 2006, 313(5786): 504-507.135 G. Dahl, D. Yu, L. Deng, A. Acero. Context-dependent pre-trained deep neural networks forlarge vocabulary speech recognition. IEEE Transactions on Audio, Speech, andLanguage Processing, 2012, 20(1): 30-42.
209、136 A. Hannun, C. Case, J. Casper, B. Catanzaro, G. Diamos, E. Elsen, R. Prenger, S. Satheesh,S. Sengupta, A. Coates and A. Y. Ng. DeepSpeech: Scaling up end-to-end speechrecognition. arXiv:1412.5567, 2014.137 D. C. Ciresan, U. Meier, L. M. Gambardella, J. Schmidhuber. Deep big simple neural netsexc
210、el on handwritten digit recognition. arXiv:1003.0358, 2010.138 A. Krizhevsky, I. Sutskever, G. E. Hinton. Imagenet classification with deep convolutionalneural networks. In: Advances in Neural Information Processing Systems 25, Cambridge,MA: MIT Press, 2012, 1097-1105.139 C. Szegedy, W. Liu, Y. Jia,
211、 P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhocke, A.Rabinovich. Going deeper with convolutions. arXiv:1409.4842, 2014.140 R. Collobert, J. Weston. A unified architecture for natural language processing: Deep neuralnetworks with multitask learning. In: Proceedings of the 25th International C
212、onferenceon Machine Learning, Helsinki, Finland, 2008, 160-167.141 A. Mnih, G. Hinton. Three new graphical models for statistical language modeling. In:Proceedings of the 24th International Conference on Machine Learning, Corvallis, OR,2007, 641-648.142 A. Mnih, G. Hinton. A scalable hierarchical di
213、stributed language model. In: Advances inNeural Information Processing Systems 21, Cambridge, MA: MIT Press, 2009,1081-1088.143 M. K. Leung, H. Y. Xiong, L. J. Lee, B. J. Frey. Deep learning of the tissue-regulatedsplicing code. Bioinformatics, 2014, 30(12): 121-129.144 H. Y. Xiong, B. Alipanahi, L.
214、 J. Lee, H. Bretschneider, D. Merico, R. K. C. Yuen, Y. Hua, S.Gueroussov, H. S. Najafabadi, T. R. Hughes, Q. Morris, Y. Barash, A. R. Krainer, N. Jojic, S.W. Scherer, B. J. Blencowe, B. J. Frey. The human splicing code reveals new insights intothe genetic determinants of disease. Science, 2015, 347
215、(6218): 1254806.145 J. Ma, R. P. Sheridan, A. Liaw, G. E. Dahl, V. Svetnik. Deep neural nets as a method forquantitative structure-activity relationships. Journal of Chemical Information andModeling, 2015, 55(2): 263-274.146 M. Helmstaedter, K. L. Briggman, S. C. Turaga, V. Jain, H. S. Seung, W. Den
216、k.Connectomic reconstruction of the inner plexiform layer in the mouse retina. Nature, 2013,500: 168-174.147 A. Waibel, T. Hanazawa, G. E. Hinton, K. Shikano, K. Lang. Phoneme recognition usingtime-delay neural networks. IEEE Transactions on Acoustics, Speech and SignalProcessing, 1989, 37(3): 328-3
217、39.148 Y. LeCun, L. Bottou, Y. Bengio, P. Haffner. Gradient-based learning applied to documentrecognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324.63149 D. Simard, P. Y. Steinkraus, J. C. Platt. Best practices for convolutional neural networks. In:Proceedings of the 17th International Confe
218、rence on Document Analysis andRecognition,Algoval, UK, 2003, 958-963.150 S. Lawrance, C. L. Giles, A. C. Tsoi, A. D. Back. Face recognition: A convolutionalneural-network approach. IEEE Transactions on Neural Networks, 1997, 8(1): 98-113.151 B. Boser, E. Sackinger, J. Bromley, Y. LeCun, L. Jackel. A
219、n analog neural networkprocessor with programmable topology. IEEE Journal of Solid-State Circuits, 1991,26(12): 2017-2025.152 C. Farabet, Y. LeCun, K. Kavukcuoglu, B. Martini, P. Akselrod, S. Talay, E. Culurciello.Large-scale FPGA-based convolutional networks. In: Scaling Up Machine Learning,Cambrid
220、ge, UK: Cambridge University Press, 2011, 399-419.153 L. Getoor, B. Taskar. Introduction to Statistical Relational Learning. Cambridge, MA:MIT Press. 2007.154 劉大有, 于鵬, 高瀅, 齊紅 ,孫舒楊. 統計關系學習研究進展. 計算機研究與發展計算機研究與發展, 2008,(12): 2110-2119.155 X.-L. Li, Z.-H. Zhou. Structure learning of probabilistic relati
221、onal models from incompleterelational data. In Proceedings of the 17th European Conference on Machine Learning,Warsaw, Poland, 2007, 214-225.156 K. Kersting, L. D. Raedt. Adaptive Bayesian logic programs. In: Proceedings of the 11thInternational Conference on Inductive Logic Programming, Strasbourg,
222、 France, 2001,104-117.157 M. Richardson, P. Domingos. Markov logic networks. Machine Learning, 2006, 62(1-2):107-136.158 P. D. Hoff. Multiplicative latent factor models for description and prediction of socialnetworks.ComputationalandMathematicalOrganization Theory,2009,15(4):261-272.159 H. Wang, W.
223、-J. Li. Online egocentric models for citation networks. In: Proceedings of the23rd International Joint Conference on Artificial Intelligence, Beijing, China, 2013,2726-2732.160 C. Xie, L. Yan, W.-J. Li, Z. Zhang. Distributed power-law graph computing: Theoreticaland empirical analysis. In: Advances
224、in Neural Information Processing Systems 27,Cambridge, MA: MIT Press, 2014, 1673-1681.161 M. Nickel, K. Murphy, V. Tresp, E. Gabrilovich. A review of relational machine learningfor knowledge graphs. arXiv:1503.00759v2, 2015.162 T. Bck. Evolutionary Algorithms in Theory and Practice: Evolution Strate
225、gies, Evolu-tionary Programming, Genetic Algorithms. Oxford, UK: Oxford University Press, 1996.163 A. S. Fraser. Monte Carlo analyses of genetic models. Nature, 1958, 181(4603): 208-209.164 S. Kirkpatrick. Optimization by simulated annealing: Quantitative studies. Journal ofStatistical Physics, 1984
226、, 34(5): 975-986.165 A. Assion, T. Baumert, M. Bergt, T. Brixner, B. Kiefer, V. Seyfried, M. Strehle, G. Gerber.Control of chemical ceactions by feedback-optimized phase-shaped femtosecond laserpulses. Science, 1998, 282(5390): 919-922.166 M. Dorigo. Optimization, learning and natural algorithms. Ph
227、D Thesis, Politecnico diMilano, Italy, 1992.64167 J. R. Koza, M. A. Keane, M. J. Streeter. Whats AI done for me lately? Geneticprogrammings human-competitive results. IEEE Intelligent Systems, 2003, 18(3): 25-31.168 G. S. Hornby, A. Globus, D. S. Linden, J. D. Lohn. Automated antenna design withevol
228、utionary algorithms. In: Proceedings of 2006 American Institute of Aeronautics andAstronautics Conference on Space, San Jose, CA, 2006, 19-21.169 G. S. Hornby, T. Kurtoglu. Toward a smarter web. Science, 2009, 325(5938): 277-278.170 D. E. Goldberg, J. H. Holland. Genetic algorithms and machine learn
229、ing. MachineLearning, 1988, 3(2): 95-99.171 D. E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning,Boston, MA: Addison-Wesley Longman Publishing, 1989.172 A. A. Freitas. A survey of evolutionary algorithms for data mining and knowledge discovery.In: Advances in Evolutionary
230、Computing: Theory and Applications, Berlin: Springer,2003, 819-845.173 E. R. Hruschka, R. Campello, A. A. Freitas, A. de Carvalho: A survey of evolutionaryalgorithms for clustering. IEEE Transactions on Systems, Man, and Cybernetics, Part C:Applications and Reviews, 2009, 39(2): 133-155.174 S. Ding,
231、 H. Li, C. Su, J. Yu, F. Jin. Evolutionary artificial neural networks: A review.Artificial Intelligence Review, 2013, 39(3):251-260.175 Y. Yu, Z.-H. Zhou. A new approach to estimating the expected first hitting time ofevolutionary algorithms. Artificial Intelligence, 2008, 172(15): 1809-1832.176 Y.
232、Yu, C. Qian, Z.-H. Zhou. Switch analysis for running time analysis of evolutionaryalgorithms. IEEE Transactions on Evolutionary Computation, 2015, in press.177 Y. Yu, X. Yao, Z.-H. Zhou. On the approximation ability of evolutionary optimization withapplication to minimum set cover. Artificial Intell
233、igence, 2012, 180-181: 20-33.178 C. Qian, Y. Yu, Z.-H. Zhou. On constrained boolean pareto optimization. In: Proceedingsof the 23rd International Joint Conference on Artificial Intelligence, Buenos Aires,Argentina, 2015, 389-395.179 C. Qian, Y. Yu, Z.-H. Zhou. An analysis on recombination in multi-o
234、bjective evolutionaryoptimization. Artificial Intelligence, 2013, 204: 99-119.180 C. Qian, Y. Yu, Z.-H. Zhou. Pareto ensemble pruning. In: Proceedings of the 29th AAAIConference on Artificial Intelligence, Austin, TX, 2015, 2935-2941.181 C. Qian, Y. Yu, Z.-H. Zhou. Subset selection by Pareto optimiz
235、ation. In: Advances inNeural Information Processing Systems 28, Cambridge, MA: MIT Press, 2015, in press.182 陳康, 向勇, 喻超. 大數據時代機器學習的新趨勢. 電信科學電信科學, 2013, 28(12): 88-95.183 G. W. Zhang, Z. H. Zhan, K. J. Du, Y. Lin, W. N. Chen, J. J. Li, J. Zhang. Parallel particleswarm optimization using message passi
236、ng interface. In: Proceedings of the 18th AsiaPacific Symposium on Intelligent and Evolutionary Systems, Singapore, 2014, 55-64.184 Z. H. Zhan, X. F. Liu, Y. J. Gong, J. Zhang, H. S. H. Chung, Y. Li. Cloud computingresource scheduling and a survey of its evolutionary approaches. ACM ComputingSurveys
237、, 2015, 47(4): 1-33.185 W. Z. Zhao, H. F. Ma, Q. He. Parallel k-means clustering based on Mapreduce. In: LectureNotes in Computer Science 5931, Springer Berlin Heidelberg, 2009, 674-679.65186 J. Zhang, Z. H. Zhan, Y. Lin, N. Chen, Y. J. Gong, J. H. Zhong. Evolutionary computationmeets machine learni
238、ng: A survey. IEEE Computational Intelligence Magazine, 2011,6(4): 68-75.187 何清, 李寧, 羅文娟, 史忠植. 大數據下的機器學習算法綜述. 模式識別與人工智能模式識別與人工智能,2014, 27(4): 327-336.188 何清, 莊福振, 曾立, 趙衛中, 譚慶. PDMiner: 基于云計算的并行分布式數據挖掘工具平臺. 中國科學中國科學-信息科學信息科學 (中文版中文版), 2014, 44(7): 871-885.189 J. Chen, K. Li, J. Zhu, W. Chen. WarpLDA:
239、 A simple and efficient O(1) algorithm for latentDirichlet allocation. arXiv:1510.08628, 2015.190 李武軍, 周志華. 大數據哈希學習:現狀與趨勢. 科學通報科學通報, 2015, 60(5/6): 485-490.191 Y. Weiss, A. Torralba, R. Fergus. Spectral hashing. In: Advances in Neural InformationProcessing Systems 21, Cambridge, MA: MIT Press, 2008,
240、 1753-1760.192 B. Kulis, P. Jain, K. Grauman. Fast similarity search for learned metrics. IEEETransactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 21432157.193 Y. Gong, S. Lazebnik, A. Gordo, F. Perronnin. Iterative quantization: A procrusteanapproach to learning binary codes for
241、 large-scale image retrieval. IEEE Transactions onPattern Analysis and Machine Intelligence, 2013, 35(12): 29162929.194 J. Wang, S. Kumar, S.-F. Chang. Semi-supervised hashing for large-scale search. IEEETransactions on Pattern Analysis and Machine Intelligence, 2012, 34(12): 23932406.195 X. Zhu, Z.
242、 Huang, H.T. Shen, X. Zhao. Linear cross-modal hashing for efficient multimediasearch. In Proceedings of the 21st ACM International Conference on Multimedia,Barcelona, Spain, 2013, 143-152.196 D. Zhang, W.-J. Li. Large-scale supervised multimodal hashing with semantic correlationmaximization. In: Pr
243、oceedings of the 28th AAAI Conference on Artificial Intelligence,Quebec City, Canada, 2014, 2177-2183.197 Y. Zhen, D.-Y. Yeung. A probabilistic model for multimodal hash function learning. InProceedings of the 18th ACM SIGKDD Conference on Knowledge Discovery and DataMining, Beijing, China, 2012, 94
244、0-948.198 P. Zhang, W. Zhang, W.-J. Li, M. Guo. Supervised hashing with latent factor models. In:Proceedings of the 37th ACM Conference on Research and Development inInformation Retrieval, Gold Coast, Australia, 2014, 173-182.199 J. Zhou, G. Ding, Y. Guo. Latent semantic sparse hashing for cross-mod
245、al similarity search.In: Proceedings of the 37th ACM Conference on Research and Development inInformation Retrieval, Gold Coast, Australia, 2014, 415-424.200 G. Ding, Y. Guo, J. Zhou. Collective matrix factorization hashing for multimodal data. In:Proceedings of the 2014 IEEE Conference on Computer
246、Vision and PatternRecognition, Columbus, OH, 2014, 2083-2090.201 F. Shen, C. Shen, Q. Shi, A.V.D. Hengel, Z. Tang. Inductive hashing on manifolds. InProceedings of the 2013 IEEE Conference on Computer Vision and PatternRecognition, Portland, OR, 2013, 1562-1569.202 P. Li, M. Wang, J. Cheng, C. Xu, H
247、. Lu. Spectral hashing with semantically consistent graphfor image indexing. IEEE Transactions on Multimedia, 2013, 15(1): 141152.203 F. Wu, Z. Yu, Y. Yang, S. Tang, Y. Zhang, Y. Zhuang. Sparse multi-modal hashing. IEEETransactions on Multimedia, 2014, 16(2): 427439.66204 T. Hastie, R. Tibshirani, J
248、. Friedman. The Elements of Statistical Learning. Berlin: Springer,2009.205 S. Shalev-Shwartz, Y. Singer, N. Srebro. Pegasos: Primal estimated sub-gradient solver forSVM. In: Proceedings of the 24th International Conference on Machine Learning,Corvallis, OR, 2007, 807-814.206 L. Li, W. Chu, J. Langf
249、ord, R. E. Schapire. A contextual-bandit approach to personalizednews article recommendation. In: Proceedings of the 19th International Conference onWorld Wide Web, Raleigh, NC, 2010, 661-670.207 W. Li, X. Wang, R. Zhang, Y. Cui, J. Mao, R. Jin. Exploitation and exploration in aperformance based con
250、textual advertising system. In: Proceedings of the 16th ACMSIGKDD International Conference on Knowledge Discovery and Data Mining,Washington D. C., 2010, 26-37.208 L. Zhang, R. Jin, C. Chen, J. Bu, X. He. Efficient online learning for large-scale sparsekernel logistic regression. In: Proceedings of
251、the 26th AAAI Conference on ArtificialIntelligence, Toronto, Canada, 2012, 1219-1225.209 A. Daniely, A. Gonen, S. Shalev-Shwartz. Strongly adaptive online learning. In:Proceedings of the 32nd International Conference on Machine Learning, Lille, France,2015.210 F. Rosenblatt. The perceptron: A probab
252、ilistic model for information storage andorganization in the brain. Psychological Review, 1958, 65: 386-407.211 N. Cesa-Bianchi, G. Lugosi. Prediction, Learning, and Games. Cambridge, UK:Cambridge University Press, 2006.212 S. Shalev-Shwartz. Online learning and online convex optimization. Foundatio
253、ns andTrends in Machine Learning, 2011, 4(2): 107-194.213 S. Bubeck, N. Cesa-Bianchi. Regret analysis of stochastic and nonstochastic multi-armedbandit problems. Foundations and Trends in Machine Learning, 2012, 5(1): 1-122.214 M. Zinkevich. Online convex programming and generalized infinitesimal gr
254、adient ascent. In:Proceedings of the 20th International Conference on Machine Learning, Washington D.C., 2003, 928-936.215 E. Hazan, A. Agarwal, S. Kale. Logarithmic regret algorithms for online convexoptimization. Machine Learning, 2007, 69(2-3): 169-192.216 H. B. Mcmahan. Follow-the-regularized-le
255、ader and mirror descent: Equivalence theoremsand l1 regularization. In: Proceedings of the 14th International Conference on ArtificialIntelligence and Statistics, Fort Lauderdale, FL, 2011, 525-533.217 L. Zhang, J. Yi, R. Jin, M. Lin, X. He. Online kernel learning with a near optimal sparsitybound.
256、In: Proceedings of the 30th International Conference on Machine Learning,Atlanta, GA, 2013, 621-629.218 H. Robbins. Some aspects of the sequential design of experiments. Bulletin of theAmerican Mathematical Society, 1952, 58(5): 527-535.219 L. Zhang, T. Yang, R. Jin, Z.-H. Zhou. Online bandit learni
257、ng for a special class ofnon-convex losses. In: Proceedings of the 29th AAAI Conference on ArtificialIntelligence, Austin, TX, 2015, 3158-3164.220 R. Agrawal. Sample mean based index policies with O(log n) regret for the multi-armedbandit problem. Advances in Applied Probability, 1995, 27(4): 1054-1
258、078.67221 P. Auer. Using confidence bounds for exploitation-exploration trade-offs. Journal ofMachine Learning Research, 2002, 3: 397-422, 2002.222 P. Auer, N. Cesa-Bianchi, Y. Freund, R. E. Schapire. The nonstochastic multiarmed banditproblem. SIAM Journal on Computing, 2003, 32(1): 48-77.223 J. Ab
259、ernethy, E. Hazan, A. Rakhlin. Competing in the dark: An efficient algorithm forbandit linear optimization. In: Proceedings of the 21st Annual Conference on LearningTheory, Helsinki, Finland, 2008, 263-274.224 P. Auer, N. Cesa-Bianchi, P. Fischer. Finite-time analysis of the multiarmed bandit proble
260、m.Machine Learning, 2002, 47(2-3): 235-256.225 V. Dani, T. P. Hayes, S. M. Kakade. Stochastic linear optimization under bandit feedback.In: Proceedings of the 21st Annual Conference on Learning Theory, Helsinki, Finland,2008, 355-366.226 A. Agarwal, D. P. Foster, D. Hsu, S. M. Kakade, A. Rakhlin. St
261、ochastic convexoptimization with bandit feedback. SIAM Journal on Optimization, 2013, 23(1): 213-240.227 A. D. Flaxman, A. T. Kalai, H. B. McMahan. Online convex optimization in the banditsetting: Gradient descent without a gradient. In: Proceedings of the 16th AnnualACM-SIAM Symposium on Discrete A
262、lgorithms, Vancouver, Canada, 2005, 385-394.228 W. Smart, M. Zhang. Applying online gradient descent search to genetic programming forobject recognition. In: Proceedings of Australasian Workshop on Data Mining and WebIntelligence, Dunedin, New Zealand, 2004, 133-138.229 B. Awerbuch, R. D. Kleinberg. Adaptive routing with end-to-end feedback: Distributedlearning and geometric approaches. In: Proceedings of the 36th Annual ACM Symposiumon Theory of Computing, Chicago, IL, 2004, 4553.