06全體大會.pdf

編號:111441 PDF 31頁 2.04MB 下載積分:VIP專享
下載報告請您先登錄!

06全體大會.pdf

1、 1 06全體大會 2 麻省理工學院教授 Alex Pentland:下一代通用人工智能分布式、長尾、非靜態、隱私保護和加密整理:智源社區 高洛生Alex Pentland本次演講主題是NextGenerationAI:Distributed,Long-Tailed,Non-Stationary,Privacy-PreservingandEncrypted。Alex Pentland,美國國家科學院院士,麻省理工學院 ConnectionScience 實驗室主任,世界上被引用最多的計算科學家之一。2012 年,與谷歌聯合創始人 LarryPage 一起被福布斯列入“世界上最強大的七位數據科學

2、家”。2013 年獲哈佛商業評論頒發的麥肯錫獎。幫助麻省理工學院創建媒體實驗室和位于印度的亞洲媒體實驗室,受到包括法國、意大利、澳大利亞、哥倫比亞等國家和世界銀行、萬事達等組織和機構的資助。作為計算科學家之一,福布斯曾將他與 Google 創始人拉里佩齊等人稱為世界上最具影響力的七大數據科學家。此外,Alex Pentland 教授也是計算社會科學、組織工程、可穿戴計算、圖像理解和現代生物識別學的先驅,被譽為“可穿戴設備之父”。曾經共同領導達沃斯經濟論壇的討論,通過與世界各地的領導人進行對話,了解目前政府和工業界對人工智能的需求。并且擔任美國律師協會、美國電話電報公司的董事會成員。智源社區編輯

3、根據 Alex Pentland 的現場演講,在不改變原意的基礎上整理如下。一、安全與隱私隱私是每個人都非常關心的,隱私不是加密的問題,而是哪些事情該做、哪些事情不該做的問題。Pentland介紹,他已經說服許多歐盟國家和大型企業廣泛地共享數據資源,但這種共享并非直接共享數據本身。GDPR(General Data Protection Regulation,通用數據保護條例)的關鍵核心在于沒有數據庫,不將數據移動到中央存儲器。因此這就是人們常說的開放算法,提出問題的人和擁有數據的人必須理解算法的作用,知道數據是否安全,知道數據是否被正確地應用,而不是把來自不同國家、不同公司的數據資源放在一起

4、。開放算法沒有真正分享數據,只是分享數據的認證證書。當然,隨之而來的就是綜合學習(Comprehensive Learning),能夠把人工智能算法分解成在本地運行的小塊然后進行組合,很多技術都可以實現這一點,例如安全的多方計算,使用非常安全的硬件,進行同態加密等。Pentland 認為該方面的研究尚未充足,因此其非常熱衷于此。接下來,Pentland 分享了他對 AI 未來機遇的思考,特別是在金融方面。此次新冠疫情讓世界的貿易體系有了巨大的改變,人們不再頻繁地旅行,導致在商業領域數字技術開始有了較大的發展。此次疫情讓人們真正想要學習如何應用數字技術,改變政府、企業和個人的工作方式,由此也給

5、AI 帶來了巨大的機遇。同時,現在網絡犯罪也非常頻繁,許多專家認為未來將會有更多網絡犯罪,以后 AI 的很多領域都會和 5G 聯系在一起,所以 5G 將會發揮很重要的作用。如今人們開始越來越多地接受新興技術,同時需要更多的安全性,包括金融安全、隱私安全等等。此外,教育領域和商業領域也在發生著巨大的改變。每年 MIT 都會舉辦一場經濟論壇,邀請世界各地的商業領袖談一談他們如何應對新興趨勢,上一場是在今年 1 月份舉辦(詳情可在 http:/imaginationinaction.xyz 中查看)的,當時疫情剛剛開始,而現在商業界(包括很多大型銀行)正在制定新的數字化計劃。盡管商界都有在未來十年進

6、行數字化的計劃,但 Pentland 希望可以在幾個月就能完成這一轉變。3 最近 Facebook 推出了一款新型虛擬加密貨幣 Libra,它確實是一款非常棒的產品,目前已經在許多城市試點,如果未來幾年想應用于更廣泛的領域,重點應在于如何與比特幣相結合。Libra 是基于比特幣建立起來的一種虛擬加密貨幣,但是如何讓全世界的商業巨頭使用呢?這些商業巨頭掌控著海量的消費者金錢,同時也掌握著海量的消費者數據,不斷分發著金錢和數據,這個過程就涉及到非常重要的隱私。如今美國、中國和巴基斯坦等國家的人們也在使用類似的應用,例如 Tradecoin 作為電力交易工具已經在巴基斯坦應用,這種應用并不屬于巴基斯

7、坦政府,而是屬于這些能源的使用者,所以并不一定要依賴政府資助,可以通過社區建立起這種應用。圖 1:人工智能在金融領域的應用圖 1 所示是 Pentland 參與建立的世界銀行應用系統。大多數國家的政府都沒有非常完善的數字化系統,Pentland 所做的就是創建開源系統,通過區塊鏈技術讓政府體系變得更加高效,也讓運作成本相比之前更低。另外一個例子是 http:/law.mit.edu,該網站展示了有關計算機方面的一些法律案例。很多人都會問這些數字活動是不是合法的?有沒有跨越法律的邊界?是否需要改變現有法律來讓 AI 得到進一步的應用?這些疑問也是Pentland 團隊所聚焦的重點,如何能夠抓住這

8、些監管體系改變 AI 帶來的機遇,比如長尾配送體系、保證這些金融數據的安全性等?,F在越來越多的人認為當下所用的人工智能這個詞是錯誤的,應該叫做增強智能。在過去“人工智能”這個詞被發明出來主要是為了博得人們的關注,實際上現在所做的大多數事情都不能算是人工智能,而是自主智能,AI 真正需要做到的是更加智能化、更加人性化,比如用于政府體系和商業體系的應用,這也為監管體系帶來了更大的挑戰。不過隨著現在應用場景的不斷變化,更需要用人類的智能去找出人工智能在理解上的各種錯誤。二、Human Network Dynamics如今伴隨著人們在世界各個城市之間不斷流動,幾乎所有的 Human Network 模

9、型都是建立在人類活動不斷重復的基礎上,而且實際情況更加復雜。例如觀察一個人的行蹤,有些人群的行蹤是比較相似的:有些地方他們特別喜歡,有些事情他們特別熱衷,但如果這類人在同一件事情上花了同樣多的時間,說明他們可能都會熱衷于此事。這是一種行為的相近,包括疾病、金融亦是如此,他們的行為正在變得越來越近似。Pentland 團隊也對該問題發表了大量論文,觀察世界各個主要城市人群(并不針對個人的觀察,而是針對整個 4 街區的人群)的活動特征,希望了解人們感興趣事情的相似性,由此建立起不同地域之間的聯系。Pentland 希望通過觀察了解人們進行購買或者生病的相似性,最后通過社會關聯分析得出更好的結論。因

10、為數據分析方式可以獲得更多人群的行為特征,因此這種分析方法需要受到更加嚴格的法律監管。Pentland 認為,可以通過觀察城市當中的某個特定的地域,比如通過觀察某個商場的多樣性,以及來到該商場人群的多樣性,來判斷出哪個社區的人群增長要高于其它社區等,這種判斷的準確性極高,至少可以達到 50%以上,高于其它的所有方法。Pentland 認為這種方法可以應用于亞洲、歐洲和美國等,它們幾乎每個地區都可以應用。Pentland 還將該方法用于基礎設施建設的分析上,例如應該在哪里建造地鐵才會最有利于城市建設,甚至可以在商店建立之前就預測出商店全天的營業額,因為通過分析可以得到某個地域人群的出行頻率。此外

11、,Pentland 又列舉了長尾配送體系的例子,認為真正的配送體系會有更多的長尾效應,單看每個樣本似乎都很正常,實則會有不同的變體,這些變體也會發生更多的改變,所以很難抓住這種長尾配送體系的特征。所以如果要應用長尾配送體系,還需要進行更多的訓練。通過分析配送體系的特征,實際上長尾體系已經非常普遍,在人們的日常工作當中隨處可見,每時每刻都在發生變化,但人類未必能夠及時做出調整。三、增強智能與人工智能與人工智能相比,增強智能可以得到什么?Pentland 認為實際上目前使用的大多數人工智能算法并不盡如人意,需要人的介入和輔助,否則就不會達到預想的工作結果,所以人類的監督是至關重要的,同時又必須確保

12、人工智能算法所做是合法的。如何才能做到這一點?必須要有一系列的方法確保 AI 的思維和人一樣,這也是Pentland 團隊正在研究的方向。比如人類如何做出金融決策?人類往往會通過過去的表現對未來做出判斷,AI則是根據流行性來決定是否適用自己。人類不斷采用不同新的工作方式,根據具體事物的價值進行投資。人類總是不停地在做出選擇,特別是對于人類來說這讓變數變得更小了,可能會得出很糟糕的結果。接下來,Pentland 舉了一個團隊成長的例子。加入現在想組建一個工作團隊,可以找到表現最好的員工,然后將其天賦才能傳授給其他人,最后整合成為一支最棒的團隊,這種方法聽起來十分合理,但是通過不斷評估團隊每個成員

13、的表現,然后又不斷有新的成員加入團隊,這些成員可能剛開始表現不是那么很好,通過對整個團隊進行評估,就可以得到相對更好的結果,也能夠培養出表現更好的人員。目前,Pentland 團隊已經在科學雜志上面發表了一篇關于該方面的文章。Pentland 通過這種方法幫助客戶更好地制定策略,做出更好的金融決策并取得更好的回報,他認為尤其是在如今這樣一個不斷變化的市場環境當中,選擇對自己的品類最有用的策略是非常有用的。在演講最后,Pentland 分享了加密數據模式的話題?,F在用戶需要時刻小心網絡攻擊和網絡犯罪,因為大多數時候用戶看不到數據本身,只能看到和數據相關的主體。當兩個主體產生互動,雙方可能對對方的

14、行為均作出反應,也有可能單方面作出反應,例如老板與員工之間的互動。這種互動架構有許多因素需要進行判斷,一個工作人員的行為可能影響到另一個工作人員,如果這種行為是非常具有影響力的,那么就可以影響到大多數工作人員,通過這種方法可以提高工作效率。假設需要觀察 6 個工作人員的表現,用戶僅知道他們之間是有聯系的,但用戶不知道如何把他們聯系在一起,所以通過該方法可以同時觀測這些工作人員的行為,然后得出他們之間的工作特征,能夠把他們的每個個體從整體當中分離出來。5 圖 2:受影響的社會結構從圖 2 可以觀察出一個人如何影響另一個人。如果一個人出現,另一個人是否出現?實際上在一群人當中可以判斷誰是員工,誰是

15、老板。沒有做標注的數據,人們對這些數據完全不懂,但是這些數據可以反應潛在的社會關系架構。另外,還可以通過該項技術進行新冠疫情的判斷,因為許多社區之間是互相聯系的,可以通過觀察各大藥店和社區,了解這些地方是否會出現疫情的爆發。最后,Alex Pentland 介紹了其出版的新書Building The New Economy,已發布了網絡版,歡迎廣大讀者閱讀、評論。6 美國工程院院士 Anil K.Jain:模式識別從統計學到深度網絡整理:智源社區 韓鵬飛Anil K.Jain 本次的報告主題為Pattern Recognition:Statistics to Deep Networks。Ani

16、l Kumar Jain 是美國密歇根州立大學(Michigan State University)杰出教授,美國工程院院士,印度工程院外籍院士,中國科學院外籍院士,發展中國家科學院院士。研究領域包括模式識別、計算機視覺和生物特征識別,是多個國際著名學術組織如 ACM、IEEE、AAAS、IAPR、SPIE 等的 Fellow。曾獲得的榮譽包括Guggenheim、Humboldt、Fulbright、King-Sun Fu Prize 等。曾擔任模式識別領域最權威的學術期刊IEEE Transactions on Pattern Analysis and Machine Intelligen

17、ce主編。目前已經出版了Handbook of Face Recognition、Handbook of Fingerprint Recognition和Handbook of Multibio metrics等多部專著,以及數百篇高水平學術論文,其中包括Nature論文 1 篇,IEEE Tran.PAMI 論文 95 篇。他在人臉識別、指紋識別等方面的多項研究成果被 NEC、Morpho 等國際生物特征識別公司使用,在學術界和工業界具有極高的知名度和影響力,他是全球計算機學科論文引用率最高的學者,Google h-index 為 181,Google 引用次數超21 萬次。個人主頁 htt

18、p:/www.cse.msu.edu/jain/現如今,生物特征識別、機器學習、深度學習和計算機視覺等領域研究的本質都是相似的,就是要讓機器可以做到一些我們覺得智能的事情。這一概念實際上是五六十年前提出的,當時主要是想創造一種智能機器人,但這種嘗試并不是很成功,最后導致所謂的“人工智能的寒冬”。我們所關注的重點是人工智能到底可以解決什么樣的問題?數據模型的建立是很困難的,我們需要模型告訴我們更加準確的結果,這樣才能了解模型什么時候有效什么時候無效。Deep Network 是不是這個產業的終結?會不會再次迎來一場“人工智能的寒冬”?在演講中,Anil K.Jain 結合人工智能的發展歷史,介紹

19、了模式識別的理論和技術演進,其經歷了由模型驅動的統計方法,到現在數據驅動的深度神經網絡方法,但后者還面臨一些挑戰亟待我們去解決,比如可解釋性、魯棒性等。一、人工智能技術的起源Anil K.Jain 介紹,人工智能1一詞是在 1956 年被 McCarthy 等人提出的,他們將能夠讓機器像人一樣思考和行動的方式稱之為智能。不過這種機器能夠做所有智能的行動的這個愿望似乎已經落空了,到現在也沒有實現,特別是在自然語言處理等領域做的還不是很好。Anil K.Jain 認為重要的是需要了解人工智能的具體作用是什么,它可能是多方面的,同時想讓人工智能掌握一種知識,就需要了解很多相關的領域知識(Domain

20、 Knowledge),比如隱私和安全等,而且需要大量的 Label Training,從而提高判斷的準確度。實際上早期的人工智能也做了一些模式識別2的工作,但人工智能更關注的是通用智能;而模式識別關注的是在一些具體的領域來實現智能。接下來,Anil K.Jain 列舉出了過去 15 年中,人工智能領域具有較大影響力的一些工作3,如特斯拉的自動駕駛、Apple 公司的指紋識別與人臉識別等都是在具體應用中完成了智能任務。具體如下圖 1 所示:7 圖 1:AI 代表性工作發展歷程圖但是隨即而來的,是人們對于人工智能這一概念的過度炒作,其現有水平還無法達到人們的預期,比如 Google和 Uber

21、每年都在宣傳人工智能,但實際上他們都對智能駕駛的預期過于樂觀了4,5。二、模型驅動到深度網絡接下來,Anil K.Jain 介紹了模式識別的幾個相關概念。模式識別是指從不相關的細節背景中提取顯著特征,比如臉部識別、動物識別、指紋識別,這些都是基于對某種特征的提取,包括新冠肺炎患者也有自己的特征,但在幾個月之前可能識別不出來。類是把相似的但不一定完全相同的要素放到一起的集合,其可以有不同的形式。在計算機視覺和機器學習中,模式類是由模型或示例來定義的。機器可以通過對這個類的學習,從新的樣本中找出一些這樣的模式類別,正如我們教育孩子們,如何正確認出狗、汽車、帽子等不同的類別。相似度就是比較兩個事物的

22、相似性,是智能系統的一個重要基礎。比如我們沒有貓和狗的特征定級,但我們要讓人工智能區分到底什么是貓或者狗,實際上這就是人工智能需要做的工作,而這種模型是很難建立起來的,因為我們所涉及的每個領域都有一定的相似性。比如你的朋友走在大街上,如何讓人工智能區分哪個人是你的朋友或者不是你的朋友?因為你的朋友可能和很多人都很相似,這就是最具挑戰性的地方。之后,Anil K.Jain 為我們展示了如何從一個簡單的人臉識別問題,上升到一個復雜的識別工作。下圖 2 所示的是印度偉人甘地的一些不同特征,大家看到后肯定會說這些照片都是甘地,但是對于人臉識別系統來說就很難準確判斷了,它仍然面對著一些挑戰需要解決,可能

23、需要應用更多以數據為驅動的技術。比如我們如何確定哪個人屬于哪個等級?如下圖 3 所示的這些孩子的臉長得都一樣,因為他們是四胞胎,但當我們把他們的頭發剃光,然后把四個孩子標注一二三四,人工智能就識別不出來了,所以這是一個比較有挑戰性的任務,也會帶來很多問題。要么使用模型,要么使用數據,但必須確保這些數據和模型的準確性和可靠性。8 圖 2:類內變異性 圖 3:類間相似性 這里,我們要解決現在所面臨的問題,就必須進行最為真實的表征,利用領域知識進行表征,必須明確 Domain Expertise。以指紋為例,目前世界上共有 76 億人口,每個人的指紋都是不同的,所以要想對 76 億人的指紋進行特征抓

24、取也是很困難的。過去指紋的表征都是基于 Flow Pattern,全局 1 級特征(如下圖 4 所示),局部 2 級特征(如下圖 5 所示)。圖 4:全局 Level-1 特征 圖 5:局部 Level-2 特征現在深度學習中采用的圖表征(如下圖 6 所示),但它并不知道領域知識,而是根據不同的圖去學習、進行表征,得到一些矢量。然后我們將多個表征進行融合(如下圖 7 所示),來提高指紋識別的質量。圖 6:圖表征 圖 7:定長表征學習能力是任何人工智能進步的基礎,但如何進行學習呢?有些是在監督下的學習,有些是無監督的學習。監督學習,簡單來說就是給定一定的訓練樣本(這里一定要注意,這個樣本是既有數

25、據,也有數據相對應的結果),9 并利用這個樣本進行訓練得到一個模型(也可以說就是一個函數),然后利用這個模型,將所有的輸入映射為相應的輸出,之后對輸出進行簡單的判斷從而達到了分類(或者說回歸)的目的。如下圖 8 所示。圖 8:監督學習(分類)無監督學習,則是我們提供大量數據,但是這些數據沒有對應的標簽,由算法來提取具體結構進行分類。聚類算法就是無監督學習的一種,如下圖 9 所示,系統會自動把所有看著像貓和看著像狗的事物放在一起。圖 9:無監督學習(聚類)下面,Anil K.Jain 開始介紹模式識別技術的發展。最初的識別技術,是一種模型驅動的方式,如 Linear Discriminant6。

26、Linear Discriminant 的思想:給定訓練樣本例集,設法將其投影在一條直線上,使得同類例的投影點盡可能近,異類樣例盡可能地遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別。其具體計算方式如下圖所示。10 圖 10:Linear Discriminant 算法流程另一種方式是數據驅動,最開始的技術被稱之為感知機7。感知機是二類分類的線性分類模型,旨在求出將訓練數據進行線性劃分的分離超平面,從而導入基于誤分類的損失函數,利用梯度下降法對損失函數進行極小化,最后求得感知機模型。其計算如圖 11 所示:圖 11:Perceptron 算法流程A

27、nil K.Jain 認為線性判別法和感知機方法都具有其局限性,都對非線性可分離數據不起作用,接下來他開始討論線性到二次分類器和支持向量機8,9,認為首先要找到一個機制,以便統計模型可以看到不平等的矩陣,并利用非線性的線性核來界定數據,然后可以把數據轉換成線性可分離的空間。如圖 12,13 所示。11 圖 12:線性到二次分類器和支持向量機 圖 13:非線性可分離數據接下來,Anil K.Jain 的視野從感知機10拓展到多層神經網絡11。如下圖 14 所示圖中的神經網絡中有很多的非線性,在感知機中我們需要學習的參數只有 7 個,而在神經網絡當中有 47 個參數要去學習,有很多不知道的因素需要

28、去考慮。圖 14:感知機與多層神經網絡的區別2014 年,Anil K.Jain 團隊提出了一些新的端到端方法,基于學習的特征來進行預測和分析。下圖 15 中的上半部首先使用手工提取特征,接下來他們用深度網絡進行特征學習,然后進行結果的預測,效果非常受歡迎。12 圖 15:深度網絡Anil K.Jain 認為深度網絡受歡迎的原因主要有以下幾點:(1)有大規模的標準數據,如 Image-Net;(2)計算速度更快,如 GPU 大幅提高了 CPU 的運算性能;(3)深度網絡提供了更高的精確度,更有效應對各種各樣的調整。三、深度網絡的主要挑戰Anil K.Jain 舉了一些有關面部識別的例子,他介紹

29、過去幾年如果你想要進入美國境內或者從美國出境,比如在底特律,你需要站在攝像頭前面照相,航空公司就會知道誰將會來到這里乘坐飛機,然后就會把他們自己的數據和這個面部識別進行比對,確保你是那個要坐飛機的人。還有美國的一些銷售機器,也采用了面部識別的技術,大家可以通過訓練集來確認你是否是被感興趣的。如下圖 16 所示。圖 16:人臉識別算法應用實例2014 年 Facebook 提出了基于深度學習的人臉識別系統 DeepFace12,這一技術時深度學習人臉識別的開山之作,其精確度已達到 97.25%的準確度。算法框架如下圖 17:13 圖 17:Deepface 算法框圖Anil K.Jain 認為深

30、度網絡方面目前還存在著許多挑戰,主要包括如下幾個方面。3.1類內差異性首先是類內的差異性,目前容忍度還是比較低。如圖 18 我們可以在 2009 年做的一個面部識別,正確的接受率達到了 99.2%,但 2018 年美國發布的國家技術標準,正確接收率只達到了 4.86%,所以這里還是存在一個比較大的挑戰,包括我們需要建設一個更大的數據庫,比如可能達到 1000 萬或者是更多的圖片等。圖 18:最新技術認證3.2可解釋性Anil K.Jain 認為,深度網絡的一個局限性就是可解釋性怎么去解釋它。很多人已經在此方面做了很多工作,希望能夠去說明高質量的圖片。比如從面部深度特征當中重構潛在的外貌,識別出

31、面部的一些特點,但如 14 果這個圖片的質量很差的話,這個時候機器模型就很難去對這個面部進行很好的了解,也沒有辦法去很好地識別這個面部,因為我們不知道如何信任輸出項。3.3公平性(人群偏見)比如亞馬遜等公司提出的一份報告,針對于 100 個不同膚色不同性格的人臉數據進行識別評估,發現不同種族和性別之間的精確度最多相差了 1%。如圖 19 所示。圖 19:可解釋性部分例子人群偏見3.4魯棒性比如給定一張數字圖片,我們有這個數字圖片的一個模樣,也會有一個測試集,看一看它們之間的一個匹配度,這個匹配在這個例子當中是比較高的,我們可以做一個對抗訓練13,其中的一個照片上改變幾個小像素,圖片跟原照片看起

32、來是差不多的,但是在這個數據庫中圖像無法進行匹配。說明此深度網絡還沒有足夠的魯棒性和穩健性。如下圖 20 所示:圖 20:數字圖像處理示例 15 3.5安全與隱私Anil K.Jain 指出,人們對隱私的定義是不一樣的,安全和隱私之間有一個權衡和平衡的。人臉識別的體系當中,我們需要保證社會是安全的,我們希望能夠去識別有關恐怖主義的活動或者其它的犯罪活動,比如有人搶劫商店等等,但是收集到數據庫將來會做什么?永久保存還是什么?這里涉及到一個隱私問題。四、人工智能的下一個十年Anil K.Jain 最后展望了人工智能的下一個十年,認為我們應該關注以下幾個方面:1)訪問標記數據:利用合成和未標記數據2

33、)領域知識:自上而下和自下而上相結合3)網絡容量:它可以分離多少個模式類?4)對抗性攻擊:脆弱到強大的網絡5)可解釋性:網絡是如何做出決定的?6)用戶隱私:保護用戶隱私7)全球公益:設計人工智能改善極端貧困人口的生活(約 10 億)參考文獻:1 A Proposal for the Dartmouth Summer Research Project on Artifi cial Intelligence,August 31,1955,AI Magazine,Vol.27(4),20062 Selfridge,“Pattern recognition and modern computers.”

34、In Proceedings of the Western Joint Computer Conf,pp.91-93.March 1-3,1955.3 https:/ http:/ cial-intelligence-and-direct-drive-motor-roll-out-region-wide/5 https:/ R.A.Fisher,The Use of Multiple Measurements in Taxonomic Problems,Annals of Eugenics,19367 F.Rosenblatt.The perceptron,a perceiving and r

35、ecognizing automaton Project Para.Cornell Aeronautical Laboratory,1957 8 Yaser S AbuMostafa,Malik MagdonIsmail,HsuanTien Lin.Learning from Data:A Short CourseJ.Amlbook,2012.9 T.W.Anderson,Classifi cation into Multivariate Normal Distribution with Unequal Covariance Matrices.JASA,196010 Rosenblatts P

36、erceptron learning algorithms11 Backpropagation learning algorithm:Werbos,1974;Rumelhart,Hinton&Williams,198612 Taigman,Yaniv,Ming Yang,MarcAurelio Ranzato,and Lior Wolf.“Deepface:Closing the gap to human-level performance in face verifi cation.”In Proceedings of the IEEE conference on computer visi

37、on and pattern recognition,pp.1701-1708.2014.13 D.Deb,J.Zhang,and A.K.Jain,“AdvFaces:Adversarial Face Synthesis”,arXiv:1908.05008,2019.16 劍橋大學教授 Zoubin Ghahramani:概率機器學習與人工智能整理:智源社區 李維Zoubin Ghahramani 本次的演講主題是Probabilistic Machine Learning and AI。Zoubin Ghahramani,劍橋大學信息工程系教授、劍橋大學 Alan Turing 研究所創始

38、人之一、Uber 首席科學家、Uber 人工智能實驗室聯合創始人。他的研究方向包括:統計機器學習、貝葉斯非參數化、擴展推理和概率規劃等,已發表相關研究論文 250 余篇。為表彰其在機器學習領域中的杰出貢獻,于 2015 年被選為英國皇家學會院士。在這場由 Zoubin Ghahramani 教授所帶來的視聽盛宴中,其介紹了機器學習和人工智能的基礎與應用;分析了深度學習的特性、成功要素和它的局限性;強調了概率對機器學習和人工智能發展的重要性;回顧了其在概率人工智能研究中的一些前沿領域;此外,還談到了人工智能和機器學習在 Uber 中扮演的重要角色等。一、機器學習和人工智能的高光時刻Zoubin

39、Ghahramani 指出,人們常用的術語諸如人工智能(Artificial Intelligence)、機器學習(Machine Learning)、數據科學(Data science)、數據分析(Data analytics)、數據挖掘(Data mining)、自適應控制(Adaptive control)等等并不是孤立存在而是彼此間互相聯系的領域。正如圖 1 所示,它們有著共同的理論基礎,包括統計和機器學習。通常來講,統計主要專注于擁有較少參數且有理論保障的簡單模型。然而,機器學習則不然,其主要關注點則在那些有較多參數的復雜模型上。盡管如此,二者之間仍有密切聯系。圖 1:理論基礎和主要

40、應用至于這些方法如何應用,則仁者見仁,智者見智,取決于你是想從數據中直接獲取準確、有價值的信息,還是 17 重新創建某種智能行為。若是前者,則屬于以數據挖掘為主的數據科學的范疇;若是后者,則屬于以計算機視覺(Computer Vision)、自治系統(Autonomous Systems)和自然語言處理(Natural Language Processing)等為主的人工智能和機器智能的范圍。不過,數據、模型、預測、決策等仍是這些方法和其所屬領域共同的關鍵組成,是它們所繞不開的關鍵詞。圖 2:AlphaGo 對戰李世石(https:/ Rider)、太空侵略者(Space Invaders)等

41、游戲領域。我們所熟知的AlphaGo 更是典范之一,其作為第一個擊敗人類職業圍棋選手和戰勝圍棋世界冠軍的人工智能機器人,是將人工智能推向普羅大眾并將其置于聚光燈下的有力推手,一度成為人工智能的代名詞。圖 3:人工智能和機器學習的應用 18 拋開 AlphaGo 所帶來的對人工智能和深度學習的思考與議論的浪潮來看,在解決現實生活中人們關心的問題方面,人工智能和機器學習也功勛卓著。比如語音識別技術、計算機視覺、科學數據分析、自動駕駛以及網購等實用性很強的關鍵技術中都有人工智能和機器學習的身影。最近在醫學領域,應用人工智能和機器學習方法研究新冠肺炎病毒的傳播甚至一度成為熱門,且從結果來看也可謂卓有成

42、效??梢哉f人工智能和機器學習早已“飛入尋常百姓家”,融入到人們生活的方方面面。二、深度學習及貝葉斯規則作為人工智能和機器學習革命性變革的幕后推手,你是否曾深入地想過究竟何為深度學習?深度學習對于我們以及同其息息相關的諸多領域來說又意味著什么呢?深度學習會成為未來十年我們思索的主題嗎?2.1深度學習Zoubin Ghahramani 認為深度學習是神經網絡(Neural Networks)這一經典想法的重塑。至于神經網絡,則主要由圖 3 中所示的輸入層、隱藏層和輸出層三大部分構成,其中隱藏層可以有多個,而介于輸入層和隱藏層、隱藏層和輸出層之間的則是權值信息。從數學角度來看,神經網絡的本質便是擁有

43、多個參數的可調非線性函數,而多層神經網絡在數學上則可表示為如圖 4 所示的某些函數構成的多層組合函數。通常,這種多層組合函數可由多種隨機梯度下降(Stochastic Gradient Descent)優化算法進行訓練。圖 4:神經網絡及其函數表示Zoubin Ghahramani 指出深度學習系統事實上是一種類似于上世紀八九十年代流行的神經網絡模型。不過相較后者而言,深度學習擁有以下得天獨厚之處:1)具有新的架構和創新算法;2)龐大規模的網絡數據集;3)GPU 和云等海量計算資源;4)PyTorch,TensorFlow 和 MxNet 等更好的軟件工具;19 5)高速增長的行業投資和媒體宣

44、傳。除此之外,Zoubin Ghahramani 也認為以下技術方法的創新對促使深度學習繁榮發展功不可沒,是其成功的關鍵因素:1)自動微分法(Automatic Diff erentiation);2)線性整流函數(ReLU)、長短期記憶網絡(LSTMs)、門控循環單元(GRUs)、殘差網絡(ResNets);3)隨機優化,隨機梯度下降法(SGD);4)更優的初始化;5)卷積,遞歸網(Recursive Nets);6)大數據集。盡管當前深度學習的發展也算是如日中天,但其也不是盡善盡美,Zoubin Ghahramani 認為其具有以下局限性:1)過于數據饑渴(Data Hungry),依賴海

45、量樣本;2)訓練時所需計算量極大;3)容易被對抗性樣本(Adversarial Examples)誤導;4)對優化要求嚴苛,挑剔學習過程和初始化;5)缺乏透明度,難以信賴;6)不易將先驗知識和符號表示相結合;7)在不確定性表示方面黔驢技窮。2.2貝葉斯規則作為概率論中的一個基本定理以及貝葉斯機器學習的基石,貝葉斯規則給出了事件 X 在事件 Y 發生條件下的概率與事件 Y 在事件 X 發生條件下的概率兩者之間的確定關系。就圖 5 所示公式而言,對一個概率模型進行試驗,其實驗結果可由一組 Data 表示,Hypothesis 則為導致實驗結果的各種可能原因,P(Hypothesis)表示試驗前預知

46、的各種原因發生的可能性大小,故稱為先驗概率。當實驗產生了結果 data 之后,結合貝葉斯公式,將獲得對各種原因發生可能性的新認識 P(Hypothesis|data),稱為后驗概率。這一更新過程就是一種學習過程,而貝葉斯公式在其中所起作用就是指導我們如何從已知(Data)中窺探未知(hypothesis)。()()()()()=hhdataPhPhypothesisdataPhypothesisPdatahypothesisP|當用概率來表達與我們模型相關的所有形式的不確定性和噪聲時,貝葉斯規則就允許我們推斷未知量,調整模型,做出預測并從數據中學習。雖然像貝葉斯機器學習這種基于概率的方法往往缺

47、乏確定性結果,但將概率應用到人工智能領域這一思想仍具有很強的指導意義,這一點不難從概率模型已成為人工智能和機器學習領域的熱門中看出來。盡管依據概率框架預測出的數據和對應做出的決策具有不確定性,但概率對人工智能發展的重要性仍能在以下幾個方面得到體現:20 1)校正模型與預測不確定性;2)模型復雜度自動控制與結構學習;3)建立做出合理決策的系統;4)作為一種將先驗知識構建到學習系統中的方法,并確保在獲得更多數據時知識更新具有一致性和較強魯棒性;5)確保學習算法在大、小數據集上皆能奏效。三、當前和未來的方向在談論現在和未來的一些研究方向的時候,Zoubin Ghahramani 圍繞自動機器學習做了

48、介紹。他首先提到了貝葉斯深度學習(Bayesian Deep Learning)以及深度和積網絡(Deep Sum-Product Networks),并簡要列舉了貝葉斯深度學習的實現方式,如拉普拉斯近似(Laplace Approximation)、變分近似(Variational approximation)以及深層核學習(Deep Kernel Learning)等。在談及深度和積網絡時,他則條陳了它的一些關鍵特性,諸如:1)可以用作生成模型或分布模型;2)預測結果可與深度神經網絡相媲美;3)更好的校準不確定度;4)評估似然性的能力;5)有效的邊緣化和條件反射;6)處理缺失輸入并檢測異常

49、值。圖 5:自動機器學習及其相關 21 除上述之外,Zoubin Ghahramani 還介紹了以下幾個方面:3.1自動推理:概率編程就概率編程(Probabilistic Programming)而言,Zoubin Ghahramani 指出了發展概率模型和解決推理算法推導耗時、易錯問題的兩種基本解決方式:其一是發展概率編程語言用以將概率模型表示為生成數據的計算機程序,例如 Edward,Pyro,STAN 以及 Turing 等語言;其二是為這些語言開發具有普遍意義的推理引擎,對給定的觀測數據進行程序跟蹤推斷,例如 MCMC 采樣(Particle MCMC)、變分推斷(Variation

50、al inference)、序列蒙特卡洛(Sequential Monte Carlo)等。圖 6:概率編程3.2自動優化:貝葉斯優化貝葉斯優化(Bayesian Optimization)得名于其優化過程中使用的著名“貝葉斯定理”,這是一種十分有效的全局優化算法,具有令人矚目的發展前景。黑箱函數(Black-Box Functions)全局最優化求解計算代價高昂,試圖解決這一問題的貝葉斯優化的思想是將函數看作序列決策和模型不確定性問題,且這一思想已在機器人、藥物設計以及神經網絡的超參數選擇等領域都有著廣泛的應用。此外,貝葉斯優化方法作為一種基于模型的序貫優化,其在一次評估之后才進行下一次評估

51、,能夠在很少的評估代價下得到一個近似最優解,這使得該方法在業界贊譽頗高。22 圖 7:貝葉斯優化之所以稱貝葉斯優化是概率機器學習和人工智能領域中幾種最先進、最有希望的技術之一,是因為它是一個思考任何優化問題的很好的框架,并且在以下情況中起著舉足輕重的作用:1)評估函數成本較高時;2)導數難以評估甚至無法評估時;3)函數評估中存在噪音時;4)存在噪音約束時;5)有關于函數的先驗信息時;6)需要優化多個相仿的函數時。3.3 自動統計:數據科學的人工智能數據無處不在,了解這些數據、建立模型并作出預測具有很大的價值,然而卻匱乏能處理如此之多數據的數據科學家、統計學家和機器學習專家。如此以來,開發一種自

52、動從數據中發現模型的系統或是解決之道,這種系統最好能具有處理數據、搜索模型、發現好的模型以及向用戶解釋發現了什么的能力,這也將大大解決人手不足問題。Zoubin Ghahramani 認為自動統計應具備一些基本要素:1)開放式的模型語言,其表現力足以捕捉真實世界的現象以及人類統計學家所使用的一些技術;2)一個搜索程序,用以有效搜索語言模型;3)一種評價模型的原理方法,用以權衡復雜性和適應數據。4)自動解釋模型的過程,使模型的假設能以非專業人士皆可理解的方式呈現出來。23 四、關于 Uber作為 Uber 的首席科學家,Zoubin Ghahramani 接下來介紹了 Uber 的相關背景情況。

53、Uber,中文譯作“優步”,是一家位于美國硅谷的科技公司,其旗下擁有風靡世界的同名打車 APP。除此之外,Uber 還有擁有 Rides,Uber Eats,Jump bikes,scooters,Uber Air 以及 Freight 等眾多應用。作為打車應用的鼻祖,Uber 目前已覆蓋超過 60 多個國家和 700 座城市,月活躍用戶約 9300 萬,每天提供近 1700 萬次出行服務。Uber 的科學家團隊,除了 Zoubin Ghahramani 之外,還擁有一眾出色的數據科學家、經濟學家、計算機科學家以及大批的人工智能、機器學習和自動化研究員。此外,Uber 還擁有用于分布式深度學習

54、的開源代碼庫Horovod 以及用于深度概率編程的開源代碼庫 Pyro。后者基于 Python 與 PyTorch,專注于變分推理,也支持可組合推理算法,具有靈活、通用、可擴展的特點,能夠實現靈活且富有表現力的深度概率建模,將現代深度學習和貝葉斯建模的優點相結合。圖 8:Horovod 和 Pyro 的標志Zoubin Ghahramani 援引 Uber CEO Dara Khosrowshahi 的話說“Uber 本身就是一個巨大且頗具挑戰性的機器智能問題,因其正試圖優化現實世界以及它所帶來的不確定性?!惫势渥詈髲娬{:只要我們想優化現實世界人和物的流動,解決實際存在的問題以及同這個擁有大量

55、人群和復雜經濟行為的網絡互動,那么人工智能對 Uber來說就依然具有特殊的重要性。五、總結在本場報告中,Zoubin Ghahramani 以對機器學習和人工智能理論基礎與主要應用的介紹為開篇,詳細地條陳了深度學習的特性、得以繁榮發展的要素、以及它的局限性,并且簡要回顧了其在概率人工智能研究中的一些前沿領域,包括貝葉斯深度學習、概率編程和自動化等。從本場報告“概率”一詞出現的頻率以及報告標題概率機器學習與人工智能中,不難發現概率對人工智能未來發展的重要意義。正如 Zoubin Ghahramani 所言“概率建模為構建人工智能系統提供了一個框架,可以演繹推理不確定性并從數據中學習,它與決策理論

56、相結合,形成理性決策系統的基礎?!?4 馮諾伊曼獎得主 Jorge Nocedal:增強學習中零階優化方法及其應用整理:智源社區 錢小鵝 Jorge Nocedal 本次演講的主題為Zero-Order Optimization Methods with Applications to Reinforcement Learning(增強學習中零階優化方法及其應用)。Jorge Nocedal,美國西北大學教授,曾在非線性優化、應用數學和運籌學等領域獲得無數獎項。2009 年獲查爾斯-布羅伊登獎;2010 年,他還被評為美國工業和應用數學學會院士;2012 年獲喬治-B-丹齊格獎;2017 年,

57、被授予馮 諾依曼理論獎。2020 年當選美國工程院院士。Nocedal 主要的研究方向為確定性和隨機性設置中的非線性優化,他目前進行的算法和理論研究的動機源于圖像和語音識別,推薦系統和搜索引擎中的非線性優化問題。Nocedal 在演講中指出,在函數優化的過程中,我們通??梢允褂锰荻认陆档姆椒▉慝@得目標函數的最值,但其實這需要依賴許多最值搜索的“運氣”,其中包括:良好的初始化、步長,迭代方向計算的精度,搜索空間的結構等,但是在深度學習中,尤其是增強學習中,這些“運氣”并不一定可以滿足,那么我們如何通過其他的方法來做深度學習中目標函數的優化呢,本次演講中 Nocedal 給我們分享了他的獨到思路零

58、階優化。所謂零階優化算法即不利用一階導數信息,在一定次數的抽樣基礎上,擬合目標函數的最值。零階優化方法通過對目標函數逼近或對目標函數加罰函數的方法,將約束的優化問題轉換為非約束的優化問題。一、函數優化與深度學習深度神經網絡主要基于兩個核心思想:其一是適合生成表示的預測函數結構,其二是在合適的空間中幫助尋找到合適的預測函數的反向傳播算法。這里,反向傳播算法通常意味著兩件事:1)可以進行鏈式微分;2)可以使用梯度下降的方法進行優化。然而,優化過程中使用梯度下降法并不一定保證獲得的解能夠收斂到我們所期望的最小值。如下圖所示,我們發現在優化過程中使用梯度下降方法,如果想要獲得我們期望的結果,其依賴的條

59、件有很多,比如:初始值、迭代步長的選擇、迭代方向的計算等。圖 1:從不同初始值開始,非凸優化將得到不同的優化結果 25 上述我們提到的對函數優化的疑問,不少知名的數學界學者同樣也對此表示懷疑,例如:Minsky 1961 I doubt that in any one simple mechanism,e.g.,hill-climbing,will we fi nd the means to build an effi cient and general problem-solving machine.(我懷疑,在任何一個簡單的機制中,例如爬山,我們是否能找到建立一個高效和通用的問題解決機制的

60、方法。)Minsky and Papert 1998 If we can detect relative improvement,then“hill-climbing”may be feasible,but its use requires some structural knowledge of the search space.And unless this structure meets certain conditions,hill-climbing may do more harm than good.(如果我們能夠檢測到相對的改進,那么“爬山”可能是可行的,但是它的使用需要一些搜索

61、空間的結構知識。除非這種結構滿足某些條件,否則爬山弊大于利。)事實上,在不同的搜索空間結構情況下,梯度下降法獲得的效果不盡相同,甚至有時弊大于利。但對于“幸運”的深度學習來講,我們經常遇到的是凸優化問題,因而梯度下降法取得了良好的結果。但對于強化學習,我們通常遇到很多非凸函數,并且由于網絡很深,所以我們無法判斷有多少個非凸函數。優化問題在深度學習中的作用遠不止求解最終結果這么簡單,它在網絡架構的設計中同樣起到不容忽視的作用。例如我們熟知的殘差網絡,其設計的初衷即為了簡化優化,換句話說即回答了為什么識別函數難以訓練。Nocedal 表示探索這個問題的動機包含了如下三方面:1)計算噪聲;2)深層神

62、經網絡的對抗訓練;3)解決增強學習以及深度神經網絡的優化問題。那么如何解決這些情況下的優化問題呢?具體來說,假設我們希望最小化一個非線性函數,這個函數需要是光滑的(但并不需要是凸的),我們可以獲得函數的估值但不知道它的梯度,同時,函數估值包含了噪聲,那么,對一個有著上千個變量的這樣的函數來說,是否存在一種算法能夠很好的處理這類函數的優化問題?目前來說,這仍是一個十分前沿的問題,我們還不能獲得“最好算法”的確切答案。但 Jorge Nocedal 教授提出了解決這一問題的一種思路。這一思路將嘗試計算梯度和噪聲的近似值,并通過對噪聲的擬牛頓法更新建立二次模型。Nocedal 給我們列舉了一個黑箱的

63、例子:假設有一個光滑的函數(x),但我們無法直接觀察(x)而只能觀察到包括了(x)和噪聲的 f(x),那么我們希望在只觀察 f(x)的情況下最小化(x)并計算出梯度近似 g。圖 2:黑箱子實例 26 在進行噪聲計算時,我們需要考慮一些不同的場景。其中一個場景是,我們需要用自適應的方法或是迭代線性求解,而另一個場景是,我們需要考慮包括舍入誤差在內的隨機誤差。我們希望我們的方法可以適用于這些不同的場景。同時,對深度神經網絡的對抗訓練,我們可以觀察深度神經網絡的輸入和輸出,但不進行反向傳播計算,而是對靈敏度進行分析。如下圖 3 所示,這里假設是一個圖像分類問題,那么,我們可以通過改變圖像的一些部分獲

64、得完全不同的分類結果。我們主要對這些變化的部分進行分析,而不需要知道模型的導數,或是神經網絡的各種公式。圖 3:靈敏度分析二、零階優化方法綜述所謂零階優化方法,其本質為不計算目標函數的導數來計算目標函數的最值問題。在過去的二十年里,數學研究者已經設計了大量的無導數優化方法,最著名的包括直接搜索法和函數信賴域插值法。早期的方法包括:Nelder-Mead 方法、模擬退火和遺傳算法。而相比于直接搜索法而言,在噪聲存在的情況下,函數信賴域插值法比其他無導數優化技術魯棒性更強。More 和 Wild 同時在其發表的文章中論述到2,直接搜索方法速度慢,不能很好地適應問題的維數;且函數插值法在最小化噪聲函

65、數方面更有效。但 Nocedal 指出,這些方法都是對離散的函數起作用,對連續的函數而言這些方法并沒有很好的擴展性。2010 年,More 和 Wild 結合多年的研究經驗,在文章中2大膽提到:careful study dispels many myths about such methods.They found that the best method was one learn from the function values observed and creates a model of the objective.(仔細研究消除了許多關于這些方法的神話。他們發現最好的方法是從觀察到

66、的函數值中學習并建立目標的模型。)如下圖所示:27 圖 4:利用多點真實值構造二次插值函數我們不妨假設我們可以獲取到原始函數的五個真實值,那么我們可以根據這五個真實值來建立二次插值函數,并在信賴域中(信賴域一般不建議設置的過大)求該函數的最小值,函數形式為:由上式我們不難看出,如果我們想要利用純插值方法來構建二次函數模型,并且在構建的模型中防止引入太多的噪聲而導致函數非凸,那么:至少需要(d+1)(d+2)/2 個函數值,來確保我們可以獲得一個完整的 Hessian 矩陣;假設最小值的范數由 Hessian 矩陣更改,那么可以使用 O(d)個點;運算成本高;插值點傾向于位于子空間上。Noced

67、al 在報告中提到,雖然上述構建二次目標函數的方法運算成本較高,但是由于構建方法簡單直觀,因此他一度認為這種構建方法是正確的。但是,隨著研究的深入,他發現該方法也有自己比較突出的問題:不需要特別努力來計算好的梯度估計,但我們需要特別注意整個二次模型的質量;信賴域估計的依賴性較強,如果信賴域較小,那么步長需要設計的較小,如果信賴域較大,那么步長需要較大,但因此在信賴域中會更容易引起震蕩;不可并行化。因此 Nocedal 及其合作者 Berahas,Byrd 在 2018 年的文章“Derivative-Free Optimization of Noisy Functions via Quasi-

68、Newton Methods”中將該方法進行了改進,改進后的方法:努力逼近梯度;28 將模型的構造委托給擬牛頓法(BFGS);恢復哈明提出的想法。那么噪聲函數的導數是什么意思呢?Nocedal 在本次講座中為我們分享了兩種方法:方法一:高斯平滑(Gaussian Smoothing)假設函數中帶有噪聲,如下個沿高斯方向的隨機小位移,那么形成的新函數和原始的函數非常近似。接著計算平滑函數的導數,計算的公式非常像有限差分,那么我們如何精確的計算梯度呢?如下圖所示,我們首先給出一個隨機的初始值,接著從該初始值開始,沿著高斯方向逐步移動,用有限差分的近似值乘以我們找到的方向(當然,我們的方向也可以取高

69、斯方向的平均值),這樣就可以計算出最后的導數。這樣的計算方法在一些機器學習中是非常有效的,但是對科學中的其他應用并不是很友好,所以我們還可以采用第二種方法。方法二:帶有噪聲估計的有限差分法(Finite Diff erences with Noise Estimation)在一些科學應用領域,有限差分法是更為經典的求解方法,當然,我們考慮的并非簡單吶的差分,而是更近一步,將噪聲估計包含在計算中。More-Wild 在 2012 年發表的著作中提到:if we can estimate the noise level,we can compute a good fi nite-diff eren

70、ce interval h 如果我們能估算噪聲,我們將可計算出有限差分中好的步長 h.由于噪聲水平通常是隨機噪聲的標準差,因此一旦我們可以估算出噪聲,那么前向差分 h 的表達式如下所示:29 例如,如下圖 5 所示,我們已知噪聲的標準差為 0.025,x=0.12;那么由上述前向差分 h 的表達式我們可以計算出 h_correct=0.28,如果選擇的 h 更接近于正確的值,那么擬合的效果會更好,如果相差較遠,那么擬合效果會大打折扣。圖 5:不同的 h 對最終擬合結果的影響那么問題來了,我們該如何估算出噪聲,并且估算方法既適用于隨機性,又適用于確定性呢?Nocedal 在本次講座中也為我們分享

71、了他對函數噪聲估算的想法。Noise estimation(for deterministic or stochastic noise)為了估算函數的噪聲水平,也就是在 x 處,選擇隨機的方向 v,估算 f 在同等空間的 q+1 個點的值 x+ibv:然后,我們根據 Hamming Diff erence Table,其中搜索在計算中需要的值,30 圖 6:Hamming Diff erence Table我們發現,光滑函數的高階差分很快趨于零,而差分在噪聲中是從零開始的。我們將其看作是一個可被觀察的改變標志。同時,我們看到,整個過程是尺度不變的。繼續看上圖所示的漢明差分表,我們看到最后一行的

72、數值是不同的。這是由于,我們的函數中帶有隨機的噪聲(如果沒有隨機噪聲,那么在同一點上采樣的結果應該是相同的),因此我們使用這些帶有噪聲的值(或平均值)帶入到數值算法中,這些隨機的噪聲將會對結果起作用。那么有讀者會產生疑問,一旦我們由上述提及的方法獲取到了相對應的梯度,那么為什么我們不使用擬牛頓模型呢?如噪聲有限差分 BFGS 模型?大家的想法非常正確,但實際上目前還沒有人這么做。主要原因是對噪聲函數的差分是十分危險的,不好的迭代可以造成災難性后果。在 Nocedal 的算法中,我們將對每次迭代的噪聲進行估算,并根據估算結果計算有限差分的步長 h,在獲取到對應的梯度后,我們就可以使用擬二階牛頓法

73、作為模型進行線性搜索,總結一下,Nocedal 的整體算法流程如下:在每一次迭代的過程中估算噪聲;根據噪聲估算有限差分的步長 h;由有限差分公式計算梯度;計算二次擬牛頓法的搜索方向;進行線性搜索;如果搜索值沒有收斂,那么繼續重復上述的步驟。這里線搜索起到了兩個作用:其一是在有限差分區間合適的情況下幫助決定步長,其二是幫助決定是否需要重新估計噪聲水平。對于零階優化的算法驗證,Nocedal 及其合作者也非常有信心,在 Nocedal 近期發表的論文 1 中,我們看到如下圖 7 的實驗結果:在使用相同的初始值進行迭代的不同算法中,Nocedal 提出的算法在迭代 12 步之后,會更快的收斂,達到先

74、驗的噪聲水平。31 圖 7:算法驗證實驗分析結果三、結語Nocedal 在本次講座中為大家分享了深度學習中隱形的“核武器”-函數優化。不少做深度學習工作的讀者都了解,在做許多問題中,例如:目標檢測和識別、人體跟蹤、語音識別、廣告推薦等,設計一個好的損失函數與設計一個好的網絡幾乎同樣重要。損失函數,實際就是我們優化中的目標函數,而如何尋找損失函數的解,其本質就是優化問題。Nocedal 教授為我們講解了噪聲估計、步長的精確設置、梯度的計算以及搜索方向的計算,將優化問題庖丁解牛般拆分開來,可謂“功力十足”。同時他還提出了一些非常前沿的思想,例如:優化方法也會潛在的影響網絡的結構、我們是否可以將求解

75、偏微分方程的過程與優化方法進行結合,從而設計求解偏微分方程的深度神經網絡、如何將噪聲的分析應用于深度學習的靈敏度分析等等,都非常值得大家深入思考。非凸優化的求解方法中仍然存在不少難點,感興趣的讀者可進一步閱讀教授及其合作者的文章,進行深入研究和探索。參考文獻1 Yuchen Xie,Richard H.Byrd,andJorge Nocedal.(2020)Analysis of the BFGS Method with Errors.SIAM Journal on Optimization30:1,182-209.2 Jorge J.More and Stefan M.Wild ,Benchmarking derivative-free optimization algorithms,SIAM Journal on Optimization,20(2009),pp.172191.3 Jorge J.More and Stefan M.Wild,Estimating Computational Noise,SIAM J.Sci.Comput.,33(3),12921314.(23 pages)

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(06全體大會.pdf)為本站 (會議專家) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站