《23機器學習前沿青年科學家專題論壇.pdf》由會員分享,可在線閱讀,更多相關《23機器學習前沿青年科學家專題論壇.pdf(56頁珍藏版)》請在三個皮匠報告上搜索。
1、123機器學習前沿青年科學家2 杜克大學鬲融:通往“Learning to learn”方法的理論理解整理:智源編輯許明英近年來,人工智能的蓬勃發展促進了人們對人工智能理論的深入探索,人工智能理論的研究呈現出了 Artificial Intelligence-Machine Learning-Deep Learning-Deep Reinforcement Learning-Deep Learning to Learn 的趨勢。Learning to Learn(學會學習)已經成為繼增強學習之后又一個重要的研究分支。在 Machine Learning 時代,復雜的分類問題推動了人們對 Dee
2、p Learning(深度學習)的探索,深度學習的出現基本解決了一對一映射問題,然而深度學習在解決 Sequential decision making 問題上遇到了瓶頸,由此深度增強學習應運而生,并在序列決策問題上初顯成效。但是,新的問題接踵而至,深度增強學習依賴于巨量的訓練,并且需要精確的 Reward,對于現實世界的很多任務,沒有好的 Reward,也沒辦法無限量訓練。這就需要其能夠快速學習。而快速學習的關鍵是具備學會學習的能力,能夠充分的利用以往的知識經驗來指導新任務的學習,因此 Learning to Learn 成為學者們新一輪攻克方向。6 月 24 號,在第二屆智源大會“機器學習
3、前沿青年科學家”專題論壇上,杜克大學計算機科學系鬲融教授作為演講嘉賓,帶來了主題為Towards a Theoretical Understanding of Learning-to-learn Methods的精彩演講。鬲融在報告中,首先就深度學習中起核心作用的優化算法拋出第一個問題:如何訓練及優化網絡,僅僅使用SGD 或 Adam 足夠嗎?他簡單闡述了訓練神經網絡的一些技巧,例如可能需要設計步長、改變一些動量;可能需要增加一些權重衰減,增加數據量;可能需要利用各種各樣的技巧去優化網絡。然而,調整這些參數優化網絡并不是一件容易的事情。圖 1:神經網絡優化3接下來,鬲融提到或許在調參過程中會非
4、常沮喪,或許想擺脫這些繁雜的調參過程,自動找尋新的優化技巧。那么,這樣做有沒有可行性呢?答案是肯定的。這方面的研究工作目前已經有很多,其中利用 Learning to learn 來設計更好的優化算法,從而來提高優化器性能是其中一個方向。鬲融以論文Learning to learn by gradient descent by gradient descent為例進行了介紹,這篇論文的主要思想是用 Learning to learn 方法學習一個新的優化器,目標是優化分配任務的目標函數 f(w);具體則是,將優化算法抽象為具有參數的優化器,然后通過各個分配任務優化參數。圖 2:具有參數的優化器
5、優化器可以是傳統簡單的優化器,也可以是神經網絡優化器。訓練優化器的步驟為:進行 t 步優化、定義元目標、在優化器參數做元梯度下降。事實上,這一個過程類似于循環神經網絡/策略梯度。然而這一過程會面臨著諸多挑戰,例如梯度消失或梯度爆炸問題、可能陷入較差的局部最優解、在具體任務上的泛化能力、沒有理論保證等。鬲融在報告中談到自己為二次目標分析了簡單的優化器(包括梯度下降 GD 和隨機梯度下降 SGD),并通過實踐得出了一些結論如下:1.對于二次目標的梯度爆炸/梯度消失問題(1)傳統的元目標對于所有步長都存在元梯度爆炸/消失問題;(2)可以設計一個更好的元目標,其元梯度保持多項式有界;(3)即使對于新目
6、標,使用反向傳播算法計算元梯度也會導致數值問題。2.最小二乘訓練優化器的泛化能力當樣本數量較少時,需要在單獨的驗證集上定義元目標。當樣本數量很大時,只需在訓練集上定義元目標即可。鬲融從步長和設計更好的目標兩個方面入手探討了應對梯度爆炸/梯度消失問題的策略。一、為簡單的二次目標優化步長目標:()12Tminf ww Hw=4算法:使用固定步長的梯度下降法:()()1ttttwwf wIH whh+=傳統的元目標在最后一步的損失為:()()TFf whh=定理:對于的幾乎所有值,T 中的元梯度()F h要么呈指數增長,要么呈指數下降。鬲融通過實驗展示了 TensorFlow 計算的實際元梯度與元梯
7、度的訓練軌跡(T=80,初始步長為 0.1),以及成功學習不同迭代次數 T 時的最佳步長。如下圖所示:圖 3:訓練優化器的泛化能力二、設計一個更好的目標思想:因為目標在 T 中成倍地變大或變小,導致元梯度很大。因此設計一個新的目標如下:()()(),11loglogTGf wFTThhh=定理:對于新目標,在所有相關參數中,元梯度()G h總是多項式。此外,步長為1/k的元梯度下降收斂。然而,如果用反向傳播計算()F h,需要()dFGdGh=。()F h以及()G h以指數形式變大或變小。設置:最小二乘問題()()2*,1,0,0,Tdyw xwxNINxxs=+=目標:訓練數據的平方損失5
8、算法:恒定步長的梯度下降(與 SGD 相似)鬲融介紹了定義元目標的兩個思想,給定,Twh為步長為時迭代第 T 次的點。(1)使用 Train-by-Train(TyT)方法,在訓練集上定義原目標,例如,簡單選擇 F()=f(w,T)。(2)使用 Train-by-validation 方法,在分開的驗證集()()2211nnxyxy上定義鬲融就何時使用 Train-by-validation(TBV)方法總結如下:定理:當是一個足夠大的常數,并且 n(樣本數)是 d(維度)的恒定分數時,逐次驗證效果更好;當 n(樣本數)比 d(維度)大得多時,則逐列訓練接近于最小-最大最佳解。觀察:神經網絡經
9、常被過度的參數化,這意味著樣本數 n 小于維度 d。鬲融給出了實驗驗證的結果如下,在原始最小二乘數模型上,鬲融分別比較了在使用 Train-by-Train(TBT)方法和 Train-by-validation(TBV)兩種方法時,不同步長下,在訓練集和測試集上的均方根誤差 RMSE。結果如下所示:圖 4:原始最小二乘數模型上的均方誤差值鬲融通過在合成數據如 MNIST 等數據上的簡單實驗驗證闡述了使用 Train-by-Train(TyT)、Train-by-validation(TBV)訓練優化器的結果。并得出結論,使用驗證損失可以實現良好的泛化性能,而使用訓練損失甚至對于簡單的二次函數
10、也可能過擬合。6圖 5:在網絡優化器上的實驗觀測鬲融總結了優化過程中的幾個注意事項:(1)仔細選擇元目標可以減輕梯度爆炸/消失的問題;(2)需要謹慎使用反向傳播算法;(3)當樣本較少或者噪聲較大時,需要在單獨的驗證集上定義元目標。最后,鬲融就進一步的研究提出了建設性的問題“是否可以為神經網絡優化器緩解梯度爆炸、梯度消失問題以及數值問題呢?”“是否可以針對更復雜的目標為更復雜的優化器調整參數?”引發大家的進一步思考。7 普林斯頓大學金馳:對強化學習算法復雜度的一種優化方法整理:智源社區何灝宇在第二屆北京智源大會“機器學習前沿青年科學家”專題論壇上,普林斯頓大學助理教授,青年科學家金馳做了題為Ne
11、ar-Optimal Reinforcement Learning with Self-Play的報告。在報告中,金馳提到:低效是現有的大多數強化學習算法的瓶頸,也是制約強化學習大規模應用的一個關鍵點,這其中,有兩種效率我們需要去考慮,一種是采樣效率,即在訓練時需要進行取樣的樣本數量;另一種是計算效率,即訓練模型需要花費的時間和算力。在本次報告中,金馳為我們展示了他在解決強化學習算法的低效性尤其是提高采樣效率這方面的研究成果。以下是演講全文,本文做了不改變原意的整理。關于強化學習的一個里程碑事件是 Alpha Go 在人機大戰中戰勝圍棋世界冠軍,這也是機器第一次在圍棋這個項目中戰勝人類的最高水
12、平。像 Alpha Go 這樣的基于強化學習的人工智能有一個特點它們并不是通過與人對戰進行訓練而是通過自己與自己對戰進行學習的。這樣的概念被稱作自學習(Self-Play)?,F有的大多數強化學習算法都陷入了低效的瓶頸。比如在谷歌公司有充足算力資源的情況下,訓練 Alpha Go Zero 需要采樣一千萬盤圍棋比賽,用時一個多月。在像圍棋或者撲克或者是星際爭霸這些游戲中,玩家數量不是一個而是多個,且對手的策略會通過分析其他玩家的策略進行調整,這種形式叫做雙(多)玩家零和博弈。零和博弈的意思是如果某一玩家獲得獎勵或者贏得博弈,那就意味著其他玩家獲得懲罰或是輸掉博弈。使用強化學習算法處理零和博弈問題
13、時,也同樣會遇到效率低下的問題。那么,對于雙玩家零和博弈,怎樣設計一種更有效的強化學習算法使得采樣效率和計算效率更高呢?這正是本次報告的主要內容。圖 1:多玩家零和博弈在現實生活中的案例8一、極端還是均衡,哪個才是最優策略在討論怎樣解決這個問題之前,首先需要說明我們使用的是馬爾可夫對策模型(Markov Games),假設在該模型中有兩個智能體 a 和 b,在一個狀態下,a 和 b 會采取行動 a1、b1或者 a2、b2,并且分別得到獎勵值 r,同時,整個模型的狀態 s 也會根據 a、b 的行動發生改變。那么,對于該模型,我們做一下參數的定義,S 代表模型所有狀態的集合,A 代表智能體 a 所
14、有行動的集合(a1,a2,.,an),同理 B 代表智能體 b 所有行動的集合。H 代表整個博弈中視野的長度,比如星際爭霸中一場游戲需要經過的時間。非常重要的一點是,兩個智能體 a、b 是互相比賽的,其中一個智能體的目標是最大化系統的獎勵值 r,另一個是最小化 r。圖 2:馬爾科夫對策模型在設計算法之前我們需要構建出一個對于雙玩家零和博弈的最優策略。那么,怎樣去理解最優策略呢?首先需要介紹幾個概念,第一個概念稱作最佳響應(Best response),在響應時會去盡可能探索對手的策略并且采取最優的行為。比如在剪刀石頭布中,如果本玩家的策略是一直出石頭,那么最佳響應策略就會一直出包袱來對抗本玩家
15、。然而在實際的博弈過程中,任何一個玩家都不能準確的知道對手的策略是什么。第二個概念叫做納什均衡(Nash Equilibria),納什均衡的策略是,在任何時刻都做最壞的打算,不論其他玩家的策略如何改變,哪怕其他玩家采取針對本玩家的最佳響應策略,采用納什均衡的玩家依然可以保證一定的收益。比如在剪刀石頭布時均勻出拳,那么本玩家可以始終保持百分之五十的獲勝概率。事實上,這種策略在一些場景下是非常強大的,想象一下如果你在玩星際爭霸的時候與任何對手對戰都能保證百分之五十的勝率,那么你就很有可能會是這個游戲世界中最好的玩家。因此我們的目標就是找到一個取樣少采樣效率高的納什平衡,使得模型對于參數S、A、B
16、的值有最優依賴。二、基于置信度進行高效的搜索現在我們明確了我們想要實現的目標,接下來就該開始設計算法了。用到的基礎算法叫做 Nash Q-learning,對于熟悉 Q-learning 的人來說,可以把 Nash Q-learning 當作是雙玩家版本的 Q-learning?;A的 Nash Q-learning 會做兩件事情,一是隨機更新 Q 值,二是根據預測的 Q 值重新計算納什平衡,從而達到更新策略的目的。如果仔細思考一下 Nash Q-learning 的話,會發現它并沒有詳細說明怎樣去對數據進行采樣,這就引出9了 一個很重要的問題搜索(Exploration)。在強化學習中,不能
17、只去利用(Exploitation)那些已經有的或者模型認為最優的數據,也要去探索那些模型認為并不是最優但實際可能就是最優的數據。這樣做的原因是因為采樣次數有限,模型根據學習到的策略計算出的最優樣本和實際的最優樣本之間會有偏差,通過搜索能夠保證模型不僅局限于學習到的策略,而是對所有樣本都進行嘗試,這就是搜索的意義。-greedy 是一個常用的搜索方法,它表示每次采樣數據時,模型有 的概率去進行隨機的搜索,其他時刻模型做貪婪搜索,從而保證所有可能的樣本都能被取到。圖 3:-greedy 的抽象表達 0如果有無限數量的樣本可以不停做搜索,-greedy 會非常有效,但是在實際的應用中樣本數和時間都
18、是有限的,導致-greedy 搜索到的最優策略與真實值之間總會有一個差值,所以我們需要找到一個比-greedy 更有效的算法上置信界算法(Upper Confidence Bound)。該算法的核心思想是假設每一個樣本都有一個置信區間,這個置信區間代表模型對采樣該樣本時可能得到的獎勵值的預估區間,每個樣本都對應著一個獎勵值的期望,在下圖中表示為1和2。在每次采樣時,取置信上界最高的樣本,根據得到的獎勵值更新 。隨著對樣本的采樣次數增多,模型對該樣本的置信度增加,樣本的置信區間會縮小。概括來說,模型會在每次采樣的時候選擇看起來有更高置信區間上界的樣本,也就是更有可能拿到高獎勵的樣本,并且在每次采
19、樣之后對置信區間進行更新。該算法已被證明要比-greedy 算法的效果好得多,對于強化學習的學習效果提升是巨大的。10圖 4:上置信區間算法由于我們討論的是雙玩家的零和博弈,因此我們不僅使用上置信區間算法,也同時采用下置信區間算法(Lower Confidence Bound)。兩個玩家分別使用兩種算法進行采樣。然而這會帶來一個新的問題:兩個玩家采用不同的算法意味著算法中要計算兩次納什均衡,這會導致算法的計算復雜度為 PPAD(高于多項式級),顯然這樣的結果與我們提高算法運行效率的初衷不符。為了解決這個問題,我們采用了粗相關均衡(Coarse Correlated Equilibrium)代替
20、納什均衡從而達到更低的計算復雜度?,F在我們已經完成了大部分的算法設計,這樣的算法已經能夠在單玩家的場景下執行最佳策略。然而我們意識到一個問題,那就是在多玩家的前提下,這種優化后的 Nash Q-learning 算法只能保證在與采用納什均衡策略的對手博弈時,取得良好的效果。如果對手采用最佳響應的策略,我們的算法策略不能保證取得好的效果,這樣的一個策略不能算是一個優秀的策略。為了解決這個問題,我們在算法中加入了一個新的機制 Certified Policy,使得我們的策略能夠保證在與最佳響應策略進行博弈時也能有好的表現。因為時間原因,我不會在這里講解更多關于應用這個機制的原理。三、算法復雜度分析
21、以上就是我們設計最優 Nash Q-learning 算法的全部過程,下圖展現了該算法采樣復雜度的上界和下界,可以看到參數 S、A、B 和 對于該算法的依賴都是最優的(線性依賴)。也能看到我們設計的另一個算法最優Nash V-learning,在最優 Nash Q-learning 算法的基礎上又進一步降低了采樣復雜度。11圖 5:Optimistic Nash Q-learning 的采樣復雜度我們設計的兩種優化算法與其他算法的效率對比,可以明顯的看到 Nash Q-learning 和 Nash V-learning 對于參數 S、A、B 的依賴都是最優的,達到了線性依賴。以實際情況為例做
22、說明,在實際應用中,通常會有超過1000 個狀態 S,那么我們算法將采樣復雜度對 S 的依賴從 S2降低到 S 則會使取樣的時間比之前降低一千多倍,這種優化對于效率的提升是指數級的,這也是為什么我們希望能設計一個達到采樣復雜度下界(Lower Bound)的算法的原因。圖 6:優化算法之間的效率對比12四、更多發展方向最后,對本次報告做一個總結,我們設計了一個在雙玩家零和博弈中能夠達到近似最優效率的自學習強化學習算法,基于這個算法我們還可以在未來有更多的研究方向:1.最重要的一點,雖然算法對于 S 的依賴是線性的,但如果 S 值特別大,算法的效率也不能得到保證。我們之前認為 S 是在 1000
23、 這個數量級上變化的,因此從 S2到 S 的優化實際上是把采樣復雜度對 S 的依賴從百萬降低到千。但是在星際爭霸這樣的場景下,S 本身就有幾百萬個,這樣的情況下,采樣復雜度對于 S 的線性依賴還是會給計算帶來災難。這個問題是需要通過研究去解決的。2.盡管算法的復雜度對于 A、B、S、的依賴都是最優的,但是對于 H 的依賴還不是最優,如何對 H 做優化是一個值得研究的方向。3.還需要將該算法應用于實際使用場景,以實際表現去評價算法的有效性。13 賓夕法尼亞大學蘇煒杰:隱私算法到底有多隱私?整理:智源社區熊宇軒隨著人工智能學科的蓬勃發展,以及深度學習等技術在社會生活中的廣泛應用,算法的安全性問題又
24、重新被人們所重視。在本屆智源大會的“機器學習前沿青年科學家”專題論壇上,來自賓夕法尼亞大學的助理教授蘇煒杰為我們帶來了主題為how PRIVATE are PRIVATE algorithms的報告。該報告介紹了差分隱私保護的發展歷史,并從信息量、復合、子采樣這三個角度分析了他們近期提出的 f-DP 相對于傳統差分隱私保護框架的優勢。以下為蘇煒杰演講內容:在今天的演講中,我們將討論一種新的隱私保護的機器學習框架。在 George Orwell 著名的小說1984中,Big Brother是大洋國的獨裁者,他可以窺探其國家內部所有人的隱私,而由于每個人都沒有隱私,這個國家最后覆滅了!不幸的是,G
25、eorge Orwell 在小說中描述的場景在今天正在變為現實?,F在的大型企業(尤其是 IT 企業)可以獲知用戶的隱私數據,如果這些隱私數據被用于惡意用途,就會對每個人甚至是整個社會帶來災難。那么我們如何應對這一問題呢?僅僅通過匿名化(從數據集中刪除用戶的名字)手段就能夠保護隱私嗎?很不幸,這還遠遠不夠!因為屬于某個人的數據可能出現在多個數據集中。實際上,Narayanan 和 Shmatikov 等人于 2006 年發表的論文指出,可以通過將兩個以上的數據集聯系起來,從而識別出特定用戶的身份。這也正是著名的 Netflix 競賽被取消的原因。另一方面,我們可以公開總結的統計量(樣本均值)嗎?
26、很不幸,通常而言,這種數據也是存在泄露隱私的隱患。2008 年,Homer 等人指出,如果我們公開次等位基因頻率(MAF)的均值,你可以確認判斷某個人是否在這個數據集中。試想,如果某個數據集包含的是糖尿病人的數據,你可以通過判斷某人是否在該數據集中從而獲知他是否患有糖尿病,此時隱私也就蕩然無存了。一、差分隱私保護那么,這就是我們的未來嗎?好消息是,一些研究人員在隱私保護領域做出了積極探索。2006 年,計算機領域的研究人員提出了差分隱私保護技術(DP),將隱私保護與假設檢驗聯系在了一起。下面,我們對 DP 進行形式化定義。假設我們知道數據集的所有信息,并且知道數據集中存在 Jane、Ed、Bo
27、b 三名用戶,但我們現在不知道 Anne 或 Eva 是否在數據集中。此時就有兩種可能性,S=Anne,Jane,Ed,Bob 和 S=Eva,Jane,Ed,Bob,由于這兩個集合只有一個元素不同,我們將它們稱為相鄰數據集。14圖 1:差分隱私保護我們的問題是,是否能夠基于某種算法,識別出這個不確定的元素究竟是 Anne 還是 Eva。我們將真實數據集 S 記為 H0(對應于原假設),將真實數據集為 S 記為 H1(對應于備擇假設)。實質上,H0代表 Anne 在數據集中,H1代表 Eva 在數據集中。那么,直觀上來說,如果這種假設檢驗很難實現,那么 Anne 和 Eva 的隱私就得到了保護
28、,這就是差分隱私保護的基本思想。近年來,DP 技術帶來了巨大的影響,包括 Google、Apple、微軟在內的各大企業紛紛采用了這項技術。同時,美國人口普查局也承諾在調查中使用 DP 技術來保護最重要的統計數據。2017 年,四名計算機科學家也由于 DP 的相關工作獲得了理論計算機科學界的最高獎項:哥德爾獎。本次演講將基于 4 篇論文展開,有興趣的讀者可以在 Arxiv 上找到其中 3 篇的原文,最后一篇也會很快與大家見面。這里需要提一下我的合作者董金碩。他是一名非常有創造力的學生,在這一系列工作中起到了極大的推動作用。Gaussian Differential Privacy.With Do
29、ng and Roth.JRSSB(with discussion)Deep Learning with Gaussian Differential Privacy.With Bu,Dong,and Long.In submission Sharp Composition Bounds for Gaussian Differential Privacy via Edgeworth Expansion.With Zheng,Dong,and Long.ICML 2020 Central Limit Theorem and Uncertainty Principles for Differenti
30、ally Private Query Answering.With Dong and Zhang.In submission首先,我們將對比一下本次演講中提出的新的隱私保護思路與前人的做法。在本次演講中,我們將提出一種名為f-差分隱私(f-DP)的新型隱私保護框架,而 Dwork 等人于大約 13 年前提出的框架被稱為(,)-差分隱私。15圖 2:新的隱私保護思路首先,它們的相似之處在于,它們都將隱私保護轉化為了一個假設檢驗問題。但它們的差異體現在以下方面:f-DP 采用假設檢驗中的第一類錯誤(棄真錯誤)、第二類錯誤(取偽錯誤)作為隱私度量;而(,)-DP 則使用最差情況的似然比作為隱私度量,
31、而這種最差情況在某種程度上說是過于悲觀的。由于我們的方法考慮棄真錯誤和取偽錯誤的折中,所以本質上說它是一種從區間 0,1 到 0,1 的函數映射。而在(,)-DP 中,他們使用僅僅使用了 和 兩個數來定義最差情況下的似然比。在 f-DP 框架下,典型的實現隱私保護的方式是加入高斯噪聲(高斯分布),而(,)-DP 則是通過加入拉普拉斯噪聲(雙指數分布)實現隱私保護。二、f-DP簡介如今,市面上有各種各樣的差分隱私保護方法,f-DP 也許是最新的一種差分隱私保護框架。在這里,我們考慮以下三種標準:(1)Informativeness(2)Composition(3)Subsampling。圖 3:
32、差分隱私保護框架舉例我們的框架 f-DP 在上述三種評價標準上都取得了令人滿意的性能。16圖 4:Trade-off 函數定義在這里,我們令 H0為原假設,它表明真實情況為 S;H1為備擇假設,它表明真實情況為 S。我們用 P 表示真實值為Anne(S)時算法輸出結果的概率分布,P 表示真實值為Eva(S)時算法輸出結果的概率分布。此時的第一類錯誤由顯著性水平=EP 定義,它代表原假設為真,但是我們拒絕了原假設,接受了備擇假設。第二類額假設的概率=1-EQ ,它代表備擇假設為真,但是我們接收了原假設。對于兩個概率分布 P 和 Q 來說,我們定義其 trade-off 函數為一個從區間 0,1
33、到 0,1 的函數映射:其中,為 0,1 區間上的概率。該函數在 處的值是第二類錯誤可能的最小值,這樣一來第一類錯誤就滿足其概率小于。在滿足該條件約束的情況下,你希望找到能夠最好地使第二類錯誤概率最小的拒絕規則。此時,Neyman-Pearson 引理保證了始終存在最優的,而根據 Blackwell 定理,我們的 trade-off 函數包含的關于假設檢驗問題的信息量最大。f-DP 實際上反映了本次演講的主題隱私保護算法究竟有多隱私。若某個隨機的算法 M 對于所有的相鄰數據集 S 和 S 的 trade-off 函數滿足:我們則稱該算法滿足 f-DP。上式說明左側函數的第二類錯誤始終大于等于右
34、側的 f。存在第二類錯誤意味著,將 Anna 與 Eva 區分開來并不比區分 P 和 Q 兩種概率分布更簡單。此時的隨機性來自于算法,而并非來自于數據集,數據集是始終不變的。我們可以保證這里的 trade-off 函數 f 是關于第一象限的 45 度線(y=x)對稱的,即 f(f(x)=x。17圖 5:滿足 f-DP 的算法示意圖如圖 5 所示,黑色實線代表 f 的函數,只有“-”的虛線滿足 f-DP,因為根據定義,滿足 f-DP 的算法的 trade-off 函數需要始終在 f 之上。(,)-DP 需要滿足如上圖所示的不等式約束,當 和 都很小時,不等式最左邊的一項和中間一項就相等了。實際上
35、,通過定義,我們發現(,)-DP 是我們提出的 f-DP 的特例。通過繪制這個函數的圖形(分段函數),我們看到在 y=1 附近的截距為,這是一個非常小的數,接下來的一段圖像的斜率為-ex,然后在 y=x 另一側的圖像與之前繪制的圖像對稱。由此,我們就得到了四段函數圖像。但是堅持使用(,)-DP 方法所具有的局限性太大,使用概率 也會帶來一些不好的影響。這也正是我們提出 f-DP 的原因。從更基礎的原始-對偶的角度來看,我們可以通過使用不同的(,)對來描述算法的隱私性(越小,則 越大)。通過大量繪制各種(,)對的函數圖像,我們得到了一條包絡線,這條包絡線代表 f-DP。18圖 6:從原始對偶方法
36、的角度看 f-DP我們也可以反過來,對 f-DP 包絡線取關于 y=x 對稱的截距為 的切線,不斷重復這個過程就可以涵蓋所有(,)-DP 的情況。我們可以認為,f-DP 與(,)-DP 等價當且僅當有無限對(,)。接下來,我們將考慮一種由正態分布得到的特殊的 trade-off 函數:其中,為偏移后的均值。該函數的封閉解為:當 小于完美隱私保護的要求時,你就無法區分 trade-off 函數中的兩個分布,而如果 過大(例如超過 3),那么我們就可以區分出這兩個分布,隱私就收到了威脅。高斯差分隱私(GDP)是 f-DP 的一個子類,大體來說,對于所有的相鄰數據集 S 和 S 而言,該方法的 tr
37、ade-off 函數值要一直大于等于由高斯 trade-off 函數給出的 G,此時我們稱算法 M 滿足 -GDP。由于中心極限定理,以上結論對于 f-DP 來說是很重要的。19圖 7:對 GDP 中 的解釋那么如何解釋 GDP 中的參數(正態分布均值)呢?當 很小的時候(例如,=0.5),那么其曲線就與完美隱私下的狀態十分接近;當 很大時(例如,=6),其曲線就與坐標軸非常接近。此時,第一類錯誤與第二類錯誤都非常小,近乎于 0,毫無隱私可言。圖 8:解決方案加入噪聲一種減小 的通用方法是加入噪聲。如果你對統計量 (S)的值感興趣,為了保護隱私,我們可以向 (S)加入隱私。對于 GDP 框架來
38、說,我們向 (S)加入高斯噪聲。而至于加入多少高斯噪聲則取決于我們希望有多大程度的隱私保護。另一方面,對于統計量 的靈敏度而言,我們可以將其定義為替換數據集中的某個元素后的最大擾動()()S SmaxSSqq。根據定義,=/,因此如果我們希望 較大,則添加的噪聲 較??;如果我們希望 較小,則添加的噪聲 較大。三、復合性與中心極限定理大致說來,如果我們對同一個數據集進行多次查詢,隨著查詢次數的增加,隱私性就逐漸下降了(一個擁有 n 20條記錄的數據庫,在進行 n logn2 查詢之后,就可以被重建出來)。那么問題來了,復合操作降低隱私性的速度有多快呢?假設我們有兩種隱私保護算法 M1、M2,且
39、M1為 M2的輸入之一,其復合算法 M 為:M X Y1 Y2 在給定算法序列 Mi X Y1 Yi-1 Yi for i k 的情況下,我們可以將其復合函數遞歸定義為:M X Y1 Yk為了定義 f-DP 的復合,我們首先將兩個 trade-off 函數 f 與 g 的張量積定義如下:若真實值為 Anne 則第一個算法的概率分布為 P,第二個算法的概率分布為 P;若真實值為 Eva 則第一個算法的概率分布為 Q,第二個算法的概率分布為 Q。對于簡單的 GDP 版本來說,k 個 GDP 的復合記為:其中 為參與復合的所有 GDP 算法 trade-off 函數中正態分布均值的二范數。定理:假設
40、 Mi(,y1 ,yi-1)為第 i 個滿足 f-DP 的算法(記為 fi-DP),則其復合算法 M X Y1 Yk是 trade-off 函數為1fkfL的差分隱私算法,記為1fkfDPL。f-DP 的中心極限定理是本次演講中最重要的定理。令 fki 1 i k,k=1,2,為 trade-off 函數的一個三角形數組,其中每一個算法都接近完美隱私保護,當 k 趨近于正無窮時,fk1到 fkk的復合最終收斂到高斯分布上,它在 0,1 上一致收斂,而 可以根據 fk1計算出來。因此,若 Mki滿足 fki-DP,則它們的復合近似滿足 -GDP(通用性)。由于中心極限定理的存在,對一般的分布恰當
41、地取平均最后都會漸進趨向于正態分布。此外,計算 trade-off 函數12kkkkfffL是一個非常復雜的#P 完全問題。我們可以通過 Edgeworth 展開進一步改進這個定理。一般來說,為了應用中心極限定理,k 應該取一個較大的值。然而,在本例中,k 即使取 10 就已經足夠了。21圖 9:使用中心極限定理求得 GDP 的效果如圖 9 所示,紅色的曲線代表精確的合成,由于 k 較?。╧=10),所以我們可以將其計算出來;藍色的曲線代表由我們的中心極限定理得到的 GDP,我們幾乎無法區分紅色和藍色的兩條曲線。而如果我們使用(,)-DP,它就不可能近似復合曲線,這是因為(,)-DP 包含了四
42、段分段函數,我們無法用四段函數均勻地近似光滑的復合曲線。在不考慮復合的情況下,我們重新考慮中心極限定理。在查詢應答的場景下,如果查詢的維度較高,無論我們將其中加入怎樣的噪聲符合怎樣的分布,這個查詢應答過程都近似滿足 GDP。該定理還說明了差分隱私的不確定性定理。簡單地說,噪聲變量的值與隱私成本的平方的乘積要始終大于等于統計量 的維度,因此我們無法同時令噪聲變量與隱私成本都取較小的值,正所謂魚和熊掌不可兼得。我們可以基于 Sudakov 定理對此進行證明。四、通過子采樣放大隱私下面,我們將討論最后一個性質:Subsampling。假設我們有一個非常大的數據集 S,我們通過子采樣得到其中 10%的
43、數據,我們將算法 M 應用于采樣得到的數據點上,記為:M。sub(S)。直觀地說,這種做法為我們提供了更大的隱私性,因為 90%的數據并不會暴露給算法。假設我們從總數據量為 n 的數據集中均勻地采樣出 m 個數據點的子集,令 p =m/n。給定任意 trade-off 函數 f 時,算子 Cp(f)定義如下:22對于凸組合 fp=pf+(1-p)Id 而言,由于 p 是由我們采樣得到的樣本計算而來,(1-p)取決于我們沒有采樣的樣本,因此它滿足完美隱私保護。為了令該操作對稱,我們考慮了 fp的反函數,為了令其為凸組合,我們使用了minfp ,fp-1 的二次共軛形式。因此,子采樣機制可以保護隱
44、私,而其隱私程度取決于算子 Cp(f)。相比之下,Renyi DP 是一種非常復雜的自采樣定理。圖 10:增益效果示意圖圖 10 顯示了子采樣操作的增益效果。在右圖中,黑色實線代表初始的隱私程度,其隱私性較低(十分接近原點)。當我們通過子采樣得到數據集中 20%的樣本點(p=0.2)時,根據之前的子采樣定理得到的隱私程度如藍色實線所示,我們提出的新子采樣定理得到的隱私程度則如紅色實線所示。因此,如圖中灰色的部分所示,我們對于隱私性的增益是非常大的。23五、f-DP在深度學習中的應用圖 11:深度學習中的隱私保護問題如今,深度學習技術無處不在。相應的,其隱私保護問題也凸顯了出來。而由于深度學習架
45、構的非凸性和許多復雜的天然特性,所以在之前很難將隱私保護引入到深度學習中。大約 3 年前,Google Brain 團隊使用了一種名為Moments accountant的技術在(,)-DP 的框架下來分析深度學習模型的隱私性。圖 12:具有隱私保護的深度學習24在隨機梯度下降(SGD)的基礎之上,我們通過梯度截斷(clip gradient)和高斯機制(Gaussian mechanism)來保證深度學習訓練過程的隱私性。梯度截斷指的是當梯度過大時,我們通過縮放梯度使其變小。高斯機制指的是我們向平均梯度中加入高斯噪聲。我們可以通過 f-DP 改進深度學習的隱私性分析。SGD 實際上也是一種子
46、采樣策略,而深度學習本質上就是子采樣與復合操作的結合。在訓練過程中,我們子采樣一個 mini-batch,然后在一輪輪的迭代中進行復合。這正是我們在所有 f-DP 框架中要重點考慮子采樣和復合操作的原因。根據本文之前介紹的各種特性,我們得到以下定理:當時,具有隱私保護的深度學習漸進地滿足 -GDP。其中 m 為 mini-batch 的大小,n 是樣本的總數,T 為迭代輪次,而 為我們向梯度中加入的噪聲。圖 13:與 Google Brain 方法的隱私分析對比藍色虛線代表 Google Brain 通過Moments accountant得到的隱私性分析結果,紅色實線代表我們使用中心極限定理
47、得到的 GDP 分析結果。我們的紅色實線始終位于藍色虛線的上,由于 trade-off 函數值越大,則隱私性越高,因此我們的方法更加能夠保證隱私性。25圖 14:與 Google Brain 方法的隱私分析對比圖 15 顯示了最為顯著的性能對比結果,其中 Google Brain 的方法分析結果認為其毫無隱私性可言(第一類錯誤和第二類錯誤都為 0),而我們的方法卻認為這里仍然存在一些隱私性。此時,隱私性由 =1.13 決定,這相對來說還是具有一定隱私性的,因為我們不能很輕易地區分這兩個分布。而在Moments accountant的設定下,為 7.1,其似然比甚至超過了 1,200,人們會認為
48、此時毫無性可言。圖 15:我們基于中心極限定理的方法可以加入更小的噪聲26當我們擁有了隱私性后,我們就可以利用這一性質,向梯度中加入更小的噪聲。紅色實線代表使用我們的新框架時的測試準確率,而藍色虛線代表使用 Google Brain 方法時的測試準確率。需要強調的是,我們并沒有損失任何性能,因為我們保留了相同的算法,我們僅僅減小了向梯度中加入的噪聲的大小,同時也提升了測試時的準確率。六、結語未來,我們還有很多有待探索的研究方向:首先,對于某些具體的算法來說,我們希望研究使用 f-DP 可以獲得多大的隱私性增益。此外,f-DP 是否能被應用于聯邦學習呢?這是一個非常有前景的研究方向。f-DP 與
49、神經網絡的架構有何聯系呢?也許我們可以考慮更多網絡架構的信息,從而在 f-DP 框架下保證算法的隱私性。首先,trade-off 函數可以為隱私損失提供有效的信息。f-DP 可以提供緊密(tight)的復合。f-DP 可以通過平均和凸化方法進行更加激進的子采樣。以上三種性質使 f-DP 成為了目前性能最佳的深度學習隱私保護方法。根據中心極限定理,無論是對于我們提出的 f-DP 框架,還是(,)-DP 框架,只要參與復合的元素過多,所有的問題都會被歸結為高斯差分隱私(GDP)問題,它是我們所有研究的中心。這也許就是數學王子的王者歸來吧!圖 16:數學王子王者歸來27 斯坦福大學雷理驊:反事實與個
50、體處理效應的共形推理整理:智源社區熊宇軒因果推理是下一輪人工智能革命的重中之重。在本屆智源大會“機器學習前沿青年科學家”論壇上,來自斯坦福大學統計系的雷理驊博士為我們帶來了題為反事實與個體處理效應的共形推理的主題報告,深入淺出地介紹了因果推理的必要性,以及如何通過共形推理研究個體處理效應。以下為演講整理。雷理驊:今天,我很高興介紹自己近期關于因果推理的一些工作。具體而言,我將談談反事實與個體處理效應的共形推理。目前,人工智能領域正面臨著諸多巨大的挑戰。事實上,Michale Jordan 兩年前曾撰寫了一篇非常重要且辛辣的文章人工智能革命尚未發生,討論有關人工智能面臨的挑戰與人工智能的未來。他
51、列舉出了許多的挑戰,并重點強調了因果關系和量化不確定性。如他所述,以上兩者都是仿人人工智能領域的經典目標,但卻常被當下的人工智能革命所忽略,而它們至今卻還沒有被很好地解決。在本次演講中,我將在這個方面展開一些討論。具體而言,我將介紹如何圍繞機器學習算法,將它們應用到因果推理中,從而試圖實現可靠的不確定性量化。一、個體處理效應個體處理效應是本次演講的主題之一。Seth Morgan 有一句名言:傳統研究的前提是,將治療放在考慮的中心,并決定這種治療是否對一名“典型”的病例有效?問題是,有很多患者并不是典型病例,我也像大多數人一樣,并不是典型病例。這句名言出自兩年前美國醫學研究院舉辦的一場重要的研
52、討會。這場研討會的重要主題之一正是研究異質處理效應。在介紹完該問題的重要性之后,我們需要開始解決這一問題。在本次演講中,我將重點關注潛在結果(Potential outcome),盡管我們的研究也可以泛化到 Judea Pearl 在本屆智源大會上介紹過的因果圖上面。下面,對于那些不太熟悉潛在結果的人,我們將給出一個簡單的入門示例:28圖 1:平行宇宙的兩只荷蘭豬假如我們有兩個平行宇宙,在每個平行宇宙中都有一只荷蘭豬,這兩只荷蘭豬一模一樣。在其中一個平行宇宙中,我們對荷蘭豬施以治療措施,而在另一個平行宇宙中則并不進行治療。通過觀測實驗結果,我們發現在其中一個平行宇宙中,荷蘭豬存活了下來,而在另
53、一個平行宇宙中,荷蘭豬則死掉了。在這里,以上兩種情況都是潛在結果,但是在現實世界中我們只能觀測到其中一種結果,這取決于我們是否對荷蘭豬施以治療或控制。因此,在這里,潛在結果指的就是如果某人接受了治療,他會有什么反應。圖 2:對個體處理效應進行推理29在這個框架之下,我們約定 T 為 0 或 1 中的某一個值,這個二值變量代表是否進行治療;Y(1)和 Y(0)則代表潛在結果;X 是協變量。我們將個體處理效應(ITE)定義為:Y(1)-Y(0)。請注意,原則上,由于 Y(1)和 Y(0)可以是隨機變量,因此二者之差也是隨機變量,而不是一個目標策略(確定性目標,Deterministic targe
54、t)。因此在這個任務中,我們的目標是找到以下個體處理效應為真的置信度高于 90%的區間估計C:為了實現這一目標,我們至少需要考慮兩種場景:(1)當研究中有實驗主體(subject)存在,只缺失了其中一種潛在結果。例如,如果我們在治療組中有一個主體,根據定義,我們可以觀測到其 Y(1),而缺失了 Y(0)。因此在這種情況下,只缺失了一個潛在結果,我們需要對其進行推理。這種情況可以被歸結為反事實推理。(2)當研究中不存在實驗主體(subject)時,兩種潛在結果都缺失了。這種情況可以被歸納為純 ITE 推理,這更加困難。圖 3:與條件平均因果效應的對比。處理這種差異化處理效應問題的經典方法是:估計
55、條件平均因果效應(Conditional average treatment effects,CATE)。即給定協變量值的條件下的 ITE 的期望:根據定義,這里還存在著很多問題。假設我們有三個實驗組,它們的協變量值都相同,其 CATE 值也相同。但是在第一個實驗組中,所有人都具有正向的 ITE;在第二個實驗組中,80%的人具有正向的效應;在第三個實驗組中,只有 20%的人擁有正向 ITE,但是他們的正向效應非常大。我們當然會推薦第一個實驗組的情況,因為每個人的情況都變得更好了;但是如果我們現在處于第三個實驗組中,我們就要考慮是否要接受這種處理方案了。30前面的例子說明了,在實際中進行 ITE
56、 推理比進行 CATE 推理要更有道理。那么,如上圖所示,我們接下來的工作則是以下面三個因果推理領域最標準的假設為基礎的:超總體假設(super-population assumption):即所有的樣本相互獨立,且于總體同分布。個體處理穩定性假設(SUTVA):即如果主體得到了處理,觀測到的結果就是 Y(1),否則觀測到的結果就是 Y(0)。強可忽略性假設:即潛在結果與給定協變量時的處理方案分配相獨立。二、反事實推理我們的第一個任務是進行反事實推理。圖 4:反事實推理問題定義假設我們有一個控制組 X,如前所述,我們觀測到其輸出結果為 Y(0),那么當對其施加處理時,Y(1)將是多少呢?31在
57、這種情況下,假設我們可以得出()1xC,在 T=0 的條件下,Y(1)有 90%的置信度落在其中。接著,我們可以通過用()1xC減去 Y(1)構造一個新的區間。此時 ITE 有至少 90%的概率屬于這個新構造的區間。反之,我們也可以對干預組做相同的操作。從某種程度上來說,如果我們根據觀察的是控制組還是干預組將ITEC定義為 我們就可以得到一個有效區間(Valid Interval)此時,我們可以將任務歸納如下:我們希望找到一個()1XC使得概率聲明()()()1Y 1X|9T00%=PC成立。它等價于,我們認為該概率聲明在(X,Y(1)服從給定 T=0 時(X,Y(1)的聯合概率分布的情況下成
58、立。對上面的聯合分布進行簡單的分解后,我們希望得到給定 T=0 時 X 的邊緣概率;以及給定 X 的值且 T=0 時的 Y(1)的條件概率分布。根據強可忽略性假設,我們可以直接將第二個因式中的 T 移除,得到其簡化形式:。這就是我們的目標分布。但在現實中,我們能觀測到的是干預組,即從另一個給定 T=1 時 X 的條件分布以及給定 X 時 Y(1)的條件分布中采樣得到的獨立同分布的樣本()i1X,iobsiTY=。32總而言之,如上圖所示,我們擁有的是紅色的概率分布 PX|T=1,而我們希望得到藍色的概率分布 PX|T=0。而這兩個概率分布后的條件分布是相同的,其不同之處在于協變量分布。圖 5:
59、反事實推理與協變量偏移圖解圖 5 是對上文所述的各種假設與我們的目標的圖解。在圖的左側,我們展示了真實世界中的觀測結果(干預組),右側則是反事實世界中的觀測結果。在上面一行,我們給出了橫坐標為 x、縱坐標為 Y(1)的散點圖。由強忽略性假設可知,左右兩側的條件分布是相同的。而真正使這兩個散點圖不同的原因則是它們的協變量分布。對于真實觀測結果來說,X 的概率密度為粉紅色的分布,而我們的目標則是右側橙色的分布。圖 6:問題重述33現在,我們的目標可以改寫為:使用從 PX|T=1 PY(1)|X中采樣得到的獨立同分布的樣本,構建()1XC,并且滿足 Y(1)落在其區間內的置信度大于 90%,它需要適
60、應協變量變化后 PX|T=0 PY(1)|X的情況。這是一類被稱作協變量偏移的問題,機器學習領域的研究人員十多年前對此進行了深入研究。而事實上,統計學領域的科學家們數十年前在進行抽樣調查時就已經涉足這一問題。在這種情況下,我們可以將協變量偏移寫作兩個概率分布之比:()()|0|1w xX TX TdPxdP=,而根據簡單的貝葉斯公式,我們可以推導出該比值正比于()()1e xe x,其中 e(x)為傾向指數(propensity score)()e x(T1|Xx)=P,即給定協變量時某實驗對象得到處理的概率??梢宰C明,這里的傾向指數是因果推理中最基本、最重要的對象之一。以上分析說明,我們面對
61、的是一種存在協變量偏移的預測性推理問題。幸運的是,前人已經對此有所研究。有一類工作被稱為共形推理,這種技術十分神奇。下面,我將對論文Weighted split conformalized Quantile Regression中的處理過程進行說明,并展示這一過程的效果。圖 7:協變量偏移情況下的共形推理(conformal inference);右圖是校正后的概率分布。第一步,我們將隨機地將(1)(,)ioiiTX Y bs=劃分為兩堆數據。在第一堆數據中,我們可以使用任意方法去擬合 Y(1)|X 的 5%和 95%分位數,即我們可以使用分位數回歸(quantile regression)、
62、分位數隨機森林、分位數 Boosting、分位數神經網絡等任意的方法進行擬合。接著,我們將上面的估計結果應用于校正概率分布。之后,我們將計算每個點到這兩個包絡面的符號距離:34()()()()0.050.95 Vmax1,1 iiiiiqXYYqX具體而言,我們首先計算每個點到每個包絡面的距離,如果該點在包絡面的外部,我們給這個距離賦予一個+號,而如果該點在包絡面內部,我們給這個距離賦予一個-號。該直方圖等價于符號距離的經驗累積分布函數。圖 8:右圖中為概率直方圖,藍色為重新加權后的概率直方圖,紅線為通過加權劃分共形分位數回歸方法找到的 90%分位數。當我們計算出符號距離后,我們可以繪制出其概
63、率直方圖,其中0兩側的距離符號相反。在這里,我們使用根據似然比/協變量偏移得來的權值 w(x),對直方圖重新加權。如上圖所示,藍色的部分是重新加權之后的直方圖。接著,我們找出加權直方圖的 90%分位數(紅色的刻度)。最后,我們將輸出置信區間:假設傾向指數已知,我們將權值 w(x)設為 w(x)=(1-e(x)/e(x),我們有:()()1/2190%(Y 1X|T0)90%c Cn=+P即在有限樣本中,該置信度始終大于 90%,而不需要任何假設。也就是說,該結論對于任意的條件分布 PY(1)|X(例如,柯西分布、正態分布等)、任意的樣本量大小都成立,它也適用于擬合任意的條件分位數。無論這種估計
64、效果多差,我們始終都可以保證上述置信度約束成立。35另一方面,該約束在非常寬寬松的條件下也有一個上界 90%+cn-1/2,條件為:假設符號距離是連續隨機變量且()21Ee X(即傾向指數不會取太極端的值)。該上界也對于任意的條件分布()1|PYX(例如,柯西分布、正態分布等)、任意的樣本量大小都成立,它也適用于擬合任意的條件分位數。圖 9:近似反事實推理大體說來,這個神奇的過程如右下角的示意圖所示:一旦我們得到了一個傾向指數,我們可以對模型進行任意的估計,這就好比一個黑盒。當我們將傾向指數和模型估計輸入這個封裝器處理后,它會輸出一個有限樣本上的可信的區間估計。具體而言,這種方法適用于完全隨機
65、/分層的實驗,具有良好的依從性。因為根據我們的設計,在本例中,傾向指數是已知的。另一方面,當我們并不知道傾向指數時,觀測性研究的結果將會如何呢?結果表明,在至少滿足以下兩種條件之一的情況下,我們仍然可以近似保證 90%的置信度:(1)()()e xe x,即傾向指數可以被很好地估計。(2)()()0.05/0.0950.05/0.095qqxx,即條件分位數可以被很好地估計。當條件(2)可以被滿足時,我們可以得到一個更強的結論:這與經典因果推理領域中的平均因果效應(ATE)的雙重魯棒性相類似。綜上所述,假設我們可以同時很好地估計傾向指數和條件分位數,那么我們就可以得到可信的區間估計()1Cx;
66、但是如果我們無法很好地估計其中一個值,最終也能得到可信的區間估計,這就是所謂的雙重魯棒性。三、純ITE推理接下來,我們將要討論更為激進的純 ITE 推理。36最樸素的方法是通過加權劃分共形分位數回歸(CQR)方法得出()1Cx和()0Cx,然后直接對這兩個區間估計進行比較,從而得到 ITE 的區間估計。()()()1 0 ITExxx=CCC但是,這里存在兩個問題:(1)潛在結果被解耦了(2)為了保證有效性,我們需要對潛在結果進行 Bonferroni 校正。以上兩個問題都會使得這一過程非常保守。在這里,我將提出一種新的嵌套方法(Nested approach)。我們使用反事實推理作為一個中間
67、步驟為實驗主體生成 ITE 區間,然后我們試圖將生成的區間泛化到實驗中未考慮的主體上。這種方法可以顯著降低樸素方法的保守性。圖 10:通過 Nested 方法進行 ITE 推理的圖解首先,我們也將隨機地將數據分為兩堆(Fold 1 和 Fold 2),我們將會把推理結果應用到圖 10 中的 Targets 組中。在 Fold 1 和 Fold 2 中,我們可以看到協變量、處理方案分配、觀測結果,而在 Target 種群中,我們只能看到協變量。37圖 11:將反事實推理應用于 Fold 1 中的干預組,估計 Fold 2 中的置信區間首先,我們取 Fold 1 中的干預組,并且對其進行反事實推理
68、(例如,加權劃分 CQR),從而得到()1Cx。然后我們在 Fold 2 的控制組中估計()1 iXC。由于我們可以觀測到 Fold 2 中的 Yi(0),我們可以通過以下方式計算 iC:由此,我們可以得到iC有至少 90%的置信度覆蓋 ITE。圖 12:根據 Fold 1 中的控制組估計 Fold 2 中的干預組,并為 Fold 2 中的干預組構建 ITE 區間38類似地,我們也可以將這個過程反過來,我們可以根據 Fold 1 中的控制組估計 Fold 2 中的干預組。同樣地,我們可以構建滿足條件的區間()()01 iiiCYCX=。在進行上述計算后,我們最終得到了包含 i 個觀測結果的集合
69、iiX,C,其中 Xi為協變量,而iC為置信區間,而iC有 90%的置信度覆蓋真實未知的 ITE。iC事實上也是 ITE 的不確定性度量。接下來,我們擬合某種某型,使用 Xi作為協變量,學習區間iC的左右端點。最后我們會將這里的學習器應用于 Targets 組,為每個測試點生成 ITE 區間。圖 13:為每個測試點生成 ITE 區間,Fold 2 的區間可能在測試樣本上仍有效由于我們知道 Fold 2 上的區間有一個對 ITE 的最小置信度,當學習過程不太差時,Fold 2 的區間在 Target 組上仍然有效。我們可以通過()i(X,)ITEiCX得到一個近似的最小置信度。39四、實證結果接
70、下來,我將展示一些實證結果。首先,我將介紹一個仿真實驗結果。該實驗是 Wager 和 Athey 2018 年的一份工作的變體。在這里,我將跳過這個仿真實驗的細節,主要介紹定性的部分。協變量 X 屬于一個多元高斯分布,協變量之間是相互獨立或相關的,其維度為 10 或 100。我們將潛在結果的基線設置為 0,這意味著 ITE 推理就約簡為了反事實推理。接著,我們將對 Y(1)|XN(x),(X)2)進行仿真,其中均值 (x)均勻地依賴于 X1與 X2,方差可以是同方差的,也可以是異方差的。傾向指數 e(X)0.25,0.5,并均勻地依賴于 X1。我們盡可能地簡化這個仿真實驗,關鍵在于,在這種簡單
71、的模型下,所有的方法都應該有效。我們開發了名為cfcausal的 R 語言程序包( CQR 方法與三種對比基準方法。如前文所述,我們可以將任意的算法封裝到這個 CQR 黑盒中。具體而言,我們封裝了隨機森林、Boosting、BART(貝葉斯可加回歸樹,一種非常流行的因果推理算法)三種算法。我們還考慮了三種基線算法:因果森林、X-learner、BART,這三種算法都非常流行,在過去經過了深入研究。這三種方法可以通過不同的方式來量化不確定性。圖 14:CATE 的邊緣覆蓋率(合理性檢驗)40圖 14 顯示了 CATE 的邊緣覆蓋率。我們的方法并不能保證覆蓋 CATE,因為我們的方法的設計目標是覆
72、蓋 ITE。但我們可以將這種方法用于合理性檢驗,因為其余三種基線的設計目標都是覆蓋 CATE。即使在擁有 10 個協變量(d=10)時,我們可以看到這三種對比基線都沒有達到最小的保險覆蓋率(在本例中目標覆蓋率為 95%),而在某些設定下,它們的覆蓋率低至 75%,從統計意義上說這是一個非常低的覆蓋率。當 d=100 時,某些算法(因果森林)的覆蓋率甚至低至 25%。然而,我們的算法在所有的情況下都有非常保險的覆蓋率(基于高至 1)。圖 15:ITE 的邊緣覆蓋率圖 15 中,我們展示了 ITE 的邊緣覆蓋率。同樣地,我們的方法旨在覆蓋 ITE。令人十分驚訝的是,我們的方法的覆蓋率恰好為 95%
73、,我們的定理也指出了其覆蓋率不僅高于 95%,而且誤差不會太大。事實上,在所有的實驗設定下都出現了這種情況。同時,我們也可以看到,其它的對比基線方法的覆蓋率則往往很低,沒有達到 95%。41圖 16:ITE 置信區間的平均長度你可能會認為,為了保證覆蓋率,你可能會使置信區間的長度非常寬。但是,在這里我們將所有的方法與標準方法(oracle)進行了對比。我們在樣本量無限、模型十分理想的情況下求出了這種標準方法的置信區間的長度。但是,我們在這里其實只有 1,000 個樣本。如你所見,我們的方法的置信區間長度與標準方法十分相近。當然,其它方法的置信區間長度非常短,但這并不意味著它們是有效的(簡而言之
74、,他們的覆蓋率非常低)。圖 17:ITE 的條件覆蓋率42由于我們的理論只保證在邊緣覆蓋率上成立,但是也很有必要看看條件覆蓋率的表現。如上圖所示,我們的方法有非常高的條件覆蓋率,而其它的方法則不能做到這一點。這些數據是基于 NLSM 獲得,它于 2018 年最大的因果推理學術會議(ACIC)所使用,我們會基于這個數據集生成一些合成數據。圖 18:ITE 的邊緣覆蓋率與三種基線的對比通過將我們的方法與其余三種基線對比,與前文所述的圖表相類似,我們的方法保證了其它方法無法達到的覆蓋率。43圖 19:ITE 置信區間的平均長度我們方法得出的置信區間的長度也很好。圖 20:ITE 的條件覆蓋率44最后
75、,在本例中,我們的方法也取得了很好的條件覆蓋率。請注意,在這里,我們需要同時對兩種潛在結果進行推理,因此它是一個純 ITE 推理問題,而不是一個反事實推理問題。這是一個困難得多的問題,但是我們的方法仍然取得了很好的效果。五、總結綜上所述,在這份工作中,我們提出了一種將共形推理用于反事實和個體處理效應的方法。重要的是,它十分可靠,這體現在:在隨機實驗中,對于有限樣本而言,使用任何的黑盒算法都可以取得接近精確的覆蓋率。而在觀測性研究中,我們的方法擁有雙重魯棒性,它確保了最小的覆蓋率(置信度)。而在我們的仿真實驗和真實數據上的研究中,我們確實在實際中觀測到了這種性質,它不僅僅是一種理論學說!45 斯
76、坦福大學馬騰宇:理解噪聲協方差的隱式偏差整理:智源社區熊宇軒在 2020 年北京智源大會的機器學習前沿青年科學家專題論壇中,來自斯坦福大學的助理教授馬騰宇針對噪聲對深度學習隱式正則化的影響帶來了題為理解噪聲協方差的隱式偏差的演講。馬騰宇的主要研究領域包括機器學習和算法,如非凸優化、深度學習及其理論,以及強化學習、表示學習、高維統計等。他在國際頂級會議和期刊上發表了系列的高質量論文,同時還獲得了 2018ACM 博士論文榮譽獎等諸多獎項。演講全文如下:一、深度學習時代的優化器首先,我想簡要地介紹一下最近深度學習理論研究領域一個非常熱門的話題:深度學習算法中的隱式正則化。在這之前,我將簡要地回顧一
77、下傳統的機器學習理論,然后討論為什么說這些新的隱式正則化技術改變了我們對機器學習理論的理解。十到二十年以前,當我們討論機器學習理論時,一種簡化的視角是:將統計數據和優化方法解耦開來。對于統計數據而言,我們需要設計合適的損失函數。在損失函數中,我們需要考慮數據和正則項。而優化方法旨在為損失函數尋找合適的優化器。在機器學習理論中,對于統計數據來說,我們認為:訓練的正則化后的損失函數的全局最小值具有很小的測試誤差。而優化方法的任務是為正則化后的損失函數找到一個優化器。結合以上兩個步驟,我們可以在多項式時間內尋找到一個具有較小測試誤差的解。往往,我們在損失函數為凸函數的情況下,全局最優解是唯一的,此時
78、的優化工作便是凸優化。簡而言之,這就是經典的機器學習理論。然而,到了深度學習時代,很多事情都發生了改變。最終要求的一點就是:最小化訓練誤差并不再是優化器唯一的職責。圖 1:在 CIFAR-10 數據集上進行的實驗。兩種具有相同目標函數的算法,使用了不同的學習率,在訓練損失都收斂至 0 的情況下,得到了差異很大的測試誤差。46如圖 1 所示,這是一個在 CIFAR-10 數據集上進行的簡單的實驗。圖中涉及到了兩種算法,他們之間僅有的差異就是其學習率。對于第一個算法(算法 1,藍色曲線)來說,其初始學習率為 0.1,隨后其學習率衰減為 0.01;第二個算法(算法 2,紅色曲線)的學習率則一直為 0
79、.01。所以,這兩種算法有相同的目標函數,唯一的區別是其優化器有微小的差異。在這兩種情況下,當經過了足夠多輪的迭代訓練后,訓練誤差都收斂到了 0。然而,關鍵的問題是,最終的測試誤差則有著顯著性的差異。算法 2 最后的測試誤差要高于算法 1 的測試誤差。這個例子告訴我們,優化器不僅僅要做到最小化訓練損失,因為最小化訓練損失并不能保證測試誤差也很小。不知為何,上面的算法 1 的測試誤差較小,但算法 2 則不然。從另一個角度來看,造成這種狀況的原因是該目標函數是非凸函數,它有多個全局最優解。此外,模型存在過參數化(over-parameterization)的問題(注:測試時過擬合,但是訓練較為容易
80、收斂),參數的數量要遠遠大于數據點的數量。二、具有多個全局最優解的損失函數在這里,我使用了一個一維空間下的示例來解釋非凸函數和過參數化。圖 2:訓練誤差處于全局最小值、測試誤差差異較大的兩種參數化情況在如圖 2 所示的訓練損失函數(虛線)中,我們有兩個全局最小值。然而,左側的訓練損失全局最小值是較好的(測試誤差較?。?,而右側的全局最小值則較差(測試誤差較大),這是因為訓練誤差和測試誤差的關注點并不都是一致的,所以有一些訓練誤差處于全局最小值的參數情況要優于其它處于全局最小值時的情況。此時,優化方法的職責并不只是找到某一個全局最小值,而是需要找出許多潛在可能的全局最小值,進而找出正確(測試誤差等
81、指標也同時優異)的全局最小值。下面,我們舉一個例子來說明這種情況。在我的腦海中,我想到了我第一次來美國時,我去一個非常大的滑雪度假村游玩時的場景。在山峰之間有很多的峽谷,當你來到度假村時,你會將車停在其中的一個停車場中。而47當你最后一次滑下山坡時,你不僅僅要隨便找到一個峽谷谷底(全局最小值)然后回家,還需要找到你停車的那個正確的峽谷。而實際上,我滑雪結束時,沒有找到正確的停車場。三、深度學習理論研究新范式從某種程度上說,深度學習的學習理論框架需要進行革新。進行這種改變的方式是,對于統計數據來說,我們認為有一些訓練函數處于全局最小值處的情況會有很小的測試誤差,而不是所有的全局最小值都會有相同小
82、的測試誤差;另一方面,對于優化方法而言,優化器不僅僅需要找到損失函數的某一個全局最小值,還需要找到正確(性能優異)的全局最小值點。那么什么是正確的全局最小值呢?我們在這里提出一個猜想:通常而言,常用的優化器(即隨機梯度下降,SGD)具有隱式的對于某些簡單解(從而得到簡單的模型)的偏置/偏好,而這正是我們想要找到的正確的損失函數的全局最小值。另一方面,對于統計數據而言,這些特定的模型往往擁有較小的測試誤差。在某種意義上,以上就是我眼中的深度學習領域的新型學習理論范式。圖 3:數據與優化方法趨向于融合我們可以看到,統計數據和優化方法的結合和交互正越來越緊密。四、優化器的隱式偏置在過去的幾年中,我認
83、為深度學習領域最熱門的一個研究方向就是,理解不同的優化器的隱式偏置。事實上,如果我們仔細想想,幾乎所有優化器之間的微小差別都會引起不同的隱式偏置。而這涉及到算法中幾乎所有你可以使用的不同的超參數,以及你在執行算法時所做的所有決定。示例1:初始化是其中的一種超參數。我們知道,使用較小的初始化參數往往偏向于得到低范數解,而另一方面,如果你使用較大的初始化,往往會出現過擬合的現象。48示例2:使用較大的初始學習率(或較小的批處理大?。?,往往會學習到較為簡單的模式。我們知道,如果你使用較大的學習率,并希望性能更好,那么在一開始就需要使用大學習率。在我和 Li、Wei 等人的論文中,我們對此進行了解釋。
84、圖 4:使用不同的學習率會得到差別很大的訓練結果。在圖 4 中,我們列舉出了一個簡單的可視化例子來說明學習率對優化器的影響。在如圖所示的汽車圖片中,我們加入了一些硬編碼模式(hard pattern)/簽名(signature)。由于每種圖片你有一個這樣的簽名(signature),所以這種簽名也可以被用來預測圖片的類別。如果我們使用較小的學習率,那么模型將會學著使用這種簽名來預測分類;而如果我們使用較大的學習率,那么模型將會忽略簽名,學習到圖片的內容。這說明使用不同的學習率會學習到不同的模式,這意味著模型會收斂到損失函數不同的全局最小值處。示例3:Dropout 過程中也存在著一些隱式偏置。
85、在你使用 Dropout 時,你需要同時考慮顯式正則化和隱式正則化。我們定義 Dropout 損失,即同時對數據示例和 Dropout 掩模取期望,我們將其記為:其中,代表 dropout 掩模,F 代表模型,l 代表損失函數。顯然,這與最原始的損失函數 L(F)是不同的,其中 L(F)代表標準訓練目標的群體樣本損失(population loss)。Ldrop(F)和 L(F)之間的差別被稱為顯式正則化,因為當我們使用 Dropout 時,我們實際上優化的是 Ldrop(F)而不是 L(F),這種差別可以被用作一種正則項。然而,故事到這里并沒有結束,你需要使用專門優化了 Ldrop(F)的
86、Dropout 方法,如果你使用其它任意的方法來優化 Ldrop,你的模型泛化能力可能會較差。這說明 Dropout 中的噪聲也起了很大的作用,它們不僅僅改變了損失函數,還在優化過程中引入了一些零均值隨機性,而這改變了隱式偏置。49五、噪聲協方差的隱式正則化效應至此,我們簡要地舉出了幾個關于優化器的隱式偏置的現有工作的示例。接下來,我將談談我的新工作:來自噪聲協方差的隱式正則化效應。優化器中的噪聲協方差在隱式正則化中也起到了很重要的作用,我們將試圖理解怎樣的噪聲會對于提升模型泛化能力起到正向的作用,并探究其背后的原因。下面,我們首先介紹一下該研究的背景。根據經驗,我們認為驗證誤差越小越好。眾所
87、周知,當我們使用完整的 batch 進行訓練時,我們使用的是完全的梯度下降,我們將無法進行隱式正則化,模型的性能將會很差。從很多論文中我們都可以看到,如果我使用完整的 batch 進行訓練,我們必須通過一些額外的方法來提升 full batch 梯度下降的泛化性能。圖 5:噪聲協方差我們知道,解決該問題的方法之一是:在梯度中引入額外的噪聲。Mini-batch 隨機梯度下降算法(原始的 SGD)就是實現這一思想的具體的一種方法。如果我們將這種噪聲加入到完整梯度中,就可以得到更小的泛化誤差。如果引入人們在分布式計算領域使用的標簽噪聲(Label Noise)技術,也可以得到與 Mini-batc
88、h 方法相近的性能。然而,如果我們向 full batch 梯度中加入了一些錯誤的噪聲(例如高斯噪聲),那么可能我們無法獲得性能的提升,或者提升幅度很?。ㄟ@取決于你如何對高斯噪聲的權重進行調優)。圖 6:噪聲協方差對驗證誤差的影響50圖 6 顯示了一個我們在 CIFAR-100 數據集上做的實驗,y 軸代表驗證誤差(越小越好),x 軸代表訓練的迭代次數。我們嘗試使用了很多種算法,使用了較大 batch 規模的算法(對應于圖中的 large batch)性能較差,我們用它來代表使用完整 batch 時的情況(因為使用完整 batch 的運行時間過長)。我們可以看到使用較小 batch 的smal
89、l batch(黃色曲線)和使用標簽噪聲的label noise(綠色曲線)時,模型的泛化誤差要比使用large batch時好很多。如果我們在large batch的情況下加入高斯噪聲,泛化誤差將減小 1 個百分點左右。而,使用small batch或label noise時,模型性能將相較于使用large batch時提升至少 10 個百分點。這個實驗說明,特定的噪聲協方差確實對模型的泛化誤差有影響,但高斯誤差似乎作用并不大。接下來,我們將研究為什么會出現上述情況。我們知道研究深度學習是十分困難的,其中有各種各樣的非線性變化。因此,在這里我們使用了一個簡化的模型來研究噪聲的影響。該模型由
90、Vaskevicius 和 Woodworth 等人于 2019 年提出,并用于研究學習率、噪聲等因素對隱式正則化的影響。圖 7:研究噪聲協方差的簡化模型在這里,我們將這個簡單的模型重參數化后用于了線性模型。當然,你需要將這種線性模型的情況推廣到非凸函數的情況下,這樣你就可以看到隱式正則化的作用。假設,該模型的輸入是一個采樣自球形高斯函數的 d 維向量 x Rd;輸出是關于 x 的基本線性函數,記作*y,vvx=e。其中,v*是一個代表真實值(ground truth)的向量,e代表點乘(element-wise product)。將*vve的結果與 x 做內積,從而得到輸出 y。與對真實值的
91、假設相同,在參數化的過程中,我們使用了參數 v,而模型的輸出為(),vfxvv x=e。當 v 與 v*相等時,我們就早找到了最優解。在這里,我們假設發生了過參數化現象,我們假設數據點 x 的維度 d 要遠大于樣本的數量 n,我們沒有足夠的樣本量來學出較好的參數 v。此時,我們就需要依靠隱式正則化技術去學習真實值的參數。同時,我們還假設真實參數向量 v*是r-稀疏(r-sparse)的。51從信息論的角度來說,你可以使用這種信息去學習真實參數。但是在算法中,我們并不會使用任何的正則化技術。所以,我們可以使用不同的參數化方法,例如,令uvv=e,對于一個 u 的線性函數而言,我們可以使用 Las
92、so 方法找到可行的稀疏解。然而,此時的關鍵之處并不在于找到最佳的方法求解問題,而是認識到我們可以通過一種簡單的模型理解算法的隱式正則化。如果我們不加任何的正則化處理,而在 v 的空間中使用這種標準的 L2 損失,你會看到一種非常相似的現象:使用標簽噪聲或 mini-batch 噪聲比使用高斯噪聲或不適用噪聲的泛化性能更好。而這正是我選擇這種簡化模型研究噪聲協方差的原因。下面我們將重點討論這一現象。六、當噪聲被引入優化器經驗損失 L(v)是一種標準的 L2 損失,顯然 L(v)中并沒有正則項,該損失有很多的全局最小值點,x 的維度要遠大于樣本量,自由度很大。圖 8:帶有各種噪聲的正則項圖 8
93、中的梯度下降指的就是標準的梯度下降算法()vvL vh。而 SGD 則是我們取()()()()iivyfx,計算出其梯度,用()()()()2iivvvyfxh 來更新 v。而我們都可能對標簽噪聲很熟悉,此時我們引入了一個具有零均值的隨機變量,將其與標簽 y(i)相加,計算出其梯度后,通過()()()()2iivvvyfxhx+更新 v。對于噪聲的影響是二階的,但是如果我們在此使用的是其梯度,那么 的影響就是一階的。所以這個帶有噪聲的損失函數的梯度實際上仍然是真實梯度的一個無偏估計量。52為了對比,我們也考慮了向 SGD 加入球形高斯噪聲/郎之萬動力學的情況。在這里,我們需要做的是,我們取完整
94、的梯度,然后向其中加入球形高斯噪聲(與之前的 不同,這里的 是一個向量),通過()vvL vhx+更新參數 v。以上這些算法更新的損失函數的梯度都是對梯度()L v的無偏估計。所以,這意味著它們都可以解決訓練中存在的(隱式偏置)問題。然而,你仍然能看到,在許多情況下,以上的算法的泛化性能是不同的。下面我們將展示我們主要的理論研究成果,它們展現了我們前面討論的各種優化算法的性能。假設 n 遠大于 r2但是遠小于 d。這意味著我們面臨過參數化的情況,但是我們有 n 遠大于 r2。所以從信息論的角度來說,我們可以恢復出真實值(ground truth)。之前的一些研究工作介紹了這種研究梯度下降的模型
95、。它們研究了不同的初始化情況,以及這些初始化情況下的隱式偏置。眾所周知,如果你使用較大的初始化寬度和足夠小的學習率,那么通常而言,你所做的事情基本上與神經切線核(NTK)類似。這意味著,以試圖在核空間(kernel space)中尋找最小范數解。在這種情況下,如果你使用較大的初始化寬度(CNN 中卷積核的通道數,或者 FC 層的神經元數),會發生過擬合現象,這是因為你沒有足夠的數據。而當 n 的階為 O(d)時,核函數的泛化能力可以得到提升。而如果我們使用極小的初始值,我們可以恢復出真實值(ground truth)。使用較小的初始值往往會得到較小的范數解。接下來,我們將討論帶有標簽噪聲的 S
96、GD 優化器。當我們使用帶有標簽噪聲的 SGD 方法時,無論初始值如何,使用該優化器優化的參數都會收斂到真實值 v*上,這意味著這種方法對于較大的初始值并不敏感。即使我們使用較大的初始值,噪聲會幫助我們降低解的范數,v*會收斂到稀疏的解上,這對于數據來說是過擬合的。另一方面,加入我們并不使用標簽噪聲,轉而使用帶有高斯噪聲的 SGD(郎之萬動力學)??梢哉f明,郎之萬動力學并沒有一個具備有限配分函數的固定的吉布斯分布,這說明這種分布并不存在,因為配分函數并不是有限的。因此,郎之萬動力學并不會收斂到一個固定的分布上。在這里,帶有標簽噪聲和高斯噪聲的 SGD 方法形成了對比。加入了標簽噪聲的 SGD
97、往往會收斂到真實值的稀疏解 v*上,而帶有高斯噪聲的 SGD 則不具備這一性質。而我們沒有分析 mini-batch SGD 和原始的 SGD 的原因是,它們對初始化非常敏感,這會使得分析十分困難。如果我們恰巧在初始情況下陷入了過擬合解,那么 SGD 算法則不會在損失函數上移動。從某種程度上來說,標簽噪聲要比 SGD 噪聲更好一些,因為即使我們應陷入了過擬合狀況,也可以得到一些噪聲。標簽噪聲和高斯噪聲的對比說明噪聲協方差確實很重要,接下來我們會討論為什么它之所以重要的原因是什么。53圖 9:帶噪聲 SGD 的仿真實驗在進行理論分析之前,我們先迅速地來看一下對于這個簡化案例的仿真實驗,從而證明我
98、們的理論描述/理論結論與實證研究觀測結果相符。如上圖所示,通過運行上述的算法,我們可以看到,帶有標簽噪聲的 SGD(綠色曲線)或 mini-batch SGD(黃色曲線)確實對于性能提升有所幫助,它們的泛化誤差均收斂到接近于 0 的值,而此時帶有標簽噪聲的 SGD 的泛化性能比 mini-batch SGD 還要更好。另一方面,如果我們不使用噪聲(fb)或使用高斯噪聲,會發生顯著的過擬合現象,測試誤差會很高。如果我們使用較大的高斯噪聲,泛化誤差會立刻爆炸式增長;而如果我們使用較小的高斯噪聲,在迭代初期似乎相較于 fb 并沒有太大的影響,但最后當郎之萬動力學中的因素相互作用(mixing,微小的
99、誤差在長時間的過程中可能被不停積累和放大)時,泛化誤差也會爆炸增長。對于以上所有算法而言,它們的訓練誤差都可以收斂到很小的值上,但是其測試誤差卻有時很大,這是一個重要的泛化問題。七、研究動機與理論分析關于為什么這些算法會有區別的問題,根據直覺,傳統的看法是:SGD 往往會找到最平坦的局部最小值。我始終認為這種看法是正確的,它在所有的情況下都起到了很重要的作用。例如,在加入高斯噪聲的情況下,郎之萬動力學會收斂到吉布斯分布上。隨著郎之萬動力學中的溫度 T 收斂到 0,郎之萬動力學算法可以被支撐在全局最小值的流形上。在下圖所示的簡單的可視化結果中,白色的明亮的部分就是全局最小值。54圖 10:SGD
100、 會找到最平坦的局部最小值現在的問題是,如何在溫度趨向于 0 的過程中度量全局最小值的流形。根據郎之萬動力學的定義,吉布斯分布將更多的質量分配在最平坦的全局最小值處,在本例中這一點就是 v*。那這樣做為什么不起作用呢?事實上,所有其它的全局最小值都要比 v*處的全局最小值在流形上更加尖銳,而這樣尖銳的性能很差的全局最小值點太多,他們都會導致流形的尖銳度(sharpness)增加。所以,有時我們的算法會收斂到這種尖銳的全局最小點上,這會導致在迭代訓練的過程中泛化誤差爆炸增長。而另一方面,為什么在 SGD 中加入標簽噪聲是有效的呢?在本文中,我們指出存在另一個隱式偏置的源頭:SGD 也偏向于找到具
101、有較小噪聲的局部最小值點。在使用高斯噪聲時,這種情況是不存在的,因為那時每一點上的噪聲是相等的,即使算法試圖收斂到最平坦的局部最優解,也不會偏向于收斂到具有較小噪聲的局部最優解。我們認為,當我們使用帶有標簽噪聲的 SGD 時,存在兩個隱式偏置的源頭:(1)曲率(2)噪聲大小的變化。在本例中,以上兩點足夠使我們收斂到真實值處,但是只有曲率是不夠的。因此,與其它的全局最小值點相比,v*不僅僅是最平坦的,也具有較小的噪聲。此時,標簽噪聲可以寫作:根據上面的公式,我們可以看出標簽噪聲不僅僅取決于數據的規模,也取決于參數的規模。標簽噪聲的大小與參數規模的大小成正比,這也正是 v*的噪聲在所有的全局最小值
102、最小的原因。以上是我們最主要的研究直覺,我也介紹了我們如何對算法之間的差異進行分析、如何形式化定義這個問題、如何對其進行數學證明。我們發現,在前文中,標簽噪聲在某種意義上類似于一種乘性噪聲。下面我們將展示一個簡化的場景,其中我們只考慮 1 維的隨機游走,并不涉及任何梯度。你可以對一下的兩種情況進行對比:(1)高斯噪聲(2)乘性噪聲。其中,高斯噪聲指高斯噪聲隨機游走(一種布朗運動)。標簽噪聲對應于乘性噪聲,其噪聲的大小與55參數相關。對于高斯噪聲而言,我們在每次更新 v 時,加上一個 ;對于乘性噪聲,我們在每次更新 v 時,加上一個 v。這里的差別是:如果 v 很小,那么你將得到一個較小的乘性噪
103、聲,但高斯噪聲則不會受影響。在上圖中的軌跡圖中,高斯噪聲(藍色曲線)的 v 會增長,它可以由布朗運動預測得到。當我們使用乘性噪聲(黃色曲線)時,盡管曲線也有所波動,但是隨著隨機游走步數的增加,它會收斂到 0。有趣的是,這兩種隨機游走的均值都是 1,而它們的方差都會增長。盡管方差不斷增大,但是對于乘性噪聲來說,v 有很大的概率收斂到 0。另一方面,對于高斯噪聲來說,它的方差、v 都在增長。為了對乘性噪聲進行證明,我們使用的證明方法是:選擇一種勢函數(potential function),它在-C,C 的區間內是非負的凹函數。這一方法也同樣適用于高維空間的情況。首先,我們的隨機游走不會超出-C,
104、C 的范圍。隨著我們進行這種乘性隨機游走,勢函數逐漸減小。在這里,我們寫出更新后的勢函數的期望的泰勒展開式:在泰勒展展開式()()2 2vvvffh+EE中,由于第一項是零均值項,它可以被消掉。而在第二項中,由于勢函數是一個凹函數,(v)為負。所以第二項對于整體期望的貢獻是負的,隨著我們進行隨機游走,勢函數會遞減。實際上,不僅僅勢函數會遞減,隨機變量很可能也會遞減,v 有很大概率會收斂到 0,v 確實偏向于收斂到噪聲最小的點上。請注意,這種證明方法并不適用于高斯噪聲隨機游走,上面的不等式此時就不成立了,因為我們無法將高斯噪聲限制在區間-C,C 內,我們無法在實數域上找到合適的全局非負凹勢函數。
105、總而言之,噪聲協方差確實對隱式正則化有很大影響,而 SGD 偏向于收斂到具有較小噪聲的參數上,而不僅僅偏向于流形上較小的曲率。我們提出一個開放性問題:我們是否能夠理解 mini-batch SGD?正如前文所述,此時最大的難題是:如果我們剛好進行了錯誤的初始化,或者在算法進行的過程中我們剛好陷入了過擬合現象,噪聲突然變為 0,此時損失就不會改變。這會使我們非常難以進行進一步的分析,所以我們對于初始化是非常敏感的。因此,我們需要說明這種算法在使用隨機初始化的情況下不會非??斓厥諗康侥骋稽c。如果收斂過程非???,那么噪聲就會迅速減少,算法就會失效。以上就是我針對隱式正則化展開的討論。八、顯示正則化解
106、耦統計數據與優化方法的另一個視角最后,我想從另外的一個視角來談談如何通過研究顯式正則化將統計數據和優化方法解耦。這與我們之前討論的的內容有很大的區別。56圖 11:顯示正則化解耦統計數據與優化方法的另一個視角從某種意義上說,經典的方法的性能仍然是很理想的。它們可以很干凈地區分對于統計數據和優化方法的分析。但是在深度學習時代,所有的事情都變得非常復雜,我們需要同時考慮統計數據和優化方法。將統計數據和優化方法解耦的方式之一就是,使用新的算法,因為現在的算法將兩者混合了起來。而我們可以通過顯式正則化技術對其進行解耦。當我們考慮統計數據時,我們需要設計損失函數,而在使用現在的算法時,優化方法有兩個功能:(1)最小化損失(2)給出正確的對于簡單模型的偏置/正則化過程。然而,如果我們將(2)的工作更多地轉移到對統計數據的處理過程中,那么我們就可以減輕優化方法的負擔。我們希望,假如我們有一個很強的正則項,那么這個正則項就有可能控制算法的偏置。我們就不需要過度依賴于算法的偏置,從而進行正則化。這些正則項試圖替代隱式正則化過程,他們也可以在隱式正則化效果不佳的情況下更好地起作用。例如,對于不平衡的數據集來說,隱式正則化并不能讓模型得到很好的泛化性能,我們需要采取一些更為主動的行動。