21全體大會.pdf

編號:111497 PDF 35頁 3.03MB 下載積分:VIP專享
下載報告請您先登錄!

21全體大會.pdf

1、 1 21全體大會 2 圖靈研究所數學家 Terry Lyons:簽名與數據流數據科學中的新數學整理:智源社區 羅麗在 2020 北京智源大會第二次全體大會上,圖靈研究所數學家 Terry Lyons 介紹了數據科學中新的研究領域“Signatures and Streamed Data”,即簽名和流數據。他的演講題目是:Mathematics of rough paths action recognition and health(粗糙路徑的數學動作識別與健康)。在演講中 Terry Lyons 表示,“粗糙路徑理論”是數學中一個新領域,而“路徑簽名”是一種新的數學工具,它為傳統的機器學習的

2、研究提供新思路,以更好地“理解”演化數據流?!按植诼窂嚼碚摗钡哪繕耸情_發一個強大的數學框架,以系統地理解不斷演化的多模數據中的模式,并對這些模式進行分類,用于構建 PyTorch、TensorFlow 等的工具,以便從多模流中學習。最后,他分享了數據流和簽名在精神病學、阿爾茲海默病等智能治療研究中的重要意義。Terry Lyons:牛津大學 Wallis 講習數學教授,英國牛津大學數學學院教授,Alan 圖靈研究所研究員,國際知名數學家,曾任倫敦數學學會主席,英國皇家學會院士,國際數理統計學會會士,2000 年獲得 Polya 獎。主要研究領域為:隨機分析、粗糙路徑,隨機分析在金融大數據上的應

3、用。正文:數學在我們的世界中具有重要影響,而數據科學為我們提供了了解數學和了解世界的窗口,它對人們看待問題的方式也會產生重要的影響。粗糙路徑是用于處理復雜演化系統的數學語言。在我們所處的真實世界中,存在著很多演化現象,比如人類行為的演化。為什么演化意味著某種事物會隨著時間而變化?實際上,理解如何能夠自動地識別行為是非常重要的,而這種研究可能是人類行為的研究。圖 1:人類行為 3 在觀看以上圖像時,我們可能會想到兩個完全不同的問題。一是識別圖中事物,比如,識別圖中所有的樹、人等,這是一項非常成熟且非常重要的研究內容,而另一個讓 Terry Lyons 真正感興趣的研究,是了解圖像中事物變化的方式

4、,這是一個非常不同且具有挑戰性的研究內容。即使是一個很小的群體,例如小于 9 的數字,當我們按順序進行研究時,產生的可能性遠遠大于我們所能考慮到的對象的數量?!按植诼窂嚼碚摗笔且粋€新的數學研究領域,也是數學的一部分,它是我們理解高度復雜理論演化數據的框架,經過 20 年的發展,現在已經發展地相對成熟,且具有一定的影響力。粗糙路徑理論在數據科學中的早期應用實際上是由 Facebook 的 Ben Graham 提出的,Ben Graham 在研究理解在線中文筆跡時,運用了粗糙路徑理論中的一些技術來改進他的研究分析,并獲得成功。圖 2:在線中文筆記 APP之后,科學家們試圖將其設計為圖中所示的 A

5、PP(應用程序),它能夠翻譯數十億的字符,在經過一段時間的吸收發展之后,得到了良好的運用效果?!奥窂胶灻蹦軌蛞酝ㄋ滓锥姆绞较蛭覀兘忉專簽槭裁此芨嬖V我們一些重要的事情;數據科學為什么能夠改變我們處理某些問題能力。Terry Lyons 通過介紹幾個可訪問的應用程序,使我們對復雜順序數據有所了解,他表示可以通過使用靜態圖像,成功地抽象出一個場景,并使用開放式或阿爾法式(例如地標位置)的地標,使我們能夠理解一個人在做什么。通過圖像,所有人都可以理解火柴人的行為代表人類行為。而火柴人是如何運動的呢?問題的關鍵是,它不再是一個人,而是一系列的位置。人的左手腕、右手腕、肘部、腳,以及所有的部位都被賦

6、予了一個值,而實際上,這個值是它們在平面上的位置。因為是在圖像中,所以圖像中的參數也同樣有效。所以,實際上我們將獲得一系列標簽,該標簽具有附加的向量。在案例中,是在中等 4 高維空間中得到這些路徑的,在這種情況下,可以得到每個標簽的真實尺寸,因此,可能有 30 或 40 維路徑,而目標是嘗試從這 40 維路徑中了解正在發生的事情。有人可能認為,可以通過深度學習理解,在某種程度上是可行的,但研究的挑戰在于,需要通過相對較少的數據、樣本,和具有一定解釋性的方法來獲取數據,結果證明數學可以做到這兩方面。使用相對較少的樣本進行工作的能力極大地增加了使用這種方法的用戶范圍。因為在在心理研究、社會科學和公

7、共政策等的研究中,我們一般無法獲得巨量的數據集。那么,“流數據”和“路徑簽名”中真正的挑戰是什么?在日常生活中,流數據到處都有,可能是手指在手機屏幕上畫出來的,可能是金融市場中的事件,可能是一本書、一段文字的順序,也可能是醫院的病歷,到最后甚至是不斷變化的人類情緒。人們通常的想法是,把流數據看作的一系列的值,但這不僅需要時間,而且可能會出現“這個 3 可能會被看作是那個 3”的情況。Terry Lyons 表示,流數據在某種意義上是一條曲線,很可能它一開始是以時間的形式顯示的,但有一點很重要,就是這條曲線的本質和繪制這條曲線的速度無關。曲線的本質是它和形狀有關。實際上,它是一種對稱曲線,采樣數

8、據并不會改變它的本質,就像旋轉某個人的臉,我們并沒有改變他的臉,而是改變了代表它的數據。對稱性對數據科學來說是一個非常不好的消息,對稱意味著可以有很多種方法來表達數據所代表的內容,但就其本質而言,數據所表達的內容都是相同的。所以必須教機器去識別數據。如何來識別數據?這就需要簽名來迫使他們采用某種正常的方式來識別數據。比如,在所有地方查找某個詞,機器可以一次又一次的辨認出這個詞。Terry Lyons 表示,“實際上,這是可以克服的挑戰,這是本次演講的本質”。圖 3:字母“3”的不同描述方式圖(a)是字母“3”從頂到底的繪制圖,圖(b)和圖(c)是字母“3”的為 2 條數據記錄路徑,圖(b)中的

9、實線是演化的象征性符號相對于時間在不同速度下繪制的 x 坐標,圖(c)中的實線是演化的象征性符號相對于時間 5 在不同速度下繪制的 y 坐標,虛線是經典的 ML 方法繪制的圖像。虛線和實線分別對應不同版本的 3,即相同的3 在不同速度下的參數表示。因此,真正的挑戰是,盡管數據看起來完全不同,但有多種不同的方法可以來表達同一件事,這對于流數據來說是完全支持的,幾乎所有的流數據都沒有特別規范的權限,在同一個地方有各種不同的數據,有時候數據在不同的地方是有規律的,比如,人們會在不同的時間進入某個場所,這是流數據一個非常普遍的特性,也是一個壞消息,因為參數的空間是變化的,不是 3 維的,甚至不是 2

10、維的,例如旋轉。因此,具有高維對稱性的數據集將破壞數據的種類,也會使得數據難以理解。與所具有的觀測數據的數量相比,高維對稱性將導致數據的變量太多,出現的可能性也會很多。只有一個平滑的數據也是處理數據必不可少的挑戰。但如何從本質上解決這個問題?Terry Lyons 表示應該提供一個更好的特征集,用更好方法來描述這些對象,這就是演化序列,演化序列是一個非常普遍、非?;A的數據描述方法。事實上,演化序列能夠消除對采樣速度的依賴,但這并不意味著我們可以忽略時間,時間可能也很重要,研究人員也可以將事件視為另一個維度,一組不斷變化的變量,可以在圖像中及時添加。添加時間后會出現兩個不同的問題:一是,在一定

11、條件下數據的不變性,如每秒觀看幾幀視頻并不會真正改變視頻;另一個是時間的變化可以改變一切。但它們是不同的概念,這里真正談論的是重采樣下的不變性。那么,如何在數學上描述非參數化路徑?演講中,Terry Lyons 表示,可以用多維路徑對某些非線性系統的影響來描述該多維路徑。用 dS=Sd 的前幾個術語描述。路徑簽名描述了未參數化的流u,v,簽名是非參數化路徑的自上而下的描述,它是通過 Su對程式化非線性系統的影響描述路徑段消除無窮維不變性,從而可以使用更小的學習集進行預測和分類,并給出與樣本點無關的固定尺寸特征集(不會丟失數據,不會發生各種參數設置)。簽名也是描述非參數流的通用特征。流在 I=s

12、,t 上的簽名,定義為這些“傅里葉式”系數準確地描述了未參數化的流。簽名的精妙之處在于它們能夠對正在發生的事情給出完整的描述,它們能將數據流轉換為關于系統效果的完整描述。圖為兩個具有不同計算方式的手寫“3”的例子,它們包含很多不同的簽名,也包含了曲線的信息。6 圖 4:兩種不同計算方式的手寫“3”的例子取兩個“3”的不同參數,然后在整個過程使用傅立葉級數,因為傅立葉級數可以測量隨時間間隔發生的事和發生的不同事情,而簽名和日志簽名不會改變,這是一種更有效的、完全不同的思考信息流的方式。實際上就像一個特征集本身不一定能出色地工作但它可以增強其他方法一樣,所以,這種方式將依賴于深度學習、隨機森林等其

13、他工具。圖 5:路徑簽名在手寫文字識別中的作用粗略路徑的流數據中流的種類很多,現在已經可以將視頻縮小為地標和姿勢,火柴棍所代表的男人和女人都是具有 30-75 維的數據流,但仍然需要獲取有意義的數據,考慮時間的轉移和速度變化。7 圖 6:粗略路徑流數據的應用之前的研究,是嘗試用小的數據集以及用戶不需要參與的方式來了解人們在做什么,研究人員可以通過圖像識別來研究圖像并計算出身體的不同部位分別在什么地方。而真正讓 Terry Lyons 感興趣且具有廣泛應用的是,機器如何理解人們在做什么。所以,實驗的目標是,嘗試從人的姿勢中識別動作。圖 7:根據 RGB 數據和地標數據進行動作識別 8 圖 8:“

14、高爾夫運動”動作識別圖 8 的動作識別,實際是一個二維空間中的路徑識別,路徑的數量是地標數量的兩倍,圖中大概有 15 個地標,也就是一個 30 維的空間,機器可以識別這 15 個 2 維向量和一個 3 維空間所對應的值,這樣就可以對抽象路標進行分析,同時能夠很好的識別人類的動作。以下為“路徑簽名”與其他方法的精確度對比結果。圖 9:精確度結果對比實例之后,Terry Lyons 介紹了關于社會數據的研究。在牛津精神病學臨床實驗中,研究人員研究了“Triaging BP BP&N on the basis of mood zoom”,即情緒縮放對 BP、BP 和 N 的分類,臨床試驗中,每天從三

15、組人群(一年共 130 人)中獲取具有不同確診情緒的心情縮放數據,包括躁郁癥、邊緣型人格障礙或健康控制(數據有噪音 9 或丟失)。這些情緒數據被分為 20 個連續反應動作,在這些事件的訓練中,使用具有二階簽名特征的隨機森林分類器,實驗時使用一次交叉驗證能夠在三組數據中心獲得的很好分離結果。而二階信息也很重要,對于給定樣本量的情況下,簽名對于控制尺寸至關重要。圖 10:被診斷患有躁郁癥的參與者的焦慮評分演變使用低維特征捕獲的高階信息(抑郁之前的憤怒)可以在頻譜上進行分類。該項目是在 ATI 上展示并可以復制的三個項目之一。圖 11:在 ATI 上展示 的情緒演變Terry Lyons 認為,在多

16、次使用數據時,要了解數據出現的復雜狀態演變方式,找到一個好特征值,以了解事情發生的順序,并從數據中得到有用信息。他也表示在“中文手寫”、“動作識別”、“阿爾茲海默病”、“復雜社交數據”等的研究中,利用數學具有重要意義,數據流還有很多理論方面的研究,比如,一些研究主題受到日志簽名的影響,這些都是具有數學意義的。10 MIT CSAIL 教授 Regina Barzilay:學習分子的表征整理:智源社區 熊宇軒在本屆智源大會上,來自人工智能研究重鎮 MIT CSAIL 的 Regina Barzilay 教授為聽眾帶來了題為學習化學結構的主題演講。Regina 教授高屋建瓴地從虛擬篩選和全新藥物設

17、計兩個方面對機器學習在藥物發現領域的應用進行了概述,并重點介紹了表征能力、泛化性能、不確定性估計、機制理解這四個關鍵問題。Regina 教授指出,目前該領域仍然存在巨大的研究空間,期待更多計算機科學家加入到這一方興未艾的領域中來。以下為智源社區整理的演講全文:本次演講將介紹如何學習化學結構。我本人原本從事的是自然語言處理(NLP)領域的研究。大概五年前,我和 MIT 的另一名教授 Tommi Jaakkola 遷移到了對化學(分子)結構建模的新研究領域中。本次演講向大家展示的內容涉及到 MIT 的一個大研究組的多項工作,我想特別強調的是,其中很多杰出的工作都來自于 Wengong Jin,他是

18、我們研究組從事這方面研究的第一個學生。一、基于人工智能的藥物發現圖 1:機器學習+化學領域在人工智能頂會上的論文發表趨勢接下來,我們將討論如何將化學和機器學習相結合。很多人對機器學習在計算機視覺、自然語言處理等領域中的應用非常熟悉,但是化學是一個完全不同的領域,將機器學習應用到化學領域,仍然是一個新的研究課題。11 圖 2:虛擬篩選與全新藥物設計分子建模對于制藥、材料設計、化學領域的從業人員來說都是非常必要的。但直到今天,絕大多數的分子發現都是由實驗驅動的,研究人員不斷對數百萬種分子進行不斷實驗,從而確定它們的性質,最終只能憑借偶然和直覺來發現某種特定性質的分子。即使這樣,我們也只能探索其中極

19、其小的一部分。那么能否通過研發強大的機器學習模型,從中預測出符合要求的分子,而不是盲目地進行代價高昂的實驗呢?答案是肯定的。通常,此類工作可以被分為兩種路線:(1)虛擬篩選。給定各種各樣的分子,然后用模型預測出那些高概率會具備某種特性的分子;(2)全新設計(de-novo design)。這是一種藝術!盡管我們已有大量的分子可供選擇,但我們要意識到,在這些分子之外,仍存在很多其它可能,所以我們在現有分子之外,也應當設計一些符合特定要求的全新的分子。本次演講將圍繞以上兩個方向展開,大家也可以將虛擬篩選看做一種判別任務,而將全新藥物設計看做一種生成任務。圖 3:MIT 基于虛擬篩選技術發現新型抗生

20、素Halicin 12 首先介紹一下我們使用虛擬篩選技術,找到的一種名為Halicin的抗生素。相關成果已發表在國際頂尖生物學術期刊Cell上。這種分子的特別之處在于:它可以治療由多種對傳統藥物產生耐藥性的病原體引起的病癥,更值得注意的是,這種特殊的分子有著一種全新的生物作用機制。圖 4:抗生素發現的研究歷史回顧抗生素發現的歷史(如圖 4 所示),盡管病原體有著越來越高的耐藥性,很多人因為缺乏有效的抗生素而死亡,但在過去的 30 年間,人類發現的新抗生素越來越少。主要原因在于,研發成本越來越高。圖 5:通過機器學習重新思考抗生素設計的動機 13 我們通過機器學習的方式先進行分子篩選,找到候選分

21、子,然后再進一步測試它們的功效,這種方式則可以大大降低研發的成本。例如在 Halicin 的發現中,我們選取了某種模型,訓練它,然后在實驗室中對其進行活體動物測試。圖 6:任務設定與數據集構建具體而言,我們在該任務中生成訓練數據的方式和我們在自然語言處理領域、計算機視覺領域中獲得訓練數據的方式是不同的。我們首先選取受到細菌感染的細胞,將某種分子與該細菌放到一起,查看它會不會抑制細菌的生長。因此,如果我們想要獲得包含 2,500 個分子的訓練數據集,他需要選取 2,500 個細胞,分別施加不同的分子,然后看看會得到怎樣的實驗結果。圖 7:實驗結果 14 最終,我們會得到一個表示分子結構的二維圖,

22、以及一個表示該分子對目標病原體殺滅作用大小的數字。圖 8:學習抑制病原體生長的情況接下來,我們可以訓練機器學習模型,在給定分子及其活動的情況下,預測分子對于病原體的抗菌活性。我們使用給定的數據集進行訓練,該數據集包含分子的結構,以及它是否有抑菌作用的標簽(1 代表有抑菌作用,0 代表沒有抑菌作用)。當我們向訓練好的模型輸入一種新的分子時,模型可以預測出其抗菌活性有多大。圖 9:Hacilin 對兩種之前無法治療的病原體起作用 15 如上所述,我們所進行的是繁重的篩選工作,我們在數億種分子上運行我們的模型,找出具有良好特性的分子,接著在實驗室中的動物身上測試這些分子。實驗結果證明,我們的模型找到

23、的分子對兩種目前尚無法治療的病原體有很好的抑菌作用。正如大家已經看到的,這些模型可以為藥物發現任務帶來很多的好處。那么,我們應該如何使用目前所掌握的方法讓這一過程變得更好?也就是說,人工智能(AI)將如何改變這種游戲?圖 10:固定的人工分子表征早在 1970 年代,人們就開始嘗試在化學領域應用人工智能技術。給定分子的二維圖,我們如何將其中的信息歸納到一個特征向量中,進而利用該特征向量執行我們的機器學習任務?分子指紋(molecular fi ngerprint)是實現上述目標的經典方法之一。給定一個分子的二維圖,我們將這個圖歸納為一個特征向量,向量的每一維坐標都代表一種特定的化學子結構(例如

24、,環)。那么,我們如何決定應該使用怎樣的子結構?哪些子結構更加重要呢?這時,我們就需要使用一些化學的專業知識,確定分子中有哪些重要的子結構。很顯然,這是十分困難的。因為,在我們考慮不同的特性(例如,活性、毒性)的時候,我們需要考慮不同的子結構的集合,而這方面有很多知識是尚不明確的。圖 11:基于機器學習的分子表征 16 解決該問題的一種新的思路是:給定某種分子,使用神經網絡學習將分子的二維圖壓縮到一個向量中,而不是使用固定的人工設計的表征,我們可以使用生成的向量預測分子的活性。從積極的一面看,我們可以根據期望預測的特性類型,將分子歸納到通過不同的向量中。但是從另一個消極的角度來看,我們損失了可

25、解釋性,我們無從知曉每一個坐標所對應的意義。但是我們并不關心這些坐標的意義,只需要使用該向量進行預測。在后面的演講中,我們將通過實例向大家更詳細地介紹構建這些表征的細節。在這里,我們將先為大家提供一個有關分子表征的高屋建瓴的概覽。我們的期望是,給定分子的二維圖,我們將其抽象到一個高維空間中,這種高維空間需要擁有正確的幾何性質(即擁有相似的溶解性等特性的分子在該空間中距離較近,而擁有不同特性的分子之間的距離則較遠)。圖 12:理想的平滑潛在嵌入空間換而言之,我們假設分子在嵌入空間中的距離可以體現出其特性之間的差距。而關鍵在于,如何將分子抽象到這種嵌入空間中,使上述聲明成立。17 圖 13:公開的

26、 Chemprop 系統我們構建了一個名為Chemprop的系統,它被制藥行業以及許多其它的論文廣泛使用,目前已經可以公開獲取。去年,我們撰寫了一篇名為Analyzing Learned Molecular Representations for Property Prediction的論文,針對化學研究社區面臨的窘境,說明我們學習到的分子表征要優于人工設計的分子指紋。這是因為,每個公司都有自己的分子指紋,那些對使用這些指紋非常有經驗的人可以做得更好。在這份工作中,Kevin Yang 和 Kyle Swanson 進行了 850 次實驗,我們說明學習到的分子表征整體上表現得更好。我們也可以使

27、用一種混合的架構,同時使用學習到的表征和分子指紋(尤其實在較小的數據集上)。實際上,在本次演講之前,清華大學和騰訊公司在 Arxiv 上發表了它們最新的研究論文Multi-View Graph Neural Networks for Molecular Property Prediction,它們通過改變神經網絡的架構取得了更好的性能。圖 14:分子特性預測建模領域的開放性問題 18 盡管通過改變網絡架構取得性能提升也是相當重要的,但是在本次演講中,我將更多地介紹該領域中一些有待研究的問題,目前整個研究社區還很難提出有效的解決方案。首先,我們將討論表征能力(Representation Cap

28、acity)。這些二維圖實際上表征了分子的一些信息,如今很多研究人員使用圖神經網絡對其進行表征,那么這是否是正確的前進方向呢?二、表征能力圖 15:圖卷積初始化讓我們看看研究人員可以如何使用圖卷積技術,實際上所有此類模型都會以各種各樣的方式使用圖卷積的思想。首先,我們將分子視為一種原子的組合,并且將每個原子表征為一個向量。該向量中各個維度上的值是固定的,它們分別表示原子的類型、度、是否在環結構中,等等。以上特征是通過對原子進行簡單的計算得到的。圖 16:局部信息聚合接下來,在圖卷積網絡中,我們往往會開始進行消息傳遞(message passing)。給定某個原子及其鄰居節點的向量,我們試圖學習

29、如何將它們的向量結合起來,從而優化我們最終的預測結果。在 1 跳鄰域內執行這種消息傳遞機制后,我們不僅知道該原子本身的信息,也考慮了所有與其緊鄰的節點的信息。如果我們繼續執行這種 19 消息傳遞,由于所有的原子都會同時更新信息,最終 2 跳、3 跳甚至更多跳之內的信息都會傳遞給當前節點。在該過程結束時,所有的原子都會保留其周圍局部的環境信息及其自身的特征。圖 17:重新思考分子表征在這里,有趣的事情發生了。每個原子都有其自身的特征向量,在經過圖卷積后,我們如何利用這些原子的表征得到分子的表征?有趣的是,在本例中,我們直接將這些原子的表征相加,并將其作為分子的表征。這個步驟是必要的,因為我們必須

30、以某種方式整合各個原子的信息。但問題是,這種整合方式是最佳的嗎?如圖 17 下方所示,三個差異很大的特征向量集合擁有相同的和。關鍵之處在于,當我們在最后執行這種過于簡單的加和壓縮過程時,我們會損失掉很多的信息。圖 18:更好的信息聚合策略 20 解決該問題的一種方法是:使用更豐富的方式來整合各個節點的信息。在此,我將展示近期提交給 NeurIPS 的論文Optimal Trasport Graph Neural Networks for Molecular Representation(https:/arxiv.org/pdf/2006.04804.pdf),我們試圖使用一種名為Wassers

31、tein 原型的方式來整合各節點的信息。圖 19:Wasserstein 原型給定一個表征空間,該空間可以被表征為四種原型。為簡單起見,每種原型都代表一組原子,這一組原子構成了某種分子(實際上,這種原型可以對表示任意學習到的集合)。當我們向嵌入模型輸入一個新的分子(同樣由一組原子組成)時,嵌入模型會通過計算該分子與四種原型的距離,將其轉換為一個向量。這樣一來,我們就可以通過一種精細得多的方式表征不同的分子結構。21 圖 20:真實模型潛在空間中嵌入的可視化結果圖 20 顯示了我們將潛在空間中的嵌入投影到 2 維空間中的情況,不同的顏色代表不同的特性。如前文所述,我們希望該潛在空間具有如下的幾何

32、性質:相近的區域擁有相近的特性的值,距離較遠的區域擁有差距較大的特性的值。仔細觀察通過 Wasserstein 原型構建的潛在空間,我們發現,從左上角到右下角,代表特性的顏色緩慢地從深綠色過渡為淺黃色;而當使用標準的圖卷積網絡時,我們發現在整幅圖中,特性的值始終在非平滑地改變。圖 21:結構化的模體(motif)Wengong Jin 的工作結構化的模體也與該的話題相關。當一名計算機科學家看到一個分子時,我們只能看出它是一張圖。而當化學家看到一個分子時,他們會發現一些子結構。這就好比我們在觀察一個英語句子或中 22 文句子時,我們可以將一些字符的組合看成具有特定意義的單詞,這有助于我們解釋句子

33、的意思。同樣地,化學家也將這些子結構(模體)看做構建分子的大型模塊。圖 22:由細到粗的圖編碼在 Wengong Jin 最新發表的 ICML 論文中,他展示了如何對圖編碼,從而學習到這些構建模塊,并將他們組合起來,這種編碼可以保留層次化的表征。圖 23:層次化推理實驗結果 23 實驗結果表明,以層次化的方式進行這種推理是十分重要的,可以切實提升模型的性能。因此,考慮大分子(如聚合物)也變得十分重要??梢?,模仿化學家觀察分子圖的思維方式是十分有幫助的。在這個領域中,一個有待解決的問題是:我們應該如何處理三維的分子表征?因為分子實際上存在于三維空間中。當我們與化學家交流時,他們總是認為我們需要引

34、入三維信息。但是據我所知,目前還沒有工作表明,融合三維信息真的能提升二維模型的性能。我并不認為這個研究思路是錯的,但我們仍然需要思考如何有效地達成這一目的。三、泛化性接下來,我們將討論另一個極為重要的話題:泛化性。圖 24:化學空間中的泛化性能我經常與制藥行業的人交流,當我首次涉足人工智能藥物發現領域時,我在如何劃分訓練集、驗證集、測試集這個問題上犯了難。根據我之前在自然語言處理領域的經驗,我會將一個語料庫劃分為訓練集、驗證機、測試集,然后取得較好的結果。然而,制藥行業的人關心的并非是這樣的問題。他們想要做的是,將一個數據庫劃分為一些 scaff olds(組裝的較長的基因序列),scaff

35、old 就好比分子的骨架,我們期望測試數據與訓練數據的差別較大。這是因為,也許他們出于某種純粹的目的篩選出了某種分子,而當目標產生改變時,他們想看看在化學空間中的另一個部分會發生什么?圖 24 顯示了用于抗生素發現的數據可視化結果。圖中藍色部分是 Wengong 手動收集的用于訓練模型的數據。而我們最終將訓練好的模型應用于綠色的無錫化學庫。測試數據和訓練數據的差異非常大,而當測試數據與訓練數據的距離越遠時,模型就會產生越大的誤差。而在化學領域,能夠在數據空間中的某一個部分上訓練,而在另一個部分上測試,對于模型來說是非常重要的,因此我們對模型泛化性能的要求很高。24 圖 25:在 scaff o

36、ld 之間進行泛化Wengong Jin 在他的新論文Domain Extrapolation via Regret Minimization中試圖通過擴展不變性最小化(invariance minimization)框架來實現這一目標。這份工作的主要思路是,迫使算法通過創建人造的環境在數據上泛化,這些環境表示若干組包含不同 scaff old 的分子。你可以認為,我們通過某種方式將整個訓練集分成了多個子集,其中每個子集與其它子集中的 scaff old 差異很大。如圖 25 所示,訓練集 1 中的 scaff old 僅僅包含兩個環,而訓練集 2 中的 scaff old 則是環己烷。圖 2

37、6:遺憾最小化算法的實現下面,我們將介紹遺憾最小化算法(Regret Minimization)背后的思想。首先,我們訓練某種分類器,它會學習用于預測的分子表征。我們想要確保,在不使用訓練集 2(oracle domain)的情況下和僅僅使用訓練集 2 時訓 25 練出的模型性能相當,即遺憾被最小化。在本次演講中,我們將跳過他論文中非常有趣的一部分,在這個部分中,他思考了如何劃分不同的數據域。因為,在化學領域中,scaff old 有一個樹形結構,因此這就變成了一個組合問題。Wengong Jin 設計了一種非常巧妙的方式,實現了對于空間擾動的動態不變性。圖 27:在異質數據(COVID-19

38、)上的數據集劃分在圖 27 中,我們向大家展示了這種方法在困難場景下取得的驚人的性能,作者基于分子的質量將數據集劃分成了對于泛化性能非常具有挑戰的形式(訓練集的分子質量小于 400,驗證集分子質量介于 400 到 500 之間,測試集的分子質量大于 500)。實驗結果表明,采用本文提出的訓練方法可以取得顯著的性能提升。圖 28:在新冠抗病毒數據集上的實驗結果。他還在新冠數據上進行了測試,使用 CoV-1 數據作為訓練集,使用 CoV-2 數據作為測試集,取得了非常顯著的性能提升。26 圖 29:模型過度依賴于數據下面,我希望各位讀者能夠幫我解決一個困擾我多年的問題,我并不認為人們已經找到了有關

39、這一問題的解決方案,即使許多人聲稱他們做到了。如圖 29 所示,在計算機視覺領域,當我們訓練模型時,若訓練數據量減小,則模型的性能會急速下降。圖 30:通過預訓練進行初始化在計算機視覺(CV)和自然語言處理領域(NLP),我們往往會采取預訓練技術。此時,我們采用可以得到的大 27 型數據集對模型進行預訓練,然后將預訓練好的模型用于感興趣的下游任務。圖 31:NLP 的預訓練許多讀者也許都曾經看到過圖 31 所示的 NLP 領域中的預訓練示意圖。在圖 31 中,研究人員使用 11 種任務進行了實驗。實驗結果表明,相較于藍色的對比基準,使用大量數據進行預訓練的模型取得了超過 20%的巨大性能提升。

40、圖 32:直接將 NLP 領域中的預訓練技術遷移到化學領域行不通。28 似乎這種預訓練的思路可以很容易地被遷移到化學領域(化學領域中有數十億的分子),我們可以直接借鑒自然語言處理領域的思路。例如,在 NLP 領域中預測句子中的單詞可以類比為在化學領域中預測分子中的原子及其鄰居。然而,有趣的是,這樣做完全行不通。即使有人聲稱他們通過預訓練取得了極其微小的性能提升,但這遠遠不及我們在 NLP 和 CV 領域看到的那樣。盡管 MIT 的團隊非常努力地實現這一目的,但是至今仍收效甚微,我們也不清楚這背后的原因。然而,該領域的研究對于提高數據的利用率是極為重要的。四、不確定性估計圖 33:不確定性估計的

41、各種方法下面,我將簡要介紹一個與化學領域非常相關的具體問題:不確定性估計。這一問題在 NLP 和 CV 領域很少出現,然而化學領域的人卻非常關心該問題。根據我在設計 Halicin 的過程中僅有的一點化學領域的經驗,在設計好一個模型后,你需要使用數以億計的化合物作為輸入運行該模型?,F在,我們找出了這些化合物中的一個子集,模型認為子集中的化合物活性很強。由于預算和時間有限(購買每個分子可能需要花費數千美元),我們需要決定最終應該購買哪些分子,以及我們能夠在多大程度上相信模型輸出的結果。不幸的是,直接使用預測器的概率效果并不好。實際上,化學領域的研究者們已經在這個方面開展了大量的工作,因為我們需要

42、知道對于預測結果的置信度如何。例如,我們可以計算測試分子與訓練分子在使用化學結構硬編碼的特征空間中或嵌入空間中的距離。此外,我們還可以采用集成學習的方法,查看不同的模型得到的預測結果是否一致。還有一些方法,可以顯式地預測出方差。29 圖 34:不確定性估計朋友還是敵人?在 論 文Uncertainty Quantifi cation in Molecular PropertyPrediction using Message Passing Networks中,我們在多個數據集上采用了這種方法,實驗結果讓人非常憂慮。如圖 34 所示,誤差越小越好。在 Delaney 數據集上,紅色的部分代表使用

43、 100%的數據得到的誤差,而藍色、紫色的部分說明采用挑選出來的子集可以有效減小誤差,這是一種非常好的情況。然而,在數據集 Lipo 上,情況竟然完全反過來了,當我們選用置信度最高的一些數據訓練時,模型性能反而下降了。在 NeurIPS 上,有工作旨在驗證預測的結果(幻燈片中未列出)。我認為,在很多場合下,都需要進行有選擇的定量分析。我們如何設計一種新的機器學習模型,它只在很有把握時才作出預測。五、機制理解如今,可解釋性在 NLP 和 CV 領域中是非?;馃岬脑掝}。通常,當我們考慮可解釋性時,會高亮顯示出數據(例如,醫學影像)中呈陽性(正例)的部分。在這里,我們通過另一種完全不同的方式思考可解

44、釋性。圖 35:訓練數據示意圖 30 對于研究以上化學問題的計算機科學家來說,假設給定分子結構圖和一個數字,而并不知道這些數據是怎么得來的,我們需要學習他們之間的關系。圖 36:理解背后的機制。但是實際上,這背后是有一套機制的。對于某些具有毒性的物質,生物學家會對其作用機制做出詳細的解釋。在完成我們發表在Cell上的論文的過程中,即使我們已經確定了分子,計算機科學家們還是花了非常長的時間找出這種分子殺滅病原體的機制。圖 37:環丙沙星與氯霉素 31 我們希望為化學家設計出不但能夠預測分子活性,還能夠給出背后的生化機制的模型。目前尚不確定是否有人在這方面進行了研究,但是我們將在這個具有廣闊前景的

45、領域繼續進行探索。六、全新藥物設計圖 38:全新藥物設計接下來,我想繼續討論全新藥物設計(de-novo design)。在前文中,我們假設已經擁有了各種各樣的分子,我們只需要從中挑選出一些符合要求的分子。但是,如果我們想要設計一種從來沒有出現過的新分子怎么辦呢?在這里,我們可能要面對一個分子結構優化的問題。給定具有某種功能的分子,其功效并不好,我們希望創建一種具有更好的特性的新分子。圖 39:將全新藥物分子設計作為一個機器學習問題。32 在這里,我想再次向大家介紹將為不同領域開發的計算機科學技術組合應用會發生什么。Gomez-Bombarelli 等人于 2018 年發表的論文繼承了一些傳統

46、計算機視覺領域的思路。給定一個分子,假設我們要預測其特性,我們首先將其編碼到一個潛在空間中,通過梯度下降對其進行優化,然后得到一個更好的分子。但實際上,盡管他們是第一個想到該問題并提出該問題的人,但是上述方法的效果并不好。這是為什么呢?改進的空間又在哪里呢?圖 40:連續的表征這是因為該領域的潛在空間并不平滑,在分子嵌入的等高線(contour)周圍有很大的梯度偏移。那么,我們應該如何在這種極其不平滑的復雜空間中采取優化策略呢?圖 41:聯結樹我們用到了許多重要的思路來實現這一目標。例如,我們可以使用一種聯結樹的方式進行編碼,更多地進行層次化的編碼是有所助益的。33 圖 42:利用分子對進行學

47、習第二種方法用到了一些機器翻譯的思想。該算法從某一個初始化的點出發,序列化地生成分子。這種方式缺乏約束,會在很多地方出現錯誤。圖 43:通過圖變換的方式進行優化假設我們擁有由許多分子及其特性組成的訓練集,我們可以識別出具有不同距離、不同特性的(source,target)分子對(而不是單個分子)。這樣一來,我們就可以借鑒機器翻譯任務中的思想,從一個原始的分子出發,然后生成一個有著更好的特性的鄰居節點。34 圖 44:優化過程我們可以通過一個標準的機器翻譯工作流程對這個過程進行建模,在給定一個起始分子、一個終點分子的情況下,我們需要學習中間的編碼器-解碼器架構,這個架構似乎效果相當好。七、多目標

48、分子設計最后,我將介紹 Wengong Jin 最新發表在 ICML 上的論文的核心思想。在前文介紹的類似于機器翻譯的工作中,模型可以在構建的分子只包含一種特性時取得較好的性能。但是,如果我們希望創建的分子包含多達 20 種特性又該怎么辦呢?實際上,這種任務在制藥工業中非常常見,但是這方面的工作仍然還處于空白狀態。在這篇論文中,Wengong Jin 模擬了化學家設計分子時的思維。如果你想要得到具有某種特性的分子,可以設計某些子圖代表的相應的官能團,當我們需要其它特性時,就可以進一步將其它的子圖與之相結合,從而得到更好的分子。具體而言,我們的策略包含兩個步驟:(1)基本原理提取。我們需要訓練模

49、型去預測某些特性(例如,溶解性),同時學習究竟是哪種子圖(官能團)導致分子具有這種特性。這樣一來,對于每一種特性而言,我們都可以找出具有這種特性的子結構。(2)多原理集成。在設計具有多種特性的分子時,我們可以將表征各種特性的官能團集成到該分子中。圖 45:實驗結果 35 實驗結果表明,我們的方法取得了顯著的性能提升。在論文中,我們還介紹了如何創建一些精準的抗生素,它們能殺滅病菌,但是保留身體中好的組織,或者使某些特性僅僅針對某些特定的病原體生效。八、結語ML+化學是一個飛速發展的研究領域,該領域中最好的模型在算法上是具有創新的,并不僅僅是將為圖像設計的卷積神經網絡用到分子上這么簡單。每當我們看到的新的算法,它們都會帶來實實在在的性能提升。誠然,某些該領域的算法也是由通用機器學習算法發展而來,但是該領域仍然存在巨大的研究空間,這可以讓計算機科學家能夠產生更大的社會影響力。

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(21全體大會.pdf)為本站 (會議專家) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站