《09認知神經基礎專題論壇.pdf》由會員分享,可在線閱讀,更多相關《09認知神經基礎專題論壇.pdf(61頁珍藏版)》請在三個皮匠報告上搜索。
1、109認知神經系統2 北師大教授畢彥超:人類大腦的知識表征轉載自:AI科技評論人工智能和認知神經科學都在嘗試打開“智能”的黑箱,兩者應相互對話、相互幫助,才能共同快速發展。一方面,腦科學能幫助人工智能專家構思出更好的網絡結構、更好的算法,從而推動人工智能的發展;另一方面,我們也經常發現,AI 專家發明出的人工智能算法,經常和生物體處理信息的方式極為類似。圖 1:打開人工智能的黑箱那么,人工智能發展到最后真的會變得完全和生物大腦一樣嗎?不一定,因為兩者服務于不同的目的。人工智能要實現的是具有專用功能的機器,而生物智能要實現的是能適應大自然環境的有機體。但是生物大腦是億萬年進化的產物,所以它在進化
2、過程中已經摸索出極佳的信息處理的架構和算法,這些架構和算法可以為發展人工智能帶來啟發。所以從原則上來說,兩者存在交集,但并沒有包含關系。6 月 22 日,北京智源大會舉行了認知神經基礎專題論壇,來自北京師范大學認知神經科學與學習國家重點實驗室的畢彥超教授、北京大學心理與認知學院的方方教授、清華大學心理學系的劉嘉教授、北京大學計算機系的吳思教授、中國科學院自動化研究所的余山教授分別做了報告,共同探究認知神經科學能為 AI 帶來什么啟發。畢彥超教授做了人類大腦的知識表征的報告。畢彥超教授在哈佛大學獲得心理學(認知、腦、行為)博士學位,在人腦實現語義知識表達方面做過很深入的研究。3在報告中,畢彥超教
3、授匯報了三個實驗,解釋了人腦有兩套知識表征模式。一套是感覺信號來源的知識編碼,另一套是語言信號來源的知識。兩套編碼系統的信息內容和編碼方式都有不同。以下是演講全文。一、知識在大腦哪里AI 的知識表征一般指從文本提取各種知識圖譜,而人腦里其實存在很多非語言描述的知識。舉兩個例子,有的大腦損傷的病人,給他一個剪刀,他知道這是剪刀,也知道剪刀是用來剪東西的。但是他完全不知道該怎么用,連應該怎么拿都不知道。另外一類病人,我們也給他一個剪刀,他知道怎么拿,也知道應該用怎么樣的動作,但是他是從前往后剪,正常用剪刀都是從后往前剪。這兩個例子表明,即使是非常簡單的運動動作,也需要存儲知識的指導。人的大腦對外界
4、信號的理解,比如識別語音、識別文字、識別圖片等等,其識別的最終目的是在我們大腦中提取外界刺激所不包含的信息。這就是普遍性的知識,只有提取了這種知識,我們才對信號有了理解,對世界有了理解,我們才能做相應的運動動作。大腦的知識保存在哪個腦區?如下圖所示,這是我們看一個詞時,大腦的激活狀態。大腦活動一開始直接從視覺皮層激活,但其實這個過程不僅僅包含視覺信號加工,大腦活動會迅速擴散到全腦。圖 2:大腦的激活狀態大腦是一個功能分區非常明顯的系統,比如大腦的枕葉處理視覺信號,顳葉處理聽覺信號。那么知識存儲在哪里呢?綜合近二三十年的研究,答案是“EveryWhere”。4下圖是綜合 2009 年之前幾百篇研
5、究得到的元分析結果,每一個黃點都是激活點。這是人腦在理解詞匯、圖片的時候激活的地方,實際上幾乎全腦都會被激活,表面知識可能是非常廣泛的分布式存儲。圖 3:大腦儲存知識時的激活點大腦的特定腦區保存了什么信息?知識的保存為什么需要這么多腦區的參與?認知神經科學多年來的主流觀點是,即使對一個非常簡單的概念,比如牛,也分成不同類型的知識存儲在相應不同的大腦系統里。比如聽到“?!边@個詞,我們會知道它的外形、動作、聲音、與人的關系,不同的信息以相應的感覺經驗的模式編碼在系統中。圖 4:大腦聽到特定詞語時的信息處理其中比如牛的外形,我們的視覺系統看過很多牛,那么相應的激活模式就保存在大腦視覺皮層。下次問我牛
6、的外形,過去的對視覺信號激活的痕跡就會被提取出來,包含它的外形信息。5所以,知識分布式存儲的原因是:第一,簡單概念中也包含不同類型的知識;第二,特定類型的知識存儲依賴于特定腦區本來的功能。二、人類大腦的兩種知識表征模式與 AI 不同,這種人類大腦的知識表征理論中幾乎看不到語言的痕跡。我們理解物體、理解語言時,所提取的知識是以對視覺、聽覺等信號的感知經驗以及與跟對象交互的動作經驗信息編碼。那么,這種感覺、運動經驗的編碼是人類知識表征的全部嗎?人又如何存儲跟感覺、運動信號并不完全對應的各種抽象知識呢?比如剛才所說的牛,牛肉很有營養、牛會產牛奶等等,這種抽象知識怎么保存在大腦系統里?我們用實驗來回答
7、這個問題。我們通過實驗探究先天盲人和正常人在顏色知識表征上的區別。我們大腦中怎么存儲玫瑰花是紅色這個知識?現有的理論是以過去看玫瑰花的時候,相關的“紅色”神經元的發放模式就會印記為“玫瑰”的知識,也就是說印記在視覺皮層里加工形狀的視覺編碼。圖 5:盲人如何獲得不同顏色之間的復雜關系?先天盲人出生時由于種種原因而沒有視覺,問他們玫瑰是什么顏色時,他們仍然正確地回答玫瑰是紅色的。顏色是個很特別的特征,因為是光波長度特征,除了視覺沒有其他感覺通道可以感知。先天的盲人既然沒有視覺經驗,只能是靠語言輸入獲得這個知識。那么他們能獲得不同顏色之間的復雜關系嗎。我們首先做了一系列的行為實驗。比如,直接問他們不
8、同的東西在顏色上是相似還是不相似、有多么相似。下圖是他們行為結果的矩陣圖,每一小格都是人們對兩個客觀顏色相似程度的回答,左邊是正??刂平M,右邊是先天盲人??梢钥吹较忍烀と瞬粌H僅可以回答顏色知識問題,而且回答的結果模式跟正常人是非常相似的,相關系數是 0.88。6圖 6:先天盲人顏色感知的行為實驗結果此外,對于過渡地帶的顏色,比如酒紅、玫瑰紅這些顏色,盲人和正常人的表現也有很大相似性。下圖是物體顏色的判斷空間的視覺呈現,左邊是正常人控制組,右邊是盲人組,可以看到盲人判斷顏色之間的遠近非常接近正常人。所以即使完全沒有感覺到視覺信號,只提供語言符號信號的話,人也可以建立起相似的知識空間。圖 7:物體
9、顏色的判斷空間的視覺呈現實驗7第二個實驗探究這兩種不同人群在大腦中編碼顏色知識的模式。我們把所有的被試放在磁共振機器里,讓他們做相似的任務。比如聽到蘋果、玉米、香蕉這些詞,然后回答顏色相關的問題,從而獲得每個被試對每個詞在回答顏色問題時,大腦所有腦區的激活模式。通過解碼先天盲人和明眼被試人的腦活動對顏色信息編碼,發現:第一,我們的確發現大腦當中有一片視覺腦區負責正常人編碼顏色,但是盲人并沒有。該腦區包含只對顏色敏感的神經元,正常人的活動模式是兩個東西顏色越像,神經元的活動越像。盲人則沒有這個效應,因為他們從來沒有顏色視覺經驗。對于盲人而言,在另一個腦區,顳葉前部上側,神經元的活動模式是兩個顏色
10、越像,它們的活動越像。最重要的發現是,不光是盲人,正常人在這個腦區也有一模一樣的效應,也就是說正常人的顏色編碼其實涉及兩個腦區,一個腦區只有正常人有,以顏色感知覺模式編碼顏色知識,另一個區域正常人和先天盲人都有,編碼以語言渠道獲得的知識。下圖是這種雙重編碼的知識系統的示意圖。我們把后面這個視覺信號相關的物體顏色知識一個區域叫“SensoryDerivedKnowledgeRepresentation”,前面這個區域 dorsalATL 叫“LanguageDerivedknowledgeRepresentation”。圖 8:人腦中知識的兩種形式既然存儲有兩套不同的編碼系統,在大腦不同的區域編
11、碼不同的信號信息。大家可以猜測一下,先天盲人怎么表征“彩虹”和“雨”?盲人什么都看不見,但雨還是能感受到的,比如濕度、觸覺等等,但是看不見彩虹。我們這篇在 NatureCommunication2018 年發表的工作發現,對于正常人來說,雨和彩虹非常相似。對于盲人來說,雨是一個具體詞,彩虹則是一個非常抽象的詞匯,更強存儲于完全進行符號編碼的腦區,而雨對于盲人而言,還跟正常人一樣,在感覺皮層很多區域都有加工。我們還可以從另外分布式網絡結構的角度問人腦知識表征的問題。再次看看下圖,人在理解詞匯和圖片的時候激活的腦區是分布式的。這個網絡有什么結構?8圖 9:大腦儲存知識時的激活點我們可以讓在被試不做
12、任何具體任務、躺著發呆,然后我們通過功能磁共振測量大腦活動。這時候的大腦活動其實也不是噪音,而是有很多內在規律。我們把不同腦區之間的連接強度提取出來,構成一個由點和邊組成的圖,就得到了大腦不同腦區之間的連接方式。我們觀察這個圖內在的結構,會發現有非常穩定的三個模塊子網絡。一個是綠色的腦區之間聯系特別緊密,一個是藍色的腦區之間聯系特別緊密,一個是紅色的腦區之間聯系特別緊密。我們根據以前對這些腦區的理解,發現綠色的腦區是語言進行加工的地方。紅色的腦區是感覺、運動的信號進行加工及多感覺通道融合的地方。藍色的腦區是執行控制的系統,是對不同的信息進行組合和切換的系統。圖 10:不同腦區的結構連接前面發現
13、的提取顏色知識時的兩種編碼腦區正好就分布在綠色子網絡和紅色子網絡里。所以總體來說,這兩個系統在全腦水平上呈現出兩個不同類型的網絡模塊,分別進行語言符號獲得知識的編碼和感覺獲得知識的編碼。9我們下面的問題就是,這兩個系統的編碼機制是什么。我針對每一個系統,舉一個實驗來介紹一下我們的思路。三、感覺來源的知識:感覺信號還是計算內容?首先是感覺來源知識系統,是如何存儲知識的?是完全基于感覺信號來編碼嗎?我們比較了先天盲人和正常人在腹側視覺皮層上對于形狀的加工機制。下圖是經典的腹側視覺皮層,它有典型層級化的結構。早期的視覺皮層對基本視覺信號敏感,高級視覺皮層會有不同的分區,分別對幾個不同重要類型的圖片比
14、較敏感,比如人臉、場景、工具、身體等,可能與物體形狀知識存儲相關。圖 11:經典的腹側視覺皮層我們比較先天視覺剝奪對這種分布的影響。我們讓正常人和先天盲人聽很多不同類型的詞匯,看看他們視覺皮層激活的情況。在某一個視皮層區域,正常人在看沙發、辦公室等大場景的物體,激活就會特別強。在另一個區域,正常人在看小的工具,比如剛才說的剪子、錘子等,激活就會特別強。對這兩個區域,先天盲人的激活模式和正常人是完全一樣的。盲人從來沒有看見過場景和工具,只能用觸覺或者其他渠道獲取相關信息,其激活模式也和正常人一樣。這是不是因為其實光的信號本身并沒有那么重要,只要編碼相關形狀的信息,無論是光信號獲得的,還是觸覺信號
15、獲得的,只要是相似的幾何形狀關系計算就可以?此外,正常人大腦視覺皮層還有一個區域,對動物類的視覺刺激很敏感,比如人的面孔、小貓的形狀、小狗的形狀,但如果聽詞和先天盲人聽詞就沒有這種表現。也就是說,大腦的激活模式不僅僅依據對視覺信號的敏感度,還跟物體的類型有關系。為什么會有的視覺皮層區域不受感覺信號通道的影響、有些則受?我們推測,這可能與人視覺加工的計算目的相關。生物大腦識別物體的機制不僅僅是為了貼標簽。人貼標簽是為了交流信息,但是在語言產生之前,人的大腦已經進化了很漫長的時間。在一個簡單的場景中,比如餐廳,我們看到的豐富視覺信息中不同元素需要會引導我們作出非常不同反應??吹饺艘猩鐣苑磻?;看
16、到刀叉要有操作性反應;看到桌椅要有繞開或坐下的反應。10視覺系統處理視覺信號,重要目的是正確的提取相關的反應,以適應生存。人的視覺識別或者視覺知識的存儲,會額外考慮到人對應的運動動作是什么。比如下圖中的藍框是人的視覺系統,有不同的層級,這些層級組織的方式要匹配到合適的反應上。圖 12:人的視覺系統層級示意圖在視覺系統的組織或者視覺知識存儲的時候,跟反應之間的對應關系就有可能發生在不同的層面。所以,我們可以理解,對于沙發、錘子等物體,盲人和正常人的視覺組織方式是很相似的,這是因為他們有可能在視覺和運動信號對應上是比較透明的。盲人雖然沒有視覺,但是以同樣的方式使用這些物體。但是有可能對于蛇、蝴蝶、
17、老虎等等這類信號,并不是從形狀上判斷如何反應,正常人和盲人接收這些信號的通道不一樣,所以正常人和盲人的感覺組織方式就不一樣。按照特定感覺信息所編碼的知識體系,不僅僅是感覺信號本身,還要考慮到不同系統之間的對應關系。所以,人腦的感覺知識編碼和僅對標簽分類進行訓練的深度學習是非常不同的。圖 13:知識表征的兩種方式11四、語言來源的知識和 AI 的知識圖譜先天盲人對物體顏色只利用了語言來構建知識。這是什么編碼方式呢?可能與經典知識圖譜的問題相似。比如蘋果 siri 可以回答語言問題,但是并不直接編碼視覺信號、觸覺信號等等。圖 14:人腦和 AI 在語言與知識聯系上的不同所以我們做了一個初步的嘗試,
18、看它們之間是不是真的有對應關系。我們同時做了兩個實驗,給定同樣的詞,一套提供給人的大腦系統,一套提供給 AI 系統,然后建構相關性表征。下圖左邊矩陣是人在掃描儀里面看那些詞(比如贊成、多數、幻想)然后對每一個詞獲得一個大腦活動的模式。下圖右邊是我們用 Word2vec 的方式建立的詞和詞之間的關系。圖 15:人腦和 AI 對詞語的反應12我們發現人腦幾個語言子網絡中和 Word2vec 模式唯一有顯著相關的就是綠色的系統,也就是人對語言符號加工比較敏感的系統。大腦系統里可能有這樣的綠色系統,它并不關心特定的感覺信號來源比如視覺、聽覺、運動等等,但特別對于抽象符號類型的關系很敏感。第一個相關證據
19、是,先天盲人完全沒有視覺經驗,沒有任何其他感覺信號可以獲得顏色知識,其編碼區域就是在這個綠色系統。第二個相關證據是,綠色系統的活動模式跟 Word2vec 相關,而其它的區域跟 Word2vec 都不相關。五、總結我介紹了關于先天盲人的顏色知識、先天盲人的物體形狀知識,還有詞的計算關系的實驗,結論是人腦有兩套知識表征模式。一套來源于人特定的感覺神經信號,一套來源于比較脫離感覺經驗的抽象語言符號系統。知識在在人的大腦里以這兩套模式存儲,組合在一起是人類知識表征。無論我們是看一個圖片,還是看一個詞,最終都是這兩套系統一起激活。需要額外強調的是感覺知識的表征,不僅僅和感覺信號本身有關,還和運動動作相
20、關。我們推測可能感覺來源的知識系統對非文本編碼的“Common Sense Knowledge”表征有額外重要的作用;而語言來源的知識系統也在視覺識別中有所影響。圖 16:知識在大腦中的兩套存儲模式13 北大教授方方:人類注意力圖和動態機制轉載自:AI科技評論6 月 22 日,北京智源大會舉行了認知神經基礎專題論壇,來自北京師范大學認知神經科學與學習國家重點實驗室的畢彥超教授、北京大學心理與認知科學學院的方方教授、清華大學心理學系的劉嘉教授、北京大學計算機系的吳思教授、中國科學院自動化研究所的余山教授分別做了報告,共同探究認知神經科學能為 AI 帶來什么啟發。第二位報告者是北京大學心理與認知科
21、學學院院長方方教授,題目為人類注意力圖和功能。方方在報告中討論了人腦注意的兩個重要屬性:注意力圖和動態注意機制。注意力圖有兩種。注意顯著圖(Saliencymap)源于自下而上的注意,注意優先圖(Prioritymap)則結合了自上而下和自下而上的活動,以及任務相關性。對多個物體的注意是交替性、節律性、非靜態的采樣。以下是演講全文。一、注意我們一般說注意是對外界信息的一種選擇性加工。解釋注意最好的例子就是交替呈現以下兩張圖。它們之間有一個非常大的差別,如果不加注意就無法看出。圖 1:它們的差別就在雕像的背后注意是認知科學里最大的一個領域,每年有超過 1 萬篇文章研究注意現象。Corbetta
22、和 Shulman 在 2002 年描述了關于注意控制的神經模型,總結出兩條注意通路。藍色區域表示背側額頂網絡,負責自上而下的注意控制。橙色區域表示腹側額頂網絡,負責刺激驅動的注意控制。14圖 2:Neuroanatomical model of attentional control注意最主要的功能是調節感覺皮層的神經活動,Reynolds 和 Heeger 描述了兩種典型方式。第一種是乘法縮放。對于一個方向選擇性神經元,注意可以整體提高神經元在各個方向上的反應。如下圖左所示,不注意(藍線)和注意(紅線)之間的變換是一種乘法關系。第二種是銳化。注意可以增強神經元對特定方向的反應,讓神經元對外
23、界刺激的選擇性更強。這是注意的一些基本功能和神經結構。圖 3:Attentional modulation in visual cortex15二、注意力圖三維世界投射到我們眼睛上就變成了二維世界,這個二維世界有非常多物體和細節。關于哪些東西更重要的空間分布,就叫注意力圖。它分為兩種。一種是注意顯著圖(Saliencymap),指自下而上的注意。例如一個非常奇怪的東西出現在視野中,就會自動吸引你的注意。另一種叫注意優先圖(Prioritymap),則是我們整合自上而下的活動和自下而上的活動形成的注意力圖。做任務時的任務屬性也會影響注意放在何處。比如我正在做報告,那么我的注意會更多放在面前的計算
24、機屏幕上。這兩種地圖如何產生,是我們所關注的問題。關于 Saliency map,首先講最簡單的自下而上的注意力圖。下圖左邊是一張海景圖,通過計算模型可以算出右邊的 Saliency map。越亮的部分表示越有吸引力。圖 3:Saliency map如何得到右圖?我們根據 Itti 和 Koch 在 1998 年提出的模型,計算一張圖片在不同尺度上顏色、亮度以及朝向的差異對比度,進行多個尺度的整合,形成 Saliency map。16圖 4:Itti and Kochs saliency model有很多重要的文獻探討 Saliency map 在大腦什么地方產生。不同的結論包括在頂葉、前額葉
25、眼區、上丘整合等等。但是我認為視皮層 V1 區就可以充分解釋 Saliency map。為什么以前很多文章都說注意在比較高級的頂葉、額葉等產生?一個可能的原因就是,以前的生命科學研究混淆了自上而下和自下而上的信號。如果我們要研究 Saliency map,必須研究純粹的自下而上的刺激。怎么樣才能做到?我們用無意識的方法,在沒有任何自上而下的干擾下,實現研究自下而上的注意。實驗示意圖如下?!笆帧笔菂⑴c者的注視點,四個“減號”是 Saliency map 的位置。它會顯著吸引我們的注意,而且經過實驗操縱后不會被意識到。我們改變“減號”的角度,將“減號”和“I”之間的夾角分別設為 0度、15 度、
26、30 度和 90 度。隨著夾角增加,它吸引注意的能力逐漸增強。17圖 5:自下而上的注意研究示意圖如何把這個刺激變得無意識?下圖是我們的實驗流程。首先呈現線索圖片(Cue)50ms,然后呈現掩蔽圖片(Mask)100ms,然后呈現注視點 50ms,最后是探測任務,探測第四張圖十字下面兩個點的相對位置。由于線索僅僅呈現非常短的 50ms,又緊跟著 100ms 的掩蔽圖片,所以被試完全不會意識到線索的存在。但是探測任務放在線索的顯著區,被試依然有較好的表現。任務放在對側的話,被試的表現就比較差。兩個條件的差別就代表自下而上的注意強度。圖 6:Measure attentional attracti
27、on with the Posner cueing paradigm18我們接著利用視皮層 V1 區神經元的屬性構建注意模型??纯聪聢D的數據,隨著朝向傾斜角度增加,注意的吸引力也逐漸增強,跟計算模型吻合得非常好。我們發現 Saliencymap 跟 V1 的神經元活動是有關系的。圖 7:Saliency ma 與 V1 的神經元活動關系圖從初級視覺層到頂葉,Saliency map 的效果逐漸減小。最明顯的是 V1 區域,可以產生自下而上的注意。我們上面的研究基于人工刺激,下圖則基于自然場景。圖中的馬具有非常高的顯著度,甲殼蟲具有較低的顯著度。他們在大腦皮層誘發出的信號有沒有區別?圖 8:大腦
28、研究實驗19我們重復了這個行為學實驗,發現馬確實可以誘發出更強的注意信號,甲殼蟲則不可以。并且還是在 V1 區域展示了注意的分布,所以我們再一次用自然場景證明了 Saliency map 跟 V1 是相關的?;谶@個生理學依據,我們構建了一個動態注意模型。這個模型的大致框架有三個組件。第一部分參考感覺反應,模擬 V1 神經元對自然場景做稀疏編碼。第二部分是中央凹圖像多分辨率金字塔方法。對于自然場景,如果盯住這個紅色十字注視點,編碼會非常清晰,但是對外圍的編碼就非常粗糙,第三部分模擬視覺工作記憶,注視一個場景后很難立刻再跳回去。圖 9:模型框架的 3 個組件我們把這三個組件放在注意模型里,構建了
29、一個基于圖論的模型。這個動態的注意模型將 V1 神經元構成網絡,用該網絡搜尋圖片上最富有信息的區域,然后跳到第二富有刺激信息的區域。下圖中最下方圖的紅線代表在自然場景里人類的眼球運動軌跡,中間是我們模型預測的軌跡。實驗結果表明我們的模型和實際情況吻合得更好。20圖 10:眼球運動數據的模型評估關于 Priority map,回到那張海景圖,Saliency map 是中間上圖。任務要求尋找圖上的小島,于是小島被高亮標記。中間這兩張圖并在一起后,小島應該仍是高亮的。Prioritymap 整合了自下而上的顯著性,與當前任務的相關性。圖 11:Priority map我們又用人的面孔進行實驗。面孔
30、比人工刺激復雜得多,還具有倒立效應,即同樣的臉倒過來后很難識別。這也非常影響 Priority map 在面孔上的分布。21圖 12:Priority map 在面孔上的分布我們給被試看正立臉、倒立臉和相位打亂的面孔,讓被試的眼睛在面孔上隨便跳動。另外,掃描被試視皮層對面孔的反應,得到行為學的數據和腦活動的數據。圖 13:不同刺激下行為學的數據和腦活動的數據22我們重構出任意一個視皮層對面孔每一個部分的反應。下圖右下角是模型重構的反應,顏色越暖說明視皮層相應區域對面孔的反應更強。右上角是行為學數據,我們第一眼看面孔時注視什么地方。顏色越暖說明第一次著眼此處的概率越大,也就是該區域越容易吸引眼球
31、。圖 14:模型重構的反應下圖是這個實驗最主要的結果。我們測量最左邊正臉和倒臉吸引眼球的程度,描述了視皮層 V1、V2、V3 區域對正臉和倒臉反應的分布。圖 15:正臉和倒臉吸引眼球的實驗23我們發現 V2 和 V3 對正臉的表征是最精確的,遠遠高于其他三種情況。V1 對正臉和倒臉的反應表征的精準度都比較低,但是 V2 和 V3 對正臉表征的精準度比對倒臉表征高很多。圖 16:Assessing behavioral relevance of face representations總結一下就是,人類早期視皮層,從 V1 區域到 V3 區域,V1 對 Saliencymap 即自下而上的注意起
32、到很好的表征作用,V2 和 V3 則對 Prioritymap 即自上而下的、任務驅動的注意起到很好的表征作用。三、注意的動態機制過去關于注意采樣的大部分觀點認為,我們一旦注意到一個物體,對它的注意是持續的、靜止的。但事實是不是這樣的?從現在的數據來看,不一定。另外一種觀點是有數據支持的,特別是同時注意兩個物體的時候。如下圖所示,一種理論提出注意把關注點分割為兩塊,同時關注藍色和黃色方塊,這是一種平行和穩定的關系。另外一種理論認為,注意在這兩個物體之間切換。我們希望用實驗來提供進一步證據。在我們的腦成像實驗之前,行為學研究已經發現,如果同時注意左右兩個物體,注意其實是左右切換的、順序的、周期性
33、的交替采樣過程。我們的腦成像結果也證明,對多個物體的注意是交替性的、節律性的采樣,而不是一種靜態的過程。24圖 17:Mechanism of concurrent multi-target attention下圖表示隨著不同的任務要求(100%注意 A 并且 0%注意 B、75%注意 A 并且 25%注意 B、50%注意 A 并且 50%注意 B),注意在不同的物體之間節律性分配。它不僅僅對靜態物體有用。對于動態的物體,比如兩個運動的小球,同樣可以發現類似的節律性采樣過程。圖 18:同時注意多個特征時,采樣的具體過程25上面講的是對于物體的采樣和對于空間的采樣,如果同時注意多個特征,采樣是怎
34、么樣的過程呢?這個問題相當復雜。比如對于任何一個朝向、任何一個運動方向來說,有很多神經元同時進行反應,怎樣描述這種同時的反應?我們做了一個腦磁實驗,呈現一個刺激,測量腦磁信號。這些信號由大腦中不同朝向神經元的不同通道反應組合而成。然后我們用腦磁信號反解出每個通道的反應。圖 19:Mechanisms of concurrent multi-feature attention實驗表明,如果我們同時注意兩個特征,對這兩個特征的表征同樣是交替性的,而且是反相位的。無論是基于空間的注意、基于客體的注意,還是基于特征的注意,都不是靜態的過程,而是在不同的空間、客體和特征之間交替。26 清華大學教授劉嘉:
35、從認知到計算:認知神經智能科學轉載自:AI科技評論6 月 22 日,北京智源大會舉行了認知神經基礎專題論壇,來自北京師范大學認知神經科學與學習國家重點實驗室的畢彥超教授、北京大學心理與認知學院的方方教授、清華大學心理學系的劉嘉教授、北京大學計算機系的吳思教授、中國科學院自動化研究所的余山教授分別做了報告,共同探究認知神經科學能為 AI 帶來什么啟發。第三位報告者是清華大學心理學系教授劉嘉,題目為從認知到計算:認知神經智能科學。在報告中,劉嘉教授首先回顧認知科學的歷史,解釋打開人腦黑箱的意義,然后通過一系列認知神經科學的實驗范式和研究技術,揭示了深度神經網絡的內部表征與算法以打開 AI 的黑箱,
36、展示了人腦與類腦雙腦融合的可能路徑。以下是演講全文。今天我的報告主要圍繞如何從認知神經科學對大腦的研究方法論,來理解深度神經網絡的工作方式。一、行為主義在 AI 里,我們通常會遇到圖片識別的問題,我們把圖片輸入到訓練好的 CNN 里,CNN 告訴我們這是一匹馬。這個過程是我們現在主流的深度神經網絡所做的工作,采用行為目標導向,即在輸入端和輸出端建立關聯,而把中間過程當成一個黑箱(Black Box)。顯然作為科學家,我們肯定有興趣把它打開,但是問題是有必要嗎?打開和不打開究竟對理解 AI 以及推動 AI 發展有沒有幫助?圖 1:DCNN:Behavior Goal-Directed27在心理學
37、歷史上也曾有類似的爭論。關于刺激和行為之間關系的研究最早是由 Pavlov(巴普洛夫)開展的,他稱之為條件反射。即當鈴鐺和食物同時出現或者鈴鐺比食物稍微早一點出現的時候,這時候就可以建立刺激與行為的聯系。即當食物不出現時,僅僅搖一下鈴鐺,狗也會分泌唾液。至于狗的大腦里面發生了什么,當時大家認為不重要,當成黑箱就好;而我們需要關注的是刺激和行為之間連接的法則。圖 2:心理學行為主義的黑箱隱喻這個觀念從上個世紀三十年代一直到五六十年代都占據著心理學的主要地位,稱為行為主義。行為主義有一個著名的黑箱隱喻,即行為主義代表人物 Watson(華生)說過:“給我一打健康的嬰兒,一個由我支配的特殊環境,讓我
38、在這個環境里養育他們,我可擔保,任意選擇一個,不論他的父母的才干、傾向、愛好如何,他父母的職業及種族如何,我都可以按照我的意愿把他們訓練成任何一個人物醫生、律師、藝術家、大商人,甚至乞丐或強盜?!边@句話背后的邏輯就是深度神經網絡的“行為和目標導向”,翻譯成心理學的術語就是“人是環境的產物”或者“智能是環境的產物”。二、Garcia 效應但是理解外部環境和行為之間的關系就夠了嗎?后繼的研究表明這遠遠不夠。Garcia(加西亞)曾經研究放療所產生的負作用,如惡心嘔吐等。具體而言,他給老鼠進行放療,然后觀察放療之后老鼠的行為。Garcia 發現了一個非常奇怪的現象,放療后的老鼠中有一些老鼠開始拒絕喝
39、水,再渴也不不喝水。Garcia 深入了解后發現,那些拒絕喝水的老鼠的盛水容器是塑料瓶,而繼續喝水的老鼠的盛水容器是玻璃瓶。玻璃和塑料之間有什么區別?非常簡單,因為玻璃瓶是沒味的,而塑料瓶是有味的,也就是說老鼠把它惡心嘔吐的癥狀和塑料瓶的味道聯系在一起了,老鼠會“認為“自己嘔吐是塑料瓶帶來的。從表面上來看,這就是一個非常簡單的刺激(塑料瓶的氣味)和行為(嘔吐)之間的聯結,也就是我們剛才說的條件反射。但是!Garcia進一步發現,當他用類似氣味的條件,比如閃光、鈴聲來試圖形成老鼠不喝水的條件反射,發現怎么都建不成聯結。也就是說老鼠只能把氣味和它的嘔吐建立聯結,而不能把閃光、鈴聲來與它的嘔吐建立聯
40、結?;诖?,28Garcia 用生物準備性(Biological Preparedness)的概念來對行為主義提出了挑戰。生物準備性的核心有兩點:第一,不是所有的刺激都能和反應建立聯結;第二,有機體的學習潛能都被其生物學基礎所約束。也就是說黑箱里面的東西制約了刺激和反應聯結的形成。圖 3:生物準備性正是 Garcia 這個實驗使得我們開始研究老鼠的大腦里在“想”什么,狗的大腦里在“想”什么,于是認知科學由此誕生??茖W家開始逐漸把大腦的黑箱打開,知識表征、注意力等概念就是認知科學在研究大腦機制時提出的認知概念。以前行為主義認為人只是環境的產物,現在我們知道,人不僅僅是環境的產物,而且也是環境的營
41、造者,人有其自身的內部加工過程。同樣,深度神經網絡的內部表征與算法也必然影響刺激與行為的連結,也必然決定其智能的形態和本質。圖 4:認知科學29之后認知科學和神經科學產生連接,我們開始了解認知模塊和表征的生物學基礎?;谡J知神經科學過去20-30 年的工作,我們開始理解視覺的產生機制。首先是初級視覺過程,對物體的線條、顏色、對比以及運動等特征進行初步分析。接下來是中級視覺過程,我們開始把物體從局部的信息整合成形狀、表面、深度信息,最后我們把這些信息整合起來進入高級視覺過程,這時候我們就可以實現物體識別等。認知神經科學幫我們打開了大腦黑箱的一部分。那么我們為什么不用認知神經科學的方法論和工具,來
42、理解人工神經網絡的功能模塊和內部表征,了解人工智能背后的智能本質,獲得可解釋、可預測的 AI?這里,我把這個思路稱為人工智能的認知神經解析,即用認知神經科學的方法來研究 AI。圖 5:人工智能的認知神經解析三、打開深度神經網絡的黑箱3.1人腦與類腦是否采用了同樣的表征來完成任務圖靈測試從本質上來講,是基于行為主義的邏輯一個機器只要它在行為上達到人的水平,那么它就具有跟人一樣的智能。但是從認知科學的角度,一個更本質的測試應該是:一個智能機器,是否具有與人一樣的認知過程。例如,AI 如今能夠實現物體識別、目標檢測等任務,但是 AI 使用的內部表征和人類是不是一樣的?在這個研究,我們將具體回答兩個問
43、題:深度神經網絡使用什么表征?這種表征和人類相似嗎?我們這里呈現一個性別辨別的任務,下圖中左邊的是女性,右邊的是男性。但是如果我問,你是靠什么特征來進行判斷的?他們頭發的長短嗎?他們的眼睛大小嗎?他們臉型的外輪廓嗎?還是什么?你可以反省自己到底是靠什么做的判斷。30圖 6:進行性別分類時所使用的特征信息你會感受到這個任務很難,辨別性別很容易,但是理解究竟用哪些特征來做是挺難的。因為我們進行面孔認知加工是在無意識中完成的,不能被我們意識所覺察到。這里,我們采用認知神經科學的方法,即反向相關的方法(Reverse Correlation),通過結果來回推內部表征。首先,我們分別把女性面孔和男性面孔
44、取平均,得到女性和男性的平均臉。當我們從女性平均臉平滑的過渡到男性平均臉的時候,大家感受一下效果。圖 7:女性平均臉這動畫給人一個感覺,你對性別的判斷類似二分法。開始時是一張女性臉,后面是一張男性臉,中間是感知邊界,我們心理的感受并不是隨著圖像的線形變化而發生線性變化的,而是二分法,前半部分全是女性,后半部分全是男性。這里,我們找到感知邊界,生成一張中性臉。31圖 8:Reverse Correlation Approach:Using results to infer internal representation圖 9:中性臉示意圖接下來,我們訓練一個能識別性別的 VGG-Face 網絡。
45、這個網絡已經經過預訓練,我們只做遷移學習,即把最后一層進行微調,對男性和女性的人臉做識別訓練。很快,對性別識別的準確率就達到了百分之百。我們把中性的面孔拿出來加上隨機噪音,然后再把這張照片輸入 VGG-Face,讓它進行分類。添加噪音可以使中性臉被32識別為男性臉或女性臉。我們識別了 2 萬張照片,每張照片基底圖是一樣的,而添加的噪音不一樣,這樣我們可以得到一組被 VGG-Face 識別為女性的照片和一組識別為男性的照片。圖 10:實驗過程示意圖我們把這些照片都貼上了標簽,然后把原來的基底圖去掉,只留下噪音,并按照性別的標簽分別疊加在一起。下圖就是 VGG-Face 把面孔識別為女性的面孔特征
46、圖。原來的隨機噪音看上去無規則,但是通過 reverse correlation 就可以從噪音中提取出結構的信息。我們大致看到,這些信息主要集中在眼睛、鼻子和嘴這些地方,這些特征是 VGG-Face 將面孔判斷女性的關鍵信息。圖 11:女性性別判斷的關鍵信息同樣,我們可以把被判斷為男性的噪音疊加在一起,得到關于男性的一張特征圖。簡單對比可以發現,判斷為女性的特征圖和判斷為男性的特征圖是不一樣的,這兩張圖的模式很復雜。圖 12:男性性別判斷的關鍵信息33我們把女性特征圖和男性噪音特征圖進行相減,得到識別特征圖,這張識別特征圖就是 VGG-Face 完成性別識別任務的內部表征,它認為這是把男性和女
47、性分開的關鍵信息。我們把基底圖即中性臉疊加上去,可以看到噪音特征圖的極值點大致分布在眼睛和鼻子外側,以及人中、嘴唇的下沿。圖 13:Representation:Classification Image(1)我們接下來把這疊加到基底圖上,我們就得到了一個標準的男性臉。反之,如果我們把基底圖減去這張識別特征圖,就會得到一個標準的女性臉。所以我們通過這一系列操作就得到了 VGG-Face 用什么特征來進行性別判斷。圖 14:Representation:Classification Image(2)如果把 VGG-Face 換成人,結果會如何?我們找人看了這 2 萬張圖片。在大部分情況之下,被試會
48、說“我怎么知道他是男性還是女性?”我們說“沒關系,你猜就是了,跟著感覺走,你覺得它是女性就按 F,覺得是男性就按 M”。于是被試帶著困惑、不解和勞累,把這個實驗給做完了。這是他們用于區分男性和女性的特征圖。我們按照相同的計算,分別得到男性的標準臉和女性的標準臉。34圖 15:Comparison between hardware implementations我們發現在 VGG-Face 的特征圖和人類的是非常類似的。事實上,如果我們對這兩張特征圖計算相關,可以得到 0.73 的相關度。從這個角度來講,人類和 VGG-Face 用了類似的表征來完成性別識別的任務。進一步,我們來看這個相似是發生
49、在什么空間頻率上。在研究中,添加到中性臉的隨機噪音是有結構的,由不同空間頻率的圖組成,下圖最左邊是低頻的,最右邊是高頻的,我們把低頻和高頻的信息疊加起來,給大家看到一個實驗用的噪音圖。圖 16:實驗噪聲圖現在看在不同的空間頻率下面,人和 VGG-FACE 的特征圖分別是什么樣子。這些特征圖也是非常相似的,而且相似度在低頻上是最高的,隨著空間頻率的增加,人和 VGG-Face 的相似度越來越低。所以,VGG-Face 和人類在完成面孔性別識別任務時,更多依賴于低頻的信息。35圖 17:面孔性別識別時,更多依賴低頻的信息簡單總結一下,計算機視覺的奠基人之一 DavidMarr 提出我們應該從三個層
50、面理解智能。第一個層面是實現的目標或完成的任務,比如這個實驗做的就是性別識別任務,這是最高的層面。最低的層面是物理實現的層面,也就是用什么硬件實現。在這個研究里有兩種實現的硬件,一個是 VGG-Face,一個是人的大腦,這是兩個完全不同的物理層面。用物理硬件實現目標,中間還需要一個軟件的層面,稱之為表征和算法。表征和算法在輸入和輸出之間建立一種轉換,這種轉換就是智能。智能的本質就是表征。在上述研究里,表征就是把男性和女性區分開的特征圖。圖 18:David Marr 提出我們應該從三個層面理解智能363.2類似的任務經驗對于形成類似的表征十分重要VGG-Face 和人類用類似表征來完成性別識別
51、任務,前提條件是什么?面孔對于人類而言比較特別,我們看到一個面孔,通常需要識別出身份,即直接識別個體,即這是張三。但是對非面孔的物體,我們的識別通常是在類別層面,比如我們看到貓,只會說是一只貓,而不是說這是張三的貓。其次是對面孔的識別更多依賴低頻信息,比如心理學的負片效應,把照片的黑白值翻轉,發現識別起來非常困難,同樣把低頻信息過濾,識別也非常困難。因為 VGG-Face 是經過面孔識別預訓練的任務;所以,VGG-Face 與人有類似的表征,可能是因為上述這兩個原因,即:(1)VGG-Face 和人都是在個體層面上識別物體;(2)VGG-Face 和人因為處理過大量的面孔,因此會對面孔的獨特特
52、征(如低頻信息)敏感。圖 19:什么讓面孔變得獨特?首先,我們來驗證第一個可能性:共同的任務經驗。這里,我們選擇 AlexNet。AlexNet 也是預訓練網絡,它不做面孔識別而做物體分類,我們把最后一層微調,讓它做識別男性和女性的分類任務,正確率 93%。即,雖然AlexNet 是用來訓練物體分類的,但是也能夠把男性和女性區分,正確率也相當高。37圖 20:Will prior task experiences affect representations現在問一個有趣的問題,AlexNet 在性別辨認上也能達到和人一樣的準確度,但是 AlexNet 用的是和人類似的表征嗎?我們來看 Ale
53、xNet 辨別男性和女性的特征圖,如下圖所示,肉眼能夠辨別兩者存在非常大差別,基本不相關,相關度等于-0.04。我們把它疊加到原來的基底圖上去,得到的人臉也沒有明顯的性別特征。所以從這個角度來講,我們發現 AlexNet 雖然能夠區分男性和女性,但是它所用的表征是完全不一樣的。我們做進一步的空間頻率分析,把噪音特征圖分為不同的空間頻率,可以看到,基本上 AlexNet 和人類的各頻率的噪音特征圖是不相關的。圖 21:AlexNet 區分性別所用的表征與人類是完全不一樣的38回到實驗的第一部分結論,我們發現預訓練任務非常重要。為什么 VGG-Face 和人類在區分男性女性時用的表征是相似的?因為
54、它們都被訓練在個體層面上進行加工,而 AlexNet 是在類的層面上進行加工,從這個角度來講,導致它們使用呢不同的表征。這一點我們可以從進化的角度來理解。我們之所以從單細胞變成現在多細胞的動物,就是因為我們在不斷地完成大自然交給我們的任務;一旦完成不了,那只有一個結果,就是基因被淘汰。也就是說,wearewhatwedo。我們的智能是我們過去所完成的任務所決定的。圖 22:我們的智能是我們過去所完成的任務所決定的總結一下:認知神經科學發展了一系列有用的工具和方法論以及實驗范式,這些范式有助于我們了解深度神經網絡內部特征和模塊,得到可解釋、可預測的深度神經網絡。更進一步,認知科學、神經科學和智能
55、科學的深度交叉所形成的認知神經智能科學將會為揭示智能的本質,提供一個新的視角。具體而言,一個理想的研究智能模式是:通過神經科學發現一個大腦工作的機理(brain inspiration),根據認知科學來來對該機理進行建模(cognitive modeling),然后用計算科學來開發一個計算復雜度適度的算法(physical implementation)來解決一個真實的現實問題。39 北大教授吳思:生物視覺和計算機視覺之間的對話轉載自:AI 科技評論6 月 22 日,北京智源大會舉行了認知神經基礎專題論壇,來自北京師范大學認知神經科學與學習國家重點實驗室的畢彥超教授、北京大學心理與認知學院的方
56、方教授、清華大學心理學系的劉嘉教授、北京大學計算機系的吳思教授、中國科學院自動化研究所的余山教授分別做了報告,共同探究認知神經科學能為 AI 帶來什么啟發。第四位報告者是北京大學計算機系的吳思教授,演講題目為生物視覺和計算機視覺之間的對話。在報告中,吳思教授指出,生物的視覺識別機制和深度神經網絡的圖像識別機制有非常大的區別,生物的視覺識別涉及自上而下通路和自下而上通路的交互,而深度神經網絡只模擬了第二種通路。自上而下的視覺通路涉及生物視覺感知的全局性、拓撲性、多解性等特點,尤其是理解圖像時會面臨數學上的無窮解問題,而這些特點或許就是深度神經網絡下一步的改進方向。以下是演講全文。我的報告內容是生
57、物視覺和計算機視覺研究的彼此影響,以此說明神經科學和人工智能研究的互動關系。這兩個領域本質上都是在解開智能的黑箱,所以兩者之間相互啟發是非常自然的事情。圖 1:打開人工智能的黑箱一、深度神經網絡只模擬了部分生物視覺深度神經網絡是近年來人工智能興起的引擎,已經非常成功,在一些大型數據集對物體的識別率甚至超過人類。但是,深度神經網絡還面臨很多問題。第一,深度神經網絡更多是模擬了大腦視皮層中的前饋、層級結構信息處理的方式。但是大腦的視覺系統比這復雜得多,所以在很多行為上人腦和深度神經網絡有非常大的不同。在很多任務上,人的表現更加高明。40圖 2:深度神經網絡只模擬了部分生物視覺舉個簡單的例子。如下圖
58、所示,左邊是一頭熊,熊的局部信息被去除了,只剩下輪廓,而我們人類一眼就能認出這是一頭熊。而右邊的圖則是把熊分成小塊然后打亂,只保留局部的信息,全局信息則沒有了。我們可以發現這些小塊包含熊的眼睛、嘴巴、身體,但是很難認可右邊的圖是一頭熊,深度神經網絡卻一眼認出右邊的圖是一頭熊。通過對比可以發現,深度學習網絡的物體識別機制和人類有很大不同。人類能夠獲取物體的全局信息進行識別,而目前深度神經網絡只能利用局部信息進行識別。圖 3:深度神經網絡只是利用局部信息進行識別無法獲取全局信息是深度學習特別是前饋神經網絡面臨的一個基本問題,這個基本問題其實很早就被意識到了。人工智能的先驅 Marvin Minsk
59、y 在 1969 年就指出,前饋神經網絡很難做拓撲性質的識別。41拓撲學是研究幾何圖形或空間在連續改變形狀后還能保持不變的一些性質的學科。它只考慮物體間的位置關系而不考慮它們的形狀和大小。在拓撲學里,重要的拓撲性質包括連通性與緊致性。全局信息很難用前饋網絡獲取,即使要獲取其計算復雜度也呈指數增長。拓撲信息和全局信息的獲取是深度學習網絡面臨的基本問題。圖 4:DNNs fail to recognize the topology of image所以,我們有必要理解生物視覺系統如何獲取全局信息。神經科學領域一直有一個廣泛爭論,就是人類識別物體到底是根據全局信息還是局部信息。這兩種觀點對應的典型例
60、子是兩種畫派,如下圖所示,左邊的畫屬于印象主義,如果只看局部的話是看不清眼睛或鼻子的,但是只要從整體進行識別就能知道這是個男人,這是從全局信息進行物體識別的例子。右邊的畫屬于立體主義,這幅畫把每個局部信息特別放大,畢加索說畫中是一位美麗少女,但是很多人都認為看不出來,因為不能用局部信息拼成整體信息,這是從局部信息進行物體識別的例子。圖 5:物體識別中的整體和局部信息42深度學習網絡是通過聚合局部信息逐步構建復雜信息來識別物體的,相反,在認知神經科學領域有一個理論叫“逆向層次論”,這個理論指出,人類對物體的識別是從簡單到復雜、從整體到局部?!澳嫦驅哟握摗焙臀覀兊纳罱涷炏嘁恢?,如果一個人在我們視
61、野中一晃而過,你馬上會反應到這是個人,然后再識別對方的身份,這就是一種從整體到細節的識別過程。圖 6:逆向層次論我們從神經科學的角度來看人類視覺認知與機器學習的一個重大不同點。下圖展示了一個實驗,被試是盲視。盲視是指,意識層面“看不見”物體但卻能“感知”到物體的存在。圖 7:盲視實驗43大量實驗表明,人類要看到或意識到物體,需要物體信息至少在視覺皮層 V1 中被接受到。假設 V1 受到損傷,就可能會產生盲視現象。這時還能感知到物體是因為皮層下通路還存在,皮層下通路是從視網膜直達上丘然后再到高級皮層的一條短路徑。圖 8:The subcortical pathway科學家利用動物實驗更好的證明了
62、這一點。他們把老鼠放在籠子里,天花板上會呈現一個動態刺激,即一個小的光斑很快變大,這模仿了在自然環境中老鷹向老鼠俯沖下來時,老鼠視網膜接受到的光信號。這時候,老鼠本能的第一反應是裝死??茖W家發現,在上丘處通過操縱神經元反應可以讓老鼠看到運動光斑后不再裝死,或者即使沒有運動光斑的出現老鼠都主動裝死。這個實驗表明本能的快速反應走皮層下通路,而沒有走深度神經網絡模擬的皮層上通路。在上述老鼠將運動光斑當成老鷹的實驗中,老鼠根本沒有刻意去識別刺激是光斑還是老鷹,立刻裝死。這是動物的本能反應,即老鼠沒有做細節的特征提取也能識別運動模式。我們參考這個例子,提出了一種新算法,在識別運動模式時不做特征提取。我們
63、建立了一個模型,這個模型包含兩個部分,下圖左下方是外界輸入,黑色圓圈中的網絡表示“視網膜”。這里“視網膜”的計算很簡單,它把運動模式投射到高維空間,使運動模式變成線性可分的,然后再輸入到抉擇網絡?!耙暰W膜”的神經元特別多,相當于一個庫網絡。我們不需要訓練庫網絡和抉擇網絡,只需要訓練庫網絡和抉擇網絡之間的連接。44圖 9:識別運動模式的算法模型關于抉擇網絡,我用兩個神經元來舉例解釋一下,如下圖所示,每個抉擇神經元代表要識別的一類運動模式。這些神經元的動力學特別的慢,因為要識別運動模式,關鍵是要抓住輸入的時間結構,不僅僅是空間結構。這些抉擇神經元之間存在相互抑制,每個神經元通過庫網絡輸入收集證據,
64、如果證據支持自己編碼的運動模式,這個神經元的反應就會抑制其它神經元的活動而最終勝出。圖 10:A reservoir decision-making model for spatio-temporal pattern recognition45這個模型的計算本質是時空模式的識別,所以我們可以把這個模型推廣,用來做步態識別。在這個任務中,人在屏幕前走 1-2 回,然后把步態輸入到模型中,進行識別。這個模型的優點是可以小樣本訓練,只需要 1-2 回的數據就能馬上學會一個人的步態特點。圖 11:Gait recognition二、生物視覺是一個動態交互的過程我們介紹一個心理物理實驗來展示由整體到局部
65、的識別實際上是不可避免的。請大家看下圖中呈現的圖像,猜一猜是什么。圖 12:圖中呈現的圖像是什么?46如果你過去沒有見過這張圖的話是肯定猜不出來的,所以我把圖像的輪廓畫出來。圖 13:畫出輪廓后可以識別出這是一頭?,F在你就能看出來圖中是一頭牛。如果把牛的輪廓去掉,你還是覺得圖中是一頭牛,因為這時你大腦中已經有了自上而下的牛的先驗知識。但這只是其中一個答案。我也可以畫一只手的輪廓,然后輪廓去掉,這時候你又會覺得圖中是一只手,因為你有了自上而下的手的先驗知識。圖 14:畫出手的輪廓我還可以在圖中畫一條魚,我相信這時候你又會覺得圖中是一條魚。47圖 15:畫出魚的輪廓這個實驗表明人類識別物體時,大腦
66、皮層的自上而下的信號非常重要。這個簡單實驗揭示了圖像理解的一個深刻數學問題,即給定一副圖像,它的解釋理論上有無窮多個。注意圖像理解跟物體識別不一樣,圖像理解涉及兩個基本操作,一個是圖像分割,一個是物體識別。圖 16:Image understanding:an ill-posed problem但兩者的順序是一個雞生蛋或蛋生雞的難悖論:給你一幅圖像,沒有合適的分割,如何做好識別;但另一方面,如果沒有預先識別物體,又如何做合適的分割呢?從數學上來說,一幅圖像有無窮多的分割和識別的方式,所以在數學上這是一個不適定的問題。無論是人類還是 AI,圖像理解時都面臨這樣的難題。大腦解決這個問題的思路是一個
67、“猜測與印證”的過程。當我們識別物體時,物體的圖像信息快速傳遞到高級皮層,即通過所謂的快速通路,在高級皮層做出猜測。猜測結果再通過反饋連接,和新的輸入交叉印證,如此反復進行后,才能識別物體。48我們在日常生活中很難意識到這個過程,因為在日常生活中,很多時候只需要一兩個回合就能成功識別。但的確有的時候一個圖像看得不太清楚,我們會盯著它左看右看,大腦內部可能就進行了信息的上傳、下傳的交替,不斷地進行“猜測-印證-猜測-印證”,只要印證結果是否定的,這個過程就會一直進行下去,直到得到肯定的結果。神經生物學充分證明人類大腦的識別機制確實如此。從解剖上來說,從高級視皮層到初級視皮層的反饋連接比前饋連接還
68、要多,相比之下深度學習網絡主要考慮的是前饋連接。電生理實驗證據也表明,大腦對物體的識別先發生在高級視皮層,然后才發生在低級視皮層??偟恼f來,生物視覺識別至少有兩條通路,快速的通路對物體整體進行識別,其結果幫助慢速通路對物體局部信息的識別。下面以我們最近的一個工作來介紹整體識別可能如何通過反饋提高局部識別。我們考慮對物體進行識別時,先對物體大類識別,然后根據大類信息幫助進行小類識別。比如我們看到一個圖片,先識別這是動物,再識別這是貓,還可以進一步識別這是什么品種的貓。我們發現大類信息可以通過先正后負的反饋信息幫助小類信息識別。第一步是正反饋(Push feedback),其作用是壓制類間的噪音。
69、假設高級腦區識別出物體是一只貓,就告訴低級腦區不要再處理狗的信息了。這是正反饋,增強貓的信息,壓制狗的信息。第二步是負反饋(Pull feedback),其作用是壓制類內的噪音,即在貓的信息中把貓共性平均值減去,把不同貓之間的細微差別放大。圖 17:Push-pull feedback for hierarchical information processing總的說來,生物視覺的識別機制和深度神經網絡的圖像識別機制有非常大的區別,生物的視覺識別涉及自上而下通路和自下而上通路的交互,而深度神經網絡只模擬了第二種通路。自上而下的視覺通路涉及生物視覺感知的全局性、拓撲性和多解性等特點,而這或許就
70、是深度神經網絡下一步的改進方向。認知神經科學和人工智能應該多互相對話、互相借鑒,按照過去的經驗,這樣做經常能帶來驚喜。49 中科院研究員余山:從腦網絡到類腦計算整理:AI 科技評論他山之石,可以攻玉。對于人工智能研究,腦科學無異是最重要的他山之石了。近年來,人工智能在經歷過一波由深度學習帶來的火爆之后,已然進入深水區;如何通向強人工智能,逐漸成為智能研究的各界人士共同關注的中心話題。類腦計算正是智能研究人員嘗試以腦科學之石攻智能之玉的重要方向。圖 1:對于大腦我們仍有很多未知6 月 22 日,在第二屆智源大會“認知神經基礎專題論壇”上,中國科學院自動化研究所余山研究員作了“From Brain
71、 Network to Brain-like Computation”主題報告。余山研究員借鑒 Marr 對視覺體系的劃分,將類腦計算的研究分為四個層面:硬件、算法、計算、學習。針對每一層面,余山研究員做了或簡或詳的介紹,頗具啟發性。50圖 2:Marr 將類腦計算的研究分為四個層面余山研究員認為,盡管當前人類對大腦的認知并不充分,但這并不阻礙智能研究的各界人士去借鑒已有的神經科學和腦科學的知識,從而來發展對智能系統的研究和設計。一、硬件層面:存算一體設計結構傳統計算機使用的是馮諾依曼架構,其基本架構包括控制器、運算器、記憶單元、輸入系統和輸出系統等五個組成部分;其中控制器和運算器構成了處理單
72、元(CPU)。做數據處理時,計算機把數據從存儲單元調到處理單元,運算之后再返回到存儲單元。但這種操作方式,會導致存儲單元和處理單元之間進行非常高頻的數據搬運,從而帶來極高的能耗。51圖3:計算 頻率與能量密度的關系(時鐘頻率代表數據在存儲單元和處理單元之間調用的速度,能量頻率代表功率)近年來計算機迎來了高速發展,GPU 時鐘頻率不斷提升,但也帶來了能量密度逐年提升的問題。以 IBM 在2000 年開發的一個用來做生物信息學研究的計算機為例,其包含了 144TB 的內存,14 萬個處理器,功耗高達1.4 兆瓦。每當這臺計算機運行時,就必須有一個專門的電站為其供能。反過來,我們看人腦,具有如此高的
73、智能,然而其功耗卻只有 20 瓦左右,僅相當于一顆黯淡的白熾燈的能耗。如此大的差別,原因是什么呢?原因自然很多,但重要的一點是,不同于馮諾依曼機,人腦的計算是“存算一體”。在人腦的神經網絡中,信息的存儲和處理并不分開,神經網絡本身即是存儲器,又是處理器。借鑒人腦的這種特點,近年來,有越來越多的研究團隊加入了“存算一體”芯片研制中,其中 IBM 研制的TrueNorth 和清華大學研制的 Tianjic 是這方面最出色的代表。這種芯片被稱為神經形態或神經擬態芯片,極大地解決了數據頻繁搬運所帶來的能耗問題。二、算法層面:借助突觸式信號傳遞在算法層面,生物腦和人工神經網絡之間具有非常重要聯系。余山研
74、究員在報告中提了兩個例子。第一個例子是突觸的概率釋放與 Dropout 算法之間的關系。在生物神經網絡中,神經元之間的連接是通過一個叫做突觸的結構進行的,這個結構也是兩個神經元之間進行信息交互的地方。當前神經元有一個動作電位時,它會釋放某種神經遞質,這種遞質被后神經元吸收之后便會52轉化為電信號,從而實現電信號在神經元之間的傳遞。在兩個神經元之間信息傳遞的關鍵是:電信號促使化學物質釋放。這種方式存在缺點,即神經沖動導致神經遞質釋放并不總是成功成功概率的中位數僅在 0.20.3 之間,即有 80%左右的概率會出現信息傳輸失敗。然而,如此低的成功率卻有它獨特的意義。低成功率,可以使神經網絡更快、更
75、好地學習。人工神經網絡訓練方法 Dropout 正是對這種現象最好的借鑒:在網絡訓練時,隨機關閉某些神經元;而在測試時,讓所有神經元都工作。結果顯示,利用這種方法,神經網絡的學習能力將有明顯地提高。第二個例子是有關神經網絡的臨界狀態。我們先介紹一個概念:神經元的傳播系數。簡單來理解,即一個神經元能夠激活的神經元個數。圖 4:神經元的傳播系數系統穩定性之間存在聯系我們看上圖,當傳播系數大于 1 時,隨著時間的發展,系統中信號的傳播將會產生爆炸;而當傳播系數小于 1時,由于每一次傳播后激活神經元的個數都在變少,因此最終信號會呈指數消退;只有當傳播系數等于 1 時,系統才會保持相對的穩定。我們將這種
76、傳播系數等于 1 的穩定狀態稱為臨界狀態,把傳播系數大于 1 的情況稱為超臨界狀態,小于 1 的情況稱為亞臨界狀態。顯然無論是亞臨界還是超臨界狀態,都不利于信息的傳遞和處理。只有在臨界狀態,信息才能夠通過神經元的活動把信息保持并傳播下去。53圖 5:Critical state and Reservoir Computing臨界狀態下,網絡錯誤率往往會比較低。但從上圖中可以看出,臨界狀態是非魯棒的,稍微有一點擾動,其性能便會受到很大的影響。如何解決這一問題,使神經網絡在保持高性能的情況下同時還具有較高的魯棒性?大腦給了我們可以借鑒的答案:自適應機制。圖 6:自適應模型可以有效擴展臨界狀態寬度5
77、4神經科學家根據生物實驗,提出了模擬模型,讓網絡模型能夠自適應地學習傳播系數。結果如上圖所示,正常情況下,臨界狀態很窄;而采用自適應模型,臨界狀態的寬度便能大大增加。圖 7:Deteriorating dynamic range in deep networks同樣的,在人工神經網絡中,也存在著信息傳輸所帶來的網絡爆炸或快速消失問題,即所謂“梯度消散”。針對這一問題,目前主流的解決方案是用 Batch Norm 或 Layer Norm,也即在人工神經網絡中,每兩個處理層次之間添加一個專門的處理層;這個層的作用是把前面傳來的信號做增強或衰減的調整,從而使后面層的反應不至太強或太弱。但新增層必然
78、會帶來額外的計算負擔。大腦就沒有這種額外層。能否借鑒大腦的機制,通過某種方式,在不使用額外層的情況下,同時還能夠保持網絡的信息傳播平衡呢?三、計算層面:情境相關相較于算法層面,在計算層面的借鑒稍顯抽象。余山研究員結合他們近期發表在Nature Machine Intelligence上的一篇工作(Continual Learning of Context-dependent Processing in Neural Networks),做了相應的介紹。人類作為智慧生物,最重要的特征便是能夠 適應環境變化,實現自身目的。人類大腦不僅可以在新的環境中不斷吸收新的知識,而且可以根據不同的環境靈活調整
79、自己的行為。55作為對應,當前以 DNN 為代表的神經網絡,盡管可以建立輸入輸出之間非常復雜的映射關系,用于識別、分類和預測。但是一旦學習階段結束,它所能做的操作就固化了,既難以方便的學習新的映射,也不能對實際環境中存在情境信息(比如自身狀態、環境變化、任務變化等)做出靈活的響應,難以滿足復雜多變的需求,即缺少情境依賴學習(contextual-dependent learning)的能力。那么,我們如何借鑒腦科學知識呢?圖 8:PFC and Cognitive Control據腦科學家的研究表明,大腦的結構,除了感覺輸入、運動輸出這個通路之外,還存在一個調控的通路(主要在大腦前額葉發揮作用
80、,因此也可以說,前額葉區決定了人的隨機應變能力)。這個調控通路在很大程度上決定了人的靈活應變能力。56圖 9:PFC-like module受此啟發,余山等人提到了一種 PFC-like 的新網絡架構,在輸入輸出之間加入了一個情境處理模塊(CDP)。CDP 模塊的作用便是在輸入輸出之間,根據 Context 對結果進行旋轉,從而能夠依據上下文動態調整網絡內部信息。它包括兩個子模塊:1.編碼子模塊,其負責將情境信息編碼為適當的控制信號;2.“旋轉”子模塊,其利用編碼模塊的控制信號處理任務輸入(由于其功能上相當于將特征向量在高維空間上進行了旋轉,故稱為“旋轉”子模塊)。結果喜人!57圖 10:Co
81、ntext-dependent face recognition(注:同一個分類器對于同樣的輸入,連續學習 40 種不同人臉屬性的分類任務,正確率與用 40 個分類器的系統幾乎一致。)他們在 CelebA 數據集上進行測試。按照傳統的模型,針對數據集上的 40 個類型,需要訓練 40 個模型才能完成任務,而采用 CDP 模塊后,一個模型能解決所有分類問題,且性能不降。若想進一步了解這個奇妙的思想,可參看文章:國內首發 Nature 子刊 Machine Intelligence 論文:思想精妙,或對 DNN 有重大改進!四、學習層面:連續學習和情境依賴學習層面,神經網絡面臨的一個重要問題是災難
82、性遺忘,即神經網絡在學習不同的任務時,如果不是把不同任務的訓練樣本混在一起去訓練,往往在學習新的任務時候,網絡就會把從舊任務中學到的知識忘掉。58圖 11:Catastrophic forgetting以上圖為例,先讓神經網絡識別狗,得到一個性能非常高的網絡;繼而再讓網絡去學習識別貓,這時網絡的權重就會重新調整;學完之后再拿來去識別狗,神經網絡的性能就會大幅下降,甚至不能使用。原因就在于,當學習貓的任務時,網絡把針對狗的任務學到的知識給忘了。然而,人腦卻沒有這種所謂災難遺忘的問題。人類先后順序地學習不同的任務,最后識別能力還能不斷提升。針對這一問題,余山研究員在上面提到的那篇文章中提出一種稱為
83、正交權重修改(Orthogonal Weights Modification,OWM)的算法。圖 12:OWM 算法原理示意圖。(a):在權重更新時,OWM 算法只保留傳統 BP 算法計算的權重增量中與歷史任務輸入空間正交的部分;(b):在新任務中,OWM算法將神經網絡對解的搜索范圍約束在舊任務的解空間中。59OWM 算法的核心思想很簡單,即通過 P 映射之后,學習新任務的解仍然在舊任務的解空間當中。正如其名“正交權重修改”,在學習新任務時,只在舊任務輸入空間正交的方向上修改神經網絡權重。如此,權重增量幾乎不與以往任務的輸入發生作用,從而保證了網絡在新任務訓練過程中搜索到的解,仍處在以往任務的
84、解空間中。數學上,OWM 通過正交投影算子 P 與誤差反傳算法得到的權重增量 w 作用來實現其目的,即最終的權重增量w=kpw,這里 k 為系數。OWM 算法實現了對網絡中已有知識的有效保護,并可以與現有梯度反傳算法完全兼容。圖 13:Performance on larger dataset-ImageNet如上圖所示,余山等人在 ImageNet 上做了測試,選取 1000 個類,特征提取器使用 ResNet152,在訓練分類器時:1)當采用傳統的 SGD 方法,任務混合訓練時,準確率為 78.31%;2)在采用 SGD,但所有任務順序訓練時,準確率直降到 4.27%,這正是災難性遺忘的結
85、果;3)當采用 OWM 方法,任務順序訓練時,結合經過預訓練的特征提取器,準確率能夠達到 75.24%,性能媲美于 SGD 的混合訓練。60圖 14:Performance on HWDB dataset余山等人同樣在手寫字數據集 HWDB 上進行了測試,包含 3755 個類,特征提取器選用 ResNet18,同樣可以看到,采用 OWM 順序訓練分類器依然能夠保持較高的性能。值得一提的是,算法具有優良的小樣本學習能力,以手寫體漢字識別為例,基于預訓練的特征提取器,系統可以從僅僅數個正樣本中就能連續的學習新的漢字。上圖中顯示在 3755 個類(漢字)上,僅需要在 10 個類上進行連續學習,便能夠
86、達到 90%以上的性能。OWM 算法有效地克服了災難性遺忘的難題,使得單個神經網絡不僅可以先學狗再學貓,而且可以逐漸的學習多達數千個類型的識別。這一新型學習算法和前面介紹的情境依賴處理(CDP)模塊配合,能夠使人工神經網絡具備強大的連續學習和情境依賴學習能力。其中,OWM 算法可以有效克服神經網絡中的災難性遺忘,實現連續學習;而受大腦前額葉皮層啟發的 CDP 模塊可以有效整合情境信息,調制神經網絡的信息處理過程。二者結合便有望讓智能體通過連續不斷的學習去適應復雜多變的環境,從而逐步逼近更高水平的智能。五、先驗知識、語義理解和記憶除了上面四個層次的借鑒之外,余山老師還介紹了如何將先驗知識壓縮并注
87、入神經網絡、從符號計算到語義理解、從有監督的分類訓練到無監督的重構和預測等類腦計算的思路。如何將先驗知識壓縮并注入神經網絡。認知學家曾經做過一個實驗,即從小教一個黑猩猩學習語言,發現黑猩猩在語言學習上遠遠不能達到人類的高61度。這說明我們人類大腦有先天的神經結構能夠讓我們容易學習語言,這種先天結構即為先驗知識。作為對比,當前的神經網絡基本上沒有先驗知識,都得從頭學起。那么我們是否可以借鑒大腦積累先驗知識的機制,來設計人工神經網絡呢?從符號計算到語義理解。目前的自然語言處理系統訓練的材料是語料,純粹是文字或符號。以中文屋(Chinese Room)實驗為例,里面純粹是做一些非常簡單的信息處理工作
88、,只是一個符號到符號的處理過程,并沒有真正理解內在的含義。因此 NLP 的研究,若想克服這個問題,未來必然需要向大腦學習。有監督的分類訓練到無監督的重構和預測。當前,訓練好的做分類任務的神經網絡在復雜環境下往往性能并不好。但對比一下,人類的視覺系統并沒有使用監督信號去訓練分類任務,例如小孩學習識別物體,完全是靠自監督的方式看這個世界的。因此,真正的強人工智能可能并不是現在這種端到端的有監督訓練,而是采用類腦的分階段的、包含無監督或自監督的訓練方式。最近機器學習領域的進展,也說明了這一策略正逐漸受到人們的關注。六、結語余山研究員總結道,雖然我們對于大腦的了解尚不完備,生物腦和人工神經網絡的結構也有很大的差異,但是這并不是開展類腦計算研究的本質障礙。神經科學和認知科學的研究已經發現了大腦的很多機制性原理,這些知識足夠指導我們不斷改善智能系統的設計,最終有望實現在不同層面上受腦啟發的更加強大和高效的人工智能系統。