BAAI:2021年人工智能的認知神經基礎白皮書(107頁).pdf

編號:60464 PDF 107頁 3.38MB 下載積分:VIP專享
下載報告請您先登錄!

BAAI:2021年人工智能的認知神經基礎白皮書(107頁).pdf

1、 人工智能的認知神經基礎Brain and Machine Intelligence 智源人工智能的認知神經基礎重大研究方向 編著 白皮書| 北京智源人工智能研究院 2022 年 1 月 版權聲明 該白皮書:人工智能的認知神經基礎(2021 年)由北京智源人工智能研究院人工智能的認知神經基礎重大研究方向所著,旨在通過促進交叉領域的學術交流, 為學科創新發展提供前沿動態和趨勢洞察。 本白皮書著作權受法律保護,轉載、摘編、翻譯或利用其他方式使用本白皮書觀點的,應注明來源。 指導專家 劉 嘉 智源首席科學家,清華大學腦與智能實驗室研究員 宋 森 智源研究員,清華大學生物醫學工程系研究員 吳 思 智源

2、研究員,北京大學心理與認知科學學院教授 方 方 智源研究員,北京大學心理與認知科學學院教授 余 山 智源研究員,中國科學院自動化研究所研究員 陳良怡 智源研究員,北京大學未來技術學院教授 編寫組成員 張 博 智源博士后,人工智能的認知神經基礎重大研究方向 蘇 杰 智源博士后,人工智能的認知神經基礎重大研究方向 蔣龍生 智源博士后,人工智能的認知神經基礎重大研究方向 陳智強 智源博士后,人工智能的認知神經基礎重大研究方向 陳路瑤 智源博士后,人工智能的認知神經基礎重大研究方向 鄒曉龍 智源博士后,人工智能的認知神經基礎重大研究方向 劉 祥 智源博士后,人工智能的認知神經基礎重大研究方向 徐琳璐

3、智源博士后,人工智能的認知神經基礎重大研究方向 秦方博 中國科學院自動化研究所助理研究員 韓 程 中國科學院自動化研究所博士研究生 搭建腦科學與人工智能的橋梁 智源研究院院長 黃鐵軍 智源研究院 2021 年度人工智能的認知神經基礎白皮書如期和大家見面了!延續去年的傳統,今年的白皮書盤點了神經科學、認知科學、智能技術等相關領域的重要進展;同時,與去年不同的是,除了從認知科學和神經科學兩大領域系統梳理重要進展及對人工智能的啟示外,今年還集中介紹了類腦視覺、腦機接口和交叉學科技術這三個方向的熱點和趨勢,以饗讀者! 腦科學對人工智能的重要性不言而喻。 把人工智能這個概念送上歷史舞臺的1956 年達特

4、茅斯夏季研討會共討論了七大問題,問題 3 就是“神經網絡:一群神經元是如何形成概念的?”,我認為這是人工智能需要回答的最重要的問題,也是腦科學需要回答的最重要的問題。 “一群神經元”,這是神經科學的研究對象,“形成概念”,這是認知科學的研究對象,這個最重要的問題,正是認知科學和神經科學的連接點。認知科學研究智能現象,主要采用自頂向下的方法,神經科學研究腦的結構,主要采用自底向上方法。 認知科學和神經科學都屬于腦科學,它的研究對象是腦及其智能現象,被稱為“自然科學的最后疆域”,進展速度不如人工智能那么讓人眼花繚亂。這是因為,人工智能是一門技術,目的是構造越來越智能,因而越來越復雜的系統,它的進步

5、比較容易看得到。相比之下,生物神經系統是個盤根錯節的黑暗叢林,生物智能是復雜的動力學現象,還缺乏有效的數學工具,因此任何一點兒進步都十分艱難。 人工智能并不能因為進步快而沾沾自喜。 當前人工智能系統和生物神經系統相比, 還是小巫見大巫。 例如智源研究院去年發布的人工智能大模型 “悟道 2.0”,參數規模達到 1.75 萬億,但還不到人類大腦連接數量的 2%,而且其基本單元和連接方式都比生物系統簡單得多。視覺是研究人員最多、應用最廣的方向,但是已有視覺模型都難望生物視覺之項背,今年熱點是視覺大模型,如果要在像素級進行視覺空間關系訓練,集合全球算力都不夠,更逞論時空關系聯合訓練。 說到算力,人們往

6、往會說強大的人腦是個低功耗系統,這是認識錯位。用人工智能的術語來說,人腦的低功耗是“推理”過程低功耗,而不是“訓練”過程低功耗。人腦是億萬年進化的產物,進化就是一種訓練過程,大自然訓練出人腦這個復雜網絡,消耗了巨量太陽能,相比之下,全球算力功耗算得了什么呢? 推 薦 語 這就是人工智能離不開腦科學的原因。以“機器學習+大數據/復雜環境+大算力”模式訓練大規模智能模型,確實可以解決不少問題,但天下沒有免費的午餐,強大智能是以巨大訓練成本為前提的,訓練人腦花費的“天價”,人類付得起嗎?因此,借鑒生物大腦這個已經訓練成功的“藍本”,模擬生物大腦的精細神經結構和信息加工機理,卻可能是實現更強大、更通用

7、人工智能的最短路徑。 借鑒腦科學研究成果,并不是說默默等待腦科學最新進展,事實上,腦科學大量已有進展尚未在人工智能領域得到有效利用。例如,目前人工神經網絡所用的神經元模型,還是 1943 年的麥卡洛克-皮茨(M-P)模型,訓練的理論依據,還是 1949 年提出的赫布學習規則(Hebb Learning Rule)。在腦科學領域,有許多與智能行為密切相關的認知范式、神經活動機理等“寶藏”等待人工智能領域研究者開發和利用, 并以此推動生物智能啟發的人工智能模型算法研究新范式。 因此,智源研究院于 2020 年 8 月,設立“人工智能的認知神經基礎重大研究方向”,就是要促進腦科學和人工智能的交叉,促

8、進兩個領域學者的交流和合作。 作為認知神經基礎重大研究方向的重要成果,智源生物智能開源開放平臺已經在去年正式上線。同時智源研究院還在去年設立了生命模型研究中心,從模擬高精度生命系統的角度開展交叉領域前沿探索。 為了進一步加強腦科學和人工智能的合作, 架起連接腦科學與人工智能的實際橋梁,我專門造了一個新詞:“智元(Wiston)”,意思是具有獨立智能功能的基本神經回路。事實上,腦科學已經發現了很多“智元”,例如這份報告第 2章提到的位置細胞和網格細胞、第 3 章提到的吸引子網絡、贏者通吃網絡,眾所周知的視皮層簡單細胞和復雜細胞,以及近期熱門的記憶痕跡細胞等,已經遍及感知、定位、學習、決策、記憶等

9、多種智能??上У氖?,這些進展都沒跳出“細胞/神經元”這個神經科學術語,因此我提出“智元”概念,就是要把相對獨立的智能和實現這種智能的一群神經元 (及其網絡連接) 作為一個整體單元。 以 “智元”作為基本單元構造的人工智能系統,將是可解釋、可預期和可信任的。 當然更重要是,從“智元”開始,我們就已經開始回答“一群神經元是如何形成概念的?”這個最重要的問題了。 1 前 言 近年來人工智能技術得到了快速的發展,引起了各界的廣泛關注。隨著計算機算力和大數據可及性的快速提升, 以深度人工神經網絡為核心的人工智能系統在物體識別、自然語言處理等領域取得了令人矚目的成績,在圍棋、星際爭霸等競技游戲中一騎絕塵,

10、甚至在蛋白質結構解析、提出和解決數學難題等方面展現出超越人類專家的潛力。但目前的人工智能與通用智能之間,還存在巨大的能力鴻溝。而大腦作為通用智能的唯一樣本,為人工智能的發展提供了重要參照。智源 “人工智能的認知神經基礎”重大方向(Brain and Machine Intelligence)旨在從生物腦如何實現智能的角度,對于人工智能的發展提出有啟發的問題,提供可資借鑒的原理、模型、算法和系統實現方案,從而促進類腦智能的發展,推動人工智能向人類水平,甚至超越人類的水平逐漸逼近。每年發表的白皮書就是我們的嘗試之一,希望通過它向大家梳理腦科學、認知科學和類腦智能方向上最值得關注的動態和進展,并分享

11、我們對于這些方向未來發展趨勢的思考。 計算神經科學的先驅,英國科學家 David Marr 曾經提出,可以從三個層面理解腦的工作原理,首先是計算的層面 (Level of Computation) , 即腦在做什么計算,以及為什么要做這個計算;其次是表征 /算法的層面 (Level of Representation/Algorithm),即腦在計算過程中的信息如何表征,選擇什么算法來實現計算目標;最后是物理實現的層面(Level of Implementation),即腦選擇什么樣的硬件實現形式來執行這些計算。今年的白皮書中,上述三個層面的研究進展都會有所涉及。 在計算層面, 我們重點介紹了

12、具身認知 (Embodied Cognition) 理論和全局工作空間(Global Workspace Theory, GWT)理論。與當前主流人工智能主要基于被動觀察與識別,往往不具有具體物理形態的范式不同,具身認知認為,認知過程無法脫離身體而進行,推廣開來,整個環境和個體的行為同樣是認知的重要組成部分。個體通過感知外部環境,進行決策,生成相應動作與環境交互,以此改變環境,這個過程周而復始,促成了智能的形成和發展。全局工作空間理論則是 2 由美國心理學家 Bernard Baars 在上世紀 80 年代作為一種意識模型而提出的認知架構, 后來發展為 “全局神經元工作空間” (Global

13、Neuronal Workspace, GNW) 。GNW 如同一個分布式路由器, 同各個腦區的眾多神經元存在關聯, 從而可以放大、維持信息,并提供給各個處理模塊使用,從而實現全局的信息共享和處理。 在表征/算法層面,我們今年聚焦于腦中認知地圖的表征以及神經流形這兩個重要的研究領域。 位于腦中海馬體及其鄰近腦區中存在表征空間特征的位置細胞(Place cell)和網格細胞(Grid cell),近年來的研究揭示這一系統可能不僅涉及空間記憶與導航,而且可能參與了物理空間認知以外的信息處理,比如圖片空間、嗅覺空間,甚至關系空間的表征,提示腦中可能用一套通用的機制在處理一系列表面上截然不同, 但是具

14、有深刻共性的信息維度。 神經流形(Neural manifold)則是利用動力學的理論和觀點來理解眾多神經元構成的群體如何開展高效計算的有力工具。 通過流形向量場這一精確的數學語言對神經電生理信號進行分析已經開始回答很多有關神經群體編碼的關鍵問題。 在物理實現層面,我們重點介紹了受生物視網膜啟發的動態視覺傳感器(Dynamical vision sensor,簡稱 DVS)和脈沖攝像頭(Spiking camera)。與傳統的視覺傳感器不同, 這兩類模擬視網膜的感知設備能夠將圖像信息轉化為脈沖事件流進行表征,具備高動態范圍、高時間分辨率、低能量消耗以及高像素帶寬等特性。相應的,我們也系統地梳理

15、了適宜于處理脈沖事件流信號,并可以開展運動目標快速探測、有效跟蹤和精確識別的類腦視覺計算模型和算法。 在上述三個方面的內容之外, 我們還針對腦科學與類腦智能研究中近年來涌現的新技術,特別是腦機接口技術、新型腦成像、連接組學與數據處理方法等進行了梳理和介紹。腦機接口通過對于腦活動信息的檢測和調控,在腦與外部世界間建立直接的信息通訊接口。這一技術的發展,有望對于人與環境、人與人的交互方式帶來根本變化,從而引起社會、經濟、教育、軍事、醫療等眾多領域的顛覆性變革。新型腦成像、連接組學與數據處理方法,展現了以往觀察不到的神經活動細節,解析了神經網絡中各部分的相互作用機制,從而促進人們進一步理解神經系統的

16、設計原則。 3 編寫白皮書的過程是我們一年一度盤點神經科學、認知科學、智能技術等相關領域重要進展的過程,也是我們不斷思考什么是智能,以及如何發展類腦智能的過程。希望這些努力能讓對于這些領域的進展感興趣,也對回答這些問題感興趣的讀者有所收獲。與此同時,經過人工智能的認知神經基礎方向各位同仁一年多的努力,智源生物智能開源開放平臺(Bio-Intelligence Opensource Platform, BIOSP)已經在 2021 年正式上線,該平臺旨在通過開源開放數據、模型、算法、軟件工具等一站式科研資源的方式,為認知科學、神經科學和計算科學及相關交叉領域的研究人員、 學生和相關從業者搭建一個

17、服務智能科學研究的平臺型基礎設施, 進而推動和支撐國內腦啟發的通用智能研究工作。希望每年一版的白皮書和不斷完善的開源開放平臺能夠助力中國腦-智研究的交叉融合,促進類腦通用智能的早日實現。 4 目 錄 前前 言言 . 1 1 第第 1 1 章章 認知科學對人工智能的啟示認知科學對人工智能的啟示 . 6 6 1.1 具身主義認知科學的興起 . 7 1.1.1 符號主義與聯結主義認知科學 . 7 1.1.2 具身認知與強化學習 . 8 1.1.3 多智能體交互與共識主動性 . 11 1.2 全局工作空間理論 . 12 1.2.1 人類的認知架構 . 12 1.2.2 元認知與元學習 . 18 1.2

18、.3 深度學習與全局隱空間理論 . 22 1.3 總結與展望 . 23 第第 2 2 章章 神經科學進展神經科學進展 . 2828 2.1 單神經元編碼與抽象表征 . 29 2.1.1 從位置細胞,網格細胞到物理世界的神經編碼 . 29 2.1.2 從物理空間到抽象空間的神經編碼 . 31 2.2 神經元群體編碼:神經流形 . 34 2.2.1 什么是神經流形 . 34 2.2.2 有關神經流形的實驗發現 . 36 2.2.3 流形的維度 . 38 2.2.4 流形與線性解碼的關系 . 40 2.2.5 流形上的動力學 . 43 2.2.6 流形向量場和循環神經網絡 . 45 2.2.7 總結

19、和展望 . 46 第第 3 3 章章 類腦視覺類腦視覺 . 5151 3.1 類腦視覺從采集信號開始 . 52 3.2 類腦視覺的基本計算模型 . 54 3.2.1 運動目標快速探測的類腦模型 . 54 3.2.2 運動目標預測跟蹤的類腦模型 . 56 3.2.3 運動目標識別的類腦模型 . 58 3.3 總結與展望 . 60 第第 4 4 章章 腦機接口技術與應用腦機接口技術與應用 . 6464 4.1 腦機接口技術及其發展趨勢 . 65 4.2 植入式腦機接口芯片 . 66 4.2.1 高通量低功耗技術 . 67 4.2.2 無線化技術 . 68 4.2.3 未來展望 . 69 4.3 柔

20、性電極植入機器人 . 69 4.3.1 國際研發進展 . 70 4.3.2 國內研發進展 . 71 4.3.3 面臨的挑戰 . 72 5 4.4 腦機接口技術的應用 . 72 4.4.1 下行腦機接口 . 73 4.4.2 上行腦機接口 . 76 4.4.3 未來展望 . 79 4.5 總結與展望 . 79 第第 5 5 章章 交叉學科技術進展交叉學科技術進展 . 8282 5.1 高精度高信息量的數據獲取方法 . 83 5.1.1 稀疏解卷積通過計算提高成像分辨率 . 83 5.1.2 多色成像揭示系統全景組分 . 86 5.1.3 腦連接組反應組織設計原則 . 87 5.2 智能化數據處理

21、手段 . 92 5.2.1 更智能的圖像數據處理 . 92 5.2.2 智能化的生物大數據分析 . 94 5.3 總結與展望 . 97 結結 語語 . 101101 6 第1章 認知科學對人工智能的啟示 近年來,人工智能領域在第三次浪潮爆發后經歷了快速的發展,許多特定領域的專用人工智能算法已經大幅度超越了人類的水平, 并在工業生產和社會生活中得到了廣泛的應用。盡管如此,主流的觀點仍然認為,目前深度學習算法的本質依然是海量數據驅動的統計學習, 距離人類更加復雜的高級認知功能仍然存在本質上的差別。如何彌補這種差異,從而推動人工智能從弱人工智能到強人工智能的轉變,已經成為許多從業者開始思考并著手解決

22、的重大難題。 認知科學(Cognitive Science)是一門研究認知如何工作的交叉學科,自誕生之初便與人工智能有著密不可分的關系。 認知科學的相關理論數次推動了人工智能的發展,而人工智能作為人類模擬大腦功能的嘗試,其本身也可以看作是認知科學理論的一種實踐和驗證。在本章中,我們將簡要介紹認知科學的具身主義流派以及可能對實現通用人工智能具有一定指導意義的全局工作空間理論, 并對它們與人工智能的關系做一些簡單梳理。 7 1.1 具身主義認知科學的興起 1.1.1 符號主義與聯結主義認知科學 在探索智能的道路上,現代意義的認知科學主要經歷了兩個時代:符號主義時代(Symbolism)和聯結主義時

23、代(Connectionism)1。符號主義嘗試通過操作具有特定含義的符號來實現“智能”, 這一思想被后人概括為物理符號系統,典型的例子是 Alan Turing 在 1936 年提出的圖靈機概念(圖 1.1 左) ,通過讀寫頭在紙帶上標記二進制信息(有孔和無孔)來實現相應的計算功能。圖靈機概念的成功讓以 Allen Newell 和 Herbert A. Simon 為首的研究者們相信,通過對符號進行操縱,有限的符號最終可生成無限的信息,最終實現智能。符號主義浪潮推動了電子計算機的發展,使其在 20 世紀的戰爭、工業、甚至我們的生活中被廣泛使用,而基于符號主義的人工智能也取得了專家系統、計算

24、機推理等諸多輝煌的成就盡管當時許多研究者認為真正意義上的人工智能近在眼前, 但符號主義在那些不適定問題(ill-posed problems)上卻屢屢受挫,止步不前。 圖 1.1 左:符號主義的代表圖靈機; 右:哲學家 William James 在 1890 年提出的最早的連接主義模型1 人們開始意識到, 古典認知科學所倡導的符號主義衍生出的產品與人腦的智能相差甚遠。要實現智能,應該讓機器的運作機制向人腦的神經元機制靠攏,由此,受神經科學的發展推動,聯結主義時代到來,雖然人工神經網絡的雛形早在1890 年已經由哲學家 William James 提出(圖 1.1 右) 。相比于物理符號系統直

25、接讀取特定的符號信息,人工神經網絡嘗試讀取輸入源的統計形態信息,并以表征的形式在輸入和輸出信號之間建立統計關系,以達到學習和預測的目的。在經 8 歷了幾次起起落落之后,當前,由聯結主義思想衍生出的深度神經網絡(Deep Neural Network, DNN)已取得了巨大成功, 尤其在人臉識別、 圖像重建等領域,深度神經網絡為人們的生產生活提供了許多便利。 值得注意的是,符號主義與聯結主義雖然源自不同的哲學思想,但并不意味著兩者水火不相容?;诼摻Y主義的神經網絡雖然能夠很好的解決圖像分類、識別、語音識別、語義理解等任務,但其背后的原理和可解釋性問題一直困擾著人們, 而符號主義有著更深刻的哲學和

26、數學基礎,在處理串行等問題上更加簡潔有效。因此,近年也有一些研究者嘗試構造混合模型,以綜合這兩者的特長。 歷史上, 人工智能的幾次繁榮和低谷都與符號主義和聯結主義認知科學的發展密切相關(圖 1.2) 。雖然基于聯結主義思想的深度神經網絡目前還處在發展的高峰,但受限于樣本量小、泛化能力差、能耗大、語義理解欠缺等瓶頸,當前的深度神經網絡所達到的“智能”與人們所向往的類腦通用智能還相差甚遠。 那么, 我們如何做才能實現這樣的智能?結合神經科學近年來的重要發現,我們認為,以 Lawrence Shapiro 為代表的學者提出的具身主義浪潮會在不遠的將來到來。 圖 1.2 符號主義與聯結主義相關文獻數量

27、隨時間的變化,修改自2 1.1.2 具身認知與強化學習 古典認知科學中的三明治模型(sandwich theory)認為,由智能驅動的認知過程可以視作一個由感知、思考、和動作(sense-think-act)這 3 個獨立的 9 元素所構成的回路1(圖 1.3) ,通常人們主要關注的是其中的 Think,卻有意無意的將另外兩部分弱化。而具身認知(Embodied cognition)認為,人的認知過程無法脫離身體而進行,推廣開來,整個環境和個體的行為同樣是認知的重要組成部分,個體(agent)通過感知外部環境,產生思想并通過計算后,生成相應動作與環境交互,以此改變和影響環境,這個過程周而復始,

28、這就是智能。 圖 1.3 古典認知科學中的三明治模型1 地球上的動物經歷了幾億年的演化(Evolution)而表現出了顯著的具身智能,這使得它們能夠在復雜的環境中生存、學習,并與其他個體、其他物種和環境進行交互。 在行動中,動物為了趨利避害往往會更加頻繁的采取對自己有利的行為策略。經過一段時間的學習之后,這些行為被強化(reinforce) ,甚至變成習慣而固定下來,這種學習方式稱為強化學習(Reinforcement Learning) 。在強化學習中,智能體不斷與環境進行交互并得到反饋(Feedback) ,通過試錯(trial-and-error)的方式去總結哪些行動可能會帶來更好的收益

29、(Reward) ,以便于更好的適應環境。如果我們把時間尺度放大,在個體的強化學習之外,自然或環境本身還會提供一種優化算法,即通過自然選擇篩選種群,并通過基因突變來避免陷入局部極值點。 基于具身認知, 李飛飛團隊提出了一個同時包含這兩者的計算框架, 稱為深度進化強化學習(Deep Evolutionary Reinforcement Learning, DERL)3。在該框架下,智能體可以在多個復雜環境中執行不同的任務。在這項研究中創建的具身智能體可以在平地、 多變地形等不同環境中執行巡視、 導航、 避障、 探索、逃脫、爬坡、推箱子和控球等多種不同的任務(圖 1.4) 。DERL 為計算機模擬

30、實驗中大規模具身智能體的創建打開了一扇門, 這有助于獲得有關學習和進化如何 10 協作以在環境復雜性, 形態智能以及控制的可學習性之間建立復雜關系的科學見解。 此外, DERL 還減少了強化學習的樣本低效性的情況。 智能體的創建不僅具有所需使用的數據更少的優勢,而且還可以泛化解決其他多種形式的新任務。 圖 1.4 具身智能體能夠在不同環境中執行多種任務3. 無獨有偶,DeepMind 團隊也進行了相似的研究4,通過自動生成大量不同的環境和游戲目標, 智能體可以接受各種各樣任務的訓練 (圖 1.5) , 在大規模的開放(Open-Ended)環境中,智能體甚至學會了舉一反三,做到了現有深度神經網

31、絡難以做到的零樣本學習(Zero-Shot Learning) 。強化學習和進化對于具身智能體和通用智能的重要性可見一斑。 圖 1.5 Open-Ended Learning 中的開放環境 XLand4 具身智能體的一個顯著特征是可以利用不同的感覺器官獲取環境的信息進行整合,并執行多種不同的任務。例如,動物們可以通過視覺、聽覺、觸覺等不 11 同的感官獲取環境信息,并進行覓食、逃跑、遷徙等等。而當前的人工智能大多只能執行非常單一的或者少數任務,即便是 DeepMind 宣稱的可以執行幾百萬種不同任務的智能體, 仍然有具體任務相似性太高的缺陷。 與之形成鮮明對比的是,生物智能體能夠執行的任務種類

32、要多得多,并且通常涵蓋多種不同的認知功能。 在認知科學中, 我們經常通過不同的任務范式去研究人類智能的一些特征甚至缺陷。這些任務范式通常是為了特定實驗目的定制的, 然而其中的一些單一任務對于目前的人工智能而言仍然有一定的難度, 更不用說讓智能體同時完成多種任務。值得一提的是,在智源的生物智能開源開放平臺中,我們開放了 30 多種不同的人類認知行為范式, 實驗主題包括客體識別、 注意、 記憶、 語言、 數量感、音樂、空間認知等,每種任務都包含大量人類被試的行為數據。我們認為,這些任務可以供新的具身智能體在開放環境中學習用, 也可以作為測試任務評估訓練后的智能體的認知能力,并與人類智能進行對比。我

33、們希望這批數據能夠為人工智能發展多任務能力提供一些幫助。 1.1.3 多智能體交互與共識主動性 在具身認知中,與其他個體的交互也是智能體與環境交互的重要組成部分,不同智能體之間可能存在合作、競爭等不同的交互模式。社會認知(social cognition)通常主要關注多個個體之間,或者個體與群體之間的交互行為。例如,兩個或多個個體間可重復進行的社會決策往往在博弈論(Game Theory)的框架下進行研究。 這些理論對于多智能體交互固然具有重要的意義,但在大量智能體同時活動的環境中, 智能體之間進行直接對話的方式往往并不能達到好的效果,甚至難以完成。 在一些低等動物中,盡管每個個體的智能非常有

34、限,但眾多個體組成的群體卻能涌現出一定的智能(群體智能) 。例如,魚群能夠結隊行進,防御捕食者,提高覓食成功率;螞蟻搬運食物時往往走的是最短的路徑等等。 每只螞蟻在它走過的路徑上都會留下信息素,并盡可能沿著信息素濃度高的路徑前進,而信息素會隨時間揮發,于是最短路徑上信息素的濃度更高。 人們借鑒這種現象創造了蟻群算法和粒子群優化等算法, 并且這種現象在無人機編隊等多智能體互動中也得 12 到了充分的關注。 在宏觀層面,共識主動性不僅僅出現在低等動物中,根據其定義,人類在社會活動和文明的進程中也會通過共識主動性機制與其他人進行間接的交互, 尤其在互聯網時代,任何人對于互聯網環境都可以造成直接或間接

35、的干預,從而可能對其他人造成或多或少的影響??蒲猩鐓^、開源社區以及基于區塊鏈技術的金融社區等等都體現出了人類社會中的共識主動性,而在可以預見的將來,當元宇宙普及之后,這種作用可能會更加明顯。 在微觀層面, 大腦的智能也可以看作功能相對單一的大量神經元涌現出的群體智能。同鳥群和魚群類似,通常只有臨近的神經元之間存在直接交流,信息通過這種局部的交互也能夠傳遍大腦并進行計算加工。事實上,神經生物學的研究表明,神經元的生長發育、突觸的建立可能也體現了一種共識主動性:神經元通過發放神經遞質、 代謝產物等改變其附近的微環境,并利用組織液中的化學物質決定自己的行為,從而與環境中的其他神經元進行間接交互。甚至

36、已經有研究者開始考慮在人工神經網絡中加入共識主動性機制。 1.2 全局工作空間理論 1.2.1 人類的認知架構 伴隨著具身主義思想的發展,以及多智能體交互需求的不斷上升, 促使了對環境中個體的認知架構研究??茖W家們一直試圖將人類的心智(Mind)理論化,并通過形式化建模的方式來構建認知架構。以實現人工智能。 認知科學和神經科學近幾十年的研究已經表明, 大腦是模塊化的, 不同的區域具有特異的不同功能,例如人腦的梭狀回面孔區(fusiform face area, FFA)負責面孔的識別,韋尼克區 (Wernickes area) 負責語言語義理解, 額葉眼動區 (frontal eye fiel

37、ds, FEF)負責掃視運動等等。那么,這些區域如何相互配合,完成“在嘈雜的人群中看到熟人,聽到他說話時盯住嘴巴,同時利用嘴型和不甚清楚的聲音聽懂他在跟你打招呼并走過去聊天” 這樣的日常行為呢?這就涉及到了我們將要介紹的全局工作空間理論(Global Workspace Theory, GWT)6,7。 13 圖 1.6 GWT 認知架構的功能框架草圖5 全局工作空間理論是由美國心理學家 Bernard Baars 在上世紀 80 年代提出的一種認知架構, 它最初作為一種意識模型而被提出, 是現代認知科學的一個重要理論。該理論認為,大腦可以分成一些具有特定功能的模塊,當感知覺輸入或任務需求激發

38、了某些模塊的響應之后,這些響應會相互競爭,通過選擇性注意機制,某些信息會進入全局工作空間,并在不同模塊之間進行廣播(broadcast) ,以此完成不同模塊之間的信息交流,并合作完成不同的任務。而當信息進入全局工作空間并分發到其他模塊時, 意識就此產生 (圖 1.6) 。 GWT 理論通??梢杂?“劇場隱喻” (theater metaphor)來理解8(圖 1.7) 。在“意識劇場”中,選擇性注意像聚光燈一樣照亮了舞臺上的一個區域。這個亮點揭示了意識的內容: 演員們進行表演、演講或者相互交流。導演、編劇、場景設計師等工作人員藏在幕后的黑暗中,他們塑造了舞臺上的可見活動,但它們本身是不可見的。

39、舞臺中正在上演的內容也被播送給同樣處在黑暗中的觀眾(即大腦的其他部分) 。 14 圖 1.7 GWT 的劇場隱喻8 Dehaene 和 Changeux 等人提出了一個全局工作空間架構的神經元版本,即所謂“全局神經元工作空間” (Global Neuronal Workspace, GNW)9,10。在他們的模型中,一些局部的、專用的、模塊化的皮層區域構成了一個單獨的計算空間,各個模塊可能具有各自的層級結構,但不同部分可以并行、分布式處理特定的信息,如感知覺、運動、記憶等等。第二個計算空間是由一些廣泛分布的興奮性神經元(稱為 GNW 神經元)和具有長程連接的軸突組成,能夠通過下行連接選擇性地調

40、動或抑制特定模塊傳入的信息。在他們的模型中,這種分布式的神經元群體具有自下而上接收信息并將自上而下的信息傳輸給任何一個處理器的能力, 從而選擇和廣播信息 (圖 1.8) 。 這種大范圍廣播允許不同的認知模塊都能夠接收到信息,被認為有助于未知問題的解決,例如通過調動不同的信息處理模塊進行競爭或合作,從而更容易找到解決問題的路徑。 15 圖 1.8 Global Neuronal Workspace 11, 12 GNW 的激活是非線性的,具有“全或無” (all-or-none)的特性,即一旦有信息進入,便會迅速誘發全局工作空間的廣播,這稱作“引燃” (ignition) ,這種現象已經在人和動

41、物的實驗中得到了證實(圖 1.9) 。引燃可能由外部刺激所觸發,例如黑暗里的一盞燈、周圍車輛的鳴笛;或者受正在執行的任務相關腦區觸發,例如在回憶時發生“知曉感” (feeling of knowing) ,話到嘴邊卻無法提取記憶內容; 甚至可能在休息時自發隨機產生。 GNW 還具有獨占性 (exclusive) ,某群神經元的激活能夠抑制其余的神經元, 如果某個模塊的信息激活了全局的活動模式,其他模塊的信息將無法進入全局工作空間,因此全局工作空間只能夠串行處理信息,并且不同子系統之間會存在競爭。這種機制符合意識的一些特征,例如狀態單一, 容量有限、 順次發生, 也能夠解釋諸如非注意盲視 (In

42、attentional Blindness) 、注意瞬脫(Attentional Blink)等認知現象。 GNW 如同一個分布式路由器,同各個腦區的無數神經元存在關聯,從而可以放大、維持信息,并提供給各個信息處理模塊和丘腦皮層環路使用。大腦的前額葉皮層(prefrontal cortex, PFC) 、背外側前額葉皮層(dorsolateral prefrontal cortex, DLPFC) 、下頂葉皮層(inferior parietal cortex) 、前顳葉皮層(anterior temporal cortex) 、前后扣帶回皮層(anterior/posterior cingu

43、late cortex, ACC/PCC) 、楔前葉(precuneus)等腦區,各自有其獨特的功能和連接模式,但相互之間存在廣泛的連接,任何一個區域獲取的信息都可以迅速提供給其他腦區。這些腦區之間密切的雙向連接為引燃(ignition)創造了條件,從而能夠觸發突然的、集體的協同活動在全腦廣播。 16 圖 1.9 獼猴和人腦中的引燃13 2017 年,Christof Koch 團隊在小鼠的屏狀核(claustrum)發現了三個巨大神經元(Giant Neuron)14,這些神經元跨越大腦的兩個半球,纏繞在整個大腦周圍,與大腦負責感覺信息、負責行為反應的許多區域都有連接,在神經元層面符合全局工

44、作空間的特征,被認為可能是意識的開關。 GWT 不僅僅是一個概念模型,Dehaene,Changeux 等人提出的神經元動力模型(Dehaene-Changeux Model, DCM)即為 GNW 的一種計算機模擬15。通過分別建模單個神經元、丘腦皮層柱網絡和具有長程連接的由網絡組成的網絡(圖1.10) ,DCM 模擬了生物腦中觀測到的丘腦-皮層震蕩,以及網絡自發或刺激誘發的引燃(ignition)等現象。 17 圖 1.10 Dehaene-Changeux 模型15 Franklin 等人在全局工作空間理論的基礎上構建了一個更加通用的認知架構,稱為學習型智能分配代理(Learning I

45、ntelligent Distribution Agent, LIDA) ,是一種生物學啟發的綜合性、可以計算實現的概念模型16。LIDA 模型以 LIDA 認知循環(cognitive cycle)為基礎(圖 1.11) 。LIDA 把認知循環看作是一個認知原子,其中包含了更高層次的認知過程、思考、推理、問題解決、計劃、想象等。每個認知循環分為三個階段:感知理解階段、注意階段以及動作選擇和學習階段,各個階段分別由若干相互作用的模塊構成,如圖 1.11 所示。在每個認知周期中,LIDA 智能體首先通過更新其對環境外部和內部特征的表示,盡可能好地理解其當前的狀況(current situatio

46、nal model) 。通過一種競爭過程, 它決定哪些信息最需要注意, 并將這些信息廣播, 使其成為當前意識的內容,于是智能體能夠選擇適當的行動去執行。需要指出的是,LIDA 認知循環中的各個模塊并不與大腦中的功能模塊直接對應, 它們更多的是一種思維或心智意義上的功能模塊。雖然模塊在圖中用明顯的邊界表示,但它們有非常豐富的交互,可能很難清晰的拆分開。另外,在 LIDA 模型中,除了意識和行為選擇部分以外,其他過程都可以異步、并行的處理。 LIDA 模型實現并充實了全局工作空間理論,并且涵蓋了人類認知的很大一部分, 為許多認知過程提供了合理的解釋,被認為有可能作為理解心智如何運作的工具。同時,L

47、IDA 框架被認為可能對通用人工智能(AGI)的實現具有重要的幫助17,18。除此之外,Blum 等人還基于 GWT 構建了意識圖靈機(Conscious 18 Turing Machine, CTM,圖 1.12) ,認為可以用于構建具有意識的人工智能系統。 圖 1.11 LIDA 模型中的認知循環19 圖 1.12 意識圖靈機(CTM)20 1.2.2 元認知與元學習 現代計算科學的創始人艾倫 圖靈 (Alan Turing) 和約翰 馮 諾依曼 (John von Neumann)認為, 機器最終能夠模仿包括意識在內的大腦的所有能力,而當前的深度學習和人工智能所解決的計算問題主要與人腦中

48、的無意識認知加工相對應。意識似乎是實現通用人工智能(AGI)的過程中無法避開的一個話題,針 19 對機器能否擁有意識的問題,Dehaene 等人提議將人類的意識相關計算分成三個水平21。 無意識加工(unconscious processing, C0)包括了大部分人類的智能,例如知覺恒常性、 語義提取、 決策、 學習等, 大多在潛意識或無意識狀態即可完成。圖 1.13(上)展示了面孔加工中潛意識下的視覺不變性(subliminal view-invariant) , 如果首先呈現同一個人的面孔進行閾下刺激, 即便是完全不同視角的照片也能促進面孔信息的加工,并降低 FFA 區域的激活強度,這種

49、現象稱為潛意識啟動(subliminal priming) 。圖 1.13(下)的雙眼抑制實驗中,閾下刺激也能夠進行有效的證據積累, 從而影響正確率和反應時間。 此外, 在強化學習中,即使線索、獎勵等信號低于意識的閾值,人類的學習過程也能繼續進行。 圖 1.13 無意識加工的研究示例21 事實上,由于人類意識的獨占性和順序性,必然有大量復雜的計算和推斷過程需要在無意識層面進行,而這些無意識計算可以在大腦的不同區域異步、并行發生。當前的人工智能已經能夠完成大部分 C0 級別的計算過程,例如面孔和客體識別、語言理解等等,甚至在許多方面已經超越了人類的水平。 在 Dehaene 等人看來,意識包含了

50、兩種不同類型的信息加工。 第一種意義的意識(consciousness in the first sense, C1)稱為總體可用性(global availability) ,主要對應意識的傳遞意義,即有意識的信息需要進一步的處理 20 時,不同的大腦功能模塊都可以獲取。例如,對于“司機意識到燃油指示燈亮起來”這一場景, “燃油指示燈亮起來”這個信息可以被記憶、回想,可以被談論,還可以用于規劃接下來的行動等等。C1 可以看作是一種解決信息共享問題的信息處理架構,無意識計算模塊(C0)的信息被整合、篩選,進入意識的全局工作空間,從而可以在不同模塊之間進行分享。 除此之外,他們認為還存在第二種意

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(BAAI:2021年人工智能的認知神經基礎白皮書(107頁).pdf)為本站 (X-iao) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站