《BAAI:2021-2022年度智源人工智能前沿報告(243頁).pdf》由會員分享,可在線閱讀,更多相關《BAAI:2021-2022年度智源人工智能前沿報告(243頁).pdf(234頁珍藏版)》請在三個皮匠報告上搜索。
1、2021-2022 年度智源人工智能前沿報告BAAI AI Frontiers北京智源人工智能研究院2021 年 12 月AIAI FrontiersFrontiers ReportReport目錄智源人工智能前沿報告丨 2目錄目錄2審訂專家和編者9報告貢獻情況12摘要13前言16第一章 人工智能科研和技術發展情況19一、科研發展情況20(一)人工智能基礎理論201.信息模型、具身模型和腦模擬機器人的結合將誕生超級人工智能202.對深度神經網絡工作機制的理論研究熱度上升22(二)預訓練模型技術241.系統研究超大規模智能模型發展和影響的新興領域已經形成242.超大規模預訓練模型研發競賽進入白熱
2、化階段273.多模態預訓練模型成為下一個大模型重點發展領域324.加速方法創新提升超大參數規模模型的訓練效率39AIAI FrontiersFrontiers ReportReport目錄智源人工智能前沿報告丨 35.預訓練模型在生物學研究和互聯網等場景實現應用43(三)機器學習461.深度學習模型事后可解釋性研究出現新范式462.神經網絡算法持續改進優化,降低算力依賴并提升任務性能50(四)自然語言處理551.Prompt Tuning 成為預訓練語言模型新型訓練范式552.提升性能和效率成為預訓練語言模型發展的新路線63(五)計算機視覺671.Transformer 成為計算機視覺領域的重
3、要網絡架構672.遮蓋圖像建模替代對比學習成為視覺自監督學習的新熱點733.非 Transformer 架構在視覺任務上仍有發展潛力744.神經輻射場(NeRF)啟發圖像生成、三維重建等研究785.脈沖視覺開辟機器視覺新路線79(六)智能體系架構與芯片811.生物神經元與芯片結合成為類腦芯片的研究熱點812.高性能、低能耗 AI 芯片不斷涌現833.存算一體 AI 芯片設計、應用步伐加快85AIAI FrontiersFrontiers ReportReport目錄智源人工智能前沿報告丨 44.由 AI 輔助設計成為芯片發展新趨勢88(七)智能信息檢索與挖掘901.Web 模型成為新型信息搜索
4、范式的核心支撐902.預訓練語言模型助力信息檢索性能提升933.數據驅動的新方法推動定量分析在社會科學領域實現應用94(八)人工智能的認知神經基礎961.借鑒腦神經和認知科學研究成為啟發類腦智能研究的重要來源962.無線高帶寬、微創、結合 AI 算法等成為腦機接口的發展重點100(九)AI for Science1071.傳統科研領域成為人工智能發展的“新戰場”1072.人工智能技術提升智能產品和服務的性能115(十)強化學習1171.提升訓練效率成為強化學習領域的研究重點1172.強化學習環境成為發展泛化性更強、適應復雜環境智能體的重要支撐1183.Transformer 滲透強化學習領域1
5、21(十一)其他值得關注的 AI 研究和熱點1221.Transformer 和圖神經網絡結合產生更強的性能表現122AIAI FrontiersFrontiers ReportReport目錄智源人工智能前沿報告丨 52.神經網絡解碼腦電信號,有望提升機器控制能力1243.因果推斷在經濟學、社會學研究中廣泛應用1254.基于視覺的機器人通用抓取研究實現突破1275.AI 在環境和可持續發展研究實現應用128二平臺和工具發展情況130(一)AI 系統1301.構建基于超大規模智能模型的AI開放平臺成為研發機構和企業的重點發展思路 1302.大規模深度學習的分布式訓練勢在必行1313.超大規模智
6、能模型支撐的行業應用進入探索落地階段133(二)AI 算法和代碼庫1361.開源社區復現超大規模預訓練模型1362.多個領域開放 AI 代碼庫助力研究應用發展137(三)算力平臺1461.AI 算力成為超算性能比拼的新“擂臺”146(四)基準測試和數據集1491.面向復雜語言理解任務的基準測試涌現1492.AI 為人類科學家提供領域數據集,助力基礎科學研究155AIAI FrontiersFrontiers ReportReport目錄智源人工智能前沿報告丨 6第二章 人工智能產業發展情況158一、人工智能應用層企業159(一)智能醫療1591.總體趨勢1592.醫療影像1603.AI 藥物研
7、發1644.數字療法1715.手術機器人1746.腦機接口178(二)自動駕駛1831.總體趨勢1832.Robotaxi1853.車載芯片1944.激光雷達1995.細分場景2016.其他領域208二、人工智能技術層企業209AIAI FrontiersFrontiers ReportReport目錄智源人工智能前沿報告丨 7(一)自然語言處理209(二)計算機視覺211(三)機器學習214(四)智能語音215(五)知識圖譜219三、人工智能基礎層企業221(一)AI 芯片2211.總體趨勢2212.AI 訓練芯片2223.AI 推理芯片2254.其他 AI 芯片227(二)數據服務2301
8、.總體趨勢2302.泛娛樂和媒體2313.安全風控2314.第三方數據標注2325.圖數據233AIAI FrontiersFrontiers ReportReport目錄智源人工智能前沿報告丨 86.數據工具233關于智源研究院234免責聲明235AIAI FrontiersFrontiers ReportReport審訂專家和編者智源人工智能前沿報告丨 9審定專家1黃鐵軍北京智源人工智能研究院,北京大學余山中國科學院自動化研究所,智源學者劉知遠清華大學,智源青年科學家黃高清華大學,智源青年科學家張祥雨曠視科技,智源青年科學家魯繼文清華大學,智源青年科學家趙鑫中國人民大學,智源青年科學家魏哲
9、巍中國人民大學王樹徽中國科學院計算技術研究所盧策吾上海交通大學莊福振北京航空航天大學王靜遠北京航空航天大學燕博南北京大學苗旺北京大學高陽清華大學王昊奮同濟大學袁進輝OneFlow 一流科技AIAI FrontiersFrontiers ReportReport審訂專家和編者智源人工智能前沿報告丨 10劉鵬飛卡耐基梅隆大學曹越微軟亞洲研究院韓凱華為諾亞方舟實驗室1排名不分先后AIAI FrontiersFrontiers ReportReport審訂專家和編者智源人工智能前沿報告丨 11編者北京智源人工智能研究院戴一鳴李夢佳廖璐盧凱張冬敏周岷峰茍瑜靳虹博殷靖東劉克宇張大魁袁莎馬雷趙小帆閆亞瓊李敏
10、劉方正梁楊曉李靜云智源社區陳旭馬瑞軍趙萬鋮熊宇軒感謝以下專家為報告提供建議智源人工智能數理基礎方向專家學者智源機器學習方向專家學者智源智能信息檢索與挖掘方向專家學者智源智能體系架構與芯片方向專家學者智源自然語言處理方向專家學者智源人工智能的認知神經基礎方向專家學者智源青年科學家智源人工智能青年科學家俱樂部(青源會)專家學者AIAI FrontiersFrontiers ReportReport報告貢獻情況智源人工智能前沿報告丨 12報告貢獻情況2黃鐵軍對報告提出方向性建議和指導。余山、劉知遠、黃高、張祥雨、魯繼文、趙鑫、魏哲巍、王樹徽、盧策吾、莊福振、王靜遠、燕博南、苗旺、高陽、王昊奮、袁進輝
11、、劉鵬飛、曹越、韓凱對報告中的科研、平臺和工具等領域的發展情況提供內容、案例和建議。戴一鳴、李夢佳策劃本報告,制定大綱,組織并實施工作。戴一鳴撰寫第一章內容, 李夢佳、陳旭、馬瑞軍、趙萬鋮撰寫第二章內容。廖璐對部分翻譯進行了審校,熊宇軒對內容進行了審校。廖璐、李夢佳、戴一鳴、盧凱、趙小帆、閆亞瓊、李敏、劉方正協調聯絡、收集和匯總素材。張冬敏、周岷峰、茍瑜、靳虹博、殷靖東、劉克宇提供人工智能技術、產業、投融資等方面的內容和素材。袁莎、張大魁、馬雷對報告內容提出了專業建議。梁楊曉、李靜云提供有關悟道技術、產業等素材和內容。智源各方向首席科學家、智源學者,智源青年科學家,青源會專家學者為報告提供了建
12、議。2分工有重復AIAI FrontiersFrontiers ReportReport摘要智源人工智能前沿報告丨 13摘要本報告總結 2021 年人工智能前沿科技主要趨勢如下:1.信息模型、具身模型和腦模擬機器人的結合將誕生超級人工智能。2.系統研究超大規模智能模型發展和影響的新興領域已經形成, 超大規模預訓練模型研發競賽進入白熱化階段,多模態預訓練模型成為下一個大模型重點發展領域。3.Transformer 成為計算機視覺領域的重要網絡架構,并開始向強化學習、圖神經網絡等領域滲透。4.加速方法創新提升了超大參數規模模型的訓練效率,催生更大規模參數的巨型模型。5.Prompt Tuning
13、成為自然語言處理領域預訓練語言模型新型訓練范式,預訓練語言模型發展的新路線是提升訓練和推理的效率。6.遮蓋圖像建模、非 Transformer 架構、神經輻射場等技術快速發展,成為計算機視覺的熱點研究領域;脈沖視覺領域發展,將開辟機器視覺新路線。7.生物神經元與芯片結合成為類腦芯片的研究熱點。8.高性能、低能耗 AI 芯片不斷涌現的同時,由 AI 輔助設計成為芯片發展新趨勢;存算一體 AI 芯片設計、應用步伐加快。9.Web 模型成為新型信息搜索范式的核心支撐,預訓練語言模型助力信息檢索性能提升。10. 借鑒腦神經和認知科學研究成為啟發類腦智能研究的重要來源。11. 無線高帶寬、微創、結合 A
14、I 算法等成為腦機接口的發展重點。AIAI FrontiersFrontiers ReportReport摘要智源人工智能前沿報告丨 1412. 傳統科研領域成為人工智能發展的“新戰場”,人工智能在輔助基礎和應用科學研究的同時,也提升了智能產品和服務的性能。13. 強化學習環境成為發展泛化性更強、 適應復雜環境智能體的重要支撐, 而提升訓練效率成為強化學習領域的研究重點。14. 因果推斷在經濟學、社會學研究中實現突破。15. 基于超大規模預訓練模型的平臺和系統成為研發機構和企業的發展思路。16. 面向更為復雜任務和需求的基準測試和數據集不斷涌現。17. AI 為人類科學家提供領域數據集,助力基
15、礎科學研究。18. AI 算力成為超算性能比拼的“新擂臺”。本報告總結 2021 年人工智能產業主要趨勢如下:1.智能醫療賽道持續火熱,各大醫療 AI 企業紛紛沖刺 IPO,“燒錢”成為今年這一賽道最鮮明的標簽。2.國家開始逐步發放各類醫療影像 AI 軟件三類證,為醫療影像的發展提供了契機。3.資本助力下,新興 AI 創企、互聯網科技巨頭和傳統藥企在 AI 制藥領域百花齊放。4.2021 年被業界公認為數字療法產業元年,一批數字療法企業嶄露頭角。5.醫保的推進可為手術機器人打開市場,全民可用的時代或可指日可待。6.腦機接口不再只是“意念打字”的融資噱頭,逐漸從實驗室走向臨床實踐,從科幻照進了現
16、實。7.自動駕駛行業迎來新的投融資熱潮, 2021 年是十年來自動駕駛賽道資本熱度最高的一年。AIAI FrontiersFrontiers ReportReport摘要智源人工智能前沿報告丨 158.今年,國內大批 Robotaxi 企業已進入車隊測試及服務試運營的階段,未來行業的競爭核心也將會轉向運營規模與測試里程的比拼。9.乘用場景以外,物流、港口、礦區、城市環衛等細分場景成為自動駕駛落地新風口。10. 今年,國內外激光雷達企業也得到了資本市場大力支持。新舊車企紛紛表示,其新車將首次搭載激光雷達,引發激光雷達量產落地的新紀元。11. 計算機視覺,在技術成熟度、商業化進程、市場增長速度、投
17、融資熱度等方面,是人工智能產業當前熱門的發展賽道。2021 年,我國計算機視覺產業快速發展,企業加快上市步伐,爭奪“視覺 AI 第一股”。12. 隨著 AI 芯片技術的不斷發展,芯片制程不斷優化,工藝逐步提升,AI 芯片功能的細分程度進一步提升,形成異構形態的計算格局。13. 高效、節能成為 AI 芯片發展的長期目標。追求在提升算力的前提下降低功耗,是近年來企業關注的重點。14. GPU 依然是 AI 芯片企業研發關注的重點方向。GPU 性能較高,且兼具計算的靈活性,適用于構建大規模的 AI 計算集群,在研發超大規模 AI 模型方面具有應用前景。AIAI FrontiersFrontiers
18、ReportReport前言智源人工智能前沿報告丨 16前言2021 年對于人工智能技術和產業,依舊是不平凡的一年。隨著算力、數據、算法等要素逐漸齊備,先進的算法結構不斷涌現,各個研究方向研究成果不斷突破,成熟的 AI 技術逐漸向代碼庫、平臺和系統發展,實現產業和商業層面的落地應用,推動人工智能發展邁向新的階段??蒲蟹矫?,2021 年,人工智能基礎理論逐漸成形,研究者對于超級人工智能的發展路徑,以及深度學習模型基礎理論有了更深刻的見地。2021 年也是超大規模智能模型大發展的一年,在 GPT-3 的影響下,一大批參數規模更大,訓練數據量更為驚人,性能表現更強,通用任務更豐富的模型涌現出來,形成
19、了面向“大模型”研究的新興領域,大模型研發競賽進入白熱化階段,多模態預訓練、模型加速和應用等領域的研究如火如荼展開。Transformer 作為一種具有優勢的神經網絡算法架構,在計算機視覺、強化學習、圖神經網絡等領域逐漸滲透,展現出人工智能多學科領域通用架構的可能性。在機器學習、自然語言處理、計算機視覺等領域,新算法、新模型、新范式持續推動領域研究推陳出新。在芯片領域,將生物大腦與芯片結合,研發類腦芯片的勢頭更為驚人;同時,以電子元器件為基礎的傳統芯片不斷改進,實現更高性能和更低的功耗,存算一體芯片設計快速發展,產品化步伐加快;AI 輔助設計芯片成為新趨勢。預訓練模型對于信息檢索挖掘領域產生深
20、遠影響,有望形成基于 Web 大模型的新型信息檢索范式。同時,認知神經科學研究對啟發人工智能研究起到了不可忽視的作用,腦機接口等新型技術也逐漸從實驗室走向實用。此外,AI for Science 的新興領域逐漸形成,AIAI FrontiersFrontiers ReportReport前言智源人工智能前沿報告丨 17物理學、材料學、生物學等學科已成為人工智能的下一個戰場,人工智能在推動科學研究和智能產品服務進步等方面起到了更加重要的作用;平臺和工具方面,基于超大規模智能模型的開放平臺對于研發先進算法和模型更加重要,極大降低應用的研發門檻,超大規模智能模型支撐的行業應用快速進入落地階段;同時,
21、面向復雜任務和基礎科研的數據集和基準層出不窮,對于塑造 AI 科研和產業的標準,為人們提供客觀、前沿的評價標準奠定基礎;而人工智能算力基礎設施已成為世界各國超算關注的發展重點,更大規模的 AI 超算集群落地,有助于在大尺度條件下探索人工智能的性能邊界,并支持 AI 在國家戰略和國民社會經濟等領域實現新突破。產業方面,今年值得關注的人工智能產業領域中,基礎層重點關注 AI 芯片和數據服務領域;技術層關注自然語言處理、計算機視覺、機器學習等領域;應用層關注智能醫療和自動駕駛等領域。在上述領域中,國際國內頭部、獨角獸及初創企業快速發展,在產品、融資、商業模式等方面取得新的進步。本報告分為兩部分。第一
22、章為人工智能科研和技術發展情況,其中包括科研領域、平臺和工具發展情況兩部分,重點梳理 2021 年度人工智能領域的科研和技術發展趨勢、熱點內容及案例??蒲胁糠职ㄈ斯ぶ悄軘道砘A、機器學習、預訓練模型、計算機視覺、自然語言處理等十余個領域,選擇案例多為具有研究思路和方法論的創新性,或在人工智能領域引起熱議AIAI FrontiersFrontiers ReportReport前言智源人工智能前沿報告丨 18的研究成果及論文。平臺和工具發展情況介紹包括 AI 系統和開源庫、基準測試和數據集,以及算力平臺三個方面的發展情況。第二章為人工智能產業發展情況,具體包括基礎層、技術層和應用層三個部分,基礎
23、層部分詳述了 2021 年度 AI 芯片領域的融資事件,值得關注的 AI 芯片企業,技術層部分聚焦在自然語言處理、計算機視覺、智能語音、知識圖譜等領域頭部企業和創業企業的融資發展情況,應用層詳述了在醫療健康、自動駕駛以及內容產業三個賽道中頭部企業和創企的融資發展情況。由于人工智能產業研究范圍廣、事件多,本報告只列舉本年度亮點領域案例,不追求大而全的描述。研究方法本報告采用案例征集、專家咨詢等方法。首先向高校和科研機構人工智能專家學者及企業從業者征集 2021 年度人工智能領域發展的動態、案例等內容,并通過向專業人士咨詢的形式匯總觀點及建議,形成 2021-2022 年度人工智能前沿報告。征集案
24、例的時間從 2021 年 1 月起,截至 2021 年 12 月 15 日。除特殊說明外,文中案例均為 2021 年內發生的事件。AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 19第一章人工智能科研和技術發展情況AIAI FrontiersFrontiers ReportReport報告貢獻情況智源人工智能前沿報告丨 20科研發展情況人工智能基礎理論信息模型、具身模型和腦模擬機器人的結合將誕生超級人工智能2021 年 11 月,在智源研究院成立三周年演講中,智源研究院黃鐵軍提出了超級人工智能發展演進的思路。黃鐵軍認為,當前,人工智能
25、的發展主要基于三個流派的思路,一是符號主義和連接主義結合,在大數據的支撐下發揮作用;二是連接主義和行為主義支撐下的新型強化學習方法,通過與環境的互動發揮作用;三是直接以生物進化而來的神經網絡作為基礎,即類腦。但不論是什么樣的方法,都是實現人工智能的手段,實現智能,本質上來源于數據和環境,什么樣的環境就能夠創造什么樣的智能。圖注:通用智能的三條實現路徑來源:智源研究院目前,人工智能在實現方法上已經明晰,主要包括近幾年興起的自監督學習為代表的基本算AIAI FrontiersFrontiers ReportReport報告貢獻情況智源人工智能前沿報告丨 21法,以及強化學習領域的發展為兩條主要路徑
26、。然而在數據層面,將會有新的變化。近來數字孿生、虛擬世界、元宇宙等技術快速發展,這些是比數據更高一級的數字環境,在數字環境下,讓算力發揮作用。未來幾年,一是已經相對成熟的“大數據+大算力+深度學習算法”的信息模型將從研究進入實際應用;二是基于虛擬世界、實時時空環境訓練的具身模型也會取得較大的發展,如自動駕駛、機器人、游戲中數字人;從更長遠的角度出發,將人類大腦、生物大腦、機器人等研究方向結合,形成物理世界中具有真正實體性的機器人技術也會取得大發展。未來三年,這些技術將持續演變。未來五到十年,信息模型和具身模型將會結合,成為“數字超人”,在知識能力以及跟環境的互動程度上,將比以往的人類都要強。在
27、元宇宙中,我們甚至不知道面對的是人工智能的化身還是真正的人類。具身模型和機器人也將結合,在物理世界出現能力比人類還要強的無人系統,即“具身超人”。樂觀估計,在未來三十年,數字超人和具身超人可能會結合,最終誕生超級人工智能,這是人工智能的終極夢想,實現超越人類的智能系統。圖注:實現超級人工智能的具體路徑來源:智源研究院AIAI FrontiersFrontiers ReportReport報告貢獻情況智源人工智能前沿報告丨 22對深度神經網絡工作機制的理論研究熱度上升深度神經網絡是當前人工智能領域的重要組成部分,但其依然是“黑盒”模型,其內部的工作機制機理仍有待進一步研究。近來,一些研究提出,除
28、了研究“無限寬神經網絡”(如神經正切核、NTK 等)之外,還可以從其它理論的角度理解神經網絡的功能和工作機制。加州大學伯克利分校研究者提出“深度學習第一性原理”6 月,加州大學伯克利分校馬毅等研究者公開了一項研究,嘗試從數據壓縮和區分性表征(Discriminative Representation)的原理出發,為理解深度(卷積)神經網絡提供理論框架。研究者認為,如果將最大編碼率衰減(Maximal Coding Rate Reduction:MCR2)作為優化目標,可以構建一種類似神經網絡架構的白盒深度學習模型,其中包括了矩陣參數、非線性層、歸一化和殘差連接等神經網絡中的組成要素,如果引入“
29、群不變性”,可以直接推導出多通道卷積神經網絡的結構,研究者稱這種模型為 ReduNet。Facebook 研究者提出從“第一性原理”解釋深度神經網絡8 月,Facebook3、MIT 研究者提出用于解釋深度神經網絡的“第一性原理”思路?!暗谝恍栽怼敝富貧w事物最基本的條件,將其拆分成各要素進行解構分析,從而找到實現目標最優路徑的方法。 該研究提出了用于理解更為貼近現實的深度神經網絡的有效理論。 研究從 “第一性原理”出發,解釋通過層到層之間的迭代和非線性學習動態如何能夠精確地描述訓練后網絡的輸出。同時,從近似核方法的角度,發現模型對于學習函數的依賴可以用一種簡單而AIAI FrontiersF
30、rontiers ReportReport報告貢獻情況智源人工智能前沿報告丨 23普適的方法來表達。研究者還為神經網絡中的梯度爆炸和梯度消失提出了解決方案。研究表明,神經網絡的深度-寬度比值決定了有效訓練網絡的模型復雜度。通過使用信息論技術,研究者預估了優化的深寬比值,能夠使得模型更為有用。研究者同時也研究了如何使用殘差連接能夠讓模型更深。采用以上的工具,研究者還探究了模型架構、超參數和優化器所帶來的歸納偏置問題。論文地址:https:/arxiv.org/pdf/2106.10165.pdf。3Facebook 公司已于 2021 年 10 月更名為 Meta, 本報告中的 Facebook
31、 泛指 Meta 公司及 FacebookAI Research(FAIR)實驗室等相關機構AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 24預訓練模型技術系統研究超大規模智能模型發展和影響的新興領域已經形成隨著 BERT、GPT-3、DALLE 等超大模型的興起,“自監督學習+預訓練模型微調”適配方案逐漸成為主流。然而,隨著超大規模預訓練模型在科研、產業、社會、經濟等領域的作用日益凸顯,其帶來的深遠影響成為科學家們關注的重點。OpenAI 提出 PALMS 數據集構建和模型微調方法6 月,OpenAI 提出名為“PALMS”的數據
32、集構建和模型微調方法,可構建出“具有價值導向的數據集”(Values-Targeted Datasets),使其能夠修正 GPT-3 偏見,對解決大模型帶來的倫理問題起到了推動作用。圖注:OpenAI 提出的糾正 GPT-3 偏見的整體流程來源:https:/ FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 25Percy Liang、李飛飛等學者提出基礎模型概念8 月,Percy Liang、李飛飛等學者將大規模預訓練模型統一命名為基礎模型(FoundationModels),并撰文討論基礎模型面臨的機遇和挑戰。論文分為四個部分,分別闡述了基
33、礎模型的能力、應用領域、技術層面和社會影響。圖注:基礎模型的涌現和同質化現象來源:https:/arxiv.org/pdf/2108.07258.pdf圖注:基礎模型在多種模態數據的訓練和下游任務應用中處于中心地位來源:https:/arxiv.org/pdf/2108.07258.pdfAIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 26圖注:基礎模型涉及的議題來源:https:/arxiv.org/pdf/2108.07258.pdfDeepMind 發表語言模型社會危害評估論文12 月,DeepMind 發表論文,研究預訓練語言
34、模型帶來的倫理和社會危害。研究者主要探究了模型在六大方面的不良影響,并談到兩個倫理和社會影響方面需要研究者持續關注。一是當前的基準測試工具不足以評估一些倫理和社會危害。例如,當語言模型生成錯誤信息,人類會相信這種信息為真。評估這種危害需要更多與語言模型進行人機交互。二是對于風險控AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 27制的研究依然不足。例如,語言模型會學習、復現和放大社會偏見,但是關于這一問題的研究仍處于早期階段。圖注:DeepMind 論文研究的六大語言模型倫理和社會危害來源:https:/ 的問世,激發研究者探索規模更
35、大、性能更驚人的超大規模預訓練模型。國內外大型科研機構和企業紛紛投入巨量算力進行研發工作,將算力規模推升至萬億規模,探索模型的參數、性能和通用任務能力邊界。目前,已有 OpenAI、谷歌、FaceBook、微軟、英偉達、智源研究院、阿里達摩院、華為、百度、浪潮等研發機構和企業加入“軍備競賽”。AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 28谷歌研發萬億規模預訓練模型 Switch Transformer1 月,谷歌研究人員研發出新的語言模型 Switch Transformer,包含 1.6 萬億個參數,是包含 1750 億參數的
36、 GPT-3 的九倍。研究者將 Switch Transformer 與谷歌研究的 T5-Base 和T5-Large 模型進行了對比,結果表明,在相同的算力資源下,新模型實現了最高 7 倍的預訓練速度提升。圖注:Switch Transformer 編碼塊結構來源:https:/arxiv.org/pdf/2101.03961.pdf智源發布超大規模智能模型悟道 1.0/2.03 月 20 日,智源研究院發布我國首個超大規模智能信息模型“悟道 1.0”,訓練出包括中文、多模態、認知、蛋白質預測在內的系列模型,并在模型預訓練范式、規模和性能擴增技術、訓練語料數據庫建設等方面取得了多項國際領先的
37、技術突破。6 月 1 日,智源研究院發布“悟AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 29道 2.0”模型,參數規模達到 1.75 萬億,是 GPT-3 的 10 倍,打破由 Switch Transformer預訓練模型創造的 1.6 萬億參數記錄,是中國首個萬億級模型。圖注:悟道 2.0 中的技術創新成果來源:智源研究院微軟、英偉達發布預訓練模型 Megatron-Turing10 月,微軟聯合英偉達推出了 Megatron-Turing(MT-NLP)預訓練模型。該模型是微軟的 T-NLG(Turing-NLG)和英偉達
38、Megatron-LM 模型結合的下一代版本,包含 5300 億參數。研究者選擇了五個領域中的 8 項任務來評估 MT-NLG 的效果。實驗中,該模型在其中一些任務上實現了最佳的性能表現。AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 30圖注:MT-NLG 模型采用的數據集來源:微軟官網圖注:MT-NLG 在零樣本、單樣本和小樣本條件下在不同任務中的表現來源:微軟官網AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 31DeepMind 發布預訓練模型 Gopher12 月,
39、DeepMind 發布預訓練語言模型 Gopher,參數規模達 2800 億。該模型采用 4096塊 TPUv3 加速芯片進行訓練,并結合了多種并行加速策略。該研究主要用于探索不同規模的模型的優勢和不足,了解在模型參數規模增長后,在哪些領域上能夠得到更好的性能表現。研究者發現,模型規模的增長對于閱讀理解、事實核查、毒害言論辨認等任務有較大提升,但是邏輯推理和常識任務上的提升并不顯著。此外,研究者也研究了 Gopher 模型在對話等領域的能力以及缺陷。圖注:Gopher 和其他模型在大規模多任務語言理解(Massive Multitask Language Understanding,MMLU)
40、基準上在不同類別下的表現來源:https:/ 月,華為云聯合循環智能發布盤古 NLP 超大規模預訓練語言模型,參數規模達 1000 億,聯合北京大學發布盤古超大規模預訓練模型,參數規模達 2000 億;阿里達AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 32摩院發布 270 億參數的中文預訓練語言模型 PLUG,聯合清華大學發布參數規模達到 1000億的中文多模態預訓練模型 M6, 目前已突破十萬億參數規模; 7 月, 百度推出 ERNIE 3.0 知識增強大模型,參數規模達到百億;10 月,浪潮發布約 2500 億的超大規模預訓練
41、模型;12月,百度推出 ERNIE 3.0 Titan 模型,參數規模達 2600 億;谷歌訓練參數規模達 4810 億的巨型 BERT 模型,結果公布在 MLPerfv1.1 訓練榜單上;此外,谷歌還提出了 1.2 萬億參數的通用稀疏語言模型 GLaM,在 7 項小樣本學習領域的性能超過 GPT-3。多模態預訓練模型成為下一個大模型重點發展領域在大數據、大參數和大算力的支持下,預訓練模型能夠充分學習文本中的表征,掌握一定的知識。如果模型能夠學習多種模態的數據,在圖文生成、看圖問答等視覺語言(VisionLanguage)任務上具有更強表現。多模態預訓練模型是 2021 年的重點研究方向,Op
42、enAI、微軟、智源、清華大學、中科院自動化所等機構均發布了多模態預訓練模型。OpenAI 提出大規模多模態預訓練模型 DALLE 和 CLIP1 月,OpenAI 同時發布了兩個大規模多模態預訓練模型DALLE 和 CLIP。DALLE 可以基于短文本提示(如一句話或一段文字)生成對應的圖像,CLIP 則可以基于文本提示對圖片進行分類。OpenAI 表示,研發多模態大模型的目標是突破自然語言處理和計算機視覺的界限,實現多模態的人工智能系統。AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 33圖注:DALLE 生成的“牛油果形狀的椅子
43、”來源:OpenAI 官網圖注:CLIP 模型在多項 ImageNet 測試中取得優秀水平來源:OpenAI 官網AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 34以色列希伯來大學等提出文生高清圖模型 StyleCLIP3 月,以色列希伯來大學、Adobe 研究院等將 StyleGAN 和 CLIP 模型結合,提出了一種能夠根據文本提示生成高清晰度圖像的模型,名為 StyleCLIP。研究者認為,StyleCLIP 能夠結合預訓練模型學習到的語義知識,加上生成對抗網絡的圖像生成能力,能夠創造出更逼真的圖像,在實際應用中有一定的優勢。
44、圖注:StyleCLIP 的處理圖像的流程來源:https:/arxiv.org/pdf/2103.17249.pdf圖注:根據文本提示進行的圖像 PS 操作結果來源:https:/arxiv.org/pdf/2103.17249.pdfAIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 35智源、清華等研究者提出文生圖模型 CogView5 月,智源研究院、清華大學、阿里達摩院的研究者發布了 CogView 文生圖模型論文,其將VQ-VAE 和 40 億參數的 Transformer 模型結合,通過在風格學習、超高清圖像生成、文-圖排序
45、和時尚設計等多個下游任務上進行微調, 并采用了消除 NaN 損失等穩定預訓練的方法。實驗結果顯示, CogView在模糊化后的MS COCO dataset數據集上取得了最高的FID結果,高于以往的 GAN 和 DALLE。圖注:CogView 的架構來源:https:/arxiv.org/pdf/2105.13290.pdf圖注:CogView 按照提示語生成的圖像來源:https:/arxiv.org/pdf/2105.13290.pdfAIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 36Facebook 研究者提出多任務多模態統
46、一模型 UniT8 月,Facebook 研究團隊提出了名為 UniT 的多任務多模態統一 Transformer 模型,其基于統一的 Transformer Encoder-Decoder 架構,能夠同時解決視覺、多模態、語言等領域中的一系列任務,包括目標檢測、視覺-文本推理、自然語言理解等。論文表示,該模型在 7個任務上都有較強的性能。圖注:UniT 模型能夠學習的數據和完成的任務一覽來源:https:/arxiv.org/pdf/2102.10772.pdf圖注:UniT 模型架構來源:https:/arxiv.org/pdf/2102.10772.pdfAIAI FrontiersFr
47、ontiers ReportReport科研發展情況智源人工智能前沿報告丨 37清華等研究者提出跨模態提示學習模型 CPT9 月,清華和新加坡國立大學的研究者提出了跨模態提示學習模型 CPT,其利用顏色對跨模態預訓練模型進行基于提示學習的微調,在視覺定位、場景圖生成任務的少次學習場景下較基線模型取得顯著提升。圖注:CPT 跨模態提示學習框架來源:https:/arxiv.org/pdf/2109.11797.pdf微軟亞洲研究院、北大研究者提出涵蓋三種模態數據的預訓練模型 NWA(女媧)11 月,微軟亞洲研究院、北大研究者提出統一多模態預訓練模型 NWA。該模型采用 3DTransformer
48、 架構,能夠生成視覺(圖像或視頻)信息。通過將該模型在 8 個下游任務上進行試驗,女媧模型在文生圖、文生視頻、視頻預測等任務上實現最佳性能。AIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 38圖注:女媧模型支持的下游任務來源:https:/arxiv.org/pdf/2111.12417.pdf圖注:女媧模型的架構來源:https:/arxiv.org/pdf/2111.12417.pdfAIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 39加速方法創新提升超大參數規模模型的訓
49、練效率受制于算力資源,超大規模預訓練模型的訓練和推理面臨嚴重的瓶頸。在 GShard 和 SwitchTransformer 的研究中,谷歌通過采用混合專家技術(Mixture of Experts,MoE),通過在神經網絡中引入多個專家網絡(Expert Network),降低需要激活的神經元數量,提升模型的計算效率,將預訓練語言模型的參數提升至萬億規模。圖注:MoE 的架構,采用稀疏門控函數(Sparse Gating Function)來決定執行計算的專家網絡來源:https:/arxiv.org/pdf/1701.06538.pdf微軟等研究者提出 ZeRO-Offload 異構訓練技
50、術隨著超大規模預訓練模型參數規模的增加,今年出現了更多大模型計算加速和優化方法,著力提升模型的計算效率。 1月, 微軟、 加州大學默塞德分校 (University of California, Merced)的研究者提出了一種名為“ZeRO-Offload”的異構深度學習訓練技術,使用相同的硬件能夠訓練比以往規模大10倍的模型。 在32GB RAM的V100 GPU上, 用戶可以通過ZeRO-offloadAIAI FrontiersFrontiers ReportReport科研發展情況智源人工智能前沿報告丨 40訓練 130 億參數的 GPT-2;在單個 DGX-2 服務器上,ZeRO-