《中國信通院:AI框架發展白皮書2022年(44頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院:AI框架發展白皮書2022年(44頁).pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、AI 框架發展白皮書框架發展白皮書 中國信息通信研究院 中國信息通信研究院 2022022 2年年2 2月月 No.202201(2022 年)年)版權聲明版權聲明本白皮書版權屬于中國信息通信研究院,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應注明“來源:中國信息通信研究院”。違反上述聲明者,本院將追究其相關法律責任。本白皮書版權屬于中國信息通信研究院,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或者觀點的,應注明“來源:中國信息通信研究院”。違反上述聲明者,本院將追究其相關法律責任。前前 言言 AI 助力當前經濟社會步入智能經濟時代。世界正在進入以新一代信息
2、技術驅動發展的重塑時期,人工智能(AI,Artificial Intelligence)作為其中重要的使能技術,對激活實體經濟具有溢出帶動性很強的“頭雁效應”,對構筑國家科技影響力具有舉足輕重的意義。人工智能成為了全球各國新的科技熱點,人工智能基礎設施建設也成為重要抓手與著力點。未來十年是全球發展數字經濟、邁入智能經濟社會的黃金發展期,著力發展人工智能基礎設施,將為我國人工智能產業發展壯大、數字經濟蓬勃發展提供強大牽引力。AI 框架是智能經濟時代的操作系統。作為人工智能開發環節中的基礎工具,AI 框架承擔著 AI 技術生態中操作系統的角色,是 AI學術創新與產業商業化的重要載體,助力人工智能由
3、理論走入實踐,快速進入了場景化應用時代,也是發展人工智能所必需的基礎設施之一。隨著重要性的不斷凸顯,AI 框架已經成為了人工智能產業創新的焦點之一,引起了學術界、產業界的重視。在此背景下,白皮書致力于厘清 AI 框架的概念內涵、演進歷程、技術體系與作用意義,通過梳理總結當前 AI 框架發展現狀,研判 AI框架技術發展趨勢,并對 AI 框架發展提出展望與路徑建議。由于 AI框架仍處于快速發展階段,我們對 AI 框架的認識還有待持續深化,白皮書中存在的不足之處,歡迎大家批評指正。目目 錄錄 一、AI 框架技術持續演進,已形成較為完整的體系.1(一)AI 框架演進步入深化階段.1(二)AI 框架技術
4、演化出三個層次.5(三)AI 框架重要性愈加突顯.13 二、全球 AI 框架繁榮發展,多元化競合態勢漸顯.14(一)供給主體方面,企校貢獻最活躍.14(二)開源生態方面,全球進入活躍期.16(三)市場格局方面,雙寡頭持續引領.18(四)支撐應用方面,科研與產業齊驅.20(五)推廣途徑方面,三條路齊發并進.25 三、應對未來多樣化挑戰,AI 框架有六大技術趨勢.27(一)泛開發:AI 框架將注重前端便捷性與后端高效性的統一.27(二)全場景:AI 框架將支持端邊云全場景跨平臺設備部署.28(三)超大規模:AI 框架將著力強化對超大規模 AI 的支持.29(四)科學計算:AI 框架將進一步與科學計
5、算深度融合交叉.31(五)安全可信:AI 框架將助力提升 AI 模型可解釋性與魯棒性.32(六)工程化:AI 框架將加速 AI 應用產業規模級工程化落地.34 四、AI 框架生態遠未成熟,未來發展空間可觀.36(一)從硬件適配向算子接口標準化演進.36(二)強化開源社區打造與開源氛圍營造.36(三)重視與高??蒲性核鶑V泛開放合作.37(四)推進融入 AI 基礎設施布局落地.37(五)支持深度賦能大模型及科學計算.38 圖圖 目目 錄錄 圖 1 AI 框架技術演進.2圖 2 AI 框架核心技術體系.5表表 目目 錄錄 表 1 Github 社區中主流 AI 框架情況(2022.1).16表 2
6、Gitee 社區中主流 AI 框架情況(2022.1).18AI 框架發展白皮書(2022 年)1 一、AI 框架技術持續演進,已形成較為完整的體系 AI 框架是 AI 算法模型設計、訓練和驗證的一套標準接口、特性庫和工具包,集成了算法的封裝、數據的調用以及計算資源的使用,同時面向開發者提供了開發界面和高效的執行平臺,是現階段AI 算法開發的必備工具。當前,人工智能基礎性算法理論研究創新日益活躍,深度神經網絡日趨成熟,各大廠商紛紛投入到深度神經網絡算法的工程實現并發力建設算法模型工具,進一步將其封裝為軟件框架供開發者使用,這個過程中 AI 框架(業界也稱 AI 開發框架、深度學習框架等)應運而
7、生。AI 框架負責給開發者提供構建神經網絡模型的數學操作,把復雜的數學表達轉換成計算機可識別的計算圖,自動對神經網絡進行訓練,得到一個神經網絡模型用于解決機器學習中分類、回歸的問題,實現目標分類、語音識別等應用場景。(一一)AI 框架演進步入深化階段框架演進步入深化階段 結合人工智能的發展歷程和 AI 框架的技術特性來看,AI 框架的發展大致可以分為四個階段,分別為萌芽階段(2000 年初期)、成長階段(20122014 年)、穩定階段(2015 年2019 年)、深化階段(2020 年以后)。其發展脈絡與人工智能,特別是神經網絡技術的異峰突起有非常緊密的聯系。中國 AI 框架發展白皮書(20
8、22 年)2 來源:中國信息通信研究院 圖 1 AI 框架技術演進 萌芽階段:受限于計算能力不足,這一階段的神經網絡技術影響力相對有限,因而出現了一些傳統的機器學習工具來提供基本支持,也就是 AI 框架的雛形,但這些工具或者不是專門為神經網絡模型開發定制的,或者 API 極其復雜對開發者并不友好,且這些工具并沒有對 GPU 算力進行支持。這一階段的 AI 框架并不完善,開發者不得不進行大量基礎的工作,例如手寫反向傳播、搭建網絡結構、自行設計優化器等。成長階段:2012 年,Alex Krizhevsky 等人提出了一種深度神經網絡架構,即著名的 AlexNet,在 ImageNet 數據集上達
9、到了最佳精度,并碾壓第二名,引爆了深度神經網絡的熱潮。自此極大地推動了 AI 框架的發展,出現了 Caffe、Chainer 和 Theano 等具有代表性的早期 AI 框架,幫助開發者方便地建立復雜的深度神經網絡模型,如 CNN、RNN、LSTM 等。不僅如此,這些框架還支持多 GPU 訓AI 框架發展白皮書(2022 年)3 練,讓開展更大、更深的模型訓練成為可能。在這一階段,AI 框架體系已經初步形成,聲明式風格和命令式風格為之后的 AI 框架趟出了兩條不同的發展道路。穩定階段:2015 年,何愷明等人提出的 ResNet,再次突破了圖像分類的邊界,在 ImageNet 數據集上的準確率
10、再創新高,也終于凝聚了產業界和學界的共識,那就是深度學習將成為下一個重大技術趨勢。在這一到兩年里,Google 開源了著名的 TensorFlow 框架,它至今仍是機器學習領域最流行的 AI 框架。Caffe 的發明者加入了Facebook(現更名為 Meta)并發布了 Caffe2;與此同時,Facebook AI 研究團隊也發布了另一個流行的框架 PyTorch,該框架拓展自Torch 框架,但使用了更流行的 Python API。微軟研究院開發了CNTK 框架。Amazon 采用了 MXNet,這是華盛頓大學、CMU 和其他機構的聯合學術項目。國內的百度則率先布局了 PaddlePadd
11、le 飛槳深度學習框架并于 2016 年發布。TensorFlow 和 CNTK 借鑒了 Theano 的聲明式編程風格,而PyTorch 則繼承了 Torch 的直觀和開發者友好的命令式編程風格。Francois Chollet 幾乎是獨自開發了 Keras 框架,該框架提供了神經網絡和構建塊的更直觀的高級抽象。同時各種 AI 框架不斷進行迭代,為框架提供各種面向高效友好開發的核心組件,例如幾乎所有AI 框架都支持的自動微分能力,TensorFlow 提供了分布式版本的AI 框架和支持 iOS 系統的能力,PyTorch 則在完全擁抱 Python 的基中國 AI 框架發展白皮書(2022
12、年)4 礎上提供了一整套包括優化器、庫函數、API 工具等支持。AI 框架迎來了繁榮,而在不斷發展的基礎上,各種框架不斷迭代,也被開發者自然選擇。經過激烈的競爭后,最終形成了兩大陣營,TensorFlow 和PyTorch 雙頭壟斷。2019 年,Chainer 團隊將他們的開發工作轉移到PyTorch;Microsoft 停止了 CNTK 框架的積極開發,部分團隊成員轉而支持 PyTorch;Keras 被 TensorFlow 收編,并在 TensorFlow2.0版本中成為其高級 API 之一。深化階段:隨著人工智能的進一步發展,新的趨勢不斷涌現,例如超大規模模型的出現(GPT-3 等)
13、,向 AI 框架提出了更高的要求。隨著人工智能應用場景的擴展以及與更多領域交叉融合進程的加快,越來越多的需求被提出,如對全場景多任務的支持、對高算力的需求等,這就要求 AI 框架最大化的實現編譯優化,更好地利用算力、調動算力,充分發揮硬件資源的潛力。此外,人工智能與社會倫理的痛點問題也促使可信賴人工智能在框架層面的進步?;谝陨媳尘?,現有的流行框架都在探索下一代 AI 框架的發展方向,如 2020 年華為推出昇思 MindSpore,在全場景協同、可信賴方面有一定的突破;曠視推出天元 MegEngine,在訓練推理一體化方面深度布局。在這一階段,AI 框架正向著全場景支持、超大規模AI、安全可
14、信等技術特性深化探索,不斷實現新的突破。AI 框架發展白皮書(2022 年)5(二二)AI 框架技術演化出三個層次框架技術演化出三個層次 根據技術所處環節及定位,當前主流 AI 框架的核心技術可分為基礎層、組件層和生態層。來源:中國信息通信研究院 圖 2 AI 框架核心技術體系 1.基礎層 基礎層實現 AI 框架最基礎核心的功能,具體包括編程開發、編譯優化以及硬件使能三個子層。編程開發層是開發者與 AI 框架互動的窗口,為開發者提供構建 AI 模型的 API 接口。編譯優化層是 AI 框架的關鍵部分,負責完成 AI 模型的編譯優化并調度硬件資源完成計算。硬件使能層是 AI 框架與 AI 算力硬
15、件對接的通道,幫助開發者屏蔽底層硬件技術細節。編程開發-編程接口 API:開發者通過調用編程接口來描述算法的計算過程。對于開發者來說,編程接口的易用性以及接口的表達中國 AI 框架發展白皮書(2022 年)6 能力非常重要,對算法的描述會映射到計算圖上。編程接口主要可以分為 3 類:一類是基于數據流圖的編程接口,流行的基于數據流圖的機器學習編程框架包括 TensorFlow、MXNet、Theano、Torch7等;另一類是基于層的編程接口,如 Caffe;還有一類是基于算法的編程接口,主要用于傳統機器學習算法的實現,如 Scikit-Learn。編程開發-編碼語言:人工智能應用場景眾多,人工
16、智能開發者基于不同場景選擇使用的編程語言多樣,完善的 AI 框架應支持多種不同的語言,例如 Python/倉頡/Julia 等。面向使用不同編程語言的開發者,AI 框架需要提供功能相同、性能可比的開發服務和技術支持。編譯優化-分布式并行:指數據流并行、模型并行、Pipeline 并行、優化器并行等策略。隨著模型規模的增大,傳統的數據并行無法有效處理,自動并行技術的使用將會是常態。需要將大模型切分到不同的設備上,切分就是將不同大塊計算切分成小塊計算,并將小塊計算發送到不同的計算資源進行計算,最后將小塊計算的結構進行規約合并。而切分策略尋優是很困難的,不同的切分產生的通信量差異巨大,計算利用率也很
17、不一樣,比如 Pipeline 并行往往在計算利用率方面存在較大的挑戰,算子切分的并行則在通信量方面存在較大的挑戰,需要 AI 框架來支持。編譯優化-自動微分:自動微分是將一個復雜的數學運算過程分解為一系列簡單的基本運算,每一項基本運算都可以通過查表得出AI 框架發展白皮書(2022 年)7 來。自動微分有兩種形式,包括前向模式(forward mode)和反向模式(reverse mode),前向模式是在計算圖前向傳播的同時計算微分,反向模式需要對計算圖進行一次正向計算,得出輸出值,再進行反向傳播。因此反向模式的內存開銷要大一點,它需要保存正向傳播中的中間變量值,這些變量值用于反向傳播的時候
18、計算導數。編譯優化-動靜轉換:靜態圖在定義執行前的所有操作和網絡結構,并將其呈現給傳感器流,在訓練期間提供了更高的性能,但這樣做的代價是不易于使用、不夠靈活。動態圖計算是即時執行的,提供了更大的靈活性和更容易的調試,但這樣做的代價是性能較低。TensorFlow2.0、MindSpore 等均支持動態圖和靜態圖的轉換技術,可以實現計算效率和靈活性的平衡。編譯優化-模型輕量化:輕量化是指為滿足 AI 模型尺寸小、計算復雜度低、電池耗電量低、下發更新部署靈活等要求下,AI 框架所配置的輕量化技術。一般來說,模型輕量化就是指模型壓縮和加速,其中壓縮重點在于減少網絡參數量,加速則側重在降低計算復雜度、
19、提升并行能力等。算法層壓縮加速主要包括結構優化(如矩陣分解、分組卷積、小卷積核等)、量化與定點化、模型剪枝、模型蒸餾等;框架層加速主要包括編譯優化、緩存優化、稀疏存儲和計算、NEON 指令應用、算子優化等。編譯優化-圖算融合:通過自動分析和優化現有網絡計算圖邏輯,并結合目標硬件能力,對計算圖進行計算化簡和替代、算子拆分和中國 AI 框架發展白皮書(2022 年)8 融合、算子特例化編譯等優化,以提升設備計算資源利用率,實現對網絡性能的整體優化。相比傳統優化技術,圖算融合具有多算子跨邊界聯合優化、與算子編譯跨層協同、基于 Polyhedral 的算子即時編譯等獨特優勢。另外,圖算融合只需要開發者
20、打開對應配置,整個優化過程即可自動完成,不需要網絡開發人員進行其它額外感知,使得開發者可以聚焦網絡算法實現。編譯優化-內存優化:由于硬件系統的內存資源有限,特別是AI 芯片的內存資源有限,需要有高效的內存優化策略降低 AI 網絡對系統內存的消耗。一般常用的內存優化技術有:靜態內存復用優化和動態內存分配機制。靜態內存復用優化會分析計算圖的數據流關系,基于數據的內存占用大小、數據間的生命周期重疊關系,規劃數據的內存復用策略,從而最小化內存占用。動態內存分配機制是在運行時創建大塊內存,并按照實際算子執行過程中需要的內存進行內存切片提供,當算子執行完且相關數據的引用均已結束時,釋放內存切片,從而實現內
21、存的有效復用。編譯優化-算子生成:AI 框架會提供基礎常用的算子,但是這些算子往往不能滿足開發者算法不斷演進的需求。因此,需要 AI框架具備針對不同算力設備的統一算子生成和優化的能力,使得開發人員只需要編寫高層編程語言(如 DSL)就可以通過 AI 框架提供的算子編譯生成能力,生成高質量的底層算子,極大降低 AI 框架和硬件平臺的開發和維護成本,拓展應用范圍。AI 框架發展白皮書(2022 年)9 編譯優化-中間表示:中間表示(Intermediate Representation,簡稱 IR)是對計算圖和算子格式的定義。完備的中間表示需要支持不同硬件設備算子定義和計算圖的性能優化,支持不同類
22、型的 AI模型網絡結構的靈活表達,支持不同設備間的模型中轉和遷移。硬件接入-計算算子:在深度學習領域計算算子特指計算圖中的一個函數節點,一個在張量上執行的計算操作,它接受零或多個張量作為輸入,得到零或多個張量作為輸出,利用梯度、散度、旋度的表達方式進行計算。硬件接入-通信算子:用于分布式節點通信的函數節點。2.組件層 組件層主要提供 AI 模型生命周期的可配置高階功能組件,實現細分領域性能的優化提升,包括編譯優化組件、科學計算組件、安全可信組件、工具組件等,對人工智能模型開發人員可見。并行及優化組件-自動并行:指對自動并行技術的多樣化組合支持。AI 框架支持開發者進行多種不同并行進行組合,根據
23、需要形成混合并行策略,例如數據流并行和模型并行的組合、數據流和Pipeline 并行的組合等,支持開發者個性化的選擇自己的并行策略,以更靈活的姿態支持人工智能模型訓練、應用適配。并行及優化組件-高階優化器:AI 框架支持多種不同的一階/二階優化器,能為開發者提供靈活方便的接口,例如 SGD 優化器、中國 AI 框架發展白皮書(2022 年)10 SGDM 優化器、NAG 優化器、AdaGrad 優化器、AdaDelta 優化器、Adam 優化器、Nadam 優化器等??茖W計算組件-科學計算(數值方法):人工智能發展的重要方向之一是科學計算,因此要求 AI 框架向開發者提供科學計算相關的功能支持
24、,通過函數式編程范式為 AI+科學計算提供融合的表達方式,使得開發者以更加接近數學計算的方式進行編程,以緩解當前 AI 框架的編程接口主要面向深度神經網絡設計,但是科學計算中需要大量的數學公式的表達(例如微分方程求解)的情況??茖W計算組件-科學計算(AI 方法):針對 AI 方法直接替代數值方法取得計算結果的形式,AI 框架需要具備“AI+科學計算”統一的數據底座,將傳統科學計算的輸入數據(如傳統科學計算軟件生成的仿真數據)轉換為 AI 框架的輸入數據(即張量)。針對 AI 方法與數值方法配合取得計算結果形式,除了需要具備統一的數據引擎之外,AI 框架需要支持傳統數值計算的方法,例如高階微分求
25、解、線性代數計算等,并通過計算圖對傳統數值方法和 AI 方法的混合計算優化,從而實現“AI+科學計算”端到端加速。安全可信組件-AI 可解釋:AI 框架需要具備三個層面的能力支持可解釋人工智能。建模前的“數據可解釋”,分析數據分布,找出代表性的特征,在訓練時選擇需要的特征進行建模。構建“可解釋人工智能模型”,通過與傳統機器學習(如貝葉斯概率編程)結合的方式,對人工智能結構進行補充,平衡學習結果的有效性和學習模型AI 框架發展白皮書(2022 年)11 的可解釋性。對已構筑模型進行“解釋性分析”,通過分析人工智能模型的輸入、輸出、中間信息的以來關系分析(如 TB-Net 的方式)及驗證模型的邏輯
26、。安全可信組件-數據安全:人工智能領域的數據安全問題不僅僅涉及到原始數據本身的保護,還要防止通過模型推理結果反推出數據隱私關鍵信息。因此,AI 框架本身除了要提供數據資產保護能力,還需要通過差分隱私等方式,保護模型數據的隱私。同時,為了源頭保護數據安全,AI 框架通過聯邦學習等方式進行模型訓練,使得數據不出端的情況下模型得到訓練更新。安全可信組件-模型安全:訓練模型時樣本訓練不足,使得模型泛化能力不足,導致模型面對惡意樣本時,無法給出正確的判斷結果。為此,AI 框架首先需要提供豐富的人工智能魯棒性檢測工具,通過黑盒、白盒、灰盒測試等對抗檢測技術測試人工智能模型的魯棒性,如靜態結構分析,動態路徑
27、分析等;其次,AI 框架可以通過支持網絡蒸餾、對抗訓練等方式幫助開發者提高模型的魯棒性。工具組件-訓練可視化:支持訓練過程可視化,可通過頁面直接查看訓練過程中的核心內容,包括訓練標量信息、參數分布圖、計算圖、數據圖、數據抽樣等模塊。工具組件-調試器:神經網絡訓練中經常出現數值誤差情況,如無窮大等,開發者希望分析訓練無法收斂的原因。但是,由于計算被封裝為黑盒,以圖的方式執行,開發者很難定位其中的錯誤。調中國 AI 框架發展白皮書(2022 年)12 試器是訓練調試的工具,開發者可以在訓練過程中查看圖的內部結構以及節點的輸入/輸出,例如查看一個張量的值,查看圖中的節點對應的 Python 代碼等。
28、此外,開發者還可以選擇一組節點設置條件斷點,實時監控節點的計算結果。3.生態層 生態層主要面向應用服務,用以支持基于 AI 框架開發的各種人工智能模型的應用、維護和改進,對于開發人員和應用人員均可見。套件/模型庫:AI 框架應對領域通用任務提供預訓練模型或者定義好的模型結構,方便開發者獲取和開展人工智能模型訓練和推理,如 CV、NLP 等。AI 領域擴展庫:AI 框架要能夠提供豐富的領域任務支持,并為相關任務提供典型案例,從而提供更好的應用服務,如 GNN、強化學習、遷移學習等。AI+科學計算:與 CV、NLP 等傳統信息領域不同,科學計算問題的求解需要具備相對專業的領域知識。為了加速 AI+
29、科學計算融合的研究和落地,AI 框架需要面向不同的科學計算領域(如電磁仿真、科學制藥、能源、氣象、生物、材料等)提供簡單易用的科學計算套件,這些套件包含高質量的領域數據集、高精度的基礎 AI模型和用于前后處理的工具集合。AI 框架發展白皮書(2022 年)13 文檔:AI 框架應提供完善的文檔體系,包括但不限于框架說明文檔、框架 API 文檔、框架版本變更文檔、框架常見問題文檔、框架特性文檔等。社區:人工智能服務發展需要社區支持,AI 框架應該經營或者維護良好的社區環境,好的 AI 框架具備較好的維護性和易用性,同時 AI 框架社區中應該有代表性項目并長期支持基于該框架的項目和應用。(三三)A
30、I 框架重要性愈加突顯框架重要性愈加突顯 AI 框架承上啟下,是整個人工智能技術體系的核心。從技術體系中的功能定位看,AI 框架對下調用底層硬件計算資源,能夠屏蔽底層差異并提供良好的執行性能,對上支撐 AI 應用算法模型搭建,提供算法工程化實現的標準環境,是 AI 技術體系的關鍵核心。除完成 AI 算法的工程實現外,AI 框架還能極大提高人工智能學習效率、強化 AI 算法模型能力,如基于 TensorFlow 的 AlphaGo 在極短時間內學習到戰勝前任 AlphaGo 的技能。AI 框架是應對智能經濟時代的技術利器。大規模并行計算及智能應用是未來智能經濟時代的主要特點。當前硬件計算以 CP
31、U 為代表,軟件棧主要針對串行指令進行優化。由于人工智能算法涉及大量的矩陣計算和并行數值計算,面向智能經濟時代的硬件計算已經顯示出從串行遷移到并行計算的趨勢,未來可能以 GPU 為代表,軟件棧主要針對大規模并行計算進行優化,這其中 AI 框架將成為大中國 AI 框架發展白皮書(2022 年)14 規模并行計算的關鍵調度者。此外,人工智能模型將主導智能經濟時代各行各業細分場景,智能應用將呈現規?;?、深度化等特點,而 AI 框架就是智能應用快速落地的關鍵支撐者。AI 框架將成為智能經濟時代的操作系統。當前互聯網時代,操作系統是 IT 業的核心樞紐點,建立硬件和應用軟件之間的聯系,左右著數字設備的整
32、個生態,通過與通用計算芯片的深度綁定,形成Windows+Intel、Android/iOS+ARM 兩大穩定的技術體系格局。智能經濟時代,AI 框架承擔著 AI 技術生態中操作系統的角色,是 AI學術創新與產業商業化的重要載體,助力人工智能由理論走入實踐,快速進入場景化應用時代??傮w來說,“AI 框架+算力芯片”的組合在一定程度上決定了人工智能產業應用的主體技術路線,其研發能夠促進生態圈關聯及外圍的芯片、系統、軟硬件平臺等產業發展,從而促進人工智能核心生態圈的建設。隨著價值不斷凸顯,AI 框架已經成為了人工智能產業創新的焦點之一,引起了學術界、產業界的重視。二、全球 AI 框架繁榮發展,多元
33、化競合態勢漸顯(一一)供給主體方面,供給主體方面,企校企校貢獻最活躍貢獻最活躍 科技企業與頂尖高校對 AI 框架的發展成熟貢獻最為活躍。數字科技企業巨頭與頂尖高校是 AI 框架發展壯大的主體維護力量,打造技術產業生態、營造學術創新氛圍,是兩大主體的源動力。個AI 框架發展白皮書(2022 年)15 人及開源組織也扮演著重要的角色,是 AI 框架創新性、公益性的重要體現。數字科技企業巨頭是 AI 框架發展壯大的核心力量。自身 AI 業務場景需求激發 AI 框架的應用,并實現 AI 框架的驗證完善。國際知名數字科技巨頭主導開源 AI 框架技術生態,我國數字科技企業近年來也積極布局并不斷創新。Goo
34、gle、Meta、Microsoft、Amazon等國外數字科技企業巨頭在基礎算法框架研發方面具有先發優勢,依托自身 AI 業務場景以及龐大的數據資源,能夠對算法框架進行有效試驗驗證及功能完善。在此基礎之上,數字科技企業巨頭將原本服務于內部業務場景的 AI 框架進行開源,為產業鏈下游合作伙伴提供底層 AI 核心能力,滿足工業級應用需求,逐步完善整體生態,實現合作共贏。國內數字科技巨頭紛紛布局推出 AI 框架,立足滿足自身的AI應用需求外,也對外拓展服務,如華為MindSpore、百度 PaddlePaddle、騰訊 TNN、阿里 MNN、字節跳動 BytePS 以及小米 Mace 等。高校及科
35、研院所是最早啟動 AI 框架研發的主導力量之一,并持續發揮著積極作用。高校及科研院所擁有強大的人才資源,基于實驗室科研創新需求對 AI 框架開展基礎性理論研究工作,布局整體早于數字科技企業,更易實現革命性突破創新。高校最早推出的Theano、Caffe 等開源框架能夠滿足學術研究需求,并對 AI 框架的整體發展起到巨大推動作用,但在大規模分布式計算等場景下的性中國 AI 框架發展白皮書(2022 年)16 能不及企業推出的 AI 框架。隨后,高校通過更換維護主體以持續釋放作用價值。例如,MXNet 框架發起于卡內基梅隆大學,后捐贈給 Apache 基金會,現成為 Amazon AWS 最主要的
36、 AI 框架。我國高校日漸重視 AI 框架研發,如清華大學已陸續開發出開源框架計圖Jittor、貝葉斯深度學習算法框架“珠算”等。(二二)開源生態方面,全球進入活躍期開源生態方面,全球進入活躍期 開源本質上是一種人才、智慧的聚合,能夠助推 AI 框架快速升級。茁壯的開源生態對于 AI 框架的發展至關重要。開發者通過在開源社區進行代碼開源、項目托管、協作分享、溝通交流等一系列活動,實現與開源 AI 框架的緊密互動。開源社區是 AI 框架開發者必不可少的學習與交流環境,可以說開源社區在推動 AI 框架發展的過程中起著巨大的作用。開源社區的相關指標,也體現著 AI框架在整個行業內的發展情況。對 AI
37、 框架來說,國外最知名社區是 Microsoft 收購的開源代碼托管平臺 Github,國內知名社區是由OSCHINA.NET 推出的代碼托管平臺 Gitee(碼云)。表 1 Github 社區中主流 AI 框架情況(2022.1)Rank Framework Commits1 Fork2 Star3 Contributors4 Foreign Framework 1 TensorFlow 124494 86300 163000 3056 1 Commits 代表開源代碼提交的次數,表征開源項目活躍度.2 Fork 代表代碼復刻、分叉,表征開源項目被引用情況.3 Star 代表點贊數,表征開源
38、項目關注度.4 Contributors 代表貢獻者,表征開源項目貢獻者規模.AI 框架發展白皮書(2022 年)17 Rank Framework Commits1 Fork2 Star3 Contributors4 2 PyTorch 43390 14800 53700 2137 3 Theano(Stop Developing)28127 2500 9500 352 4 CNTK(Stop Developing)16116 4400 17100 201 5 MXNet 11776 6900 19800 868 Domestic Framework 1 MindSpore 37308 51
39、4 2700 267 2 PaddlePaddle 33753 4300 17500 524 3 MegEngine 2282 462 4100 32 4 OneFlow 7621 351 3000 99 5 Jittor 1266 235 2300 31 來源:根據 Github 社區數據整理 Github 作為業內認可度最高的開源社區,也是 AI 框架開發者最關注的代碼托管平臺。從 Github 指標看,國外 AI 框架方面,TensorFlow 的各項指標均高居榜首,并遠超第二名,是全球目前活躍度最高、應用最廣的 AI 框架。近年來在學術領域表現亮眼的后起之秀 PyTorch 緊隨其后,
40、雖在頂會占據了主流地位,但與TensorFlow 相比仍略遜一籌。MXNet 表現也較為亮眼,但與前兩者不在同一量級。我國主體推出的 AI 框架方面,MindSpore 是目前活躍度最高的 AI 框架,在貢獻者方面也已集聚了一定規模使用群體。百度 PaddlePaddle 開源時間較早,在關注度方面較其他框架有一定優勢。其余框架中,OneFlow 的活躍度與貢獻者規模處于領先位置。中國 AI 框架發展白皮書(2022 年)18 表 2 Gitee 社區中主流 AI 框架情況(2022.1)Rank Framework Commits Fork Star Contributors 1 MindS
41、pore 38549 2400 6100 774 2 PaddlePaddle 32788 195 3600 561 3 OneFlow 7521 2 1 126 4 MegEngine(鏡像)2280 6 16 35 5 Jittor 1239 3 11 34 來源:根據Gitee社區數據整理 國內最大的開源代碼托管平臺 Gitee 目前主要是我國企業所主導 AI 框架進行發布交流的平臺。國內知名的框架除曠視 MegEngine尚未在社區上發布外,其他框架均有所布局,也吸引了國內的開發群體。其中,MindSpore 在 Gitee 中的各項指標都遠超其他 AI 框架,是國內社區中最活躍、關注
42、度最高、被應用最多的框架,處在我國開源生態的引領者地位。(三三)市場格局方面,雙寡頭市場格局方面,雙寡頭持續引領持續引領 全球來看,國際主流 AI 框架由 Google、Meta 等科技巨頭主導。目前以 Google、Meta、Amazon、Microsoft 等代表的互聯網科技巨頭,憑借自身的數據、技術和資本等優勢,持續在 AI 框架生態領域發力,引領全球 AI 框架技術創新升級趨勢,并逐步形成了以Google-TensorFlow 和 Meta-PyTorch 為代表的雙寡頭格局。從市場占有情況看,產業界以 TensorFlow 為主,學術界以 PyTorch 為主。Github 中 St
43、ar 數表征開源項目流行度,是開源項目在產業界中市場AI 框架發展白皮書(2022 年)19 份額的生動體現,據表 1 數據顯示,TensorFlow Star 數達到 163000,遠高于排名第二的 PyTorch(53700),且 Google 于 2019 年推出TensorFlow Enterprise,為大型企業提供 TensorFlow 的優化版本以及長期的技術支持,并與 Google Cloud 服務深度集成,持續鞏固TensorFlow 在產業界的領先地位。據 Papers With Code 數據5顯示,2021 全年基于 PyTorch 的論文數量在所有基于 AI 框架的論
44、文中占比高達 58.56%,遠高于排名第二的 TensorFlow(12.38%),PyTorch在學術界的領先優勢在持續加強。國內來看,雙寡頭并驅態勢下 AI 框架市場格局向著多元發展。我國在 AI 應用方面優勢顯著,相當規模的 AI 應用均構筑在國際主流 AI 框架之上,從底層開源代碼貢獻、底層硬件適配,到中間算子研發迭代、模型庫完善,以及上層算法模型構建,雙寡頭持續為國內 AI 應用生態輸出能力。不僅如此,近兩年國內廠商推出的 AI框架市場占有率也正穩步提升。MindSpore 框架開源后獲得國內外開發者的積極響應,在 Gitee 千萬個開源項目中綜合排名第一,成為國內最活躍的 AI 開
45、源框架。百度飛槳 PaddlePaddle 開發者規模也在持續壯大,從 IDC 2021 年調研的 350 份中小企業開發者樣本數據顯示,飛槳開發者認知度占比已超 20%。5 https:/ AI 框架發展白皮書(2022 年)20(四四)支撐應用方面,科研與產業齊驅支撐應用方面,科研與產業齊驅 1.AI 框架賦能學術科研 AI 與超級計算機的結合,使科研領域的計算能力普遍提升到一個新的高度。2021 年世界排名前 500 的超級計算機中,68.4%采用了 AI 技術進行了加速。美國橡樹嶺國家實驗室利用 TensorFlow 在Summit 超級計算機上訓練了 1.1EFLOP/s 的極端天氣
46、預報模型,用來模擬預測氣候變遷會產生的極端天氣,提升了氣象研究的精準度和可能性。美國勞倫斯伯克利國家實驗室在基于 CPU 的高性能計算平臺上,使用 TensorFlow 框架開發了大型科學應用程序 CosmoFlow,利用機器學習插件前所未有的將 TensorFlow 框架擴展到 8000 多個節點,以這種規模處理三維空間數據卷,主要應用在暗物質 N 體模擬實驗中,為科學家提供了一個全新的平臺來加深對宇宙的了解。TensorFlow 被廣泛應用于學術科研領域。美國航空航天局使用TensorFlow 對開普勒任務中積累的大量數據進行分析,由于機器學習能夠比人類更高效地搜索更廣范圍的信號,發現了一
47、直以來忽視的開普勒-90i 行星,這一發現使開普勒-90 星系成為了目前所知除太陽系外唯一八顆行星繞一顆恒星運行的星系,取得了天體物理學領域的一項重大突破。賓夕法尼亞大學研究利用 TensorFlow 解決農業病蟲害問題,通過注釋大量木薯植株圖像來識別和分類疾病,目前在坦桑尼亞部分地區試驗應用,農民們可以通過在木薯葉子前揮動手機,快速實現病株識別,并給出最佳的方式來進行管理。雨林保AI 框架發展白皮書(2022 年)21 護組織 Rainforest Connection 基于 TensorFlow 開發了世界上首款可自動識別盜伐行為的可擴展、實時監控報警的熱帶雨林環保系統,在亞馬遜雨林試驗應
48、用,通過當地的手機蜂窩網絡向中央云計算服務器發送聲音采樣,依托 TensorFlow 來分析和審計數據,從中甄別電鋸、木運卡車等與非法砍伐相關的聲音,以防止人工監聽遺漏。我國框架作為后起之秀在學術科研領域已經嶄露頭角?;贛indSpore 的鵬程.盤古作為全球首個發布的千億級預訓練中文大模型,模型規模高達 2000 億參數,MindSpore 采用全自動并行訓練方式支撐鵬程.盤古大模型在 4096 張 NPU 芯片上高效訓練。紫東.太初是基于 MindSpore 框架構建的全球首個圖文音三模態、千億級參數預訓練大模型,具備跨模態理解與跨模態生成能力。武漢大學運用MindSpore 打造了全球
49、首個專用深度學習遙感框架武漢.LuojiaNet,實現大規模衛星遙感影像的智能遙感解譯。PaddlePaddle 聯合鵬城實驗室發布了鵬城-百度 文心,模型參數規模達到 2600 億,是目前全球最大中文單體模型,在機器閱讀理解、文本分類、語義相似度計算等 60 多項任務取得最好效果。此外,百度基于 PaddlePaddle研發推出量子機器學習工具集量槳(Paddle Quantum),建立起了人工智能與量子計算之間的橋梁,可以快速實現量子神經網絡的搭建與訓練,同時還提供多項前沿量子應用。2.AI 框架賦能產業應用 中國 AI 框架發展白皮書(2022 年)22 空客公司使用 TensorFlo
50、w 開發的模型進行異常監測,保障空間站運行安全??湛凸緸楦鐐惒紝嶒炁摰倪\行及其在國際空間站上的有效載荷提供多項服務,哥倫布實驗艙是歐洲航天局最大的國際空間站項目,裝備有多種實驗設備,能開展細胞生物學、外空生物學、流體和材料科學、人類生理學、天文學和基礎物理學等多方面的實驗,由多個組件組成,能夠產生約 17000 個獨特的遙測參數??湛褪褂?TensorFlow 開發的模型在數據流監控過程中進行異常檢測,并實現實時報告,大大的簡化了異常原因分析過程并縮短了解決時間。生物制藥龍頭 Celgene 公司借助 MXNet 促進藥品研究和發明。Celgene 是一家從事免疫醫療的制藥企業,通過訓練神經
51、網絡識別和決策帶有標記細胞的顯微鏡圖像,解決了使用經典的圖像分析方法難以大規模識別和區分正常細胞和腫瘤細胞的問題。MXNet 框架對于毒理學預測尤其重要,可以無需活體患者承擔風險,虛擬分析潛在藥物的生物學影響。PyTorch幫助采礦企業Datarock進行基于深度學習的巖心鉆探。Datarock 通過深度學習模型幫助地質學家更快地分析鉆芯樣品圖像。傳統模式下地質學家會一厘米一厘米地仔細研究這些樣本,以評估礦物學和結構,工程師則會尋找諸如斷層、裂縫和巖石質量等物理特征,這個過程既緩慢又容易出現人為錯誤。使用Datarock的技術,AI 框架發展白皮書(2022 年)23 可以將手動記錄耗費的 5
52、-6 小時縮短在半小時內,使地質學家從繁重的基礎工作中解放出來。MindSpore 在行業賦能方面成績斐然,擁有 300 多個 SOTA 模型,超過 4000 個開源生態社區貢獻者,支持超過 5000 個在線 AI應用,廣泛應用于工業制造、金融、能源電力、交通、醫療等行業。MindSpore 賦能工業制造,通過 AI 技術助力降低重復勞動,華為松山湖南方工廠通過引入 MindSpore 及 AI 質檢算法,將印制電路板的缺陷檢測精度由 90%提升至 99.9%,并將質檢人員的工作效率提升了 3 倍?;?MindSpore 的金融解決方案在深圳、上海等地銀行網點運行效果顯著,有效提升潛在客戶轉
53、化率,同時利用 OCR 識別技術和生物識別技術,實現企業年報、合同、保單、發票等各類文檔及工單文本電子化,迅速提升工作效率?;?MindSpore 的智能輸電線路巡檢方案對輸電線路的設備和周界情況進行前端監控,并分析異常問題及時報警,南方電網、深圳供電局更是開辟了“以系統智能分析為主、人工判斷輔”的嶄新模式,使原來需要 20 天才能完成的現場巡視工作,輸電監控指揮中心現在僅需 2 小時就可完成,巡檢效率提高了近 80 倍。除此之外,基于 MindSpore 孵化的紫東.太初、武漢.Luojia 已從學術科研向產業應用轉化,支撐央視、愛奇藝、新華社技術局、航天宏圖等企業開展創新應用。Paddl
54、ePaddle 服務企業遍布能源、金融、工業、醫療、農業等多個行業,助力千行萬業智能化升級。PaddlePaddle 賦能人民日報中國 AI 框架發展白皮書(2022 年)24“創作大腦”,覆蓋了全媒體策劃、采集、編輯、傳播效果分析等各環節和業務場景,可以大幅提高新聞產品的生產效率,能夠進行視頻直播關鍵人物、語句識別、全網熱點數據自定義監測預警、批量生成可視化大數據報告等多種智能化生產。連心醫療基于PaddlePaddle 平臺開發上線“基于 CT 影像的肺炎篩查與病情預評估AI 系統”,已首先在湖南郴州湘南學院附屬醫院投入使用,可快速檢測識別肺炎病灶,為病情診斷提供病灶的數量、體積、肺部占比
55、等定量評估信息,同時輔以雙肺密度分布的直方圖和病灶勾畫疊加顯示等可視化手段,為臨床醫生篩查和預診斷患者肺炎病情提供定性和定量依據,提升醫生診斷和評估效率。曠視 MegEngine 充分發揮視覺領域優勢,實現行業賦能。曠視為某攝像頭模組企業提供的智能質檢解決方案實現了產品的在線實時檢測,基于 Brain+平臺的私有化部署版本 MegOne,能夠實時發現產品劃傷、折痕、油污、破損等缺陷,缺陷檢測率同比提高 90%,降低 85%以上人工成本,整體維護成本降低 10%。曠視推出供應鏈操作系統河圖,在電商倉庫中協同 500 臺機器人并發工作,將倉庫效率提升了 40%。曠視為華潤電力部署了園區安全管理系統
56、,利用人臉識別、物體檢測等計算機視覺算法,對變電設備周邊等危險區域實現了 7*24 小時警戒,顯著提升了安全管理水平。一流科技 OneFlow 充分發揮分布式可擴展性能優勢,已服務科研、政務、軍工、金融等諸多行業客戶。一流科技基于 OneFlow 框AI 框架發展白皮書(2022 年)25 架,集成大數據、云計算等組件,提供商業化產品 OF 智能云,包括人工智能開發平臺 OneBrain、強化學習解決方案 OneAgent 及 AI實訓及編程平臺 OneLab。其中 OneBrain 助力中關村智用研究院打造一站式人工智能開發平臺,提供多種混合算力解決方案,支持資源按需擴容,該項目交付智用投入
57、使用后,經計算,其系統算力率可提升 30%,模型訓練時間相較傳統方式節省 80%,整體解決了智用復雜業務場景、高算力要求和邊界靈活延展要求。(五五)推廣途徑方面,推廣途徑方面,三條路三條路齊發齊發并進并進 致力于社區生態的壯大與優化,吸引更多學術界與產業界開發者。主流 AI 框架通過繁榮開源社區生態,打造忠實的貢獻者團隊,從而吸引更多開發者參與生態構建。Google TensorFlow 團隊基于GitHub 開源,并逐步吸引早期開發者向貢獻者轉變。圍繞TensorFlow 開源社區,貢獻者除了貢獻 TensorFlow 高階 API 代碼外,還積極參與 TensorFlow 社區的管理、貢獻
58、 TensorFlow 延伸出來的開源項目以及傳播知識和分享經驗。華為推出 MindSpore 開發者扶植計劃,為開發者提供優惠的云服務資源和相關的知識賦能培訓資源,幫助個人開發者學習和構建基于 MindSpore 的技術能力,以獲得持續職業發展。百度攜手社區開發者共建生態,成立飛槳城市/高校領航團 150 個、飛槳特別興趣小組 12 個,目前全國范圍內已有 132 個城市和高校自組織社區在主動自發舉辦飛槳社區活動。中國 AI 框架發展白皮書(2022 年)26 與高??蒲性核搫?,拓展高校學術科研開發者規模以及學術科研應用。高校的人才培養和開發者的發展已成為整個 AI 框架生態的重要組成部分
59、,當前國內主流 AI 框架積極融入高校教學體系。華為與教育部聯合啟動建設“智能基座”產教融合協同育人基地,目前 MindSpore 課程已經在 100 多所高校開設,并積極開展計算機系統能力提升高級研修班,培養 AI 先鋒教師。百度支持教育部產學合作協同育人項目,截至目前,PaddlePaddle 已累計培訓了 3000 多位高校教師,并且參與編寫了一系列人工智能教材。此外,主流 AI框架也選擇通過設立創新基金激勵框架的創新應用。華為于 2020年與中國人工智能學會共同發起中國人工智能學會-華為MindSpore 學術獎勵基金,旨在激勵原創性科學研究開展,構建中國人工智能科學研究的全球影響力,
60、累計已投入 1600 萬資金,支持 120 多個項目,據 Papers With Code 數據顯示,2021 年 10 月統計基于 MindSpore 的論文數量在所有基于 AI 框架的論文中占比 10%(當月排名第 2),成效顯著。百度于 2020 年與中國計算機學會聯合成立了“CCF-百度松果基金”,旨在為青年學者提供經費、平臺、數據、技術支持等服務,推動 AI 框架在科研領域的應用。面向產業應用提供基礎設施及解決方案服務,不斷吸納下游合作伙伴。圍繞產業應用,AI 框架有三種層次的賦能路徑。首先是將AI 框架融入算力基礎設施,提供 AI 能力服務,如各地政府在建的和已上線運營的人工智能計
61、算中心,重點依托我國 AI 框架構建底AI 框架發展白皮書(2022 年)27 層 AI 開發能力,其中 MindSpore 成為主要選擇。其次是打造軟硬一體化方案,將 AI 框架作為打通底層算力硬件與上層應用的通道,如 PaddlePaddle 積極與硬件廠商合作,完成適配或正在適配的芯片與 IP 型號 31 種,進一步促進軟硬件聯合優化、協同發展;之江實驗室天樞人工智能開源平臺,以 OneFlow 框架為核心,上承算法應用,下接底層硬件。另外,還可依托 AI 框架打造面向具體行業的應用平臺,如華為聯合合作伙伴基于 MindSpore 推出“昇騰智造”、“昇騰智城”、“昇騰智行”、“昇騰智巡
62、”四大行業解決方案。三、應對未來多樣化挑戰,AI 框架有六大技術趨勢(一一)泛開發:泛開發:AI 框架將注重前端便捷性與后端高效性框架將注重前端便捷性與后端高效性的統一的統一 AI 框架需要提供更全面的 API 體系以及前端語言支持轉換能力,從而提升前端開發便捷性。AI 框架需要能為開發者提供完備度高、性能優異、易于理解和使用的 API 體系,TensorFlow、JAX 等相關開源項目成員組織的 Consortium for Python Data API Standards已經在啟動構建相應的標準。目前 PaddlePaddle 已經初步形成較完備的 API 體系。同時,AI 框架在產業落
63、地應用時,需要能夠與產業級開發語言(C+、C#、Java、Go 等)無縫銜接,也需要提供配套的編程接口與功能支持。從開發語言來看,眾多已有的開發框架主要以 Python 語言的支持為主,Julia、Swift for TensorFlow 及倉頡等新的編程語言正嘗試在 AI 框架領域構建 Python 之外的語言生態,中國 AI 框架發展白皮書(2022 年)28 從目前看,盡管 Julia(科學計算)和 Swift(工業級開發應用)都有些特色,但是短期內還很難撼動 Python 在 AI 框架領域的地位。AI 框架需要提供更為優質的動靜態圖轉換能力,從而提升后端運行高效性。從開發者使用 AI
64、 框架來實現模型訓練和推理部署的角度看,AI 框架需要能夠通過動態圖的編程范式,來完成在模型訓練的開發階段的靈活易用的開發體驗,以提升模型的開發效率;通過靜態圖的方式來實現模型部署時的高性能運行;同時,通過動態圖轉靜態圖的方式,來實現方便的部署和性能優化。目前,國際主流基本均已經實現動態圖開發、靜態圖部署的編程范式,具備動靜態圖轉換的能力,不過基于開發效率考慮,動態圖與靜態圖的轉換與統一需要持續迭代優化。(二二)全場景:全場景:AI 框架將支持端邊云全場景跨平臺設備框架將支持端邊云全場景跨平臺設備部署部署 AI 模型需要適配部署到端邊云全場景設備,對 AI 框架提出了多樣化、復雜化、碎片化的挑
65、戰。隨著云服務器、邊緣設備、終端設備等人工智能硬件運算設備的不斷涌現,以及各類人工智能運算庫、中間表示工具以及編程框架的快速發展,人工智能軟硬件生態呈現多樣化發展趨勢。但主流框架訓練出來的模型卻不能通用,學術科研項目間難以合作延伸,造成了 AI 框架的“碎片化”。目前業界并沒有統一的中間表示層標準,導致各硬件廠商解決方案存在一定差異,以致應用模型遷移不暢,增加了應用部署難度。因此,基于AI 框架發展白皮書(2022 年)29 AI 框架訓練出來的模型進行標準化互通將是未來的挑戰。AI 框架需要與硬件基礎設施平臺充分解耦,通過標準的硬件注冊接口實現跨設備平臺的快速部署。隨著處理任務的復雜化、處理
66、數據的密集化,跨架構的開發能力將會成為常態化的需求。AI 框架迫切需要開放一套可解耦的硬件注冊接口,支持硬件廠商無需觸碰框架核心代碼即可完成適配,避免硬件廠商面對多種 AI 框架以及不同框架版本的適配代碼進行維護??山怦畹挠布越涌?,需包括標準的硬件運行態管理、算子抽象定義、性能優化適配等接口,使得 AI 框架和硬件平臺開發者遵從相同接口定義設備驅動、運行時以及算子和計算圖等關鍵信息。除上述接口標準化外,還應該對模型的中間表示和算子進行標準化,硬件廠商只需基于同一種模型格式和同一套算子即可完成不同 AI 框架的適配,滿足端-邊-云不同業務場景同步適配的業務需求。(三三)超大規模:超大規模:A
67、I 框架將著力強化對超大規??蚣軐⒅娀瘜Τ笠幠?AI 的的支持支持 超大規模 AI 成為新的深度學習范式。OpenAI 于 2020 年 5 月發布 GPT-3 模型,包含 1750 億參數,數據集(處理前)達到 45T,在多項 NLP 任務中超越了人類水平。這種通過超大規模的模型參數及超大規模的數據集的 AI 大模型范式,實現了深度學習新的突破。產業界和學術界看到這種新型范式的潛力后紛紛入局,繼 OpenAI后,華為基于 MindSpore 框架發布了盤古大模型、智源發布了悟道中國 AI 框架發展白皮書(2022 年)30 模型、阿里發布了 M6 模型、百度發布了文心模型等。超大規模
68、AI正成為下一代人工智能的突破口,也是最有潛力的強人工智能技術。超大規模 AI 需要大模型、大數據、大算力的三重支持,對 AI框架也提出了新的挑戰,可總結為“五堵墻”。一是內存墻,大模型訓練過程中需要存儲參數、激活、梯度、優化器狀態,鵬程.盤古一個模型的訓練就需要近 4TB 的內存。二是算力墻,以鵬程.盤古 2000億參數量的大模型為例,需要 3.6EFLOPS 的算力支持,這要求必須構建大規模的異構 AI 計算集群,才能滿足這樣的算力需求,同時算力平臺要滿足智能調度,來提升算力資源的利用率。三是通信墻,大模型并行切分到集群后,模型切片之間會產生大量通信,從而通信就成了主要的瓶頸。四是調優墻,
69、在 E 級算力集群上訓練一個千億參數規模的,節點之間的通信關系非常復雜,要保證計算的正確性、性能和可用性,手動調試難以全面兼顧。五是部署墻,超大規模 AI 面臨“大模型、小推理”的部署難題,需要對大模型進行完美壓縮以適應推理側的部署需求。AI 框架將通過自動混合并行、全局內存管理、可視化調優以及分布式推理等核心技術支持超大規模 AI 發展。AI 框架可通過多維度自動混合并行,支持數據并行、模型并行、流水并行、優化器并行、子圖并行等多種維度的 AI 并行計算技術,解決模型及集群的橫向擴展問題,支持超大規模模型切分到大集群高效訓練,并實現最優的計算通信比,進而提升算力的利用率。AI 框架可通過全局
70、內AI 框架發展白皮書(2022 年)31 存管理及計算調度,實現 CPU 內存、NPU 內存和 NVMe 三層存儲的統一管理,從而提升單卡的縱向擴展能力。超大規模 AI 的數據集、網絡深度和寬度都非常大,AI 框架需要通過張量分析、圖碼結合等方式,快速定位出現精度異常的網絡結構或者算子,提供方便快捷的精度問題定位能力,并通過可視化的方式記錄并且分析開發者的調優路徑和 AI 模型的精度收斂趨勢,向開發者推薦調優策略,加速調優過程。此外,對于大模型的推理服務,AI 框架需要自動從分布式訓練模式轉換成分布式推理模式,并實現服務化封裝,支持快速上線大模型服務。(四四)科學計算:科學計算:AI 框架將
71、進一步與科學計算深度融合框架將進一步與科學計算深度融合交叉交叉 傳統科學計算領域亟需 AI 技術加持融合??茖W計算一般以準確的數學模型為根基,以嚴謹的計算方法為手段,對應用領域中氣候氣象、能源材料、航空航天、生物醫藥等問題進行模擬。傳統科學計算方法通過數值迭代的方式解決問題,面臨著維度災難引起的計算量指數上升的問題,導致在復雜問題或者場景中“算不起”,甚至是“算不動”。在科學計算的諸多領域仍舊存在著大量待求解的問題,因為機理不清楚,或是計算過于復雜,以至于傳統算法難以求解。而人工智能則往往依賴于以神經網絡為代表的具有“萬能逼近”性質的數學工具從數據中挖掘規律,從而在圖像處理等類型的任務上,實現
72、超越人類水準的突破。中國 AI 框架發展白皮書(2022 年)32 AI 框架提供了科學計算問題求解的新范式,推動科學計算與AI 共同發展。AI 框架需構建 AI 與科學計算的統一加速引擎,支持傳統數值計算的方法,并通過計算圖對傳統數值方法和 AI 方法的混合計算優化,從而實現 AI+科學計算端到端加速。AI 框架需要強化自動微分功能,通過改進框架自動微分機制和底層算子實現,支持高階微分,使得 AI 框架具備表達復雜科學計算公式的能力。AI框架需豐富編程接口,通過新增 Jacobian、Hessian、JVP、VJP 等接口,為 AI+科學計算提供融合的表達方式,使得開發者以更加接近數學計算的
73、方式進行編程。AI 框架需內置專業領域的科學計算套件,面向不同的科學計算領域提供簡單易用的科學計算套件,包含高質量的領域數據集、高精度的基礎 AI 模型和用于前后處理的工具集合。MindSpore 內置 MindSpore Science 功能組件,并推出面向電子信息行業的 MindSpore Elec 套件和面向生命科學行業的 MindSpore SPONGE 套 件。PaddlePaddle 通 過 擴 展 底 層 框 架 以 及 開 發PaddleScience 科學計算開發套件,具備求解科學計算問題的能力。(五五)安全可信:安全可信:AI 框架將助力提升框架將助力提升 AI 模型可解釋
74、性模型可解釋性與魯棒性與魯棒性 可解釋性的需求增加對 AI 框架提出進階性要求。通過對模型決策結果以人類可理解的方式呈現,有助于人們理解復雜模型內部的工作機理以及模型如何做出決策等重要問題。安全可信的 AI 框架需對模型可解釋性進行支持,將黑盒的人工智能決策轉化為可解AI 框架發展白皮書(2022 年)33 釋的決策判斷。這不僅能增加開發者對 AI 模型決策的理解與信任,也能幫助診斷出影響模型性能的因素,加以改進,進一步提升模型性能。目前已有部分框架開始支持可解釋性的需求,比如基于PyTorch 框架出現了 Captum 等可解釋庫支持,基于 TensorFlow 出現了 TF-explain
75、 等庫支持,以及同時支持 PyTorch 和 TensorFlow 的AIX360、Alibi等可解釋庫,國內則有MindSpore的MindSpore XAI,以及 PaddlePaddle 的 InterpretDL。另外,已經有一些平臺從可解釋的角度出發對模型進行評測,例如啟智社區的重明平臺、瑞萊智慧平臺等。AI 框架需要提供豐富的 AI 魯棒性檢測工具,提升 AI 模型的魯棒性。訓練模型時樣本訓練不足,使得模型泛化能力不足;模型面對惡意樣本時,無法給出正確的判斷結果。AI 框架可通過支持網絡蒸餾、對抗訓練等方式,以及黑盒、白盒、灰盒測試等對抗檢測技術,幫助開發者提高模型的魯棒性。Min
76、dSpore 推出魯棒性測試工具 MindSpore Armour,基于黑白盒對抗樣本、自然擾動等技術提供高效的魯棒性評測方案,幫助客戶評估模型的魯棒性性、識別模型脆弱點。PaddlePaddle 推出 PaddleSleeve 模型安全工具,完整提供了從 AI 模型魯棒性評估測試,到模型攻擊防御,再到模型魯棒性提升的一整套能力。中國 AI 框架發展白皮書(2022 年)34(六六)工程化:工程化:AI 框架將加速框架將加速 AI 應用產業規模級工程應用產業規模級工程化落地化落地 AI 工程化是 AI 深度賦能實體經濟的必經之路。工程化是人工智能技術從理論算法走向實踐的基本路徑,是在較為成熟的
77、算法基礎上,結合產業需求,形成可落地可實施且適宜規?;渴鸬墓こ谭桨?。近年來越來越多的行業領域涌現出智能化應用,但其工程化落地情況尚不理想,目前僅有半數項目能夠從 AI 原型轉化為生產6。Gartner 于 2021 年 10 月發布 2022 年十二大重要戰略技術趨勢,再次將 AI 工程化確定為重要戰略技術趨勢之一,并預測到 2025 年,10%建立 AI 工程化最佳實踐的企業從其人工智能工作中產生的價值,將至少比 90%未建立該實踐的企業高出三倍。AI 框架需要支持 AI 模型跨平臺的快速遷移,通過模型自適應等技術實現開發者開發調試代價的最小化。不同應用場景中、不同任務中,設備的資源約束不
78、同,對 AI 模型的精度產品化需求也不同。AI 框架需要針對不同場景或不同任務,權衡設備資源約束和精度要求,通過自動學習(AutoML)、模型輕量化(量化、剪枝等)、遷移學習等模型自適應技術對 AI 模型進行調優。遷移部署可以針對同一應用場景中的不同任務,或者不同應用場景的同一任務,避免了從零開始的再次開發,充分利用已有技術基礎,實現快速部署,減少開發者開發的時間、人力等各方面成本,也便于 AI 產品的快 6 2021 年重要戰略科技趨勢研究報告,Gartner 發布.AI 框架發展白皮書(2022 年)35 速推廣復用。AI 框架將依托增量學習更靈活地面對動態數據訓練需求,實現AI 應用開發
79、更快、成本更低。面對新增樣本數據或新任務時,傳統一次性的數據學習需要耗費大量的計算資源和時間進行重新學習,并且在新任務上訓練時,在舊任務上的表現力通常會顯著下降,出現“災難性遺忘”缺陷。增量學習能力能夠很好的解決上述問題,充分利用歷史訓練結果實現知識累積,顯著減少后續訓練時間的同時緩解遺忘缺陷,適用于數據庫龐大或數據流應用場景。此外,AI框架對端側、邊側增量學習的支持,也能夠優化輕量化部署效率,減少與云側數據的交互,進一步提升訓練性能。應用工程化將推動 AI 框架向著精細化、多元化發展。AI 應用產業規模級工程化部署往往涉及云邊端不同場景下的硬件設備,包括云服務器、移動終端以及 IoT 設備等
80、。對于移動終端和 IoT 設備,由于硬件資源限制,云側的模型和推理運行框架體積太大,無法直接部署,因此 AI 模型的壓縮和端側推理框架的輕量化成為移動終端和 IoT 設備上部署的關鍵。部分主流 AI 框架堅持訓練推理一體化布局,推出面向移動終端和 IoT 設備的推理引擎組件,加速 AI 工程化,如 TensorFlow Lite、PyTorch Mobile、MindSpore Lite、Paddle Lite等。此外還有專門為推理而設計的 AI 推理框架,如 NVIDIA TensorRT、Intel OpenVINO、騰訊優圖 TNN、阿里 MNN 等。全行業 AI 應用有著豐富的 AI
81、推理需求,包括精度需求、易用需求、性中國 AI 框架發展白皮書(2022 年)36 能需求等,隨著 AI 工程化的不斷發展,AI 推理框架生態將愈加繁榮。四、AI 框架生態遠未成熟,未來發展空間可觀 AI 框架進入主流視野僅五六年時間,從技術演進,到開源生態、市場格局,再到應用賦能、推廣輻射,AI 框架的整體生態還遠未成熟。軟硬件協同、開源打造、開發者推廣、關鍵領域賦能等方面,將為 AI 框架生態成熟升級提供重要助力。(一一)從硬件適配向算子接口標準化演進從硬件適配向算子接口標準化演進 為應對人工智能軟硬件生態面臨多樣化、復雜化、碎片化的挑戰,亟需推進 AI 框架硬件適配、算子接口標準化工作。
82、鼓勵 AI 頭部企業通過 AI 框架與底層 AI 芯片的適配逐步構建標準化硬件接口,驅動硬件廠商主動適配 AI 框架,從 AI 芯片主導適配向統一硬件接口主導適配轉變。支持研制統一的 AI 算子接口標準,通過屏蔽不同的底層硬件架構細節,制訂標準化的開發接口,為 AI 技術研究、軟硬件研制和應用開發提供統一規范。從標準工作切入,推進 AI框架統一中間表示 IR 的標準化,加速 AI 框架形成支持跨平臺快遞遷移部署的能力,將為 AI 框架構筑起協同生態。(二二)強化開源社區打造與開源氛圍營造強化開源社區打造與開源氛圍營造 著力開源開放,多措并舉構建 AI 框架開源生態,營造創新良好的 AI 算法框
83、架發展環境。建議遵循開源開放原則,聯合建設開AI 框架發展白皮書(2022 年)37 源社區,引領各方積極參與貢獻力量。鼓勵有技術實力的企業構建開源生態,重點在開源算法框架、數據庫、操作系統等關鍵基礎領域創新突破;鼓勵我國高校、企業、行業組織等產業各方融入國際開源社區生態,提升參與度與影響力;配套建設開源風險監測、開源生態監測等平臺,強化開源生態治理意識。通過構筑 AI 框架開源生態,為人工智能企業本身的技術創新、產品優化、應用拓展、人才引進提供持續的支持。(三三)重視與高??蒲性核鶑V泛開放合作重視與高??蒲性核鶑V泛開放合作 引導學術界高??蒲袡C構與產業界企業基于主流 AI 框架構建其 AI
84、應用系統,并在項目申報、科創資金申請等方面予以政策傾斜。通過支持和鼓勵高校、科研機構和合作伙伴參與到主流 AI 框架的眾籌開發中,通過共建聯合實驗室、創新中心等方式,開發和調優多個主流 AI 框架下的網絡模型,持續補足算子和模型,不斷優化算子和模型的精度與性能,培養一大批優秀開發者。鼓勵 AI頭部企業與高校廣泛開展合作,包括“人才培養、教材/教輔書籍、教學課程、技術合作、科研、大賽、項目孵化”等方面,支持高校建設融合 AI 框架的核心課程和數字教學資源,開展基于 AI 框架的理論教學、實驗實訓及 AI 技術合作項目。(四四)推進融入推進融入 AI 基礎設施布局落地基礎設施布局落地 AI 基礎設
85、施是以“數據資源、算法框架、算力資源”為核心能力中國 AI 框架發展白皮書(2022 年)38 要素,以“開放平臺”為主要賦能載體,能夠長期提供公共普惠的智能化服務的基礎設施。鼓勵 AI 框架主體通過融入人工智能計算中心、AI 公有云以及 AI 應用開放平臺等,對外提供 AI 能力服務,如各大中城市主導建設的人工智能計算中心,重點依托 MindSpore 等優質 AI 框架夯實底層 AI 開發能力。支持政府、企事業單位積極采購 AI 基礎設施服務,逐步擴大 AI 框架輻射范圍。(五五)支持深度賦能大模型及科學計算支持深度賦能大模型及科學計算 支持 AI 框架主體鉆研科學計算基礎研究領域,通過深
86、度賦能超大規模 AI、融入科學計算領域,實現 AI 框架的快速發展。超大規模 AI 是近兩年 AI 持續變革的核心動力,而 AI 融合計算則是 AI走入各學科領域的關鍵支柱,兩者均是各國基礎科研領域發力的新高地,也是新的科學裝置。超大規模 AI 與 AI 融合計算向 AI 框架提出更高要求,從性能、準確性、時效、能耗等多維度,推動 AI框架在技術上持續完善升級。同時,AI 框架需要主動融入超大規模AI 與 AI 融合計算領域開展 AI 創新應用,從而為生態層套件/模型庫提供豐富資源。中國信息通信研究院地址:北京市海淀區花園北路 52 號 郵編:100191 電話:18613805918 傳真:010-62304980 網址: