《計算機行業:大模型時代AI技術向效率提升演進-230227(12頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業:大模型時代AI技術向效率提升演進-230227(12頁).pdf(12頁珍藏版)》請在三個皮匠報告上搜索。
1、 敬請參閱最后一頁特別聲明 1 投資邏輯 我們 2022 年 12 月發布的報告深度學習算法:從多樣到統一中,闡述了自 Google 2017 年提出 Transformer 以來,深度學習開始進入大模型時代。大模型時代的前沿技術發展圍繞著提升效率而展開,包括:1)提升訓練方法效率:向無監督和半監督學習發展;2)提升數據效率:從追求數據規模向追求數據質量發展;3)提升開發效率:通過“預訓練基礎模型+微調”,挖掘現有大模型潛力,降低具體下游任務的開發成本;4)提升算力效率:從稠密機構向稀疏結構發展;5)提升訓練的工程化效率:向并行訓練和混合精度訓練發展 訓練方法:AI 模型的訓練方法主要包括監督
2、學習和無監督學習兩種典型方式,后隨模型訓練數據量的增加,衍生出使用大量未標注數據+少量標注數據的半監督學習方法。AI 訓練方法的發展歷經“監督-無監督-監督-無監督/半監督”4 個階段,在目前的大模型階段,無監督/半監督訓練再次成為主流。數據效率:隨參數規模的增加,大模型在知識密集型任務中的效果提升顯著。此外,當模型參數超過特定閾值后,模型會對特定任務表現出“涌現”現象。目前學界和業界已意識到數據質量的重要性或高于數據數量,AI 大模型需要在保證數據質量的前提下進行數據數量和參數規模的擴充。開發效率:AI 大模型的流行提出了“基礎模型+微調”的 AI 開發新范式。相較于過去“一場景、一任務、一
3、模型”的開發模式,“基礎模型+微調”具有數據需求量小、訓練時間短、落地邊際成本低等優點。微調技術的發展帶動大模型由“以參數規模取勝”向“以高質量學習取勝”轉變。算力效率:AI 架構可分為稠密結構和稀疏結構,其中稀疏結構可有效降低大模型對算力的消耗。2017 年 Google提出了混合專家方法 MoE,使得模型在計算過程中只需激活部分神經網絡;2022 年 6 月 Google 發布的基于稀疏結構的多模態模型 LimoE,已經在降低算力消耗的同時取得不亞于稠密結構的成績。工程化效率:伴隨 AI 大模型參數量的不斷提升,并行訓練、混合精度訓練等技術發展迅速。其中,國產 AI 框架百度 Paddle
4、Paddle 提出的 4D 混合并行策略在 MLPerf 發布的稠密結構 AI 訓練性能榜單中位列第一;通過使用16 位浮點數代替 32 位浮點數進行訓練,能夠在同等模型表現的情況下實現訓練時間減半。投資建議 建議關注受益于 AI 算法進步,并能成功進行商業化應用的科大訊飛、商湯科技等公司;以及受益于 AI 算力需求、微調技術發展的海光信息、浪潮信息、海天瑞聲等公司。風險提示 海外基礎軟硬件使用受限;骨干網絡創新放緩;應用落地不及預期 行業深度研究 敬請參閱最后一頁特別聲明 2 內容目錄內容目錄 1.訓練方法演進:無監督、半監督訓練再次成為主流.3 2.訓練數據演進:從追求規模到追求質量.6
5、3.開發方式演進:微調技術受到重視.7 4.架構設計演進:從稠密結構到稀疏結構.8 5.訓練技術演進:并行訓練與混合精度訓練.9 6.投資建議.10 7.風險提示.10 圖表目錄圖表目錄 圖表 1:監督學習與無監督學習方式對比.3 圖表 2:LeNet-5 卷積神經網絡典型結構.4 圖表 3:逐層無監督+BP 有監督可解決梯度消失問題.4 圖表 4:計算機視覺領域經典開源數據集.5 圖表 5:自然語言處理領域的無監督學習方法.5 圖表 6:MAE 無監督學習方法在多個下游任務中優于監督方法.6 圖表 7:知識密集型任務表現隨參數規模提升.7 圖表 8:AI 大模型在復雜任務中表現出“涌現”現象
6、.7 圖表 9:InstructGPT/ChatGPT 中的人類反饋強化學習技術.8 圖表 10:稠密結構與稀疏結構對比.9 圖表 11:混合專家方法示意.9 圖表 12:百度 PaddlePaddle 4D 混合并行策略示意.10 nNnMZVfWfVeUrV8ZMB7N9R8OpNrRnPpMkPpPpNfQtRyQ8OqRpOuOnMqQvPqRrM行業深度研究 敬請參閱最后一頁特別聲明 3 我們 2022 年 12 月發布的報告 深度學習算法:從多樣到統一 中,闡述了自 Google 2017年提出 Transformer 以來,深度學習開始進入大模型時代。本文旨在討論大模型時代下,整
7、個 AI 行業的技術演進的前沿發展方向。小結而言,大模型時代的前沿技術發展圍繞著提升效率而展開,包括:1)提升訓練方法效率:向無監督和半監督學習發展;2)提升數據效率:從追求數據規模向追求數據質量發展;3)提升開發效率:通過“預訓練基礎模型+微調”,挖掘現有大模型潛力,降低具體下游任務的開發成本;4)提升算力效率:從稠密機構向稀疏結構發展;5)提升訓練的工程化效率:向并行訓練和混合精度訓練發展。1.訓練方法演進:無監督、半監督訓練再次成為主流 AI 模型的訓練方法主要包括監督學習與無監督學習兩種典型方式,二者的區別在于是否使用帶人工標注的數據集進行訓練。此外,隨著模型訓練數據量的增加,標記大量
8、樣本成本過于昂貴,衍生出使用大量未標注數據+少量標注數據的半監督學習方式。目前,雖然模型參數的擴大仍能提升模型表現,但擴大相同規模的參數較大模型發展初期的邊際收益遞減,提升數據質量是未來模型智能水平提升的關鍵。圖表圖表1:監督監督學習與無監督學習方式對比學習與無監督學習方式對比 來源:CSDN 云計算公眾號,國金證券研究所 AI 訓練方法的發展歷經“監督-無監督-監督-無監督/半監督”4 個階段,在大模型時代下,無監督/半監督訓練再次成為主流方法。2006 年之前,淺層神經網絡的訓練以監督學習為主:算法層面,這一階段的神經網絡尚停留于淺層,強調通過學習少量數據獲得較強的性能,監督學習的表現顯著
9、優于無監督學習。此外,這一時期的支持向量機(SVM)等淺層學習算法表現出色,性能優于同時期的神經網絡算法,在學術界與產業界占據主流地位,而支持向量機通常采用監督學習方式,這也使得監督學習成為神經網絡的首選訓練方式。數據層面,這一階段的神經網絡由于性能有限,無法處理復雜任務,應用場景較為簡單。1998 年 Yann LeCun 等人研發的 LeNet-5 是這一時期最具代表性的神經網絡模型,LeNet-5 基于卷積神經網絡算法開發,被當時大多數美國銀行用于識別支票上的手寫數字。簡單的應用場景意味著特征信息易于獲取,AI 模型僅需要對少量數據進行學習就能獲得較強的性能。同時,由于對數據量需求較低,
10、標注數據并非難事。行業深度研究 敬請參閱最后一頁特別聲明 4 圖表圖表2:LeNet-5卷積神經網絡典型結構卷積神經網絡典型結構 來源:Dive into Deep Learning(Aston Zhang 等,2021),國金證券研究所 算力層面,這一階段的神經網絡采用 CPU 進行訓練,算力匱乏、算力成本高昂是這一時期 AI 發展的主要瓶頸。這使得對數據量要求較低、算力需求少的監督學習成為主流的神經網絡訓練方式。2006 至 2011 年,神經網絡向深層次發展,無監督學習成為這一時期的主流方法:算法層面,Hinton 使用逐層無監督的方法緩解了梯度消失問題,神經網絡得以邁向深層,性能上限極
11、大提升,將神經網絡用于處理復雜場景任務成為可能。此后,以 Hinton 為首的學者們開始嘗試通過深度神經網絡來模擬人的智能,無監督學習成為這一階段神經網絡的主流訓練方式:1)無監督學習在核心思想上與逐層無監督方法類似;2)仿生觀念在當時頗為流行,人類在學習時通常是無監督的。圖表圖表3:逐層無監督逐層無監督+BP有監督可解決梯度消失問題有監督可解決梯度消失問題 來源:A Fast Learning Algorithm for Deep Belief Nets(Hinton 等,2006),國金證券研究所 數據層面,神經網絡的應用場景日益豐富,包括無人駕駛、語音識別等。復雜場景意味著特征信息難以獲
12、取,AI 模型必須對更多的數據進行學習才能夠獲得所需的性能。然而數據因素對于該時期主流神經網絡訓練方式的影響有限:1)面向復雜場景研究剛剛起步,數據積累較少,無監督學習方式不具備優勢;2)深度學習方法尚未成熟,學者普遍認為算法水平決定一切,數據因素尚未得到足夠重視。算力層面,GPU 加速神經網絡訓練的方法被提出,算力得到了較大的提升,但GPU 并沒有成為主流的訓練硬件。這一階段的神經網絡在算法上迎來了突破,解鎖了神經網絡處理復雜問題的潛力,無監督學習主要是作為梯度消失問題的緩解措施,并沒有使得深度學習模型性能出現明顯提升,算法是這一階段制約人工智能發展的主要因素。2012 至 2017 年,A
13、lexNet 的成功使得監督訓練再度流行:算法層面,Hinton 及其學生于 2012 年提出 AlexNet 模型,自此奠定了深度學習的經典訓練范式。AlexNet 采用了經典的 CNN 網絡結構、使用 ReLu 激活函數、行業深度研究 敬請參閱最后一頁特別聲明 5 對輸入值進行有監督學習、并采用 GPU 對訓練進行加速。由于 AlexNet 將ImageNet 數據集上圖像分類的錯誤率由 26%降至 15%,此后 5 年學術界均沿用 AlexNet 的范式進行深度學習訓練,監督學習也因此成為了這一時期主流的神經網絡訓練方式。數據層面,從這一時期開始,數據量被認為是提升 AI 智能水平的關鍵
14、要素,以ImageNet 為代表的開源標注數據集發展迅速,這類標注數據集提供的數據量已經足以滿足當時絕大部分的 AI 訓練需求,并且應用起來方便快捷,這使得監督學習更為流行。圖表圖表4:計算機視覺領域經典開源數據集計算機視覺領域經典開源數據集 數據集名稱數據集名稱 數據量數據量 數據集內容數據集內容 ImageNet 1,420 萬張圖像,涵蓋 2 萬多個類別 圖像分類、對象檢測 CIFAR-10 6 萬張圖像,涵蓋 10 個類別 圖像分類 MegaFace 67 萬名人物,共 475 萬張圖片 人臉識別 MPII 2.5 萬張圖像,涵蓋 410 項人類活動 人體姿勢識別 Flicker-30
15、k 15.8 萬個眾包字幕,描述了 3.2 萬張圖像 圖像與圖像描述 MSCoco 32.8 萬張圖像,250 萬個標記實例 對象檢測、分割、圖像描述 來源:Paperswithcode,國金證券研究所 算力層面,AlexNet 模型的成功在學界與業界推廣了 GPU 加速人工智能訓練的新模式,算力瓶頸得到極大緩解。此階段神經網絡的發展主要由算法創新驅動,由標注數據提供訓練支持,模型性能得到較大提升。2017 年至今,Transformer 開啟大模型時代,無監督和半監督學習再次興起:2017 年 Transformer 問世后,深度學習對數據的需求量爆發增長,無監督學習方法成為了這一時期的主流
16、訓練方式。在數據量與模型表現高度關聯的大模型時代,高效的無監督學習算法能夠顯著提高模型智能水平,無監督學習也由此迎來了飛速發展。在自然語言處理領域,無監督學習技術發展較快。2018 年,在 Transformer 架構問世一年后,基于無監督學習的 BERT、GPT 等大規模語言模型相繼問世,并提出了自回歸、MLM、NSP 等無監督學習方法,這些方法的表現較好,一直沿用至今。圖表圖表5:自然語言處理領域的無監督學習方法自然語言處理領域的無監督學習方法 模型名稱模型名稱 發布者發布者 無監督學習方法無監督學習方法 核心思想核心思想 GPT OpenAI 自回歸 利用前文單向預測 BERT Goog
17、le MLM、NSP 文本掩碼,雙向預測 來源:OpenAI,Google,國金證券研究所 在計算機視覺領域,無監督學習技術發展相對較慢。2020 年,基于對比學習思想的 MoCo 問世,證明了無監督學習在計算機視覺領域能取得不亞于監督學習的效果。在此之后,基于對比學習的無監督學習方法不斷演進,朝著結構更簡單、對數據樣本要求更低、更容易應用的方向發展,準確度也不斷提升。行業深度研究 敬請參閱最后一頁特別聲明 6 圖表圖表6:MAE無監督學習方法在多個下游任務中優于監督方法無監督學習方法在多個下游任務中優于監督方法 來源:Masked Autoencoders Are Scalable Visi
18、on Learners(Kaiming He 等,2021),國金證券研究所 2021 年,Facebook AI(現 Mata AI)的何愷明等提出了 MAE 方法,該方法的核心思想與自然語言處理領域中的 MLM 方法相同,同樣是隨機掩蓋圖像信息,并在訓練過程中對圖像進行預測與重構。MAE 方法對數據的泛化性更強,更善于處理大規模數據,將無監督訓練的速度提高了 3 倍以上,在多個下游任務中表現比監督學習更好。至此,無監督學習方法在自然語言處理、計算機視覺兩個深度學習最重要的領域完成了統一;也由此結束了飛速發展期,轉而進入緩慢發展階段。目前,國內外 AI 公司發布的大規?;A模型都采用了無監督
19、學習方法。該方法放大了場景擁有者的競爭優勢。在自動駕駛領域,Tesla 的 Auto pilot 通過無監督學習使用數十萬 Tesla 司機的行為數據來訓練 AI 模型。據 Tesla 于 2021 年AI Day 公布的數據,Tesla 平均每天會收到 500,000 條以上的駕駛數據視頻,并采用自動標注技術(Auto Labeling)自動生成訓練信號,以此訓練新的 AI 模型,向 L5 級自動駕駛逐步邁進。2021 年全年,Tesla 共訓練了 75,000 個 AI 模型,平均每 8 分鐘就要訓練一個新的 AI 模型。無監督學習方法使 Tesla 大大降低了AI 模型的訓練成本、提高了
20、 AI 模型的迭代速度,幫助 Tesla 利用自身的數據優勢保持在自動駕駛領域的領先地位。2.訓練數據演進:從追求規模到追求質量 BERT、GPT-3 等 AI 大模型的成功使人們認識到模型參數規模、訓練數據量對于提高 AI智能水平效果顯著,引發了大規?;A模型開發浪潮,各國內外 AI 巨頭紛紛跟進,研發自有的參數規模更大、性能更強的 AI 大模型,享受算法進步帶來的數據規模紅利。伴隨參數規模的不斷提升,AI 大模型在具體任務中表現出以下特點:1)隨著參數規模的增加,顯著提高了 AI 模型在語言問答、閱讀理解等任務中的表現。這類任務通常是知識密集型,即模型包含的知識量越多,任務表現越好。AI
21、大模型的發展使得該類任務效果提升顯著。2)AI 大模型表現出了“涌現”現象,即模型的參數規??邕^特定閥值后,模型對特定任務出現爆發式性能增長,而在此之前模型完全不具備解決該任務的能力。具有“涌現”現象的任務往往復雜度較高,且由多個步驟組成,比較考驗 AI 模型的邏輯推理能力。行業深度研究 敬請參閱最后一頁特別聲明 7 圖表圖表7:知識密集型任務表現隨參數規模提升知識密集型任務表現隨參數規模提升 圖表圖表8:AI大模型在復雜任務中表現出“涌現”現象大模型在復雜任務中表現出“涌現”現象 來源:Beyond the Imitation Game:Quantifying and extrapolati
22、ng the capabilities of language models(Aarohi Srivastava 等,2022),國金證券研究所 來源:Beyond the Imitation Game:Quantifying and extrapolating the capabilities of language models(Aarohi Srivastava 等,2022),國金證券研究所 未來,數據質量的重要性可能遠高于數量。Google 在對其語言模型 T5 的實驗中發現:數據數量與數據質量兩個因素間,數據質量更為重要。AI 大模型的正確發展路徑是在保證數據質量的前提下,增大數據
23、數量、擴充參數規模。數據質量的衡量指標包含多個維度,如真實性、知識密度、多樣性等,在通過提高數據質量獲取更強大的模型智能時,需要綜合考慮以上多個維度:1)真實性:基于真實場景數據訓練得到的模型往往性能較好。深度神經網絡的本質基于統計學得到擬合函數,因此訓練數據是否與真實場景具有相同的數據分布對模型性能至關重要,較大的數據分布偏差會導致 AI 模型的性能和魯棒性較差。以圖像識別任務為例,ImageNet 作為該場景最具代表性的數據集,其數據真實性距離真實場景任有一定差距,在大多數圖片中識別目標均為圖像主體,并且較少存在遮擋、物體旋轉等現實中可能遇到的復雜情況。ObjectNet 是學者對應 Im
24、ageNet 專門建立的復雜場景數據集,該數據集所收錄的圖像均為較復雜的情況,能夠反映人工智能面對現實中復雜問題的表現。根據測試,各類先進計算機視覺模型在 ObjectNet 上的成績相較于ImageNet 下降了 40到 45,推理準確度從 90%下降至 50%,這表明在面對復雜問題時現階段視覺模型性能仍有待提升。2)知識密度:單位數據中的信息含量,應用高知識密度的數據進行模型訓練能夠顯著提升模型表現,典型的高知識密度數據包括維基百科、出版書籍、新聞等。3)多樣性:訓練數據的種類,多樣化的數據將賦予 AI 大模型解決不同類型任務的能力。例如,ChatGPT 在進行訓練時采用了維基百科、問答網
25、站、Github 代碼等多種數據,這不僅能夠提高 ChatGPT 在語言問答、代碼生成等任務中的表現,同時還將顯著提升模型的智能水平,研究表明 ChatGPT 邏輯能力的顯著提升來源于應用代碼進行模型訓練。3.開發方式演進:微調技術受到重視 AI 大模型的流行提出了“基礎模型+微調”的 AI 開發新范式。AI 大模型由海量數據通過無監督學習訓練得到,本身不能直接應用于具體任務,必須經過微調才可投入應用。微調是指基于大規?;A模型,在現有訓練得到的模型參數之上,針對特定任務類型、應用特定場景的數據對模型進行二次訓練。通俗來說,大規?;A模型為 AI 提供了基礎知識,而微調則是讓 AI 獲特定領域
26、知識,并賦予其組織、應用知識的能力。微調技術專注于挖掘現有 AI 大模型潛力,主要研究如何將大模型應用于具體場景,是大模型時代 AI 開發的重點環節。微調技術水平將極大影響 AI 模型的智能水平,先進的微調技術能夠更充分挖掘 AI 大模型的潛力,做到“事半功倍”。在AI進入大模型時代之前,如果想將AI應用于特定任務,則必須從零開始訓練神經網絡,即所謂“一場景、一任務、一模型”。相比而言,“基礎模型+微調”是低成本,高收益的解決方案,其主要具備以下優點:行業深度研究 敬請參閱最后一頁特別聲明 8 1)數據需求量小?!盎A模型+微調”的開發新范式無需模型從頭學習所有內容,微調階段的所有訓練都是為了
27、獲取特定領域知識。因此微調所需數據量較小,顯著降低了AI 開發中的數據門檻。2)訓練時間短。一方面,模型微調僅需小規模數據即可進行訓練,顯著降低了資源消耗;另一方面,在微調過程中,神經網絡中的大部份層會事先被凍結,這些層涉及的相關參數在訓練過程中保持不變,需要訓練的參數僅是所有參數中的一小部分。3)降低邊際落地成本。AI 大模型能適應不同場景下的多種下游任務,采用小規模數據針對具體場景“微調”后即可應用,顯著降低了 AI 模型重復開發造成的資源浪費,降低了 AI 落地的邊際成本 2020-2022 年間,大模型處于 1.0 時代,這一階段 AI 研究的特點是專注于大模型開發,追求大模型參數規模
28、提升,大模型開發相關技術迭代較快,微調技術相對不受重視,僅僅作為大模型性能的評估工具。2022 年至今,大模型向 2.0 時代邁進,LaMDA、ChatGPT 等新一代 AI 大模型的成功,標志著 AI 大模型從“以參數規模取勝”向“以高質量學習取勝”轉變。微調技術發展對模型智能的提升效果更為顯著,模型參數規模提升節奏放緩,落地進程明顯加快。2022 年 1 月,Google 發布對話 AI 模型 LaMDA,該模型不同于以往大模型專注于參數規模提高,其創新點主要集中于微調技術。LaMDA 嘗試通過微調方法創新提升模型輸出的質量、安全性與可靠性,針對不同的目標 Google 雇傭少量眾包人員與
29、 LaMDA 進行對話,眾包人員根據對應評價指標對 LaMDA 輸出內容通過打分等方式進行數據標注。LaMDA通過眾包模式收集了約 20,000 次對話的注釋數據,并基于這些數據對模型進行微調,微調技術的創新顯著提高了模型的理解能力,使得AI模型與人類交談時更為擬人化。LaMDA的成功驗證了微調技術創新對模型智能水平的提高具有關鍵作用。2022 年 3 月,OpenAI 發布新一代語言模型 InstructGPT,該模型創新點同樣集中于微調技術,創新性應用了人類反饋強化學習(RLHF)技術,該方法核心思想來源于強化學習,將人類的偏好作為獎勵信號訓練模型,使得 AI 輸出更加符合人類偏好。通過微
30、調技術創新,InstructGPT 使用了少量標注數據,這些數據僅由 40 人團隊就完成了標注。微調方法的進步顯著提升了模型智能水平,相比上一代語言模型 GPT-3,InstructGPT 在人工評估中以 13 億的參數規模戰勝了 1750 億的 GPT-3。圖表圖表9:InstructGPT/ChatGPT中的中的人類反饋強化學習人類反饋強化學習技術技術 來源:OpenAI,國金證券研究所 2022 年 11 月 30 日,OpenAI 對外發布新一代對話機器人 ChatGPT,ChatGPT 所應用的人類反饋強化學習(RLHF)技術更為成熟。一方面,ChatGPT 繼承了 Instruct
31、GPT中的相關技術,能夠通過學習人類提高的對話范例,輸出更符合人類偏好的內容。另一方面,人類反饋強化學習方法使 ChatGPT 更為謹慎,能夠主動拒絕回答不適當的問題,減少輸出有害答案,顯著提高了 AI 的安全性與可靠性。4.架構設計演進:從稠密結構到稀疏結構 AI 大模型架構設計是指模型的計算架構,主要分為稠密結構和稀疏結構。架構設計決定了模型在訓練過程中各神經元間如何相互作用。行業深度研究 敬請參閱最后一頁特別聲明 9 圖表圖表10:稠密結構與稀疏結構對比稠密結構與稀疏結構對比 圖表圖表11:混合專家方法示意混合專家方法示意 來源:機器之心公眾號,國金證券研究所 來源:Switch Tra
32、nsformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity(William Fedus 等,2022),國金證券研究所 稠密結構主要應用于以 GPT-3 為代表的早期的 AI 大模型,采用稠密結構的模型在計算時需要激活整個神經網絡,這將帶來極大的算力開銷和內存開銷,使得 AI 大模型訓練成本高昂。稀疏結構的提出旨在降低 AI 大模型對算力的消耗。2017 年,Google 提出了混合專家方法(Mixture of Expert,MoE),核心思想是在模型中引入專家層,每個“專家”處理各自擅長
33、的對應部分輸入,使得模型在計算過程中只需激活部分神經網絡。稀疏結構是一種更像人類的神經網絡結構,其運作過程與人腦極為相似,人腦中約有100 億個神經元,在執行具體任務的過程中只有部分特定的神經元會被激活,這種稀疏結構是人腦具備通用且高效智能水平的關鍵因素之一。稀疏結構能夠顯著降低大模型訓練成本。2021 年,Google 發布了基于稀疏結構的語言模型 Switch Transformers,該模型訓練效率相比前代稠密結構大模型 T5 提升近 7倍,模型參數量達 1.6 萬億,首次將 AI 大模型參數量推升至萬億級別。目前,稀疏結構已經應用至 AI 前沿研究。2022 年 6 月,Google
34、發布了第一個基于稀疏結構的多模態模型 LimoE,證明了稀疏結構在降低模型算力消耗的同時,能夠在多項任務中取得不亞于稠密結構的結果。從稠密結構到稀疏結構,AI 大模型架構設計的演進顯著降低了模型的算力消耗,助力 AI 大模型參數規模進一步提升。5.訓練技術演進:并行訓練與混合精度訓練 訓練技術的演進旨在提升 AI 模型訓練效率。伴隨 AI 大模型參數量的不斷提升,高效訓練技術發展迅速,其主要包括并行訓練技術和混合精度訓練技術等。并行訓練的核心思想是將計算任務切分到不同設備上,同時盡可能降低設備間通信損耗,合理使用多臺設備的算力,實現高效的并行訓練,最大化提升模型訓練速度。并行訓練方法主要包括數
35、據并行、模型并行、流水線并行等多種并行策略,目前業界主流方法是混合并行方法,即同時應用多種并行策略,取長補短、最大限度提升模型的并行能力。例如,國產 AI 框架百度 PaddlePaddle 提出 4D 混合并行策略,其同時應用了四種并行策略,顯著提高了模型訓練效率,支持訓練千億級參數的稠密結構模型、萬億級參數的稀疏結構模型,其性能在權威 AI 基準評測組織 MLPerf 發布的稠密結構 AI 模型訓練性能榜單中位列第一。行業深度研究 敬請參閱最后一頁特別聲明 10 圖表圖表12:百度百度PaddlePaddle 4D混合并行策略示意混合并行策略示意 來源:百度 PaddlePaddle,國金
36、證券研究所 混合精度訓練的核心思想是通過降低模型訓練過程中的參數精度,以此降低模型訓練過程中的算力消耗。該方法的提出是因為研究發現 AI 模型對于參數精度的要求較低,參數精度的降低幾乎不會影響模型表現,通過犧牲精度換取算力能夠顯著提高模型的訓練效率。例如,通過使用 16 位浮點數代替 32 位浮點數進行模型參數訓練,能夠使模型的訓練時間減半,同時幾乎不影響模型表現。6.投資建議 建議關注受益于 AI 算法進步,并能成功進行商業化應用的??低?、科大訊飛、商湯科技、中科創達等公司;以及受益于 AI 算力需求、微調技術發展的海光信息、寒武紀、浪潮信息、海天瑞聲等公司。7.風險提示 海外基礎軟硬件使
37、用受限 若因國際關系等原因,高算力 GPU 等基礎硬件或計算框架等基礎軟件使用受限,可能會對國內人工智能算法應用產生影響。骨干網絡創新放緩 目前 Transformer 成為深度學習骨干網絡,算法創新基本是基于 Transformer 做分支網絡創新,整體創新放緩。且 Transformer 本身作為骨干網絡,在處理部分任務時有一定局限性;若骨干網絡創新放緩,可能部分任務解決進程會放緩。應用落地不及預期 若相關應用公司不能找到人工智能算法較好的商業應用落地場景,或相關場景客戶沒有較強的付費意愿,可能算法應用落地會不及預期。行業深度研究 敬請參閱最后一頁特別聲明 11 行業行業投資評級的說明:投
38、資評級的說明:買入:預期未來 36 個月內該行業上漲幅度超過大盤在 15%以上;增持:預期未來 36 個月內該行業上漲幅度超過大盤在 5%15%;中性:預期未來 36 個月內該行業變動幅度相對大盤在-5%5%;減持:預期未來 36 個月內該行業下跌幅度超過大盤在 5%以上。行業深度研究 敬請參閱最后一頁特別聲明 12 特別聲明:特別聲明:國金證券股份有限公司經中國證券監督管理委員會批準,已具備證券投資咨詢業務資格。本報告版權歸“國金證券股份有限公司”(以下簡稱“國金證券”)所有,未經事先書面授權,任何機構和個人均不得以任何方式對本報告的任何部分制作任何形式的復制、轉發、轉載、引用、修改、仿制、
39、刊發,或以任何侵犯本公司版權的其他方式使用。經過書面授權的引用、刊發,需注明出處為“國金證券股份有限公司”,且不得對本報告進行任何有悖原意的刪節和修改。本報告的產生基于國金證券及其研究人員認為可信的公開資料或實地調研資料,但國金證券及其研究人員對這些信息的準確性和完整性不作任何保證。本報告反映撰寫研究人員的不同設想、見解及分析方法,故本報告所載觀點可能與其他類似研究報告的觀點及市場實際情況不一致,國金證券不對使用本報告所包含的材料產生的任何直接或間接損失或與此有關的其他任何損失承擔任何責任。且本報告中的資料、意見、預測均反映報告初次公開發布時的判斷,在不作事先通知的情況下,可能會隨時調整,亦可
40、因使用不同假設和標準、采用不同觀點和分析方法而與國金證券其它業務部門、單位或附屬機構在制作類似的其他材料時所給出的意見不同或者相反。本報告僅為參考之用,在任何地區均不應被視為買賣任何證券、金融工具的要約或要約邀請。本報告提及的任何證券或金融工具均可能含有重大的風險,可能不易變賣以及不適合所有投資者。本報告所提及的證券或金融工具的價格、價值及收益可能會受匯率影響而波動。過往的業績并不能代表未來的表現??蛻魬斂紤]到國金證券存在可能影響本報告客觀性的利益沖突,而不應視本報告為作出投資決策的唯一因素。證券研究報告是用于服務具備專業知識的投資者和投資顧問的專業產品,使用時必須經專業人士進行解讀。國金證
41、券建議獲取報告人員應考慮本報告的任何意見或建議是否符合其特定狀況,以及(若有必要)咨詢獨立投資顧問。報告本身、報告中的信息或所表達意見也不構成投資、法律、會計或稅務的最終操作建議,國金證券不就報告中的內容對最終操作建議做出任何擔保,在任何時候均不構成對任何人的個人推薦。在法律允許的情況下,國金證券的關聯機構可能會持有報告中涉及的公司所發行的證券并進行交易,并可能為這些公司正在提供或爭取提供多種金融服務。本報告并非意圖發送、發布給在當地法律或監管規則下不允許向其發送、發布該研究報告的人員。國金證券并不因收件人收到本報告而視其為國金證券的客戶。本報告對于收件人而言屬高度機密,只有符合條件的收件人才
42、能使用。根據證券期貨投資者適當性管理辦法,本報告僅供國金證券股份有限公司客戶中風險評級高于 C3 級(含 C3 級)的投資者使用;本報告所包含的觀點及建議并未考慮個別客戶的特殊狀況、目標或需要,不應被視為對特定客戶關于特定證券或金融工具的建議或策略。對于本報告中提及的任何證券或金融工具,本報告的收件人須保持自身的獨立判斷。使用國金證券研究報告進行投資,遭受任何損失,國金證券不承擔相關法律責任。若國金證券以外的任何機構或個人發送本報告,則由該機構或個人為此發送行為承擔全部責任。本報告不構成國金證券向發送本報告機構或個人的收件人提供投資建議,國金證券不為此承擔任何責任。此報告僅限于中國境內使用。國金證券版權所有,保留一切權利。上海上海 北京北京 深圳深圳 電話:021-60753903 傳真:021-61038200 郵箱: 郵編:201204 地址:上海浦東新區芳甸路 1088 號 紫竹國際大廈 7 樓 電話:010-85950438 郵箱: 郵編:100005 地址:北京市東城區建內大街 26 號 新聞大廈 8 層南側 電話:0755-83831378 傳真:0755-83830558 郵箱: 郵編:518000 地址:中國深圳市福田區中心四路 1-1 號 嘉里建設廣場 T3-2402