《計算機行業:AI大模型引發科技革命-230331(33頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業:AI大模型引發科技革命-230331(33頁).pdf(33頁珍藏版)》請在三個皮匠報告上搜索。
1、請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 2023.03.31 AI 大模型引發科技革命大模型引發科技革命 李沐華李沐華(分析師分析師)李雪薇李雪薇(分析師分析師)010-83939797 021-38031656 證書編號 S0880519080009 S0880520120006 本報告導讀:本報告導讀:隨著大模型底層架構初步成熟,以大模型作為基礎模型支撐隨著大模型底層架構初步成熟,以大模型作為基礎模型支撐AI產業應用邏輯已然明產業應用邏輯已然明朗朗。在在國內外各大模型百花齊放國內外各大模型百花齊放背景下背景下,模型訓練優化與產業落地模型訓練優化與產業落地將將成為新
2、戰場。成為新戰場。摘要:摘要:MaaSMaaS 產業趨勢明朗產業趨勢明朗,海外大模型海外大模型角逐激烈角逐激烈。Transformer基于“預訓練”和“大規?!眱蓚€主要手段,使得千億參數規模的大模型成為可能。同時,隨著預訓練模型趨向于大一統以及不同模態交互日益成熟,基于標準化的大模型,有助于為大范圍產業化提供基礎和可能,從而助力實現 MaaS 生態;大型語言模型研究的發展有三條技術路線:Bert模式、GPT 模式、混合模式。其中國內大多采用混合模式,多數主流大型語言模型走的 GPT 技術路線。同時,各個大語言模型路線各有聚焦,GPT模式在生成類任務表現最優。OpenAI正是基于Transfor
3、mer基礎模型推出了 GPT 系列大模型,GPT 模型依托于 Transformer 解除了順序關聯和對監督學習的依賴性的前提,同時對基礎模型架構的更改最小,且進行了顯著簡化。最終 GPT-4 的發布成為 OpenAI 在深度學習擴展方面的里程碑,GPT-4 已經可被視為通用人工智能的早期版本,除了生成能力,GPT-4 還具有解釋性、組合性和空間性能力。國內大模型趕超迅速,國內大模型趕超迅速,各玩家布局各有側重各玩家布局各有側重。百度經過11年積累了全棧人工智能技術,從芯片層、框架層、模型層到應用層,實現 AI應用場景全覆蓋。同時,屬國內獨家的從軟件到 AI 芯片全棧打通的Paddle 訓練框
4、架生態,結合其傳統業務優勢,助力百度獲得海量中文問答式搜索反饋數據,形成“數據飛輪”效應;騰訊自發布混元 AI大模型以來,持續探索改進大模型優化策略,打造高效率開發工具,降低模型訓練成本。而且混元商業化拓展迅速,大模型效益得到驗證;阿里在國內率先探索通用統一大模型,快速提升參數量級,并實施開源來釋放大模型應用潛力;華為依托昇騰 AI 打造的全棧使能體系,聚焦以視覺為主的數字化場景,開啟工業化 AI 行業適配。隨著算力及硬件性能需求大幅提升,模型訓練隨著算力及硬件性能需求大幅提升,模型訓練開始開始多路徑優化。多路徑優化。大模型海量參數訓練所需算力日益攀升,長時間的 GPU 集群訓練任務,對網絡互
5、聯底座的性能、可靠性、成本等各方面都提出極致要求,而GPU 硬件發展的速度難以滿足 Transformer 模型規模發展的需求。因而國內外業界廠商紛紛提出各自的大模型訓練提效方案。投資建議:投資建議:AI 的技術更迭以及應用場景的大幅拓展正推動著人工智能產業全新的發展,我們基于核心應用場景視角,推薦擁有垂直場景優勢的科大訊飛、金山辦公、凌志軟件、杰創智能。風險提示風險提示:大模型應用不及預期風險,競爭加劇風險。評級:評級:增持增持 上次評級:增持 細分行業評級 相關報告 計算機 文心千帆發布,AI應用發展有望超預期 2023.03.28 計算機浪潮已到,AI 產業化快速推進 2023.03.2
6、6 計算機 大模型將徹底改變AI模型的開發模式 2023.03.19 計算機 華為官宣 MetaERP,重塑新生態 2023.03.18 計算機 微軟發布 Copilot,徹底改變人類辦公方式 2023.03.17 行業專題研究行業專題研究 股票研究股票研究 證券研究報告證券研究報告 計算機計算機 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 2 of 33 目目 錄錄 1.大模型構筑 AI 基石,MaaS 未來可期.3 1.1.NLP 五級進階,大模型應運而生.3 1.2.從 CNN 到 Transformer,大模型底層架構顯著優化.3 1.3
7、.大模型技術路線各有側重,MaaS 已成產業趨勢.5 2.GPT 系列一路領先,海外大模型角逐激烈.6 2.1.OpenAI:GPT 系列大模型一騎絕塵,智能化程度提升迅速.6 2.2.微軟:與 OpenAI 深度綁定,占得行業先機.10 2.3.谷歌:扎根基礎模型研發,引領技術革新.13 3.國內大模型蓄力已久,趕超動能強勁.16 3.1.百度:全棧技術積累頗豐,AI 應用場景全覆蓋.16 3.2.騰訊:優化大模型訓練,加速大模型應用落地.20 3.3.阿里:聚焦通用底層技術,開源釋放大模型應用潛力.21 3.4.華為:昇騰 AI 打造全棧使能體系,定位行業級 CV 應用.23 4.算力及硬
8、件承壓,模型訓練多路徑優化.25 4.1.海量參數開路,算力瓶頸漸至.25 4.2.模型日益復雜,硬件需求承壓.27 4.3.聚焦技術路線優化,突破模型算力瓶頸.28 5.投資建議.31 6.風險提示.31 OXjXlYVYjXjWpMpMnP7N8Q9PpNmMmOmPfQqQqMfQqQsQ9PmOqQxNnQqRxNsPsN 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 3 of 33 1.大模型大模型構筑構筑 AI 基石,基石,MaaS 未來可期未來可期 1.1.NLPNLP 五級進階五級進階,大模型應運而生,大模型應運而生 從基于規則到從
9、基于規則到基于基于人的人的意識,大型語言模型是技術進步的必然產物意識,大型語言模型是技術進步的必然產物。自然語言處理發展到大型語言模型的歷程可分為五個階段:規則、統計機器學習、深度學習、預訓練、大型語言模型??紤]到機器翻譯是 NLP 中難度最高、綜合性最強的任務,可借助該功能來論述不同技術階段的典型特點。從 1956 年到 1992 年,基于規則的機器翻譯系統在內部把各種功能的模塊串到一起,由人先從數據中獲取知識,歸納出規則后教給機器,然后由機器執行這套規則,該階段為規則階段;從 1993 年到 2012年是統計機器學習階段,在此期間,機器翻譯系統可拆成語言模型和翻譯模型,該階段相比上一階段突
10、變性較高,由人轉述知識變成機器自動從數據中學習知識,當時人工標注數據量在百萬級左右;從 2013 到 2018年,進入深度學習階段,其相比于上一階段突變性較低,從離散匹配發展到 embedding 連續匹配,模型變得更大,標注數據量提升到千萬級;預訓練階段存在于 2018 年到 2022 年,跟之前比較,最大變化是加入了NLP 領域杰出的自監督學習,將可利用數據從標注數據拓展到了非標注數據。該階段系統可分為預訓練和微調兩個階段,將預訓練數據量擴大3 到 5 倍,典型技術棧包括 Encoder-Decoder、Transformer、Attention等。圖圖 1 從基于規則到遵循人的價值觀從基
11、于規則到遵循人的價值觀,大型語言模型變遷由來已久,大型語言模型變遷由來已久 數據來源:北京 AIGC 論壇,智東西,國泰君安證券研究 大模型階段大模型階段在在數據數據標注標注、算法、人機關系、算法、人機關系三方面的性能均有三方面的性能均有跨越式跨越式提升。提升。從 2023 年起開始進入大模型階段,該階段的突變性很高,已經從專用任務轉向通用任務或是以自然語言人機接口的方式呈現,旨在讓機器遵循人的主觀意志。在數據標注方面,大模型已經從原來需要大量標注數據進化到運用海量非標注數據,越來越多數據被利用起來,人的介入越來越少,未來會有更多文本數據、更多其它形態的數據被模型運用。在算法方面,大模型的表達
12、能力越來越強、規模越來越大,自主學習能力越來越強,從專用向通用趨勢顯著。1.2.從從 C CNNNN 到到 T Transformerransformer,大模型底層架構大模型底層架構顯著顯著優化優化 從從 C CNNNN 到到 R RNNNN 再再到到 LTSMLTSM,語言處理性能得到有效提升語言處理性能得到有效提升。早期NLP注重語 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 4 of 33 法分析,通過設計語法方向實現句子分析。伴隨著語料數據復雜化、多樣化,句子分析難度也提升。隨后卷積神經網絡(CNN)引發計算機視覺領域的變革,因此 CN
13、N 也逐步用在 NLP 上。但傳統神經網絡擅長圖像識別,考慮到語言的順序屬性,直接進行文字處理則效果有限。所以,隨后循環神經網絡(RNN)模型應用鋪開,RNN 將順序作為權重因子,實現了較好的效果。但 RNN 單元的記憶力短和梯度不穩定,因而用于長序列時也有一定局限性。后來長短期記憶網絡(LTSM)成為關注點,一定程度解決了 RNN 的痛點,但針對長段落的處理能力仍需提升。TransformerTransformer 模型可以替代當前的遞歸模型,消減對輸入輸出的順序依模型可以替代當前的遞歸模型,消減對輸入輸出的順序依賴賴。Transformer 模型作為完全基于注意力機制的新神經網絡架構,在技
14、術特征上主要體現為可以并行、速度更快。過往要訓練一個深度學習模型,必須使用大規模的標記好的數據集合來訓練,這些數據集合需要人工標注,成本極高。在 Transformer 下,通過 Mask 機制,遮擋已有文章中的句段,讓 AI 去填空,從而使很多現成的文章、網頁等信息就成為天然的標注數據集,成本節省極為明顯;同時,RNN 的順序計算、單一流水線的問題在 Transformer 的并行機制下也能得到有效解決。Transformer 問世后,迅速取代循環神經網絡 RNN 的系列變種,可以滿足市面上幾乎所有的自然語言處理的需求,成為主流的模型架構基礎。openAI、谷歌、百度等都是基于 Transf
15、ormer 模型進行大模型研發和應用。圖圖 2 注意力機制是基于單詞之間的關聯度構成向量注意力機制是基于單詞之間的關聯度構成向量 圖圖 3TransformerTransformer 是基于注意力機制的神經網絡架構是基于注意力機制的神經網絡架構 數據來源:稀土掘金,國泰君安證券研究 數據來源:Attention Is All You Need論文 基于預訓練機制,基于預訓練機制,TransformerTransformer 標志著“基礎模型”時代的開始。標志著“基礎模型”時代的開始。Transformer 作為基礎性模型,開始對人腦學習過程重點關注,為其他模型(GPT、GPT-3、BERT 等
16、)的演化提供基本手段。同時,遷移學習(Transfer Learning)使得基礎模型成為可能,而預訓練又是遷移學習的主要方式。遷移學習的思想是將從一項任務中學習到的“知識”(例如,圖像中的對象識別)應用于另一項任務(例如,視頻中的活動識別)。在Transformer 模型中,預訓練(Pre-training)是遷移學習的主要方法:“預訓練”是將大量低成本收集的訓練數據放在一起,經過某種預訓方法去學習其中的共性,然后將共性“移植”到特定任務模型中,再使用相關特定領域的少量標注數據進行“微調”來適應下游任務。大規?;笠幠;╯caling upscaling up)使基礎模型更強大,因而使基礎
17、模型更強大,因而 GPTGPT 模型得以形成模型得以形成。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 5 of 33 大規模需要三個要素:(i)計算機硬件的改進例如,GPU 吞吐量和內存在過去四年中增加了 10 倍;(ii)Transformer 模型架構的開發,該架構利用硬件的并行性來訓練比以前更具表現力的模型;以及(iii)更多訓練數據的可用性?;?Transformer 的序列建模方法現在應用于文本、圖像、語音、表格數據、蛋白質序列、有機分子和強化學習等,這些例子的逐步形成使得使用一套統一的工具來開發各種模態的基礎模型這種理念得以成熟。例
18、如,GPT-3 在上下文學習中,只需向下游任務提供提示(任務的自然語言描述),語言模型就可以適應下游任務,這是產生的一種新興屬性。并且,只有千億參數規模以上的大模型,才可能出現“智慧涌現能力”,涌現出包括“思維鏈”等強大的推理模式,而具備“涌現能力”的大模型也正是 ChatGPT 得以推出的重要前提條件。1.3.大模型技術路線大模型技術路線各有側重,各有側重,MaaSMaaS 已成產業趨勢已成產業趨勢 大型語言模型研究的發展有三條技術路線:大型語言模型研究的發展有三條技術路線:BertBert 模式、模式、GPTGPT模式、混合模式、混合模式模式。其中國內大多采用混合模式,多數主流大型語言模型
19、走的是 GPT技術路線,直到 2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT。到 2019年后,Bert 路線基本沒有標志性的新模型更新,而 GPT 技術路線則趨于繁榮。從 Bert 往 GPT 演化的過程中,模型越來越大,所實現的性能也越來越通用。圖圖 4:大模型的技術路線主要大模型的技術路線主要包含包含Bert、GPT 和混合和混合 數據來源:北京 AIGC 論壇整理,國泰君安證券研究 各類大各類大語言語言模型路線各有側重模型路線各有側重,GPTGPT 模式在生成類任務表現最優模式在生成類任務表現最優。大型語言模型按照從數據到知識來劃分,數據可分為通用數據和領域數據,知識
20、分為語言知識和世界知識。從任務類型來劃分,大型語言模型可以分為單一任務和多任務、理解類和生成類;Bert 模式有兩階段(雙向語言模型預訓練+任務 Fine-tuning),適用于理解類以及某個場景的具體任務,表現得“專而輕”。GPT 模式是由兩階段到一階段(單向語言模型預訓練+zero-shot prompt),比較適合生成類任務、多任務,表現得“重而通”。T5 模式則將兩者的方法結合,包含有兩階段(單向語言模型預訓練+Fine-tuning)。根據當前研究結論,如果模型規模不特別大,面向單一領域的理解類任務,適合用 T5 模式,而 GPT 模式在做生成類任務時的效果最好。綜合來看,當前幾乎所
21、有參數規模超過千億的大型語言模型都采取 GPT 模式?;A大模型日趨成熟,基礎大模型日趨成熟,MaaSMaaS 已成產業趨勢。已成產業趨勢。近年來,基礎模型(也被稱為預訓練模型)的研究從技術層面逐漸趨向于大一統,不同人工智能領 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 6 of 33 域(例如自然語言處理、計算機視覺、語音處理、多模態等)的基礎模型從技術上都依賴三個方面:一是 Transformers 成為不同領域和問題的通用神經網絡架構和建模方式,二是生成式預訓練(generative pre-training)成為最重要的自監督學習方法和訓
22、練目標,三是數據和模型參數的規?;M一步釋放基礎模型的潛力。技術和模型的統一將使得 AI大模型逐步標準化、規?;?,基于標準化的大模型,有助于為大范圍產業化提供基礎和可能,從而實現 MaaS 生態(Model as a service)。進一步借助云部署和云端協作,AI 將有可能成為像水電一樣的“新基建”賦能各行各業,并進一步催生顛覆性的應用場景和商業模式?;谝曈X圖像的大模型基于視覺圖像的大模型應用應用仍得益于大型語言模型的升級演化仍得益于大型語言模型的升級演化。擴大模型規模和數據大小可提高基礎模型的泛化能力,從而提升模型的下游遷移能力。遵循這一理念,科研人員逐漸將模型規模擴大到了數十億個參數
23、,這些大模型在語言理解、語言生成等任務上都取得了更好的成效。同樣地,在 CV 領域,具有 30 億參數的 Swin Transformer v2.0,也證明了視覺大模型在廣泛視覺任務中的優勢。再者,微軟亞研院提出了將圖像視為一種語言的方式,可直接復用已有的大規模語言模型的預訓練方法,從而更有利于視覺基礎模型的擴大。圖圖 5:CLIPCLIP 采用采用了圖片和文本了圖片和文本分別進行編碼來計算相似度分別進行編碼來計算相似度的結構的結構 數據來源:CLIP:Contrastive Language-Image Pre-Training,國泰君安證券研究 CLIPCLIP 和和 BEiTBEiT-3
24、 3 的技術突破和廣泛應用的技術突破和廣泛應用催生催生視覺圖像大模型視覺圖像大模型。CLIP是OpenAI 在 2021 年提出的跨模態模型,該模型專注于從文本特征映射到圖像特征。通過在互聯網上抓取大量圖片文本,學習一段時間過后,CLIP能夠實現用自然語言解釋對圖片的理解,也能通過文字描述來生成圖片,這是一種跨模態的生成和轉換。之后爆紅的文生圖大模型 DALL-E 2,能夠通過用戶給的一段文字描述生成圖片,其背后的技術基礎正是 CLIP 模型。Stable Diffusion 也使用了 CLIP,實現了通過文本提示調整模型,并借助擴散模型改善圖像質量的目的。2.GPT 系列一路領先系列一路領先
25、,海外大模型角逐激烈,海外大模型角逐激烈 2.1.OpenAIOpenAI:GPTGPT 系列大模型一騎絕塵,智能化程度系列大模型一騎絕塵,智能化程度提升提升迅速迅速 OpenAIOpenAI 正是正是基于基于 TransformerTransformer 基礎模型基礎模型推出了推出了 GPTGPT 系列大模型系列大模型。GPT(Generative Pre-trained Transformer)即生成式預訓練 Transformer模型,模型被設計為對輸入的單詞進行理解和響應并生成新單詞,預訓練代表著 GPT 通過填空方法來對文本進行訓練。在機器學習里,存在判別式模式(discrimina
26、tive model)和生成式模式(Generative model)兩種類型,相比之下,生成式模型更適合大數據學習,判別式模型更適合 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 7 of 33 人工標注的有效數據集,因而,生成式模型更適合實現預訓練。GPTGPT 模型依托于模型依托于 TransformerTransformer解除了順序關聯和解除了順序關聯和對監督學習的對監督學習的依賴性的依賴性的前提前提。在 NLP 領域,基于原始文本進行有效學習的能力能夠大幅降低對于監督學習的依賴,而很多深度學習算法要求大量手動標注數據,該過程極大限制了其
27、在諸多特定領域的適配性。在考慮以上局限性的前提下,通過對未標記文本的不同語料庫進行語言模型的生成式預訓練,然后對每個特定任務進行區分性微調,可以實現這些任務上的巨大收益。和之前方法不同,GPT 在微調期間使用任務感知輸入轉換,以實現有效的傳輸,同時對基礎模型架構的更改最小。圖圖 6 GPTGPT 模型模型對基礎模型架構的更改對基礎模型架構的更改較較小小 資料來源:Improving Language Understanding by Generative Pre-Training論文,國泰君安證券研究 GPTGPT 相比于相比于 TransformerTransformer 等模型進行了顯著簡
28、化等模型進行了顯著簡化。相比于Transformer,GPT 訓練了一個 12 層僅 decoder 的解碼器,原 Transformer 模型中包含編碼器和解碼器兩部分(編碼器和解碼器作用在于對輸入和輸出的內容進行操作,成為模型能夠認識的語言或格式)。同時,相比于 Google 的BERT,GPT 僅采用上文預測單詞,而 BERT 采用了基于上下文雙向的預測手段。圖圖 7 GPTGPT 在在 TransformerTransformer 基礎上進行了簡化基礎上進行了簡化 資料來源:Improving Language Understanding by Generative Pre-Train
29、ing論文,國泰君安證券研究 GPTGPT-2 2 實現執行任務多樣性,開始學習在不需要明確監督的情況下執行實現執行任務多樣性,開始學習在不需要明確監督的情況下執行數量驚人的任務數量驚人的任務。GPT-2 在 GPT 的基礎上進行諸多改進,在 GPT-2階段,OpenAI 去掉了 GPT 第一階段的有監督微調(fine-tuning),成為了無監督模型。GPT-2 大模型是一個 1.5B 參數的 Transformer,在其論文中它在 8 個測試語言建模數據集中的 7 個數據集上實現了當時最先進的結果。GPT-2 模型中,Transfomer 堆疊至 48 層,數據集增加到 8 百萬量級的網頁
30、、大小 為 40GB 的文本。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 8 of 33 GPTGPT-2 2 通過調整原模型和采用多任務方式來讓通過調整原模型和采用多任務方式來讓 AIAI 更貼近“通才”更貼近“通才”水平水平。機器學習系統通過使用大型數據集、高容量模型和監督學習的組合,在訓練任務方面表現出色,然而這些系統較為脆弱,對數據分布和任務規范的輕微變化非常敏感,因而使得 AI 表現更像狹義專家,并非通才??紤]到這些局限性,GPT-2 要實現的目標是轉向更通用的系統,使其可以執行許多任務,最終無需為每個任務手動創建和標記訓練數據集。而G
31、PT-2 的核心手段是采用多任務模型(Multi-task),其跟傳統機器學習需要專門的標注數據集不同(從而訓練出專業 AI),多任務模型不采用專門 AI 手段,而是在海量數據喂養訓練的基礎上,適配任何任務形式。表表 1:GPT-3 采用了規模超過采用了規模超過 292TB,包含,包含 499 億個億個 tokens 的數據集的數據集 Tokens(億億)Epochs 有效規模有效規模(TB)Common Crawl(www)410.00 0.44 180.40 WebText(Reddit links)19.00 2.90 55.10 Books2(Libgen or similar)55.
32、00 0.43 23.65 Books1/BookCorpus(Smashwords)12.00 1.90 22.80 Wikipedia(facts)3.00 3.40 10.20 總計總計 499.00 292.15 數據來源:Language Models are Few-Shot Learners論文,國泰君安證券研究 GPTGPT-3 3 取得突破性進展,任務結果難以與人類作品區分開來取得突破性進展,任務結果難以與人類作品區分開來。GPT-2訓練結果也有不達預期之處,所存在的問題也亟待優化。例如,在 GPT-2階段,盡管其模型體系結構與任務無關,但仍然需要任務特定的數據集和任務特定的
33、微調:要在所需任務上實現強大的性能,通常需要對特定于該任務的數千到數十萬個示例的數據集進行微調,因而成本極高。相比于 GPT-2 采用零次學習(zero-shot),GPT-3 采用了少量樣本(few-shot)加入訓練。GPT-3 是一個具有 1750 億個參數的自回歸語言模型,比之前的任何非稀疏語言模型多 10 倍,GPT-3 在許多 NLP 數據集上都有很強的性能(包括翻譯、問題解答和完形填空任務),以及一些需要動態推理或領域適應的任務(如解譯單詞、在句子中使用一個新單詞或執行三位數算術),GPT-3 也可以實現新聞文章樣本生成等。GPT-3 論文中論述到,雖然少量樣本學習(few-sh
34、ot)稍遜色于人工微調,但在無監督下是最優的,證明了 GPT-3 相比于 GPT-2 的優越性。圖圖 8 fewfew-shot(shot(少量樣本)的綜合表現是在無監督模式下最優的少量樣本)的綜合表現是在無監督模式下最優的 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 9 of 33 資料來源:Language Models are Few-Shot Learners論文 InstructGPTInstructGPT(GPTGPT-3.53.5)模型在模型在 GPTGPT-3 3 基礎上進一步強化基礎上進一步強化。使語言模型更大并不意味著它們能夠
35、更好地遵循用戶的意圖,例如大型語言模型可以生成不真實、有毒或對用戶毫無幫助的輸出,即這些模型與其用戶不一致。另外,GPT-3 雖然選擇了少樣本學習(few-shot)和繼續堅持了GPT-2 的無監督學習,但基于 few-shot 的效果也稍遜于監督微調(fine-tuning)的方式,仍有改良空間?;谝陨媳尘?,OpenAI 在 GPT-3 基礎上根據人類反饋的強化學習方案 RHLF(reinforcement learning from human feedback),訓練出獎勵模型(reward model)去訓練學習模型(即:用 AI 訓練 AI 的思路)。InstructGPT 使用來
36、自人類反饋的強化學習方案 RLHF,通過對大語言模型進行微調,從而能夠在參數減少的情況下,實現優于 GPT-3 的功能。圖圖 9 基于人類反饋強化的核心訓練流程如下所示基于人類反饋強化的核心訓練流程如下所示 資料來源:Training language models to follow instructions with human feedback論文,國泰君安證券研究 InstructGPTInstructGPT 與與 ChatGPTChatGPT屬于相同代際模型屬于相同代際模型,ChatGPTChatGPT的發布的發布率先引爆率先引爆市場市場。GPT-3 只解決了知識存儲問題,尚未很好解
37、決“知識怎么調用”的問題,而 ChatGPT 解決了這一部分,所以 GPT-3 問世兩年所得到的關注遠不及 ChatGPT。ChatGPT 是在 InstructGPT 的基礎上增加了 Chat 屬性,且開放了公眾測試,ChatGPT 提升了理解人類思維的準確性的原因也在于利用了基于人類反饋數據的系統進行模型訓練。GPTGPT-4 4 是是 OpenAIOpenAI 在深度學習擴展方面的最新里程碑。在深度學習擴展方面的最新里程碑。根據微軟發布的GPT-4 論文,GPT-4 已經可被視為一個通用人工智能的早期版本。GPT-4 是一個大型多模態模型(接受圖像和文本輸入、輸出),雖然在許多現實 行業
38、專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 10 of 33 場景中的能力不如人類,但在各種專業和學術基準測試中表現出人類水平的性能。例如,它在模擬律師資格考試中的成績位于前 10的考生,而 GPT-3.5 的成績在后 10。GPT-4 不僅在文學、醫學、法律、數學、物理科學和程序設計等不同領域表現出高度熟練程度,而且它還能夠將多個領域的技能和概念統一起來,并能理解其復雜概念。除了生成能力,除了生成能力,GPTGPT-4 4 還具有解釋性、組合性和空間性能力還具有解釋性、組合性和空間性能力。在視覺范疇內,雖然 GPT-4 只接受文本訓練,但 GPT-
39、4 不僅從訓練數據中的類似示例中復制代碼,而且能夠處理真正的視覺任務,充分證明了該模型操作圖像的強大能力。另外,GPT-4 在草圖生成方面,能夠結合運用 Stable Difusion 的能力,同時 GPT-4 針對音樂以及編程的學習創造能力也得到了驗證。圖圖 10 全球全球 AI 大模型演化大模型演化加速加速 數據來源:OpenAI、Google、各家官網,國泰君安證券研究 2.2.微軟微軟:與:與 OpenAIOpenAI 深度綁定,占得行業先機深度綁定,占得行業先機 微軟陪跑微軟陪跑 OpenAIOpenAI,雙方各取所需雙方各取所需。本質上,OpenAI的做法是將公司出租給微軟,租期取
40、決于 OpenAI 的盈利速度。2019 年微軟首次注資 OpenAI后,雙方開始在微軟的 Azure 云計算服務上合作開發人工智能超級計算技術,同時 OpenAI 逐漸將云計算服務從谷歌云遷移到 Azure。微軟與OpenAI 合作符合雙方各自需求點,一方面 OpenAI 亟需算力投入和商業化背書。另一方面,微軟也需要 OpenAI,微軟 2015 年推出 Tay 聊天機器人十分受挫,在 AI 技術商業化應用方面日漸式微,當時在基礎研究層面也尚無具備廣泛影響力的產出,而 AI 能力,尤其大模型 AI 對于每一個大廠來均是防御性質的剛需領域,因而微軟可通過 OpenAI 重獲 AI 競爭力。行
41、業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 11 of 33 微軟與微軟與 OpenAIOpenAI 戰略合作深入,占得行業先機。戰略合作深入,占得行業先機。2020 年,微軟買斷 GPT-3 基礎技術許可,并獲得了技術集成的優先授權。2021 年微軟再次投資,雙方合作關系正式進入第二階段,從合作探索期進入蜜月期。一方面,作為 OpenAI 的云提供商,在 Azure 中集中部署 OpenAI 開發的 GPT、DALLE、Codex 等各類工具,這也形成了 OpenAI 最早的收入來源通過 Azure 向企業提供付費 API 和 AI 工具。與此同
42、時,擁有 OpenAI 新技術商業化授權,微軟開始將 OpenAI 工具與自有產品進行深度集成,并推出相應產品。例如,2021 年 6 月基于 Codex,微軟聯合 OpenAI、GitHub 推出了 AI 代碼補全工具 GitHub Copilot,以月付費 10 美元或年付費100 美元的形式提供服務。2022 年,微軟開始通過 Edge 瀏覽器和 Bing搜索引擎在部分國家和地區提供基于 AI 圖像生成工具 DALLE 開發的Image creator 新功能。同年 10 月,微軟宣布將推出視覺設計工具Microsoft designer。微軟也正將 ChatGPT 用于 Office
43、和搜索引擎 Bing等產品中,以優化現有工具,改進產品功能。圖圖 11 TuringTuring-NLGNLG發布時,發布時,預訓練語言模型參數預訓練語言模型參數量遠遠高于其他模型量遠遠高于其他模型 資料來源:DistilBERT,a distilled version of BERT:smaller,faster,cheaper and lighter論文,國泰君安證券研究 20202020 年年微軟發布當時最大語言模型微軟發布當時最大語言模型 TuringTuring-NLGNLG,為更流暢的人機對話,為更流暢的人機對話打下基礎打下基礎。在自然語言模型日趨大型的背景下,微軟圖靈項目推出了圖
44、靈自然語言生成(T-NLG)技術,該模型包含 170 億參數量,是此前最大的語言模型英偉達“威震天”(Megatron)的兩倍,是 OpenAI 模型 GPT-2 的 10 多倍。通過對比預訓練的 T-NLG 模型在標準語言任務,例如WikiText-103 和 LAMBADA 在下一個單詞的預測準確度(越高越好)上的性能,都打破了已有的最好紀錄。當時 OpenAI 使用了額外的處理技術(停用詞過濾)來獲得比獨立模型更好的成績,而 Megatron 和 T-NLG 都不使用停用詞過濾技術。同時,在直接回答問題和零次回答能力上,T-NLG 會直接用完整的句子回答問題,且無需上下文環境。為了使 T
45、-NLG盡可能通用,從而為各種類型的文本生成摘要,該項目在幾乎所有公開可用的摘要數據集中以多任務方式調整了 T-NLG 模型,總計約有 400 萬個訓練實例??傊?,T-NLG 為對話更流暢的聊天機器人和數字助理等應用鋪平了道路。表表 2:T-NLG 在標準語言任務的預測準確度在標準語言任務的預測準確度上打破當時紀錄上打破當時紀錄 LAMBADA(acc)strict WikiText-103(teat adj.ppl)Open AI GPT-2 52.66(63.24)17.48 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 12 of 33 1.
46、5B Megatron-LM 8.3B 66.51 10.81 T-NLG 17B 67.98 10.21 數據來源:DistilBERT,a distilled version of BERT:smaller,faster,cheaper and lighter論文,國泰君安證券研究 汲取“兩家”所長汲取“兩家”所長,Megatron TuringMegatron Turing-NLGNLG(MTMT-NLGNLG)再次刷新模型規模再次刷新模型規模紀錄紀錄。微軟聯手英偉達進一步打造的 MT-NLG 模型容納 5300 億參數,訓練過程一共使用了 4480 塊英偉達 A100 GPU,最終使該
47、模型在一系列自然語言任務中包括文本預測、閱讀理解、常識推理、自然語言推理、詞義消歧都獲得了前所未有的準確率。MT-NLG 融合英偉達最先進的GPU 加速訓練設備,以及微軟最先進的分布式學習系統,來提高訓練速度,并用上千億個 token 構建語料庫,共同開發訓練方法來優化效率和穩定性。具體實現上,通過借鑒英偉達 Megatron-LM 模型的 GPU 并行處理,以及微軟開源的分布式訓練框架 DeepSpeed,創建 3D 并行系統,對于 5300 億個參數的模型,每個模型副本跨越 280 個 A100 GPU,節點內采用 Megatron-LM 的 8 路張量切片,節點間采用 35 路管道并行,
48、然后再使用 DeepSpeed 的數據并行性進一步擴展到數千個 GPU,最終在基于DGX SuperPOD 的Selene超級計算機上完成混合精度訓練。該模型在PiQA開發集和 LAMBADA 測試集上的零樣本、單樣本和少樣本三種設置中都獲得了最高的成績。圖圖 12 Megatron Turing-NLG(MT-NLG)再次刷新模型規模紀錄)再次刷新模型規模紀錄 資料來源:NVIDIA 官網 打造不同打造不同 AIAI 領域功能融合的多模態基礎模型領域功能融合的多模態基礎模型,AIAI技術和模型大一統漸技術和模型大一統漸露曙光露曙光。2022 年 8 月,微軟亞洲研究院聯合微軟圖靈團隊推出了最
49、新升級的 BEiT-3 預訓練模型,在廣泛的視覺及視覺-語言任務上,包括目標檢測(COCO)、實例分割(COCO)、語義分割(ADE20K)、圖像分類(ImageNet)、視覺推理(NLVR2)、視覺問答(VQAv2)、圖片描述生成(COCO)和跨模態檢索(Flickr30K,COCO)等,實現了 SOTA 的遷移性能。BEiT-3 創新的設計和出色的表現為多模態研究打開了新思路,也預示著 AI 大一統趨勢漸露曙光。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 13 of 33 圖圖 13 BEiT-3 首次將掩碼預訓練應用在了首次將掩碼預訓練應用
50、在了 CV 領域領域 圖圖 14 BEiT-3 可遷移到各種視覺可遷移到各種視覺-語言的下游任務語言的下游任務 數據來源:論文Beit:Bert Pre-Training of Image Transformers、Image as a Foreign Language:BEIT Pretraining for All Vision and Vision-Language Tasks 2.3.谷歌:扎根基礎模型研發,引領技術革新谷歌:扎根基礎模型研發,引領技術革新 構筑行業構筑行業發展發展基石基石,大型基礎模型持續優化升級大型基礎模型持續優化升級。谷歌最早在 2017 年提出 Transfor
51、mer 網絡結構,成為了過去數年該領域大多數行業進展的基礎。隨后在 2018 年,谷歌提出的 BERT 模型,在 11 個 NLP 領域的任務上都刷新了以往的記錄。和 GPT 相比,BERT 最大的區別就是使用文本的上下文來訓練模型,而 GPT 專注于文本生成,使用的是上文。BERT 使用了 Transformer 的 Encoder 和 Masked LM 預訓練方法,因此可以進行雙向預測;而 OpenAI GPT 使用了 Transformer 的 Decoder 結構,利用了 Decoder 中的 Mask,只能順序預測。BERT 無需調整結構就可以在不同的任務上進行微調,在當時是 NL
52、P 領域最具有突破性的一項技術。圖圖 15 BERT 訓練分為兩個階段:預訓練階段和訓練分為兩個階段:預訓練階段和 FineFine-tuningtuning 階段階段 資料來源:BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding論文 基于基于 TransformerTransformer 結構,結構,T T5 5 明確明確了大了大模型性能提升路徑。模型性能提升路徑。鑒于各個機構不斷提出預訓練目標函數,并不斷收集更多訓練語料,很難分析比較這些工作的有效貢獻量,因此谷歌于 2019 年推出
53、大模型T5(Text-to-Text Transfer Transformer),將各種 NLP 任務(翻譯、分類、回歸、摘要生成等)都視為 Text-to-Text 任務,從而使得這些任務在訓練(預訓練和微調)時能夠使用相同的目標函數,在測試時也能使用相同的解碼過程,由此可以方便地評估在閱讀理解、摘要生成、文本分類等一系列 NLP 任務上,不同的模型結構、預訓練目標函數、無標簽數據集等的 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 14 of 33 影響。本質上 T5 提出的目的不是提出一個新方法,而是對 NLP 領域的技術支撐點提供較為全面的
54、分析視角,分析各種訓練技巧對模型性能提升的實際影響,從而采用合適的技巧預訓練出一個好的模型。谷歌谷歌 LaMDALaMDA 實現自然對話突破,釋放與技術互動的更自然方式實現自然對話突破,釋放與技術互動的更自然方式。在ChatGPT 取得突破性成功之后,谷歌宣布了自己的聊天機器人谷歌Bard,而 Bard 這個技術形象背后是 LaMDA 在提供后端支撐。LaMDA 是繼 BERT之后,谷歌于 2021 年推出的一款自然對話應用的語言模型。LaMDA 建立在谷歌 2020 年發表的早期研究之上,該研究表明,基于 Transformer 的語言模型經過對話訓練,可以學會談論幾乎任何事情。此后,谷歌還
55、發現,一旦經過訓練,LaMDA 可以進行微調,從而大幅提高其反應的合理性和特異性。與其他大多數語言模型不同,LaMDA 是在對話中訓練的,在訓練過程中它發現了一些區別于其他語言形式的開放式對話的細微差別??傊?,LaMDA 的推出雖然在技術上沒有新突破,但卻提供了很有價值的落地方案參考。圖圖 16 LaMDA 語言模型語言模型可可以實現以實現擬物化擬物化與用戶交談與用戶交談 資料來源:Google I/O 2021 發布會 Switch TransformerSwitch Transformer 模型模型進一進一步提升步提升大大模模型型參數參數,實現簡單且高效計,實現簡單且高效計算算。Switc
56、h Transformer 的設計原則是以一種簡單且高效計算的方式來最大化 Transformer 模型的參數數量。Switch Transformer 擁有 1.6 萬億參數,超越了 GPT-3 的規模,成為史上首個萬億級語言模型。Switch Transformer 是由混合專家(Mix of Expert,MoE)AI 模型范式發展而來的,MoE 模型是指將多個專家或專門從事不同任務的模型放在一個較大的模型中,并有一個“門控網絡(Gating Network)”來選擇為任何給定數據要咨詢哪些專家。其論文中指出,Switch Transformer 使用了稀疏激活技術,該技術只使用了神經網
57、絡權重的子集,或者是轉換模型內輸入數據的參數,在相同計算資源下,其訓練速度上比谷歌之前研發的最大模型 T5-XXL 還要快 4 倍。谷歌通用稀疏語言模型谷歌通用稀疏語言模型 GLaMGLaM 在小樣本學習上打敗在小樣本學習上打敗GPTGPT-3 3。雖然大型語言模型可以通過簡單地使用更多參數來獲得更好的性能,但更有效地訓練和使用這些模型也十分必要。鑒于此,谷歌在 Switch Transformer 推出的同年,研發出 GLaM 模型架構,GLaM 也是混合專家模型(MoE),其在多個小樣本學習任務上取得有競爭力的性能。谷歌首先構建了一個高質量、具有 1.6 萬億 token 的數據集以及開發
58、文本質量過濾器,谷歌應用這個過濾器來生成 Web 網頁的最終子集,并將其與書籍和維基百科數據相結合來創建最終的訓練數據集。完整的 GLaM 總共有 1.2T 參數,每個 MoE包含 64 個專家,總共 32 個 MoE 層,但在推理期間,模型只會激活 97B 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 15 of 33 的參數,占總參數的 8%。最終谷歌證明了稀疏激活模型在達到與密集模型相似的 zero-shot 和 one-shot 性能時,訓練時使用的數據顯著減少。如果使用的數據量相同,稀疏型模型的表現明顯更好。并且,GLaM 訓練時耗能要少
59、于其他模型。圖圖 17 谷歌通用稀疏語言模型谷歌通用稀疏語言模型GLaM 訓練時耗能訓練時耗能優于優于 GPT-3 資料來源:GLaM:Efficient Scaling of Language Models with Mixture-of-Experts論文 表表 3:GLaM訓練訓練成本顯著低于成本顯著低于 GPT-3,相同數據量下的相同數據量下的表現也有提升表現也有提升 GPT-3 GLaM relative cost FLOPs/token(G)350 180-48.6%Train energy(MWh)1287 456-64.6%Accuracy on average Zero-sh
60、ot 56.9 62.7+10.2%One-shot 61.6 65.5+6.3%Few-shot 65.2 68.1+4.4%數據來源:GLaM:Efficient Scaling of Language Models with Mixture-of-Experts論文,國泰君安證券研究 融合傳感器模態與語言模型融合傳感器模態與語言模型,相較于相較于 ChatGPTChatGPT新增了視覺功能新增了視覺功能。2023年3 月,谷歌和柏林工業大學 AI 研究團隊推出了迄今最大視覺語言模型PaLM-E 多模態視覺語言模型(VLM),該模型具有 5620 億個參數,集成了可控制機器人的視覺和語言能
61、力,將真實世界的連續傳感器模態直接納入語言模型,從而建立單詞和感知之間的聯系,且該模型能夠執行各種任務且無需重新訓練,其相較于 ChatGPT 新增了視覺功能。PaLM-E的主要架構思想是將連續的、具體化的觀察(如圖像、狀態估計或其他傳感器模態)注入預先訓練的語言模型的語言嵌入空間,這是通過將連續觀測編碼為與語言標記的嵌入空間具有相同維度的向量序列來實現的,因此,以類似于語言標記的方式將連續信息注入到語言模型中。PaLM-E 是一種僅限解碼器的 LLM,它在給定前綴或提示的情況下自回歸地生成文本完成。圖圖 18 PaLMPaLM-E E 可以可以控制機械臂控制機械臂對視覺和語言命令進行對視覺和
62、語言命令進行有效有效執行執行 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 16 of 33 資料來源:PaLM-E:An Embodied Multimodal Language Model 基于基于大模型積累大模型積累,實現實現視覺語言與機器人高水平視覺語言與機器人高水平實時實時互聯互聯?;谡Z言模型,PaLM-E 會進行連續觀察,例如接收圖像或傳感器數據,并將其編碼為一系列與語言令牌大小相同的向量。因此,模型就能繼續以處理語言的方式“理解”感官信息。而且,同一套 PaLM-E 模型能夠達到實時控制機器人的水準。PaLM-E 還展現出隨機應變的
63、能力,例如盡管只接受過單圖像提示訓練,仍可實現多模態思維鏈推理(允許模型對包含語言和視覺信息在內的一系列輸入進行分析)和多圖像推理(同時使用多張輸入圖像進行推理或預測)。但谷歌展示的 Demo 中的空間范圍、物品種類、任務規劃復雜度等條件還比較有限,隨著深度學習模型愈發復雜,PaLM-E 也將打開更多可行性應用空間。3.國內國內大模型大模型蓄力已久,趕超動能強勁蓄力已久,趕超動能強勁 3.1.百度:全棧技術積累頗豐百度:全棧技術積累頗豐,AIAI 應用場景全覆蓋應用場景全覆蓋 模型模型與技術與技術積累豐厚,積累豐厚,傳統業務奠定傳統業務奠定先發優勢先發優勢。從模型上看,百度手握文心系列模型(E
64、RNIE1.0,ERNIE2.0,ERNIE3.0,ERNIE3.0-Titan)和PLATO 系列模型(PLATO1,PLATO2,PLATO-XL),均積累多年,且和自家核心業務息息相關。此外,百度還有一個從軟件到 AI 芯片全棧打通的Paddle 訓練框架生態,其對標 PyTorch 和 TenserFlow,也屬國內獨家。在核心業務上,百度在國內牢牢把握著搜索端入口,相比于谷歌則更加從容,不需要應付同行的快速挑戰,可以以自己的節奏過渡到“大模型+搜索”的問答搜索業務新模式。同時,基于海量中文數據集沉淀,百度也將獲得海量中文問答式搜索反饋數據,該稀缺數據足以讓百度鞏固和繼續擴大在這方面的
65、優勢,形成“數據飛輪”效應。文心大模型處于百度全棧布局中的模型層文心大模型處于百度全棧布局中的模型層。百度經過11年積累了全棧人工智能技術,從芯片層、框架層、模型層到應用層。這四層之間形成層到層到反饋、端到端優化,尤其是模型層的文心大模型和框架層的飛槳(產業級開源開放平臺),在開發文心一言的過程中,它們的協同優化起到了至關重要的作用。模型層的文心大模型包括 NLP 大模型、CV 大模型和跨模態大模型,在此基礎上開發了大模型的開發工具、輕量化工具和大規模部署工具,而且支持零門檻的 AI 開發平臺以及全功能 AI 開發平臺。圖圖 19 文心大模型文心大模型全景圖全景圖如下所示如下所示 行業專題研究
66、行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 17 of 33 資料來源:百度官網 20192019 年第一個文心大模型和如今的文心一言一樣是年第一個文心大模型和如今的文心一言一樣是NLPNLP模型模型,具備三條,具備三條發展主線發展主線。文心 NLP 大模型發展過程有三條主線,第一條主線是文心ERNIE,文心 ERNIE 3.0 以及文心ERNIE 3.0 Titan 模型當時在SuperGLUE和 GLUE 都超過了人類排名第一的水平;第二條主線是文心 ERNIE 在跨模態、跨語言以及長文檔、圖模型等方面獲得了突出進展,在各種榜單尤其視覺語言相關榜單上獲得
67、第一;第三條主線是對話生成大模型文心PLATO,其在對話的流暢性上得到很大提升。圖圖 20 文心文心 NLP大模型發展歷程具有三條主線大模型發展歷程具有三條主線 資料來源:百度飛槳 知識增強大模型知識增強大模型 ERNIEERNIE 具備持續學習框架。具備持續學習框架。在文心ERNIE的框架中,可以不斷從不同的數據和知識上學習,而且不斷地構建新任務,比如文本分類任務、問答任務、完形填空任務等。大模型從不同任務中持續學習,使能力得到持續提升,從而擁有更多知識。在此基礎上,百度研發了知識增強的預訓練模型,該模型能夠從大規模知識圖譜和海量無結構數據中學習,突破異構數據統一表達的瓶頸問題;該模型也能夠
68、融合自編碼和自回歸結構,既可以做語言理解,也可以做語言生成;另外,基于飛槳 4D 混合并行技術(4D 混合并行是指訓練的時候同時有 4 種不同并行方式),能夠節省 50%的時間,從而實現更高效地支持超大規模模型的預訓練。在以上三個特色基礎上,百度發布了當時全球首個知識增強的千億大模型 ERNIE3.0,擁有 2600 億參數,在 60 多項的 NLP 任務上取得世界領先。同時,在這個模型上的實際應用中,能把參數壓速到 99%,使該模型的效果得到大幅提升。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 18 of 33 圖圖 21 ERNIE突破多源異
69、構數據難以學習的問題突破多源異構數據難以學習的問題 圖圖 22 文心文心在國際排行榜在國際排行榜 SuperGLUE上上位列位列第一名第一名 資料來源:百度飛槳 資料來源:百度飛槳 在在 FineFine-tuningtuning 任務上,文心任務上,文心 ERNIEERNIE可以用在不同任務中,用任務數據可以用在不同任務中,用任務數據做微調做微調。文心 ERNIE 在 21 類 54 個 Fine-tuning 任務中取得領先。這些任務分布廣泛,包括語言理解、語言生成、知識推理等。同時,文心 ERNIE在零樣本和小樣本學習的能力也突出,尤其在文本分類、閱讀理解、知識推理、指代消解等任務中取得
70、全面領先。相比 Bert,ERNIE 在理念上引入了知識圖譜等外部知識信息,例如語料里的人名、地名、機構名、句子間結構關系和邏輯關系等等。在這些特征的賦能下,相比 GPT-3,文心 ERNIE 在復雜知識推理能力上有 8 個百分點的絕對提升。圖圖 23 百度文心百度文心 ERNIEERNIE 各代際各代際性能提升性能提升迅速迅速 資料來源:百度官網,國泰君安證券研究 跨語言大模型跨語言大模型 ERNIEERNIE-M M 解決小語種語料資源不足的問題解決小語種語料資源不足的問題。在跨語言的學習過程中,中文和英文語種語料資源較為豐富,但諸多小語種語料資源缺乏,因此,百度用少量平行語料和大量非平行
71、語料通過回譯的機制進行學習的方式來解決問題。該過程使用統一模型建模了 96 種語言,并在5 類語言任務上刷新世界最好結果,例如在自然語言推斷、語義相似度、閱讀理解、命名實體識別、跨語言檢索等任務中,都獲得了極大提升,同時在權威跨語言理解榜單 XTREME 上獲得第一??缒B大模型跨模態大模型 ERNIEERNIE-ViLViL首次引入場景知識首次引入場景知識,助力跨模態任務有效執行,助力跨模態任務有效執行。引入場景知識的目的是為了理解圖像中細粒度的語義,比如房子、車子和人之間的關系以及車的顏色等。通過構建場景圖的方式,模型能夠對圖像進行細粒度的語義理解,從而在跨模態任務上取得最好的效果,比如視
72、覺問答、視覺常識推理、圖像檢索等。ERNIE-ViL 在權威視覺常識推理任務 VCR 榜單上也排名第一。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 19 of 33 圖圖 24 百度文心大模型百度文心大模型首次引入場景圖知識首次引入場景圖知識,增強跨模態語義理解增強跨模態語義理解 資料來源:百度飛槳 借助跨模態語義對齊算法,圖文轉化效果處于全球領先水平。借助跨模態語義對齊算法,圖文轉化效果處于全球領先水平。文心ERNIR-ViLG 作為全球最大規模的中文跨模態生成大模型,其特點是在一個模型中能同時兼顧文本到圖像的生成,以及圖像到文本的生成,通過跨
73、模態的語義對齊算法,實現雙向生成?,F在模型參數規模已經達到了百億級,并且在效果上領先于 OpenAI DALLE。圖圖 25 ERNIE-ViLG 模型實現文本圖像的雙向生成,實現效果領先模型實現文本圖像的雙向生成,實現效果領先 資料來源:百度文心大模型 ERNIEERNIE-SageSage圖模型圖模型通過知識圖譜對搜索中的通過知識圖譜對搜索中的關聯關聯信息進行增強信息進行增強。鑒于應用中很多場景具備關聯知識,為了建模關聯知識,百度提出了文心ERNIE-Sage 的圖模型?;谠撃P?,能在搜索中通過文檔的 Title 和Query,去構建 Query 與 Title、Query 和 Quer
74、y 之間的關系,同時也能通過知識圖譜的知識去增強這種關聯。為了解決在應用中長尾數據稀疏的問題,百度加入了知識圖譜信息以及其他領域知識信息,以便能夠更好地增強圖模型知識之間的關聯,以及通過圖學習、預訓練方法的加持,來提升文本圖語義的理解,這樣的模型被百度廣泛用在搜索、地圖等應用中。在地圖中,能夠建模 POI 之間的關系,通過圖的模式能夠使用戶的搜索效率提升,很好地糾錯地圖語義的理解?;陔[變量和角色建模,基于隱變量和角色建模,PLATOPLATO 實現多樣化回復。實現多樣化回復。在對話生成中,尤其在開放域的對話生成中,需要對用戶的任何話語進行連貫且有意義的回復,任何上文序列都應該有合理的答復且存
75、在多個合理的答復?;谠摤F象,百度提出了隱變量的大規模對話生成模型,通過隱變量和角色建模,能夠很好實現建模,以及針對上文生成多樣化回復?;谠摽蚣馨l布的文心 PLATO-XL 具備規模大、效果好、能耗低的特點,PLATO-XL 有110 億個參數,其模仿人類自然語氣的能力很強,且拿下了“全球對話 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 20 of 33 技術頂級賽事 DSTC”等多個冠軍。表表 4:PLATOPLATO-XLXL 具備具備規模大、效果好、能耗低規模大、效果好、能耗低的特點的特點 成本和能耗成本和能耗(V100)換算換算 訓練成
76、本估計訓練成本估計(GPU Hour)推斷成本估計推斷成本估計(GPUs)PLATO-2 32,000 0.5s PLATO-XL 115,000 3s*2GPU Blender-6s*2GPU Meena 737,000-數據來源:百度文心大模型、百度飛槳,國泰君安證券研究 3.2.騰訊:騰訊:優化優化大模型訓練,加速大模型應用落地大模型訓練,加速大模型應用落地 騰訊騰訊 2 2022022 年底發布年底發布國內首個低成本、可落地的國內首個低成本、可落地的NLPNLP萬億大模型萬億大模型混混元元 AIAI 大模型大模型。HunYuan 協同騰訊預訓練研發力量,旨在打造業界領先的AI 預訓練大
77、模型和解決方案,以統一的平臺,實現技術復用和業務降本,支持更多的場景和應用。當前 HunYuan 完整覆蓋 NLP 大模型、CV 大模型、多模態大模型、文生圖大模型及眾多行業/領域任務模型,自 2022年 4 月,先后在 MSR-VTT、MSVD 等五大權威數據集榜單中登頂,實現跨模態領域的大滿貫;2022 年 5 月,于 CLUE(中文語言理解評測集合)三個榜單同時登頂,一舉打破三項紀錄?;隍v訊強大的底層算力和低成本高速網絡基礎設施,HunYuan 依托騰訊領先的太極機器學習平臺,推出了 HunYuan-NLP 1T 大模型并登頂國內權威的自然語言理解任務榜單CLUE。圖圖 26 HunY
78、uan 完整覆蓋完整覆蓋各類大模型及多項應用各類大模型及多項應用 圖圖 27 HunYuan-1T參數參數規模規模處于行業領先水平處于行業領先水平 資料來源:騰訊混元,量子位 資料來源:CSDN 探索大模型應用機制,探索大模型應用機制,實現工業界快速落地實現工業界快速落地。HunYuanHunYuan 模型先后在熱啟動和課程學習、MoE 路由算法、模型結構、訓練加速等方面研究優化,大幅降低了萬億大模型的訓練成本。用千億模型熱啟動,最快僅用 256卡在一天內即可完成萬億參數大模型 HunYuan-NLP 1T 的訓練,整體訓練成本僅為直接冷啟動訓練萬億模型的 1/8。此外,業界基于萬億大模型的應
79、用探索極少,對此騰訊研發了業界首個支持萬億級 MoE 預訓練模型應用的分布式推理和模型壓縮套件“太極-HCF ToolKit”,實現了無需事先從大模型蒸餾為中小模型進而推理,即可使用低成本的分布式推理組件/服務直接進行原始大模型推理部署,充分發揮了超大預訓練模型 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 21 of 33 帶來的模型理解和生成能力的躍升,HunYuan 也成為業界首個可在工業界海量業務場景直接落地應用的萬億 NLP 大模型。圖圖 28 太極太極-HCF ToolKit 組件及其功能如下所示組件及其功能如下所示 資料來源:騰訊混元
80、,量子位 打造高效率開發工具打造高效率開發工具,降低模型訓練成本降低模型訓練成本。為了使大模型能夠在可接受的推理成本下最大化業務效果,騰訊設計了一套“先蒸餾后加速”的壓縮方案實現大模型的業務落地,并推出太極-HCF ToolKit,它包含了從模型蒸餾、壓縮量化到模型加速的完整能力,為 AI 工程師打造從數據預處理、模型訓練、模型評估到模型服務的全流程高效開發工具。其中,太極-HCF distributed(大模型分布式推理組件)融合了分布式能力和單卡推理優化,兼顧分布式高效推理能力的構建和易用性建設。太極-SNIP(大模型壓縮組件)結合量化、稀疏化和結構化剪枝等多種加速手段,進一步加速了 st
81、udent 模型的推理速度??傊?,騰訊在技術上從蒸餾框架和壓縮加速算法兩方面,實現了迭代更快,效果更好,成本更低的大模型壓縮組件。降低顯存壓力降低顯存壓力,突破模型參數擴大瓶頸。,突破模型參數擴大瓶頸。隨著預訓練模型的參數不斷增大,模型訓練需要的存儲空間顯著增加,如萬億模型僅模型狀態需要17000 多 G 顯存,僅僅依靠顯存嚴重束縛著模型參數的擴大。因此,基于 Zero-Infinity 的理念,騰訊自主研發了太極 AngelPTM,AngelPTM 將多流異步化做到了極致,在充分利用 CPU 和 GPU 進行計算的同時最大化的利用帶寬進行數據傳輸和 NCCL 通信,使用異構流水線均衡設備間的
82、負載,最大化提升整個系統的吞吐。HunYuanHunYuan 商業化拓展迅速,大模型效益得到驗證。商業化拓展迅速,大模型效益得到驗證。HunYuan先后支持了包括微信、QQ、游戲、騰訊廣告、騰訊云等眾多產品和業務,通過 NLP、CV、跨模態等 AI 大模型,不僅為業務創造了增量價值而且降低了使用成本。特別是其在廣告內容理解、行業特征挖掘、文案創意生成等方面的應用,在為騰訊廣告帶來大幅 GMV 提升的同時,也初步驗證了大模型的商業化潛力。3.3.阿里:阿里:聚焦通用底層技術,開源釋放大模型應用潛力聚焦通用底層技術,開源釋放大模型應用潛力 率先探索通用統一大模型率先探索通用統一大模型,快速快速提升
83、參數量級。提升參數量級。阿里達摩院一直以來深耕多模態預訓練,并率先探索通用統一大模型。2021 年,阿里達摩院先后發布多個版本的多模態及語言大模型,在超大模型、低碳訓練技術、行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 22 of 33 平臺化服務、落地應用等方面實現突破。其中使用 512 卡 V100 GPU 實現全球最大規模 10 萬億參數多模態大模型 M6,同等參數規模能耗僅為此前業界標桿的 1%,極大降低大模型訓練門檻。M6 具有強大的多模態表征能力,通過將不同模態的信息經過統一加工處理,沉淀成知識表征,可以為各個行業場景提供語言理解、圖像
84、處理、知識表征等智能服務。跟其他大模型類似,M6 也是以預訓練模型的形式輸出泛化能力,下游只需提供場景化數據進行優化微調,就能快速產出符合行業特點的精準模型。2022 年 4 月,清華大學、阿里達摩院等機構聯合提出“八卦爐”(BaGuaLu)模型,其為第一項在新一代神威超級計算機上訓練腦尺度模型的工作,通過結合特定于硬件的節點內優化和混合并行策略,在前所未有的大型模型上實現了良好的性能和可擴展性,BaGuaLu 可以使用混合精度訓練 14.5 萬億參數模型,其性能超過 1 EFLOPS,并有能力訓練與人腦中突觸的數量相當的 174 萬億參數模型。圖圖 29 通義通義大模型大模型自自立項立項以來
85、迅速成長為業界首個通用大模型以來迅速成長為業界首個通用大模型 OFA 資料來源:阿里達摩院 持續聚焦大模型通用性及易用性持續聚焦大模型通用性及易用性,打造了國內首個,打造了國內首個 AI AI 統一底座統一底座。2022年 9 月,達摩院發布阿里巴巴最新通義大模型系列,其打造了國內首個AI 統一底座,并構建了通用與專業模型協同的層次化人工智能體系,將為 AI 從感知智能邁向知識驅動的認知智能提供先進基礎設施。通義大模型整體架構中,最底層為統一模型底座,通義統一底座中借鑒了人腦模塊化設計,以場景為導向靈活拆拔功能模塊,實現高效率和高性能。中間基于底座的通用模型層覆蓋了通義-M6、通義-Alice
86、Mind 和通義-視覺,專業模型層深入電商、醫療、娛樂、設計、金融等行業。圖圖 30 通義大模型整體架構通義大模型整體架構如下所示如下所示 資料來源:阿里達摩院 M6M6-OFAOFA 覆蓋多模態任務覆蓋多模態任務,在一系列視覺語言任務中實現了,在一系列視覺語言任務中實現了 SOTASOTA性能性能?;诮y一學習范式,通義統一底座中的單一 M6-OFA 模型,將涉及多模態和單模態(即 NLP和CV)的所有任務都統一建模成序列到序列(seq2seq)任務,可以在不引入任何新增結構的情況下同時處理圖像描述、視覺定位、文生圖、視覺蘊含、文檔摘要等 10 余項單模態和跨模態任務,并達 行業專題研究行業
87、專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 23 of 33 到國際領先水平,這一突破最大程度打通了 AI 的感官。M6-OFA 統一多模態模型在一系列視覺語言任務中實現了 SOTA 性能,在 Image Caption任務取得最優表現,長期在 MSCOCO 榜單排名第一。圖圖 31 M6-OFA 模型可實現模型可實現同時處理同時處理多類多類單模態和跨模態任務單模態和跨模態任務 數據來源:OFA:Unifying Architectures,Tasks,And Modalities Through A Simple Sequence-To-Sequence Le
88、arning Framework論文 開源開源深度語言模型深度語言模型,模塊化統一趨勢明顯模塊化統一趨勢明顯。通義-AliceMind是阿里達摩院開源的深度語言模型體系,包含了通用語言模型 StructBERT、生成式PALM、結構化 StructuralLM、超大中文 PLUG、多模態 StructVBERT、多語言 VECO、對話 SPACE1.0/2.0/3.0 和表格 STAR1.0/2.0,過程中形成了從文本 PLUG 到多模態 mPLUG 再到模塊化統一模型演化趨勢。2022 年,基于 AliceMind/StructBERT 模型結果在中文語言理解測評基礎 CLUE 上獲得了三榜
89、第一。另外,270 億參數版 AliceMind-PLUG 也是當時規模最大的開源語言大模型。視覺大模型視覺大模型在電商、交通等領域在電商、交通等領域應用空間巨大。應用空間巨大。通義視覺大模型自下往上分為底層統一算法架構、中層通用算法和上層產業應用。根據阿里云社區資料,通用-視覺大模型可以在電商行業實現圖像搜索和萬物識別等場景應用,并在文生圖以及交通和自動駕駛領域發揮作用。圖圖 32 通義通義視覺大模型產業應用空間巨大視覺大模型產業應用空間巨大 資料來源:阿里達摩院 3.4.華為:華為:昇昇騰騰 AIAI 打造打造全棧全棧使能體系使能體系,定位行業級定位行業級 CVCV 應用應用 打造業界首例
90、,盤古打造業界首例,盤古 NLPNLP 與與 CVCV 大模型趕超大模型趕超迅速迅速。2021 年,華為云發布盤古系列超大規模預訓練模型,包括 30 億參數的視覺(CV)預訓練模 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 24 of 33 型,以及與循環智能、鵬城實驗室聯合開發的千億參數、40TB 訓練數據的中文語言(NLP)預訓練模型。盤古 NLP 大模型是業界首個千億參數中文大模型,具備領先的語言理解和模型生成能力,2021 年當時在權威的中文語言理解評測基準 CLUE 榜單中,盤古 NLP 大模型在總排行榜及分類、閱讀理解單項均排名第一,
91、刷新三項榜單世界歷史紀錄。盤古 NLP大模型預訓練階段學習超 40TB 文本數據,并通過行業數據的小樣本調優,提升模型在場景中的應用性能;盤古 CV 大模型發布時也是業界最大CV 大模型,旨在解決 AI 工程難以泛化和復制的問題。盤古 CV 大模型的出現,讓 AI 開發進入工業化模式,即一套流水線能夠復制到不同的場景中去,大大節約研發人力和算力。圖圖 33 盤古盤古 NLP大模型同樣采用基于預訓練的微調與部署大模型同樣采用基于預訓練的微調與部署 資料來源:華為云官網 聚焦聚焦 CVCV 領域,領域,開啟工業化開啟工業化 AIAI 行業適配行業適配。由于高價值的數字化場景主要以視覺為主,因此華為
92、近年來聚焦在 CV 模型的行業適配上。盤古 CV 大模型首次兼顧圖像判別與生成能力,能同時滿足底層圖像恢復與高層語義理解需求,能夠簡單高效融合行業知識,快速適配各種下游任務。盤古 CV 大模型已經在百余項實際任務中得到驗證,大幅提升了業務測試精度,能夠節約 90%以上的研發成本。例如在電力行業,應用盤古 CV 大模型利用海量無標注電力數據進行預訓練和篩選,并結合少量標注樣本微調的高效開發模式,獨創性地提出了針對電力行業的預訓練模型;在醫藥研發領域,華為研發了盤古藥物分子大模型,實現了針對化合物表征學習的全新深度學習網絡架構,進行了超大規?;衔锉碚髂P偷挠柧?,在 20 余項藥物發現任務上實現性
93、能最優(SOTA)??傊?,盤古 CV 模型在適配行業應用過程中均在降低開發成本的優勢下,實現了樣本篩選效率、篩選質量、平均精度的顯著提升。圖圖 34 盤古盤古 CV由工作流到數據流形成閉環由工作流到數據流形成閉環 資料來源:華為云官網 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 25 of 33 昇昇騰騰(Ascend)AIAI 能力能力提供提供大模型全流程使能體系大模型全流程使能體系,構筑盤古大模型構筑盤古大模型演演化基石化基石。企業用戶要開發大模型,需要考慮基礎開發、行業適配、實際部署等問題,華為直接打造的大模型開發使能平臺,覆蓋從數據準備、
94、基礎模型開發、行業應用適配到推理部署全開發流程,發布了大模型開發套件、大模型微調套件以及大模型部署套件。在大模型開發套件中,昇思 MindSpore 與 ModelArts 結合既提供了像算法開發基礎能力,還具備了像并行計算、存儲優化、斷點續訓的特殊能力。在算法開發上,昇思 MindSpore 提供了易用編程 API,既能滿足多種需求,算法還能百行代碼就可實現千億參數的 Transformer 模型開發;昇騰 MindX 提供的大模型微調套件,其功能包括兩部分:一鍵式微調、低參數調優,即通過預置典型行業任務微調模板、小樣本學習等手段,直接凍結局部參數,自動提示或者直接激活特定的參數;在推理部署
95、方面,昇騰 AI 在MindStudio 中提供了分布式推理服務化、模型輕量化、動態加密部署三方面能力,通過多機多卡分布式推理,可以大幅提高計算吞吐量。面向各模態應用領域,量身打造異構計算架構面向各模態應用領域,量身打造異構計算架構CANNCANN。昇騰AI全棧涵蓋了計算硬件層、異構計算架構層、AI 框架層面和應用使能層面。計算硬件是 AI 計算的底座,有了強力的芯片及硬件設備,上層的加速才有實施的基礎。面向計算機視覺、自然語言處理、推薦系統、類機器人等領域,華為量身打造了基于“達芬奇(DaVinci)架構”的昇騰 AI 處理器,提升用戶開發效率和釋放昇騰 AI 處理器澎湃算力,同步推出針對
96、AI 場景的異構計算架構 CANN,CANN 通過提供多層次的編程接口,以全場景、低門檻、高性能的優勢,支持用戶快速構建基于平臺的 AI 應用和業務。圖圖 35 昇騰昇騰 AI 全棧全棧架構包含架構包含四大部分四大部分,實現實現低門檻、高性能優勢低門檻、高性能優勢 資料來源:華為云官網 4.算力及硬件承壓,模型訓練多路徑優化算力及硬件承壓,模型訓練多路徑優化 4.1.海量海量參數參數開路,開路,算力瓶頸漸至算力瓶頸漸至 大模型海量參數訓練所需算力日益攀升。大模型海量參數訓練所需算力日益攀升。頭部廠商近期推出的大模型的參數量規模都達到萬億、10 萬億級別,GPT-3 大模型參數量多達 1750
97、億個,且使用了 3000 億單詞、超過 40T 的大規模、高質量數據進行訓練,而剛剛發布的 GPT-4 大模型更是賦予了升級版多模態任務處理能力。日益增加的模型參數自然提升了算力需求。以 GPT-3 為例,GPT-3 的訓練 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 26 of 33 使用了微軟專門建設的 AI 計算系統,由 1 萬個 V100 GPU 組成的高性能網絡集群,總算力消耗約 3640PF-days(即假如每秒計算一千萬億次,需要計算 3640 天)。如此大規模、長時間的 GPU 集群訓練任務,對網絡互聯底座的性能、可靠性、成本等各
98、方面都提出極致要求。圖圖 36 各大語言模型所需算力迅速攀升各大語言模型所需算力迅速攀升 資料來源:Language Models are Few-Shot Learners論文 計算資源投入計算資源投入呈呈指數級增長指數級增長,高算力需求推動了訓練成本快速上揚高算力需求推動了訓練成本快速上揚。以ChatGPT 的總算力消耗 3640PFdays 計算,需要 7-8 個投資規模 30 億、算力 500P 的數據中心支撐運行。因而,頭部玩家 OpenAI 獲得微軟為其專門打造的 E 級超級計算機,用來在 Azure 公有云上訓練超大規模的人工智能模型,該超級計算機擁有 28.5 萬個 CPU 核
99、心,超過 1 萬顆 GPU。據 OpenAI 測算,自 2012 年以來,全球頭部 AI 模型訓練算力需求 3-4 個月翻一番,每年頭部訓練模型所需算力增長幅度高達 10 倍。與僅能處理NLP 的 GPT-3.5 相比,支持多模態的 GPT-4 能夠以較強的邏輯分析能力同時處理圖像及文本輸入,并生成文本輸出,GPT-4 在完成這一系列更為豐富和復雜的任務的同時,其對算力的需求也在 GPT3.0 的基礎上成倍增加。表表 5:國外國外主流主流大模型訓練規模大模型訓練規模所需所需算力算力均不小均不小 Model Total train compute(PF-days)Total train comp
100、ute(flops)Params (M)Training tokens(billions)Flops per param per token Mult for bwd pass Fwd-pass flops per active param per token Frac of params active for each token T5-Small 2.08E+00 1.80E+20 60 1,000 3 3 1 0.5 T5-Base 7.64E+00 6.60E+20 220 1,000 3 3 1 0.5 T5-Large 2.67E+01 2.31E+21 770 1,000 3 3
101、 1 0.5 T5-3B 1.04E+02 9.00E+21 3,000 1,000 3 3 1 0.5 T5-11B 3.82E+02 3.30E+22 11,000 1,000 3 3 1 0.5 BERT-Base 1.89E+00 1.64E+20 109 250 6 3 2 1.0 BERT-Large 6.16E+00 5.33E+20 355 250 6 3 2 1.0 RoBERTa-Base 1.74E+01 1.50E+21 125 2,000 6 3 2 1.0 RoBERTa-Large 4.93E+01 4.26E+21 355 2,000 6 3 2 1.0 GPT
102、-3 Small 2.60E+00 2.25E+20 125 300 6 3 2 1.0 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 27 of 33 GPT-3 Medium 7.42E+00 6.41E+20 356 300 6 3 2 1.0 GPT-3 Large 1.58E+01 1.37E+21 760 300 6 3 2 1.0 GPT-3 XL 2.75E+01 2.38E+21 1,320 300 6 3 2 1.0 GPT-3 2.7B 5.52E+01 4.77E+21 2,650 300 6 3 2 1.0 GPT-3 6
103、.7B 1.39E+02 1.20E+22 6,660 300 6 3 2 1.0 GPT-3 13B 2.68E+02 2.31E+22 12,850 300 6 3 2 1.0 GPT-3 175B 3.64E+03 1.80E+20 174,600 300 6 3 2 1.0 數據來源:Language Models are Few-Shot Learners,國泰君安證券研究 4.2.模型日益復雜模型日益復雜,硬件需求承壓,硬件需求承壓 芯片芯片是是算力服務器最大價值算力服務器最大價值所在,所在,AIAI 計算芯片首當其沖計算芯片首當其沖。從用途分類角度來看,芯片可以包括存儲芯片、計算
104、芯片、通信芯片、感知芯片等,而目前 AI 技術浪潮下,計算芯片需求首當其沖,再是存儲芯片。而人工智能計算芯片又主要包括圖形處理器(GPU)、現場可編程門陣列(FPGA)、專用集成電路(ASIC)、神經擬態芯片(NPU)等,考慮到 AI 深度算法對并行處理能力有強大需求,所以 GPU 是當下主流的 AI 計算加速芯片,而其他計算芯片大都不能夠滿足現今巨量數據的并行計算。因此關注GPU 硬件進展可以有效分析 AI 大模型的算力空間,而大模型復雜度的日益增加又提升了 GPU 性能需求,因為數據維度越多,模型參數量則越多,同時模型越復雜,模型的準確度越高,因而對算力的指數需求越高。而而 GPUGPU
105、硬件發展的速度難以滿足硬件發展的速度難以滿足 TransformerTransformer模型規模發展的需求。模型規模發展的需求。近四年來,模型參數量增長了十萬倍,但 GPU 的顯存僅增長 4 倍。例如,在不包括訓練過程中產生的激活值所需的存儲的前提下,萬億模型的模型訓練僅參數和優化器狀態需要 1.7TB 以上的存儲空間,至少需要 425張 A100(40G)。在該背景下,大模型訓練不僅受限于海量的算力,更受限于巨大的存儲需求。AI 大模型的演化對于芯片的多核并行運算、片上存儲、帶寬、低延時的訪存等也都提出了較高的需求,因此,硬件性能也逐步成為大模型升級的重要挑戰。圖圖 37 GPU 顯存增長
106、趨勢顯存增長趨勢明顯慢于大模型規模演化明顯慢于大模型規模演化 資料來源:CSDN 基于基于 GPUGPU 集群網絡集群網絡的的深度定制,追求極致網絡性能,深度定制,追求極致網絡性能,可以用可以用來支撐集群來支撐集群極致算力。極致算力。GPU 計算集群領域,業界主流 GPU 集群網絡技術路線的選擇可以考量多類因素,比如網絡規模、網絡拓撲架構選型、接入帶寬與網絡容量、網絡協議選擇、甚至與計算芯片的聯合優化設計等等。為了解決 GPU 在模型訓練上的性能瓶頸問題,業界廠商通常會根據自身需求,選擇不同的網絡技術路線。目前呈現 3 大網絡技術路線趨勢,首先是商用網絡方案,即采用商用 GPU+商用網絡組網、
107、協議,以 Nvidia 售賣的DGX SuperPod 為代表,該方案整體集成度高,網絡深度優化,性能最優,但是價格高昂;其次,自研以太網絡方案采用商用 GPU+自研網絡協議,該方案經過自研協議優化后,性能接近商用方案,成本較低;第三種是 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 28 of 33 自研計算芯片+自研網絡方案,其能做到計算芯片與網絡深度配合優化,性價比最優。未來隨著 GPU 算力的持續提升,GPU 集群網絡架構也需要不斷迭代升級,才能保證大模型算力的高利用率與高可用性。表表 6:業界主流業界主流 GPU 集群網絡技術路線的選擇集
108、群網絡技術路線的選擇可以可以考量多類因素考量多類因素,從而為大模型訓練提效,從而為大模型訓練提效 考量因素考量因素 解析解析 集群規模 當前主流的 GPU 集群是基于通用 Fat-Tree 的多級互聯作為組網架構,能夠靈活支撐從數百數萬 GPU 規模;支持無收斂對分帶寬,能很好滿足 AI 大模型訓練依賴的 AllReduce、All-to-All 通信的性能需求。此外還有部分廠商選擇專用 Torus 拓撲免交換機組網,具有更靈活的擴展性;但對分帶寬有收斂比,通信操作需要更多的優化才能保證傳輸性能。網絡帶寬 傳統中小模型訓練,往往只需要少量 GPU 服務器參與,跨服務器的通信需求相對少。其互連網
109、絡帶寬可以沿用數據中心通用的 100Gbps 帶寬接入。但針對萬億參數級的大模型訓練,各廠商紛紛將接入帶寬升級到 800Gbps、1.6Tbps 來加速訓練性能,后續還會支持更大帶寬。網絡協議 傳統數據中心的 TCP/IP 協議已無法滿足高性能網絡大帶寬、低時延需求,各廠商都在積極部署高性能網絡協議,比如 IB 協議、Eth RDMA(RoCE)協議,甚至基于自家硬件設備來自研高效網絡傳輸協議。計算-網絡聯合優化 大部分廠商會采用商用 GPU 計算芯片,開發高性能集合通信庫來聯合優化網絡性能。也有部分廠商選擇自研計算芯片,并在此計算架構上來定制優化網絡組網與網絡協議,以期集群性能最大化。數據來
110、源:騰訊云社區,國泰君安證券研究 4.3.聚焦聚焦技術路線技術路線優化,突破優化,突破模型模型算力瓶頸算力瓶頸 硬件優化效果有限硬件優化效果有限,模型訓練模型訓練手段手段改良需求凸顯改良需求凸顯?;镜纳窠浘W絡運算成本,即浮點運算(FLOPs)的成本可以通過硬件(例如從 GPU 轉向 TPU)以及框架級的優化來降低,因為可以充分利用并行性優勢。諸多大型模型的訓練成本也正隨著硬件的創新和訓練方法的改進而出現相應的下降,盡管如此,雖然硬件改進可以降低 FLOPs 成本,但大模型的持續升級使得總成本卻一直在增加,因此,具體的訓練計劃和架構的改良十分重要。國外的大模型預訓練國外的大模型預訓練創新創新解
111、決方案解決方案目前占據業界主流。目前占據業界主流。業內大模型預訓練的解決方案主要包括微軟的 DeepSpeed 和英偉達的 Megatron-LM。DeepSpeed 引入 ZeRO(Zero Redundancy Optimizer)優化器,將模型參數、梯度、優化器狀態按需分配到不同的訓練卡上,滿足大模型對存儲的極致要求;Megatron-LM 基于 3D 并行(張量并行、流水并行、數據并行)將模型參數進行切分,滿足大模型在有限顯存資源下的訓練訴求。國內玩家各顯神通,提升大模型訓練效率。國內玩家各顯神通,提升大模型訓練效率。隨著參數規模指數級增加以及由此帶來的訓練成本急劇攀升,即使是最大容量
112、的 GPU,也存不下如此規模的參數,如果不特別注意優化算法、軟件和硬件堆棧,則所需的大量計算操作可能會導致訓練時間過長。在此背景下,國內各玩家均另辟蹊徑,通過改變模型訓練手段以及優化模型架構來達到算力規模與效率的平衡。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 29 of 33 極致極致利用利用存儲空間,存儲空間,ZeROZeRO-CacheCache 策略助力優化模型訓練策略助力優化模型訓練。騰訊為了以最小的成本和最快的性能訓練大模型,太極機器學習平臺對 DeepSpeed 和Megatron-LM 進行了深度定制優化,推出了 AngelPTM
113、 訓練框架,騰訊發布的混元 AI 大模型便是基于 AngelPTM 框架訓練而來。在具體技術優化策略上,騰訊是基于 ZERO 策略,將模型的參數、梯度、優化器狀態以模型并行的方式切分到所有 GPU,并自研 ZeRO-Cache 框架把內存作為二級存儲 offload 參數、梯度、優化器狀態到 CPU 內存,同時也支持把 SSD作為第三級存儲。而為了最大化和最優化的利用內存和顯存進行模型狀態的緩存,騰訊引入了顯存內存統一存儲視角,將存儲容量的上界由內存擴容到內存+顯存總和。同時,將多流異步化做到極致,在 GPU 計算的同時進行數據 IO 和 NCCL 通信,使用異構流水線均衡設備間的負載,最大化
114、提升整個系統的吞吐。ZeRO-Cache 將 GPU 顯存、CPU 內存統一視角管理,減少了冗余存儲和內存碎片,增加了內存的利用率,將機器的存儲空間“壓榨”到了極致。圖圖 38 騰訊采用騰訊采用 ZeRO 優化策略優化策略來來充分利用機器存儲,降低成本充分利用機器存儲,降低成本 資料來源:騰訊云公眾號 創新平臺技術架構,創新平臺技術架構,突破計算效率極限突破計算效率極限。為了給各類科研和智能企業機構提供強大高效的智能計算服務,阿里推出了飛天智算平臺。通過先進的技術架構,飛天智算平臺采用先進的技術架構,將衡量算力效率的核心指標“千卡并行計算效率”,從傳統架構的 40%提升至 90%,可將算力資源
115、利用率提高 3 倍以上,AI 訓練效率提升 11 倍,推理效率提升 6 倍;同時,該平臺支持“一云多芯”,提供基于阿里云磐久基礎設施的融合算力和大數據 AI 一體化平臺整體解決方案,可以運行在 X86、GPU、ARM 等多種芯片類型的服務器上,實現“一云多芯”,支持多種處理器混合部署、統一調度,并可進行應用優化,部分性能提升 100%以上。圖圖 39 飛天智算平臺飛天智算平臺基于優化的技術架構,基于優化的技術架構,提供提供全鏈路智能服務全鏈路智能服務 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 30 of 33 資料來源:阿里云社區 借助借助軟硬
116、協同優化手段軟硬協同優化手段,打造訓練,打造訓練加速套件加速套件。百度考慮到雖然使用更好的硬件可以加速性能,但大部分情況下存在硬件計算能力未充分發揮的情況,核心原因在于訓練代碼的執行效率并沒有調到最優或更優的狀態。鑒于此,百度打造了百度百舸 AI 異構計算平臺,目標是為 AI 場景提供軟硬一體化的解決方案,通過 AI 計算、AI 存儲、AI 加速、AI 容器四層技術棧,滿足上層業務場景的需求?;谠摽蚣?,為了進一步調優模型訓練性能,百度推出了 AIAK-Training 加速套件,旨在通過抽象易用性的接口降低優化成本,并通過軟硬協同的優化手段,來充分加速客戶在百度智能云上的模型訓練性能。圖圖
117、40 百舸百舸 AI 異構計算平臺異構計算平臺采用軟硬協同思路,助力模型訓練加速采用軟硬協同思路,助力模型訓練加速 資料來源:百度開發者中心 降低降低 AIAI 使用門檻,發力便捷式產業應用。使用門檻,發力便捷式產業應用。相較于百度、騰訊和阿里,華為更為專注在基于 CV 大模型的產業應用優化上。華為在發布盤古大模 行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 31 of 33 型前就充分考慮到了 AI 應用開發定制化、碎片化和手工作坊式的局限性,盤古大模型的設計是在利用超大規模的神經網絡來吸收數據的前提下,借助強大的網絡結構保證最高的性能,最后基于
118、優良的泛化能力,來覆蓋各個產業場景?;诙嗳蝿?、大模型、少樣本技術的 AI 共建方案,成功突破了大模型微調的難題。盤古大模型通過 Prompt 將下游監督任務加入預訓練階段,采用超多任務的大規模預訓練方式,大幅降低了微調難度,解決了以往大模型難以為不同那個行業場景進行微調的難題。圖圖 41 盤古大模型盤古大模型大幅降低微調難度大幅降低微調難度,提升大模型行業應用效率,提升大模型行業應用效率 資料來源:循環智能,國泰君安證券研究 5.投資建議投資建議 AI 的技術更迭以及應用場景的大幅拓展正推動著人工智能產業全新的發展,我們基于核心應用場景視角,推薦擁有垂直場景優勢的科大訊飛、金山辦公、凌志軟件
119、、杰創智能。表表 7:重點公司估值情況:重點公司估值情況 股票代碼股票代碼 證券名稱證券名稱 總市值總市值(億元)(億元)營業收入(億元)營業收入(億元)PS(倍)(倍)評級評級 20230330 2021A 2022E 2023E 2021A 2022E 2023E 2230 科大訊飛 1,365.28 183.14 200.54 275.68 7.45 6.81 4.95 增持 688111 金山辦公 2,024.40 32.8 38.85 52.93 61.72 52.11 38.25 增持 688588 凌志軟件 71.12 6.53 6.55 7.93 10.89 10.86 8.9
120、7 增持 301248 杰創智能 37.83 9.4 7.52 11.3 4.02 5.03 3.35 增持 數據來源:Wind,國泰君安證券研究 6.風險提示風險提示 1)大模型大模型應用應用不及預期風險不及預期風險 當前大模型本身也存在代際優化空間,而且產業應用也處于初期,與各個產業應用場景的結合需要實踐探索和試錯,存在應用落地不及預期的風險。2)競爭加劇風險競爭加劇風險 國內外頭部廠商均投入巨額算力和人員研發大模型及其訓練應用,但隨著 OpenAI 等頭部企業提前布局完善,后來競爭者或面臨快速淘汰風險。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款
121、部分 32 of 33 3)倫理及隱私侵權風險倫理及隱私侵權風險 模型本身無法核實數據來源的真實性,也不直接提供數據來源,用戶無法得知信息的可靠性;產品本身可能挖掘他人具有著作權的作品作為數據庫,用戶在使用過程中也會涉及輸入他人具有著作權的作品要求大模型進行總結分析,從而存在一定的侵權、侵犯隱私等倫理風險。行業專題研究行業專題研究 請務必閱讀正文之后的免責條款部分請務必閱讀正文之后的免責條款部分 33 of 33 本公司具有中國證監會核準本公司具有中國證監會核準的證券投資的證券投資咨詢咨詢業務資格業務資格 分析師聲明分析師聲明 作者具有中國證券業協會授予的證券投資咨詢執業資格或相當的專業勝任能
122、力,保證報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解,本報告清晰準確地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,特此聲明。免責聲明免責聲明 本報告僅供國泰君安證券股份有限公司(以下簡稱“本公司”)的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅在相關法律許可的情況下發放,并僅為提供信息而發放,概不構成任何廣告。本報告的信息來源于已公開的資料,本公司對該等信息的準確性、完整性或可靠性不作任何保證。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可升可跌。過往表
123、現不應作為日后的表現依據。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議。在任何情況下,本公司、本公司員工或者關聯機構不承諾投資者一定獲利,不與投資者分享投資收益,也不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者務必注意,其據此做出的任何投資決策與本公司、本公司員工或者關聯機構無關。
124、本公司利用信息隔離墻控制內部一個或多個領域、部門或關聯機構之間的信息流動。因此,投資者應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報告所提到的公司的董事。市場有風險,投資需謹慎。投資者不應將本報告作為作出投資決策的唯一參考因素,亦不應認為本報告可以取代自己的判斷。在決定投資前,如有需要,投資者務必向專業人士咨詢并謹慎決策。本報告版權僅為本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引
125、用。如征得本公司同意進行引用、刊發的,需在允許的范圍內使用,并注明出處為“國泰君安證券研究”,且不得對本報告進行任何有悖原意的引用、刪節和修改。若本公司以外的其他機構(以下簡稱“該機構”)發送本報告,則由該機構獨自為此發送行為負責。通過此途徑獲得本報告的投資者應自行聯系該機構以要求獲悉更詳細信息或進而交易本報告中提及的證券。本報告不構成本公司向該機構之客戶提供的投資建議,本公司、本公司員工或者關聯機構亦不為該機構之客戶因使用本報告或報告所載內容引起的任何損失承擔任何責任。評級說明評級說明 評級評級 說明說明 1.1.投資建議的比較標準投資建議的比較標準 投資評級分為股票評級和行業評級。以報告發
126、布后的 12 個月內的市場表現為比較標準,報告發布日后的 12 個月內的公司股價(或行業指數)的漲跌幅相對同期的滬深 300 指數漲跌幅為基準。股票投資評級股票投資評級 增持 相對滬深 300 指數漲幅 15%以上 謹慎增持 相對滬深 300 指數漲幅介于 5%15%之間 中性 相對滬深 300 指數漲幅介于-5%5%減持 相對滬深 300 指數下跌 5%以上 2.2.投資建議的評級標準投資建議的評級標準 報告發布日后的 12 個月內的公司股價(或行業指數)的漲跌幅相對同期的滬深300 指數的漲跌幅。行業投資評級行業投資評級 增持 明顯強于滬深 300 指數 中性 基本與滬深 300 指數持平 減持 明顯弱于滬深 300 指數 國泰君安證券研究國泰君安證券研究所所 上海上海 深圳深圳 北京北京 地址 上海市靜安區新閘路 669 號博華廣場 20 層 深圳市福田區益田路 6003 號榮超商務中心 B 棟 27 層 北京市西城區金融大街甲 9 號 金融街中心南樓 18 層 郵編 200041 518026 100032 電話(021)38676666(0755)23976888(010)83939888 E-mail: