《互聯網行業逐浪大模型:互聯網巨頭的AI野望-230531(67頁).pdf》由會員分享,可在線閱讀,更多相關《互聯網行業逐浪大模型:互聯網巨頭的AI野望-230531(67頁).pdf(67頁珍藏版)》請在三個皮匠報告上搜索。
1、 本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請務必閱讀正文之后的免責條款和聲明。證券研究報告證券研究報告海外行業深度海外行業深度 逐浪大模型:互聯網巨頭逐浪大模型:互聯網巨頭的的 A AI I 野望野望 核心觀點核心觀點 語言模型已步入大模型發展階段,國內大模型研發應用熱潮持續高漲,科技大廠在模型、算力、平臺、應用進行了四位一體的全面布局,如阿里的“通義大模型+飛天智算平臺+魔塔社區+行業應用”、百度的“文心大模型+昆侖芯+飛槳平臺+行業應用”、騰訊的“混
2、元大模型+HCC 算力集群+太極機器學習平臺+行業應用”、字節的“視覺語言模型+火山高速訓練引擎+火山機器學習平臺+行業應用”。大模型落地將形成 API、PaaS 和 MaaS 三種收費模式,目前仍以內部應用為主,后續主要向 B 端企業拓展服務,預計少數企業將在 C 端市場形成規模。摘要摘要 大模型發展全面加速,通過“預訓練大模型發展全面加速,通過“預訓練+精調”模式進行落地。精調”模式進行落地。語言建模經過統計語言模型、神經語言模型、預訓練語言模型,已經全面邁入百億、千億參數規模的大語言模型階段。大語言模型具備優秀的上下文學習能力、上下文學習能力、可觀的知識容量、優秀的泛化性和復雜推理能力。
3、大模型研究存在 Google 的Bert 模式、OpenAI 的 GPT 模式和國內的混合模式三條技術線,以 ChatGPT 為主導 GPT 模式目前已經占據主流。目前,國內已有至少 19 家企業及科研院所參與人工智能大模型訓練,主要分為大型科技公司、科研院所和初創科技團隊三類。國際對比來看,目前美國領跑,中國跟跑,但差距不斷縮小。在實踐中,預訓練大模型在基于海量數據的自監督學習階段完成了“通識”教育,再借助“預訓練+精調”等模式,在共享參數的情況下,根據具體應用場景的特性,用少量數據進行相應微調,即可高水平完成任務?;ヂ摼W大廠在“模型、算力、平臺和應用”互聯網大廠在“模型、算力、平臺和應用”
4、進行進行四位一體布四位一體布局。阿里“通義大模型局。阿里“通義大模型+飛天智算平臺飛天智算平臺+魔塔社區魔塔社區+行業應用”:行業應用”:在模型層,阿里達摩院主導大模型研究,發布通義大模型,包括通義 M6 多模態模型、通義 AliceMind 自然語言處理模型、通義視覺計算機視覺模型。在算力層,阿里云推出全棧智能計算解決方 維持維持 強于大市強于大市 孫曉磊 SAC 編號:S1440519080005 SFC 編號:BOS358 崔世峰 SAC 編號:S1440521100004 于伯韜 SAC 編號:S1440520110001 發布日期:2023 年 05 月 31 日 市場表現市場表現
5、相關研究報告相關研究報告 -14%6%26%46%66%86%2022/5/302022/6/302022/7/312022/8/312022/9/302022/10/312022/11/302022/12/312023/1/312023/2/282023/3/312023/4/30傳媒標普500互聯網互聯網 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。案“飛天智算平臺”,并啟動兩座超大規模智算中心。此外,阿里不僅擁有最多的英偉達 A100 芯片,還擁有自研芯片含光 800、倚天 710 芯片,共同為人工智能大模型提供算力。在平臺層,阿里推出 AI 開源社區“魔搭”,旨
6、在打造下一代“模型即服務”的共享平臺,整合業界多方模型提供者,為開發者提供預訓練基礎模型和 API接口。在應用層,阿里已宣布旗下所有產品未來將全面改造并接入通義大模型,包括天貓、釘釘、高德地圖、淘寶、優酷、盒馬等。百度“文心大模型百度“文心大模型+昆侖芯昆侖芯+飛槳平臺飛槳平臺+行業應用”:行業應用”:在模型層,百度文心大模型構建了“基礎+任務+行業”三級模型;在算力層,算力基礎設施均由百度智算中心支持,昆侖芯二代已廣泛應用在文心大模型,預計昆侖芯三代將于 2024 年初量產;在平臺層,百度飛槳 PaddlePaddle 是其自主研發的深度學習平臺,文心大模型通過百度飛槳平臺,實現模型訓練、推
7、理部署和場景應用;在應用層,文心大模型將應用在電力、燃氣、金融、生物醫藥、航天、傳媒、城市、影視、制造、社科等多個行業。騰訊“混元大模型騰訊“混元大模型+HCC 算力集群算力集群+太極機器學習平臺太極機器學習平臺+行業應用”:行業應用”:在模型層,2022 年 4 月,騰訊對外披露了混元大模型,涉及自然語言處理、計算機視覺、多模態等多個領域。騰訊自研的太極機器學習平臺為混元大模型提供算力,可支持 10TB 級模型訓練、TB 級模型推理計算能力等。2023 年 3 月,騰訊對標 ChatGPT 已成立“混元助手”戰略級項目組;在算力層,2023 年 4 月 14 日,騰訊云發布新一代 HCC 高
8、性能計算集群,其采用最新一代星星海自研服務器,搭載 NVIDIA H800 Tensor Core GPU,并基于自研網絡、存儲架構,帶來3.2T 超高互聯帶寬 TB 級吞吐能力和千萬級 IOPS;在平臺層,騰訊自研搭建了業界一流的太極機器學習平臺,致力于讓用戶更加聚焦業務 AI 問題解決和應用,一站式的解決算法工程師在 AI 應用過程中特征處理,模型訓練,模型服務等工程問題;在應用層,混元大模型已成功應用于騰訊廣告,將全面接入微信端、QQ 端和王者榮耀、英雄聯盟游戲端,提供智能聊天、內容推薦、情感分析、故事生成、角色塑造等功能,以及騰訊混元大模型有望將在游戲、社交、金融、教育、醫療等領域發展
9、生態。字節“視覺語言模型字節“視覺語言模型+火山高速訓練引擎火山高速訓練引擎+火山機器學習平臺火山機器學習平臺+行業應用”:行業應用”:在模型層,字節在 AI 方面的積累主要集中在機器翻譯、智能語音、視頻圖像和多模態四個領領域。字節跳動的研究成果包括非自回歸模型 DA-Transformer、端到端語音到文本翻譯模型 ConST、多顆粒度的視覺語言模型 X-VLM、圖片和文本統一生成模型 DaVinci 等;在算力層,火山引擎在春季火山引擎 FORCE 原動力大會上正式發布自研 DPU 等系列云產品,并正式推出智能推薦-高速訓練引擎,支持 100GB 至 10TB 以上超大模型的高效訓練;在平
10、臺層,火山引擎在2023 春季 FORCE 原動力大會發布了機器學習平臺升級版,在數據管理、資源管理、流程和模型三大領域具備核心優勢;在應用層,火山引擎的 AI 場景產品主要包括智能創作、智能體驗以及智能營銷,目前已服務數百家客戶,分別在視頻創作、互動創作、直播短視頻構建中推動客戶業務增長。此外,字節在內部的相關產品持續引入 AI,包括海綿樂隊、飛書 My AI 等。商業應用尚處早期,以商業應用尚處早期,以 API、PaaS、MaaS 三種模式為主。三種模式為主。當前全球大模型產業落地仍處于早期探索階段,需要與下游場景企業合作建立大模型商業模式,但下游企業目前對于大模型的理解相對有限,所需要的
11、資源支撐比較薄弱??偟膩碚f,大模型落地可以通過 API 接口調用付費、或者大廠提供落地所需的開發工具、云平臺、服務等的 PaaS 模式、更進一步是直接提供相關定制好的模型調用的 MaaS 模式。海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。目錄目錄 摘要.1 一、大模型發展情況.1 1、行業發展歷程.1 2、大語言模型概覽.3 3、產業發展趨勢.6 二、互聯網大廠模型.8 1、阿里.8 1.1 模型.8 1.2 算力.12 1.3 平臺.14 1.4 應用.15 2、百度.17 2.1 模型.18 2.2 算力.34 2.3 平臺.36 2.4 應用.39 3、騰訊.42
12、 3.1 模型.42 3.2 算力.44 3.3 平臺.45 3.4 應用.47 4、字節.51 4.1 模型.51 4.2 算力.52 4.3 平臺.53 4.4 應用.54 三、商業模式.56 1、API 模式.56 2、PaaS 模式.57 3、MaaS 模式.59 風險提示.60 圖目錄 圖 1:語言模型發展時間線.2 圖 2:ChatGPT 發展時間線.3 圖 3:大模型發展時間線.4 圖 4:國產大模型發展時間表.5 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖 5:AIGC 模型十大開發機構.6 圖 6:預訓練語言模型參數量.6 圖 7:訓練大模型“預訓
13、練+精調”模式.6 圖 8:通義大模型架構.9 圖 9:通義 M6 發展歷史.9 圖 10:M6-OFA 模型-任務完成模式(架構統一).10 圖 11:M6-OFA 模型-預訓練模式(模態統一).10 圖 12:通義-AliceMind 發展歷程.10 圖 13:通義-AliceMind 在 CLUE 榜單中名列前茅.11 圖 14:通義-視覺框架.11 圖 15:飛天智算平臺.12 圖 16:S4 框架.14 圖 17:魔塔社區特點.15 圖 18:阿里所有產品將接入大模型升級.16 圖 19:百度 AI 大底座.17 圖 20:文心大模型全景圖.18 圖 21:文心基礎大模型組成.18
14、圖 22:文心 NLP 大模型發展歷程.20 圖 23:從大規模知識圖譜和海量無結構數據中學習.21 圖 24:融合自編碼和自回歸結構.21 圖 25:基于飛槳 4D 混合并行技術進行高效訓練.22 圖 26:層次化提示(Prompt)學習技術.23 圖 27:文心 PLATO 技術研發框架.23 圖 28:PLATO 基于隱變量的生成式開放域對話大模型.24 圖 29:PLATO 提出隱變量建模 Context 和 Response 的映射信息來解決一對多問題.25 圖 30:PLATO-2 引入兩階段訓練.25 圖 31:PLATO-X 引入 role embedding 感知用戶角色.2
15、6 圖 32:UFO 架構.26 圖 33:UFO 多任務聯合優化.27 圖 34:網絡稀疏化(Path Routing).28 圖 35:多規模網絡學習(Stochastic Architecture Slimming).29 圖 36:VIMER-UFO 2.0 單模型 28 個公開測試集 SOTA.29 圖 37:VIMER-StrucTexT 2.0 文檔圖像表征學習.30 圖 38:商品搜索中多模態信息存在信息缺失問題.31 圖 39:商品搜索中多模態信息存在信息缺失問題.31 圖 40:基于 VIMER-UMS 的多模態商品搜索.32 圖 41:ERNIE-ViL 架構圖.33 圖
16、 42:ERNIE-ViL 融合場景進行判斷.33 圖 43:文心 ERNIE-ViLG 2.0 架構圖.34 圖 44:文心 ERNIE-ViLG 2.0 生成圖示例.34 圖 45:文心 ERNIE-ViLG 2.0 應用場景.34 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖 46:昆侖芯發展歷程.35 圖 47:昆侖芯產品迭代.35 圖 48:飛槳平臺全景圖.36 圖 49:飛槳四大領先技術.37 圖 50:飛槳主流模型概覽.37 圖 51:飛槳硬件生態.38 圖 52:飛槳產業實踐范例庫.38 圖 53:飛槳位列中國深度學習市場應用規模第一.39 圖 54:
17、飛槳在各指標位列榜首.39 圖 55:百度全新 AI 搜索體系.40 圖 56:百度文心行業大模型全景.41 圖 57:文心大模型產品矩陣.42 圖 58:騰訊混元 AI 大模型架構.43 圖 59:HCC 大幅提速大模型訓練.44 圖 60:星星海自研服務器.44 圖 61:網絡集群算力.45 圖 62:HCC 存儲架構.45 圖 63:太極機器學習平臺架構.46 圖 64:太極 AngelPTM.46 圖 65:AI Lab 數字人.47 圖 66:絕悟 RLogist 提出一種類似醫生病理閱片的決策思路.48 圖 67:文涌 2.0 基于混元大模型展現出生成能力.50 圖 68:火山引擎
18、發布的智能推薦-高速訓練引擎.53 圖 69:火山引擎機器學習平臺.54 圖 70:智能創作云 SaaS 產品.55 圖 71:中國大語言模型產業參與廠商類型與定位邏輯.56 圖 72:TLT 進行預訓練過程中的主要流程.58 1 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。一、大模型發展情況一、大模型發展情況 1、行業發展歷程、行業發展歷程 語言是人類表達和交流的突出能力,其在兒童早期發展并在一生中不斷演變。然而,除非配備強大的人工智能(AI)算法,機器不會自然地掌握理解和使用人類語言的能力。要讓機器像人類一樣閱讀、寫作和交流一直是一個長期的研究挑戰。從技術上講,語言
19、建模(Language Model,LM)是提高機器語言智能的主要方法之一。一般來說,LM 旨在對單詞序列的生成概率進行建模,以便預測未來(或缺失)單詞的概率。LM 的研究在學界中得到了廣泛的關注,可以分為四個主要發展階段:統計語言模型(統計語言模型(SLM):):SLM 是基于 20 世紀 90 年代興起的統計學習方法開發的。其基本思想是基于馬爾可夫假設構建單詞預測模型,例如根據最近的上下文預測下一個單詞。具有固定上下文長度 n 的 SLM 也被稱為n-gram 語言模型,例如二元和三元語言模型。SLM 已經被廣泛應用于提高信息檢索(IR)和自然語言處理(NLP)任務的性能。然而,它們經常受
20、到維度災難的影響:由于需要估計指數級的轉移概率,因此很難準確估計高階語言模型。因此,專門設計的平滑策略,例如后退估計和 Good-Turing 估計已經被引入為緩解數據稀疏問題。神經語言模型(神經語言模型(NLM):):NLM 通過神經網絡,例如遞歸神經網絡(RNNs),來描述單詞序列的概率。作為一個顯著的貢獻,Y.Bengio 和 R.Ducharme 等人引入了單詞的分布式表示的概念,并構建了基于聚合上下文特征(即分布式單詞向量)的單詞預測函數。通過擴展學習詞或句子有效特征的想法,已有研究開發了一種通用神經網絡方法來為各種自然語言處理任務構建統一解決方案。此外,word2vec 提出了構建
21、一個簡化的淺層神經網絡,用于學習分布式單詞表示,這在各種 NLP 任務中被證明非常有效。這些研究開創了語言模型用于表示學習(超越了詞序列建模)的應用,對 NLP 領域產生了重要影響。預訓練語言模型(預訓練語言模型(PLM):):作為早期嘗試,ELMo 被提出來通過預訓練一個雙向 LSTM(biLSTM)網絡(而不是學習固定的詞表示)來捕捉上下文感知的詞表示,然后根據特定的下游任務微調 biLSTM 網絡。此外,基于高度可并行化的 Transformer 架構和自注意力機制,BERT 提出了通過在大規模無標注語料庫上設計特定的預訓練任務來預訓練雙向語言模型。這些預訓練的上下文感知的單詞表示非常有
22、效,可作為通用語義特征,大大提高了 NLP 任務的性能。這項研究啟發了大量的后續工作,建立了“預訓練和微調”學習范式。在此范式下,開發了大量關于 PLM 的研究,引入了不同的架構(例如 GPT-2 和 BAR)或改進的預訓練策略。在這個范式中,通常需要微調 PLM 以適應不同的下游任務。大型語言模型(大型語言模型(LLM):):研究人員發現,擴展 PLM(例如擴展模型大小或數據大?。┩ǔе履P驮谙掠稳蝿丈暇哂懈鼜姷哪芰Γ醋裱s放定律)。一些研究探索了通過訓練更大的 PLM(例如 175B 參數的 GPT-3和 540B 參數的 PaLM)來達到性能極限。盡管縮放主要是在模型大?。ň哂蓄愃?/p>
23、的架構和預訓練任務)方面進行的,但這些大型 PLM 顯示出與較小 PLM(例如 330M 參數的 BERT 和 1.5B 參數的 GPT-2)不同的行為,并展現出令人驚訝的能力(稱為涌現能力)以解決一系列復雜任務。例如,GPT-3 可以通過上下文學習來解決少樣本任務,而 GPT-2 做不好。因此,研究界為這些大型 PLM 創造了“大型語言模型(LLM)”的術語。LLM 的一個顯著應用是 ChatGPT,它利用 GPT 系列的 LLM 適應對話,具有驚人的與人類對話的能力。大語言模型相較于以往的語言模型具備顯著優勢,其具備優秀的上下文學習能力、可觀的知識容量、優秀的泛化性和復雜推理能力。2 海外
24、行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。大型語言模型研究的發展大型語言模型研究的發展有三條技術路線:有三條技術路線:Bert 模式、模式、GPT 模式、混合模式。模式、混合模式。其中國內大多采用混合模式,多數主流大型語言模型走的是 GPT 技術路線,直到 2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT。到 2019 年后,Bert 路線基本沒有標志性的新模型更新,而 GPT 技術路線則趨于繁榮。從 Bert 往 GPT 演化的過程中,模型越來越大,所實現的性能也越來越通用。各類大語言模型路線各有側重,GPT 模式在生成類任務表現最優。大型語言模型按照從
25、數據到知識來劃分,數據可分為通用數據和領域數據,知識分為語言知識和世界知識。從任務類型來劃分,大型語言模型可以分為單一任務和多任務、理解類和生成類;Bert 模式有兩階段(雙向語言模型預訓練+任務 Fine-tuning),適用于理解類以及某個場景的具體任務,表現得“專而輕”。GPT 模式是由兩階段到一階段(單向語言模型預訓練+zero-shot prompt),比較適合生成類任務、多任務,表現得“重而通”。T5模式則將兩者的方法結合,包含有兩階段(單向語言模型預訓練+Fine-tuning)。根據當前研究結論,如果模型規模不特別大,面向單一領域的理解類任務,適合用 T5 模式,而 GPT 模
26、式在做生成類任務時的效果最好。綜合來看,當前幾乎所有參數規模超過千億的大型語言模型都采取 GPT 模式。圖圖 1:語言模型發展時間線語言模型發展時間線 數據來源:真格基金,中信建投 如今,LLM 正在對人工智能社區產生重大影響,ChatGPT 和 GPT-4 的出現引發了重新思考人工智能通用智能(AGI)的可能性。OpenAI 已經發表了一篇名為“Planning for AGI and beyond”的技術文章,討論了實現 AGI的短期和長期計劃,而最近的一篇論文則認為 GPT-4 可能被視為一個早期版本的 AGI 系統。LLM 的快速進步正在徹底改變人工智能的研究領域。在自然語言處理領域,
27、LLM 可以在某種程度上充當通用語言任務求解器,研究范式已經轉向使用 LLM。在信息檢索領域,傳統的搜索引擎正在被 AI 聊天機器人(即 ChatGPT)挑戰,而 New Bing 則是基于 LLM 增強搜索結果的初始嘗試。在計算機視覺領域,研究人員試圖開發類似于 ChatGPT的視覺語言模型,以更好地服務于多模態對話,而 GPT-4 通過集成視覺信息已經支持多模態輸入。這股新的技術浪潮有可能會導致基于 LLM 的真實世界。例如,Microsoft 365 正在被 LLM(如 Copilot)賦能以自動化辦公工作,而 OpenAI 支持在 ChatGPT 中使用插件來實現特殊功能。起源于 Tr
28、ansformer 模型,ChatGPT 經過 5 年迭代成功出世。ChatGPT 的誕生經歷了從 Transformer-GPT-GPT2-GPT3-ChatGPT 的逐步迭代過程,其具體發展歷程如下:(1)2017 年 6 月,Google 發布論文 Attention is all you need,首次提出 Transformer 模型,成為 GPT 發展的基礎;(2)2018 年 6 月,OpenAI 發布論文 Improving Language Understanding by Generative Pre-Training,首次提出 GPT 模型,即 GPT-1,模型參數量達
29、1.17 億;(3)GPT-1GPT-2GPT-3Instruct-GPTGPT模式模式ChatGPTT5BARTM2m-100BigBird混合模式混合模式Bert模式模式BERTCNNRNNGANTransfo-rmer國內國內LLMMachineLearning基于規則基于規則的少量數的少量數據處理據處理RoBERTaXLMALBERT基于模版和規則的前深度學習階段根據一定范圍的的數據進行參數分類開始模仿人腦進行大量數據的標記和訓練對人腦學習過程進行重點關注1950年開始年開始神經網絡神經網絡1980年開始年開始1990年開始;年開始;2006年獲得年獲得突破突破2017年年2018年年
30、2019年年2020年年2022年年進行海量數據學習訓練,人類的反饋信息成為模型學習的內容 3 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。2019 年 2 月,OpenAI 發布論文Language Models are Unsupervised Multitask Learners,提出 GPT-2 模型,大模型共計 48 層,參數量達 15 億;(4)2020 年 5 月,OpenAI 發布論文Language Models are Few-Shot Learners,提出 GPT-3 模型,參數量達 1750 億;(5)2022 年 2 月底,OpenAI 發布
31、論文Training language models to follow instructions with human feedback,公布 Instruction GPT 模型,參數量達 13 億;(6)2022 年 11 月 30 日,OpenAI推出 ChatGPT 模型,并提供試用。圖圖 2:ChatGPT 發展時間線發展時間線 數據來源:OpenAI,中信建投 2、大語言模型概覽、大語言模型概覽 通常,大型語言模型(LLMs)是指包含數千億(或更多)參數的語言模型,它們是在海量文本數據上進行訓練的,例如 GPT-3,PaLM,Galactica 和 LLaMA。具體來說,LLMs
32、 建立在 Transformer 架構之上,其中多頭注意力層在一個非常深的神經網絡中堆疊?,F有的 LLMs 主要采用類似的模型架構(即 Transformer)和預訓練目標(即語言建模)作為小型語言模型。作為主要區別,LLMs 大量擴展了模型大小、預訓練數據和總計算量(數量級)。它們可以更好地理解自然語言,并基于給定的上下文(即提示)生成高質量的文本。這種能力提升可以部分地由縮放法則描述,即性能大致隨著模型大小的增加而顯著增加。然而,一些能力(例如上下文學習)是不可預測的,只有當模型大小超過一定水平時才能觀察到。百億參數量級別的模型:百億參數量級別的模型:這類模型的參數規模除了 LLaMA(最
33、大版本 65B 參數)和 NLLB(最大版本 54.5B參數),大多在 10B 至 20B 之間。這一參數范圍內的模型包括 mT5、PanGu-、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5 和 mT0 等。其中,Flan-T5(11B 版本)可以作為研究指令微調的首選模型,因為它從三個方面探索了指令微調:增加任務數量、擴大模型規模和使用思維鏈提示數據進行微調。CodeGen(11B)是一個為生成代碼設計的自回歸語言模型,可用作探索代碼生成能力的候選模型,其提出了一個新的基準測試 MTPB,專門用于多輪程序合成,由 115 個專家生成的問題組成,為了解決這些問題,需要
34、大語言模型獲得足夠的編程知識(例如數學、數組操作和算法)。對于多語言任務,mT0(13B)可能是一個比較好的候選模型,因為它在多語言任務中使用多語言提示進行微調。此外,對于中文的下游任務,PanGu-具有較好的表現,特別是在零樣本或小樣本的設置下,該模型基于深度學習框架 MindSpore 開發,擁有多個參數版本(最大版本 200B 參數),而最大的公開版本只有 13B 參數。此外,作為最近發布的模型,LLaMA(65B)在與指令遵循相關的任務中展2016.4第一個項目OpenAI OpenAI Gym BetaGym Beta發布,以開發和比較不同強化學習算法2017.5開源一個重現強化學習
35、算法的工具OpenAI OpenAI BaselinesBaselines,提供用于正確的強化學習算法實現的最佳實踐2018.6發布GPTGPT,一個在諸多語言處理任務上都取得了很好結果的算法,首個將Transformer與無監督預訓練技術相結合的算法,其取得的效果好于已知算法2019.2發布擁有15億參數GPTGPT-2 2,基于800萬網頁數據、40GWeb Text作為訓練數據2019.4首次將生成模型從首次將生成模型從自然語言處理領域自然語言處理領域擴展到其他領域:擴展到其他領域:公布MuseNetMuseNet,一個深度神經網絡,可以用10種不同的樂器生成4分鐘的音樂作品,并且可以結
36、合從鄉村到莫扎特到披頭士的風格2020.4發布MicroscopeMicroscope,一個用于分析神經網絡內部特征形成過程的可視化工具2020.5發布GPTGPT-3 3模型模型,對于所有任務,無需進行任何梯度更新或微調,僅通過與模型的文本交互指定任務和少量示例即可獲得很好的效果;一個月后,發布Image GPTImage GPT模型模型,將GPT的成功引入計算機視覺領域2021.1發布CLIPCLIP,能有效地從自然語言監督中學習視覺概念,可以應用于任何視覺分類基準,只需提供要識別的視覺類別名稱2021.1發布DALL EDALL E模型模型,一個120億個參數的GPT-3版本,被訓練成使
37、用文本-圖像對的數據集,從文本描述中生成圖像2022.1發布InstructGPTInstructGPT,大量使用了人類反饋與指導,在GPT3的基礎上,進一步精調,使得輸出更加可控2022.4發布DALL E 2.0DALL E 2.0,其效果比第一個版本更加逼真,細節更加豐富且解析度更高2022.9發布WhisperWhisper,一個語言識別預訓練模型,結果逼近人類水平,支持多種語言2022.11發布ChatGPTChatGPT,一個AI對話系統,可以寫代碼,寫博客、寫短劇等等 4 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明?,F了卓越的性能。由于其開放性和有效性,L
38、LaMA 引起了研究界的廣泛關注,許多工作致力于微調或繼續訓練其不同的模型版本以實現新模型或工具的開發。百億參數量級別的模型通常需要數百甚至上千個 GPU 或 TPU。例如,GPT-NeoX-20B 使用了 12 個微服務器,每個服務器配備了 8 個 NVIDIA A100-SXM4-40GBGPU,LLaMA使用了 2048 個 A100-80GGPU。為了準確估計所需的計算資源,我們還是建議使用衡量涉及計算量的指標,例如計算 FLOPS(每秒浮點數運算次數)。千億參數量級別的模型:千億參數量級別的模型:在這類模型中,只有少數幾個模型進行了公開發布。其中,OPT、OPT-IML、BLOOM和
39、 BLOOMZ 的參數量幾乎與 GPT-3(175B)大致相同,而 GLM 和 Galactica 的參數數量分別為 130B 和 120B。其中,OPT(175B)專注于復現和開源,旨在使研究人員能夠進行大規??芍貜脱芯?。對于跨語言泛化研究,可以將 BLOOM(176B)和 BLOOMZ(176B)用作基礎模型,因為其在多語言建模任務中具有較好的能力。在這些模型中,OPT-IML 進行了指令微調,是研究指令微調效果的較好選擇。千億參數量級別的模型通常需要數千個 GPU 或 TPU 進行訓練。例如,OPT(175B)使用了 992 個 A100-80GBGPU,GLM(130B)使用了 96
40、個NVIDIADGX-A100(8x40G)GPU 節點集群。圖圖 3:大模型發展時間線大模型發展時間線 數據來源:Arxiv,中信建投證券 據中移智庫統計,截止到 2023 年 4 月 18 日,國內至少有 19 家企業及科研院所涉足人工智能大模型訓練,主要分為大型科技公司、科研院校和初創科技團隊三類。具體來看:百度、阿里等 12 家大型科技公司和中國科學院、清華大學等 3 家科研院校已經提供開放測試,或有明確的推出時間計劃;字節跳動、搜狗創始人王小川、美團創始人王慧文、創新工場創始人李開復等則是最近對外宣布組建團隊,進軍大模型研發領域。其中,字節跳動旗下火山引擎于 4 月 18 日發布自研
41、 DPU(數據處理器)等系列云產品,推出新版機器學習平臺,可以支持萬卡級大模型訓練、微秒級延遲網絡,為預訓練模型提供強大的算力支持。5 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 4:國產大模型發展時間表國產大模型發展時間表 數據來源:各公司官網,中信建投證券 從大模型的布局體系來看,科技大廠在算力層、平臺層、模型層、應用層進行了四位一體的全面布局。百度、阿里、華為三家均從芯片到應用進行自主研發的全面布局,如百度的“昆侖芯+飛槳平臺+文心大模型+行業應用”、阿里的“含光 800 芯片+M6-OFA 底座+通義大模型+行業應用”、華為的“昇騰芯片+MindSpore
42、 框架+盤古大模型+行業應用”。垂直行業科技企業和科研院校,主要以研發大模型算法及細分領域應用為主,自有算力相對薄弱,很少涉及芯片領域自主研發。從大模型參數量看,科技大廠的參數量遠大于科研院所??萍即髲S的大模型參數量較大:阿里通義千問大模型參數在 10 萬億級以上、騰訊混元大模型和華為盤古大模型參數量均在萬億級以上、百度文心一言大模型參數量在 2 千億級以上、京東言犀大模型的參數量為千億級;垂直行業科技企業已經上線的參數量普遍在千億級以上;而科研院校大模型的參數量在千億級及以下。從大模型應用方向看,大部分企業前期以內部應用為主,后續主要向 B 端企業拓展服務,預計少數企業將在 C 端市場形成規
43、模。目前,百度文心大模型、華為盤古大模型、中國科學院紫東太初大模型均在 B 端垂類市場積累了標桿應用案例,騰訊混元大模型、阿里通義大模型則更多聚焦公司自身業務。而在 C 端市場應用方面,百度文心一言、阿里通義千問、騰訊混元助手三類大模型最有可能向此方向拓展,但目前只有百度文心一言大模型正在進行友好客戶測試,阿里通義千問大模型則計劃在今年 9 月份進行公測,騰訊混元助手大模型則處于計劃開發狀態。從大模型業界評估看,國內大模型與 GPT-4 有較大差距,但科技大廠具備追趕實力。目前國內大模型處于百花齊放的狀態,但業界普遍認為,第一梯隊當屬百度、阿里巴巴、騰訊、華為四家。綜合實力方面,四家企業在大模
44、型研發投入、技術能力和人才團隊實力較強;商用推進方面,四家企業均依托現有業務領域更容易形成大模型應用規模效應。從模型數量和參數量來對比,美國領跑,中國跟跑,且差距不斷縮小。從 AIGC 模型數量來看,全世界前十的 AIGC 模型研發者中,中國機構占了四個。包括其中有學院派的 BAAI 智源研究院和清華大學,也有產業界的百度和阿里巴巴研究院。雖然以色列的實驗室 AI21 和加拿大初創公司 Cohere 也在構建大型模型,但中國是除英美以外唯一擁有多實驗室的參與者。在模型預訓練參數方面,中國在模型的規模和性能方面大概落后西方一年。例如,OpenAI 在 2020 年 6 月推出 GPT-3 模型,
45、中國的智源、華為、百度在差不多一年之后才研發出2023.3.23OpenAIGPT開放開放Plugins功能功能2022.11OpenAI推出推出ChatGPT2023.2.27Meta開源開源LLaMA2023.3.2OpenAI推出推出ChatGPT API2023.11Google發布發布PaLM-E2023.3.15OpenAI推出推出GPT-4.0及及API2023.3.16微軟/百度發布發布Microsoft 365 Copilot發布百度文心一言發布百度文心一言2023.32023.3.20英偉達/Google英偉達開發者大會英偉達開發者大會谷歌正式開放谷歌正式開放Bard202
46、3.52023.5.6科大訊飛星火大模型星火大模型2023.5騰訊發布混元大模型發布混元大模型2023.5.6GoogleI/O大會,推出融合的大會,推出融合的AIGC的的Gmail和和Google Docs2023.5.23微軟微軟開發者大會,發布新微軟開發者大會,發布新Windows等等2023.5.6蘋果全球開發者大會,發布全球開發者大會,發布MR設備設備2023.62023.42023.4.11阿里通義千問通義千問2023.4.10360/商湯科技360智腦智腦商湯日日新商湯日日新2023.4.13知乎知乎圖知乎圖AI2023.4.10華為盤古系列盤古系列AI大模型大模型2023.4.
47、17昆侖萬維天工大模型天工大模型2023.4.18字節跳動推出大模型訓練云平臺推出大模型訓練云平臺2023.4.18騰訊混元在五大跨模態視頻檢混元在五大跨模態視頻檢索數據集榜單奪冠索數據集榜單奪冠 6 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。了體量與之相當的模型,又用了一段時間才讓模型的技能和 GPT-3 相媲美。但 ChatGPT 在 12 月推出后,科大訊飛在 5 月的時間推出的星火大模型,基本上已經可以對標 ChatGPT。圖圖 5:AIGC 模型十大開發機構模型十大開發機構 圖圖 6:預訓練語言模型參數量預訓練語言模型參數量 數據來源:Leonis Capi
48、tal,中信建投證券 數據來源:Leonis Capital,中信建投證券 3、產業發展趨勢、產業發展趨勢 大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放 API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。大模型的核心作用是突破數據標注的困境,通過學習海量無標注的數據來做預訓練,拓展整體模型前期學習的廣度和深度,以此提升大模型的知識水平,從而低成本、高適應性地賦能大模型在后續下游任務中的應用。在實踐中,預訓練大模型在基于海量數據的自監督學習階段完成了“通識”教育,再借助“預訓練
49、+精調”等模式,在共享參數的情況下,根據具體應用場景的特性,用少量數據進行相應微調,即可高水平完成任務。圖圖 7:訓練大模型“預訓練訓練大模型“預訓練+精調”模式精調”模式 數據來源:IDC,中信建投證券 文本 知識 圖像.視頻產業應用產業應用原子能力原子能力任務相關少量數據海量無標注數據精調精調應用應用精調精調專業教育預訓練預訓練通識教育類似人類學習機制自監督學習自監督學習智能檢索智能推薦智能客服智能審核工業質檢智能錄入.智能對話智能創作智能回答文檔理解目標檢測圖像分割.7 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。大模型增強了 AI 技術的通用性,讓開發者以更低成
50、本、更低門檻,面向場景研發更好的 AI 模型,助力普惠 AI 的實現。但目前,基礎大模型距離大規模產業應用并成為產業基座還有很長的一段路要走,不僅需要有與場景深度融合的大模型體系,也需要有支持全流程應用落地的專業工具和平臺,還需要開放的生態來激發創新;三層之間交互賦能,才能形成良性循環的產業智能化生態共同體。我們看到 OpenAI 在開發 GPT 大模型的過程中具有相似的思路,在不斷加強大模型本身性能的同時,將 GPT 打包成產品,對外提供 API 服務,相關開發者、企業、學術機構以及高校都可以申請使用。開放后,大量開發者利用 API 開發出了各種各樣的功能,例如翻譯機、網站生成器等;Open
51、AI 則通過用戶獲取了更多的行為數據,形成了對 GPT 的反哺。由此可見,“模型+工具平臺+生態”三層共建有助于業務的良性循環,也更容易借助長期積累形成競爭壁壘。模型層是大模型能力的核心引擎。模型層從技術發展與產業應用出發,主要包含基礎、任務、行業大模型,模型的訓練要求高,算力消耗大,建設人員主要為高級算法人員?;A大模型主要優勢在于其通用性,可以讓該技術方向的相關應用任務都得到進一步提升,但也正是這樣的優勢導致基礎大模型在行業、任務中表現尚未最優。任務大模型是在基礎大模型上,面向典型的任務,如對話、搜索、文檔智能、人臉識別、OCR 等,進一步結合任務特性,優化模型算法,學習任務相關數據與知識
52、,從而使得大模型在任務上表現出更優異的效果,很多任務甚至可以零樣本直接應用。行業大模型是在基礎或任務大模型上,進一步融合行業數據、知識以及專家經驗,提升大模型對行業應用的適配性,目前在金融、能源、制造、傳媒、城市等已經有頭部企業或機構與科技公司或科研單位聯合發布了行業大模型?;A+任務+行業三層大模型相互促進,共同支撐起產業轉化。工具平臺層將大模型落地研發標準化,推動 AI 廣泛落地。大模型在深度學習平臺的有力支撐下,實現了高效生產并真正為產業所用,深度學習平臺為大模型解決硬件適配,提供蒸餾、剪枝、壓縮等技術并向外輸出部署方案,支撐自然語言處理、計算機視覺、跨模態等各類大模型的應用。同時,基于
53、深度學習平臺進一步推出基于大模型的 AI 開發平臺、工具套件、大模型 API 等,將基于大模型的精調、大模型能力調用產品化,讓更多AI應用型開發者或業務專家,可以零門檻或低門檻地將大模型應用于自己的業務中,以此全面釋放大模型效能,助力開發者效率提升。生態層是基于大模型能力打造共創、共享社區。大模型“預訓練+精調”的新研發范式,讓 AI 在識別、理解、生成等方面的能力實現突破,帶來深度語義理解、智能交互、內容生成的技術與產品變革動能。打造基于大模型能力的生態,提供能力、工具、服務,連接供需,吸引更多的開發者和企業共創、共享,是釋放大模型潛力的重要路徑?!澳P?工具平臺+生態”的模式需要協同優化,
54、拓寬人工智能技術落地的場景覆蓋廣度,加深產業實際應用的深度,共同加速產業智能化,推動人工智能技術賦能千行百業,惠及千家萬戶?!澳P?工具平臺+生態”的模式需要協同優化,才能拓寬人工智能技術落地的場景覆蓋廣度,加深產業實際應用的深度,共同加速產業智能化,推動人工智能技術賦能千行百業,惠及千家萬戶。8 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。二、互聯網大廠模型二、互聯網大廠模型 1、阿里、阿里 阿里以“通義大模型+飛天智算平臺+魔塔社區+行業應用”成為大模型全部環節的重要參與者。2019 年,阿里達摩院開啟大模型研究。2022 年 9 月,阿里正式發布通義大模型,包括通
55、義 M6 多模態模型、通義 AliceMind自然語言處理模型、通義視覺計算機視覺模型。2022 年 11 月,阿里推出 AI 開源社區“魔搭”(ModelScope),旨在打造下一代“模型即服務”的共享平臺,整合業界多方模型提供者,為開發者提供預訓練基礎模型和 API接口。目前該平臺已有超過 300 個開源模型,包括阿里自有的通義大模型系列以及瀾舟科技孟子系列模型等外部資源和能力。2023年4月,阿里正式發布了“通義千問”產品,該產品基于10萬億級參數的大模型底座M6-OFA,未來將具有多輪交互及復雜指令理解、可多模態融合、支持外部增強 API 等多種能力。另外,阿里不僅擁有最多的英偉達 A
56、100 芯片,還擁有自研芯片含光 800、倚天 710 芯片,共同為人工智能大模型提供算力。1.1 模型 阿里推出“通義”系列大模型,由統一底座層、通用模型層、行業模型層組成,不僅通用多種任務,又容易落地應用,其中,應用在 B 端更有優勢。2022 年 9 月 2 日,阿里推出“通義”系列大模型,核心模型通過“魔搭”社區向全球開發者開源開放,推出“飛天智算平臺”提升 AI 訓練效率。通義大模型通過打造業界首個 AI統一底座并構建大小模型協同的層次化人工智能體系,解決了大模型通用性與易用性仍欠缺的難題。通義大模型由統一底座層、通用模型層、行業模型層組成。其中,統一底座是基于 transforme
57、r 框架,由統一學習范式和模塊化設計理念構成;通用模型層主要包括通義-M6、通義-AliceMind 和通義-CV 三大模型體系。由于低訓練能耗優勢,通義大模型運行速度加快,例如,M6 在相同參數規模下的訓練能耗僅是 GPT-3 的 1%。目前,阿里通義大模型已廣泛用于電商、設計、醫療、法律、金融等領域,助力其降本增效。而在落地應用方面,阿里原有的產品資源導致其在 B 端更有優勢。阿里巴巴于 2023 年 4 月 7 日推出通義千問大語言模型內測。在 4 月 11 日的 2023 阿里云峰會上,阿里巴巴 CEO 張勇表示阿里巴巴所有產品未來將接入通義千問大模型,進行全面改造,包括天貓、釘釘、高
58、德地圖、淘寶、優酷、盒馬等。阿里將結合 200 多萬的企業用戶和輻射的 2-3 億真實活躍用戶資源,把文本作為核心場景鑲嵌到釘釘的三大入口,預計 2023Q3 推送給部分 B 端客戶的企業釘。9 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 8:通義大模型架構通義大模型架構 數據來源:機器之心,中信建投證券 通義-M6 屬于多模態模型,覆蓋文本和語音模態,在短時間內高速發展,并實現架構、模態和任務統一。通義-M6(英文全稱是 MultiModality-to-MultiModality Multitask Mega-transformer,6 個 M,簡稱 M6)包
59、括圖文生成,圖文理解,多模態對話,運動預測,運動生成,語音理解,語音生成,多模態檢測和分割。通義-M6已經從 2020 年 6 月的 3 億參數基礎模型逐漸發展到 2021 年 10 月的 10 萬億參數全球最大預訓練模型再到 2022年 1 月的業界首個通用統一大模型 M6-OFA。2020 年 1 月,阿里巴巴達摩院啟動中文多模態預訓練模型 M6 項目,同年 6 月推出 3 億參數的基礎模型。2021 年 1 月,模型參數規模到達百億,已經成為世界上最大的中文多模態模型。2021 年 3 月,千億參數模型 KDD2021 發布,與 10B 模型相比:訓練損失減少 37%,在許多下游任務實現
60、 SOTA 結果;混合精度提亮 90%的效率;僅需 32 張 v100GPU 即可完成訓練。2021 年 5 月,具有萬億參數規模的模型正式投入使用,追上了谷歌的發展腳步。2021 年 10 月,M6 的參數規模擴展到 10 萬億,成為當時全球最大的 AI 預訓練模型。2022 年 1 月,業界首個通用的統一大模型 M6-OFA 發布。圖圖 9:通義:通義 M6 發展歷史發展歷史 數據來源:機器之心,中信建投證券 架構統一方面,架構統一方面,M6-OFA 整體采用了經典的 Transformer Encoder-Decoder,外加一個 ResNet Blocks。通過通義大模型架構行業模型行
61、業模型通用模型通用模型模型底座模型底座電子商務基礎科學城市大腦智能交互智慧醫療自動駕駛工業視覺數字人智能設計智慧法律智慧海關智能物流智能農業智能能源圖文生成圖文理解多模態對話通義通義-M6運動預測運動生成語言理解語音生成多模態檢測和分割通通義義-AliceMind多語音模型文本理解文本生成表格模型搜索模型對話模型視覺文檔模型開放域對話通通義義-AliceMind圖像表征視頻表征圖像生成視頻生成物體檢測語義分割圖像分類圖像編輯因果推斷不同模態統一語言視頻圖像語音時序信號語言編碼器特征到語言生成語言生成器語言和視覺的模態關聯特征到視覺生成視覺編碼器視覺生成器層次化結構模塊化設計易于迭代部署2020
62、.1正式啟動2020.6基礎模型(3億)2021.1發布百億參數多模態預訓練模型2021.3千億參數模型,KDD2021 與10B模型相比,訓練損失減少37%,在許多下游任務實現SOTA結果 混合精度提高90%的效率 僅需32卡v100GPU即可完成千億參數訓練2021.5萬億參數模型,綠色低碳訓練、文本到圖生成、商業化一流結果2021.10十萬億參數模型,全球最大預訓練模型 10萬億參數模型僅需要512卡v100 GPU 提出的Pseudo-to-Real機制將訓練速度提高了7倍以上 粒度級控制的CPU Offload 模塊2022.1業界首個通用的統一大模型M6-OFA(模態、任務和架構)
63、10 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。這種架構完成所有任務,讓預訓練和微調采用相同的學習模式,無需增加任何任務特定的模型層。如下圖所示,ResNet Blocks 用于提取圖像特征,Transformer Encoder 負責多模態特征的交互,Transformer Decoder 采用自回歸方式輸出結果。模態統一模態統一方面方面,M6-OFA 構建了一個涵蓋不同模態的通用詞表,以便模型使用該詞表表示不同任務的輸出結果。其中 BPE 編碼的自然語言 token 用于表示文本類任務或圖文類任務的數據;圖片中連續的橫縱坐標編碼為離散化 token,用于表示視覺定
64、位、物體檢測的數據;圖片中的像素點信息編碼為離散化 token,用于表示圖片生成、圖片補全等任務的數據。任務統一任務統一方面方面,通過設計不同的 instruction,M6-OFA 將涉及多模態和單模態(即 NLP 和 CV)的所有任務都統一建模成序列到序列(seq2seq)任務。M6-OFA 覆蓋了 5 項多模態任務,分別為視覺定位、定位字幕、圖文匹配、圖像字幕和視覺問答(VQA);2 項視覺任務,分別為檢測和圖像填補;1 項文本任務,即文本填補。圖圖 10:M6-OFA 模型模型-任務完成模式(架構統一)任務完成模式(架構統一)圖圖 11:M6-OFA 模型模型-預訓練模式(模態統一)預
65、訓練模式(模態統一)數據來源:機器之心,中信建投證券 數據來源:機器之心,中信建投證券 2023 年 2 月,M6-OFA 統一多模態模型在一系列視覺語言任務中實現了 SOTA 性能,在 Image Caption 任務取得最優表現,長期在 MSCOCO 榜單排名第一;在視覺定位任務中的 RefCOCO、RefCOCO+和 RefCOCOg 三個數據集均取得最優表現,以及在視覺推理任務的數據集 SNLI-VE 上取得第一。OFA 的 VQA 分數達到 82.0,效果名列前茅。文本生成圖像(text2Image)在 COCO 數據集上超越了此前基線模型,當時的 Case 對比也優于 GLIDE
66、和 CogView。并且,OFA 模型展現出一定的零樣本學習新任務的能力。AliceMind 是 NLP 的深度語言模型體系,以通用預訓練語言模型 StructBERT 為基礎,拓展到超大的領域模型、多語言、多領域、多模態方向,可用于結構化、生成式、知識驅動等應用。AliceMind,取名來自 Alibabas Collection of Encoder-decoders from MinD(Machine Intelligence of Damo),是阿里達摩院機器智能技術實驗室傾力打造的具有領先性和系統化的深度語言模型體系。AliceMind 的核心應用場景有:文本標簽分類、序列標注、智能
67、中文生成(如商品描述寫作推薦、小說續寫、古詩生成、菜譜生成等)、多模態問答(如 VQA,圖片問答)、問答對自動生成等。Alicemind 已經服務阿里內部和外部客戶幾百個場景。圖圖 12:通義通義-AliceMind 發展歷程發展歷程 數據來源:AliceMind官網,中信建投證券 通義-AliceMind 屬于 NLP 模型,覆蓋自然語言相關模態,在覆蓋,技術,開放普惠三方面領先,中文語言2019.022019.022019.092019.092019.112019.112020.062020.062020.072020.072020.082020.082021.052021.05通用語言模
68、型StructBert登頂GLUE榜首通用語言模型StructBert被頂會ICLR2020接受通用語言模型StructBert上線ALINLP平臺電商、醫療、娛樂等領域模型上線ALINLP平臺生成式語言模型PALM上線ALINLP平臺ALICE內6大模型全面登頂GLUE、XTREME等6大榜單多語言模型VECO、結構化語言模型Structural-LM被頂會ACL2021錄用 11 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。理解水平出色。通義-AliceMind 涉及多語言模型,文本理解,文本生成,表格模型,搜索模型,對話模型,視覺文檔模型,開放域對話。該模型體系包
69、含了通用語言模型 StructBERT、生成式語言模型 PALM、結構化語言模型 StructuralLM 等八個語言模型,在多語言、多模態、結構化等多個預訓練語言模型的全面覆蓋,模型的技術領先,圍繞預訓練+精調語言模型的技術開源這三方面具有優勢。2022 年 11 月 25 日,通義-AliceMind 在中文自然語言理解權威榜單 CLUE 獲得了 AI 首次超越人類成績(86.678 分)的新紀錄,在多個下游語言任務中實現最優結果,達到了中文語言理解水平新高度。同時,相關技術已應用于醫療、電商、法律、跨境電商等領域。圖圖 13:通義通義-AliceMind 在在 CLUE 榜單中名列前茅榜
70、單中名列前茅 數據來源:AliceMind官網,中信建投證券 通義通義-視覺屬于視覺屬于 CV 模型模型,覆蓋圖像,視頻模態。通義-視覺大模型自下往上分為底層統一算法架構、中層通用算法和上層產業應用,由兩個基礎模型構成,能夠實現視頻處理、視覺問答、視覺算數等多種算法,在電商、交通、自動駕駛等領域發揮作用。圖圖 14:通義通義-視覺框架視覺框架 數據來源:機器之心,中信建投證券 上層上層產業應用產業應用中層中層通用算法通用算法底層統一底層統一算法架構算法架構電子商務城市大腦AI醫療工業視覺智能農業手機拍照自動駕駛AIOT視頻處理視覺問答視覺算術知識抽取因果推斷通用識別通用聚類通用檢測通用分割圖像
71、處理視覺生成器語言編碼器文字到視覺生成視覺編碼器語言編碼器特征到語言生成語言生成器語言和視覺的模態關聯特征到視覺生成視覺編碼器視覺生成器基礎模型I基礎模型II 12 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。1.2 算力 2022 年,阿里云推出全棧智能計算解決方案“飛天智算平臺”,并啟動兩座超大規模智算中心,為科研、公共服務和企業機構提供強大的智能計算服務,可將計算資源利用率提高 3 倍以上,AI 訓練效率提升 11 倍,推理效率提升 6 倍。飛天智算平臺源于阿里巴巴內部廣泛實踐,也源于廣泛的產業智能實踐。飛天智算平臺源于阿里巴巴內部廣泛實踐,也源于廣泛的產業智能實
72、踐。目前,該平臺正在支撐建設兩座超大規模智算中心。張北智算中心建設規模為 12 EFLOPS(每秒 1200 億億次浮點運算)AI 算力。在云端,張北智算中心支撐 AI 預訓練大模型、AI Earth、數字人等前沿 AI 應用,將成為全球最大的智算中心。烏蘭察布智算中心建設規模為 3 EFLOPS(每秒 300 億億次浮點運算)AI 算力,位于“東數西算”內蒙古樞紐節點,采用自然風冷、AI 調溫等綠色技術,實現綠色低碳。圖圖 15:飛天智算平臺飛天智算平臺 數據來源:公司官網,中信建投證券 通過先進的技術架構,飛天智算平臺實現了 90%的千卡并行計算效率,可將算力資源利用率提高 3 倍以上,A
73、I 訓練效率提升 11 倍,推理效率提升 6 倍。突破計算效率極限。突破計算效率極限。飛天智算平臺采用先進的技術架構,將衡量算力效率的核心指標“千卡并行計算效率”,從傳統架構的 40%提升至 90%,可將算力資源利用率提高 3 倍以上,AI 訓練效率提升 11 倍,推理效率提升 6 倍。支持“一云多芯”,支持“一云多芯”,飛天智算平臺提供基于阿里云磐久基礎設施的融合算力和大數據 AI 一體化平臺整體解決方案,可以運行在 X86、GPU、ARM 等多種芯片類型的服務器上,實現“一云多芯”,支持多種處理器混合部署、統一調度,并可進行應用優化,部分性能提升 100%以上。高效高效 13 海外行業深度
74、報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。智能服務,智能服務,開發人員可以在飛天智算平臺上進行數據存儲、數據治理、數據分析、模型開發、模型訓練與推理的工作。并提供了預訓練模型,以及語音,圖像、自然語言處理、決策等領域的模型能力,以方便開發者更好的加速 AI 應用的開發。綠色低碳,綠色低碳,飛天智算在技術減排、能源結構優化、區域布局優化、供應鏈減碳以及資源利用優化五個方面來降低單位算力的碳排放。在技術減排方面,通過液冷、電源技術以及智能運維等方式降低能耗,PUE 最低可達 1.09。智能計算不同于通用型計算,需要海量數據對 AI 模式進行訓練,算力被損耗在數據遷移、同步等環節,千卡
75、以上規模的算力輸出最低往往僅有 40%左右。這導致了智能算力成本高昂,制約了產業發展。阿里云通過體系化的技術創新,改變了智能計算的損耗難題,將千卡并行計算效率提升至 90%以上。在網絡技術上:阿里云采用高性能 RDMA 網絡,實現端對端最低 2 微秒延遲。在通信技術上:阿里云自研的無阻塞通信技術,讓計算過程中的數據交換速度提升了 5 倍以上。在存儲技術上:自研的 IO 加速器讓數據存取實現最高 10 倍性能提升。在大數據 AI 開發層:阿里云提供分布式訓練框架,并通過 API 對分布式策略進行自動組合和調優,將訓練效率提升了 11 倍以上。一站式 AI 計算開發服務:阿里云為用戶提供了一站式的
76、通用推理優化工具,對算法模型進行量化、剪枝、稀疏化、蒸餾等操作,將推理效率提升 6 倍以上。如今,飛天智算平臺已在阿里內部廣泛應用,支撐達摩院前沿 AI 和電商智能技術發展,并服務了小鵬汽車、深勢科技、上汽集團、中國氣象局、南方電網等機構和企業,支撐自動駕駛、新藥研發、氣象預測、工業能源等行業大幅提升 AI 訓練效率。在自動駕駛領域,小鵬汽車:基于飛天智算在烏蘭察布建設智算中心“扶搖”,算力規模達 600PFLOPS,是國內最大的自動駕駛智算中心,將自動駕駛模型訓練提速近 170 倍。毫末汽車:基于飛天智算,實現 128 卡并行效率超 96%,使自動駕駛模型訓練成本降低 62%,訓練速度提升
77、110%,讓模型迭代周期大幅縮短。在生命科學領域,深勢科技采用飛天智算平臺之后,將集群性能優化提升超過 100%,讓分子動力學仿真模擬訓練效率提升了 5 倍以上。在工業領域,智己汽車:運用高性能計算將工業仿真的效率提升了 25%,智能駕駛訓練效率提升了 70%,加速了新車型的研發上市。山東德州電力:通過 AI 進行復核預測,準確率達到了 98%,耗時從 1 小時縮短至幾分鐘。在城市治理領域,四川成宜高速:通過數字孿生進行車路協同優化使事故率降低 60%。重慶水務:通過遙感數據與仿真推演實現水利調度預測準確性高達 95%;南方電網與中國氣象局:利用智算能力提升氣象預報的準確性與穩定性。阿里研發出
78、高質量的大模型壓縮技術,快速匹配客戶計算資源。達摩院推出了大模型落地技術 S4(Sound、Sparse、Scarce、Scale)框架,就包含了各種微調算法和模型壓縮算法,將稀疏化等技術應用到百億量級的大模型中?;谶@一技術,阿里的 270 億參數語言大模型 PLUG 在壓縮率達 99%的情況下,多項任務的精度損失在 1%以內。這意味著百億參數大模型也可能在幾乎不損失精度的情況下進行稀疏化,最終實現單卡運行。14 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 16:S4 框架框架 數據來源:量子位,中信建投證券 另一方面,基于“通用大模型+行業 knowhow”的
79、方式迭代模型。通用大模型基于“大一統”技術,預訓練時就已經具備了很強的理解和生成能力,只需再針對特定任務進行簡單微調。即先打造一個基礎大模型,再繼續訓練得到領域模型,最后通過微調構建具體行業任務模型。通義大模型的架構設計將這一過程做得更快且更高效。目前,通過部署超大模型的輕量化及專業模型版本,通義大模型已在超過 200 個場景中提供服務,實現了 2%-10%的應用效果提升。比如,通義大模型在淘寶服飾類搜索場景中實現了以文搜圖的跨模態搜索、在 AI 輔助審判中司法卷宗的事件抽取、文書分類等場景任務中實現 35%的應用效果提升、在開放域人機對話領域通過建立初步具備“知識、情感以及個性、記憶”的中文
80、開放域對話大模型實現了主動對話、廣泛話題、緊跟熱點等對話體驗。1.3 平臺 2022 年 11 月,阿里巴巴達摩院與中國計算機學會開源發展委員會共同推出人工智能模型開源社區“魔搭”(Model Scope),首批合作方還包括瀾舟科技、智譜 AI、深勢科技、中國科學技術大學等多家科研機構,旨在打造下一代開源的模型即服務共享平臺,致力降低 AI 應用門檻。ModelScope Library 為模型貢獻者提供了必要的分層 API,以便將來自 CV、NLP、語音、多模態以及科學計算的模型集成到 ModelScope 生態系統中。所有這些不同模型的實現都以一種簡單統一訪問的方式進行封裝,用戶只需幾行代
81、碼即可完成模型推理、微調和評估。同時,靈活的模塊化設計使得在必要時也可以自定義模型訓練推理過程中的不同組件。除了包含各種模型的實現之外,ModelScope Library 還支持與 ModelScope 后端服務進行必要的交互,特別是與 Model-Hub 和 Dataset-Hub 的交互。這種交互促進了模型和數據集的管理在后臺無縫執行,包括模型數據集查詢、版本控制、緩存管理等。當前,魔搭社區收錄模型共 775 個,其中中文模型約 300 個,主要通過大模型幫助開發者提取、抽象知識,通過下游調優,將下游目標精確化,從而快速形成針對行業的解決模型,解決實際應用問題。魔搭社區重點提供了易用模型
82、使用平臺,讓 AI 模型跑起來不再困難,從代碼下載到安裝部署再到效果驗證,S SoundoundTrain EffectivelyTrain Effectively可靠穩定有效的微調策略可靠穩定有效的微調策略S SparseparseServe EffectivelyServe Effectively超高稀疏的模型壓縮方法超高稀疏的模型壓縮方法DataData-Size ScalableSize Scalable低資源小樣本學習能力低資源小樣本學習能力S ScarcecarceS ScalecaleModelModel-Size ScalableSize Scalable可擴展至百億參數規???/p>
83、擴展至百億參數規模僅訓練重要子網絡的Child-Tuning微調算法(EMNLP 2021EMNLP 2021)Unified Prompt Tuning(UPT)少樣本微調算法(ACL 2022ACL 2022)Contrastive Pruning(CAP)稀疏化微調算法(AAAI 2022AAAI 2022)PEST高效稀疏化訓練(IJCAI 2022IJCAI 2022)&StrongHold Offloading(SC 2022SC 2022)超高稀疏的模型壓縮方法超高稀疏的模型壓縮方法 50%稀疏訓練:基本精度無損 97%稀疏訓練:精度只降低1%-4%超大模型推理和微調方法超大模型
84、推理和微調方法 模型壓縮率達99%精度損失在1%以內,部分數據集無損(NLG),PLUG推理從千毫秒提升至百毫秒,單卡運行超大規模成為可能 優于ZeRO的Offloading技術被高性能計算頂級會議SC 2022接收,單卡V100可訓練模型規模提升1.9x-6.5x,訓練吞吐量提升1.2x-3.7x超過基線,跨任務遷移提升超過基線,跨任務遷移提升 在GLUE榜單上提升+0.5%-8.6%在跨數據集遷移效果提升+1%-7%Child-Tuning整合進AliceMind平臺,用戶可選擇Child-Tuning優化方式對比學習端到端少樣本對比學習端到端少樣本 在GLUE小樣本場景提升超過10%,超
85、過SOTA小樣本學習算法PET和P-tuning 跨任務小樣本學習算法其精度超過標準Fine-tune15%以上 15 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。以前往往需要數天,現在只要幾個小時甚至幾分鐘。通過全新開發的調用接口和統一的配置文件,平臺提供模型探索、環境安裝、推理驗證、訓練調優等一站式服務,在線 0 代碼就可體驗模型效果,1 行代碼實現模型推理,10 行代碼實現模型調優和定制。平臺還提供了在線開發功能和算力支持,無需任何安裝部署,打開網頁就可以開發 AI 模型。魔搭社區重點提供了易用模型使用平臺,讓 AI 模型跑起來不再困難,從代碼下載到安裝部署再到效
86、果驗證,以前往往需要數天,現在只要幾個小時甚至幾分鐘。通過全新開發的調用接口和統一的配置文件,平臺提供模型探索、環境安裝、推理驗證、訓練調優等一站式服務,在線 0 代碼就可體驗模型效果,1行代碼實現模型推理,10 行代碼實現模型調優和定制。平臺還提供了在線開發功能和算力支持,無需任何安裝部署,打開網頁就可以開發 AI 模型。圖圖 17:魔塔社區特點魔塔社區特點 數據來源:魔塔社區官網,中信建投證券 1.4 應用 通義千問將陸續接入阿里巴巴生態的所有商業應用中,如企業通訊、智能語音助手、電子商務、搜索、導航、娛樂等,從而進一步提升用戶體驗。憑借其中英雙語能力,通義千問將首先部署于阿里巴巴的數碼協
87、同辦公和應用開發平臺釘釘,以及物聯網智能家居終端機天貓精靈上。通義千問賦能釘釘:讓職場溝通更高效。例如,釘釘將能夠總結會議紀要、將會議對話生成文字會議記錄、撰寫電子郵件,以及僅用簡單輸入就可創建業務策劃或推廣方案初稿。用戶還可以透過上傳一張構思草圖的圖像,轉瞬間就能在釘釘上生成小程序。通義千問賦能天貓精靈:與中國用戶更活潑生動地對話。例如,天貓精靈將能夠為兒童創作和講故事、提供健康食譜和旅行建議,或推薦健身背景音樂等。從應用的角度,在傳統 APP 中,因為各業務邏輯上的不同,比如淘寶與餓了么,飛豬與高德打車,APP 間很難整合,強行整合反而會帶來產品使用復雜度大幅增加,用戶體 驗下降。但如果統
88、一接入到通義千問中,參考智能座艙的語音助手,其更強的理解能力將 使得交互邏輯變得非常簡單,用戶可以像詢問生活助手一樣詢問通義千問來完成業務交互,不再需要學習操作邏輯,阿里生態中的家庭終端入口將實現統一。為進一步助力企業數智化轉型并從 AI 驅動的創新中獲益,阿里云還將為客戶開放云端通義千問,幫助他們構建自己的專屬語言大模型。企業客戶結合自己的行業知識和應用場景,可以在安全的云環境中調用通義千問的能力,在云端打造符合自己業務需求的企業大模型。由于無需通過資源密集且昂貴的預訓練流程來構建基礎模型,此舉預計將為客戶帶來新一波增長動力。通義千問現已面向中國內地企業客戶開放邀測。此外,開發者將很快能夠從
89、阿里云通義千問創建大規模 AI 應用,進一步加強各行業 AI 軟件生態,包括物流、媒體、金融、千億千億300+300+10+10+1 1多模態大模型全面開放多模態大模型全面開放多領域多領域SOTA“SOTA“百模百?!遍_源開源1010行代碼實現模型行代碼實現模型finetunefinetune1 1行代碼實現模型推理行代碼實現模型推理 16 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。制造、能源、零售等領域。通義千問的 API 接入現已開放予中國內地開發者申請內測。圖像理解和“文生圖(text-to-image)”等多模態能力也將很快添加到通義千問模型中,為用戶提供更具
90、吸引力的 AI 功能。阿里云智能首席技術官周靖人表示:“語言大模型支持下的生成式 AI 正迎來全新的發展階段。在新 AI 時代,我們憑借可靠的公有云基礎設施和久經驗證的 AI 能力,為客戶和廣大社會創造價值。我們正見證 AI 發展的新范式,云和 AI 模型在其中發揮至關重要的作用。我們致力于讓這種范式更普惠,希望以此促進各行各業的數智化轉型,助力提高企業生產力,擴展專業知識和能力,并通過創新釋放更大的機遇?!蓖x千問基于阿里巴巴自研的“通義”預訓練模型框架,其統一底座包括“文生圖”、“文生短視頻”等 AI 模型。去年,阿里云推出開源“模型即服務”(Model-as-a-Service)平臺“魔
91、搭”(ModelScope),開放了數以百計 AI 模型,包括面向全球開發者和研究人員的通義“文生圖”模型。目前“魔搭”小區擁有超過 100 萬活躍用戶,提供 800 多個模型,模型總下載量超 1600 萬次。圖圖 18:阿里所有產品將接入大模型升級阿里所有產品將接入大模型升級 數據來源:公司官網,中信建投證券 阿里云還為兩款核心云產品提供更優惠的價格,分別為基于 ECS(Elastic Compute Service)的通用算力型Universal 實例,以及基于 OSS(Object Storage Service)的對象存儲預留空間產品 OSS-RC(OSS Reserved Capac
92、ity)和對象存儲無地域屬性預留空間 OSS-ARC(OSS Anywhere Reserved Capacity)。此舉將提供更普惠、更經濟的云計算資源,助企業把握新 AI 時代的機遇。新的通用算力型 Universal 實例專為中小企業設計,在提供與同類產品同等穩定性的同時節省高達 40%的成本。該產品適用于中小企業網絡應用程序和網站、企業辦公應用程和脫機數據分析。全新 OSS-RC 讓客戶能在特定地域保留存儲容量一年。相比以往按量付費,該產品最多可將容量價格降低 50%。若客戶不要求將數據存儲在特定地域,則可創建 OSS Anywhere Bucket 存儲空間,由阿里云選擇數據存儲地域
93、,隨后使用 OSS-ARC 為存儲在 OSS Anywhere Buckets 中的對象預留容量。相比以往按量付費,該產品最多可將容量價格降低 70%。為讓中國內地開發者更便捷、更經濟地獲得云計算資源,阿里云還宣布了時長最多可達 3 個月的核心產品免費試用,包括 ECS 和 PolarDB 數據庫。阿里云還將為開發者提供 1000個云技術免費培訓課程和約 500 場基于真實業務場景的實操實驗,讓開發者輕松掌握云技術。阿里云近期推出一系列舉措,有望進一步擴大公有云客戶基礎及提升云端利用率,并利用生成式 AI 帶來的歷史機遇來推動機器學習和服務的高質量算力增長。17 海外行業深度報告 互聯網互聯網
94、 請務必閱讀正文之后的免責條款和聲明。2、百度、百度 百度是國內領先布局 AI 領域的科技大廠,也是我國最早發布知識增強大語言模型產品的企業,其在 AI 領域累計投入研發總額超過千億元,專利數量連續五年居全國第一。2010 年,百度成立了人工智能自然語言處理部,是中國最早布局 AI 的企業之一。2012 年,百度的 AI 戰略已經初步成型,陸續成立了深度學習研究院 IDL、人工智能實驗室。2014 年,百度開始涉足智能駕駛領域,先后推出了深度語音系統、百度大腦、度秘、Apollo 自動駕駛平臺等技術體系,涉及自然語言處理、機器翻譯、語音、視覺、機器學習、深度學習、知識圖譜等核心技術。2016
95、年 9 月,百度在百度世界大會上正式對外開放集視覺、語音、自然語言處理、知識圖譜、深度學習等技術于一體的百度大腦,并且每隔一段時間就會進行迭代,合作伙伴可以直接調用百度 AI 的核心能力。同年,百度主導的深度學習框架 PaddlePaddle(飛槳)上線,涵蓋了深度學習核心訓練和推理框架、基礎模型庫、端到端開發套件和豐富的工具組件,填補了中國開源深度學習框架的空白。2017 年開始,百度就開始整合人工智能體系,在2019 年下半的一次架構調整后,王海峰開始統管 AIG、ACG 和 TG 三塊業務,百度 AI 的打法也進一步清晰,云計算被定義為智能基礎設施的底座,同時將人工智能和底層技術能力灌輸
96、到底座中,進而成為賦能各行各業的“動力工廠”。2020 年,百度智能云確立了“以云計算為基礎,以人工智能為抓手,聚焦重要賽道”的新戰略,選擇智慧城市、智慧金融、智慧醫療、智能制造、智慧能源等為重要賽道,并屢屢簽下數億級別的訂單。2021 年初,百度再次夯實了自身的人工智能戰略,從“AI+云”的整合過渡到云智一體的新階段。2022 年底,百度智能云推出了全棧自研的 AI 基礎設施“百度 AI 大底座”,其包括“芯片框架模型”三層技術棧,在各個層面都擁有關鍵自研技術和領先產品,分別對應昆侖芯、飛槳(PaddlePaddle)、文心大模型。百度 AI 大底座對各層的技術棧進行了全棧融合、系統優化,完
97、成了云和智的技術一體化建設,可以實現對大模型訓練的端到端優化和加速。圖圖 19:百度百度 AI 大底座大底座 數據來源:百度智能云,中信建投證券 18 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。2.1 模型 文心大模型架構分為“基礎+任務+行業”三級模型?;A大模型聚焦技術方向的技術挑戰、通用性、泛化性探索;任務大模型深入理解任務特性,構建預訓練算法、訓練數據集,打造緊貼任務的模型能力;行業大模型深度融合行業數據與知識特性,構建更適配行業的模型底座?;A大模型支撐任務與行業大模型的建設,任務和行業大模型結合真實場景與數據反哺基礎大模型優化。目前,文心大模型已經建設了
98、36 個大模型,其中基礎大模型包含:NLP(自然語言處理)大模型、CV(計算機視覺)大模型、跨模態大模型,任務大模型包含對話、搜索、信息抽取、生物計算等多個典型任務,行業大模型包含與來自 8 個行業的頭部企業或機構共建的 11個行業大模型。圖圖 20:文心大模型全景圖文心大模型全景圖 數據來源:公司官網,中信建投證券 文心基礎大模型包含 NLP(自然語言處理)大模型、CV(計算機視覺)大模型和跨模態大模型。1)在自然語言處理領域,大模型具有更強的小樣本學習能力,比如基于思維鏈的 Flan-PaLM,該模型已經具有基本推理能力;再如基于層次化多任務學習的文心 ERNIE 3.0 Zeus。同時為
99、了進一步降低落地門檻,出現了效率高、泛化能力強的輕量級大模型,比如文心 ERNIE 3.0 Tiny。2)在計算機視覺領域,百度提出了基于視覺掩碼技術的文心 VIMER-CAE,在圖像分割任務中,該模型泛化能力較強。3)在跨模態領域,擴散模型引發了文本到圖像生成技術的變革,比如百度提出了文心 ERNIE-ViLG 2.0,該模型可以生成語義更相關、質量更高的圖片。同時這個技術浪潮也催生了文本到視頻領域的技術革新,比如當輸入“正在畫肖像的泰迪熊”這句話時,大模型能夠直接生成一個正在畫肖像的泰迪熊的視頻,諸如此類的技術不斷繁榮。圖圖 21:文心基礎大模型組成文心基礎大模型組成 19 海外行業深度報
100、告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。數據來源:公司官網,中信建投證券 2.1.1 文心文心 NLP 大模型大模型 文心 NLP 大模型發展歷程有三條主線,1)是文心 ERNIE,百度發布了文心 ERNIE 3.0 以及文心 ERNIE 3.0 Titan 模型,并且在 SuperGLUE 和 GLUE 都超過了人類排名第一的水平,以及基于層次化多任務學習的文心ERNIE 3.0 Zeus。同時為了進一步降低落地門檻,出現了效率高、泛化能力強的輕量級大模型,比如文心 ERNIE 3.0 Tiny。2)對話生成大模型文心 PLATO 的發布,對話的流暢性得到了很大提升。3)文心
101、ERNIE 在跨模態、跨語言以及長文檔、圖模型等方面獲得了非常好的發展,在各種榜單尤其是視覺語言相關的榜單上獲得第一百,比如文心 ERNIE-ViLG 2.0,該模型可以生成語義更相關、質量更高的圖片。文心一言整合了過往關鍵技術,在文心知識增強大模型 ERNIE 及對話大模型 PLATO 的基礎上研發,基于飛槳深度學習平臺訓練和部署,其關鍵技術包括,有監督精調、人類反饋的強化學習、提示、知識增強、檢索增強和對話增強。前三項是這類大語言模型都會采用的技術,在 ERNIE 和 PLATO 模型中已經有應用和積累,文心一言中又進行了進一步強化和打磨,做到了更懂中文、更懂中國文化、更懂中國的使用場景;
102、后三項則是百度已有技術優勢的再創新。20 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 22:文心文心 NLP 大模型發展歷程大模型發展歷程 數據來源:文心大模型公眾號,中信建投證券 ERNIE(Large-Scale Knowledge Enhanced Pre-Training for Language Understanding And Generation)模型模型是文心一言的關鍵技術之一,主要作用是語義理解和文本生成,其發展經歷了三個階段。是文心一言的關鍵技術之一,主要作用是語義理解和文本生成,其發展經歷了三個階段。1)2019 年 3 月,百度發布預訓練
103、模型 ERNIE1.0。ERNIE 1.0 模型結構基于 BERT 模型的進一步優化,在中文的 NLP 任務上得到了當時較好的結果。2)2019 年 7 月,ERNIE2.0 問世。ERINE2.0 通過不斷的多任務學習來逐步構建和學習預訓練任務,最大限度地從訓練語料庫中提取詞匯、句法和語義信息。3)2021 年 7 月,ERNIE3.0 問世。ERNIE3.0是基于知識增強的多范式統一預訓練框架,ERNIE3.0 將自回歸和自編碼網絡融合進行預訓練,并在訓練時引入大規模知識圖譜類數據。其中,自回歸網絡基于 Transformer-XL 結構,支持長文本語言模型建模。自編碼網絡采用 ERNIE
104、2.0 的多任務學習增量式構建預訓練任務,持續的進行語義理解學習,并增加了知識增強的預訓練任務。2021 年 12 月,百度聯合鵬城實驗室打造了鵬城-百度文心(ERNIE 3.0 Titan)。鵬城-百度文心基于知識增強大模型 ERNIE 3.0 全新升級,模型參數規模達到 2600 億,相對 GPT-3 的參數量提升 50%。2022 年 5月,ERNIE 3.0 Zeus 發布。ERNIE 3.0 Zeus 是基于持續學習對 ERNIE3.0 系列模型的全新升級,是融合了任務相關知識的千億大模型,也是國內首個開放 API 調用的千億大模型。ERNIE 3.0 系列模型(系列模型(ERNIE
105、 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus)有四大特點:)有四大特點:從大規模知識圖譜和海量無結構數據中學習,突破異構數據統一表達的瓶頸問題。從大規模知識圖譜和海量無結構數據中學習,突破異構數據統一表達的瓶頸問題。同時輸入大規模圖譜和相應無標注、無結構化的文本,通過文本的 Mask,能夠推理這個知識圖譜里的關系,從而使這個模型具有知識推理能力。2019.72019.102020.72020.122021.12021.72021.92022.52022.102019.32023.3ERNIE 1.0ERNIE 2.0ERNIE 3.02021.12中文中文效果超越效果
106、超越BERT中英文中英文16個公開數據集個公開數據集全球領先競品全球領先競品AAAI-2020錄用錄用PLATOPLATO-2ERNIE MPLATO-XLERNIE-ViLERNIE-UNIMOERNIE-DoCERNIE-ViLG鵬城-百度.文心ERNIE 3.0 Zeus文心一言ERNIE-ViLG 2.0全球首個大規模變量對全球首個大規模變量對話模型,刷新開放域對話模型,刷新開放域對話效果,話效果,ACL-2020錄用錄用基于課程學習的對話生基于課程學習的對話生成模型,進一步刷新開成模型,進一步刷新開放域對話效果放域對話效果ACL-2021錄用錄用5項多模態任務效果項多模態任務效果So
107、TA,VCR榜單榜單取得冠取得冠軍,軍,AAAI-2021錄用錄用同時提升單同時提升單/多模態任務多模態任務效果,效果,VQA/aNLI效果效果SoTA,ACL-2021錄用錄用13項中英文長文本任項中英文長文本任務效果務效果SOTA,ACL-21錄用錄用同時掌握同時掌握96種種語言,語言,5項項跨語言任務效果跨語言任務效果SoTA,XTREME榜單榜單冠軍,冠軍,EMNLP-2021錄用錄用首個知識增強百億參數首個知識增強百億參數大模型,同時解決語義大模型,同時解決語義理解與生成問題理解與生成問題首個百億參數中英文首個百億參數中英文對話預訓練模型對話預訓練模型全球最大中文跨模全球最大中文跨模
108、態生成模型態生成模型全球首個知識增強全球首個知識增強千億大模型千億大模型文心旗下目前最先進文心旗下目前最先進的自然語言大模型,的自然語言大模型,參數規模達千億級參數規模達千億級全球首個知識增強全球首個知識增強和規模最大的和規模最大的AI作作畫畫大模型大模型對標對標GPT-3.5的的國產國產大語言模型大語言模型 21 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 23:從大規模知識圖譜和海量無結構數據中學習從大規模知識圖譜和海量無結構數據中學習 數據來源:文心大模型官網,中信建投證券 融合了自編碼和自回歸的結構,使模型既可以做語言理解,也可以做語言生成。融合了自編碼和
109、自回歸的結構,使模型既可以做語言理解,也可以做語言生成。在做語言理解時,模型擁有上下文相關的信息,從而做語言理解。在生成的時候,由于模型只看到了上文,所以只能基于自回歸的方式學習。因此,在一個框架中同時能夠擁有語言理解和語言生成兩種能力非常重要。圖圖 24:融合自編碼和自回歸結構融合自編碼和自回歸結構 數據來源:文心大模型官網,中信建投證券 基于飛槳的基于飛槳的 4D 混合并行,高效支持超大模型訓練?;旌喜⑿?,高效支持超大模型訓練。4D 混合并行是指訓練的時候同時有 4 種不同并行方式:數據并行、模型并行、流水線并行和分組參數切片。這四種技術支持了鵬城-百度 文心模型訓練,能夠節省 50%的時
110、間,同時在千億模型上完成 3750 億 Token 的訓練。鵬城-百度文心(ERNIE 3.0 Titan)在算法框架上,該 22 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。模型沿襲了 ERNIE 3.0 的海量無監督文本與大規模知識圖譜的平行預訓練算法,模型結構上使用兼顧語言理解與語言生成的統一預訓練框架。為提升模型語言理解與生成能力,研究團隊進一步設計了可控和可信學習算法。在訓練上,結合百度飛槳自適應大規模分布式訓練技術和“鵬城云腦”算力系統,解決了超大模型訓練中多個公認的技術難題。在應用上,首創大模型在線蒸餾技術,大幅降低了大模型落地成本。圖圖 25:基于飛槳基
111、于飛槳 4D 混合并行技術進行高效訓練混合并行技術進行高效訓練 數據來源:文心大模型官網,中信建投證券 基于持續學習框架,從不同任務中持續學習?;诔掷m學習框架,從不同任務中持續學習。不斷從不同的數據和知識上學習,而不斷地構建新任務,比如文本分類任務、問答任務、完形填空任務等。大模型從不同任務中持續學習,使能力得到持續提升,擁有更多知識。為了進一步學習特定任務的相關知識,ERNIE 3.0 Zeus 提出了層次化提示(Prompt)學習技術。在數據構造時通過層次化的 Text Prompt 庫將百余種不同的任務統一組織成自然語言的形式,和海量無監督文本以及百度知識圖譜聯合學習。此外訓練過程引入
112、了層次化的 Soft Prompt 建模了不同任務之間的共性與特性,進一步提升了模型對于不同下游任務的建模能力。此外,通過持續學習對百余種不同形式的任務數據,實現了任務知識增強,顯著提升了模型的零樣本/小樣本學習能力。23 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 26:層次化提示(層次化提示(Prompt)學習技術)學習技術 數據來源:文心大模型官網,中信建投證券 PLATO(Towards Building an Open-Domain Chatbot via Curriculum Learning)是文心一言的另一項關鍵是文心一言的另一項關鍵技術,主要作用
113、是多輪對話技術,主要作用是多輪對話,其發展經歷了三個階段。其發展經歷了三個階段。1)2019 年 10 月,百度首次發布了 PLATO 對話模型,其是全球首個大規模變量對話模型,刷新開放領域對話效果。2)2020 年 7 月,發布 PLATO-2,其是基于課程學習的對話生成模型,進一步刷新了開放領域對話效果。2020 年 10 月,PLATO-2 斬獲全球對話技術競賽 DSTC-9五項冠軍。3)2021 年 9 月,發布 PLATO-XL,其是首個百億參數中英對話預訓練生成模型。PLATO 在預訓練模型之上,對對話能力進行增強,讓對話具有人格屬性,包括人設穩定性、知識增強、跨模態對話、情感撫慰
114、、主動對話、長期記憶等。同時,PLATO 也已應用到百度的各個產品線,比如:小度聊天,百度推出的虛擬人對話,領域對話。同時,百度也通過 UNIT 平臺,對外輸出對話技術。圖圖 27:文心文心 PLATO 技術研發框架技術研發框架 數據來源:百度,DataFun,中信建投證券 PLATO 是世界首個基于隱變量的生成式開放域對話大模型,利用隱變量建模開放域對話中的一對多關系應用應用小度聊天小度聊天技術研發技術研發數據數據虛擬人對話虛擬人對話領域對話領域對話UNITUNIT平臺平臺知識增強知識增強跨模態對話跨模態對話情感撫慰情感撫慰主動對話主動對話性能優化黃反過濾人設穩定性人設穩定性長期記憶長期記憶
115、PLATOPLATOPLATOPLATO-2 2PLATOPLATO-XLXLPLATOPLATO模型模型大規模預訓練大規模預訓練語料語料人工標注語料人工標注語料知識數據知識數據各類服務各類服務APIAPI 24 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。(一個輸入對應多個正確輸出),采用 Unified Transformer 框架共享生成模型中的編碼器和解碼器參數,通過課程學習方式提升模型訓練效率,在精細化構建的大規模高質量對話語料上基于飛槳深度學習框架訓練的對話大模型。PLATO 具備接近真人水平的多輪流暢對話能力,開放域對話效果達到世界領先水平。圖圖 28:P
116、LATO 基于隱變量的生成式開放域對話大模型基于隱變量的生成式開放域對話大模型 數據來源:文心大模型,中信建投證券 2019 年,百度首次發布了 PLATO 對話模型,首次創新性的提出了“隱變量”的概念。開放型對話具有一對多的特點,用戶輸入 query 后,系統可以有多種多樣的回復。每個回復有不同的性質,比如,輸入“我得健身了,不能放縱了”??梢越o用戶建議、詢問、質詢、質疑等類型的回復。除了這種關系外,還會有對話背后的場景信息,這會導致開放型對話一對多的關系,這會導致模型學習很困難。如果針對一個輸入,有特定的輸出,模型的學習會相對簡單。但當模型的輸出不確定,甚至有多種多樣的輸出,這就會導致模型
117、學習復雜。針對這一問題,我們提出隱變量建模輸入和輸出的映射信息。它不是一個顯式的建模,而是一個隱式建模輸入和每一個輸出的對應關系。這就會讓原來的輸入和輸出一對多的關系,轉化為一對一的關系。通過在輸入增加 soft token的方式,讓 transformer 建立輸入和輸出之間的關系。Transformer 不是獨立的編碼器和解碼器的方式,我們選擇了使用編碼器和解碼器共享參數的方式來實現即 unified transformer。預訓練分為兩個階段,先根據輸入和輸出預測隱變量的分布,然后從分布中采樣隱變量,將其加入輸入中再去學習根據隱變量和輸入預測回答的能力。25 海外行業深度報告 互聯網互聯
118、網 請務必閱讀正文之后的免責條款和聲明。圖圖 29:PLATO 提出隱變量建模提出隱變量建模 Context 和和 Response 的映射信息的映射信息來來解決一對多問題解決一對多問題 數據來源:百度,DataFun,中信建投證券 2020 年,百度推出 PLATO-2,將模型參數量級推進到 16 億。模型有 32 層參數,也發布了中文對話模型。PLATO-2 是在 10 億量級的人類對話樣本中進行訓練的,對話樣本是從百度產品線的業務數據自動挖掘的。在該模型中,百度對訓練方式也進行了優化,將訓練過程分為兩個階段:第一階段,不帶隱變量,直接根據輸入去學習輸出;第二階段,加入隱變量進行學習,訓練
119、生成模型。同時,在模型中訓練了一個評估模型。通過生成模型生成的是多個候選回復,使用評估模型對多個候選回復進行排序,最終得到輸出。圖圖 30:PLATO-2 引入兩階段訓練引入兩階段訓練 數據來源:百度,DataFun,中信建投證券 2021 年,百度推出 PLATO-XL,將模型的規模推進至 110 億,模型有 72 層。同時引入了 role embedding的特征來感知角色信息。在對話上文中,既有用戶的輸入,也有系統的輸入,使用 role embedding 來區分用戶和系統的角色。在原有 transformer 模型三個特征,token、sentence type、position 的基
120、礎上,模型新增了 role embedding 的信息,能讓模型更好的掌控角色。26 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 31:PLATO-X 引入引入 role embedding 感知用戶角色感知用戶角色 數據來源:百度,DataFun,中信建投證券 2.1.2 文心文心 CV 大模型大模型 文心 CV 大模型基于領先的視覺技術,利用海量的圖像、視頻等數據,為企業和開發者提供強大的視覺基礎模型,以及一整套視覺任務定制與應用能力。百度文心發布了 VIMER 系列的 CV 大模型,視覺自監督預訓練大模型 VIMER-CAE 創新性地提出“在隱含的編碼表征空
121、間完成掩碼預測任務”的預訓練框架,在圖像分類、目標檢測、語義分割等經典下游任務上刷新 SOTA 結果。在此之上,多任務學習模型 VIMER-UFO 2.0 可抽取輕量級小模型,兼顧大模型效果和小模型推理性能,單模型覆蓋 20 多個 CV 基礎任務,在 28 個公開測試集上效果刷新 SOTA。端到端文檔 OCR 表征學習預訓練模型 VIMER-StrucTexT 2.0 解決了訓練數據匱乏和傳統OCR+NLP 鏈路過長導致的模型表達能力不足、優化效率偏低等問題,能夠廣泛應用于各行各業行的文檔、卡證、票據等圖像文字識別和結構化理解。VIMER-CAE 基于自監督圖像掩碼建模原理,創新性地提出“在隱
122、含的編碼表征空間完成掩碼預測任務”的預訓練框架,對編碼模塊和解碼模塊進行分離,通過編碼模塊對輸入的圖像塊進行特征表達,并利用隱式上下文回歸和解碼模塊對輸入圖像的掩碼塊進行特征表達恢復,在圖像掩碼建模問題上提高了預訓練模型的圖像表征能力?;?VIMER-CAE 的預訓練模型在下游各類圖像任務上取得了明顯的效果提升,其中在目標檢測、實例分割、語義分割等任務的指標上達到最優水平。圖圖 32:UFO 架構架構 數據來源:UFO:Unified Feature Optimization,中信建投證券 27 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。VIMER-CAE 預訓練任
123、務包括 4 個部分:1)Encoder;2)Latent contextual regressor;3)Decoder;4)Alignment module。Encoder 是一個 ViT 模型,負責學習圖像表征;Latent contextual regressor 通過非掩碼區域的特征去預測掩碼區域特征;Decoder 通過掩碼區域特征去預測某些性質或者恢復成原始像素的形式;Alignment module 通過特征對齊的操作,使表征學習的任務只由 Encoder 承擔。經過大數據預訓練產出的 VIMER-CAE 模型,可以作為下游應用任務的基礎模型,加持不同任務分支網絡和對應訓練數據即可
124、高效調優,常見的應用任務包括圖像分類、目標檢測、語義分割等任務。文心文心 VIMER-UFO 2.0 是面向多任務的視覺表征學習大模型。文心 VIMER-UFO 2.0 有三個特點:1)多任)多任務。務。如果有多任務,訓練數據也會增多,每個任務都有對應監督,監督信息會增多,既有數據也有監督的增多,學習表征的語義信息就會更強,文心 VIMER-UFO 2.0 覆蓋了 22 項任務,包括檢測、識別、分割等。2)大模型。)大模型。模型大了后,容量也隨之增大,能夠處理更加復雜的任務,如下圖所示,面臨 22 個任務時,文心 VIMER-UFO 2.0 的模型參數多達 170 億。3)易部署。)易部署。這
125、是區別于其他很多大模型的重要一點。訓練得到的網絡結構不僅包含大模型,還可以得到多個小模型。輕量的小模型能夠很容易地部署在設備端。百度提出的 VIMER-UFO All in One 多任務訓練方案,通過使用多個任務的數據訓練一個功能強大的通用模型,可被直接應用于處理多個任務。不僅通過跨任務的信息提升了單個任務的效果,并且免去了下游任務 fine-tuning 過程。VIMER-UFO All in One 研發模式可被廣泛應用于各類多任務 AI 系統,以智慧城市場景為例,VIMER-UFO 可以用單模型實現人臉識別、人體和車輛 ReID 等多個任務的 SOTA 效果,同時多任務模型可獲得顯著優
126、于單任務模型的效果,證明了多任務之間信息借鑒機制的有效性。圖圖 33:UFO 多任務聯合優化多任務聯合優化 數據來源:文心大模型官網,中信建投證券 VIMER-UFO 2.0 技術方案的主要內容包括:1)All in One行業最大 170 億參數視覺多任務模型,覆蓋人臉、人體、車輛、商品、食物細粒度分類等 20+CV 基礎任務,單模型 28 個公開測試集效果 SOTA;2)One for All首創針對視覺多任務的超網絡與訓練方案,支持各類任務、各類硬件的靈活部署,解決大模型參數量大,推理性能差的問題。針對大模型的開發和部署問題,VIMER-UFO 給出了 One for All 的解決方案
127、,通過引入超網絡的概念,超 28 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。網絡由眾多稀疏的子網絡構成,每個子網絡是超網絡中的一條路徑,將不同參數量、不同任務功能和不同精度的模型訓練過程變為訓練一個超網絡模型。訓練完成的 VIMER-UFO One for All 超網絡大模型即可針對不同的任務和設備低成本生成相應的可即插即用的小模型,實現 One for All Tasks 和 One for All Chips 的能力。VIMER-UFO 2.0 基于 Vision Transformer 結構設計了多任務多路徑超網絡。與谷歌 Switch Transformer
128、 以圖片為粒度選擇路徑不同,VIMER-UFO 2.0 以任務為粒度進行路徑選擇,這樣當超網絡訓練好以后,可以根據不同任務獨立抽取對應的子網絡進行部署,而不用部署整個大模型。VIMER-UFO 2.0 的超網中不同的路徑除了可以選擇不同 FFN 單元,Attention 模塊和 FFN 模塊內部也支持彈性伸縮,實現網絡的搜索空間擴展,為硬件部署提供更多可選的子網絡,并提升精度。VIMER-UFO 2.0 超網絡分為多路徑 FFN 超網和與可伸縮 Attention 超網兩部分。首先針對多路徑 FFN 超網模塊,每個任務都有兩種不同的路徑選擇,即選擇共享 FFN(FFN-shared)或者專屬
129、FFN(FFN-taskX),當選定好 FFN 以后,還可根據放縮系數彈性選擇 FFN 中參數規模;因此 FFN 超網絡中共有(T*ratio)L 種不同的 FFN 路徑,其中 T 為 task 的數量,L 為網絡的層數,ratio 為放縮系數的數量。而對于 self-attention 超網,每個子網絡可以選擇不同的 Head 數量 QKV 矩陣參數量。VIMER-UFO 2.0 訓練時將模型按層級結構劃分為任務超網和芯片超網兩個級別。并分別使用不同的訓練方案進行優化:任務超網絡訓練(One For All Tasks)時,需要同時優化網絡參數(FFN)和路由參數(Router)。前面提到,
130、網絡參數包含共享 FFN(FFN-shared)和專屬 FFN(FFN-taskX),所有任務都會更新共享 FFN 的參數,特定任務只會更新專屬的 FFN 參數。而路由參數由于離散不可導,訓練時通過 Gumbel Softmax 進行優化。由于在訓練超網的過程中多個任務的同時進行優化,同時引入了路由機制,可以讓相關的任務共享更多的參數,而不相關的任務之間盡量減少干擾,從而獲得針對不同任務最優的子網絡模型。在業務應用時,只需要根據不同子網絡在特定任務的效果,抽取出對應的任務子網,即可直接部署,無需重復訓練。圖圖 34:網絡稀疏化(網絡稀疏化(Path Routing)數據來源:文心大模型官網,中
131、信建投證券 在任務超網訓練完成以后,針對每個任務抽取的子網絡進行芯片子網絡的訓練。經過上述訓練以后便得到了每個任務的芯片超網。在業務應用時,針對不同平臺存儲容量和算力不同,可以抽取不同深度和寬度的子網絡進行部署,進一步壓縮模型的參數和計算量。由于超網絡中子網絡的數據眾多,每個子網逐一測試精度和延 29 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。時并不現實,因此在 VIMER-UFO 2.0 中,使用了 GP-NAS 中的基于高斯過程的超參數超參估計技術,只需采樣超網絡中少了子網絡進行評估,即可準確預測出其他網絡的精度和速度。圖圖 35:多規模網絡學習(多規模網絡學習(
132、Stochastic Architecture Slimming)數據來源:文心大模型官網,中信建投證券 VIMER-UFO 2.0 單個模型一套參數,在不進行下游 fine-tuning 的情況下,在 28 個主流的 CV 公開數據集上取得了 SOTA 的結果。同時,盡管 VIMER-UFO 2.0 大模型參數量達到了 170 億,得益于 Task-MoE 稀疏結構,每個任務推理時只需激活部分參數,計算量相當于 6 億參數模型規模,加速比接近 30 倍。圖圖 36:VIMER-UFO 2.0 單模型單模型 28 個公開測試集個公開測試集 SOTA 數據來源:文心大模型官網,中信建投證券 VI
133、MER-StrucTexT 2.0 是端到端文檔 OCR 表征學習預訓練模型,首次創新性地提出“單模態圖像輸入、多模態表征學習”預訓練框架,僅通過單一文檔圖像的輸入,就能讓模型充分捕獲語義和結構信息。經過大規模文檔圖像數據充分學習后的預訓練模型,顯著提高文檔理解全景應用任務效果,包括文檔圖像分類、文檔版式分析、表格結構解析、文檔 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同時解決了訓練數據匱乏和傳統 OCR+NLP 鏈路過長導致的模型表達能力不足、優化效率偏低等問題,能夠廣泛應用于各行各業行文檔、卡證、票據等圖像文字識別和結構化理解。30 海外行業深度報告 互聯網互聯網
134、 請務必閱讀正文之后的免責條款和聲明。圖圖 37:VIMER-StrucTexT 2.0 文檔圖像表征學習文檔圖像表征學習 數據來源:文心大模型官網,中信建投證券 VIMER-StrucTexT 2.0 預訓練環節采用的是 CV&NLP 前沿的 Mask-Predict 機制。預訓練流程包括四個環節:1)基于網絡公開數據抓取超 1 億張文檔圖像數據,采用百度高精 OCR 服務進行文字檢測和識別,保留高置信度文字內容(包括文字位置信息和文本識別內容);2)將文檔圖像進行隨機文本區域遮罩,并輸入給 Encoder(如 CNN 和 Transformer 結合結構)進行特征高效編碼;3)利用文字位置
135、信息對遮蓋的文本區域特征進行提取,得到每個文本區域的表征信息;4)最后將表征信息分別輸入給兩個任務分支圖像重建(采用圖像生成模型設計方式,還原被遮罩的文本區域圖像)和文本推理(利用文本區域表征信息直接做判決,推理出被遮罩的文本內容),通過大數據的加持能夠讓 Encoder 充分學習多模態知識。經過大數據預訓練產出的 VIMER-StrucTexT 2.0 模型,可以作為下游應用任務的基礎模型,加持不同任務分支網絡和對應訓練數據即可高效調優,常見的文檔理解應用任務包括文檔圖像分類、文檔版式分析、表格結構解析、文檔 OCR 和端到端信息抽取等。VIMER-StrucTexT 2.0 的典型應用場景
136、有泛卡證票據信息抽取應用,可廣泛適用于身份認證、金融開戶、征信評估、商戶入駐等業務場景,性能相較 VIMER-StrucTexT 1.0 提升 30%以上。政務辦公文檔還原應用,對辦公場景的各類文檔進行結構化識別,如企業年報、論文、行業報告等,方便對文檔類圖片進行結構化分析,版式分析和表格結構化解析等能力最大錯誤率下降達 50%。VIMER-UMS(Unified Multi-Source Pre-training for Product),是百度基于海量的互聯網商品圖文信息提出的多源信息統一建模的商品圖文表征預訓練模型,也是行業首個統一視覺單模態與多源圖文模態表征的商品多模態預訓練模型。針對
137、圖文多模態建模中模態信息殘缺問題,通過構建視覺特征與多源圖文對比的多任務學習框架,實現統一圖文表征預訓練同時覆蓋商品視覺單模態、多模態識別與檢索任務,可以顯著改善商品視覺檢索和商品多模態檢索體驗。31 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 38:商品搜索商品搜索中多模態信息存在信息缺失問題中多模態信息存在信息缺失問題 數據來源:文心大模型官網,中信建投證券 VIMER-UMS 基于端到端 Transformer 訓練方式,通過視覺編碼、文本編碼、融合編碼、搜索查詢編碼,提供多源商品信息的統一表達結構。由于現有主流多模態預訓練方法依靠語言作為弱監督關聯信號,視
138、覺表征能力存在退化現象。為了解決該問題,VIMER-UMS 通過建立視覺與多源圖文對比多任務預訓練,實現視覺特征、圖文特征的統一增強表征。圖圖 39:商品搜索商品搜索中多模態信息存在信息缺失問題中多模態信息存在信息缺失問題 數據來源:文心大模型官網,中信建投證券 針對實際業務應用,基于 VIMER-UMS 商品圖文表征預訓練模型,使用少量標注或無標注數據,高效實現下游商品視覺檢索、細粒度識別、多模態搜索能力?;?VIMER-UMS 商品圖文表征預訓練模型,實現多 32 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。個商品下游視覺檢索、跨模態檢索任務 SOTA 效果,支持
139、直接部署落地與預訓練微調應用。VIMER-UMS 商品圖文表征預訓練,可以在實際拍照商品識別、多模態商品識別、商品廣告識別與零售線下數字化等多個業務場景中應用,解決單模態、多模態下游任務多樣難題,緩解線下零售商品識別定制優化低效的行業痛點問題。圖圖 40:基于基于 VIMER-UMS 的多模態的多模態商品商品搜索搜索 數據來源:文心大模型官網,中信建投證券 2.1.3 文心跨模態大模型文心跨模態大模型 文心跨模態大模型基于知識增強的跨模態語義理解關鍵技術,可實現跨模態檢索、圖文生成、圖片文檔的信息抽取等應用的快速搭建,落實產業智能化轉型的 AI 助力。ERNIE-ViL 是業界首個融合場景圖知
140、識的多模態預訓練模型。ERNIE-ViL 將場景圖知識融入到視覺-語言模型的預訓練過程,學習場景語義的聯合表示,顯著增強了跨模態的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等 5 項典型多模態任務中刷新了世界最好效果。并在多模態領域權威榜單視覺常識推理任務(VCR)上登頂榜首?;谖谋局薪馕龀龅膱鼍皥D,ERNIE-ViL 提出了三個多模態場景圖預測任務:物體預測,隨機選取圖中的一部分物體,然后對其在句子中對應的詞進行掩碼和預測;屬性預測,對于場景圖中的屬性-物體組合,隨機選取一部分詞對其中屬性詞進行掩碼和預測;關系預測,對于
141、場景圖中的物體-關系-物體三元組,對其中的關系詞進行掩碼和預測。33 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 41:ERNIE-ViL 架構圖架構圖 數據來源:文心大模型官網,中信建投證券 ERNIE-ViL 在場景圖里加入知識,通過它的文字信息去構建場景圖,使得模型能夠理解圖中細粒度的語義。舉例而言,下圖中有 6 個人,但只有 5 個人運動員,因為其中一個是裁判,模型要能依據運動場景進行判斷,才能給出正確答案。圖圖 42:ERNIE-ViL 融合場景進行判斷融合場景進行判斷 數據來源:文心大模型官網,中信建投證券 文心文心 ERNIE-ViLG 2.0 采用
142、基于知識增強算法的混合降噪專家建模,是全球首個知識增強的 AI 作畫大模型,也是目前全球參數規模最大的 AI 作畫大模型,在文本生成圖像公開權威評測集 MS-COCO 和人工盲評上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了當前該領域的世界最好效果,并在語義可控性、圖像清晰度、中國文化理解等方面展現出了顯著優勢。文心 ERNIE-ViLG 2.0 通過視覺、語言等多源知識指引擴散模型學習,強化文圖生成擴散模型對于語義的精確理解,以提升生成圖像的可控性和語義一致性。同時,ERNIE-ViLG 2.0 首次引入基于時間步的混合降噪專 34 海外行業深度報告 互聯網互
143、聯網 請務必閱讀正文之后的免責條款和聲明。家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網絡,從而實現更加細致的降噪任務建模,提升生成圖像的質量。圖圖 43:文心文心 ERNIE-ViLG 2.0 架構圖架構圖 數據來源:文心大模型官網,中信建投證券 文心 ERNIE-ViLG 2.0 可應用于工業設計、動漫設計、游戲制作、攝影藝術等場景,激發設計者創作靈感,提升內容生產的效率。通過簡單的描述,模型便可以在短短幾十秒內得到圖像,極大地提升了設計效率、降低商業出圖的門檻。圖圖 44:文心文心 ERNIE-ViLG 2.0 生成圖示例生成圖示例 圖圖 45:文心文心 ERN
144、IE-ViLG 2.0 應用場景應用場景 數據來源:文心大模型,中信建投證券 數據來源:文心大模型,中信建投證券 2.2 算力 百度早在 2011 年就開始布局 AI 芯片領域,并逐步建立 AI 技術的全棧布局,拓展了全面的 AI 應用場景。同時,擁有數億用戶規模的產品百度搜索,以及服務各個行業的百度智能云等。同時,百度依托昆侖芯科技前身為百度智能芯片及架構部,昆侖芯是百度自主研發的云端通用 AI 芯片,目前,昆侖芯 1、2 代已實現量產,并達到數萬片規模部署。昆侖芯 3 代將于 2024 年初量產。依托深厚技術沉淀,昆侖芯科技核心團隊于 2017 年發布 100%自研、面向通用 AI 計算的
145、芯片核心架構昆侖芯 XPU,并從 AI 落地的實際需求出發,按照復雜前沿 35 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。的人工智能場景需求來迭代架構。2018 年至今,昆侖芯云端 AI 芯片已經迭代兩代,并實現數萬片的規模落地。其中,昆侖芯 1 代已經在百度搜索引擎、小度等業務中部署超過兩萬片,昆侖芯 2 代也于 2021 年 8 月實現量產,并已在互聯網、智慧工業、智慧城市、智算中心、智慧交通、科研等領域實現規?;渴?,服務來自千行百業的不同客戶。圖圖 46:昆侖芯發展歷程昆侖芯發展歷程 數據來源:昆侖芯官網,中信建投證券 昆侖芯目前有 2 個系列的產品,分別是昆
146、侖芯 1 代芯片 K 系列 和昆侖芯 2 代芯片 R 系列。昆侖芯 1 代芯片采用 XPU-K 架構,制程為 14nm 工藝,256 TOPSINT8,64 TFLOPSFP16,主要應用于云數據中心和智能邊緣,支持全 AI 算法。昆侖芯 2 代芯片采用新一代昆侖芯 XPU-R 架構,通用性和性能顯著提升,算力方面:256 TOPSINT8,128 TFLOPSFP16,制程采用 7nm 先進工藝,GDDR6 高性能顯存,支持虛擬化,芯片間互聯和視頻編解碼。圖圖 47:昆侖芯產品迭代昆侖芯產品迭代 數據來源:機器之心,中信建投證券 針對大模型,昆侖芯持續打磨部署優化方案,領跑產業落地。昆侖芯已
147、將大模型的 Transformer 相關優化技術沉淀為重要基建,優化后的性能比原有方案提升 5 倍以上,壓縮顯存 30%以上。以文生圖大模型為例,昆侖芯已跑通一條端到端優化、規模落地之路。AI 繪畫模型的推理算力及顯存需求隨圖像分辨率增大而指數級增加,同時,圖像生成需要循環采樣數十次,產業落地動輒需要高昂成本的部署集群,嚴重阻礙了 AIGC 模型大規模商業化落地。2022 年第四季度,昆侖芯聯合客戶,基于飛槳 PaddlePaddle 發起了端到端聯合優化項目。在 2-3 周內,項目組快速完成端到端優化,最終實現輸入文本后 2 秒出圖的優化效果,性能提升近 8 倍。目前,昆侖芯 AI 加速卡
148、R200 已在該客戶的大模型場景完成規模部署,性能數據全面超越同系列主流推理卡,基于昆侖芯 AI 加速卡 R200 高效運算與推理能力,綜合優化方案,在 dpm-25steps 算法下,利用昆侖芯 AI 加速卡 R200,生成 1024*1024 圖像時的推理速度為 10.89 iters/s,相比同能力的主流推理卡快 20%;昆侖芯 AI 加速卡 R200 擁有 32G GDDR6 顯存,為大規模參數提供更大的存儲容量、更高帶寬的內存訪問、201120112015201520172017201820182020202020212021啟動FPGAAI加速器FPGA部署超過5KFPGA部署超過
149、12K業界最大昆侖芯啟動昆侖芯第一代大規模部署昆侖芯第二代量產 36 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。更穩定的性能,生成更高分辨率的圖片,為用戶提供高性價比服務。與此同時,面向當前市場需求迫切的大模型場景,據悉昆侖芯科技即將推出一款加速器組解決方案。該加速器組搭載第二代昆侖芯 AI 芯片,是 AI 基礎設施的重要組成部分,為 AI IAAS 平臺、AI PAAS 平臺提供堅實算力支撐。該產品可提供更為集約的 AI 算力,具備分布式集群部署能力,支持彈性 RDMA 網絡,對比傳統網絡通信時延降低 23 倍。該產品可明顯提高并行加速比,訓推一體化助力提高資源利用
150、率,極大提升模型開發迭代效率。昆侖芯科技實現了硬件與軟件的雙重聯動,目前昆侖芯已實現對飛槳的原生適配,并完成了 III 級兼容性測試,訓練與推理性能可以滿足用戶的應用需求。從底層 AI 算力組件、AI 服務器,到操作系統,再到昆侖芯 SDK,昆侖芯和飛槳攜手完成了一套端到端的 AI 計算系統解決方案,并致力于打造一個全棧式軟硬一體的 AI 生態。為進一步完善軟件生態,昆侖芯已與多款通用處理器、操作系統、主流框架完成端到端適配,實現了軟硬件解決方案的技術棧,為客戶提供開箱即用的 AI 芯片產品。2.3 平臺 百度飛槳是我國首個自主研發的產業級深度學習開源開放平臺,飛槳在平臺功能上具備豐富的產業級
151、模型庫、端到端開發套件、工具組件,以及零門檻 AI 開發平臺 EasyDL 和全功能 AI 開發平臺 BML、學習與實訓社區 AI Studio,高效支持深度學習模型開發、訓練、部署等全流程,降低 AI 技術應用門檻;在生態上,飛槳推動構建了全方位的生態體系,包括開發者生態、教育生態、企業生態、硬件生態,通過生態共享共創加速產學研用協同創新發展。圖圖 48:飛槳平臺全景圖飛槳平臺全景圖 數據來源:飛槳官方公眾號,中信建投證券 百度飛槳平臺具備開發便捷、動靜結合部署等多重優勢,未來有望吸引更多開發者及 企事業單位及科研院所加入,共同推動國內 AI 大模型的研發和應用。飛槳平臺在框架易用性、訓練技
152、術、推理引擎和模型庫四大方面均具備顯著優勢,可供開發者快速便捷地進行 AI 開發。37 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 49:飛槳四大領先技術飛槳四大領先技術 數據來源:飛槳官方公眾號,中信建投證券 飛槳官方精選產業算法新增 100 多個,累計超過 600 個,覆蓋計算機視覺(PaddleCV)、自然語言處理(PaddleNLP)、推薦(PaddleRec)、語音(PaddleSpeech)四大應用領域,超過 95%的用戶使用模型庫。包含經過產業實踐長期打磨的主流模型,42 個精度與性能平衡的產業級 PP 系列特色模型,以及文心系列大模型。圖圖 50:
153、飛槳主流模型概覽飛槳主流模型概覽 數據來源:飛槳官方公眾號,中信建投證券 飛槳硬件生態持續繁榮,包括 Intel、NVIDIA、Arm 等諸多芯片廠商紛紛開展對飛槳的支持,并主動在開源社區為飛槳貢獻代碼。飛槳還與飛騰、海光、鯤鵬、龍芯、申威等 CPU 進行深入融合適配,并結合麒麟、統信、普華操作系統,以及昆侖芯、海光、寒武紀、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度融合,與浪潮、中科曙光等服務器廠商合作形成軟硬一體的全棧 AI 基礎設施。當前已經適配飛槳的芯片或 IP廠商超過 40 家,處于業界領先地位。2022 年 5 月,飛槳聯合硬件生態伙伴發布“硬件
154、生態共創計劃”,在聯合研發、資源共享、聯合授權、培訓賦能等多個維度全面合作。2022 年 11 月,飛槳“硬件生態共創計劃”成員已經從 13 家增加至 28 家。開發便捷開發便捷的深度學習框架業內首個動靜統一的框架業內首個動靜統一的框架動態圖編程調試轉靜態圖預測部署動態圖編程調試轉靜態圖預測部署超大規模深度學習模型訓練訓練技術業內首個通用異構參數服務器架構業內首個通用異構參數服務器架構端到端自適應分布式訓練框架端到端自適應分布式訓練框架多端多平臺部署部署的高性能推理引擎即訓即用即訓即用支持端邊云多硬件和多操作系統支持端邊云多硬件和多操作系統產業級開源模型庫模型庫算法總數超過算法總數超過6006
155、00個個包含領先的預訓練模型包含領先的預訓練模型 38 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 51:飛槳硬件生態飛槳硬件生態 數據來源:飛槳官方公眾號,中信建投證券 飛槳打造了豐富的產業實踐范例庫以及模型庫一站式入口。截至 2022 年 11 月,飛槳聯合企業合作伙伴共同打造了飛槳產業實踐范例庫 68 個,覆蓋工業、能源、金融、交通等重點行業。飛槳聚焦產業真實業務場景,通過完整的代碼實現,提供從數據準備到模型部署的方案過程解析。圖圖 52:飛槳產業實踐范例庫飛槳產業實踐范例庫 數據來源:飛槳官方公眾號,中信建投證券 根據信通院發布的 深度學習平臺發展報告(2
156、022 年),百度飛槳在社區生態構建上持續發力、優勢漸顯,在平臺服務規模和技術應用能力方面更已具備領先優勢,超越 TensorFlow 和 PyTorch 躍居成為我國市場應用規模第一的深度學習框架和賦能平臺。同時,以飛槳為代表的開發框架在近一年半中的項目貢獻人數(Contributors)規格適配硬件深度學習推理芯片/IP廠商CPUIntel龍芯申威飛騰華為海光兆芯深度學習訓練芯片數據中心NVIDA昆侖芯海光華為Graphcore寒武紀天數智芯壁仞科技數據中心NVIDA昆侖芯寒武紀華為算能登臨摩爾線程移動/邊緣計算Arm高通華為蘋果Imagination芯原NVIDA瑞芯微聯發科紫光展銳晶晨
157、Ambarella算能FPGA邊緣計算IntelAMD-Xillinx 提供以下芯片適配能力的飛槳產品包括但不限于飛槳開源平臺、企業版等 圖標中各欄所列品牌僅代表且適用于已完成飛槳驗證的特定硬件型號 39 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。增速為 TensorFlow、PyTorch 的 5.2 倍、1.6 倍,關注度(Star)增速為 3.8 倍、1.3 倍。飛槳、昇思等不斷加大生態構建力度支持,生態規??焖僭鲩L,其中飛槳在活躍度(Fork)、關注度(Star)、貢獻人數(Contributors)指標上均位于榜首,超過其余國產框架總和,呈現較高活躍度和關注
158、度。整體來看,目前飛槳社區生態僅次于PyTorch,位居國內市場次席。根據 IDC 發布中國深度學習框架和平臺市場份額,2022H2顯示,百度穩居中國深度學習平臺市場綜合份額第一,領先優勢進一步擴大。中國深度學習開源框架市場形成三強格局,框架市場前三份額超過 80%。圖圖 53:飛槳飛槳位列位列中國深度學習市場應用規模第一中國深度學習市場應用規模第一 圖圖 54:飛槳在各指標位列榜首飛槳在各指標位列榜首 數據來源:信通院,中信建投證券 數據來源:信通院,中信建投證券 飛槳平臺服務規??焖贊B透,技術能力創新卓著。截至 2022 年 11 月,飛槳已凝聚國內規模最大的開發者群體(535 萬)、服務
159、 20 萬企事業單位,基于飛槳平臺創造出 67 萬個 AI 模型,超越 TensorFlow 和 PyTorch 成為國內服務規模最為廣泛的框架工具,不斷夯實 AI 工業大生產的基礎,有力推動了我國實體經濟的高質量發展。百度飛槳從 2016 年經歷多年積累、沉淀、探索后,創新成果已經逐步涌現。飛槳 PaddleClas、PaddleDetection、PaddleGAN、PaddleOCR、PaddleSpeech 等開發套件發布后多次登頂 Papers with Code 和 Github 趨勢榜單,引起業界高度關注。此外,針對國內市場需求特點,飛槳提供了大量經過真實應用場景有效驗證的高精度
160、、便捷部署的官方模型庫,相關算法及 API 更加強調對中文情境的支持優化,能夠廣泛支持國產硬件平臺,技術能力優勢逐步凸顯,相較于 TensorFlow 和 PyTorch 成為更滿足國內技術應用需求的開發框架。2.4 應用 百度文心大模型積極拓展內外部應用,目前面向公眾和企業用戶同時進行開放測試。內部應用層面,內部應用層面,文心大模型已經率先應用于百度搜索、信息流、智能駕駛、百度地圖、小度智能屏等內部重要產品上。百度在 5 月 25 日的移動生態大會上展示了全新的 AI 搜索體系。1)極致滿足:極致滿足:搜索結果不再是簡單的文本段落,而是多模態的,包括相關的圖片和視頻,省去了用戶的瀏覽和總結時
161、間。對于那些相對簡單但沒有現成答案的問題,AI 可以展示邏輯推理和計算能力,直接給出可用的結果。對于開放的多答案問題,百度AI 搜索可以整合多個符合要求的答案,并列出引用和選擇依據,滿足用戶需求。此外,搜索引擎還能自動定位到視頻中相關內容的位置,方便用戶查看。根據介紹,現在百度搜索每天有 70%的問答需求能在首條搜索結果中得到滿足,這一比例在半年前只有 40%,這種改進進一步提升了需求,現在每天有超過 3000 萬次的新增問答需求。2)AI 伙伴:伙伴:除了提供豐富準確的搜索結果,百度還提出了全能的AI 伙伴,使人們能夠以最直接的方式獲取人工智能的能力。通過 AI 伙伴,人們可以使用自然語言或
162、語音作為輸入,獲得準確詳細的搜索結果。AI 伙伴不僅會在生成答案時標出重點并列出引用鏈接,還能調用其他工具和服務完成任務,并接受進一步追問或指正。AI 伙伴還可以根據用戶意圖生成圖片、進行文案寫作,在不同任務中扮演具體的角色,如旅行時可以 40 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。充當導游,寫作業時可以充當老師。3)AIBOT:以往人們對搜索引擎結果的準確性有所顧慮,因為無論 AI 算法有多準確,始終只是概率統計的結果,并不能代表專家意見。為解決這個問題,百度推出了全新的 AIBOT。類似于 ChatGPT 的插件,AIBOT 通過與第三方技術提供商的合作,使搜
163、索可以自動接入特定能力。目前亮相的AIBOT 覆蓋了創作、商業、機構、服務和品牌等多個領域,它們可以利用專業領域知識直接回答用戶的問題。圖圖 55:百度全新百度全新 AI 搜索體系搜索體系 數據來源:機器之心,中信建投證券 外部應用層面,文心大模型在金融、能源、制造、城市、傳媒、互聯網等行業有標桿應用案例。目前百度文心在能源、金融、航天、制造、傳媒、城市、社科以及影視等領域與國網、浦發、吉利、TCL、人民網、哈爾濱、上海辭書出版社等均有案例應用的行業大模型。這些行業大模型作為重要 AI 底座,在各行業的技術效果突破、產品創新、生產流程變革、降本增效等維度產生價值。例如,百度與國網合作的 NLP
164、 大模型,共同打造行業級人工智能基礎設施,探索研發電力人工智能聯合大模型,不僅提升了傳統電力專用模型的精度,而且大幅降低了研發門檻,實現了算力、數據、技術等資源的統籌優化。百度與人民網的合作的 NLP 大模型,引入輿情數據中心積淀的行業知識來更好訓練知識增強的傳媒行業大模型,實現更少的標注數據下大幅提升傳媒行業自然語言處理任務效果,如新聞內容審核分類、輿情分析、摘要生成等行業任務相對于通用模型提升顯著。百度與 TCL 合作的 CV 大模型,面向多個產線多個環節的工業質檢提供 AI 基座能力,在 TCL 幾個產線檢測 mAP指標平均提升 10%+,訓練樣本減少到原有訓練樣本 30%40%,產線指
165、標即可達到原有產線效果,新產線冷啟動效率可提升 3 倍,產線上線開發周期降低 30%。41 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 56:百度文心行業大模型全景百度文心行業大模型全景 數據來源:文心大模型官網,中信建投證券 百度文心圍繞大模型產業應用的不同研發環節,面向各階段不同技術、業務背景的開發者或用戶,打造系列工具平臺與場景化產品。大模型套件:大模型套件:百度文心推出新一代預訓練范式的 NLP 算法定制開發工具集 ERNIEKit,面向 NLP 工程師,提供全流程大模型開發與部署工具集,端到端、全方位發揮大模型效能。包括數據標注與處理、大模型精調、大模型
166、壓縮、高性能部署、場景化工具五大模塊能力;AI開發平臺:開發平臺:百度AI 開發以雙平臺模式驅動,面向應用開發者或業務專家提供零門檻 AI開放平臺EasyDL,面向 AI 算法開發者提供全功能 AI 開發平臺 BML。EasyDL 使用百度文心 NLP、CV、跨模態大模型作為訓練基座,利用少量數據即可獲得理想的模型效果,具有零門檻、高精度、低成本數據、超靈活部署四大核心優勢。BML 深度融合文心大模型,提供 Notebook 建模、預置模型調參、可視化建模、模型產線建模、Pipeline 建模、實驗管理等功能,兼具性能和性價比;大模型大模型 API:文心開放了 NLP 大模型 ERNIE3.0
167、、跨模態大模型 ERNIE-ViLG、對話大模型 PLATO。ERNIE3.0提供文案改寫、開放問答、摘要、文案創作、小說創作、文本補全等文本理解與創作能力。ERNIE-ViLG 提供基于文本描述的 AI 作畫能力,圖文相關性強、圖片質量高,在中國文化理解、中國風、二次元等方面表現優異。PLATO 提供生成式開放域對話服務,邏輯清晰、知識多元、情感豐富,閑聊能力接近真人水平。42 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 57:文心大模型產品矩陣文心大模型產品矩陣 數據來源:IDC,中信建投證券 3、騰訊騰訊 騰訊構建了“太極機器學習平臺+混元大模型”,同時騰訊
168、啟動了“混元助手”知識增強大語言模型項目。2016 年,騰訊成立了 AI Lab 實驗室。2022 年 4 月,騰訊對外披露了混元大模型,涉及自然語言處理、計算機視覺、多模態等多個領域。騰訊自研的太極機器學習平臺為混元大模型提供算力,可支持 10TB 級模型訓練、TB 級模型推理計算能力等。騰訊 AI Lab 是騰訊的企業級 AI 實驗室,于 2016 年 4 月在深圳成立,目前有 100 多位頂尖研究科學家及 300多位應用工程師。2017 年公司提出了“Make AI Everywhere”的戰略愿景,和“基礎研究場景共建能力開放”的三層 AI 戰略架構。作為衡量機構研究實力的重要標準,成
169、立四年多來,騰訊 AI Lab 的基礎研究成果已覆蓋 CVPR、ACL、ICML、NIPS 及 Nature Communications 等國際頂級 AI 學術會議或期刊,發表論文超過 460篇,位居國內企業前列。截止 2020 年 3 月,騰訊擁有 AI 全球專利超過 6500 個,中國專利超過 5000 個。3.1 模型 2022 年 4 月,騰訊首次披露了混元 AI 大模型研發進展,先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具權威的跨模態視頻檢索數據集榜單中取得第一名,實現跨模態檢索領域的大滿貫。當月,騰訊混元 AI 大模型又在中文語
170、言理解評測基準 CLUE 分類榜中取得第一名,分數突破了 80.000 分,接近人類語言理解能力,刷新該榜單歷史記錄。這是混元 AI 大模型在斬獲跨模態檢索榜單大滿貫后,取得的又一突破性進展,展現了該模型在自然語言處理上的實力。2022 年 5 月,騰訊混元 AI 大模型在 CLUE 總排行榜、閱讀理解、大規模知識圖譜三個榜單同時登頂,一舉打破三項紀錄。據了解,CLUE 總榜由分類任務和閱讀理解任務構成。騰訊混元 AI 大模型在一個月內先 源碼級的NLP開發工具集 面向專業的NLP算法工程師 百度內部的主流NLP開發工具文心大模型文心大模型ERNIEERNIE開發套件開發套件ERNIEKitE
171、RNIEKitNLP算法定制開發工具集 一站式NLP大模型調用平臺 面向初級開發者或業務專家 界面試用與接口調用兩種模式服務平臺服務平臺ERNIEERNIE-APIAPI大模型API服務 一站式NLP模型定制平臺 面向有一定算法基礎的開發者 功能完善全面,支持靈活調參開發平臺開發平臺BMLBML-智能文本智能文本全功能AI開發平臺 一站式NLP模型定制平臺 面向初級開發者或業務專家 零代碼,全流程可視化操作EasyDLEasyDL-文本文本零門檻AI開發平臺 高可用、云原生,可一鍵部署 三步完成搜索引擎構建 系統搭建人力成本節省90%產品產品文心百中文心百中大規模驅動產業級搜索系統 強大的文生
172、圖、二次編輯能力 高質量、多風格、多尺寸 恢弘藝術性、深入的中國文化理解、領先的中國風畫作文心一格文心一格AI藝術與創意輔助平臺 43 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。后實現分類任務、閱讀理解雙佳績,最終以 84.730 的成績取得總榜第一。之后混元 AI 大模型又在多模態理解領域國際權威榜單 VCR(Visual Commonsense Reasoning,視覺常識推理)中登頂,兩個單項成績和總成績均位列第一。這是繼在跨模態檢索領域實現大滿貫、CLUE 自然語言理解分類榜及 CLUE 總榜登頂后,混元 AI 大模型的又一重大突破,展現了其在多模態理解領域的
173、強大實力。2022 年 12 月,騰訊混元又迎來全新進展,推出國內首個低成本、可落地的萬億 NLP 大模型,并再次登頂 CLUE。目前,混元 AI 大模型已經廣泛應用于騰訊微信搜索、騰訊廣告等業務場景,提升了搜索體驗和廣告推薦精準度。隨著研究的進一步完善和業務實踐的不斷深入,未來將賦能更多業務場景,幫助精準理解用戶需求,更好地服務用戶。騰訊混元 AI 大模型的跨模態、多模態能力也成為了開發類 ChatGPT 混元助手的重要基礎。騰訊針對類 ChatGPT 對話式產品已成立“混元助手(HunyuanAide)”項目組,該項目組 Owner 為張正友,PM 分別為俞棟、王迪、劉田,目前該項目有至少
174、 7 位組長、7 位 Sponsor。該項目組將聯合騰訊內部多方團隊構建大參數語言模型,目標是“通過性能穩定的強化學習算法訓練,完善騰訊智能助手工具,打造騰訊智能大助手。此外,騰訊內部正在積極調動資源支持 AI 領域發展,例如騰訊 XR(擴展現實)團隊全線解散,相關資源轉入 AI 項目中。同時,騰訊高級 AI 人才積累深厚,僅在混元大模型領域,2022 年就發布近 10 篇頂會論文。這為騰訊未來 AI 研發團隊的快速擴充和 AI 領域的發展奠定了堅實的基礎。2023 年 2 月 27 日,騰訊針對類ChatGPT 對話式產品已成立“混元助手(HunyuanAide)”項目組。HunYuan 協
175、同了騰訊預訓練研發力量,旨在打造業界領先的 AI 預訓練大模型和解決方案(如下圖),以統一的平臺,實現技術復用和業務降本,支持更多的場景和應用。當前 HunYuan 完整覆蓋 NLP 大模型、CV 大模型、多模態大模型、文生圖大模型及眾多行業/領域任務模型?;煸獔F隊集合騰訊計算集群、超算網絡、機器學習平臺的技術實力,并在 MoE 模型結構、熱啟動和課程學習、注意力權重復制、詞向量路由機制等方面研究優化,大幅降低萬億大模型的訓練成本,彰顯全套技術體系的實力。圖圖 58:騰訊混元騰訊混元 AI 大模型架構大模型架構 數據來源:量子位,中信建投證券 44 海外行業深度報告 互聯網互聯網 請務必閱讀正
176、文之后的免責條款和聲明。3.2 算力 騰訊發布大模型算力集群 HCC 大幅提速模型訓練。大模型進入萬億參數時代,單體服務器提供的算力有限,需要將大量服務器相連,協同優化單機算力、網絡架構和存儲性能,打造大規模、分布式的高性能計算集群。以新一代集群為標志,基于自研芯片、星星海自研服務器和分布式云操作系統遨馳,騰訊云正通過軟硬一體的方式,打造面向 AIGC 的高性能智算網絡,持續加速全社會云上創新。2023 年 4 月 14 日,騰訊云發布新一代 HCC 高性能計算集群,其采用最新一代星星海自研服務器,搭載NVIDIA H800 Tensor Core GPU,并基于自研網絡、存儲架構,帶來 3.
177、2T 超高互聯帶寬 TB 級吞吐能力和千萬級 IOPS。實測結果顯示新一代集群算力性能較前代提升 3 倍。2022 年 10 月,騰訊完成首個萬億參數的 AI 大模型混元 NLP 大模型訓練。在同等數據集下,將訓練時間由 50 天縮短到 11 天。如果基于新一代集群,訓練時間將進一步縮短至 4 天。服務器單機性能是集群算力的基礎,新一代集群的單 GPU 卡在不同精度下,支持輸出最高 1979 TFlops 的算力。針對大模型場景,星星海自研服務器采用 6U 超高密度設計,相較行業可支持的上架密度提高 30%;利用并行計算理念,通過 CPU 和 GPU 節點的一體化設計,將單點算力性能提升至更高
178、。圖圖 59:HCC 大幅提速大模型訓練大幅提速大模型訓練 圖圖 60:星星海自研服務器星星海自研服務器 數據來源:騰訊云,中信建投證券 數據來源:騰訊云,中信建投證券 計算節點間,存在著海量的數據交互需求。隨著集群規模擴大,通信性能會直接影響訓練效率,需要實現網絡和計算節點的最大協同。騰訊自研的星脈高性能計算網絡,具備業界最高的 3.2T RDMA 通信帶寬。實測結果顯示,搭載同等數量的 GPU,3.2T 星脈網絡相較 1.6T 網絡,集群整體算力提升 20%。同時,騰訊自研的高性能集合通信庫 TCCL,融入定制設計的解決方案。相對業界開源集合通信庫,為大模型訓練優化 40%負載性能,消除多
179、個網絡原因導致的訓練中斷問題。大模型訓練中,大量計算節點會同時讀取一批數據集,需要盡可能縮短數據加載時長,避免計算節點產生等待。騰訊云自研的存儲架構,具備 TB 級吞吐能力和千萬級IOPS,支持不同場景下對存儲的需求。COS+GooseFS對象存儲方案和 CFS Turbo 高性能文件存儲方案,充分滿足大模型場景下高性能、大吞吐和海量存儲要求。45 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 61:網絡集群算力網絡集群算力 圖圖 62:HCC 存儲架構存儲架構 數據來源:騰訊云,中信建投證券 數據來源:騰訊云,中信建投證券 此外,新一代集群集成了騰訊云自研的 TA
180、CO 訓練加速引擎,對網絡協議、通信策略、AI 框架、模型編譯進行大量系統級優化,大幅節約訓練調優和算力成本。騰訊太極機器學習平臺自研的訓練框架 AngelPTM,也已通過騰訊云 TACO 提供服務,幫助企業加速大模型落地。依托分布式云原生的治理能力,騰訊云智算平臺提供 16 EFLOPS 的浮點算力,規模業界領先。通過騰訊云的大模型能力和工具箱,企業可結合產業場景數據進行精調訓練,提升生產效率、快速創建和部署 AI 應用。3.3 平臺 騰訊自研搭建了業界一流的太極機器學習平臺,致力于讓用戶更加聚焦業務 AI 問題解決和應用,一站式的解決算法工程師在 AI 應用過程中特征處理,模型訓練,模型服
181、務等工程問題。結合對用戶的習慣理解和功能沉淀,太極在產品層提供數據/特征工程,模型訓練,模型服務三塊。閉環了用戶離線訓練到在線服務的應用,包含了不同場景下的數據訪問訴求,不同訓練模型的訴求,在線服務可靠性的訴求。算法框架&組件層提供了機器學習、深度學習核心組件??芍С?10TB 級模型訓練、TB 級模型推理和分鐘級模型發布上線,擴展集群規模則可支持更大的模型訓練和推理,為實際業務提供大模型的情況下,同時具有很高的性能,達到行業領先水平。太極機器學習平臺采用了分布式參數服務器架構,其是業界第一梯隊企業們公認的最佳選擇。這種架構的特點是,存儲模型參數和執行模型計算,這兩種任務在分別的服務器上運行,
182、增加更多服務器就可以支持更大、計算需求更高的模型。太極機器學習平臺中的參數服務器系統 AngelPS 也是騰訊自研的成果,現在不僅可以承載 10TB 級模型的訓練,對多維特征融合、復雜模型結構等更高級、更前瞻性的功能也有優秀支持。同時太極機器學習平臺還具備超大模型在線推理服務的能力。推理計算方面,不僅支持常規的 CPU 計算,還支持復雜模型的 GPU 計算加速;存儲上,根據在線推理模型大小,自適應選擇小模型本地內存加載和大模型 AngelPS 遠程查詢的部署策略;在線服務運營上,平臺具備多級容災能力,臟模型秒級回滾能力,以及完備的系統和業務運行實時指標監控和報警系統。2015 年,太極機器學習
183、平臺 1.0 誕生,是騰訊首個涵蓋“數據導入-特征工程-模型訓練在線服務“全流程的一站式機器學習平臺。2018 年,太極平臺深度學習訓練加速上線,提供簡潔的任務化體驗,聚焦訓練及訓練加速。2019 年,太極平臺聯合騰訊云,打造了三環境(內網/公有云/私有云)統一的“TI-ONE 機器學習平臺”,將機器學習平臺能力輸出給公網和私有云用戶,太極平臺服務騰訊內部業務。2020 年,基于 5 年多技術積累,內部共建,太極平臺機器學習研發能力再度升級為統一的云原生架構,平臺服務騰訊廣告、游戲、信安、金融等多個核心 AI 業務場景。2022 年,為了解決“廣告模型迭代流程研發效率”問題,太極廣告一站式平臺
184、上線,46 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。目標將廣告模型迭代業務流程通過“上太極”產品化,為廣告業務提供端到端的一站式模型研發體驗。圖圖 63:太極機器學習平臺架構太極機器學習平臺架構 數據來源:騰訊AI實驗室,中信建投證券 太極 AngelPTM 的設計目標是依托太極機器學習平臺,為 NLP、CV 和多模態、AICG 等多類預訓練任務提供一站式服務。其主要由高性能訓練框架、通用加速組件和基礎模型倉庫組成。太極 AngelPTM 主要有三大部分:1)高性能訓練框架:包含大模型訓練框架 ZeRO-Cache,高性能 MOE 組件,以及 3D 并行和自動流水并
185、行策略;2)通用加速組件:包含可減少顯存并提高精度的異構 Adafactor 優化器,可穩定 MOE 半精度訓練 loss 的 Z_loss 組件,選擇性重計算組件和降低通信代價的 PowerSGD 組件;3)基礎模型倉庫:包含 T5、BERT、GPT 以及 Transformer 等基礎模型。圖圖 64:太極太極 AngelPTM 數據來源:騰訊太極機器學習平臺,中信建投證券 47 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。3.4 應用 騰訊 AI Lab 的 AI 技術也廣泛應用在微信、QQ 和騰訊覓影等上百款產品。行業應用上,實驗室研發出的圍棋 AI絕藝屢獲國際
186、賽事冠軍,是科技賦能國粹文化的代表;與王者榮耀研發的策略協作型 AI絕悟達到職業水平,代表國際水準的研究能力。布局前沿多模態數字人技術,探索數字內容生成的新可能。實驗室支持的國家級 AI+醫療標桿產品騰訊覓影與騰訊醫典也不斷取得技術突破,騰訊覓影從醫療影像延伸到輔助診療等功能,截止 2018 年 10 月,項目已落地 100 多家全國三甲醫院,服務患者近 40 萬人。2020 年,實驗室發布自研智能顯微鏡及 AI 藥物發現平臺云深智藥,并初步探索 AI+農業智慧溫室項目。2022 年,騰訊 AI Lab 利用過去幾年的技術積累,搭建了包括建模、驅動、渲染、部署以及動畫制作的數字人全棧技術管線,
187、形成了多場景業務方案,讓數字人能夠更方便、更便宜、更智能地走進千行百業。其中重點突破包括:建模:搭建了不同級別數據的分級建模管線,從消費級的照片輸入建模,到影視級的相機陣列掃描。表情驅動:實現業界標桿級別的準確度和生動性。提供了 VISM16+AU20 技術標準,可基于文本或語音自動生成多風格 3D 數字人口型及表情動畫,并支持通過精細化的 VHML 標注高自由度、可視化地調整數字人面部動畫效果。身體驅動:提供適應不同類型業務場景需求的身體驅動解決方案,包括傳統的光學動捕驅動、簡單的動作庫細粒度控制和編排、Locomotion、基于單目攝像頭的視覺動捕技術等。動畫制作:打造簡單易上手的視頻工廠
188、,通過配置形象、臺本,通過智能表情推薦和動作編排,即可生成生動形象的 3D 數字人音視頻動畫,極大減少傳統數字人視頻制作耗時。圖圖 65:AI Lab 數字人數字人 數據來源:騰訊AI實驗室,中信建投證券 場景場景解決解決方案方案AI LabAI Lab數字人數字人PaaSPaaS數字人視頻虛擬工廠虛擬人視頻創作虛擬人直播數字NPC游戲劇情敘事動畫游戲NPC生成&驅動數字NPC游戲解說游戲內助手數字員工數字人資產數字人模型庫發型庫動作庫身體衣服庫建模照片人臉建模標簽人臉建模高保真3DMM驅動T2F/S2F口型驅動VHML標記驅動NN-based動作生成中之人驅動渲染&部署UE/Unity引擎云
189、渲染+視頻流端渲染API服務調用協作系統TTS PaaS前處理 PaaS游戲播報PaaS/解說系統眾包評測服務標注眾包服務云渲染服務WebRTC服務硬件&端客戶端360影棚RGBD/RGB攝像頭渲染服務器光學動捕棚AR/VR頭盔&手套算法引擎服務器 48 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。AI+游戲:游戲:作為游戲 AI 研究的先行者,騰訊 AI Lab 在游戲環境持續進行研究的同時,也正不斷探索促進游戲 AI 學界及應用的全面發展。2022 年,從絕藝、絕悟到開悟,騰訊正讓 AI 從虛擬游戲世界走進現實。2022 年,騰訊 AI Lab 持續深耕科研,提升游
190、戲 AI 能力。例如在 22 年 4 月,棋牌類 AI 絕藝在 1v1 麻將(二人雀神)測試中戰勝職業冠軍選手,其背后的 ACH 算法登上頂會 ICLR 2022。2022 年 4 月,決策智能 AI 絕悟再次亮相 GDC,基于 AI 的人機協作能力和內容生成能力,展示 AI 在游戲行業豐富玩家體驗、降低制作成本的案例。至此,騰訊的游戲 AI 技術更全面地覆蓋了游戲制作、運營及周邊生態全生命周期,并陸續拓展更多元的游戲品類。8 月,絕悟 3D-FPS 解決方案全面應用于 CFM、CODM 等多款 FPS 游戲,攻克復雜 3D 環境決策鏈條長、多人配合獎勵稀疏問題,成功應用有效提升玩家對局體驗。
191、2022 年 12 月,騰訊發布了絕悟的病理診斷版本“絕悟 RLogist”,成為騰訊 AI Lab 的游戲 AI 技術具備跨領域解決現實世界問題潛力的首個有力證明。受啟發于“絕悟”在 3D 游戲環境觀測環境并做出決策的過程,研究團隊將相關的深度強化學習技術遷移到病理全片掃描圖像診斷領域,在性能接近的情況下將傳統病理閱片效率提升 400%。相關論文已被 AAAI 2023 接收,代碼已開源。圖圖 66:絕悟絕悟 RLogist 提出一種類似醫生病理閱片的決策思路提出一種類似醫生病理閱片的決策思路 數據來源:騰訊AI實驗室,中信建投證券 AI+生命健康:在醫療領域,生命健康:在醫療領域,騰訊 A
192、I Lab 與北京協和醫院共同發布了具有完全自主知識產權的便攜式智能化手術導航系統,實現高精度、便攜式、低成本等特點,就像給臨床醫生的手術配上了 GPS,輔助醫生精準定位隱藏在腦組織中的病變。該系統在協和神經外科已成功開展了 50 余例臨床試驗,涉及腦出血、垂體腺瘤、膠質瘤、腦膜瘤、顱咽管瘤等多種疾病,臨床初步應用取得成功。騰訊 AI Lab 還與邁瑞共同研發了全自動外周血細胞形態學分析儀,并完成了創新醫療器械特別審查申請公示,正式進入國家藥品監督管理局創新通道,成為國內體外診斷行業首個進入該程序的 AI 類產品。該分析儀通過創新性的形態學檢測方案,以優異的指標及效率,實現白血病等高發惡性腫瘤
193、的早期篩查輔助臨床診斷。49 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。在藥物 AI 領域,騰訊 AI Lab“云深”平臺 22 年 4 月發布了業內首個基于圖的藥物 AI 分布外研究框架 DrugOOD,以及基準方法。傳統機器學習算法存在訓練樣本與測試樣本不一樣分布(Out-of-Distribution)的 OOD 問題,這影響了模型在實際應用中的穩定性、可靠性、泛化性等,也成了 AI 輔助藥物發現領域的一大挑戰。騰訊“云深”DrugOOD 針對藥物 AI 研究中最重要的活性預測問題,提供大規模、全面的藥物 AI 泛化數據集,覆蓋 AI 藥物輔助設計任務中發生分布
194、偏移的各類場景,幫助社區更便捷開展 OOD 問題研究。22 年 5 月,平臺與清華大學團隊合作完成了業內首個基于 AI+FEP 的抗體親和力預測與改造模型,對親和力不足的苗頭抗體進行預測與改造。該方法以針對新冠刺突蛋白受體結合域的抗體為例,利用等變圖神經網絡預測抗體-抗原結合的親和力,相關性大幅度提升。通過該模型進行高通量的單點突變改造篩選獲得可潛在提升親和力的突變體,再利用自研的 FEP(自由能微擾)技術對突變體進行結合自由能評估,可將預測與實驗值的相關性提升至 0.88?!癆I+計算化學”的結合,縮小了驗證范圍,提高了實驗效率。22 年 11 月,平臺設計出基于大規模序列預訓練模型的結構預
195、測方法,精度超越當前的 SOTA 方法,僅需數秒即可準確預測抗體重輕鏈復合體的三維結構,并在引入抗原結構預測與特征融合模塊后,能進一步預測抗原抗體復合體結構,指導相關抗體藥物設計。該成果發表于 NeurIPS 2022 機器學習與結構生物學研討會(MLSB)。AI+內容:內容:騰訊 AI Lab 持續探索 AI 與人協同合作的內容生成技術,此前相繼發布了文本理解系統 TexSmart、交互翻譯系統 TranSmart 等,并且創新性地探索了 AI 在游戲電競、直播等領域的應用。智能寫作方面,22 年 4 月,發布智能寫作助手文涌(Effidit),用技術助力文思泉涌。初版本融合了知識抽取、文本
196、理解、文本生成、大規模預訓練模型、經典語言模型、搜索等多項技術積累,提供多維度文本補全,多樣化文本潤色等核心功能,及例句推薦、文本糾錯、云輸入法、學術專業版等完整的輔助寫作能力。22年 12 月,文涌 2.0 版本發布,新版本增加了風格化文本續寫等眾多功能,共包含文本補全、智能糾錯、文本潤色、超級網典四個模塊,其中文本補全和超級網典旨在幫助寫作者在創作時開闊思路、提供彈藥,而智能糾錯和文本潤色則是重在提升創作后的文本水平和質量。部分功能目前已接入搜狗輸入法 PC 端(智能汪仔)和 QQ 瀏覽器移動端。50 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 67:文涌文涌
197、 2.0 基于混元大模型展現出生成能力基于混元大模型展現出生成能力 數據來源:騰訊AI實驗室,中信建投證券 交互翻譯方面,騰訊交互翻譯 TranSmart 作為新一代翻譯工具,區別于輸出靜態結果的傳統機器翻譯,通過重構人工翻譯過程的人機交互邏輯,讓快速定制個性化機器翻譯結果成為現實,助力用戶又快又好完成高質量嚴肅譯文生產任務。經過五年技術沉淀與兩年商業化探索,TranSmart 已建設了包含公有云、私有化部署等服務形態,以及網頁端、客戶端、瀏覽器插件等產品形態,提供的服務包括交互翻譯、文檔翻譯、自動翻譯、定制引擎等,并可支持各類計算機輔助翻譯軟件(CAT)集成。翻譯服務受到了各類垂直行業頭部客
198、戶的青睞和內外合作伙伴的廣泛認可,包括但不限于:聯合國、新華社、央視、CGTN、Memsource、華泰證券、閱文集團、Denso、富途證券、寶馬、騰訊云官網、騰訊會議等。虛擬解說方面,騰訊 AI Lab 創新性地探索了 AI 與游戲電競、直播等場景的結合,推出了業界首個 AI 驅動的游戲解說服務,并于王者榮耀游戲電競場景嘗試落地。該服務可基于玩家實時的游戲局面,通過智能策略理解局面亮點予以導播切鏡,并生成符合語境且有趣味性的解說詞,實時合成高度擬真、抑揚頓挫的解說語音。今年服務上線后,迅速獲得了業界和觀眾的認可。22 年 3 月,全量落地微信視頻號直播,在王者峽谷用 AI 解說陪伴著主播和觀
199、眾共度歡樂時光,開創了游戲直播領域的新模式。22 年 7 月,AI 解說作為王者賽寶的特色功能正式對外發布,所有的王者玩家均可辦一場專屬于自己的賽事,與身邊的朋友一起體驗電競的魅力。22 年10 月,第一視角 AI 解說在微信視頻號直播、快手、斗魚、Bilibili 等主流直播平臺上線,為王者榮耀職業賽 51 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。事的觀眾提供了全新的觀賽體驗。4、字節字節 相對于阿里、百度、騰訊均已經推出大模型及布局,字節目前仍未公布內部架構、產品體系及大模型的最新進展。字節的 AI 布局可以追溯到 2016 年成立的字節 AI LAB 的成立,
200、AI Lab 對自身的定位是作為公司內部的研究所和技術服務商,為平臺輸出海量內容提供 AI 技術支持。AI Lab 最初成立的時候聚集了馬維英、李航、李磊等大牛,此后馬維英離開團隊回到學界,目前阿里 M6 大模型的前帶頭人楊紅霞已加入字節 AI Lab(人工智能實驗室),參與語言生成大模型的研發。字節目前大模型仍處于發展階段,現以旗下云平臺火山引擎在算力、平臺和生態端布局為主。大模型團隊由字節搜索部門牽頭,搜索業務部門、AI Lab 和 AML(應用機器學習)團隊均調任部分人馬支援,目前團隊規模在 40 人左右,圖片大模型團隊由產品研發與工程架構部下屬的智能創作團隊牽頭;團隊負責人間接和直接匯
201、報對象,則均為 TikTok 產品技術負責人朱文佳。根據調研情況,字節目前在仍在做模型調優,計劃 23 年 6-9月達到 3.5 模型相當的水平,9 月之后語言模型可以同步做發布和多模態模型訓練,語言模型發布至少要到 9 月之后。后面會基于當前的語言模型,做多模態的模型,多模態相對來說難度會更大,至少要等到 24 年 3-4 月?;鹕揭媸亲止澨鴦油瞥雒嫦蚱髽I的技術服務平臺,提供機器學習平臺和推薦平臺兩大平臺,幫助企業模型訓練將本增效?;鹕揭婢邆滟Y源復用、全面云原生化、全棧自研的三大優勢,兼顧云的彈性與性價比,助力企業實現云上增長?;鹕揭娲蛟炝巳珬W匝泻诵慕M件之一的火山引擎 DPU,基于
202、DPU 實現了新一代 RDMA網絡,基于火山引擎 DPU 推出各類計算實例,降低企業用云成本,提升企業上云信心。在多云多模態方面,火山引擎發布了分布式云原生平臺、多云 CDN 管理平臺、多云安全平臺、混合云 veStack 等產品,助企業用好分布式云,高效應對多云、混合云、邊緣云場景的分布式云原生管理的挑戰。在云上創新方面,火山引擎發布智能推薦-高速訓練引擎,將模型的訓練推理效率進行極致優化;升級機器學習平臺,全力支持大模型,為大模型客戶提供高穩定性和高性價比的 AI 基礎設施,在多云多模型的時代服務好模型企業和應用企業。據火山引擎總裁譚待透露,國內幾十家做大模型的企業,七成已經在火山引擎云上
203、。4.1 模型 字節在 AI 方面的積累主要集中在機器翻譯、智能語音、視頻圖像和多模態四個領領域。字節跳動的研究成果包括非自回歸模型 DA-Transformer、端到端語音到文本翻譯模型 ConST、多顆粒度的視覺語言模型 X-VLM、圖片和文本統一生成模型 DaVinci 等。在機器翻譯方面,在機器翻譯方面,字節旗下火山翻譯團隊 2022 年在 SC22、ACL2022、ICML2022 等頂會發表學術成果 10余篇,受邀參加了英偉達 GTC 2022 全球 AI 開發者大會等知名技術論壇,申報翻譯技術專利 15 項,榮獲中國專利優秀獎在 WMT2022 的非洲語向任務上奪得桂冠。目前,火
204、山翻譯提供 9 大領域翻譯,其中包括但不限于人工智能、互聯網行業生物醫療、科學技術、金融財經,支持共 114 個語向的翻譯,其中包括伊博語、亞美尼亞語等小語種。其中,字節和清華聯合發布了 DA-Transformer,DA-Transformer 在機器翻譯上首次達到了Transformer 同樣的精度,而處理的速度提高了 714 倍。DA-Transformer 不僅可以用于機器翻譯,而且可以用于任意的序列到序列任務。52 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。在智能語音方面,在智能語音方面,字節跳動是從 2017 年底重點投入智能語音技術的。公司對智能語音技術
205、需求主要來自于短視頻中的內容審核、自動字幕和配音功能、辦公軟件飛書的會議轉寫、客服外呼機器人的語音交互鏈路、教育口語評測、小說音頻內容生成、教育硬件下的語音增強、音樂消重和聽歌識曲、外部 ToB 需求等。在語音識別方面,通過無監督預訓練+少量有監督的技術,參加國際低資源多語言語音識別挑戰賽(MUCS21),取得多語言語音識別賽道第二名;音樂技術方面,字節參加了 MIREX2020 翻唱識別競賽,取得第一名,mAP 領先第二名 8%;語音合成上,字節發表了業界首個基于 seq2seq 鏈路的中文歌唱合成系統 ByteSing 以及搭建了 seq2seq 的中文前端多任務模型并用于線上業務。在視頻
206、圖像方面,在視頻圖像方面,2022 年 3 月,字節跳動智能創作團隊基于 AI 技術的優勢提出了“AI 渲染”方案。這一方案現已在抖音落地實現,可以基于 AI 和離線渲染技術,加速渲染過程,提升渲染質量,降低影視級渲染的享用成本,甚至在手機端實現影視級渲染效果。2022 年 7 月,字節提出了一種能在現實工業場景中有效部署的下一代視覺 Transformer,即 Next-ViT。Next-ViT 能像 CNN 一樣快速推斷,并有 ViT 一樣強大的性能。大量實驗表明,Next-ViT 在各種視覺任務的延遲/準確性權衡方面明顯優于現有的 CNN、ViT 和 CNN-Transformer 混合
207、架構。在多模態方面,在多模態方面,2022 年 3 月,字節發布的 text2image 模型實現了文生圖能力,實驗數據顯示,其效果比VQGAN-CLIP 要真實,尤其是泛化能力還比不少用大量文本-圖像數據對訓練出來的模型要好很多。2022 年 5月,字節跳動 AI Lab Research 團隊提出了 X-VLM,首次提出學習多粒度的視覺和語言對齊。實驗證明,這種預訓練方法十分高效,模型規模無需很大,預訓練數據無需很多,僅 216M 參數量的 X-VLM 就能在廣泛的多模態任務上獲得了十分優秀的表現,例如:圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。目前,X-VLM 在字節跳
208、動的真實應用場景上超過了業界常用的多個模型,完成了上線,服務于如今日頭條等業務。相關論文已被 ICML 2022 接收。4.2 算力 2023 年 4 月 18 日,火山引擎在春季火山引擎 FORCE 原動力大會上正式發布自研 DPU 等系列云產品,并正式推出智能推薦-高速訓練引擎,支持 100GB 至 10TB 以上超大模型的高效訓練,采取軟硬一體優化設計等,讓面向推薦場景的高速訓練更快,成本更低?;鹕揭嬷悄芡扑]-高速訓練引擎具備軟硬一體、細粒度算子優化、分布式訓練和推理三大特點,1)軟硬一體化:針對關鍵場景的超大模型,火山引擎智能推薦-高速訓練引擎提供了全 GPU 方案,可以支持 100
209、GB-10TB的超大模型的高速訓練,綜合 ROI 是 CPU 的 5 倍;覆蓋更多場景的模型,提供了 GPU+CPU 混訓方案,綜合ROI 是 CPU 的 2 倍;2)細粒度算子優化:針對搜索、推薦和營銷場景,優化細粒度算子,使得在模型推理的過程中有更好的性能表現。在訓練時,通過算子融合并精細調優,性能提升 20%;在推理時,通過算子優化,性能提升 40%;3)分布式訓練和推理:智能推薦-高速訓練引擎為了保障系統的穩定性,支持訓練和推理的全方位容錯,當某一個節點故障時,可以快速恢復;支持分布式推理,包括多分片、多副本,從而保證線上服務的高可用。53 海外行業深度報告 互聯網互聯網 請務必閱讀正
210、文之后的免責條款和聲明。圖圖 68:火山引擎發布的智能推薦火山引擎發布的智能推薦-高速訓練引擎高速訓練引擎 數據來源:火山引擎公眾號,中信建投證券 火山引擎讓大模型訓練降本增效,并得到外部驗證。抖音、今日頭條等基于火山引擎高速訓練引擎的業務,模型訓練時間的速度相較以往快 10 倍-25 倍,綜合成本降低 25%-67%。而在外部,火山引擎高速訓練引擎的價值也得到了多家企業的驗證。例如,在與中國某社交平臺的合作中,火山引擎成功幫助客戶解決了訓練速度慢,無法快速驗證模型效果的問題,將訓練速度提升了 12 倍原本客戶側耗時 1800 分鐘的模型訓練,在火山引擎側僅耗時 150 分鐘。在模型優化上,火
211、山引擎百 G 模型與客戶 2T 級別模型相比,效率無明顯下降,且離線效果指標全部正向,幫助客戶實現了大幅的降本增效。4.3 平臺 2022 年 7 月,火山引擎正式發布機器學習平臺,達到 0 碎片的極致性能和優秀的開發體驗,火山引擎機器學習平臺解決方案已在金融、零售、能源、教育等行業落地,幫助更多企業不斷縮短智能業務研發周期,提高模型上線效率和 GPU 使用率,并依靠定制化的智能模型實現業務增長?;鹕揭嬖跀祿芾?、資源管理、流程和模型三大領域具備核心優勢。1)在數據管理場景下,火山引擎機器學習平臺可通過結構化、非結構化數據庫、數據協同標注與版本化管理、多租戶安全等,保護企業數據資產,為機器學
212、習、深度學習開發助力;2)在資源管理場景下,機器學習平臺可通過 GPU、CPU 調度,模型分布式訓練,資源動態分配,彈性線上推理服務等,提供機器學習模型開發所需要的算力。無論是在字節跳動內部還是在外部客戶,該平臺都已實現萬級 GPU 算力資源的池化管理、調度和共享;3)對于流程和模型管理,機器學習平臺提供 DevOps 能力。不同于一般業務,機器學習應用的發布包含了所有規則和處理邏輯,在應用上線后,由于需要周期性地進行更新、優化迭代,模型本身對外部數據有強依賴,這使得整個 DevOps 更復雜?;鹕揭鏅C器學習平臺構建了 DevOps 流水線,實現從數據處理、模型訓練、模型評估、模型發布的持續
213、集成,提升端對端業務上線效率。平臺也支持通過超參數自動搜索、多模型自動比對與評估、模型版本化管理、線上模型運維等,降低模型開發和維護門檻。54 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 69:火山引擎機器學火山引擎機器學習平臺習平臺 數據來源:火山引擎公眾號,中信建投證券 2023 年 4 月,火山引擎在 2023 春季 FORCE 原動力大會發布了機器學習平臺升級版,主要在三大方面進行了優化:1)全新的實驗管理-模型效果對比功能:僅需極少的代碼改動,用戶就可以通過該功能實時跟蹤和對比訓練效果,觀察趨勢,加速模型迭代;2)全新支持了彈性實例:實現靈活資源調度,隨
214、用隨取,成本節省達70%;3)針對大模型訓練場景進行了全面優化:目前,平臺可以支持萬卡級別大模型訓練場景,微秒級超低延時網絡,讓大模型訓練更穩更快。4.4 應用 火山引擎的 AI 場景產品主要包括智能創作、智能體驗以及智能營銷,目前已服務數百家客戶,分別在視頻創作、互動創作、直播短視頻構建中推動客戶業務增長。在內容視頻化和互動趣味化的大趨勢下,火山引擎創作與體驗場景提供了從算法到平臺的全域解決方案,在 AI 底層算法的支持下,通過全品類的正版素材和特色化的創作工具,快速完成視頻、特效、虛擬形象、XR 等創新內容。不管是企業用戶還是個人用戶,人人都可擁有創作比較專業的短視頻的能力。智能創作云是火
215、山引擎發布的面向企業的創作 AI 產品,智能創作云包括眾多 AI 創作工具,比如圖文轉視頻能力,用戶只需輸入文字即可生成視頻,AI 通過理解文字內容,搭配適合的圖片、音樂和轉場等,快速生成一支專業的視頻;比如視頻模板,剪同款功能就是把優質視頻內容抽象成腳本,用戶只要會打開攝像頭拍攝,就有了專業拍、剪視頻的能力,極大降低了創作門檻,保障了內容生產的質量。業務應用業務應用金融風控圖像識別廣告投放商品推薦質量檢測行為識別醫療預測安全安全API/SDK接口權限管理角色管理團隊管理用戶管理資源管理監控管理審計日志報警管理集成擴展服務集成擴展服務微服務平臺大數據平臺容器云平臺混合云機房數據訓練模型推理治理
216、構建流程的所有步驟(包括集成,測試,發布,部署和基礎架構管理)中實現自動化和監控數據源數據清洗數據標注數據集市Jupyter分布式AutoML流水線模型轉換模型評估模型優化數據對比推理圖批處理場景服務在線測試灰度發布A/B測試版本回滾Kubernetes資源管理任務調度InfraCPU,GPU,NPU,FPGACeph,OSS,GlusterFS,HDFS多平面網絡 55 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 70:智能創作云智能創作云 SaaS 產品產品 數據來源:火山引擎公眾號,中信建投證券 字節旗下云服務平臺云服務平臺火山引擎提供有關音視頻的智能美化特
217、效。智能美化特效基于自主研發的特效 SDK,提供多項圖像渲染和算法,提供貼紙特效/美化濾鏡/人像智能/計算機視覺基礎檢測識別等功能,用于拍照工具、直播、短視頻、在線教育、體感游戲等場景。目前,智能美化特效擁有超過 200 個自研算法、具備小于 2ms 的人臉檢測速度,提供超過 90 萬個抖音同款特效貼紙和濾鏡。此外,字節在內部的相關產品持續引入 AI。2022 年 5 月,字節推出海綿樂隊 App,海綿樂隊是一款手機端的便攜式音頻創作工具,在實現傳統的錄音、效果器同時,引入大量 AI 智能來協助創作,降低使用難度,提高創作趣味和效率。2023 年 4 月 12 日,飛書宣布將推出智能 AI 助
218、手“My AI”,My AI 包括自動匯總會議紀要、創建報告、優化和續寫文字內容等。在飛書 App 中,My AI 也可以通過對話形式,幫助用戶自動創建日程、搜索公司內部知識庫等功能。飛書還表示,My AI 能做的遠不止于此。未來,更強大的智能助手,也會讓工作中的人們更強大。56 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。三、商業模式三、商業模式 當前全球大模型產業落地仍處于早期探索階段。一方面,研發機構在大模型方面的技術研發已較為成熟,如算法架構、預訓練和微調策略、計算并行加速等,但對落地場景不夠熟悉,沒有形成完善的商業化模式,需要與下游場景企業合作建立大模型商業模
219、式;另一方面,絕大多數下游場景的企業對大模型沒有形成基本的概念和認知,同時也沒有能夠支撐模型微調的算力,以及定制、二次開發模型的人力資源和技術實力。此輪基于 ChatGPT 的大模型浪潮興起伊始,結合我國 AI 產業鏈與競爭格局現狀,一種判斷是:基于大模型的通用和泛化性提高,未來手握通用基礎大模型的巨頭企業會逐漸侵蝕垂直領域廠商業務。這種壓力長期來看的確存在,但大模型與產品結合,尤其在非檢索或開放域交互等場景中,需要依賴垂直領域數據和行業know-how、應用場景和用戶數據反哺、一站式端到端工程化能力等。在此窗口期,垂直領域與應用層廠商應積極將大模型能力整合入自己的技術棧,服務于產品功能優化,
220、建立“數據飛輪”壁壘。在下游豐富的基于大語言模型、AIGC 應用開發需求的影響下,還將分化出一類工具型或平臺型廠商,主要提供基于各類大模型的開發平臺服務,幫助客戶實現便捷的 AIGC 應用開發與落地。圖圖 71:中國大語言模型產業參與廠商類型與定位邏輯中國大語言模型產業參與廠商類型與定位邏輯 數據來源:艾瑞咨詢,中信建投證券 1、API 模式模式 API 模式指的是由大模型的研發主體(如科研機構)對完成的模型文件進行封裝,將模型在各類任務上的推理能力封裝成統一的應用程序接口,對外提供服務的模式。下游企業可以獲得這些接口,并按照自身的業務需求,將接口作為可以調用的代碼庫、程序包等,植入已有的應用
221、和服務中,讓大模型的 API 為整個程序進行賦能。API 模式的主要優勢在于降低了企業應用大模型的成本。API 將大模型內部的所有技術細節進行封閉,企業不需要過多了解模型的技術細節,也不需要投入額外的開發人力和算力資源進行大模型調優。垂直基礎大模型廠商:具備一定算力、資金和技術實力的垂直賽道廠商,可基于多家開源模型和數據,進行重直基礎大模型自研。一般該類型廠商亦會橫跨模型層與應用層應用開發廠南:不具備充足算力和資金的廠商,可基于API進行AIGC相關應用產品開發,依托巨頭生態打磨產品與拓客工具層廠商:負責承擔大模型調優工作,服務于應用開發或解決方案廣商,可能逐步向平臺型發展通用基礎大模型在高商
222、業價值的內容輸出方面能力較弱且在產出結果的可信程度上不可控,需要委直領域know-how與數據調優;在數據開放度低的行業領域,如能源、政務、金融、電力、通信等,通用基礎大模型缺少高質量數據集支撐;在落地實施層面上,不具備調優與二次開發能力的人業需要端到端的大模型開發及部署服務,以控制部署成本通用基礎大模型廠商通過海量數據自研自研大模型后,一般經過垂直領域數據調優、縮小模型量級首先服務于自身業務達到降本增效、提高營收等效果。后開放服務賦能B端或C端用戶。大模型改變了AI產業的技術流通路徑和生產方式。在促進AI工業化進程的同時優化了應用的產品功能,拓寬了應用層市場 大 模 型 是AIGC產業發展的
223、基石來自同賽道內部和外部巨頭的競爭日益激烈未來可能國內只有1-2家完全跑通產生類OpenAI企業定位化原因參與應用開發 57 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。然而,API 模式本身依賴于研發機構強大的科研實力,如果模型本身性能不佳,API 將無法滿足企業的常規推理任務需求,仍需要根據場景情況進行額外的微調。同時,API 本身不夠靈活,其作為一種軟件間進行交互的形式,本身難以承載高頻、高通量的請求。當推理請求的次數和請求數據量過大時,API 的響應時間和返回數據質量將難以保證。最后,許多企業由于業務需要,無法將數據通過 API 傳到模型中進行推理,因此不適用于
224、這一模式。目前大模型領域商業落地較為成功的案例是 GPT-3。在 OpenAI 在公開 GPT-3 論文后,也同時開放了模型的 API 申請通道,鼓勵研究者、開發者、企業從業者研究“好玩”的 GPT-3 應用,以此促動大模型的產業場景發展。在開源社區培養了一批 GPT-3 的開發和用戶人群后,OpenAI 對外開放 API 商業運營計劃,讓 GPT-3 成為營收來源。去年 9 月,OpenAI 公布了 BETA 版本的 GPT-3 模型 API 商業方案,分為“Explore”、“Create”、“Build”、“Scale”四個版本。其中 Explore 版本用戶可以免費使用 3 個月,并有
225、 10 萬 Token(每 1k 相當于 750 個詞)的限額。付費版本的加工從 100 美元/月到 400 美元/月不等,并有調用量的限額。此外,每個方案分別提供包括API 試驗場(Playground,用于測試各種 API 應用)、開發者工具、技術支持(僅限付費版本)等定制化服務,能夠幫助企業更快上手 API 的開發工作。以“根據產品描述生成廣告”API 為例。這一 API 的功能是將一段產品的描述提供給模型,模型會根據描述直接生成一段對應的廣告詞。GPT-3 商業版的 API 中有很多可以設定的參數,用戶可以在 API 中提供包括最大返回 token 數、頻次懲罰等參數,幫助模型提供更符
226、合需求的結果。目前 GPT-3 的商業化正在穩步進行中,據 OpenAI 公開的博客文章表示,截至 2021 年 3 月,已有 300 多個 APP 采用了 GPT-3 技術。全球使用 GPT-3的開發者數量上萬。GPT-3 模型每天產生 45 億個詞匯,且數量還在不斷增長。為了推廣大模型的應用發展,OpenAI 也支持圍繞 GPT-3 舉辦算法大賽,并提供 API 支持。2、PaaS 模式模式 大模型作為一種技術,將其集成在 AI 平臺上,對外提供能力和服務,成為一些技術實力雄厚企業的選擇。這種模式中,企業的主要落地產品的 PaaS 平臺、開發工具、AI 服務等組合而成的套件,大模型是套件中
227、的一個重要的組成部分,但不是全部。用戶購買或使用平臺的過程中,可以利用平臺提供的工具,對大模型進行開發和應用,集成于自有的體系中,為自身業務提供服務。需要注意的是,和 API 模式不同,PaaS 服務模式提供的是包括模型在內的一系列工具和平臺,用戶不能單獨獲得模型的能力。同時,用戶雖然可以通過 PaaS 模式,獲得對模型更高的開發和控制權,但往往需要為此付費,這為 PaaS 服務的供應商帶來了一定的利潤。PaaS 模式的優勢在于,其將大模型直接封裝成成熟的 API 服務,并為用戶提供便利支持,幫助用戶以相對開源更低的成本進行模型的開發和部署工作,為用戶減少了很多開發方面的投入。但是需要注意的是
228、,有些 PaaS不一定提供算力資源,用戶仍需要投入硬件成本。同時,當模型規模過大的時候,即使是提供 PaaS 服務,PaaS供應商仍需要為用戶解決模型訓練和推理所需的算力規模大,無法集成于用戶已有業務體系的問題。PaaS 供應商也需要考慮技術的服務形態,如果是本地服務,則 PaaS 本身的規模絕不能過大,以免給用戶帶來負擔,如果是云服務,則需要解決高請求頻次和大規模通信方面的問題。國際上,英偉達遷移學習工具包(TLT)是一個用于進行預訓練模型微調定制的綜合平臺,包括支持計算機視覺和自然語言處理兩個領域的預訓練模型,以及數據處理標注、模型訓練、模型剪枝等方面的工具,以及支持模型訓練和推理的加速組
229、件等。58 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。圖圖 72:TLT 進行預訓練過程中的主要流程進行預訓練過程中的主要流程 數據來源:英特爾,中信建投證券 以微調對話領域模型為例,英偉達提供了具體的部署流程。用戶首先可以從云上下載已預訓練好的模型,并結合場景數據集,利用 TLT 工具,對數據進行處理、增強,并對預訓練模型進行微調,微調后利用平臺進行測評。待測評結果符合實際應用要求后,可導出模型,進行下一步的使用(如后續用 RIVA 進行模型的應用).。目前 TLT 平臺已經支持 BERT、Megatron 等預訓練語言模型,以及計算機視覺領域多種任務的模型。英偉達
230、稱,在 TLT 平臺的支持下,相比非遷移學習,用戶只需要使用十分之一的數據進行訓練,模型部署效率提升 10 倍。TLT 平臺本身是免費的,支持英偉達旗下的 A100、V100GPU 等硬件。國內也有大型科技企業推動 PaaS 模式的發展。例如,2020 年 7 月,百度發布了 NLP 開發與服務平臺文心,其依托 ERNIE 預訓練技術,為開發者提供 NLP 定制與應用能力。文心平臺可通過公有云(如 EasyDL-NLP、BML 等)和私有化兩種方式為產業提供服務。用戶不需要關注計算開發環境的搭建和算法實現的底層實現細節。對于對場景要求更高的用戶,百度提供全流程、可深度定制、可私有化部署的文心開
231、發套件。用戶可以獲得模型技術選型、本地化訓練、離線部署等深度解決方案。截至目前,文心平臺已累計支持 4 萬開發者,及涵蓋各行各業的 200 多家企業客戶。達摩院的 AliceMind 平臺囊括了該機構研發的一系列基礎語言模型,覆蓋通用語言模型、多語言、生成式、多模態、結構化、知識驅動、超大模型等領域,大部分已開源,支持訓練、精調、蒸餾、測試、部署等功能,支持語言模型從訓練到部署。目前 AliceMind 的日均調用量超過 50 億次,活躍場景超過 200 個,已在跨境電商、客服、廣告等數十個核心業務應用落地,以及醫療、能源、金融等行業。例如,浙江電網公司采用 AliceMind構建智能化運維平
232、臺,用于變壓器檢修、供電搶修等場景。同時,達摩院也基于 M6 模型打造了多模態預訓練服務平臺,集成文到圖像生成、視覺問答、圖片描述、文本生成、跨模態檢索等基礎功能,并提供了 data2text文案生成等解決方案。京東科技的 NeuHub Foundry 平臺內置了覆蓋計算機視覺、自然語言處理在內的近百個預訓練模型,提供圖形式、腳本式編程方式,支持一鍵導入預訓練模型,實現便捷快速的重訓練和遷移學習。此外,NeuHubFoundry支持數據處理、訓練到部署的全流程開發服務,訓練完成的模型可一鍵部署并發布至 NeuHub 開放平臺,提供鑒權、計量計費和安全防護等一站式后服務體系。目前 NeuHub
233、平臺日均調用量峰值超千億次,覆蓋風控、客服、廣告、閱讀娛樂等幾百個應用場景,服務上千家企業客戶。59 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。3、MaaS 模式模式 MaaS 商業模式是以算力平臺、模型倉庫及數據集倉庫為基礎的,倡導零門檻的模型體驗,提供簡單快速的模型使用、完整的模型定制鏈路及模型云端部署服務,主要提供給 AI 的愛好者、開發者、研究員以及部分中小型轉型企業的商業化模型使用?!澳P蛦吸c工具應用場景”是“模型單點工具應用場景”是 MaaS 產業結構的核心。產業結構的核心。大模型是 MaaS 的最重要基座,例如 OpenAI提供的訪問執行各種自然語言任務
234、的 GPT-3、將自然語言翻譯成代碼的 Codex、創建和編輯原始圖像的 DALLE;單點工具是大模型應用的補充,例如 ChatGPT 是在 GPT-3.5 模型的基礎上,產生出的能“對話”的 AI 系統;內容寫作工具 Jasper 它基于開源的 GPT-3 模型,它使用人工智能為用戶編寫內容等;各種應用場景是大模型應用的變現,例如商湯科技的書生(INTERN)大模型可以讓 AI 模型處理多樣化的視覺任務;又如 GPT 模型系列作為基于互聯網可用數據訓練的文本生成深度學習模型,應用場景持續擴展。MaaS 公司的收費已經開始。多種大模型及其單點工具采取訂閱制收費模式。例如,OpenAI 在 2
235、月 1 日正式官宣了 ChatGPT 的試點訂閱計劃,這項付費服務被命名為 ChatGPT Plus,每月收費 20 美元,訂閱者將獲得許多好處,包括(1)在高峰時段享有優先訪問 ChatGPT 的權利;(2)更快的應用響應時間;(3)優先使用新功能和改進。類似的 AI 聊天公司 Jasper 以 GPT-3 為基座,通過在底層調用 GPT-3 模型研發出屬于自己的文本生成 AI 模型,并推出了多項訂閱服務。其中,訂閱服務的收費主要分為三檔:Starter 檔的收費標準 29 美元月起,更為常用的 Boss Mode 會員則是 59 美元/月起,另外還有更高昂的企業級收費。即使是 59 美元/
236、月的 Boss Mode 最基礎檔,其也只提供 5 萬字/月的服務,對比 ChatGPT 不限量的生成字數,我們認為,ChatGPT 這類產品的訂閱收費未來的天花板遠不止 20 美元,這背后自然是更為廣闊的藍海市場。而除了模型本身進行訂閱收費以外,嵌入其他產品獲得引流式收入也是模式之一,例如,微軟宣布推出高級付費版 Microsoft Teams Premium,這項高級服務將在 6 月份每月收費 7 美元,然后在 7 月份恢復到正常的 10美元,訂閱者可享用由 OpenAI GPT-3.5 提供支持的“智能回顧(Intelligent Recap)”這一重要功能,該功能將提供自動生成的會議記
237、錄、推薦任務和個性化標亮;微軟旗下 Dynamics 365 產品線宣布旗下客戶關系管理軟件Viva Sales 也將集成 OpenAI 的技術,通過人工智能幫助銷售人員完成許多繁雜且重復的文字工作。雖然,GPT-3.5并未在 Viva Sales 中作為單獨的收費項目存在,但是 Viva Sales 作為 CRM 產品本身每月就收費 40 美元,假設有 1000 萬客戶是因為 GPT-3.5 而選購 Viva Sales,則代表 GPT-3.5 每年能夠為微軟帶來 48 億美元的收入。其它的收費模式還包括不同的 Model 應對不同的客戶需求和客戶定價,如 OpenAI 在推出 ChatGP
238、T 以前,其主要收入來源于對外部客戶開源自身大模型,通過提供 API 接口調用來收費。例如用于創建和編輯原始圖像的 DALL E 模型,Mixtiles 利用 DALL E API 來創建和構建能引起情感共鳴的藝術品(圖片);數字平臺 CALA同樣調用了 DALL E 模型,使得 CALA 的智能工具允許用戶從自然文本描述或上傳的參考圖像中生成新的設計理念圖??梢钥闯?,相較于 Mixtiles,CALA 對于 DALL E 模型的應用更偏商業,對于細節的要求也更高,那在這種情況下,CALA 和 Mixtiles 兩者調用 DALL E 模型的收費肯定是有所不同的??偨Y來說,不同的 Model
239、應對不同的客戶需求和客戶定價肯定也會有所不同,客戶的要求越高,使用的模型越好,那么大模型的收費也將會更高。60 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。風險提示風險提示 新業務發展不及預期:新業務發展不及預期:AIGC 及相關新技術領域仍處于快速發展階段,技術距離成熟存在較大差距,當前發展預期可能存在過度樂觀的情況,業務實際發展仍存在較大不確定性。技術風險技術風險:大模型的部署和維護可能涉及技術上的挑戰。需要強大的計算資源和存儲能力來支持大模型的運行,這可能會增加成本。此外,大模型的訓練和更新也需要大量的時間和人力投入。商業落地風險:商業落地風險:由于大模型業務處于
240、探索期或成長期,業務模式尚未成熟,同時宏觀、行業環境可能發展變化,因此當前時點對未來的預判多數依賴上述環境變化不大或基本穩定的假設。大模型相關的監管尚未明確,可能涉及一些數據隱私、數據偏見、濫用等的法律風險 61 海外行業深度報告 互聯網互聯網 請務必閱讀正文之后的免責條款和聲明。分析師介紹分析師介紹 孫曉磊孫曉磊 海外研究首席分析師,北京航空航天大學碩士,游戲產業和金融業 7 年復合從業經歷,專注于互聯網研究,對騰訊、網易、阿里、美團、閱文等互聯網巨頭有較為深入的理解。2019 年新財富港股及海外最佳研究團隊入圍,2020 年、2021 年新財富港股及海外最佳研究團隊第五名。崔世峰崔世峰 海
241、外研究聯席首席分析師,南京大學碩士,6 年買方及賣方復合從業經歷,專注于互聯網龍頭公司研究,所在賣方團隊獲得 2019-2020 年新財富傳媒最佳研究團隊第二名。2022 年新財富海外研究最佳研究團隊入圍。于伯韜于伯韜 FRM,香港大學金融學碩士,武漢大學經濟學學士,5 年互聯網及港股策略賣方從業經歷,2021、2020 年新財富港股及海外方向第五名成員,2022 年新浪金麒麟港股及海外市場最佳分析師第三名,2020 年新浪金麒麟港股及海外市場新銳分析師第一名。海外行業深度報告 互聯網互聯網 評級說明評級說明 投資評級標準 評級 說明 報告中投資建議涉及的評級標準為報告發布日后6個月內的相對市
242、場表現,也即報告發布日后的 6 個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A 股市場以滬深300指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美國市場以標普 500 指數為基準。股票評級 買入 相對漲幅 15以上 增持 相對漲幅 5%15 中性 相對漲幅-5%5之間 減持 相對跌幅 5%15 賣出 相對跌幅 15以上 行業評級 強于大市 相對漲幅 10%以上 中性 相對漲幅-10-10%之間 弱于大市 相對跌幅 10%以上 分析師聲明分析師聲明 本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨
243、立、客觀地出具本報告,結論不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明 本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌
244、照的中央編號已披露在報告首頁。一般性聲明一般性聲明 本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可
245、能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責
246、任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去 12 個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制
247、或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部 中信建投(國際)中信建投(國際)北京 上海 深圳 香港 東城區朝內大街 2 號凱恒中心 B座 12 層 上海浦東新區浦東南路 528 號南塔 2103 室 福田區福中三路與鵬程一路交匯處廣電金融中心 35 樓 中環交易廣場 2 期 18 樓 電話:(8610)8513-0588 電話:(8621)6882-1600 電話:(86755)8252-1369 電話:(852)3465-5600 聯系人:李祉瑤 聯系人:翁起帆 聯系人:曹瑩 聯系人:劉泓麟 郵箱: 郵箱: 郵箱: 郵箱:charleneliucsci.hk