人工智能行業專題報告:生成式人工智能產業全梳理-230328(80頁).pdf

編號:120196 PDF 80頁 7.10MB 下載積分:VIP專享
下載報告請您先登錄!

人工智能行業專題報告:生成式人工智能產業全梳理-230328(80頁).pdf

1、請務必閱讀正文之后的免責聲明及其項下所有內容證券研究報告|2023年03月28日證券研究報告|2023年03月28日人工智能專題報告:證券分析師:熊莉S0980519030002行業研究 深度報告行業研究 深度報告投資評級:超配(維持評級)投資評級:超配(維持評級)生成式人工智能產業全梳理證券分析師:張倫可S0980521120004證券分析師:朱松S0980520070001證券分析師:庫宏垚S0980520010001請務必閱讀正文之后的免責聲明及其項下所有內容報告摘要報告摘要人工智能作為第四次科技革命,已經進入2.0時代。人工智能作為第四次科技革命,已經進入2.0時代。人工智能概念于19

2、56年被提出,AI產業的第一輪爆發源自2012年,2012年AlexNet模型問世開啟了CNN在圖像識別的應用,2015年機器識別圖像的準確率首次超過人(錯誤率低于4%),開啟了計算機視覺技術在各行各業的應用。但是,人工智能1.0時代面臨著模型碎片化,AI泛化能力不足等問題。2017年Google Brain團隊提出Transformer架構,奠定了大模型領域的主流算法基礎,從2018年開始大模型迅速流行,2018年谷歌團隊的模型參數首次過億,到2022年模型參數達到5400億,模型參數呈現指數級增長,“預訓練+微調”的大模型有效解決了1.0時代AI泛化能力不足的問題。新一代AI技術有望開始全

3、新一輪的技術創新周期。自18年起大模型快速流行,有望重新定義生產力。自18年起大模型快速流行,有望重新定義生產力。2018年以來,預訓練語言模型(PLM)及其“預訓練-微調”方法已成為自然語言處理(NLP)任務的主流范式,該范式先利用大規模無標注數據通過自監督學習預訓練語言大模型,得到基礎模型,再利用下游任務的有標注數據進行有監督學習微調模型參數,實現下游任務的適配。在AI的1.0時代:存在模型碎片化明顯、AI泛化能力不足等問題?!邦A訓練+微調”大模型能顯著降低AI工程化門檻,預訓練大模型在海量數據的學習訓練后具有良好的通用性和泛化性,細分場景的應用廠商能夠基于大模型通過零樣本、小樣本學習即可

4、獲得顯著的效果,使得人工智能有望構建成統一的智能底座,AI+賦能各行各業。本輪的生成式AI有望從簡單的內容生成,逐步達到具有預測、決策、探索等更高的認知智能。OpenAI當前已迭代五代模型,GPT-4開始布局多模態。OpenAI當前已迭代五代模型,GPT-4開始布局多模態。OpenAI于2015年成立,微軟于2019年開始與OpenAI建立戰略合作伙伴關系,GPT共發布五代模型GPT-1、GPT-2、GPT-3、ChatGPT以及GPT4。GPT-1于2018年6月發布,首次將transformer與無監督的預訓練技術相結合。2020年5月發布GPT-3,模型參數量為1750億。2022年11

5、月,OpenAI正式推出了對話交互式的ChatGPT。相比于GPT-3,ChatGPT引入了基于人類反饋的強化學習(RLHF)技術以及獎勵機制。2023年3月,OpenAI正式推出GPT-4,成為目前較先進的多模態大模型。GPT-4主要在識別理解能力、創作寫作能力、處理文本量以及自定義身份屬性迭代方面取得進展。百度于2023年3月正式推出大模型文心一言。百度于2023年3月正式推出大模型文心一言。文心一言主要由文心大模型提供支持,文心一言擁有有監督精調、RLHF、提示構建、知識增強、檢索增強和對話增強六大核心技術。其中前三項與ChatGPT的技術十分類似,知識增強包括知識內化和知識外用;檢索增

6、強指基于百度搜索引擎,先對內容進行檢索,再篩選出有用的部分整合輸出結果;對話增強指記憶機制、上下文理解和對話規劃等技術。投資建議:建議關注基礎層與應用層AI龍頭。應用層建議關注:科大訊飛、金山辦公、同花順、廣聯達、凌志軟件、彩訊股份、拓爾思、投資建議:建議關注基礎層與應用層AI龍頭。應用層建議關注:科大訊飛、金山辦公、同花順、廣聯達、凌志軟件、彩訊股份、拓爾思、福昕軟件、稅友股份等?;A層建議關注海光信息、浪潮信息、景嘉微等。福昕軟件、稅友股份等?;A層建議關注海光信息、浪潮信息、景嘉微等。風險提示:風險提示:AI技術商業化落地不及預期;行業競爭加劇,技術迭代風險;數據安全等政策不確定性;貿易

7、摩擦風險。請務必閱讀正文之后的免責聲明及其項下所有內容目錄目錄行業梳理:生成式AI有望帶動新一輪技術創新周期0101海外玩家:OpenAI持續領先,谷歌等巨頭紛紛布局0202中國玩家:百度發布文心一言,中國玩家快速追趕0303應用場景:GPT走向多模態,下游應用場景不斷打開0606商業模式:開啟訂閱制收費,不斷開放API接口0505投資建議:建議關注基礎層與應用層AI龍頭0707市場規模:模型參數不斷增加,算力需求快速增長0404請務必閱讀正文之后的免責聲明及其項下所有內容1、行業梳理:生成式AI有望帶動新一輪技術創新周期1、行業梳理:生成式AI有望帶動新一輪技術創新周期請務必閱讀正文之后的免

8、責聲明及其項下所有內容2012年至今屬于人工智能的蓬勃發展期。2012年至今屬于人工智能的蓬勃發展期。人工智能是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能的發展歷史大致可以被劃分為5個階段,2012年至今處于人工智能的蓬勃發展期,其分界點就是2012年前后IBM開發的人工智能程序“沃森”參加了一檔智力問答節目并戰勝了兩位人類冠軍以及AlexNet在ImageNet競賽中取得勝利。以深度神經網絡為代表的信息技術的發展,推動了人工智能領域的進步與拓展。以深度神經網絡為代表的信息技術的發展,推動了人工智能領域的進步與拓展。2006年,Hinton等

9、人利用單層的RBM自編碼預訓練使得深層的神經網絡訓練得以實現;2012年,Hinton和Alex Krizhevsky設計的AlexNet神經網絡模型在ImageNet競賽中實現圖像識別分類,成為新一輪人工智能發展的起點。1.1 人工智能產業自2012年開始迎來蓬勃發展1.1 人工智能產業自2012年開始迎來蓬勃發展5資料來源:CSDN、國信證券經濟研究所整理神經網絡發展里程標志性事件神經網絡發展里程標志性事件資料來源:CSDN、國信證券經濟研究所整理AlexNet神經網絡結構AlexNet神經網絡結構請務必閱讀正文之后的免責聲明及其項下所有內容1.1 人工智能作為第四次科技革命,已經進入2.

10、0時代1.1 人工智能作為第四次科技革命,已經進入2.0時代人工智能1.0時代(2012年-2018年):人工智能1.0時代(2012年-2018年):人工智能概念于1956年被提出,AI產業的第一輪爆發源自2012年,2012年AlexNet模型問世開啟了CNN在圖像識別的應用,2015年機器識別圖像的準確率首次超過人(錯誤率低于4%),開啟了計算機視覺技術在各行各業的應用,帶動了人工智能1.0時代的創新周期,AI+開始賦能各行各業,帶動效率提升。但是,人工智能1.0時代面臨著模型碎片化,AI泛化能力不足等問題。人工智能2.0時代(2017年-至今):人工智能2.0時代(2017年-至今):

11、2017年Google Brain團隊提出Transformer架構,奠定了大模型領域的主流算法基礎,從2018年開始大模型迅速流行,2018年谷歌團隊的模型參數首次過億,到2022年模型參數達到5400億,模型參數呈現指數級增長,“預訓練+微調”的大模型有效解決了1.0時代AI泛化能力不足的問題。新一代AI技術有望開始全新一輪的技術創新周期。資料來源:Gartner、國信證券經濟研究所整理2022年Gartner人工智能商業化曲線2022年Gartner人工智能商業化曲線資料來源:Scale Partners、國信證券經濟研究所整理人工智能有望迎來第四次科技革命人工智能有望迎來第四次科技革命

12、請務必閱讀正文之后的免責聲明及其項下所有內容1.1 大模型快速爆發,重新定義人工智能產業1.1 大模型快速爆發,重新定義人工智能產業自18年起大模型快速流行,有望重新定義人工智能產業。自18年起大模型快速流行,有望重新定義人工智能產業。2018年以來,預訓練語言模型(PLM)及其“預訓練-微調”方法已成為自然語言處理(NLP)任務的主流范式,該范式先利用大規模無標注數據通過自監督學習預訓練語言大模型,得到基礎模型,再利用下游任務的有標注數據進行有監督學習微調模型參數,實現下游任務的適配。規模越大的模型不僅在已知任務上有著更好的表現,同時展現出完成更復雜的未知任務的強大泛化能力。資料來源:CSD

13、N、國信證券經濟研究所整理大模型示意圖大模型示意圖資料來源:清華大學、國信證券經濟研究所整理基礎模型的“預訓練-微調”范式與傳統深度學習區別基礎模型的“預訓練-微調”范式與傳統深度學習區別請務必閱讀正文之后的免責聲明及其項下所有內容1.1 AI工程化門檻不斷降低,有望重新定義生產力1.1 AI工程化門檻不斷降低,有望重新定義生產力AI工程化門檻不斷降低,有望重新定義生產力AI工程化門檻不斷降低,有望重新定義生產力AI的1.0時代:AI的1.0時代:存在模型碎片化明顯、AI泛化能力不足等問題,導致大多數行業需要花費巨大成本來收集和標注數據,從而導致規模不經濟,而且下游場景存在諸多細分小場景,其商

14、業化價值小、有效數據少、模型訓練不足。AI的2.O時代:AI的2.O時代:“預訓練+微調”大模型能顯著降低AI工程化門檻,預訓練大模型在海量數據的學習訓練后具有良好的通用性和泛化性,細分場景的應用廠商能夠基于大模型通過零樣本、小樣本學習即可獲得顯著的效果,使得人工智能有望構建成統一的智能底座,AI+賦能各行各業。本輪的生成式AI有望從簡單的內容生成,逐步達到具有預測、決策、探索等更高的認知智能。資料來源:創新工場、國信證券經濟研究所整理人工智能1.0時代與2.0時代人工智能1.0時代與2.0時代資料來源:IDC、國信證券經濟研究所整理大模型將顯著降低人工智能應用門檻大模型將顯著降低人工智能應用

15、門檻請務必閱讀正文之后的免責聲明及其項下所有內容1.2 產業分類:AI產業鏈主要包括基礎層、技術層、應用層三大層1.2 產業分類:AI產業鏈主要包括基礎層、技術層、應用層三大層人工智能產業鏈可分為基礎層、技術層和應用層三大層面:人工智能產業鏈可分為基礎層、技術層和應用層三大層面:基礎層基礎層:側重基礎支撐平臺的搭建,包含傳感器、AI芯片、數據服務和計算平臺;技術層:技術層:側重核心技術的研發,主要包括算法模型、基礎框架、通用技術;應用層:應用層:注重產業應用發展主要包含行業解決方案服務、硬件產品和軟件產品。農業交通工業教育安防醫療零售金融行業應用行業應用應用層應用層智能搜索系統智能語音識別系統

16、智能無人機智能機器人產品應用產品應用計算機視覺機器問答智能語音自然語言處理通用技術通用技術技術層技術層增強學習深度學習機器學習算法模型算法模型神經網絡分布式計算分布式存儲基礎框架基礎框架其他傳感器聲學傳感器光學傳感器傳感器傳感器基礎層基礎層ASICFPGAGPU芯片芯片數據處理數據采集數據服務計算平臺計算平臺資料來源:36氪研究院、國信證券經濟研究所整理人工智能產業鏈人工智能產業鏈請務必閱讀正文之后的免責聲明及其項下所有內容AI模型大致可以分為決策式AI和生成式AI兩種。AI模型大致可以分為決策式AI和生成式AI兩種。決策式AI指學習數據中的條件概率分布,根據已有數據進行分析、判斷、預測,主要

17、應用模型有用于推薦系統和風控系統的輔助決策、用于自動駕駛和機器人的決策智能體。生成式AI指學習數據中的聯合概率分布,并非簡單分析已有數據而是學習歸納已有數據后進行演技創造,基于歷史進行模仿式、縫合式創作,生成了全新的內容,也能解決判別問題。中國生成式AI商業應用規模迎來快速增長,預計2025年破兩千億。中國生成式AI商業應用規模迎來快速增長,預計2025年破兩千億。根據中關村大數據產業聯盟發布的中國AI數字商業展望2021-2025報告披露,到2025年,中國生成式AI商業應用規模將達到2070億元,未來五年的年均增速84%。根據Gartner2021年預測:人工智能對人類和社會的影響給出的積

18、極預測,到2023年,將有20%的內容被生成式AI所創建。至2025年,預計生成式AI產生的數據將占所有數據的10%。1.2 產業分類:AI模型可分為決策式AI與生成式AI1.2 產業分類:AI模型可分為決策式AI與生成式AI109834366310771606207005001000150020002500202020212022202320242025資料來源:知乎、國信證券經濟研究所整理生成式AI應用場景生成式AI應用場景資料來源:中國AI數字產業展望2021-2025、國信證券經濟研究所整理2020-2025年中國生成式AI技術棧應用規模(億元)2020-2025年中國生成式AI技術棧

19、應用規模(億元)請務必閱讀正文之后的免責聲明及其項下所有內容人工智能在經歷前期技術積累和迭代后,逐漸突破傳統分析型AI領域,迎來生成式AI的爆發期。人工智能在經歷前期技術積累和迭代后,逐漸突破傳統分析型AI領域,迎來生成式AI的爆發期。從2012年至今,生成式AI急速發展,其源頭就是DNN算法的升級,實現了語音和圖像識別等功能。生成式AI市場前景廣闊,賽道內誕生多家獨角獸企業。生成式AI市場前景廣闊,賽道內誕生多家獨角獸企業。據波士頓咨詢預測,至2025年生成式人工智能的市場規模將至少達到600億美元,而其中大約30%的AI應用將來自廣義的生成式AI技術。隨著生成式AI模型的進一步完善,自主創

20、作和內容生產的門檻將大大降低,市場響應該領域的巨大需求,在2019-2022年間共有7家獨角獸公司誕生,截至2023年2月,這七家的估值合計達到644億美元,其中OpenAI借助旗下產品ChatGPT爆火的東風,一家公司的估值便突破290億美元。1.3 AI產業正在逐漸從傳統分析型AI走向生成式AI1.3 AI產業正在逐漸從傳統分析型AI走向生成式AI11290130796101540160100200300400500600700800900OpenAIgrammarlyadagleanJasperstability.aiCREASTA201920202022公司市值(億美元)資料來源:澳財

21、、國信證券經濟研究所整理生成式AI競爭格局生成式AI競爭格局資料來源:CSDN、國信證券經濟研究所整理生成式AI領域獨角獸公司及其公司市值(億美元)生成式AI領域獨角獸公司及其公司市值(億美元)請務必閱讀正文之后的免責聲明及其項下所有內容1.3 生成式AI在文本、代碼、圖片、語音等領域應用廣闊1.3 生成式AI在文本、代碼、圖片、語音等領域應用廣闊生成式AI在文本(Text)、代碼生成(Code generation)、圖片(Images)、語音合成(Speech synthesis)、視頻和3D模型等領域生成式AI在文本(Text)、代碼生成(Code generation)、圖片(Imag

22、es)、語音合成(Speech synthesis)、視頻和3D模型等領域擁有廣闊的應用場景。擁有廣闊的應用場景。資料來源:紅杉資本、國信證券經濟研究所整理AIGC三大前沿能力AIGC三大前沿能力請務必閱讀正文之后的免責聲明及其項下所有內容1.3 AIGC具備三大前沿能力,生成式AI有望帶動新一輪創新周期1.3 AIGC具備三大前沿能力,生成式AI有望帶動新一輪創新周期AIGC具備三大前沿能力,未來應用空間廣闊。AIGC具備三大前沿能力,未來應用空間廣闊。AIGC發展火熱,以chatgpt為代表的問答機器人,逐步走向大眾視野。AIGC(AI-Generated Content)即人工智能生產內

23、容,可用于代碼生成、文本問答、圖像生成等。AIGC是繼專業生成內容(PGC)和用戶生成內容(UGC)之后,利用人工智能技術生成內容的新生產方式。AIGC技術演化出三大前沿技術能力:數字內容孿生、數字內容的智能編輯、數字內容的智能創作。ChatGPT能理解并生成文字,屬于AIGC技術應用中的文本生成模態應用模型。根據Gartner測算,當前AIGC占所有生成數據小于1%,AIGC生成數據滲透率有廣闊提升空間,預計該數字到2025年或上升至10%。AIGC產業鏈上游主要提供AI技術及基礎設施,包括數據供給方、數據分析及標注、創造者生態層、相關算法等。AIGC應用對數字基礎設施要求較高,隨著Chat

24、GPT掀起AIGC發展浪潮,數據基礎設施有望加速升級。中游主要針對文字、圖像、視頻等垂直賽道,提供數據開發及管理工具,包括內容設計、運營增效、數據梳理等服務。下游包括內容終端市場、內容服務及分發平臺、各類數字素材以及智能設備,AIGC內容檢測等。資料來源:中國信通院、國信證券經濟研究所整理AIGC三大前沿能力AIGC三大前沿能力資料來源:量子位智庫、國信證券經濟研究所整理AIGC產業鏈AIGC產業鏈請務必閱讀正文之后的免責聲明及其項下所有內容2、海外玩家:OpenAI持續領先,谷歌等巨頭紛紛布局2、海外玩家:OpenAI持續領先,谷歌等巨頭紛紛布局請務必閱讀正文之后的免責聲明及其項下所有內容2

25、.1 OpenAI發展歷程(1):2.1 OpenAI發展歷程(1):OpenAI的發展歷程分為四個階段:OpenAI的發展歷程分為四個階段:階段一:2015年OpenAI首席執行官阿爾特曼,與埃隆馬斯克等人宣布出資10億美元,創立了非營利性研究機構OpenAI。階段二:2019年OpenAI的架構進行了調整,調整后變身為兩家機構營利性機構OpenAI LP和最初的非營利機構OpenAI,Inc。階段三:從2019年開始,微軟與OpenAI建立了戰略合作伙伴關系,不少于三次投資,共投入130億美元,成為OpenAI最大的有限合伙人。OpenAI LP從成立之初參與投資的VC,也成為有限合伙人。

26、階段四:在OpenAI未來盈利后,逐步回報投資人:1、優先保證OpenAI的首批投資者收回初始資本;2、微軟投資完成、OpenAI LP首批投資人收回初始投資后,微軟有權獲得OpenAI LP 75%利潤;3、微軟收回130億美元投資、從OpenAI LP獲得920億美元利潤后,它分享利潤的比例從75%降到49%;4、OpenAI LP產生的利潤達到1500億美元后,微軟和其他風險投資者的股份將無償轉讓給OpenAI LP的普通合伙人非營利機構OpenAI,Inc。資料來源:OpenAI官網、國信證券經濟研究所整理OpenAI發展階段OpenAI發展階段2015非營利性研究機構OpenAI微軟

27、成為OpenAI最大的有限合伙人調整為OpenAI LP和OpenAI IncOpenAI給予投資人回報20192019至今未來盈利后OpenAI首席執行官阿爾特曼與埃隆馬斯克等人宣布出資10億美元,創立非營利性研究機構OpenAIOpenAI的架構進行了調整,變為兩家機構營利性機構OpenAI LP和最初的非營利機構OpenAI Inc從 2019 年 開 始,微 軟 與OpenAI建立了戰略合作伙伴關系,不少于三次投資,共投入130億美元,成為OpenAI最大的有限合伙人OpenAI選擇了一種新的股權投資協議模式以投資回報速度代替投資回報水平請務必閱讀正文之后的免責聲明及其項下所有內容2.

28、1 OpenAI發展歷程(2):OpenAI成立于2015年2.1 OpenAI發展歷程(2):OpenAI成立于2015年自2013年起人工智能迎來發展高潮。自2013年起人工智能迎來發展高潮。2006年Hinton提出“深度學習”神經網絡使得人工智能性能獲得突破性進展,在2013年深度學習宣發在語音和視覺識別上取得成功,識別率分別超過99%和95%,人工智能進入感知智能時代。在此期間全球人工智能市場保持高速增長,截至2015年全球AI市場規模達到74.5億美元,而且愈發受到投資機構青睞,投資額從2012年的0.62億元提升至2015年的142.3億美元,增長幅度達到2195.16%。201

29、5年OpenAI作為一家非營利性人工智能研究公司創立。2015年OpenAI作為一家非營利性人工智能研究公司創立?;谌斯ぶ悄芨咚侔l展的背景,Openai由Elon Musk,Sam Altman(美國創業孵化器總裁)及Pieter Abbeel(PayPal聯合創始人)等人創建,在創立之初由Elon Musk和Sam Altman擔任其聯合主席,由PieterAbbeel等人擔任顧問。資料來源:OpenAI官網、國信證券經濟研究所整理OpenAI初創成員及其擔任職務OpenAI初創成員及其擔任職務資料來源:艾瑞咨詢、國信證券經濟研究所整理2012-2015年人工智能行業投資次數和金額2012

30、-2015年人工智能行業投資次數和金額6.2 46.0 81.0 142.3 9182643051015202530354045500.020.040.060.080.0100.0120.0140.0160.02012201320142015投資額(千萬元)投資次數(次)請務必閱讀正文之后的免責聲明及其項下所有內容2.1 OpenAI發展歷程(3):2016年發布第一個開源平臺2.1 OpenAI發展歷程(3):2016年發布第一個開源平臺2016年4月,OpenAI發布了第一個項目OpenAI Gym Beta。2016年4月,OpenAI發布了第一個項目OpenAI Gym Beta。Op

31、enAI Gym是由OpenAI開發的一個開源平臺,旨在在各種強化學習問題中加速算法的開發和比較,該工具也是OpenAI第一個開放的成果。Gym的核心組件是環境(Environment)和智能體(Agent)。Gym的核心組件是環境(Environment)和智能體(Agent)。環境是一個可觀察到的系統,它定義了智能體如何與外部世界交互;智能體則是一個能夠感知到和影響環境的程序,是訓練和優化的對象。Gym提供了許多強化學習問題的標準化環境。Gym提供了許多強化學習問題的標準化環境。例如經典控制問題(Classic control),Atari游戲,甚至是Roboschool等物理模擬環境。資

32、料來源:OpenAI官網、國信證券經濟研究所整理GYM基本應用示意圖GYM基本應用示意圖資料來源:OpenAI官網、國信證券經濟研究所整理Universe基礎設施和應用示意圖Universe基礎設施和應用示意圖請務必閱讀正文之后的免責聲明及其項下所有內容2.1 OpenAI發展歷程(4):2017年公布最新強化學習算法PPO2.1 OpenAI發展歷程(4):2017年公布最新強化學習算法PPO2017年7月,OpenAI公布最新強化學習算法PPO(Proximal Policy Optimization),好于同期最強的算法模型,成為openai默認的強化2017年7月,OpenAI公布最新

33、強化學習算法PPO(Proximal Policy Optimization),好于同期最強的算法模型,成為openai默認的強化學習算法。學習算法。PPO包含三方面的技術進步:1.代理策略和價值函數的優化,在PPO算法中,同時優化代理策略和價值函數(ValueFunction),通過在最大化獎勵的同時最大化代理策略和價值函數的梯度,同時對這兩者進行優化;2.剪輯代理策略更新是PPO算法的核心部分,該方法通過使用約束優化來保證新的策略不會太遠離舊的策略,減輕了過渡調整代理策略的問題,并提高總體穩定性;3.優化函數的選擇,在PPO算法中,需要選擇合適的優化函數來最大化代理策略和價值函數的梯度,常

34、用的優化函數包括Adam、SGD和RMSProp等。資料來源:OpenAI官網、國信證券經濟研究所整理新的目標函數可以在連續任務方面表現出優異性能新的目標函數可以在連續任務方面表現出優異性能資料來源:OpenAI官網、國信證券經濟研究所整理策略梯度解決方案正獎錯罰策略梯度解決方案正獎錯罰請務必閱讀正文之后的免責聲明及其項下所有內容2.1 OpenAI發展歷程(5):2018年發布第一代transformer的GPT模型2.1 OpenAI發展歷程(5):2018年發布第一代transformer的GPT模型2018年6月,OpenAI公布了第一個將transformer與無監督的預訓練技術相結

35、合的GPT模型,其取得的效果要好于當前的已知算法。2018年6月,OpenAI公布了第一個將transformer與無監督的預訓練技術相結合的GPT模型,其取得的效果要好于當前的已知算法。該模型被稱為GPT-1,并由一個具有10億個參數的單層transformer組成。這一模型的訓練使用了大規模的無監督語料庫,使它能夠生成各種自然語言處理任務的有力表現。同月OpenAI宣布他們的OpenAI Five已經開始在Dota2游戲中擊敗業余人類團隊,OpenAIFive使用了256個P100 GPUs和128000個CPU核,通過每天玩180年時長的游戲來訓練模型。在同年8月份的專業比賽中,Open

36、AIFive輸掉了2場與頂級選手的比賽,但是比賽的前25-30分鐘內,OpenAI Five的模型的有著十分良好的表現。OpenAI Five繼續發展并在2019年4月15日宣布打敗了當時的Dota2世界冠軍。資料來源:OpenAI官網、國信證券經濟研究所整理GPT可以顯著提高在復雜NLP任務中的表現GPT可以顯著提高在復雜NLP任務中的表現資料來源:OpenAI官網、國信證券經濟研究所整理OpenAIFive與早期游戲機器人的參數對比OpenAIFive與早期游戲機器人的參數對比請務必閱讀正文之后的免責聲明及其項下所有內容2.1 OpenAI發展歷程(6):生成模型開始拓展至其他領域2.1

37、OpenAI發展歷程(6):生成模型開始拓展至其他領域2019年2月,OpenAI在博客Better Language Models and Their Implications中官宣GPT-2模型。2019年2月,OpenAI在博客Better Language Models and Their Implications中官宣GPT-2模型。GPT-2模型擁有15億參數,基于800萬網頁數據訓練,該模型就是GPT的規?;Y果,在10倍以上的數據以10倍以上的參數訓練。OpenAI在2月份GPT-2發布的時候僅僅公開了他們的1.24億版本的預訓練結果,其后的5月份發布了3.55億參數版本的預訓

38、練結果,并在半年后的8月份發布了一個7.74億參數版本的GPT-2預訓練結果。2019年11月5日,15億參數的完整版本的GPT-2預訓練結果發布。2019年3月,OpenAI將生成模型開始拓展至其他領域。2019年3月,OpenAI將生成模型開始拓展至其他領域。同年3月4日,OpenAI發布了一個用于強化學習代理的大規模多代理游戲環境:Neural MMO。該平臺支持在一個持久的、開放的任務中的存在大量的、可變的agent。4月25日,OpenAI繼續公布最新的研究成果:MuseNet,這是一個深度神經網絡,可以用10種不同的樂器生成4分鐘的音樂作品,并且可以結合多種音樂風格。資料來源:Op

39、enAI官網、國信證券經濟研究所整理GPT-2在zero-shot的條件下的NLP任務中取得極大進展GPT-2在zero-shot的條件下的NLP任務中取得極大進展資料來源:OpenAI官網、國信證券經濟研究所整理利用Sparse Transformers的原理可以生成音頻利用Sparse Transformers的原理可以生成音頻請務必閱讀正文之后的免責聲明及其項下所有內容2.1 OpenAI發展歷程(7):2020年發布預訓練大模型GPT-32.1 OpenAI發展歷程(7):2020年發布預訓練大模型GPT-32020年5月,OpenAI正式公布了彼時全球最大的預訓練模型GPT-3相關的

40、研究結果,參數達到1750億。2020年5月,OpenAI正式公布了彼時全球最大的預訓練模型GPT-3相關的研究結果,參數達到1750億。OpenAI的研究人員直接提交了論文Language Models are Few-Shot Learners宣布了GPT-3的誕生,但是該模型在9月份便商業化授權給了微軟。2020年6月,OpenAI發布了ImageGPT模型。2020年6月,OpenAI發布了ImageGPT模型。該模型將GPT的成功引入計算機視覺領域,也正是該模型證明了transformer是與領域無關的,都是從序列中建模,因此計算機視覺領域依然可以使用。2022年全年,OpenAI不

41、斷發布針對GPT-3的優化版本,在長文本關系、多步邏輯推理關系以及理解人類說話的能力方面大幅提升。2022年全年,OpenAI不斷發布針對GPT-3的優化版本,在長文本關系、多步邏輯推理關系以及理解人類說話的能力方面大幅提升。1月,OpenAI發布InstructGPT,相較于GPT-3可以更為清晰的理解人類語言和用戶意圖,同時作為一個AI通話系統,也是公司收費的API。4月,新版本GPT-3和Codex發布,新增了編輯和插入新內容的能力。9月,OpenAI發布了Whispe語音識別預訓練模型,結果逼近人類水平,同時支持多種語言。除對GPT模型不斷優化外,在圖片預訓練和視頻預訓練方面OpenA

42、I都有所進展。7月OpenAI發布DALLE2,在初代的基礎上,生成圖片更加逼真、細節更加豐富且解析度更高;6月通過視頻預訓練,在只使用少量標簽數據和微調的條件下,訓練了神經網絡在Minecraft學習制作鉆石工具(這項任務通常需要熟練的人類花費超過20分鐘)。資料來源:OpenAI官網、國信證券經濟研究所整理DALLE2性能提升示例DALLE2性能提升示例資料來源:OpenAI官網、國信證券經濟研究所整理增加模型訓練量可以帶來更好的性能增加模型訓練量可以帶來更好的性能請務必閱讀正文之后的免責聲明及其項下所有內容2.2 GPT迭代過程:目前GPT已迭代了五代模型2.2 GPT迭代過程:目前GP

43、T已迭代了五代模型GPT的發展可大致分為四個階段:GPT-1、GPT-2、GPT-3、ChatGPT以及GPT4。GPT的發展可大致分為四個階段:GPT-1、GPT-2、GPT-3、ChatGPT以及GPT4。GPT-1:2018年6月,OpenAI公布了第一個將transformer與無監督的預訓練技術相結合的GPT模型。GPT-1:2018年6月,OpenAI公布了第一個將transformer與無監督的預訓練技術相結合的GPT模型。GPT-1模型架構基于Transformer模型,通過學習大量未標記的文本數據,可以在大規模任務上進行預測。模型參數量為1.17億。GPT-2:2019年2月

44、,OpenAI在博客Better Language Models and Their Implications中官宣GPT-2模型。GPT-2:2019年2月,OpenAI在博客Better Language Models and Their Implications中官宣GPT-2模型。GPT-2是一種基于Transformer架構的自然語言處理模型,使用了無監督預訓練的技術,允許GPT-2從未標注的文本數據中學習語言模型。模型參數量為15億。GPT-3:2020年5月,OpenAI的研究人員提交論文Language Models are Few-Shot Learners宣布了GPT-3的

45、誕生。GPT-3:2020年5月,OpenAI的研究人員提交論文Language Models are Few-Shot Learners宣布了GPT-3的誕生。GPT-3具有少樣本及零樣本學習的能力,即可以在沒有接受特定任務或領域訓練的情況下產生有意義的輸出。模型參數量為1750億。ChatGPT:2022年11月,OpenAI正式推出了對話交互式的ChatGPT。相比于GPT-3,ChatGPT:2022年11月,OpenAI正式推出了對話交互式的ChatGPT。相比于GPT-3,ChatGPT引入了基于人類反饋的強化學習(RLHF)技術以及獎勵機制,提高模型準確度。GPT-4:2023年

46、3月,OpenAI正式推出GPT-4,成為目前較先進的多模態大模型。GPT-4:2023年3月,OpenAI正式推出GPT-4,成為目前較先進的多模態大模型。GPT-4主要在識別理解能力、創作寫作能力、處理文本量以及自定義身份屬性迭代方面取得進展。資料來源:OpenAI官網、國信證券經濟研究所整理OpenAI發展階段OpenAI發展階段GPT-1GPT-2instructGPTGPT-3ChatGPTGPT-42018/062019/022020/052022/032022/122023/03首次提出生成式預訓練模型參數量為1.17億建模對話歷史能力顯著提升基于人類反饋指令微調SFT+RLHF

47、模型參數量為13億少樣本及零樣本學習模型參數量為1750億使用無監督訓練技術模型參數量為15億接受圖像和文本輸入,是目前較先進的多模態大模型。請務必閱讀正文之后的免責聲明及其項下所有內容2.2 GPT迭代過程之GPT-1:GPT-1采用多層Transformer架構2.2 GPT迭代過程之GPT-1:GPT-1采用多層Transformer架構GPT-1采用了多層Transformer架構,整體架構為:輸入層-n個Transformer塊-輸出層。GPT-1采用了多層Transformer架構,整體架構為:輸入層-n個Transformer塊-輸出層。輸入層采用的是基于字節對編碼(BPE,By

48、te Pair Encoding)的方式,將原始文本編碼成固定長度的向量作為模型的輸入。接下來,模型將這些向量輸入到n個Transformer塊中進行處理,每個Transformer塊又包含了若干個子層,包括多頭自注意力子層和全連接前饋網絡子層。這些子層形成了Transformer塊的主體結構,每個子層處理不同的輸入信息,其中多頭自注意力子層用于計算每個詞在上下文中的重要性,全連接前饋網絡子層用于提取特征并生成新的表示。最后,模型將最后一層Transformer塊的輸出向量輸入到輸出層中,生成對下一個單詞的預測。整個過程被稱為生成式預訓練(Generative Pre-training)。GP

49、T-1的訓練過程包括預訓練和微調兩個階段。GPT-1的訓練過程包括預訓練和微調兩個階段。首先,GPT-1使用了大規模的未標注文本數據進行預訓練,這個階段包括多層的Transformer架構和預測下一個單詞的任務。在預訓練完成后,GPT-1使用帶標簽的數據在特定任務上進行微調,例如基于分類任務的微調、基于序列標注任務的微調等。GPT-1的缺陷在于遺忘上下文,對長文本建模時存在困難;因其訓練集僅為維基百科的大規模文本訓練,因此在專業領域表現較差。GPT-1的缺陷在于遺忘上下文,對長文本建模時存在困難;因其訓練集僅為維基百科的大規模文本訓練,因此在專業領域表現較差。資料來源:CSDN、國信證券經濟研

50、究所整理transformer的基本結構(左)&GPT-1應用到不同任務上輸入數據的變換方式(右)transformer的基本結構(左)&GPT-1應用到不同任務上輸入數據的變換方式(右)請務必閱讀正文之后的免責聲明及其項下所有內容2.2 GPT迭代過程之GPT-2:采用更大的訓練集,并嘗試無監督訓練2.2 GPT迭代過程之GPT-2:采用更大的訓練集,并嘗試無監督訓練GPT-2采用更大的訓練集,并嘗試無監督訓練。GPT-2采用更大的訓練集,并嘗試無監督訓練。GPT-2為了解決GPT-1泛化能力弱的問題,開始采用zero-shot learning(零次學習)。GPT-2的訓練集為在Reddi

51、t上爬取的外鏈,構建了WebText數據集,包含了這4500萬個鏈接的文字子集,移除了所有的Wikipedia文檔(這部分是很多下游任務的數據源,為了避免數據集重疊而影響評估)。在架構上,GPT-2基本保持了與第一代相同的架構,但GPT-2將Transformer堆疊的層數增加到48層,隱層的維度為1600,參數量達到了15億。GPT-2取得了更為優異的實驗結果。GPT-2取得了更為優異的實驗結果。在8個語言模型任務中,僅僅通過zero-shot學習,GPT-2就有7個超過了state-of-the-art的方法;在“Childrens Book Test”數據集上的命名實體識別任務中,GPT

52、-2超過了state-of-the-art的方法約7%;“LAMBADA”是測試模型捕捉長期依賴的能力的數據集,GPT-2將困惑度從99.8降到了8.6;在閱讀理解數據中,GPT-2超過了4個baseline模型中的三個;在法譯英任務中,GPT-2在zero-shot學習的基礎上,超過了大多數的無監督方法,但是比有監督的state-of-the-art模型要差。資料來源:CSDN、國信證券經濟研究所整理GPT-1(左)和GPT-2(右)模型架構對比GPT-1(左)和GPT-2(右)模型架構對比資料來源:CSDN、國信證券經濟研究所整理隨著模型的增大,效果不斷提升隨著模型的增大,效果不斷提升請務

53、必閱讀正文之后的免責聲明及其項下所有內容2.2 GPT迭代過程之GPT-3:進一步解決過擬合問題,提升泛化能力2.2 GPT迭代過程之GPT-3:進一步解決過擬合問題,提升泛化能力降低成本、提升效率。降低成本、提升效率。GPT-3消除了對大量數據的需求,這些數據在用于訓練語言模型之前標記成本很高。通過使用預先訓練的模型,GPT-3可以通過“僅使用幾個標記樣本”來生成足夠的響應,從而在開發中實現更高的成本和時間效率。解決過度擬合、提升泛化能力。解決過度擬合、提升泛化能力。使用大量數據訓練模型可能會“過度擬合”,或者過多的數據會使模型無法準確執行?;蛘?,使用大量數據訓練模型也可以消除其在特定領域之

54、外“泛化”的能力,從而限制其性能能力。構建機器學習算法時,它們利用示例數據集來訓練模型。但是,當模型在樣本數據上訓練時間過長或模型過于復雜時,它可以開始學習數據集中的“噪聲”或不相關的信息。當模型記住噪聲并且與訓練集擬合得太近時,模型就會變得“過度擬合”,并且無法很好地推廣到新數據。通過簡單的提示實現對話。通過簡單的提示實現對話。GPT-3由1750億個參數組成,比其前身“GPT-2”大100倍以上,后者僅包含15億個參數,比微軟5年推出的“圖靈 NLG”語言模型大10倍,后者由120億個參數組成。這表明GPT-3具有更高的性能和適用性,這進一步證實了它能夠超越跨越其他自然語言處理(“NLP”

55、)系統的“微調的先進算法”(“SOTA”)、語音識別和推薦系統。GPT-3具有175億個參數,在“少數鏡頭”設置下可以實現超過3%的響應精度。因此ChatGPT和GPT-3這樣的預訓練模型也“不需要大型監督數據集來學習大多數語言任務”,模仿人類對通常簡短指令的反應。資料來源:CSDN、國信證券經濟研究所整理GPT-3八種不同大小模型參數GPT-3八種不同大小模型參數資料來源:CSDN、國信證券經濟研究所整理Few shot取得更加準確的結果Few shot取得更加準確的結果請務必閱讀正文之后的免責聲明及其項下所有內容2.2 GPT迭代過程之ChatGPT:加入強化學習,發布第四代模型2.2 G

56、PT迭代過程之ChatGPT:加入強化學習,發布第四代模型ChatGPT的訓練過程分為微調GPT3.5模型、訓練回報模型、強化學習來增強微調模型三步。ChatGPT的訓練過程分為微調GPT3.5模型、訓練回報模型、強化學習來增強微調模型三步。第一步:微調GPT3.5模型。讓GPT3.5在對話場景初步具備理解人類的意圖,從用戶的prompt集合中采樣,人工標注prompt對應的答案,然后將標注好的prompt和對應的答案去Fine-tune GPT3.5,經過微調的模型具備了一定理解人類意圖的能力。第二步:訓練回報模型。這一步通過人工標注數據訓練一個回報模型,讓回報模型來幫助評估回答的好不好。具

57、體做法是采樣用戶提交的prompt,先通過第一步微調的模型生成n個不同的答案,比如A、B、C、D。接下來人工對A、B、C、D按照相關性、有害性等標準標準并進行綜合打分。利用這個人工標準數據,采取pair-wise損失函數來訓練回報模型RM。第三步:強化學習來增強微調模型。使用第一步微調GPT3.5模型初始化PPO模型,采樣一批和前面用戶提交prompt不同的集合,使用PPO模型生成答案,使用第二步回報模型對答案打分。通過產生的策略梯度去更新PPO模型。這一步利用強化學習來鼓勵PPO模型生成更符合RM模型判別高質量的答案。資料來源:OpenAI官網、國信證券經濟研究所整理ChatGPT訓練流程C

58、hatGPT訓練流程資料來源:OpenAI官網、國信證券經濟研究所整理人類反饋模型在訓練中優于更大的監督模型人類反饋模型在訓練中優于更大的監督模型請務必閱讀正文之后的免責聲明及其項下所有內容2.2 GPT迭代過程之GPT-4:更具創造性且能夠接受更長的文本輸入2.2 GPT迭代過程之GPT-4:更具創造性且能夠接受更長的文本輸入創作寫作能力的飛躍。創作寫作能力的飛躍。GPT-4可以與用戶一起生成、編輯和迭代創意和技術寫作任務,包括創作歌曲、編寫劇本等任務,此外還可以學習用戶的寫作風格進行同風格創作,且創作時間遠低于人類所需時間。GPT-4處理文本量達到25000字左右,約等于ChatGPT的八

59、倍。GPT-4處理文本量達到25000字左右,約等于ChatGPT的八倍。除了在文本量方面的進展外,GPT-4對信息的處理聯系了上下文,是具有邏輯的分析,即GPT-4可以直接處理輸入鏈接中的信息。自定義身份屬性的迭代。自定義身份屬性的迭代。用戶可以在輸入框中增加對于生成文本的角色要求,GPT-4也可以做到深刻理解該命令需求,比如用戶命令GPT-4以某位名人的語氣活語言習慣進行對話。資料來源:OpenAI官網、國信證券經濟研究所整理GPT-4與OpenAI輸入文本量限制對比GPT-4與OpenAI輸入文本量限制對比資料來源:OpenAI官網、國信證券經濟研究所整理GPT-4自定義身份交流實例GP

60、T-4自定義身份交流實例請務必閱讀正文之后的免責聲明及其項下所有內容2.2 GPT迭代過程之GPT-4:更具創造性且能夠接受更長的文本輸入2.2 GPT迭代過程之GPT-4:更具創造性且能夠接受更長的文本輸入GPT-4可以接受文本和圖像形式的輸入,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。GPT-4可以接受文本和圖像形式的輸入,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。具體來說,GPT-4在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。在一系列領域包括帶有文本和照片的文檔、圖表或屏幕截圖上,GPT-4展示了與純文本輸入類似的功能

61、。此外,它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈。實際應用方面,OpenAI官網給出了7個視覺輸入例子:1、描述多張圖片內容,發現不合常理之處;2、根據圖表,推理作答;3、看圖考試;4、簡練指出圖片的違和之處;5、閱讀論文,總結摘要與解釋圖表;6、解讀人類梗圖;7、理解漫畫含義。GPT-4在真實性和有效性方面取得了突破級成果。GPT-4在真實性和有效性方面取得了突破級成果。GPT-4基于對抗性測試程序和ChatGPT得到的經驗教訓,對模型進行訓練運行,當有問題出現時,基礎模型可以以多種方式響應,為了得到用戶想要的答案,再使用RLHF對結果進行微調。資料來源:O

62、penAI官網、國信證券經濟研究所整理GPT-4可以深刻理解圖片不合理之處GPT-4可以深刻理解圖片不合理之處資料來源:OpenAI官網、國信證券經濟研究所整理GPT-4可以深刻理解圖片不合理之處GPT-4可以深刻理解圖片不合理之處請務必閱讀正文之后的免責聲明及其項下所有內容2.3 海外玩家之谷歌:谷歌大模型早期發展(1)2.3 海外玩家之谷歌:谷歌大模型早期發展(1)2014年1月26日Google收購Deepmind。2014年1月26日Google收購Deepmind。該事件成為谷歌人工智能新一階段起點,之后由Deepmind開發的Alphago于2016年戰勝人類世界圍棋冠軍。2017

63、年谷歌發布開源的神經網絡架構Transformer模型。2017年谷歌發布開源的神經網絡架構Transformer模型。該模型首次在“Attention is all you need”一文中提出,在論文中該模型主要是被用于克服機器翻譯任務中傳統網絡訓練時間過長,難以較好實現并行計算的問題,后來,由于該方法在語序特征的提取效果由于傳統的RNN、LSTM而被逐漸應用至各個領域。2018年10月,谷歌發布Bert。2018年10月,谷歌發布Bert。該大模型基于Transformer架構,在斯坦福大學機器閱讀理解水平測試SQuAD1.1中,Bert在全部兩個衡量指標上,全面超越人類表現。同年Ope

64、nAI發布GPT-1,同樣基于Transformer架構。資料來源:CSDN、國信證券經濟研究所整理Transformer整體架構:輸入、輸出、編碼器、解碼器Transformer整體架構:輸入、輸出、編碼器、解碼器資料來源:CSDN、國信證券經濟研究所整理谷歌大模型發展歷程谷歌大模型發展歷程2014年谷歌收購Deepmind2017年谷歌發布Transformer2018年谷歌發布Bert2021年谷歌發布LaMDA2021年谷歌發布MUM2023年谷歌發布Bard請務必閱讀正文之后的免責聲明及其項下所有內容2.3 海外玩家之谷歌:谷歌大模型早期發展(2)2.3 海外玩家之谷歌:谷歌大模型早

65、期發展(2)2021年5月18日谷歌在谷歌I/O大會發布LaMDA大模型。2021年5月18日谷歌在谷歌I/O大會發布LaMDA大模型。LaMDA的全稱LanguageModel for Dialogue Applications,是一種能力強大的語言模型,適用于對話應用程序。LaMDA經過兩階段訓練:預訓練和微調,在預訓練階段,谷歌首先從公共對話數據和其他公共網頁文檔中收集并創建了一個具有1.56T單詞的數據集;在微調階段,谷歌訓練 LaMDA,執行混合生成任務以生成對給定上下文的自然語言響應,執行關于響應是否安全和高質量的分類任務,最終生成一個兩種任務都能做的多任務模型。2021年5月18

66、日谷歌在谷歌I/O大會發布多任務統一模型MUM。2021年5月18日谷歌在谷歌I/O大會發布多任務統一模型MUM。MUM不僅可以理解語言,而且可以生成語言;MUM 同時用 75 種不同的語言進行了多項任務的訓練,使其比以前的模型更全面地理解信息;MUM是多模態的,能夠理解文本和圖像中的信息。資料來源:CSDN、國信證券經濟研究所整理LaMDA與預訓練模型(PT)、人類評估者生成對話對比LaMDA與預訓練模型(PT)、人類評估者生成對話對比資料來源:hrefgo、國信證券經濟研究所整理基于MUM的“拓寬/優化此搜索”功能基于MUM的“拓寬/優化此搜索”功能請務必閱讀正文之后的免責聲明及其項下所有

67、內容2.3 海外玩家之谷歌:谷歌發布對話式AI Bard2.3 海外玩家之谷歌:谷歌發布對話式AI Bard2023年2月6日,谷歌宣布發布Bard新對話式人工智能技術應用。2023年2月6日,谷歌宣布發布Bard新對話式人工智能技術應用。Bard由谷歌的大型語言模型LaMDA,即對話應用程序語言模型提供支持。2023年3月21日,谷歌正式宣布開放Bard的訪問權限。2023年3月21日,谷歌正式宣布開放Bard的訪問權限。Bard采用了先進的深度學習算法,具有包括翻譯、摘要等在內的一系列能力,并由大量文本提供支持。與ChatGPT相比,從功能來看,ChatGPT通曉多種語言,而Bard暫時只

68、能進行英文對話;從編程能力來看,ChatGPT能生成大段可用的代碼,但Bard的這一功能暫不可用;在生成內容的形式方面,ChatGPT一次只能作出一個回應,而Bard一次性創建幾個不同的版本,供用戶從中擇優選用。資料來源:谷歌官網、國信證券經濟研究所整理Bard使用范例,給出多版本答案Bard使用范例,給出多版本答案資料來源:CSDN、國信證券經濟研究所整理ChatGPT與Bard對比ChatGPT與Bard對比請務必閱讀正文之后的免責聲明及其項下所有內容2.3 海外玩家之谷歌:谷歌推出大型視覺語言模型PaLM-E2.3 海外玩家之谷歌:谷歌推出大型視覺語言模型PaLM-E2023年3月3月又

69、推出大型視覺語言模型PaLM-E。2023年3月3月又推出大型視覺語言模型PaLM-E。作為一種多模態具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,甚至將二者結合起來,處理復雜指令,通過PaLM-540B語言模型與ViT-22B視覺Transformer模型相結合,PaLM-E最終的參數量高達5620億。文本功能方面,文本功能方面,PaLM-E是一個僅有解碼器的LLM,在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式生成文本補全,其訓練數據為包含視覺、連續狀態估計和文本輸入編碼的多模式語句。圖像功能方面,圖像功能方面,經過單個圖像提示訓練,P

70、aLM-E不僅可以指導機器人完成各種復雜的任務,還可以生成描述圖像的語言。資料來源:CSDN、國信證券經濟研究所整理PaLM-E可進行復雜指令任務PaLM-E可進行復雜指令任務資料來源:CSDN、國信證券經濟研究所整理PaLM-E與執行單一任務機器人模型相比,性能明顯提高PaLM-E與執行單一任務機器人模型相比,性能明顯提高請務必閱讀正文之后的免責聲明及其項下所有內容2.3 海外玩家之Meta:發布大語言模型LLaMA2.3 海外玩家之Meta:發布大語言模型LLaMA2023年2月25日,Meta官網公布了一個新的大型語言模型 LLaMA(Large Language Model Meta

71、AI)。2023年2月25日,Meta官網公布了一個新的大型語言模型 LLaMA(Large Language Model Meta AI)。從參數規模來看,Meta提供有70億、130億、330億和650億四種參數規模的 LLaMA 模型,并用20種語言進行訓練,且具有以下特點:參數規模小,對算力要求低。參數規模小,對算力要求低。LLaMA參數規模相比 ChatGPT的底層模型OpenAI GPT-3有1750億(175B)個參數,LLaMA 模型的參數量很小。訓練數據多。訓練數據多。LLaMA的訓練數據集包括開放數據平臺Common Crawl、英文文檔數據集C4、代碼平臺GitHub、維

72、基百科、論文預印本平臺ArXiv。AI能力出眾。AI能力出眾。在邏輯推理等方面優于GPT-3,在代碼生成方面優于LaMDA和PaLM。資料來源:CSDN、國信證券經濟研究所整理LLaMA效果超越GPT-3LLaMA效果超越GPT-3資料來源:CSDN、國信證券經濟研究所整理LLaMA代碼生成表現優于LaMDA和PaLMLLaMA代碼生成表現優于LaMDA和PaLM請務必閱讀正文之后的免責聲明及其項下所有內容3、中國玩家:百度發布文心一言,本土玩家紛紛布局3、中國玩家:百度發布文心一言,本土玩家紛紛布局請務必閱讀正文之后的免責聲明及其項下所有內容2023年3月20日,百度正式推出百度版ChatG

73、PT文心一言。2023年3月20日,百度正式推出百度版ChatGPT文心一言。其發布時間線:2月7日官宣;13日確認將在3月亮相;截至15日有超百家企業接入;17日在2023 AI+工業互聯網高峰論壇上宣布,將通過百度智能云對外提供服務,率先在內容和信息相關的行業和場景落地;22日,李彥宏在財報信中表示,計劃將多項主流業務與文心一言整合;28日,文心一言新聞發布會定檔。文心一言目前主要展現出五大功能,并帶來三大產業機會。文心一言目前主要展現出五大功能,并帶來三大產業機會。其功能主要包括:(1)文學創作、(2)商業文案創作、(3)數理邏輯推算、(4)中文理解、(5)多模態生成。發布會上李彥宏提出

74、AI時代三大產業機會包括:新興云計算MaaS模型即服務;行業模型精調工業、金融、交通、能源、媒體等;應用開發文字、圖像、音視頻生成、數字人、3D生成等。3.1 百度:正式發布文心一言3.1 百度:正式發布文心一言35資料來源:百度官網、國信證券經濟研究所整理文心一言官宣后宣布接入的企業(1)文心一言官宣后宣布接入的企業(1)資料來源:百度官網、國信證券經濟研究所整理文心一言官宣后宣布接入的企業(2)文心一言官宣后宣布接入的企業(2)請務必閱讀正文之后的免責聲明及其項下所有內容文心一言主要由文心大模型提供支持。文心一言主要由文心大模型提供支持。百度文心NLP大模型主要經歷了三條主線的發展:第一、

75、文心ERNIE 3.0以及文心ERNIE 3.0 Titan模型,在SuperGLUE和GLUE都超過了人類排名第一的水平;第二、文心ERNIE在跨模態、跨語言以及長文檔、圖模型等方面取得發展,在多個榜單尤其是視覺語言相關榜單獲得第一;第三、生成式對話大模型文心PLATO推動了對話的連續性。文心一言擁有有監督精調、RLHF、提示構建、知識增強、檢索增強和對話增強六大核心技術。文心一言擁有有監督精調、RLHF、提示構建、知識增強、檢索增強和對話增強六大核心技術。其中前三項與ChatGPT的技術十分類似,知識增強包括知識內化(將知識“滲透”進模型參數中)和知識外用(指的是模型可以直接使用外部的知識

76、);檢索增強指基于百度搜索引擎,先對內容進行檢索,再篩選出有用的部分整合輸出結果;對話增強指記憶機制、上下文理解和對話規劃等技術。3.1 百度:文心一言由文心NLP大模型提供支持3.1 百度:文心一言由文心NLP大模型提供支持36資料來源:CSDN、國信證券經濟研究所整理文心大模型全景圖文心大模型全景圖資料來源:CSDN、國信證券經濟研究所整理文心大模型發展歷程文心大模型發展歷程請務必閱讀正文之后的免責聲明及其項下所有內容文心ERNIE:持續學習框架。文心ERNIE:持續學習框架。該模型可以從大規模知識圖譜和海量無結構數據中學習;能夠融合自編碼和自回歸結構,既理解語言,也生成語言。文心ERNI

77、E-M:跨語言大模型。文心ERNIE-M:跨語言大模型。首次突破雙語語料規模對多語言訓練模型效果的限制,使用統一模型建模96種語言,并且在自然語言推斷、語義相似度、閱讀理解、命名實體識別和跨語言檢索5類跨語言任務刷新世界記錄。文心ERNIE-ViLG:跨模態大模型。文心ERNIE-ViLG:跨模態大模型。兼顧文本到圖像的生成,以及圖像到文本的生成,參數規模已達百億級,并且在效果上領先于DALLE。文心ERNIE-Sage:圖模型。文心ERNIE-Sage:圖模型。通過結合語義圖知識結構信息以及與訓練方法,提升文本圖語義理解效果10+%。3.1 百度:知識增強大模型文心ERNIE分類介紹3.1

78、百度:知識增強大模型文心ERNIE分類介紹37資料來源:CSDN、國信證券經濟研究所整理文心ERNIE技術平臺全景圖文心ERNIE技術平臺全景圖資料來源:CSDN、國信證券經濟研究所整理文心ERNIE-ViLG模型架構文心ERNIE-ViLG模型架構請務必閱讀正文之后的免責聲明及其項下所有內容2022年9月2日,阿里達摩院發布通義大模型系列。2022年9月2日,阿里達摩院發布通義大模型系列。該模型打造了國內首個AI統一底座,并構建了通用與專業模型協同的層次化人工智能體系,首次實現模態表示、任務表示、模型結構的統一。通過這種統一學習范式,通義統一底座中的單一M6-OFA模型,在不引入任何新增結構

79、的情況下,可同時處理圖像描述、視覺定位、文生圖、視覺蘊含、文檔摘要等10余項單模態和跨模態任務,并達到國際領先水平。2023年3月,阿里達摩院已在AI模型社區“魔搭”ModelScope上線了“文本生成視頻大模型”。2023年3月,阿里達摩院已在AI模型社區“魔搭”ModelScope上線了“文本生成視頻大模型”。目前文本生成視頻大模型,由文本特征提取、文本特征到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這3個子網絡組成,整體模型參數約17億,目前僅支持英文輸入。擴散模型采用Unet3D 結構,通過從純高斯噪聲視頻中,迭代去噪的過程,實現視頻生成的功能。3.2 國內玩家之阿里:通義大模型打造

80、AI統一底座3.2 國內玩家之阿里:通義大模型打造AI統一底座38資料來源:CSDN、國信證券經濟研究所整理通義大模型架構通義大模型架構資料來源:OpenAI官網、國信證券經濟研究所整理大模型生成的一只在微波爐里的長頸鹿大模型生成的一只在微波爐里的長頸鹿請務必閱讀正文之后的免責聲明及其項下所有內容2022年4月,騰訊首次對外披露混元大模型,完整覆蓋NLP大模型、CV大模型、多模態大模型及眾多領域任務。2022年4月,騰訊首次對外披露混元大模型,完整覆蓋NLP大模型、CV大模型、多模態大模型及眾多領域任務。該模型在廣告內容理解、行業特征挖掘、文案創意生成等方面具備優勢和特色?;煸竽P陀商珮O機器

81、學習平臺提供底層支持?;煸竽P陀商珮O機器學習平臺提供底層支持。2015 年,太極機器學習平臺1.0誕生,是騰訊首個涵蓋“數據導入-特征工程-模型訓練在線服務“全流程的一站式機器學習平臺;2019 年,太極平臺聯合騰訊云,打造了三環境(內網/公有云/私有云)統一的“TI-ONE 機器學習平臺”,將機器學習平臺能力輸出給公網和私有云用戶,太極平臺服務騰訊內部業務;2022 年,為了解決“廣告模型迭代流程研發效率”問題,太極廣告一站式平臺上線,目標將廣告模型迭代業務流程通過“上太極”產品化,為廣告業務提供端到端的一站式模型研發體驗。3.3 國內玩家之騰訊:依托太極平臺,騰訊發布混元大模型3.3 國

82、內玩家之騰訊:依托太極平臺,騰訊發布混元大模型39資料來源:騰訊技術工程、國信證券經濟研究所整理太極機器學習平臺整體架構太極機器學習平臺整體架構資料來源:騰訊技術工程、國信證券經濟研究所整理太極機器學習平臺幫助實現廣告一站式產品化太極機器學習平臺幫助實現廣告一站式產品化請務必閱讀正文之后的免責聲明及其項下所有內容2021年4月華為發布“盤古大模型”,目前已經發展出包括基礎大模型(L0)、行業大模型(L1)、行業細分場景模型(L2)三大階段的成2021年4月華為發布“盤古大模型”,目前已經發展出包括基礎大模型(L0)、行業大模型(L1)、行業細分場景模型(L2)三大階段的成熟體系。熟體系。該模型

83、基于鵬城云腦 和全場景AI計算框架MindSpore的自動混合并行模式,實現在2048卡算力集群上的大規模分布式訓練,是國產全棧式AI基礎設施第一次支持2000億級超大規模語言模型訓練,實現16個下游任務中性能指標優于業界SOTA模型。ModelArts為華為大模型提供研發的平臺支持。ModelArts為華為大模型提供研發的平臺支持。ModelArts是一站式開發平臺,能夠支撐開發者從數據到AI應用的全流程開發過程,包含數據處理、模型訓練、模型管理、模型部署等操作,并且提供AI Gallery功能,能夠在市場內與其他開發者分享模型。支持圖像分類、物體檢測、視頻分析、語音識別、產品推薦、異常檢測

84、等多種AI應用場景。3.4 國內玩家之華為:千億參數大模型盤古大模型3.4 國內玩家之華為:千億參數大模型盤古大模型40資料來源:CSDN、國信證券經濟研究所整理ModelArts發展歷程ModelArts發展歷程資料來源:CSDN、國信證券經濟研究所整理ModelArts開發平臺架構ModelArts開發平臺架構請務必閱讀正文之后的免責聲明及其項下所有內容4、市場規模:模型參數不斷增加,算力需求快速增長4、市場規模:模型參數不斷增加,算力需求快速增長請務必閱讀正文之后的免責聲明及其項下所有內容4.1 全球AI市場到2024年將超六千億美元,復合增速27%4.1 全球AI市場到2024年將超六

85、千億美元,復合增速27%329.6544.9861.11372.41858.22603.43704.65397.77993.965.32%58.03%59.38%35.40%40.10%42.30%45.70%48.10%0%10%20%30%40%50%60%70%01,0002,0003,0004,0005,0006,0007,0008,0009,00020162017201820192020E2021E2022E2023E2024E全球AI市場規模預計到2024年將超六千億美元,復合增速27%。全球AI市場規模預計到2024年將超六千億美元,復合增速27%。據沙利文咨詢統計,2016-2

86、019年,全球市場規模從593億美元增長至2019年1918億美元,復合增長率約48%,預計2020年到2024年將以27%的年復合增長率繼續放量,并在2024年達到6158億美元。中國AI市場規模預計到2024年約八千億人民幣,復合增速44%。中國AI市場規模預計到2024年約八千億人民幣,復合增速44%。據沙利文咨詢統計,2016-2019年,中國市場規模從329.6億元增長至1372.4億元,復合增長率約61%,顯著高于全球整體增速水平,預計2020年到2024年將以44%的年復合增長率繼續放量,并在2024年突破7993億元。5931044143319182334.92902.3368

87、34732.76157.276.05%37.26%33.85%21.74%24.30%26.90%28.50%30.10%0%10%20%30%40%50%60%70%80%01,0002,0003,0004,0005,0006,0007,00020162017201820192020E2021E2022E2023E2024E資料來源:沙利文咨詢、國信證券經濟研究所整理全球人工智能市場規模(億美元)全球人工智能市場規模(億美元)資料來源:沙利文咨詢、國信證券經濟研究所整理中國人工智能市場規模(億元)中國人工智能市場規模(億元)請務必閱讀正文之后的免責聲明及其項下所有內容4.2 模型參數不斷增長

88、,算力需求持續增加4.2 模型參數不斷增長,算力需求持續增加GPT-1迭代至GPT-3,參數量增大1500倍,預訓練參數量擴大9000倍。GPT-1迭代至GPT-3,參數量增大1500倍,預訓練參數量擴大9000倍。GPT-1、GPT-2和GPT-3的參數量分別為1.17、15.4和1750億,預訓練數據量分別為5GB、40GB和45TB。此外在序列長度方面,由初代的512增長至2048,模型層數方面也有數倍增長。按照計算公式,算力需求與模型參數量呈正相關關系。按照計算公式,算力需求與模型參數量呈正相關關系。GPT的算力需求分別發生在訪問階段和訓練階段,訪問階段是指用戶在使用GPT時,因提出問

89、題所造成的算力消耗;訓練階段是指在訓練GPT模型時所消耗的算力。訪問階段的算力消耗是衡量chatgpt投入的關鍵指標,假設每天租用亞馬遜AWS云服務,每天成本為461.28*2315=106.79萬美元;在訓練階段,自建IDC:服務器成本約占數據中心成本30%左右,為滿足當前日常訪問需求,前期一次性成本。投入約為2315*19.9/30%=13.26億美元。資料來源:OpenAI官網、國信證券經濟研究所整理ChatGPT訓練流程ChatGPT訓練流程資料來源:中國信息通信研究院、國信證券經濟研究所整理2016-2022年中國算力總規模及增長率2016-2022年中國算力總規模及增長率GPT-3

90、GPT-2GPT-11750億15.4億1.17億參數量45TB40GB5GB預訓練數據量Pre-trainingPre-trainingPre-training+Fine-tuning訓練方式20481024512序列長度964812#of Decoder Layers122881600768Size of Hidden Layers3140578713514030029.03%42.50%52.63%55.17%3.70%114.29%0.00%20.00%40.00%60.00%80.00%100.00%120.00%05010015020025030035020162017201820

91、19202020212022E算力總規模(EFlops)同比增長(%)請務必閱讀正文之后的免責聲明及其項下所有內容4.2 AI算力需求不斷爆發,有望帶動AI服務器放量4.2 AI算力需求不斷爆發,有望帶動AI服務器放量英偉達在GPU領域的強勁實力使其成為HPC需求增長的受益者。英偉達在GPU領域的強勁實力使其成為HPC需求增長的受益者。目前GPT-3.5在微軟AzureAI超算基礎設施(英偉達V100GPU組成的高帶寬集群)上訓練是因為英偉達在AI和圖形處理器方面都達到全球領先的技術水平??紤]到該技術在處理與機器學習、深度學習、人工智能和數據挖掘相關的復雜工作負載方面的能力,超大規模數據中心和

92、高性能計算(“HPC”)細分市場對GPU的需求也很高。而“Nvidia A100”GPU 芯片制造商提供的眾多數據中心GPU之一就是這樣做的。該技術于 2020 年推出,基于上述Ampere 架構構建,性能比其前代產品高出 20倍。A100專為支持“數據分析,科學計算和云圖形”而設計。還有最近推出的基于Nvidia A100的“HGX AI超級計算機”平臺,該平臺能夠提供“實現HPC創新的極致性能”。超速服務器市場需求助推英偉達逐步替代英特爾。超速服務器市場需求助推英偉達逐步替代英特爾。目前全球GPU 架構的服務器出貨量遠高于CPU架構的,其中英偉達GPU對intel的替代其實是超速服務器的替

93、代。在超算,Ai訓練里,這類服務器的增長導致對GPU需求大幅提升,以中國為例,目前國內普通服務器一年出貨量再200億美金,增速11%;但是超速服務器,就是搭載GPU的服務器,一年出貨量大概是50億美金出頭,但是增速是87%。資料來源:CSDN、國信證券經濟研究所整理HPC用戶用到的50個較流行的應用程序中有34個提供GPU支持HPC用戶用到的50個較流行的應用程序中有34個提供GPU支持資料來源:Verified Market Research、國信證券經濟研究所整理美國商務部工業和安全局宣布對華進行高端芯片限制美國商務部工業和安全局宣布對華進行高端芯片限制254.1448.32465.105

94、0010001500200025003000202020222028E全球GPU市場規模(億美元)請務必閱讀正文之后的免責聲明及其項下所有內容4.2 AI算力需求不斷爆發,有望帶動AI服務器放量4.2 AI算力需求不斷爆發,有望帶動AI服務器放量英偉達立足當下,數據中心業務實現騰飛。英偉達立足當下,數據中心業務實現騰飛。2022年下半年,英偉達數據中心業務便實現高速增長超過市場預期,驅動2022年Q3增速比市場預期高了3億多,因此結合市場環境,2022Q4數據中心超過游戲占比是預期內的結果。公司2022Q4收入指引是74億美金,雖然環比預期給出了4.2%增長,相比單Q3環比9%增速低了一點,但

95、是它因為產品單價還在高位,不排除超預期的可能。英偉達布局未來,將持續從HPC需求市場中收益。英偉達布局未來,將持續從HPC需求市場中收益。英偉達通過“Grace”和“Hopper”架構進軍數據中心CPU和CPU+GPU超級芯片的最新嘗試也使其處于有利地位,可以捕捉GPT-3等需要顯著HPC性能的變壓器模型的需求:為OpenAI開發的超級計算機是一個單一系統,每個GPU服務器擁有超過28.5萬個CPU內核,1萬個GPU和每秒400千兆位的網絡連接。隨著英偉達硬件的計算性能和成本效率的提高,像GPT-3這樣的變壓器型號也將變得更加精細,使它們離商業化更近一步。對芯片和其他對實現人工智能用例至關重要

96、的基本硬件需求的最新研究預測顯示:到本世紀末,潛在市場將達到約1.7萬億美元,性能和成本效益的提高是市場持續擴張的關鍵驅動力。而這兩點(性能和成本效益的提高)也是英偉達繼續提供的兩方面優勢主要歸功于英偉達人工智能訓練加速器的性能一直在以驚人的速度進步,最新一代超高帶寬內存技術HBM2e比Nividia 5 K2014中的GDDR80內存快得多。由于Nvidia不僅實現了GPT-3等語言模型的實現化,而且還提高了未來所述變壓器模型部署的經濟性,該公司已準備好在未來幾年僅從HPC的強勁需求環境中受益。資料來源:NIVIDIA公司公告、國信證券經濟研究所整理英偉達數據中心收入及其占比逐季度提升英偉達

97、數據中心收入及其占比逐季度提升資料來源:NIVIDIA官網、國信證券經濟研究所整理NIVIDIA A100 GPU性能卓越升級NIVIDIA A100 GPU性能卓越升級114117521900190320482366293632633750380638333080386647265003566165077103764382286704593137.05%45.32%40.20%38.04%36.18%36.36%41.33%42.69%45.58%56.77%64.63%0.00%10.00%20.00%30.00%40.00%50.00%60.00%70.00%01000200030004

98、00050006000700080009000Q1 FY21 Q2 FY21 Q3 FY21 Q4 FY21 Q1 FY22 Q2 FY22 Q3 FY22 Q4 FY22 Q1 FY23 Q2 FY23 Q3 FY23數據中心收入(百萬美元)總收入(百萬美元)數據中心收入占比(%)請務必閱讀正文之后的免責聲明及其項下所有內容4.3 OpenAI官網點擊量不斷攀升,當前日活近六千萬4.3 OpenAI官網點擊量不斷攀升,當前日活近六千萬截至2023年3月16日ChatGPT日活人數達5800+萬。截至2023年3月16日ChatGPT日活人數達5800+萬。ChatGPT2022年11月30日

99、上線,上線一周獲得百萬注冊用戶,成為史上最快到百萬用戶的產品;2022年12月,日活用戶數突破1000萬;2023年3月份,ChatGPT日活人數已經突破5000萬人。日活用戶數的增長會帶來算力消耗的線性增長。日活用戶數的增長會帶來算力消耗的線性增長。根據算力消耗的計算假設,每位用戶平均每次訪問輸入的信息為1000字,也就意味著在用戶數增長你的同時,算力需求也會隨之線性增長,帶來更大的算力缺口。資料來源:similarweb、國信證券經濟研究所整理ChatGPT日活追蹤(截至2023年3月16日)ChatGPT日活追蹤(截至2023年3月16日)資料來源:similarweb、國信證券經濟研究

100、所整理ChatGPT周活追蹤(截至2023年3月9日)ChatGPT周活追蹤(截至2023年3月9日)010203040506070桌面端日活用戶(百萬)移動端日活用戶(百萬)52.0471.3775.2981.57110.72139.09148.33165.31193.16233.95263.60293.16306.48331.81050100150200250300350桌面端周活用戶(百萬)移動端周活用戶(百萬)請務必閱讀正文之后的免責聲明及其項下所有內容4.4 模型參數增加+用戶規模擴大,當前算力需求缺口龐大4.4 模型參數增加+用戶規模擴大,當前算力需求缺口龐大首先計算當前用戶規模下

101、,算力需求及成本情況:首先計算當前用戶規模下,算力需求及成本情況:第一步,拆解字。第一步,拆解字?!皌oken”是當前語言類模型的數據單位。當前的自回歸語言模型是根據 token 來作為單位進行數據處理和計算,分詞(tokenization)就是將句子、段落、文章這類型的長文本分解為以 token 為單位的數據結構,把文本分詞后每個詞表示成向量進行模型計算。例如在英文語境下,“happy”可能被分解為“hap”、“-py”兩個 token,中文語境下,“我很開心”可以分成“我”,“很”,“開心”三個token。資料來源:CSDN、國信證券經濟研究所整理ChatGPT算力成本計算流程圖ChatG

102、PT算力成本計算流程圖資料來源:CSDN、國信證券經濟研究所整理自回歸語言模型原理簡圖自回歸語言模型原理簡圖請務必閱讀正文之后的免責聲明及其項下所有內容4.4 模型參數增加+用戶規模擴大,當前算力需求缺口龐大4.4 模型參數增加+用戶規模擴大,當前算力需求缺口龐大第二步,計算A100算力單臺售價和租賃價格。第二步,計算A100算力單臺售價和租賃價格。以英偉達DGX A1OO服務器作為計算資源:(1)單臺服務器售價19.9萬美元;(2)采用云服務單天成本約為460美元。英偉達超算GPU系列從舊到新包括P100、V100、A100、H100等,三年迭代一次,一次算力提升3-5倍,最新的一代H100

103、,專門針對大模型開發,大約能提升算力9倍。按全球主要芯片還是A100,一個DGX服務器有8個A100系列GPU,AI算力性能為5PetaFLOP/s,單機最大功率6.5kw,售價19.9萬美元;如果租用云服務,在亞馬遜 AWS預定一年的A100系列 GPU,有8個A100的AWSP4實例的平均成本約19.22美元,一天的平均成本約為461.28美元。第三步,測算1000個字(英語)消耗的計算資源。第三步,測算1000個字(英語)消耗的計算資源。較常見的Transformer類語言模型在推理過程中每個token的計算成本(以FLOPs為指標)約為2N,其中N為模型參數數量(20年發布的GPT-3

104、擁有1750億參數,22年谷歌發布的PaLM擁有5400億參數,由于并未公布當前GPT3.5的參數數量,當前假定參數數量為3000億),假設模型的 FLOPS 利用率約為20%,粗略估計ChatGPT一個1000字(假設約1333個token,注:在英文語境下,一般1000個token=750個單詞)問題需要的算力資源為2*1333*3000億/20%=4PetaFLOP/S。資料來源:AWS官網、國信證券經濟研究所整理亞馬遜AWS收費模式按實際使用量付費亞馬遜AWS收費模式按實際使用量付費資料來源:AWS官網、國信證券經濟研究所整理亞馬遜AWS收費標準亞馬遜AWS收費標準請務必閱讀正文之后的

105、免責聲明及其項下所有內容4.4 模型參數增加+用戶規模擴大,當前算力需求缺口龐大4.4 模型參數增加+用戶規模擴大,當前算力需求缺口龐大第五步,計算自建成本和租賃成本。第五步,計算自建成本和租賃成本。自建IDC:服務器成本約占數據中心成本30%左右,為滿足當前日常訪問需求,前期一次性成本。投入約為2315*19.9/30%=13.26億美元。(這個數和目前產業里面得到數基本一致)云服務:假設每天租用亞馬遜AWS云服務,每天成本為461.28*2315=106.79萬美元OpenAI面臨著極為嚴峻的算力成本問題。OpenAI面臨著極為嚴峻的算力成本問題。隨著模型日益增大,OpenAI算力成本顯著

106、提高。根據國信計算機國內首發的有關ChatGPT算力準確測算的報告,當前ChatGPT的前期訓練階段一次性投入為3.99億美元,而后期訪問階段基于當前5000萬日活用戶的每日租用服務器成本為106.79萬美元/日,單是租用成本,每年便達到了3.9億美元。盡管這個數據看起來似乎對于收入來說依然有可能覆蓋,可是隨著GPT-4大模型的到來,參數量和訪問量將迎來百倍的增長,加上終端應用的算力消耗,光是對于英偉達的算力投入便能達到120億美元,之后的訪問階段的算力消耗和算力成本更是OpenAI完全無法覆蓋的數字,約為當前的一萬倍(參數量和訪問量均為原先的100倍)。所以OpenAI務必要對模型本身進行精

107、簡和優化,以滿足未來GPT-4的訓練參數量和用戶訪問量。資料來源:CSDN、國信證券經濟研究所整理ChatGPT與GPT-4參數對比ChatGPT與GPT-4參數對比GPT-4GPT-4ChatGPTChatGPT100萬億參數1750億參數模型參數量預計1-10億日活用戶約1300萬日活用戶用戶訪問量嵌入Bing等終端應用后會使得算力增加7-30倍目前尚未實現終端應用嵌入嵌入終端應用請務必閱讀正文之后的免責聲明及其項下所有內容4.5 蒸餾算法等算法可以有望降低算力成本4.5 蒸餾算法等算法可以有望降低算力成本知識蒸餾等算法可以解決模型臃腫和算力要求過高等問題。知識蒸餾等算法可以解決模型臃腫和

108、算力要求過高等問題。蒸餾算法是指將知識豐富但是臃腫的“教師網絡”經過精準轉換將特定領域的知識傳授給“學生網絡”以實現網絡結構的輕量化。如下圖所示,知識蒸餾背后的原理是:綠色是教師網絡求解空間,藍色是學生網絡求解空間。紅色為教師網絡的答案空間,淺綠色為學生網絡的答案空間,橙色是在知識蒸餾的情況下得到的答案空間也是最優解,如果不加以引導(無監督訓練),最后找到淺綠色的答案,而加入教師網絡后,教師會給予學生指導,讓學生網絡得到更為準確的答案,所以知識蒸餾會得到更加精簡且效果更好的模型。資料來源:嗶哩嗶哩、國信證券經濟研究所整理教師網絡與學生網絡的關系教師網絡與學生網絡的關系資料來源:CSDN、國信證

109、券經濟研究所整理教師網絡可以指導學生網絡得到更為精準的答案教師網絡可以指導學生網絡得到更為精準的答案請務必閱讀正文之后的免責聲明及其項下所有內容5、商業模式:開啟訂閱制收費,不斷開放API接口5、商業模式:開啟訂閱制收費,不斷開放API接口請務必閱讀正文之后的免責聲明及其項下所有內容5.1 開啟SaaS訂閱服務,商業化變現不斷打開5.1 開啟SaaS訂閱服務,商業化變現不斷打開北京時間3月2日,OpenAI宣布以收費形式對外部公司提供API接入ChatGPT和Whisper模型的服務。北京時間3月2日,OpenAI宣布以收費形式對外部公司提供API接入ChatGPT和Whisper模型的服務。

110、API(Application ProgrammingInterface)即應用程序接口,可以通過調用被外部使用,意味著ChatGPT和Whisper可以接入外部公司的各類軟件。新發布的ChatGPT模型和之前提供的ChatGPT產品所使用的模型均為GPT-3.5,但是其收費標準比之前的產品便宜90%,為$0.002/1k tokens。Whisper是2022年9月OpenAI推出的語音轉文本模型,現在通過API推出V2版本,并以$0.006/min進行收費。根據OpenAI官網介紹,截至3月2日,共有5家公司接入ChatGPT API,分別是Snapchat母公司Snap Inc、全球學習

111、平臺Quizlet、日用百貨配送公司Instacart、電子商務軟件開發商Shopify以及教育軟件公司Speak。資料來源:OpenAI官網、國信證券經濟研究所整理OpenAI宣布開發ChatGPT以及Whisper模型APIOpenAI宣布開發ChatGPT以及Whisper模型API資料來源:OpenAI官網、國信證券經濟研究所整理Whisper網頁端界面Whisper網頁端界面請務必閱讀正文之后的免責聲明及其項下所有內容5.2 訂閱、API許可費和微軟的深度合作是OpenAI主要收入渠道5.2 訂閱、API許可費和微軟的深度合作是OpenAI主要收入渠道訂閱、API許可費和微軟的深度合

112、作產生的商業化收入是OpenAI目前主要的收入渠道訂閱、API許可費和微軟的深度合作產生的商業化收入是OpenAI目前主要的收入渠道。在訂閱渠道,ChatGPT已經推出付費版本ChatGPTplus每月收費20美元,用于提升軟件服務質量以及后續開發成本;在API許可費方面,OpenAI剛剛開放API接口,主要希望吸引B端用戶,一方面由于C端用戶的問題雜亂且無序,所以其算力成本要高過B端用戶9倍,OpenAI此舉既可以吸引更多的B端用戶迅速搶占市場份額以應對生成式AI激烈的競爭環境,另一方面還可以尋求降低算力成本的途徑;與微軟的深度合作收入更多屬于營業外收入,自2019年開始,微軟合計投入超過1

113、30億美元,用于OpenAI的研發工作,以占領更多的云計算和搜索引擎市場。資料來源:FourWeekMBA、國信證券經濟研究所整理2020年OpenAI LP財務數據2020年OpenAI LP財務數據資料來源:FourWeekMBA、國信證券經濟研究所整理OpenAI商業模式示意圖OpenAI商業模式示意圖請務必閱讀正文之后的免責聲明及其項下所有內容5.2 訂閱渠道商業模式分析5.2 訂閱渠道商業模式分析2023年2月2日,OpenAI宣布,推出其人工智能聊天機器人ChatGPT的付費訂閱版本,同時繼續提供免費訪問。2023年2月2日,OpenAI宣布,推出其人工智能聊天機器人ChatGPT

114、的付費訂閱版本,同時繼續提供免費訪問。該公司宣布,新的訂閱服務月費為20美元,訂閱者可以提前獲得聊天機器人的新功能和改進,以及更快的響應時間。高月活為Openai帶來極大潛在收入空間。高月活為Openai帶來極大潛在收入空間。ChatGPT在發布后兩個月時間內月活人數便突破1億,若按照最低消費標準和10%的付費比例進行計算,則單是ChatGPT一項便會給OpenAI帶來超過24億美元的潛在年收入。資料來源:OpenAI官網、國信證券經濟研究所整理OpenAI宣布推出ChatGPT的付費訂閱版本OpenAI宣布推出ChatGPT的付費訂閱版本資料來源:OpenAI官網、國信證券經濟研究所整理Op

115、enAI旗下產品及其功能介紹OpenAI旗下產品及其功能介紹產品介紹產品介紹AI應用產AI應用產品品是一種深度學習模型,該模型經過訓練后可以預測序列中的下一個標記,并能生成流暢逼真的文本,覆蓋文本分析和摘要、文案撰寫、代碼生成等應用場景GPT-3GPT-3可以根據文本描述生成對應的逼真圖像,還可以根據文本提示修改圖像內容,以及根據給定的圖像拓展生成多種主題風格一致的“變體”DALLE 2DALLE 2是一個自動語音識別系統。它使用從網絡上收集的68萬小時的多語言和多任務監督數據進行訓練。使用龐大且多樣化的數據集可以提高對口音、背景噪音和技術語言的魯棒性。此外,它還支持多種語言的轉錄,以及將這些

116、語言翻譯成英語。WhisperWhisper是一種基于GPT-3的代碼生成助手,有助于將自然語言指令轉換為十幾種流行的編碼語言。Codex專注于生成可執行代碼,使其成為開發人員的絕佳助手。它已集成到VisualStudio中無縫集成到開發周期中CodexCodex定位聊天機器人,能根據用戶的提示,在對話中生成類似人類的文本響應,完成回答問題、提供信息或參與對話等各種任務ChatGPTChatGPT請務必閱讀正文之后的免責聲明及其項下所有內容5.2 API許可渠道商業模式分析5.2 API許可渠道商業模式分析開啟API后,OpenAI將以0.002美元的價格提供1000個token,比之前版本便

117、宜90%。開啟API后,OpenAI將以0.002美元的價格提供1000個token,比之前版本便宜90%。成本下降后有助于推動ChatGPT與B端C端應用加速結合,實現產品加速落地,例如結合新版Bing以及嵌入Office相關應用?;贕PT模型收取費用已有成功案例?;贕PT模型收取費用已有成功案例。例如AI創作公司Jasper其商業模式是以類SAAS服務的形式進行收費,大致分為初級、高級和訂制三個模式。2021年、2022年營收分別為4000萬美元、7500萬美元,2022年10月,Jasper獲1.25億美元A輪融資,估值達15億美元。此外AI輔助編程工具Copilot在2022年6月

118、開始收費后首月邊擁有40萬訂閱人數,用戶付費率達1/3,遠超行業均值。資料來源:OpenAI官網、國信證券經濟研究所整理OpenAI各類模型收費標準OpenAI各類模型收費標準資料來源:OpenAI官網、國信證券經濟研究所整理首批接入ChatGPT的企業及其應用首批接入ChatGPT的企業及其應用使用價格使用價格訓練價格訓練價格具體分類具體分類模型類模型類型型使用價格使用價格具體分類具體分類模型類型模型類型$0.0016/1k tokens$0.0004/1k tokensAda微調模型$0.0004/1ktokensAda嵌入模型$0.0024/1k tokens$0.0006/1k tok

119、ensBabbage$0.0020/image10241024圖像模型$0.0120/1k tokens$0.0030/1k tokensCurie$0.0018/image512512$0.1200/1k tokens$0.0300/1k tokensDavinci$0.0016/image256256$0.006/minWhisper語音模型$0.002/1ktokensgpt3.5-turbo聊天模型具體應用具體應用合作公司合作公司Snapchat擁有7.5億月活用戶,ChatGPT API可為Snapchat+提供AI 服務,主要可為用戶創建一個友好且支持自定義聊天的機器人。Snap

120、IncSnap IncQuizlet是一個有超過6000萬學生的全球學習平臺,在過去三年中一直與OpenAI合作,包括詞匯學習和實踐測試。隨著ChatGPT API的推出,Quizlet將推出Q-Chat,這是一款完全自適應的AI導師,它讓學生根據通過有趣的聊天體驗提供的相關學習材料提出個性化定制問題。QuizletQuizletInstacart正在擴充自己的應用程序,這使得ChatGPT與Instacart自己的AI和75000多家零售合作伙伴門店的產品數據互聯互通,以給出客戶開放式的購物想法和用餐建議。InstacartInstacartShop是一個擁有1億用戶的購物平臺,通過使用Ch

121、atGPT可以幫助用戶進行更為精準的個性化推薦以及更加高效的尋找到想要購買的商品。ShopShopSpeak是韓國增長最快的英語應用程序,由AI驅動。該程序已經在使用Whisper API為一款新的配套產品提供開放式對話練習和高準確度的反饋,并推廣至世界其他地區。SpeakSpeak請務必閱讀正文之后的免責聲明及其項下所有內容5.2 與微軟深度合作商業模式分析5.2 與微軟深度合作商業模式分析2021年全球云計算市場規模已突破3000億美元。2021年全球云計算市場規模已突破3000億美元。2021年全球云計算市場規模達到3307億美元,同比增長32.44%,市場空間廣闊,保持穩定增長。按照業

122、務劃分基礎服務,平臺服務以及軟件服務分別占27.70%、26.28%和46.02%。OpenAI與微軟的深度合作主要瞄準云計算和搜索引擎市場。OpenAI與微軟的深度合作主要瞄準云計算和搜索引擎市場。微軟投資OpenAI主要還是針對其主要競爭對手進行布局:一方面加強Azure云計算領域的競爭力來對抗亞馬遜,另一方面,根據StatCounter,2022年6月全球搜索引擎市場份額谷歌占據91.88%,微軟有望利用GPT模型集成到公司旗下的搜索引擎必應,打破谷歌在搜索方面的壟斷地位。資料來源:信通院、國信證券經濟研究所整理全球云計算市場規模及其增速(億美元,%)全球云計算市場規模及其增速(億美元,

123、%)資料來源:澳財、國信證券經濟研究所整理2022Q3云計算行業公司市場份額占比(%)2022Q3云計算行業公司市場份額占比(%)307369483642916199362491624869961108612221231152223.86%20.86%13.71%32.44%0.00%5.00%10.00%15.00%20.00%25.00%30.00%35.00%050010001500200025003000350020172018201920202021IaaSPaaSSaaS同比增速34%21%11%5%3%3%2%2%awsAzureGoogle CloudAlibaba Cloud

124、IBM CloudsalesforceTencent CloudORACLE請務必閱讀正文之后的免責聲明及其項下所有內容6、應用場景:GPT走向多模態,下游應用場景不斷打開6、應用場景:GPT走向多模態,下游應用場景不斷打開請務必閱讀正文之后的免責聲明及其項下所有內容多模態指的是多種模態的信息,包括:文本、圖像、視頻、音頻等。多模態指的是多種模態的信息,包括:文本、圖像、視頻、音頻等。多模態研究的就是這些不同類型的數據的融合的問題,例如通過NLP的預訓練模型,可以得到文本的嵌入表示;再結合圖像和視覺領域的預訓練模型,可以得到圖像的嵌入表示。OpenAI宣稱GPT-4可以接受圖像和文本輸入,是目

125、前較先進的多模態大模型。OpenAI宣稱GPT-4可以接受圖像和文本輸入,是目前較先進的多模態大模型。ChatGPT僅可以接受文本信息的輸入,而GPT-4在接收到文本和圖片的融合信息后,模型可以輸出純文本信息,包括但不限于自然語言以及代碼,且具備與接受純文本信息后相同的輸出能力。除此之外,GPT-4更加具有創造性,可以生成、編輯并與用戶一起迭代創造性和技術性的寫作任務,例如寫歌、寫劇本或學習用戶的寫作風格;能夠處理超過25000個單詞的文本,允許使用長格式內容創建、擴展對話以及文檔搜索和分析等用例。6.1 GPT的多模態化筑基AI多元應用6.1 GPT的多模態化筑基AI多元應用58資料來源:O

126、penAI官網、國信證券經濟研究所整理GPT-4可以準確識別出圖片所包含信息GPT-4可以準確識別出圖片所包含信息資料來源:OpenAI官網、國信證券經濟研究所整理GPT-4允許以更豐富的方式長內容創建GPT-4允許以更豐富的方式長內容創建請務必閱讀正文之后的免責聲明及其項下所有內容2023年3月16日,微軟發布了AI服務Microsoft 365 Copilot。2023年3月16日,微軟發布了AI服務Microsoft 365 Copilot。微軟將其嵌入Word、PowerPoint、Excel 等Office 辦公軟件中,同時將GPT-4模型集成至產品當中,并結合其業務數據。目前微軟正

127、在與約20家企業用戶測試新產品功能。Copilot主要通過兩種方式集成到Microsoft 365中。Copilot主要通過兩種方式集成到Microsoft 365中。一、直接被內置于Word、PowerPoint、Excel 等Office 辦公軟件中,以聊天機器人的形式呈現在辦公軟件的側邊欄上;二、通過最新產品Business Chat使用,該軟件被應用于大型語言模型、Microsoft 365應用以及用戶的日歷、電子郵件、聊天、文檔、會議和聯系人,只需用戶對其使用自然語言命令,便可根據會議、電子郵件和聊天記錄等生成狀態更新。6.2 B端應用辦公軟件之Copilot6.2 B端應用辦公軟件

128、之Copilot59資料來源:嗶哩嗶哩、國信證券經濟研究所整理微軟Copilot運行結構微軟Copilot運行結構資料來源:新浪財經、國信證券經濟研究所整理Copilot呈現在側邊欄Copilot呈現在側邊欄請務必閱讀正文之后的免責聲明及其項下所有內容Copilot in Word:Copilot in Word:幫助用戶提升創作、編輯等效率。Copilot in PowerPoint:Copilot in PowerPoint:能夠將自然語言命令轉化為演示文稿。Copilot in Excel:Copilot in Excel:可創建趨勢判斷等專業形式數據可視化工作。Copilot in O

129、utlook:Copilot in Outlook:幫助用戶整合并管理郵箱。Copilot in Teams:Copilot in Teams:能夠直接從對話上下文中提供實時摘要和待辦事項,提高會議效率。Copilot in Power Platform:Copilot in Power Platform:通過在Power Apps和Power Virtual Agents中引入新功能,幫助開發人員利用低代碼工具加速和簡化開發。Business Chat:Business Chat:匯集了來自文檔、演示文稿、電子郵件、日歷、筆記和聯系人的數據,能夠幫助用戶總結聊天內容、撰寫電子郵件、查找關鍵日

130、期,以及根據其他項目文件制定計劃。6.2 B端應用辦公軟件之Copilot6.2 B端應用辦公軟件之Copilot60資料來源:微軟官網、國信證券經濟研究所整理微軟已將GPT-4接入多個辦公場景產品微軟已將GPT-4接入多個辦公場景產品資料來源:微軟官網、國信證券經濟研究所整理Business Chat使用實例Business Chat使用實例請務必閱讀正文之后的免責聲明及其項下所有內容2023年2月7日,微軟發布基于GPT-4的新一代Bing。2023年2月7日,微軟發布基于GPT-4的新一代Bing。新的Bing具有由下一代OpenAI大型語言模型支持的聊天功能(Bing chat),在其

131、發布五周后,微軟透露新版Bing是由GPT-4提供支持,且Bing是目前唯一免費訪問GPT-4的途徑。由于訪問人數眾多,微軟對于新版Bing進行了訪問限制,包括需要申請訪問名單進入排隊序列以及Bing Chat限制每次會話15次聊天,每天聊天總數為150次。2023年3月21日,微軟宣布將AI生成圖像工具Bing Image Creator集成至新版Bing搜索引擎和Edge瀏覽器中,該工具由OpenAI的圖像生成器2023年3月21日,微軟宣布將AI生成圖像工具Bing Image Creator集成至新版Bing搜索引擎和Edge瀏覽器中,該工具由OpenAI的圖像生成器DALL-E模型提

132、供支持。DALL-E模型提供支持。在Microsoft Edge預覽版中,用戶只需單擊邊欄中的Bing Image Creator圖標即可創建圖像,或者也可以Edge邊欄中的Bing Chat中直接調用。目前,Microsoft Edge成為了第一個也是唯一一個集成了AI圖像生成工具的瀏覽器。6.2 B端應用搜索引擎之new Bing6.2 B端應用搜索引擎之new Bing61資料來源:微軟官網、國信證券經濟研究所整理新版Bing使用界面新版Bing使用界面資料來源:微軟官網、國信證券經濟研究所整理微軟宣布將集成Bing Image Creator微軟宣布將集成Bing Image Crea

133、tor請務必閱讀正文之后的免責聲明及其項下所有內容Jasper公司已經通過利用OpenAI的大模型已經完成了營銷文案和AI繪畫的應用。Jasper公司已經通過利用OpenAI的大模型已經完成了營銷文案和AI繪畫的應用。Jasper是基于GPT-3的API為用戶提供AI寫作服務的初創公司,致力于打造人工智能內容平臺,允許個人和團隊使用人工智能完成營銷領域的素材撰寫。微軟的應用為海外產品的百花齊放奠定了良好的開端。Jasper成立于2020年,2021年、2022年營收分別為4000萬美元、7500萬美元。Jasper的商業模式是以類SAAS服務的形式進行收費,大致分為初級、高級和訂制三個模式。2

134、022年10月,Jasper獲1.25億美元A輪融資,估值達15億美元。在產品層面,Jasper為用戶提供50類以上的文案模板、29類語言服務,高級訂閱包括SEO(搜索引擎優化)等內容,2022年11月至2023年2月,公司周活用戶數量已增長63.9%。6.2 B端應用創作軟件之Jasper6.2 B端應用創作軟件之Jasper62資料來源:Jasper官網、國信證券經濟研究所整理Jasper功能實現Jasper功能實現資料來源:SimilarWeb、國信證券經濟研究所整理Jasper周活(2022.11.1-2023.2.14)Jasper周活(2022.11.1-2023.2.14)1.3

135、31.361.642.012.052.142.302.180.00.51.01.52.02.5桌面端周活用戶(百萬)移動端周活用戶(百萬)周活用戶合計(百萬)請務必閱讀正文之后的免責聲明及其項下所有內容BlueMail GEM AI基于ChatGPT提供智能電子郵件服務。BlueMail GEM AI基于ChatGPT提供智能電子郵件服務。BlueMailGEM AI目前由ChatGPT提供支持,根據用戶輸入的內容,自動生成更貼近用戶語言習慣的電子郵件;濃縮郵件中主要信息,提升用戶閱讀效率。除郵件生成外,BlueMail還提供日程創建提醒、郵件整理、多設備郵件流轉、郵件組合等特色服務。2023

136、年3月6日,蘋果通過了BlueMail的應用更新。2023年3月6日,蘋果通過了BlueMail的應用更新。在3月2日,由于擔心應用中全新人工智能功能可能會顯示不適當的內容,因此蘋果阻止了BlueMail的更新,并建議將年齡要求限制在17歲以上。隨后BlueMail向蘋果保證其軟件具有內容審核功能并加以過濾,蘋果允許了其軟件的更新,并仍將年齡限制限制為4歲及以上用戶。6.2 B端應用郵箱軟件之Blue Mail6.2 B端應用郵箱軟件之Blue Mail63資料來源:BlueMail官網、國信證券經濟研究所整理BlueMail GEM AI應用范例BlueMail GEM AI應用范例資料來源

137、:BlueMail官網、國信證券經濟研究所整理BlueMail擁有強大的安全性與隱私性BlueMail擁有強大的安全性與隱私性請務必閱讀正文之后的免責聲明及其項下所有內容Codex是基于GPT-3的代碼生成助手,有助于將自然語言指令轉化成若干種編碼語言。Codex是基于GPT-3的代碼生成助手,有助于將自然語言指令轉化成若干種編碼語言。Codex是GitHub Copilot的主要構件模塊,通過與Codex的緊密集成,GitHub Copilot可以將注釋轉換為代碼,自動填充重復代碼,建議測試并顯示替代方案。GitHub Copilot可用于VisualStudio和Visual Studio

138、 Code等環境,可與一系列廣泛的框架和語言配合使用,對于一些編程語言來說,目前使用它的數萬名開發人員生成的代碼約占35%。對于用戶來說,可利用Codex將Figma設計轉化為不同的前端框架,并與開發人員的編碼風格和偏好相匹配;利用Replit實現在項目中實時協作,學習代碼,并與學習者和構建者社區共享工作;通過Warp直接從終端中利用自然語言指令進行搜索;通過Machinet使用Codex生成智能單元測試模板,幫助專業Java開發人員編寫高質量的代碼。6.2 B端應用代碼生成之Codex6.2 B端應用代碼生成之Codex64資料來源:OpenAI官網、國信證券經濟研究所整理Codex應用實例

139、自然語言指令生成代碼Codex應用實例自然語言指令生成代碼資料來源:OpenAI官網、國信證券經濟研究所整理利用Codex進行代碼學習利用Codex進行代碼學習請務必閱讀正文之后的免責聲明及其項下所有內容Snapchat是一款“閱后即焚”照片分享應用。Snapchat是一款“閱后即焚”照片分享應用。利用該應用程序,用戶可以拍照錄制視頻添加文字和圖畫,目前在全球已經擁有7.5億月活躍用戶。2023年2月27日,Snapchat推出一款由OpenAI最新版ChatGPT提供支持的聊天機器人。2023年2月27日,Snapchat推出一款由OpenAI最新版ChatGPT提供支持的聊天機器人。目前正

140、在ChatGPT API上運行,其主要功能是為用戶創建一個友好且支持自定義聊天的機器人,可以提供推薦、詩歌創作等功能。據Snapchat CEO宣稱,目前階段用戶只有支付每月3.99美元,成為付費訂閱用戶才可以使用具有ChatGPT支持的SnapchatPLUS,但其最終目的是將該應用服務于全體Snapchat7.5億用戶。6.3 C端應用聊天社交之Snapchat6.3 C端應用聊天社交之Snapchat65資料來源:Snapchat官網、國信證券經濟研究所整理Snapchat傳統照片分享功能Snapchat傳統照片分享功能資料來源:OpenAI官網、國信證券經濟研究所整理Snapchat接

141、入ChatGPT后使用實例Snapchat接入ChatGPT后使用實例請務必閱讀正文之后的免責聲明及其項下所有內容Quizlet是全球學習平臺,日前接入ChatGPT API將推出自適應AI導師。Quizlet是全球學習平臺,日前接入ChatGPT API將推出自適應AI導師。Quizlet是一個有超過6000萬學生的全球學習平臺,在過去三年中一直與OpenAI合作,包括詞匯學習和實踐測試。隨著ChatGPT API的推出,Quizlet將推出Q-Chat,這是一款完全自適應的AI導師,它讓學生根據通過有趣的聊天體驗提供的相關學習材料提出個性化定制問題。Speak是一款AI學習軟件,由Whis

142、per API提供支持服務。Speak是一款AI學習軟件,由Whisper API提供支持服務。Speak是韓國增長最快的英語應用程序,已經在使用Whisper API為產品提供支持,可為各個級別的語言學習者提供了人性化的準確性,開啟開放式對話練習和高度準確的反饋,并計劃推廣至全世界范圍。6.3 C端應用在線教育之Quizlet&Speak6.3 C端應用在線教育之Quizlet&Speak66資料來源:OpenAI官網、國信證券經濟研究所整理Q-Chat應用實例Q-Chat應用實例資料來源:OpenAI官網、國信證券經濟研究所整理Speak接入OpenAI API后應用實例Speak接入Op

143、enAI API后應用實例請務必閱讀正文之后的免責聲明及其項下所有內容Instacart是一家美國生鮮雜貨配送服務平臺。Instacart是一家美國生鮮雜貨配送服務平臺。Instacart于2012年成立于美國舊金山,起初為當地零售商提供運貨服務,目前已成長為涵蓋熟食、煙酒、副食等全品類商品的零售服務商,為75000家零售商合作門店提供服務。用戶可從Instacart平臺上得到用餐和購物建議。用戶可從Instacart平臺上得到用餐和購物建議。2022年公司推出Instacart平臺,為顧客提供全流程解決方案;2023年初公司接入OpenAIAPI,并利用ChatGPT和公司零售商門店數據,為

144、顧客提供開放式用餐與購物建議,例如“如何搭配今日的午餐”等問題,在得到建議后,用戶可直接在該界面進行下單。Instacart計劃于今年推出Ask Instacart應用程序以進一步提升用戶體驗。6.3 C端應用門店零售之Instacart6.3 C端應用門店零售之Instacart67資料來源:Instacart官網、國信證券經濟研究所整理Instacart使用方式Instacart使用方式資料來源:OpenAI官網、國信證券經濟研究所整理Instacart接入OpenAI API后應用實例Instacart接入OpenAI API后應用實例請務必閱讀正文之后的免責聲明及其項下所有內容Shop

145、ify是成為全球最大的電子商務平臺之一,擁有超過120萬商家在其平臺上運營網上商店。Shopify是成為全球最大的電子商務平臺之一,擁有超過120萬商家在其平臺上運營網上商店。Shopify的用戶分布在全球各地,主要覆蓋零售、藝術、時裝、美容等多個行業。公司主營業務為提供電子商務平臺解決方案,讓商家輕松創建和管理網上商店,并增加其在線銷售收入,包括網站創建、支付處理、訂單管理、客戶服務、物流配送等。Shop是Shopify旗下購物平臺,目前已擁有1億用戶。Shopify率先集成ChatGPT,有效增強消費者個性化推薦、改善賣家運營效率。Shopify率先集成ChatGPT,有效增強消費者個性化

146、推薦、改善賣家運營效率。在用戶端,Shopify接入API端口后,用戶可以收獲更加精準的商品推薦,從而提升購物效率和滿意度;在商戶端,Shopify計劃使用OpenAI API協助商家生成更好的描述文本和標題,提高商家在搜索引擎中的曝光率,同時商家還可以通過OpenAI API自動完成常見的客戶支持任務。6.3 C端應用網絡購物之Shop6.3 C端應用網絡購物之Shop68資料來源:OpenAI官網、國信證券經濟研究所整理Shopify智能推薦實例Shopify智能推薦實例資料來源:國信證券經濟研究所整理接入API后股價漲幅達到8.08%接入API后股價漲幅達到8.08%請務必閱讀正文之后的

147、免責聲明及其項下所有內容7、投資建議:建議關注基礎層與應用層AI龍頭7、投資建議:建議關注基礎層與應用層AI龍頭請務必閱讀正文之后的免責聲明及其項下所有內容AI+教育。AI+教育。認知智能一直是科大訊飛長期布局和積累的方向,公司已經在當前基礎上,于2022年12月份進一步啟動生成式預訓練大模型任務攻關,該技術應用的AI學習機將于5月將率先落地??拼笥嶏wAI學習機中AI同步精準學的核心功能,小初高AI同步精準學以科大訊飛核心技術(智能評價技術、數據匯集技術、知識圖譜構建技術)為支撐,依托于其為國家重大考試提供技術服務標準的積累,幫助孩子在學習過程中減負增效。AI+醫療。AI+醫療??拼笥嶏w“智醫

148、助理”應用智能語音技術,AI賦能基層醫生診斷和治療,通過學習海量醫學教材、論文和病例,實現專業的醫療領域對話式 AI系統,打造“每個醫生的 AI 診療助理,每個人的 AI 健康助手”。7.1 科大訊飛(002230.SZ):布局AI平臺+賽道的人工智能龍頭7.1 科大訊飛(002230.SZ):布局AI平臺+賽道的人工智能龍頭70資料來源:科大訊飛官網、國信證券經濟研究所整理科大訊飛智慧教育產品服務科大訊飛智慧教育產品服務資料來源:科大訊飛官網、國信證券經濟研究所整理科大訊飛智慧醫療成果科大訊飛智慧醫療成果請務必閱讀正文之后的免責聲明及其項下所有內容WPS可有效復制Office應用ChatGP

149、T的路徑。WPS可有效復制Office應用ChatGPT的路徑。微軟正在測試將Office集成ChatGPT,對生產力工具使用效率有望大幅提升。金山辦公WPS有望復制Office應用ChatGPT的路徑。WPS目前已經研發出了智能輔助寫作、文檔自動翻譯、表格拍照還原等應用,隨著NLP技術迭代,類ChatGPT內容生成等應用的加入,將有效提升WPS的付費率與APRU。目前金山辦公智能寫作已具備相當可靠的語料庫,提供講話、總結等多種寫作場景。同時,WPS還專門發布了公文版,面向黨政機關用戶提供公文模式、公文模板、公文轉換等功能,輔助相關人員進行公文寫作。WPS、郵箱、協作辦公等辦公軟件再融入類Ch

150、atGPT功能后,其生產力工具價值講得以躍升,商業價值迎來加速增長。7.2 金山辦公(688111.SH):從工具型SaaS轉向平臺型SaaS的國產辦公軟件龍頭7.2 金山辦公(688111.SH):從工具型SaaS轉向平臺型SaaS的國產辦公軟件龍頭71資料來源:金山辦公官網、國信證券經濟研究所整理金山辦公產品矩陣金山辦公產品矩陣資料來源:金山辦公官網、國信證券經濟研究所整理必優科技自研智能寫作引擎獲得金山辦公投資必優科技自研智能寫作引擎獲得金山辦公投資請務必閱讀正文之后的免責聲明及其項下所有內容同花順是國內領先的互聯網金融信息服務提供商。同花順是國內領先的互聯網金融信息服務提供商。公司擁有

151、近三十年金融信息服務行業經驗,在產品、客戶資源、技術、人力資源、數據資源、品牌認可度、管理團隊等方面擁有獨特而明顯的競爭優勢。公司構建的同花順AI開放平臺,可面向客戶提供智能語音、智能客服、智能金融問答、智能質檢機、會議轉寫系統、數字人、智能醫療輔助系統等多項AI產品及服務,可為銀行、證券、保險、基金、私募、高校、政府、運營商、醫療等行業提供智能化解決方案。經過多年的沉淀,公司產品具備了較好用戶體驗度和較強用戶黏性,深受廣大客戶好評,形成了明顯的競爭優勢。7.3 同花順(300033.SZ):國內領先的互聯網金融信息服務提供商7.3 同花順(300033.SZ):國內領先的互聯網金融信息服務提

152、供商72資料來源:公司官網、國信證券經濟研究所整理同花順覆蓋全行業的AI解決方案同花順覆蓋全行業的AI解決方案資料來源:公司官網、國信證券經濟研究所整理公司的AI理財師公司的AI理財師請務必閱讀正文之后的免責聲明及其項下所有內容AI+創作。AI+創作。萬興科技深耕數字創意軟件領域,推出萬興喵影、萬興優轉、萬興錄演等視頻創意軟件,Wondershare Filmstock、萬興喵庫視頻創意素材平臺,萬興愛畫、萬興播爆等AIGC應用。萬興愛畫是一款根據用戶語言描述進行繪畫創作的軟件。萬興愛畫是一款根據用戶語言描述進行繪畫創作的軟件。用戶可以輸入自己的創作想法,并且對其中部分元素加以強調,實現高效創

153、作,此外萬興愛畫生成的作品所有權屬于用戶本身,可以進行商業用途。萬興播爆是一款利用數字人進行營銷播報的軟件。萬興播爆是一款利用數字人進行營銷播報的軟件。用戶可以輸入關鍵詞,由AI生成播報腳本,接著由AI數字人進行口播。軟件提供上百套專業級模板,可以滿足不同場景的視頻需求。7.4 萬興科技(300624.SZ):全球領先的新生代數字創意賦能者7.4 萬興科技(300624.SZ):全球領先的新生代數字創意賦能者73資料來源:萬興科技官網、國信證券經濟研究所整理萬興愛畫萬興愛畫資料來源:萬興科技官網、國信證券經濟研究所整理萬興播爆萬興播爆請務必閱讀正文之后的免責聲明及其項下所有內容AI+數據要素。

154、AI+數據要素。拓爾思是國內最早從事自然語言處理(NLP)技術研發的企業,在網絡空間治理領域提供內容審核和內容風控技術。拓爾思依托自有的人工智能與大數據核心技術,遵循網信系統技術體系建設要求,圍繞網絡空間治理工作需要,構建了涵蓋“網絡輿情態勢感知、正面宣傳、網評引導、公眾舉報、屬地網絡內容管理、指揮聯動”等業務的全方位技術解決方案,為“加快建立網絡綜合治理體系,全面提升治網管網能力水平”提供技術支撐?,F已為眾多用戶量身打造了個性化系統,深受用戶好評。拓爾思布局問答機器人業務。拓爾思布局問答機器人業務。TRS小思智能問答機器人系統是由拓爾思自主研發的一款智能問答云服務系統,該系統綜合運用了自然語

155、言處理、信息檢索、知識表示與推理等技術,通過語法語義分析、問題分類、問題解析、信息源自動識別與評價、實體識別與關系抽取、信息搜索、邏輯形式生成、知識表示與推理等一系列處理流程,實現問題解答與人機交互。7.5 拓爾思(300229.SZ):數據與內容安全產品先行者7.5 拓爾思(300229.SZ):數據與內容安全產品先行者74資料來源:拓爾思官網、國信證券經濟研究所整理智拓人工智能技術平臺智拓人工智能技術平臺資料來源:拓爾思官網、國信證券經濟研究所整理AI行業應用TRS銀行業智能消保管控中臺解決方案AI行業應用TRS銀行業智能消保管控中臺解決方案請務必閱讀正文之后的免責聲明及其項下所有內容AI

156、+信創。AI+信創。2023年2月,彩訊股份成為百度“文心一言”的首批生態合作伙伴。彩訊科技股份有限公司是國家規劃布局重點軟件企業之一,是中國領先的企業數字化技術和服務提供商。此次接入文心一言,雙方也將共同探索AI核心技術在彩訊電子郵件RichMail等核心產品及電信、金融等核心行業率先運用,并圍繞技術創新、場景孵化、生態建設等多方面展開更深入的合作,助力客戶行業的智能化轉型升級,持續為通信行業、能源行業、交通行業、金融行業等廣大客戶開發并運營互聯網應用平臺、企業協作和營銷平臺、企業級大數據應用平臺。協同辦公產品線是彩訊的主要業務方向之一,是以“信創郵箱+統一辦公平臺”為核心。協同辦公產品線是

157、彩訊的主要業務方向之一,是以“信創郵箱+統一辦公平臺”為核心。生成式AI所擁有的語言理解和文本生成能力可以幫助彩訊辦公產品在數據處理、數據分類、智能交互方面進行優化提升。訓練大模型也可實現有效閉環,落實數據準備、數據預處理、模型訓練、模型評估、部署應用等流程環節并實現持續優化。7.6 彩訊股份(300634.SZ):中國領先的企業數字化技術和服務提供商7.6 彩訊股份(300634.SZ):中國領先的企業數字化技術和服務提供商75資料來源:彩訊股份官網、國信證券經濟研究所整理彩訊網銀流量分析解決方案彩訊網銀流量分析解決方案資料來源:彩訊股份官網、國信證券經濟研究所整理彩訊電子政務郵箱解決方案彩

158、訊電子政務郵箱解決方案請務必閱讀正文之后的免責聲明及其項下所有內容AI+圖像識別。AI+圖像識別。福昕軟件立足于PDF行業,并持續在圖像識別垂類應用深耕,目前已經在1.中國電子清單服務海外的電子簽名;2.面向家裝領域的福昕家裝智能設計(面向設計師)、福昕家裝云服務(提供施工的協同平臺);3.面向船舶行業的福昕船舶圖紙管理系統;4.面向海外市場的smart editor,用于法律、金融等行業,進行保密和信息加密的任務等多方向新領域開展了圖像識別相關業務,針對高質量圖像用戶需求,在拓展行業的同時,實現矩陣式銷售。公司緊跟谷歌、百度等人工智能廠商,發揮公司PDF領域優勢。公司緊跟谷歌、百度等人工智能

159、廠商,發揮公司PDF領域優勢。公司的主要角色就是利用API接口將文檔傳輸進去,不需要粘貼到大模型里面去,直接在我的文檔進行讀取。目前正在與谷歌、百度等AI巨頭進行研討。7.7 福昕軟件(688095.SH):國際化的PDF電子文檔解決方案提供廠商7.7 福昕軟件(688095.SH):國際化的PDF電子文檔解決方案提供廠商76資料來源:福昕官網、國信證券經濟研究所整理福昕智能互聯PDF產品矩陣福昕智能互聯PDF產品矩陣資料來源:福昕官網、國信證券經濟研究所整理福昕船舶圖紙解決方案福昕船舶圖紙解決方案請務必閱讀正文之后的免責聲明及其項下所有內容公司為對日IT服務核心供應商,主要業務包括對日軟件開

160、發服務和國內行業應用軟件解決方案。公司為對日IT服務核心供應商,主要業務包括對日軟件開發服務和國內行業應用軟件解決方案。目前對日軟件開發服務占營收比例84%,國內行業應用解決方案占比16%,下游的最終客戶大多為金融機構。公司20-22年受到疫情的影響,營收和利潤水平有所承壓,預期從23年開始將重回增長軌道。AI賦能,公司業務有望實現降本增效。AI賦能,公司業務有望實現降本增效。公司目前已經成為了百度文心一言首批生態合作伙伴,在公司的業務中有諸多地方可以有效運用AI大模型技術從而實現降本增效,比如在對日軟件開發項目中有35%左右的工作量用于設計,現在可以用AI技術代替,節省出來的人力可以用于接更

161、多的項目。7.8 凌志軟件(688588.SH):國內領先的金融科技軟件公司7.8 凌志軟件(688588.SH):國內領先的金融科技軟件公司77資料來源:凌志軟件官網、國信證券經濟研究所整理大投行業務數字化轉型業務解決方案大投行業務數字化轉型業務解決方案資料來源:凌志軟件官網、國信證券經濟研究所整理凌志軟件國內客戶凌志軟件國內客戶請務必閱讀正文之后的免責聲明及其項下所有內容風險提示風險提示AI技術商業化落地不及預期;行業競爭加劇,技術迭代風險;數據安全等政策不確定性;貿易摩擦風險。請務必閱讀正文之后的免責聲明及其項下所有內容免責聲明免責聲明分析師承諾分析師承諾作者保證報告所采用的數據均來自合

162、規渠道;分析邏輯基于作者的職業理解,通過合理判斷并得出結論,力求獨立、客觀、公正,結論不受任何第三方的授意或影響;作者在過去、現在或未來未就其研究報告所提供的具體建議或所表述的意見直接或間接收取任何報酬,特此聲明。重要聲明重要聲明本報告由國信證券股份有限公司(已具備中國證監會許可的證券投資咨詢業務資格)制作;報告版權歸國信證券股份有限公司(以下簡稱“我公司”)所有。,本公司不會因接收人收到本報告而視其為客戶。未經書面許可,任何機構和個人不得以任何形式使用、復制或傳播。任何有關本報告的摘要或節選都不代表本報告正式完整的觀點,一切須以我公司向客戶發布的本報告完整版本為準。本報告基于已公開的資料或信

163、息撰寫,但我公司不保證該資料及信息的完整性、準確性。本報告所載的信息、資料、建議及推測僅反映我公司于本報告公開發布當日的判斷,在不同時期,我公司可能撰寫并發布與本報告所載資料、建議及推測不一致的報告。我公司不保證本報告所含信息及資料處于最新狀態;我公司可能隨時補充、更新和修訂有關信息及資料,投資者應當自行關注相關更新和修訂內容。我公司或關聯機構可能會持有本報告中所提到的公司所發行的證券并進行交易,還可能為這些公司提供或爭取提供投資銀行、財務顧問或金融產品等相關服務。本公司的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中意見或建議不一致的投資決策。本報告僅供參考之用,不構成出售

164、或購買證券或其他投資標的要約或邀請。在任何情況下,本報告中的信息和意見均不構成對任何個人的投資建議。任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。投資者應結合自己的投資目標和財務狀況自行判斷是否采用本報告所載內容和信息并自行承擔風險,我公司及雇員對投資者使用本報告及其內容而造成的一切后果不承擔任何法律責任。證券投資咨詢業務的說明證券投資咨詢業務的說明本公司具備中國證監會核準的證券投資咨詢業務資格。證券投資咨詢,是指從事證券投資咨詢業務的機構及其投資咨詢人員以下列形式為證券投資人或者客戶提供證券投資分析、預測或者建議等直接或者間接有償咨詢服務的活動:接受投資人或者客戶委

165、托,提供證券投資咨詢服務;舉辦有關證券投資咨詢的講座、報告會、分析會等;在報刊上發表證券投資咨詢的文章、評論、報告,以及通過電臺、電視臺等公眾傳播媒體提供證券投資咨詢服務;通過電話、傳真、電腦網絡等電信設備系統,提供證券投資咨詢服務;中國證監會認定的其他形式。發布證券研究報告是證券投資咨詢業務的一種基本形式,指證券公司、證券投資咨詢機構對證券及證券相關產品的價值、市場走勢或者相關影響因素進行分析,形成證券估值、投資評級等投資分析意見,制作證券研究報告,并向客戶發布的行為。國信證券投資評級國信證券投資評級定義定義級別級別類別類別預計6個月內,股價表現優于市場指數20%以上買入股票投資評級股票投資

166、評級預計6個月內,股價表現優于市場指數10%-20%之間增持預計6個月內,股價表現介于市場指數10%之間中性預計6個月內,股價表現弱于市場指數10%以上賣出預計6個月內,行業指數表現優于市場指數10%以上超配行業投資評級行業投資評級預計6個月內,行業指數表現介于市場指數10%之間中性預計6個月內,行業指數表現弱于市場指數10%以上低配請務必閱讀正文之后的免責聲明及其項下所有內容國信證券經濟研究所國信證券經濟研究所深圳深圳深圳市福田區福華一路125號國信金融大廈36層郵編:518046 總機:0755-82130833上海上海上海浦東民生路1199弄證大五道口廣場1號樓12樓郵編:200135北京北京北京西城區金融大街興盛街6號國信證券9層郵編:100032

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(人工智能行業專題報告:生成式人工智能產業全梳理-230328(80頁).pdf)為本站 (海平線) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站