《科技行業專題研究:ChatGPT狂飆破壁現象級AI應用引發范式革命-230216(29頁).pdf》由會員分享,可在線閱讀,更多相關《科技行業專題研究:ChatGPT狂飆破壁現象級AI應用引發范式革命-230216(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、科技專題研究2023年2月16日中航證券研究所發布證券研究報告請務必閱讀正文后的免責條款部分行業評級:增持ChatGPT狂飆破壁,現象級AI應用引發范式革命分析師:劉牧野證券執業證書號:S0640522040001股市有風險 入市需謹慎 核心觀點現象級AI應用狂飆破壁,ChatGPT引發范式革命:ChatGPT推出僅兩個月后,即2023年1月末的月活用戶已經突破了1億,成為史上用戶增長速度最快的消費級應用程序。OpenAI 在2023年2月1日推出訂閱服務,每月收費20美元,拉開了人工智能在C端變現的帷幕。由此引發了全球范圍的關注和討論,國內大多數頭部科技企業表示,已經擁有、在研對標ChatG
2、PT相關的模型及產品。AI模型運算規模增長,算力缺口巨大:基于大量數據訓練、擁有巨量參數的AI預訓練模型GPT-3,引發了AIGC技術的質變,從而誕生ChatGPT。然而,預訓練模型參數數量、訓練數據規模將按照 300 倍/年的趨勢增長,現有算力距離AI應用存巨大鴻溝。運算規模的增長,帶動了對AI訓練芯片單點算力提升的需求,并對數據傳輸速度提出了更高的要求。AIGC跨越數據鴻溝,合成數據與日精進:ChatGPT的火速出圈,將AIGC推向新的高度。數據是人工智能的燃料和驅動力,人工智能發展所需的海量數據也能通過 AIGC 技術生成、合成出來,即合成數據(synthetic data)。合成數據有
3、望解決人工智能和數字經濟的數據供給問題。Gartner 預測,到2030 年 AI 模型使用的絕大部分數據將由人工智能合成。建議關注:GPU:景嘉微、航錦科技,和未上市的地平線、黑芝麻、摩爾線程;AI訓練芯片:寒武紀、商湯(港股)、燧原科技(未上市);存算一體化:恒爍股份、東芯股份;光模塊:中際旭創、光迅科技、華工科技、天孚通信、德科立、源杰科技;硅光芯片:光庫科技、聲光電科、賽微電子;合成數據潛在受益標的:百度、阿里、騰訊、金山辦公、中國電信。風險提示:AI算法、模型存較高不確定性,AI技術發展不及預期;ChatGPT用戶付費意愿弱,客戶需求不及預期;針對AI的監管政策收緊 2YjYqVjX
4、tUdYzRuM8O8Q9PoMnNmOsReRoOnPeRmOmNaQrQrRMYmMwOuOtOpO一、現象級AI應用狂飆破壁,ChatGPT引發范式革命二、巨量數據規模引發質變,AI模型算力緊缺目 錄四、風險提示三、AIGC跨越數據鴻溝,合成數據與日精進 ChatGPT用戶量兩月破億,現象級應用橫空出世資料來源:UBS,中航證券研究所ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI開發的人工智能聊天機器人程序,于2022年11月推出。據瑞銀集團,ChatGPT推出僅兩個月后,即2023年1月末的月活用戶已經突破了1億,成為史
5、上用戶增長速度最快的消費級應用程序。作為比較,TikTok達到1億用戶用了9個月,Instagram花了2年半的時間。圖:應用程序達到1億用戶量所需時間(月數)智能化生產工具,提高生產效率資料來源:Openai,百度,中航證券研究所ChatGPT是一個虛擬助手,可以幫助用戶解決問題、提供信息和建議。通過人工智能技術實現自然語言處理和自然語言理解,ChatGPT能夠快速準確地回答用戶提出的問題??梢酝ㄟ^文本或語音與用戶交互,并通過不斷學習和改進來提高能力和服務質量?,F有使用案例中,用戶可通過ChapGPT實現代碼生成、修改程序bug、寫詩等。圖:根據要求連續改進回答圖:提升編程效率圖:原創七言絕
6、句 重新定義搜索,跨時代AI產品資料來源:中航證券研究所整理ChatGPT在智能化方面有跨越式進步,在多輪對話能力以及對話交互友好性上展示了驚艷效果。能夠較準確理解問題,把生成的答案用易于人類理解的語言組織起來,生成類似人類語言的文本答案。同時,ChatGPT的模型優化目標為有用、可信、無害,在道德上友善,符合大眾的道德觀。圖:ChatGPT特點智能化支持意圖識別和邏輯推理支持多輪次連續對話支持在一個prompt(提示)中同時有多個問題支持上下文理解,以回答某些假設性的問題人性化主動承認錯誤,對用戶指出的錯誤進行答案優化。質疑不正確的問題。承認自身的無知,承認對專業技術的不了解道德友善,駁回潛
7、在的種族主義或性別歧視提示 GPT-3大模型驅動,引發AIGC范式革命資料來源:騰訊,中航證券研究所以ChatGPT為代表的AIGC應用在 2022 年的爆發,主要是得益于深度學習模型方面的技術創新。不斷創新的生成算法、預訓練模型、多模態等技術融合帶來了 AIGC(AI Generated Content)技術變革,擁有通用性、基礎性多模態、參數多、訓練數據量大、生成內容高質穩定等特征的 AIGC 模型成為了自動化內容生產的“工廠”和“流水線”?;A層是核心,GPT-3模型起關鍵支撐作用。GPT-3一個大規模的通用語言模型,已經在來自各種來源的大量文本數據上進行了訓練。能夠產生類似人類的反應,
8、并可用于廣泛的語言相關任務。ChatGPT基于目前較新的GPT-3.5模型版本進行研發,專注于自然語言對話,接受了更廣泛的語言模式和風格培訓,因此,能較GPT-3產生更多樣化和微妙的響應。圖:AIGC產業架構以預訓練大規模模型為基礎搭建的 AIGC 技術基礎設施層。在基礎層上生成場景化、定制化、個性化的小模型,實現不同行業、垂直領域的流水線式部署面向 C 端用戶的文字、圖片、音視頻等內容生成服務基礎層中間層應用層預訓練模型重直化、場景化、個性化模型圖像、語音和文字生成等各種各樣的AIGC的應用 C端應用時代降臨,拉開AI商業變現帷幕資料來源:騰訊,中航證券研究所OpenAI 在2023年2月1
9、日推出訂閱服務,名為ChatGPT Plus,每月收費20美元。訂閱用戶將獲得全天候服務,并在高峰時段享有優先訪問。用戶還可提前使用新功能及改進功能,應用的響應時間也更快。OpenAI預計2023年ChatGPT將實現2億美元的收入。微軟計劃將旗下所有產品全線整合ChatGPT。除了搜索引擎必應、辦公軟件Office外,微軟還將在云計算平臺Azure中整合ChatGPT,Azure的OpenAI服務將允許開發者訪問AI模型。圖:ChatGPT商業模式基礎層中間層應用層產品/服務GPT-3大規模語言模型ChatGPT小模型、Azure聊天機器人APP、必應、Office收費模式對模型的API調用
10、進行收費,屬于to B端軟件即服務(SaaS)允許開發者訪問AI模型,屬于to B端模型即服務(MaaS)C端用戶通過訂閱模式獲得更加智能化的服務 政策反應迅速,國內科技巨頭布局資料來源:機器之心,中航證券研究所2023年2月13日,北京市經濟和信息化局發布2022年北京人工智能產業發展白皮書,提出全面夯實人工智能產業發展底座。支持頭部企業打造對標ChatGPT的大模型,著力構建開源框架和通用大模型的應用生態。加強人工智能算力基礎設施布局。加速人工智能基礎數據供給。國內科技企業紛紛對ChatGPT發表看法,百度、華為、騰訊、阿里巴巴等大多數頭部企業表示,已經擁有、在研對標ChatGPT相關的模
11、型及產品。圖:國內科技企業現有技術儲備將在 2023年3 月上線百度版 ChatGPT:文心一言公司 2020 年在大模型領域開始有布局,2021 年基于昇騰 AI 與鵬城實驗室聯合發布了鵬程相關技術儲備包括混元系列 AI 大模型、智能創作助手文涌(Effidit)等提出業界首個通用的統一大模型(模態、任務和架構)M6-OFA,可能將 AI 大模型技術與釘釘生產力工具深度結合將推出產業版ChatGPTChatJD,ChatJD 將以125計劃作為落地應用路線圖,包含一個平臺、兩個領域、五個應用。關注AI三駕馬車投資機會資料來源:中國信通院,中航證券研究所算法、算力和數據是人工智能發展的三駕馬車
12、,也是推動人工智能發展的重要基礎。算法層面,超大規模預訓練模型推動AI效果不斷提升。當前,預訓練模型參數數量、訓練數據規模按照 300 倍/年的趨勢增長,繼續通過增大模型和增加訓練數據仍是短期內演進方向。算力層面,單點算力持續提升,算力定制化、多元化成為重要發展趨勢。計算技術圍繞數據處理、數據存儲、數據交互三大能力要素演進升級,類腦芯片、量子計算等方向持續探索。數據層面,以深度學習為代表的人工智能技術需要大量的標注數據,這也催生了專門的技術和服務,隨著面向問題的不斷具體化和深入,數據服務走向精細化和定制化。算法算力數據OpenAI谷歌Meta百度阿里騰訊華為拓爾思商湯光環新網科大訊飛海量數據景
13、嘉微寒武紀地平線東芯股份恒爍股份龍芯中科海光信息中國長城國盾量子數據港光迅科技中科曙光中際旭創浪潮信息中國聯通中國移動中國電信潤澤科技英偉達神州數碼 一、現象級AI應用狂飆破壁,ChatGPT引發范式革命二、巨量數據規模引發質變,AI模型算力緊缺目 錄四、風險提示三、AIGC跨越數據鴻溝,合成數據與日精進 大型預訓練模型引發質變資料來源:騰訊,中航證券研究所Transformer基礎算法模型的出現,為NLP和CV訓練領域提供了強大支持。OpenAI的GPT預訓練模型,以及百度的ERNIE模型,都是基于Transformer模型建立。Al 預訓練模型,又稱為大模型、基礎模型(foundation
14、 model),即基于大量數據(通常使用大規模自我監督學習)訓練的、擁有巨量參數的模型,能適應廣泛的下游任務。預訓練模型能夠滿足真實內容消費場景中的靈活多變、高精度、高質量等需求。隨著2018 年谷歌發布基于 Transformer 機器學習方法的自然語言處理預訓練模型 BERT,人工智能領域進入了大煉模型參數的預訓練模型時代。預訓練模型成為 AI 技術發展的范式變革,許多跨領域的 AI 系統將直接建立在預訓練模型上?;A的生成算法模型不斷突破創新2014年VAE、生成對抗網絡GAN2015年基于流生成的模型、擴散模型2017年Transformer模型2020年神經輻射場NeRF2021年C
15、LIP模型預訓練模型引發AIGC技術能力質變自然語言處理(NLP)預訓練模型谷歌:LAMDA、BERTOpenAI:GPT系列百度:ERNIE系列計算機視覺(CV)預訓練模型微軟:Florence多模態預訓練模型Deep Mind:GatoOpenAI:CLIP&DALL-E AI模型數據規模增長,AI算力需求井噴資料來源:中國信通院,中航證券研究所當前,預訓練模型參數數量、訓練數據規模按照 300 倍/年的趨勢增長,繼續通過增大模型和增加訓練數據仍是短期內演進方向。未來使用更多種圖像編碼、更多種語言、以及更多類型數據的預訓練模型將會涌現。當前算力距離AI應用存巨大鴻溝。根據 Open AI
16、數據,模型計算量增長速度遠超人工智能硬件算力增長速度,存在萬倍差距。英特爾表示,目前的計算、存儲和網絡基礎設施遠不足以實現元宇宙愿景,而要想實現真正的元宇宙,目前的計算能力需量要再提高1000倍。圖:大模型參數量和訓練數據規模增長迅速 AI模型數據規模增長,AI算力需求井噴資料來源:華為,IDC,中航證券研究所據IDC預計,2021-2026年期間,中國智能算力規模年復合增長率達52.3%。2022年智能算力規模將達到268.0 EFLOPS,預計到2026年智能算力規模將進入每秒十萬億億次浮點計算(ZFLOPS)級別,達到1,271.4 EFLOPS。運算數據規模的增長,帶動了對AI訓練芯片
17、單點算力提升的需求,并對數據傳輸速度提出了更高的要求。圖:中國智能算力規模百億億次浮點運算/秒(EFLOPS)圖:2012至2019年算力需求增長近30萬倍 算力升級:AI訓練芯片空間廣闊資料來源:IDC,松鼠廠,中航證券研究所IDC預計,到2025年人工智能芯片市場規模將達726億美元。IDC全球范圍調研顯示,人工智能芯片搭載率將持續增高。目前每臺人工智能服務器上普遍多配置2個GPU,未來18個月,GPU、ASIC和FPGA的搭載率均會上升。通用性遞減,專用性增強,為AI芯片的主要發展方向。2021年中國以GPU為主實現數據中心計算加速,GPU在算力芯片的市場占有率接近90%。ASIC,FP
18、GA,NPU等非GPU芯片市場占有率超過10%。國際科技網絡巨頭公司谷歌、臉書,亞馬遜等等在AI芯片領域從云端訓練到終端產品應用,在開源框架賦能產業行業上有一定的領先優勢。國內企業也在打造從AI芯片注重云端訓練+AI芯片終端響應+AI算法框架開源的生態體系。建議關注面向 GPU 的創新企業,包括景嘉微、航錦科技,和未上市的地平線、黑芝麻、摩爾線程等。以及面向基于ASIC架構、感知識別等AI訓練芯片公司,如寒武紀、商湯(港股)、燧原科技(未上市)等。圖:中國數據中心AI芯片市場規模占比發展方向一:從通用到專用芯片架構芯片特點代表公司專用性(L1到L5依次增強)CPUCPU的通用架構設計使運行效率
19、受限。當前CPU雖然在機器學習領域的計算大大減少,但是不會被完全取代。英特爾L1GPU目前商用最廣泛的AI芯片,可以執行深度學習和神經網絡任務。GPU主要從事大規模并行計算,比CPU運行速度快,并且比其他專用AI處理器芯片價格低。英偉達、AMDL2DSP僅作為處理器IP核使用。目前基于DSP的設計有一定的局限性,一般都是針對圖像和計 算機視覺的處理器IP核芯片,速度較快,成本不高。新思科技、CadenceL3FPGAFPGA具有三大優點:單位能耗比低、硬件配置靈活、架構可調整。但是,FPGA的 使用有一定門檻,要求使用者具備硬件知識。賽靈思、微軟L4TPU/ASIC當前為谷歌公司專用,還不是市
20、場化產品。ASIC芯片不能像FPGA很快改變架構,適應變化,對企業而言成本較昂貴。谷歌L5發展方向二:顛覆經典馮氏架構,采用人腦神經元的結構來提升計算能力TrueNorth模仿人腦神經元和神經突觸的結構,功耗非常低。有可能實現人工智能領域的通用化路徑,但從短期來看,離大規模商業生產還有很遠的距離。IBM表:AI芯片架構及發展方向 算力升級:馮氏架構“破壁者”,存算一體突破瓶頸資料來源:中國移動研究院,中航證券研究所馮氏架構以計算為中心,計算和存儲分離,二者配合完成數據的存取與運算。然而,由于處理器的設計以提升計算速度為主,存儲則更注重容量提升和成本優化,“存”“算”之間性能失配,從而導致了訪存
21、帶寬低、時延長、功耗高等問題,即通常所說的“存儲墻”和“功耗墻”。存算一體作為一種新的計算架構,被認為是具有潛力的革命性技術。核心是將存儲與計算完全融合,有效克服馮諾依曼架構瓶頸,并結合后摩爾時代先進封裝、新型存儲器件等技術,減少數據的無效搬移,從而提升計算效率。中國移動已將存算一體納入算力網絡的十大關鍵技術。圖:存儲計算性能存在“剪刀差”場景重點需求存算一體優勢端側低延時、低功耗、低成本、隱私性當前存內計算產品已成功在端側初步商用,提供語音、視頻等AI處理能力,并獲得十倍以上的能效提升,有效降低了端側成本。邊側低延時、低功耗、低成本、通用性存算一體在深度學習等領域有獨特優勢,可以提供比傳統設
22、備高幾十倍的算效比,此外存內計算芯片通過架構創新可以提供綜合性能全面兼顧的芯片及板卡,預計將在邊側推理場景中有著廣泛的應用,為廣泛的邊緣AI業務提供服務。云側大算力、高寬帶、低功耗存內計算可通過多核協同集成大算力芯片,結合可重構設計打造通用計算架構,存內計算作為智算中心下一代關鍵AI芯片技術,正面向大算力、通用性、高計算精度等方面持續演進,有望為智算中心提供綠色節能的大規模AI算力。表:存算一體化應用場景廣泛 算力升級:馮氏架構“破壁者”,存算一體突破瓶頸資料來源:中國移動研究院,中航證券研究所當前NOR Flash、SRAM等傳統器件相對成熟可率先開展存內計算產品化落地推動。新型器件中RRA
23、M各指標綜合表現較好,MRAM壽命和讀寫性能較好,均有各自獨特優勢與發展潛力可持續推動器件成熟,同步進行存內計算探索。三星電子、SK海力士、臺積電、美光、IBM、英特爾等都在進行存算一體技術的研究。國內公司中,億鑄科技、千芯科技、后摩智能專注于大算力存算一體芯片,閃易半導體、蘋芯科技、知存科技、智芯科、九天睿芯專注于小算力存算一體芯片。上市公司中,推薦關注研發布局NOR Flash的恒爍股份,以及擁有存算一體研發項目的東芯股份。圖:存內計算器件對比分析器件SRAMNOR FLASHRRAMMRAMPCM易失特性易失非易失非易失非易失非易失多值存儲否是是否是現有工藝節點5nm28nm28nm16
24、nm28nm理論工藝極限2nm14nm5nm5nm5nm單比特存儲面積(F2/bit)3007.520403024讀寫次數無限1061081015108應用場景云側和邊側的 推理和訓練邊側和端側的 推理云側、邊側和端側 的推理云側和邊測的 推理和訓練云側、邊側和端側的 推理 傳輸速度迭代不止,高速光模塊出貨預計大幅增長。據lightCounting統計,2021年,200G、400G和800G的高速以太網光模塊發貨量達222萬只,2022年預計將達600萬只,同比170%以上,800G的產品有望在2022年開始逐步放量。據lightcounting2022年3月預測,未來隨著AI、元宇宙等新技
25、術不斷發展,以及網絡流量長期保持持續增長,以太網光模塊銷售額也將保持較快增長并不斷迭代升級。預計到2027年,以太網光模塊市場將達到100.11億美元。圖:高速光模塊發貨量預測(百萬只)傳輸升級:高速光模塊放量資料來源:光通信之家,lightcounting,中航證券研究所圖:以太網光模塊營收預測(百萬美元)CPO(協同封裝光子技術)提升數據中心應用中的光互連技術。CPO將光學器件和ASIC緊密結合在一起,通過 Co-packaging 的封裝方式,大體積的可插拔模塊被簡單的光纖配線架所取代,因此前面板的物理擁塞得以緩解。而交換機和光學器件之間的電氣通道大大縮短,因此CPO將增加帶寬和縮小收發
26、器尺寸,提升系統集成度,同時降低功耗和封裝成本。據lightcounting預測,數據中心將率先使用CPO封裝技術。同時,隨著AI集群和HPC的架構正在不斷演進發展,可能會看到CPO部署在GPU、TPU以及以太網、InfiniBand或NVLink交換機上,另外有許多基于FPGA的加速器也可能受益于CPO。預測在2027年,CPO端口將占總800G和1.6T端口的近30%。據機構CIR預測,CPO市場規模將在2025年超過13億美元,2027年達到27億美元。建議關注中際旭創、光迅科技、華工科技、天孚通信、德科立、源杰科技等光模塊產業相關標的。圖:CPO交換機傳輸升級:CPO與硅光技術降本增效
27、資料來源:易飛通信,lightcounting,CSDN,中航證券研究所圖:CPO端口、可插拔以太網光模塊和AOC出貨占比預測 硅光芯片基于絕緣襯底上硅(Silicon-On-Insulator,SOI)平臺,兼容互補金屬氧化物半導體(Complementary Metal OxideSemiconductor,CMOS)微電子制備工藝,同時具備了 CMOS 技術超大規模邏輯、超高精度制造的特性和光子技術超高速率、超低功耗的優勢。硅光芯片商業化至今較為成熟的領域為數據中心、通信基礎設施等光連接領域。目前,硅光技術在第一代4x25G光模塊中主要應用于500m內的100G QSFP28 PSM4;
28、在第二代1x100G產品中,應用有100G QSFP28 DR1/FR1和LR1,作用于500m-10km場景中;在400G產品中,主要聚焦在2km以內的中短距離傳輸應用場景,產品有400G DR4。未來隨著技術逐漸成熟,激光雷達、光子計算等領域的應用有望實現突破。建議關注光庫科技、聲光電科、賽微電子等硅光制造產業鏈相關標的。傳輸升級:CPO與硅光技術降本增效資料來源:華中科技大學武漢光電國家研究中心,易飛揚通信,中航證券研究所硅光芯片在光模塊中的應用硅光芯片的未來主要應用場景展望 一、現象級AI應用狂飆破壁,ChatGPT引發范式革命二、巨量數據規模引發質變,AI模型算力緊缺目 錄四、風險提
29、示三、AIGC跨越數據鴻溝,合成數據與日精進 ChatGPT狂飆出圈,AIGC迎發展快車道資料來源:同伴客數據,至頂科技,中航證券研究所AIGC(人工智能生成內容)的狹義概念是利用AI自動生成內容的生產方式。在AIGC場景下,人工智能可靈活運用于寫作、編曲、繪畫和視頻制作等創意領域。初步估計,到2025年,人工智能生成數據占比將達到10%。根據Generative AI:A Creative New World的分析,AIGC有潛力產生數萬億美元的經濟價值。ChatGPT屬于AIGC技術在自然語言對話場景的應用。ChatGPT的火速出圈,將AIGC推向新的高度。名詞概念含義優勢劣勢代表PGC專
30、業生產內容由專業站長或專家提供 的內容,可控性強,可以經過多層篩選,呈現在用 戶面前更具權威,或者更 有用專家的力量是有限的,也許一篇文章能有很大吸引力,但是產出的數量方面卻是很薄弱的.新浪、網易、搜狐等門戶網站UGC用戶生產內容不必操心網站的內容數量,總有無數的用戶每日 每夜為網站提供新的血液內容的質量很難把關,水平 參差不齊,控制不好內容的好壞,網站很容易會被廣告、垃圾信息所占據臉書、推特、抖音、微博、微信公眾號、知乎等AIGC人工智能生產內容創作效率高,創作成本低,使用門檻低難以精準滿足創作需求、對于細節控制力不夠、技術成 熟度不夠ChatGPT、小冰科技、同伴客數據、百度文心等表:PG
31、C、UGC、AIGC對比 AIGC提供數據燃料,驅動AI技術發展資料來源:中國信通院,中航證券研究所AIGC正朝著效率和品質更高、成本更低的方向發展。根據ChatGPT能夠快速、準確地生產聊天內容的表現,可大膽推測,未來AIGC技術將會把創造和知識工作的邊際成本降至零,以產生巨大的勞動生產率和經濟價值。數據是人工智能的燃料和驅動力,人工智能發展所需的海量數據也能通過 AIGC 技術生成、合成出來,即合成數據(synthetic data)。合成數據可以在數學上或統計學上反映真實世界數據的屬性,因此可以作為真實世界數據的替代品,來訓練、測試、驗證 Al 模型。興起深度學習快速突破海量數據需求實現
32、牽引AIGC1、數字孿生,映射現實世界應用的三個層次2、數字編輯,改變虛擬世界3、數字內容自我生成和演化驅動數據價值提供多樣化、個性化的內容高品質、低成本的AI訓練數據 跨越數據鴻溝,合成數據推進實現AI 2.0資料來源:騰訊,中航證券研究所合成數據將極大拓展人工智能發展應用的數據基礎。Forrester 將合成數據和強化學習、Transformer 網絡、聯邦學習、因果推理視為實現人工智能2.0 的五項關鍵技術進展,可以解決人工智能 1.0 所面臨的一些限制和挑戰,諸如數據、準確性、速度、安全性、可擴展性等。Gartner 預測稱,到 2030 年合成數據將徹底取代真實數據成為 AI 模型所
33、使用的數據的主要來源。數據質優量大實現數據增強和數據模擬,解決數據匱乏、數據質量等問題,包括通過合成數據來改善基準測試數據的質量等安全保密避免數據隱私/安全/保密題,利用合成數據訓練 AI模型可以避免用戶隱私問題,這對于金融、醫療等領域而言尤其具有意義公平糾偏確保數據多樣性更多反映真實世界,提升Al 的公平性,以及糾正歷史數據中的偏見,消除算法歧視準確可靠應對長尾、邊緣案例,提高 Al 的準確性、可靠性,合成數據可自動創建、生成現實世界中難以或者無法采集的數據場景,更好確保 AI 模型的準確性提升訓練速度在大多數情況下,每多采集和標注一條數據,花費的時間是成倍的。但合成數據可通過芯片進行快速生
34、產。圖:合成數據為AI模型提供強大助力 合成數據為數據要素創造增量,潛在商業價值待挖掘資料來源:騰訊,Gartner,中航證券研究所根據 Cognilytica 的數據,合成數據市場規模在 2021 年大概是 1.1 億美元,到2027 年將達到 11.5 億美元。Grand View Research 預測,Al 訓練數據市場規模到 2030 年將超過 86 億美元。Gartner 預測,到 2024 年用于訓練 Al 的數據中有 60%將是合成數據,到2030 年 AI 模型使用的絕大部分數據將由人工智能合成。合成數據作為數據要素市場的新增量,在創造巨大商業價值的同時,也有望解決人工智能和
35、數字經濟的數據供給問題。圖:合成數據發展預測用于AI的數據目前未來合成數據現實數據 人工智能生成的數據 由簡單的規則,統計模型,模擬和其他技術生成 直接測量得到的數據 被成本、物流、隱私等原因所限制獲得 合成數據為數據要素創造增量,潛在商業價值待挖掘資料來源:中航證券研究所合成數據的賽道主要涵蓋非結構化數據(圖片、視頻、語音等)、結構化數據(表格等)、測試數據(test data)、開源服務等幾大方向。國外的主流科技公司紛紛瞄準合成數據領域加大投入與布局。微軟、英偉達、亞馬遜等科技巨頭均推出了合成數據的工具或者應用,用于訓練自主飛行器、為AI訓練構建具有物理屬性的合成數據技術引擎等。合成數據相
36、關創新創業方興未艾,合成數據創業公司不斷涌現,合成數據領域的投資并購持續升溫,開始涌現了合成數據即服務(synthetic data asa service,SDaas)這一發展前景十分廣闊的全新商業模式。AI.Reverie為其中較著名的初創公司,其開發的平臺可以為AI項目自動生成大型合成訓練數據集,公司于2021年被頭部互聯網企業Meta收購。國內建議關注進行AI算法研究,且擁有龐大數據的公司,包括百度、阿里、騰訊、金山辦公、中國電信等。一、現象級AI應用狂飆破壁,ChatGPT引發范式革命二、巨量數據規模引發質變,AI模型算力緊缺目 錄四、風險提示三、AIGC跨越數據鴻溝,合成數據與日精
37、進 風險提示AI算法、模型存較高不確定性,AI技術發展不及預期ChatGPT用戶付費意愿弱,客戶需求不及預期針對AI的監管政策收緊 分析師承諾負責本研究報告全部或部分內容的每一位證券分析師,再次申明,本報告清晰、準確地反映了分析師本人的研究觀點。本人薪酬的任何部分過去不曾與、現在不與,未來也將不會與本報告中的具體推薦或觀點直接或間接相關。風險提示:投資者自主作出投資決策并自行承擔投資風險,任何形式的分享證券投資收益或者分擔證券證券投資損失的書面或口頭承諾均為無效。免責聲明本報告由中航證券有限公司(已具備中國證券監督管理委員會批準的證券投資咨詢業務資格)制作。本報告并非針對意圖送發或為任何就送發
38、、發布、可得到或使用本報告而使中航證券有限公司及其關聯公司違反當地的法律或法規或可致使中航證券受制于法律或法規的任何地區、國家或其它管轄區域的公民或居民。除非另有顯示,否則此報告中的材料的版權屬于中航證券。未經中航證券事先書面授權,不得更改或以任何方式發送、復印本報告的材料、內容或其復印本給予任何其他人。未經授權的轉載,本公司不承擔任何轉載責任。本報告所載的資料、工具及材料只提供給閣下作參考之用,并非作為或被視為出售或購買或認購證券或其他金融票據的邀請或向他人作出邀請。中航證券未有采取行動以確保于本報告中所指的證券適合個別的投資者。本報告的內容并不構成對任何人的投資建議,而中航證券不會因接受本
39、報告而視他們為客戶。本報告所載資料的來源及觀點的出處皆被中航證券認為可靠,但中航證券并不能擔保其準確性或完整性。中航證券不對因使用本報告的材料而引致的損失負任何責任,除非該等損失因明確的法律或法規而引致。投資者不能僅依靠本報告以取代行使獨立判斷。在不同時期,中航證券可發出其它與本報告所載資料不一致及有不同結論的報告。本報告及該等報告僅反映報告撰寫日分析師個人的不同設想、見解及分析方法。為免生疑,本報告所載的觀點并不代表中航證券及關聯公司的立場。中航證券在法律許可的情況下可參與或投資本報告所提及的發行人的金融交易,向該等發行人提供服務或向他們要求給予生意,及或持有其證券或進行證券交易。中航證券于
40、法律容許下可于發送材料前使用此報告中所載資料或意見或他們所依據的研究或分析。我們設定的上市公司投資評級如下:買入:未來六個月的投資收益相對滬深300指數漲幅10%以上。持有:未來六個月的投資收益相對滬深300指數漲幅-10%-10%之間賣出:未來六個月的投資收益相對滬深300指數跌幅10%以上。我們設定的行業投資評級如下:增持:未來六個月行業增長水平高于同期滬深300指數。中性:未來六個月行業增長水平與同期滬深300指數相若。減持:未來六個月行業增長水平低于同期滬深300指數。中航科技電子團隊介紹:首席:趙曉琨SAC執業證書:S0640122030028十六年消費電子及通訊行業工作經驗,曾在華
41、為、阿里巴巴、摩托羅拉、富士康等多家國際級頭部品牌終端企業,負責過研發、工程、供應鏈采購等多崗位工作。曾任職華為終端半導體芯片采購總監,阿里巴巴人工智能實驗室供應鏈采購總監。分析師:劉牧野SAC執業證書:S0640522040001約翰霍普金斯大學機械系碩士,2022年1月加入中航證券。擁有高端制造、硬科技領域的投研經驗,從事科技、電子行業研究。研究助理 劉一楠SAC執業證書:S0640122080006西南財經大學金融碩士,2022年7月加入中航證券,覆蓋半導體設備、半導體材料板塊。研究助理 蘇弘宇SAC執業證書:S0640122040021俄亥俄州立大學金融數學學士,約翰霍普金斯大學金融學碩士。2022年加入中航證券。