《計算機行業:多模態大模型技術演進及研究框架-230318(51頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業:多模態大模型技術演進及研究框架-230318(51頁).pdf(51頁珍藏版)》請在三個皮匠報告上搜索。
1、多模態大模型技術演進及研究框架多模態大模型技術演進及研究框架證券研究報告證券研究報告 行業深度報告行業深度報告發布日期:2023年3月18日本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請參閱最后一頁的重要聲明。分析師:于芳博分析師:于芳博SAC編號:S1440522030001分析師:金戈分析師:金戈SAC編號:S1440517110001SFC 中央編號:BPD352分析師:分析師:閻貴成閻貴成SAC編號:S1440518040002SFC 中央編號:BN
2、S315 核心觀點:Transformer顛覆了傳統深度學習模型,但僅限于文本,ViT打通了Transformer與CV領域的壁壘,BEiT模型將生成式預訓練引入CV領域,基于ViT的多模態模型涌現。多模態已經在多個領域中得到廣泛應用,如虛擬人、智能座艙、機器人等,各式應用持續推動多模態模型的演進。近期OpenAI發布能處理圖像和文本的多模態模型GPT-4,引發關注,隨著底座模型推出,上層應用預計將會涌現,催生巨大商業市場,我們建議關注。ViT打通了打通了Transformer與與CV領域的壁壘領域的壁壘,BEiT模型將生成式預訓練引入模型將生成式預訓練引入CV領域領域。Transformer
3、的出現顛覆傳統深度學習模型,BERT等證明了Transformer在NLP領域的優秀表現。然而傳統的Transformer模型只適用于單模態文本,ViT模型將patch embedding引入Transformer,打通了Transformer與CV領域的壁壘。以ViT為基礎的多模態模型如雨后春筍般涌現,以文圖多模態為主,視頻領域也產生了許多基于ViT的模型。生成式預訓練被證明在自然語言處理領域有著廣泛的應用,BEiT模型將生成式預訓練引入CV領域,實現了CV領域大規模自監督預訓練。多模態發展經歷五個階段多模態發展經歷五個階段,包括行為時代、計算時代、交互時代、深度學習時代和大模型時代。多模態
4、交互多模態交互、感知感知、內容分發等應用已涉及多個內容分發等應用已涉及多個方面方面,包括多模態檢索包括多模態檢索、虛擬人虛擬人、智能人智能人、智能座艙智能座艙、語音助手等語音助手等。擴散模型等和多模態模型的結合催生了文生圖任務的火爆。各式多模態場景各式多模態場景下的應用持續推動多模態模型的演進下的應用持續推動多模態模型的演進。多模態預訓練大模型核心要素包括:對圖文編碼多模態預訓練大模型核心要素包括:對圖文編碼、設置學習目標設置學習目標、模型結構模型結構、模態融合等模態融合等。多模態預訓練模型首先要將圖文進行編碼,文字端有成熟的BERT等模型進行處理,圖像特征基于Patch提取更加高效。學習目標
5、是多模態預訓練大模型重要一環,包括圖文對比、編碼語言模型、圖文匹配等,模型可以使用不同的學習目標產生不同學習效果。多模態預訓練大模型結果主要分為encoder-only和encoder-decoder,常見的是encoder-only模型,用于圖文檢索等任務,而后者適用于生成任務。根據模態融合方式不同,又可以分為fusion encoder和dual encoder模型,前者通過混合方式對模態進行處理,能夠學習到不同模態之間的隱藏的知識,適合推理,后者分別對模態進行處理,適合檢索等任務。多模態預訓練大模型未來將更加統一多模態預訓練大模型未來將更加統一。雖然BEiT-3等統一模型將各種任務統一起
6、來,但實際上僅僅是將幾個任務的模塊累加起來得到的,并非真正意義上的“統一”。未來,以微軟發布的KOSMOS-1和谷歌發布的PaLM-E,將不同模態統一編碼為文本模式或者使用通才模型統一下游任務使多模態預訓練大模型走向統一。多模態大模型正處于蓬勃發展階段多模態大模型正處于蓬勃發展階段,隨著底座模型的推出隨著底座模型的推出,上層應用預計將會涌現上層應用預計將會涌現,催生巨大商業市場催生巨大商業市場,我們建議關注我們建議關注,尤其關注當前多模態大尤其關注當前多模態大模型的推出情況模型的推出情況。核心觀點 目錄一、多模態預訓練概述一、多模態預訓練概述二、多模態預訓練關鍵要素二、多模態預訓練關鍵要素三、
7、主要模型與下游場景三、主要模型與下游場景四、未來方向及演進趨勢四、未來方向及演進趨勢五、風險提示五、風險提示 概述總括技術奇點TransformerVision TransformerBEiT1、以BERT為主的Transformer模型取得很好的效果,但是僅限于文本領域;2、Transformer中自注意力機制和前向傳播網絡權重共享適合于多模態模型。1、將圖片patch化,解決了Transformer不能應用于圖像領域問題;2、patch embedding提取圖像特征高效;3、基于ViT模型衍生了視頻Transformer相關模型。1、將生成式預訓練MLM方法從NLP遷移至CV,實現CV大
8、規模自監督預訓練;2、統一多模態大模型BEiT-3前身。處理圖像生成式預訓練應用催化擴散模型與CLIP結合,衍生多個文圖生成模型,文圖生成領域火爆多模態檢索智能家居機器人技術虛擬人/智能助理機器翻譯多模態大模型的技術奇點在于:1、BERT等模型證明了Transformer在NLP領域性能好,并且對于數據量、模型大小而言未見上限;2、ViT模型將Transformer模型遷移到CV領域,讓Transformer能夠處理圖像;3、BEiT將生成式預訓練從NLP遷移到CV,圖像大規模自監督學習成為可能。4、擴散模型與多模態大模型結合,推動文生圖領域發展。各式多模態場景下的應用持續推動多模態模型的演進
9、 圖圖表:利用多模數據能有助于學習表:利用多模數據能有助于學習資料來源:Multimodal data as a means to understand the learning experience,中信建投模態是事物的一種表現形式,多模態通常包含兩個或者兩個以上的模態形式,是從多個視角出發對事物進行描述。生活中常見多模態表示,例如傳感器的數據不僅僅包含文字、圖像,還可以包括與之匹配的溫度、深度信息等。使用多模態數據能夠使得事物呈現更加立體、全面,多模態研究成為當前研究重要方面,在情感分析、機器翻譯、自然語言處理多模態研究成為當前研究重要方面,在情感分析、機器翻譯、自然語言處理和生物醫藥前沿
10、方向取得重大突破。和生物醫藥前沿方向取得重大突破。1.1 多模態表示包含兩個或兩個以上事物表現形式 圖圖表:多模態模型發展的五個階段表:多模態模型發展的五個階段資料來源:carnegie mellon university,中信建投1.2 多模態發展主要經歷五個時代 1.3 Transformer顛覆傳統模型,但限于單模態領域圖圖表:表:TransformerTransformer基本架構基本架構資料來源:Attention Is All You Need,中信建投Multi-head AttentionScaled Dot-Product Attention20172017年年Transfo
11、rmerTransformer被提出,顛覆了傳統的深度學習模型,被提出,顛覆了傳統的深度學習模型,在機器翻譯任務上實現了最好性能。Transformer在大規模語料庫上進行自監督預訓練,然后在下游任務進行微調受到人們的關注,許多預訓練大模型都是遵守這一范式提出,例如BERT、GPT等。雖然基于Transformer的大模型都取得了很好的效果,但還是限于單一模態(文本)上,無法將其self-attention中良好的泛化能力遷移到其他模態(圖像、視頻等)中。TransformerTransformer不能遷移圖像領域的主要原因在于輸入長度限制,不能遷移圖像領域的主要原因在于輸入長度限制,以BER
12、T為例,其輸入數據的長度只能支持512,而對于像素為224*224的圖片來講,其輸入遠大于512。1.4 ViT的出現打通了CV和NLP之間壁壘,推動多模態演進圖圖表:表:ViTViT基本架構基本架構資料來源:An image is worth 16x16 words:Transformers for image recognition at scale,中信建投將圖片切割,解決輸入大小問題ViT將圖片的2D信息,通過切割,轉化為類似文本的1D信息。Transformer(Self-attention)在文本領域優秀的表現吸引著計算機視覺研究者,許多人開始將Transformer機制引入到計算
13、機視覺。TransformerTransformer限制在于其輸入數據大小,需要考慮輸入策略。限制在于其輸入數據大小,需要考慮輸入策略。谷歌借鑒前人的思想,在強大的算力資源加持下,提出ViT模型。ViTViT模型通過將圖片進行切割成一個個模型通過將圖片進行切割成一個個patchpatch(原文將一張圖片切割成原文將一張圖片切割成1616個個patchpatch),對對patchpatch進行處理進行處理,通過線性映射通過線性映射,變成變成TransformerTransformer可接受的輸入可接受的輸入,打通了打通了CVCV和和NLPNLP之間的壁壘之間的壁壘。圖圖表:表:ViLTViLT模
14、型使用模型使用Patch embeddingPatch embedding提取視覺特征并取得很好效率提取視覺特征并取得很好效率資料來源:ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision,中信建投1.5 ViT中的Patch embedding在提取視覺特征方面效率優勢明顯ViTViT不僅能夠讓不僅能夠讓TransformerTransformer能夠對圖像進行處理,而且能夠對圖像進行處理,而且ViTViT圖像特征提取策略相較于之前的方式效率更高。圖像特征提取策略相較于之前的方式效率更高。
15、如左圖,虛線框內是三種視覺提取方式,分別為基于Region、基于Grid和ViT中線性映射方法進行視覺特征提取。在ViT之前,視覺算法中的視覺特征多基于Region提取,大多會存在一個目標檢測器,使用目標檢測方法提取視覺特征。ViT在預訓練階段舍棄了目標檢測器,使用基于Patch的視覺特征,幾乎只相當于一個線性embedding,降低了運算復雜度。如右圖所示,如右圖所示,ViLTViLT多模態模型中在視覺特征提取方面使用了多模態模型中在視覺特征提取方面使用了Patch embeddingPatch embedding方法,實現了運行效率的大大提升,在特征提取階方法,實現了運行效率的大大提升,在
16、特征提取階段段ViLTViLT-B/32B/32的視覺特征提取階段僅用的視覺特征提取階段僅用0.4ms0.4ms,遠高于,遠高于RegionRegion(885ms885ms)和)和GridGrid(45ms45ms)方法。)方法。1.6 基于Vision Transformer,Video Transformer模型出現1 1、視頻領域基于、視頻領域基于ViTViT模型推出各類模型推出各類Video TransformerVideo Transformer。視頻是一個典型的多模態形式,里面包含圖像、聲音、文字等。2、在ViT之前,視頻方面的任務,如視頻理解等,基本是通過3D卷積網絡展開的。借
17、鑒ViT思想,許多Video Transformer被提出來,其中包括TimeSformer,TimeSformer將每一幀視頻抽象成圖像,并與其前一幀和后一幀相結合進行運算。與3D卷積神經網絡(CNN)相比,TimeSformer 的訓練速度大約是其4倍,而推斷所需的計算量不足其十分之一。TimeSformer 的高效讓在高空間分辨率(例如高達 560 x560 像素的幀)和長視頻(包括高達 96 幀)上訓練模型成為可能。資料來源:Is Space-Time Attention All You Need for Video Understand,中信建投圖圖表:自注意力機制在視頻領域應用機制
18、表:自注意力機制在視頻領域應用機制圖圖表:自注意力機制在視頻領域應用詳情表:自注意力機制在視頻領域應用詳情TimeSformer將視頻的每一幀看作一個圖像,采取五種策略對圖像中的像素進行處理,發現第三種處理方式最好。1.7 Transformer權重共享決定其適合多模態圖圖表:表:VLMoVLMo預訓練階段預訓練階段Transformer存在權重共享,模型內部的某些模塊可以共享權重參數。Transformer的權重共享主要是由于其自注意力模塊和前向傳播網絡都和輸入序列長度無關。這種權重共享理念同樣適合用于多模態模型中這種權重共享理念同樣適合用于多模態模型中。例如,圖文多模態中,圖像訓練得到的權
19、重參數可以用于訓練文本,結果依然有效,甚至不用fine-tune。許多多模態模型都借鑒了Transformer里面的權重共享理念,典型的案例包括VLMo模型,該模型首先在BEiT中使用大規模純圖像數據預訓練視覺網絡和自注意力模塊,然后凍結視覺網絡和自注意力模塊,通過對大量純文本數據進行建模訓練語言網絡,最后使用視覺-語言預訓練整個模型。凍住的前向傳播和自注意力共享視覺與文本參數資料來源:VLMO:Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts,中信建投 1.8 BEiT模型的出現將生成式預訓練從NLP遷
20、移到CV上生成式預訓練是自監督學習重要方法和訓練目標生成式預訓練是自監督學習重要方法和訓練目標,生成式預訓練核心是在沒有標簽或者人工標注的情況下,學習如何產生數據。生成式預訓練在自然語言處理中取得較大成功。BEiTBEiT模型的出現,將生成式預訓練從模型的出現,將生成式預訓練從NLPNLP遷移到遷移到CVCV上,就是將上,就是將BERTBERT中的掩碼語言中的掩碼語言學習(學習(MLMMLM)方法應用到圖像領域。)方法應用到圖像領域。之后的MAE模型也是基于BEiT的工作展開的。如果說如果說ViTViT將將TransformerTransformer遷移到遷移到CVCV中,那么中,那么BEiT
21、BEiT就是將就是將BERTBERT遷移到遷移到CVCV中。中。BEiT解決了CV上生成式預訓練的兩個問題:1、如何將圖像信息轉化為NLP中離散的token,BEiT使用到了dVEA方法將圖像離散化;2、使用成熟的ViT結構將處理圖像信息。通過以上兩點,BEiT成功將MLM/MIM方法應用圖像領域,將生成式預訓練遷移到CV上,實現CV領域中大規模自監督預訓練。資料來源:Beit:Bert pre-training of image transformers,中信建投預訓練前將圖像Token化圖圖表:表:BEiTBEiT模型預訓練架構模型預訓練架構圖圖表:表:dVAEdVAE架構架構 1.9 圖
22、文多模態是多模態模型中目前重要方向圖圖表:表:VLPVLP模型的相關論文數量(模型的相關論文數量(Paper with codePaper with code數據)數據)資料來源:Paper with code,Vision-Language Intelligence:Tasks,Representation Learning,and Large Models,中信建投579537312419 1910 9884444333322221111110100200300400500600700ALIGNCLIPLXMERTViLBERTVisualBERTOSCARViLTOFAALBEFBLIP
23、VL-BERTUNIMOVL-T5WenLanVisual ParsingSOHOSimVLMFLAVAPixel-BERTFlorenceKaleido-BERTInternVideoInterBERTUnified VLPXGPTVLMoAltCLIPOneR圖文多模態任務是目前視覺語言預訓練模型(圖文多模態任務是目前視覺語言預訓練模型(VLPVLP)中最重要的任務之一。)中最重要的任務之一。圖文任務包括圖文檢測、圖文分類、圖文分割等。根據Paper with code網站上VLP領域中模型相關論文數量來看,ALIGN和CLIP模型相關論文數量最多,均超過500篇,這兩個模型均是以圖像-文
24、本為對象展開的研究。其中ALIGN是谷歌2021年6月提出,CLIP是OpenAI2021年2月提出。圖圖表:多模態模型主要情況表:多模態模型主要情況 1.10 擴散模型推動多模態中文本圖像生成發展圖圖表:幾種生成式模型表:幾種生成式模型圖表:擴散模型與圖表:擴散模型與CLIPCLIP融合融合擴散模型擴散模型CLIPStable DiffusionDALL-E 2MidJourney基礎模型衍生模型202220202021Stability.AIOpenAIMidJourney公司擴散模型是一種繼擴散模型是一種繼GANGAN、VAEVAE、FlowFlow-basedbased模型之后最新的生
25、成模型,從氣體擴散的物理過程中獲得靈感,通過正向擴散和反向擴模型之后最新的生成模型,從氣體擴散的物理過程中獲得靈感,通過正向擴散和反向擴散兩個過程進行生成。在散兩個過程進行生成。在OpenAIOpenAI、英偉達、谷歌推出大模型后,擴散模型受到了較多的關注。、英偉達、谷歌推出大模型后,擴散模型受到了較多的關注。擴散模型與多模態預訓練大模型的結合主要應用在文本圖像生成領域。擴散模型與多模態預訓練大模型的結合主要應用在文本圖像生成領域。以擴散模型和多模態預訓練大模型CLIP為基礎模型,2022年4月OpenAIOpenAI 發布文本生成圖像模型發布文本生成圖像模型DALLE 2DALLE 2,之后
26、谷歌推出,之后谷歌推出ImagenImagen,直接對標,直接對標DALLE 2DALLE 2。資料來源:Github,中信建投 1.11 多模態模型有包括COCO在內的多個預訓練數據集圖圖表:多模態模型常見數據集表:多模態模型常見數據集數據集數據集年份年份規模(圖文對數量)規模(圖文對數量)語言語言是否可獲取是否可獲取SBU Captions20111MEnglish是Flickr30k2014145KEnglish是CoCo2014567KEnglish是FashionGen2018300kEnglish是VQA v2.020171.1MEnglish是CC3M 20183MEnglish
27、是GQA20191MEnglish是LAIT202010MEnglish否CC12M 202112MEnglish是AltText20211.8BEnglish否TVQA 201821,793English是HT100M 2019136MEnglish是WebVid2M20212.5MEnglish是YFCC-100M 2015100MEnglish是和文本大模型或者視覺大模型類似,多模態預訓練大模型也需要大量數據提前進行預訓練,然后針對下游場景進行微調。和文本大模型或者視覺大模型類似,多模態預訓練大模型也需要大量數據提前進行預訓練,然后針對下游場景進行微調。多模態模型目前用于許多預訓練數據集
28、,包括Flickr30k、COCO、LAION-400M、RedCaps在內的多項英文圖像/文本數據集,也包括Wukong、WuDaoMM、WSCD在內的多項中文數據集。這些數據集一般都是以圖像文本對的形式存在,例如,LAION-400M包含CLIP模型過濾的4億個圖像文本對數據集;Wukong包含1億個中文圖像文本對;Flickr30K包含31000張圖片,每張都與5個句子相關。LAION是多模態模型數據集領域重要組織,他們是公益/非營利性組織,推出了LAION-400M、LAION-5B、Clip H/14等數據集,并且完全開源。數據集數據集年份年份規模規模語言語言是否可獲取是否可獲取LA
29、ION-400M2021400MEnglish是RedCaps202112MEnglish是Wukong2022100MChinese是CxC202124KEnglish是Product1M20211MChinese是WIT202137.5MMulti-lingual是JFT-300M201730MEnglish否JFT-3B20213000MEnglish否IG-3.5B-17k2018350MEnglish否M6-Corpus202160MChinese否M5Product20216MEnglish是LocalizedNarratives2020849kEnglish是RUC-CAS-We
30、nLan202130MChinese否WuDaoMM2022600MChinese是資料來源:Vision-Language Intelligence:Tasks,Representation Learning,and Large Models,中信建投 1.12 多模態模型大一統成趨勢圖圖表:表:VLMOVLMO預訓練框架預訓練框架圖表:圖表:BEiTBEiT-3 3在多項任務上表現亮眼在多項任務上表現亮眼資料來源:Image as a Foreign Language:BEIT Pretraining for All Vision and Vision-Language Task,VLMO
31、:Unified Vision-Language Pre-Training withMixture-of-Modality-Experts,中信建投20222022年年8 8月,微軟推出月,微軟推出BEiTBEiT-3 3模型,引領圖像、文本、多模態邁向大一統。模型,引領圖像、文本、多模態邁向大一統。BEiT-3提出了掩碼圖像建模,將masked data modeling引入到圖像預訓練任務,將圖像和文本同等看待,以統一的方式對圖像、文本、圖像-文本對進行建模和學習。實際上,微軟在實際上,微軟在20212021年年1111月就推出了統一模型月就推出了統一模型VLMOVLMO,使用混合模態專家
32、(MOME)的方式來進行不同模態中進行預訓練,訓練出不同的編碼器,用于不同的下游任務。BEiT-3在其基礎上簡化模型并增大預訓練數據量,最終在多項下游任務上表現亮眼。2023年3月15日,微軟旗下OpenAI推出多模態大模型GPT-4。VLMO在前向傳播層,使用三個“專家”處理不同預訓練任務 1.13 視頻/音頻等領域模態融合進展也較快圖圖表:視頻多模態領域中的數據集及模型表:視頻多模態領域中的數據集及模型在視頻、音頻領域,多模態融合同樣是一種趨勢。圖文多模態模型逐漸遷移至視頻圖文多模態模型逐漸遷移至視頻-文本文本/音頻音頻-文本多模態領域文本多模態領域,典型的代表是CoCa模型,圖文領域中推
33、出后,在視頻領域就推出了VideoCoCa,CLIP模型推出后,在視頻領域就推出了VideoCLIP模型。一些統一多模態大模型的出現也在推動該領域的發展。一些統一多模態大模型的出現也在推動該領域的發展。例如,阿里達摩院推出的mPLUG-2多模態大模型,不僅在圖-文下游任務中取得很好的效果,也能進行視頻領域的任務,例如在視頻問答、視頻字幕等領域相關工作上均取得了不錯的成績。在音頻多模態領域中比較著名的模型是谷歌推出的MusicLM模型,能通過文字生成音樂。資料來源:Paper with code,中信建投領域數據集Best Model評價評價標準Video Question AnsweringA
34、ctivityNet-QAVideoCoCa56.10%AccuracyMSRVTT-QAmPLUG-248%iVQAText+Text(no Multimodal Pretext Training)40.20%MSRVTT-MCVIOLETv297.60%TVQAFrozenBiLM82%NExT-QAHiTeA63.10%Howto100M-QAHero w/pre-training77.75%Video CaptioningMSR-VTTmPLUG-257.8BLUE-4YouCook2UniVL17.35ActivityNet CaptionsVideoCoCa14.5Hindi MS
35、R-VTTSBD_Keyframe41.01Video RetrievalMSR-VTT-1kAHunYuan_tvr(huge)62.9text-to-video R1MSR-VTTInternVideo55.2MSVDHunYuan_tvr(huge)59YouCook2VideoCLIP32.2TVRHero w/pre-training4.34TGIFMDMMT-225.5 資料來源:多模態技術白皮書,中信建投多模態在交互、感知、內容分發等眾多領域都有較為重要的地位。多模態在交互、感知、內容分發等眾多領域都有較為重要的地位。多模態交互在家庭與辦公場景下應用廣泛,多模態交互可以進一步提升
36、用戶與智能家居設備的交互體驗,提升了用戶完成相同意圖的效率與成功率。多模態感知包括車場景和語音助手下的用戶意圖感知,例如,在駕車場景中,隨著多屏主控等智能座艙技術進步,各種智能終端可以通過多模態交互實現意圖識別準確率更高的用戶體驗。多模態內容分發場景下,虛擬人結合動作、表情、情感、文本等信息,輸出給用戶。1.14 多模態廣泛存在于機器人、數字人、智能家居等領域圖圖表:在家里通過多模態方式發出指令表:在家里通過多模態方式發出指令圖圖表:多模態技術能夠合成虛擬形象,給予用戶多模態的信息表:多模態技術能夠合成虛擬形象,給予用戶多模態的信息圖圖表:多模態技術的應用領域表:多模態技術的應用領域應用應用公
37、司公司/市場領域市場領域文本生成阿里商品推薦機器翻譯有道AR翻譯搜狗同傳3.0多模態檢索谷歌圖像檢索愛奇藝人臉識別智能個人助理阿里小蜜小愛同學數字人虎牙直播小愛虛擬形象傳感器智能智能車艙 目錄一、多模態預訓練概述一、多模態預訓練概述二、多模態預訓練關鍵要素二、多模態預訓練關鍵要素三、主要模型與下游場景三、主要模型與下游場景四、未來方向及演進趨勢四、未來方向及演進趨勢五、風險提示五、風險提示 多模態預訓練關鍵要素總括模型訓練要素文字使用成熟的BERT等模型進行處理圖像特征提取包括Grid、Region、Patch based方式需要重要視覺特征;基于patch的方式更高效圖文對比(ITC)掩碼語
38、言模型(MLM)圖文匹配(ITM)1.對圖文進行tokenization,轉化為模型能處理的形式2.設置學習目標3.模型結構Encoder-onlyEncoder-decoder使用不同的學習目標會帶來不同的結果常見的是Encoder-only結構,用于圖文檢索等任務,encoder-decoder結構適合相關生成任務4.模態融合方式Fusion EncoderDual EncoderFusion Encoder通過融合方式對模態進行處理;Dual Encoder分別對各模態進行處理可以通過疊加多個模型結構/模態融合方式改變模型性能6.PromptCLIPVisual ChatGPTPromp
39、t工程在多模態中更加重要,例如以上兩個模型采取Prompt方式提升性能5.提升數據質量ALBEF動量蒸餾生成偽標簽BLIP生成圖像描述并和原來的進行比較過濾 2.1 圖文需要Tokenization和Embedding圖圖表:子詞分詞法示例表:子詞分詞法示例圖表:圖像編碼的三種方式圖表:圖像編碼的三種方式資料來源:Vision-Language Intelligence:Tasks,Representation Learning,and Large Models,Unicoder-VL:A Universal Encoder forVision and Language by Cross-Mo
40、dal Pre-Training,中信建投TokenToken是模型輸入的基本單元,是模型輸入的基本單元,EmbeddingEmbedding是是TokenToken映射后的向量,用于計算。映射后的向量,用于計算。文字方面早期一般使用Word2Vec進行Tokenization,包括CBOW和skip-gram,雖然Word2Vec計算效率高,但是存在著詞匯量不足的問題,因此子詞分詞法(subword tokenization)被提出,使用字節對編碼(BPE)將詞分割成更小的單元,該方法已被應用于BERT等眾多Transformer模型中。圖像的Tokenization要比文本更加復雜,可以分
41、為基于region,基于grid和基于patch三類方式?;趃rid的方式直接使用CNN進行圖像網格信息提取,基于region的方式由預訓練的目標檢測器進行特征提取,基于patch的方式將圖像切割成小塊,提取小塊上的線性投影。圖圖表:多模態融合的四種形式表:多模態融合的四種形式圖表:文字圖表:文字/視覺特征改變對結果影響視覺特征改變對結果影響2.2 多模態模型中要重視視覺特征資料來源:ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision,An Empirical Study of Trai
42、ning End-to-End Vision and Language Transformers,中信建投相較于文本特征而言,多模態模型中視覺特征更為重要。相較于文本特征而言,多模態模型中視覺特征更為重要。當前多模態預訓練大模型中,不論CLIP、UNITER還是ViLT,在模型構造方面,視覺特征的embedding層數或者復雜度要超過文本特征,體現出視覺特征更重要,多模態需要從視覺特征中學習到更多知識。根據METER模型中的數據顯示,在視覺特征端進行優化對結果產生的影響要遠大于對文本端進行的優化。多模態的主要形式中,無一例外視覺特征要大于等于文本特征無論文本特征如何改變,對結果影響不大視覺特征
43、改變對結果影響比較大 圖圖表:多模態中學習目標表:多模態中學習目標2.3 如何設計學習目標是多模態訓練的重要一步學習目標是多模態預訓練非常重要的一步,目前的多模態的預訓練學習任務主要包括圖文對比(目前的多模態的預訓練學習任務主要包括圖文對比(ITCITC)、掩碼語言學習()、掩碼語言學習(MLMMLM)、)、掩碼視覺學習(掩碼視覺學習(MVMMVM)、圖文匹配()、圖文匹配(ITMITM)等)等。ITC是通常構造正負樣本對,通過對比學習方式,對齊圖像和文本;ITM可以看作是一個二分類任務,目標是預測一對圖像和文本是否匹配;MLM是讓模型學習語言和視覺內容之間的隱式關系,目標是從已知的語言和視覺
44、內容中重建掩碼語言標記;此外還包括掩碼物體分類(MOC)、掩碼物體回歸(MOR)、行為預測(AP)、圖文生成(ITG)等。資料來源:Large-scale Multi-Modal Pre-trained Models:A Comprehensive Survey,中信建投 2.4 不同的多模態預訓練學習目標可能帶來不一樣的結果同時使用不同的預訓練學習目標可能會增強多模態模型的效果同時使用不同的預訓練學習目標可能會增強多模態模型的效果,例如UNITER模型中,使用更多的學習目標效果一般要更好,UNITER使用MLM+ITM+MRC-kl+MRFR+WRA等多個學習目標在在多個細分場景下表現要更好
45、。使用過多的學習目標可能效果并不好使用過多的學習目標可能效果并不好。例如,METER模型中,在MLM和ITM上再加入MIM學習模型,效果比使用單個學習目標要好,但不如僅僅使用兩個學習目標,這一方面可能是學習目標之間的沖突導致的,另外一方面可能是圖像中存在噪聲,MIM重建圖像噪聲的監督學習沒有任何意義導致的。資料來源:UNITER:UNiversal Image-TExtRepresentation Learning,An Empirical Study of Training End-to-End Vision-and-Language Transformers,中信建投圖圖表:表:UNITE
46、RUNITER模型在使用不同學習目標得到不同結果模型在使用不同學習目標得到不同結果圖圖表:表:METERMETER模型在使用不同學習目標得到不同結果模型在使用不同學習目標得到不同結果 圖圖表:多模態中的表:多模態中的EncoderEncoder-onlyonly和和EncoderEncoder-DecoderDecoder架構架構圖表:圖表:EncoderEncoder-onlyonly和和EncoderEncoder-DecoderDecoder基本情況小結基本情況小結2.5 多模態模型結構包括encoder-only和encoder-decoder兩類資料來源:An empirical s
47、tudy of training end-to-end vision-and-language transformers,BLIP:Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and Generation根據模型的結構不同,多模態可以分為根據模型的結構不同,多模態可以分為encoderencoder-onlyonly和和encoderencoder-decoderdecoder兩類。兩類。顧名思義,encoder-only指模型只用了transformer的編碼器部分,多模
48、態的輸入直接通過encoder進行輸出,而encoder-decoder則是使用了transformer中的編碼器和解碼器兩部分,解碼器同時獲得解碼器的輸出結果以及之前生成的token,使用自回歸產生輸出。常見的多模態模型是encoder-only,包括CLIP、ALBEF等,適合圖文檢索,但是不適合生成任務,例如image captioning等;Encoder-Deocder模型包括VL-T5、SimVLM等,利用了decoder的特性,適合生成任務,但是不太適合圖文檢索等。架構架構基本情況基本情況代表代表EncoderEncoder-onlyonly常見;適合圖文檢索,但不適合生成任務C
49、LIP、ALBEFEncoderEncoder-DecoderDecoder不適合圖文檢索,適合生成任務VL-T5、SimVLM 圖圖表:雙流和單流模型架構表:雙流和單流模型架構圖表:圖表:Fusion EncoderFusion Encoder和和Dual EncoderDual Encoder具體模型示例具體模型示例資料來源:A Survey of Vision-Language Pre-Trained Models,Vision-Language Intelligence:Tasks,RepresentationLearning,and Large Models,中信建投2.6 根據信息
50、融合方式的不同,可以fusion/dual encoder劃分模型不同模態進行各自的編碼后,需要設計一個編碼器進行多模態編碼,根據編碼融合方式的不同,多模態模型可以分為不同模態進行各自的編碼后,需要設計一個編碼器進行多模態編碼,根據編碼融合方式的不同,多模態模型可以分為Fusion Fusion encoderencoder模型和模型和Dual encoderDual encoder模型模型。Fusion encoder顧名思義,是使用融合的方法來進行模態之間的交互,經過自注意力或者交叉注意力操作后,最后生成模態的融合表示,融合方案主要包括單流和雙流。單流假設兩個模態存在潛在關聯或者對齊比較簡
51、單,直接在兩個模態上使用自注意力機制,然后將兩個模態連接在一起;雙流模型假設模態內交互和跨模態交互需要分開,從而可以獲得更好的多模態表示,采用交叉注意力機制進行建模。融合編碼器在不同層次上對跨模態進行交互建模,在某些推理領域取得了很好的效果,但是在圖文檢索中等匹配任務中,因為要編碼交互所有的圖文對,這就導致了最后推理速度非常慢。Dual encoder分別利用兩個單模態編碼器對兩種模態進行編碼,兩種模態充分編碼后,使用簡單的點乘或者淺層注意力層計算相似性分數,就不再依賴復雜Transformer了。圖圖表:表:VLMOVLMO有有fusion encoderfusion encoder和和du
52、al encoderdual encoder特性特性圖表:圖表:BLIPBLIP有有encoderencoder和和decoderdecoder架構,適合檢索,也適合生成架構,適合檢索,也適合生成2.7 模型可以設計多個模型架構/信息融合方式,增加模型功能資料來源:BLIP:Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation,VLMO:Unified Vision-Language Pre-Training withMixture-of-Modali
53、ty-Experts在模型架構方面encoder-only模型更擅長圖文檢索,encoder-decoder模型更適合生成任務;在信息融合方面fusion encoder適合推理,dual encoder適合檢索。因此,很自然會將多個模型架構或者信息融合方式組裝起來,從而增加模型功能,這也是多模態統一實現的機制。因此,很自然會將多個模型架構或者信息融合方式組裝起來,從而增加模型功能,這也是多模態統一實現的機制。例如,VLMO中使用“三個專家”處理不同預訓練,在image-only,text-only和image-text上進行預訓練,可以看成使用不同信息融合,從而在推理和檢索等任務上均有較好表
54、現。BLIP將encoder-only和encoder-decoder進行組合,兼具理解與生成能力。Dual encoder架構fusion encoder架構encoderdecoder 圖圖表:表:CLIPCLIP模型隨著圖像數據的增多性能變好模型隨著圖像數據的增多性能變好圖表:圖表:VLMOVLMO在更大數據上預訓練后效果更好在更大數據上預訓練后效果更好2.8 多模態預訓練需要更多數據量進行訓練資料來源:Learning Transferable Visual Models From Natural Language Supervision,VLMO:Unified Vision-Lan
55、guage Pre-Training withMixture-of-Modality-Experts,中信建投過去在文本以及視覺單模領域的經驗說明更多的數據往往能讓模型的性能變得更好,類似的,在多模態預訓練模型中,更多的數過去在文本以及視覺單模領域的經驗說明更多的數據往往能讓模型的性能變得更好,類似的,在多模態預訓練模型中,更多的數據也通常讓模型性能變得更好。據也通常讓模型性能變得更好。例如,CLIP模型中,隨著處理的圖片數量越多,模型在Zero-shot(零樣本)任務上的性能更好;在VLMO模型中,使用更多的預訓練數據,在幾個任務下的表現均有較好的提升。圖圖表:表:ALBEFALBEF提出的
56、偽標簽可以捕獲真實文本未描述的概念提出的偽標簽可以捕獲真實文本未描述的概念圖表:圖表:BLIPBLIP模型自動為圖像生成字幕,并去除嘈雜的原始字幕模型自動為圖像生成字幕,并去除嘈雜的原始字幕2.9 如何解決數據噪聲:通過自學習等方式資料來源:Align before Fuse:Vision and LanguageRepresentation Learning with Momentum Distillation,BLIP:Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding多模態模
57、型中的圖文數據大多數是從網絡上收集的,帶有很大的噪聲多模態模型中的圖文數據大多數是從網絡上收集的,帶有很大的噪聲。例如文本可能包含與圖像無關的詞,或者圖像可能包含文本中未描述的物體,現有的預訓練目標(例如 MLM)可能會過度擬合噪聲文本并降低模型的泛化性能。針對這種情況,可以采取自學習方式為圖片生成新的文本對,提高預訓練質量。例如ALBEF提出動量蒸餾(MoD)方法為圖像生成偽標簽作為附加監督信號,生成的標簽可以捕獲真實文本未能描述的內容;BLIP通過自動為圖像生成字幕,與圖文數據對原有的文本數據進行對比,選擇更優的文本標簽,從而提升數據質量。圖圖表:表:visual visual ChatG
58、PTChatGPT架構架構圖表:圖表:CLIPCLIP模型中的文字提示模板生成模型中的文字提示模板生成2.10 Prompt方式在多模態預訓練的地位更加重要資料來源:Visual ChatGPT:Talking,Drawing and Editing with Visual Foundation Models,Learning Transferable Visual Models From Natural Language Supervision,中信建投PromptPrompt方法主要通過改造下游任務的模板來縮小預訓練和微調時的差異,降低微調成本,提高模型在下游的應用效果,最大的優方法主要通
59、過改造下游任務的模板來縮小預訓練和微調時的差異,降低微調成本,提高模型在下游的應用效果,最大的優點是零點是零/小樣本,已經被廣泛用于各種文本大模型中。小樣本,已經被廣泛用于各種文本大模型中。PromptPrompt在多模態預訓練任務有著非常重要的作用。在多模態預訓練任務有著非常重要的作用。例如,visual ChatGPT中,使用一個Prompt Manager生成讓ChatGPT理解的提示性文字,讓其進行圖像模型的調度,最后生成相關圖像;在CLIP模型中,在Zero-shot任務中,通過對文字生成提示性模板,能夠取得更好的性能。目錄一、多模態預訓練概述一、多模態預訓練概述二、多模態預訓練關鍵
60、要素二、多模態預訓練關鍵要素三、主要模型與下游場景三、主要模型與下游場景四、未來方向及演進趨勢四、未來方向及演進趨勢五、風險提示五、風險提示 圖圖表:表:CLIPCLIP模型模型示意圖示意圖CLIPCLIP:2021年由OpenAI提出,利用文本信息監督視覺任務自訓練,訓練數據集為40億個“文本-圖像”對,采用Transformer模型對圖像的patch序列進行建模,將不同模態的原始數據映射到統一或相似的語義空間,實現不同模態信號間的相互理解,擁有尋找不將不同模態的原始數據映射到統一或相似的語義空間,實現不同模態信號間的相互理解,擁有尋找不同模態數據間關系的能力,同模態數據間關系的能力,如下圖
61、步驟3所示,狗狗圖片對應的單詞應該是“dog”,模型在這種對應關系中學習到文本和圖像這兩種不同模態信息背后的內涵,為多模態的生成模型奠定了基礎。CLIPCLIP在在zerozero-shotshot上表現較好。上表現較好。與CV中常用的先預訓練然后微調不同,CLIP可以直接使用prompt進行零樣本學習圖像分類,即不需要任何訓練數據,就能在某個具體下游任務上實現分類。如下圖步驟2和3所示,根據任務的分類標簽構建每個類別的描述文本,選擇與圖像相似度最大的文本標簽作為圖像預測分類的結果。步驟步驟1:1:通過海量的圖片通過海量的圖片-文本數文本數據學習圖片和文本的語義關系據學習圖片和文本的語義關系步
62、驟步驟2 2:根據任務分類標簽創建類別描述文本:根據任務分類標簽創建類別描述文本步驟步驟3 3:實現:實現 zerozero-shotshot預測預測3.1.1 CLIP:使用對比學習實現圖文對齊資料來源:Learning Transferable Visual Models From Natural Language Supervision,中信建投 CLIPCLIP很靈活并且適用范圍廣。很靈活并且適用范圍廣。由于 CLIP 模型直接從自然語言中學習各種視覺概念,更加靈活和通用,CLIP模型能夠在zero-shot下執行許多不同的任務。例如在包含了細粒度對象分類、OCR、視頻中的活動識別和地
63、理定位等27個數據集的任務中,CLIP可以從圖像表示中學習到更多有用信息。CLIPCLIP下游應用場景廣泛。下游應用場景廣泛。CLIP模型本身用來做圖文檢索,后續衍生出一系列基于CLIP的模型,在視頻理解、圖像編輯、圖像生成、自監督學習、視覺問答領域都得到了廣泛應用。例如借助CLIP模型,HairClip可以根據用戶提供的文本或圖像信息單獨或聯合設計頭型,并取得了不錯的效果。3.1.2 CLIP:靈活通用,下游應用廣資料來源:Learning Transferable Visual Models From Natural Language Supervision,HairCLIP:Design
64、 Your Hair by Text and Reference Image,中信建投圖圖表:表:CLIPCLIP效果展示效果展示圖表:圖表:a.HairClipa.HairClip可以定制化修改發型可以定制化修改發型 b.b.視頻檢測視頻檢測 DALLE2DALLE2:基于:基于CLIPCLIP實現文本與圖像的聯系,基于實現文本與圖像的聯系,基于DiffusionDiffusion從視覺語義生成圖像。從視覺語義生成圖像。2022年4月由OpenAI提出,在DALLE1的基礎上進行了改進和升級,分辨率從從256x256提升到了1024 x 1024,準確性也得到了較大提升。除此之外,其還可以實
65、現以下功能:1)根據文本生成圖片;2)將圖像擴展到畫布之外;3)根據文本對圖像進行編輯,實現添加或刪除元素;4)給定一張圖片生成保持原風格的變體。DALLE2模型可以分為兩部分。首先是利用CLIP文本編碼器將圖像描述映射到表示空間,其次利用前向擴散從CLIP文本編碼映射到相應的CLIP圖像編碼,最后通過反向擴散從表示空間映射到圖像空間,生成眾多可能圖像中的一個??傮w來說,總體來說,DALLE2DALLE2實現了功能更齊全的圖文跨模態生成,圖片的真實性和準確度也較以往的產品有了不錯的提升。實現了功能更齊全的圖文跨模態生成,圖片的真實性和準確度也較以往的產品有了不錯的提升。但是在生成一些復雜圖片的
66、細節方面,DALLE2仍面臨著一些挑戰。3.1.3 DALLE2:基于CLIP實現更強大的圖文跨模態生成資料來源:Hierarchical Text-Conditional Image Generation with CLIP Latents,中信建投圖圖表:表:DALLE2.0DALLE2.0模型基于文本描述生成圖像模型基于文本描述生成圖像圖表:圖表:DALLE1.0DALLE1.0與與DALLE2.0DALLE2.0生成圖片對比生成圖片對比基于基于CLIPCLIP模型構建起圖像和模型構建起圖像和文本的統一語義關系文本的統一語義關系基于擴散模型實現高質量的圖像生成基于擴散模型實現高質量的圖像
67、生成 BEiTBEiT:提出了圖像的掩碼訓練方式,解決了模型規模日益擴大導致的數據量不足問題。:提出了圖像的掩碼訓練方式,解決了模型規模日益擴大導致的數據量不足問題。模型訓練過程中編碼學習 Tokenizer,將圖像變成離散的視覺符號(visual token),類似文本(下圖紅框);二是,將圖像切成多個小“像素塊”(patch),每個像素塊相當于一個文本中的字符(下圖藍框)。在預訓練時,模型便可以通過掩碼方式進行學習。BEiTBEiT-3 3:通過模型改進、預訓練任務調整,為:通過模型改進、預訓練任務調整,為 AI AI 多模態基礎大模型研究打開新思路。多模態基礎大模型研究打開新思路。模型改
68、進方面,BEiT-3使用不同結構以對不同模態進行編碼,其結構包含一個共享的自注意力模塊(下圖灰色方塊),用以學習不同模態信息的對齊并將不同模態的信息深度融合,以及包含一個模態專家(下圖藍色方塊為視覺,綠色方塊為語言),即根據當前輸入的模態類別,選擇不同模態專家對其進行編碼以學習更多模態特定的信息。預訓練任務方面,相較于之前的多模態模型在預訓練過程中采用不同的預訓練任務,BEiT-3采用統一的任務,對大模型訓練更加友好。3.2.1 BEiT-3:引領文本、圖像、多模態預訓練邁向“大一統”資料來源:Image as a Foreign Language:BEIT Pretraining for A
69、ll Vision and Vision-Language Task,中信建投圖圖表:表:BEiTBEiT提出圖像的掩碼訓練方式提出圖像的掩碼訓練方式圖表:圖表:BEiTBEiT-3 3模型示意圖模型示意圖 在廣泛的視覺及視覺在廣泛的視覺及視覺-語言任務上,語言任務上,BEiTBEiT-3 3都取得了最優結果的遷移性能。都取得了最優結果的遷移性能。在包含視覺問答、視覺推理、圖像描述、目標檢測與實例分割、語義分割、圖像分類等在內的一共 12 個視覺-語言下游任務上,研發團隊評估了 BEiT-3 的泛化能力。結果表明,BEiT-3 在這些任務上都取得了 SOTA 的遷移性能。3.2.2 BEiT-
70、3:在多個下游任務中性能優異資料來源:Image as a Foreign Language:BEIT Pretraining for All Vision and Vision-Language Task,中信建投圖圖表:表:BEiTBEiT-3 3 在廣泛的視覺及視覺在廣泛的視覺及視覺-語言任務上都實現了語言任務上都實現了SOTASOTA的遷移性能的遷移性能 KOSMOSKOSMOS-1 1:將多模態特征嵌入到:將多模態特征嵌入到TransformerTransformer模型中,基于統一的模型架構實現不同模態的對齊。模型中,基于統一的模型架構實現不同模態的對齊。2023年3月由微軟提出,
71、其可以實現文本學習、文本生成等任務,還能夠將文本以外的模態(如視覺圖像、語音)嵌入到模型中。研究證明,在多個下游任務中,該模型具有非常優異的性能,例如在語言理解、視覺問答、多模態對話等。KOSMOS-1模型的參數總量為16億。我們認為,隨著技術的不斷發展和迭代,跨模態模型處理更多模態問題的能力將不斷增強,多模態感知的大融合是邁向通用人工智我們認為,隨著技術的不斷發展和迭代,跨模態模型處理更多模態問題的能力將不斷增強,多模態感知的大融合是邁向通用人工智能的關鍵一步。能的關鍵一步。3.3 KOSMOS-1:全能型大語言模型資料來源:Language Is Not All You Need,中信建投
72、圖圖表:表:KOSMOSKOSMOS-1 1在視覺問答方面的測試樣例在視覺問答方面的測試樣例圖表:圖表:KOSMOSKOSMOS-1 1可以講笑話可以講笑話 PaLMPaLM-E E:將多模態:將多模態AIGCAIGC技術拓展到機器人領域。技術拓展到機器人領域。2023年3月,谷歌和柏林工業大學團隊推出多模態具身視覺語言模型 PaLM-E,相較于之前的多模態模型,其不僅可以理解和生成圖像/語言,輸入可以為文本、圖像等不同模態信息,還能夠融合不同模態的知識進而生成復雜的機器人指令:例如“從抽屜中拿取薯片”是一個包含了多個計劃任務,需要機器人攝像頭和機械手相互反饋配合的任務。PaLM-E模型可以將
73、其分解為走到抽屜旁、打開最上面的抽屜、從最上面的抽屜里拿起綠色的薯片、放在柜臺上等多個步驟來完成。PaLM-E還具有強大的正遷移能力,即相較于單一任務數據訓練出來的模型,利用不同領域的數據融合訓練出來的模型具有顯著的性能提高。我們認為,我們認為,PaLMPaLM-E E的發展與成熟將進一步賦予機器人以“智能”,引發人機交互方式的重大變革,推進人工智能機器人在更多應用的發展與成熟將進一步賦予機器人以“智能”,引發人機交互方式的重大變革,推進人工智能機器人在更多應用場景的落地。場景的落地。3.4 PaLM-E:將多模態知識能力與機器人相結合資料來源:PaLM-E:An Embodied Multi
74、modal Language Model,新智元,中信建投圖圖表:表:PaLMPaLM-E E模型可以處理豐富的下游任務模型可以處理豐富的下游任務圖表:圖表:PaLMPaLM-E E模型在混合數據訓練下取得更為優異的性能模型在混合數據訓練下取得更為優異的性能 20232023年年3 3月月1414日,日,OpenAIOpenAI發布發布GPTGPT-4 4。GPT-4沿襲了過去GPT路線,在GPT中引入RLHF機制,并且輸入窗口更大,更適合處理長文本,GPT-4的上下文長度為8192個token,遠高于GPT-3的2048個token。GPT-4文字輸入限制提升到了2.5萬字,回答準確率姚顯著
75、高于前模型。GPT-4在各類職業/學術考試上表現優秀,與人類相當,比如模擬律師考試,GPT-4取得了前10%的好成績,而GPT-3.5是倒數10%。GPT-4訓練過程更加穩定,且響應不被允許請求的概率也大幅度降低。GPTGPT-4 4支持圖像和文本的輸入,可以對圖像進行理解,做圖表推理等支持圖像和文本的輸入,可以對圖像進行理解,做圖表推理等,例如,GPT-4可以根據圖片上的數字進行數據處理、發現圖像上不合理之處等,但具體模型細節OpenAI并未描述。OpenAI一并發布GPT-4的API與集成GPT-4的ChatGPT。3.5 GPT-4:支持圖像輸入的ChatGPT升級版資料來源:OpenA
76、I,中信建投圖圖表:表:GPTGPT-4 4能進行圖表推理能進行圖表推理圖表:圖表:GPTGPT-4 4能描述出圖片上的不合理之處能描述出圖片上的不合理之處 隨著技術的快速進步,AI生成內容極大的解放了生產力,多模態廣闊的應用場景及潛在的市場價值推動著其商業化道路的快速發展。垂直領域快速落地,爆款產品不斷推出。垂直領域快速落地,爆款產品不斷推出。隨著技術不斷演進,尤其是Diffusion和Transformer模型的提出,多模態應用在多個領域開始落地。其中代碼生成、文本生成、圖像生成、音視頻/游戲等領域已有不少爆款級產品。1)代碼領域,基于OpenAI的Codex模型,Github推出的Cop
77、ilot具備代碼的生成、補全、建議等功能,用戶量突破百萬級別。2)文本領域,ChatGPT目前已開放api接口,隨著更多應用的接入,多模態的生態將進一步改善生產方式。3)圖像領域,Stable diffusion等文生圖應用已突破千萬級用戶量,目前是商業模式最成熟的領域,國內也在積極布局。4)音視頻/游戲領域,起步較晚,對模型復雜度和算力要求更高,未來市場空間巨大。3.6 多模態下游應用:重點產品時間線資料來源:Sequoia,中信建投圖圖表:表:AIGCAIGC重點產品時間線重點產品時間線GPT-3DALL-E2Stable DiffusionDALL-EImagen VideoMake-a
78、-vedioPhenakiJasper.AICopy.aiChatGPTCodex代碼文本圖像音視頻/3D/游戲2020202120224月8月10月9月11月Midjourney7月6月CopilotCodeWhisperer三大AI繪圖應用支持模型底層技術20232月Bard3月測試階段文心一言GPT-4Palm-EaiXcoderMeena科大訊飛SMART-TTS2019及更早底層技術微軟小冰Stable Diffusion 2TabNineMagic3D盜夢師6pen 2022年下半年,AI由文本生成圖像快速出圈,多款應用火爆。目前對大眾開放的圖片生成模型主要包括Stable Dif
79、fusion、Stable Diffusion2、OpenAI的DALL-E 2、Midjourney等,幾款模型中,僅Stable Diffusion和Stable Diffusion2開源,累計使用人數最多,在全渠道有超1000萬用戶。圖片生成是目前AIGCl領域相對成熟的方向,已經達到商用水平。MidJoruney用戶每月付費30美元可將圖片用于商用,其目前整體年營收已經突破1億美元。DALLE 與Stable Diffusion同樣推出付費業務,其中DALLE為15美元生成 115次圖片,Stable Diffusion則為10英鎊1000次標準生成。目前來看,Stable diffu
80、sion因其最出色的生成能力,成為圖像生成商業領域的龍頭。3.6.1 文生圖:快速出圈,多款應用火爆資料來源:The New York Times,TechCrunch,SiliconANGLE,公司官網,中信建投圖圖表:表:Stability AIStability AI、MidjourneyMidjourney、OpenAIOpenAI、谷歌產品對比、谷歌產品對比Stable DiffusionStable DiffusionMidjourneyMidjourneyDALLDALL-E 2E 2ImagenImagen使用效果使用效果開發公司開發公司Stability AIMidjourn
81、eyOpenAI谷歌推出時間推出時間2022.082022.072022.042022.05是否開源是否開源是否否否是否是否To CTo C是是是暫未對外公開是否有內容創作限制是否有內容創作限制否是是-圖片處理圖片處理本地云端云端-使用人數(使用人數(22.1122.11)超1000萬超300萬超150萬-AIGC技術簡化數字人開發流程,提升數字人開發效率:用戶可以通過上傳照片/視頻/音頻的方式,借助AIGC技術實現數字人建模,相較于傳統的數字人構建方法具有效率高、成本低的特點。目前產品化的3D數字人建模精度已經可以達到次世代游戲人物級別。Meta、英偉達等科技公司已經推出基于AIGC技術幫助
82、用戶打造3D數字人的產品,英偉達的omniverse avatar便是其中一個例子。AIGC技術賦能AI驅動數字人,助推數字人智能化發展:AIGC技術是AI驅動類型數字人的智能核心,為這一類型的數字人提供多模態交互過程中的識別感知和分析決策功能。具體而言,自然語言生成技術影響著人機交互過程中內容的質量,計算機視覺技術則影響數字人面部表情和肢體動作(例如數字人聲唇同步技術),AIGC技術的不斷發展讓高質量的人機交互成為可能。3.6.2視頻/3D/游戲:提升開發效率,助推數字人向“數智人”發展資料來源:英偉達官網,騰訊研究院,中信建投圖圖表:基于英偉達表:基于英偉達omniverse avatar
83、omniverse avatar構建數字人構建數字人圖表:圖表:AIGCAIGC技術支撐數字人的多模態交互技術支撐數字人的多模態交互技術階段作用和目的語音理解ASR感知將人的語音轉化為文本NLP決策處理并理解文本TTS表達將需要輸出的文本轉化為語音動作合成AI驅動嘴形動作表達構建輸出的音頻與輸出的視覺信息的關聯映射AI驅動其他動作表達 目錄一、多模態預訓練概述一、多模態預訓練概述二、多模態預訓練關鍵要素二、多模態預訓練關鍵要素三、主要模型與下游場景三、主要模型與下游場景四、未來方向及演進趨勢四、未來方向及演進趨勢五、風險提示五、風險提示 4.1 多模態模型要更大,模態要更多圖圖表:表:GPTG
84、PT系列模型的參數量與數據量不斷提升系列模型的參數量與數據量不斷提升圖表:表示事物的主要模態圖表:表示事物的主要模態多模態大模型需要更深層次的網絡和更大的數據集進行預訓練。多模態大模型多基于Transformer架構進行預訓練,而Transformer因其架構特點,未看到過擬合趨勢,模型大小、數據集都未有飽和趨勢,CLIP等模型也驗證了數據量的大小將使得模型性能提升。以語言模型GPT為例,其從GPT1-3模型大小和預訓練數據量均是逐步提升,和語言模型中類似,多模態大模型模型大小和數據量要逐步提升,例如,谷歌前不久發布的多模態模型PaLM-E,具有5620 億參數?,F有的多模態預訓練大模型通常在
85、視覺和語言兩種模態上進行預訓練,未來可以獲取更多模態進行大規模預訓練,包括圖像、文本、音頻、時間、熱圖像等,基于多種模態數據的預訓練大模型具有更廣闊的應用潛力。模型發布時間參數量預訓練數據量GPT2018.61.17億約5GBGPT-22019.215億40GBGPT-32020.51750億45TB資料來源:機器之心,A Survey of Vision-Language Pre-Trained Models,中信建投 4.2 多模態模型訓練要加速圖圖表:通過改進數據處理方式加速模型訓練表:通過改進數據處理方式加速模型訓練圖表:圖表:ViLTViLT模型中使用模型中使用Linear embe
86、ddingLinear embedding處理圖像特征處理圖像特征資料來源:Supervision exists everywhere:A data efficient contrastive language-image pre-training paradigm,Dive into Big Model Training,中信建投圖圖表:并行策略表:并行策略圖表:專家混合模型(圖表:專家混合模型(MoEMoE)是典型的模型稀疏性方法)是典型的模型稀疏性方法圖表:零冗余優化器優化過程圖表:零冗余優化器優化過程雖然多模態大模型在多個領域取得了巨大成功,但是多模態模型對算力的要求還是對模型的訓練造
87、成了很大的難題,因此對模型訓練加速提出了進一步要求。DeCLIP在CLIP基礎上,通過改進數據處理方式加速模型訓練;ViLT通過對使用更加有效率的方式對圖像特征進行編碼提升后續效率;此外,訓練過程中的并行策略、顯存優化、模型稀疏性等均可以提升模型計算效率。4.3 多模態大模型將走向“真正統一”圖圖表:表:KOSMOSKOSMOS-1 1將視覺和音頻信號統一成文本信號將視覺和音頻信號統一成文本信號圖表:圖表:PaLMPaLM-E E通才模型對下游任務進行統一建模通才模型對下游任務進行統一建模未來多模態大模型將走向“真正統一”。未來多模態大模型將走向“真正統一”。以微軟KOSMOS-1為代表,將圖
88、像、音頻進一步編碼成文本格式,統一成文本進行融合,KOSMOS-1 的模型主干是一個基于Transformer 的因果語言模型,Transformer 解碼器用作多模態輸入的通用接口,除了文本之外,其他模態也能被嵌入并輸入到該模型中。谷歌發布PaLM-E,使用Uni-Perceiver,打造“通才”,將不同模態的數據編碼到統一的表示空間中,并將不同任務統一為相同的形式。資料來源:Language Is Not All You Need:Aligning Perceptionwith Language Models,Uni-Perceiver:Pre-training Unified Archi
89、tecture for Generic Perception for Zero-shot and Few-shot Tasks 圖圖表:表:MAVExMAVEx模型解決了基于知識領域的問答問題模型解決了基于知識領域的問答問題圖表:將外部知識引入圖文問答中圖表:將外部知識引入圖文問答中4.4 多模態預訓練將引入更多外部知識多模態模型的知識是從預訓練數據集得到的,但一些任務,例如視覺問答非常依賴常識信息,這些信息是從特定任務數據集中沒法學習到,因此可以將外部知識引入到模型中,補充模型知識,從而在一些問答任務場景下取得更好的成績。MAVEx模型使用當前先進的 VQA 模型生成一組候選答案,再將問題和
90、候選答案解析,以檢索外部知識,最后預測每個知識來源對每個候選答案的可信度,預測最匹配的答案。MAVEx 展示了答案引導知識檢索的明顯優勢,在 OK-VQA 數據集上實現了最先進的性能。隨著多模態模型變大,最終訓練出來的模型會越來越好,伴隨更多模態的加入,最終多模態大模型會應用在越來越多方面,AI正加速奔向通用AI。資料來源:Multi-Modal Answer Validation for Knowledge-Based VQA,Reasoning over vision and language:Exploring the benefits of supplemental knowledge
91、,中信建投 目錄一、多模態預訓練概述一、多模態預訓練概述二、多模態預訓練關鍵要素二、多模態預訓練關鍵要素三、主要模型與下游場景三、主要模型與下游場景四、未來方向及演進趨勢四、未來方向及演進趨勢五、風險提示五、風險提示 五、風險提示多模態模型技術發展不及預期:多模態模型技術發展不及預期:多模態屬于先進AI算法,若后續算法更新迭代效果不及預期,則會影響多模態演進及拓展,進而會影響其商業化落地等;算法隱私問題:算法隱私問題:多模態預訓練大模型在進行預訓練過程中,使用了大量數據,很多都是從網絡上直接獲得的圖文數據對,其中會涉及相關隱私問題;算力基礎設施支持不及預期:算力基礎設施支持不及預期:美國制裁中
92、國高科技企業,對中國形成芯片、算力的封鎖,大語言模型訓練過程中需要大量算力資源,需要關注中美關系帶來的中國算力的壓力;數據數量與數據質量不及預期:數據數量與數據質量不及預期:大型語言模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響大語言模型效果;倫理沖突風險:倫理沖突風險:多模態大模型技術將進一步推動人工智能邁向通用型人工智能,人工智能進一步智能化將產生人工智能欺騙、人工智能上癮、人與人工智能之間的關系等一些列倫理問題。感謝辛俠平、陳思玥、樊文輝對本報告的貢獻。分析師介紹分析師介紹閻貴成:閻貴成:中信建投證券通信&計算機行業首席分析師,北京大學學士、碩士,專注于云計算、物聯
93、網、信息安全、信創與5G等領域研究。近8年中國移動工作經驗,6年多證券研究經驗。系2019-2021年新財富、水晶球通信行業最佳分析師第一名,2017-2018年新財富、水晶球通信行業最佳分析師第一名團隊核心成員。金戈:金戈:中信建投證券研究發展部計算機行業聯席首席分析師,帝國理工學院工科碩士,擅長云計算、金融科技、人工智能等領域。于芳博于芳博:中信建投計算機行業分析師,北京大學空間物理學學士、碩士,2019年7月加入中信建投,主要覆蓋方向智能汽車、CPU/GPU/FPGA/ASIC、EDA和工業軟件等方向。評級說明評級說明投資評級標準評級說明報告中投資建議涉及的評級標準為報告發布日后6個月內
94、的相對市場表現,也即報告發布日后的6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深300指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美國市場以標普 500 指數為基準。股票評級買入相對漲幅15以上增持相對漲幅5%15中性相對漲幅-5%5之間減持相對跌幅5%15賣出相對跌幅15以上行業評級強于大市相對漲幅10%以上中性相對漲幅-10-10%之間弱于大市相對跌幅10%以上 分析師聲明分析師聲明本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論不受任何第三方的授意
95、或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。本報告由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明本報告由中信建投制作。發送本報告
96、不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容
97、必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或
98、其他財產權益,也可能在過去12個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部中信建投(國際)中信建投(國際)北京東城區朝內大街2號凱恒中心B座12層電話:(8610)8513-0588聯系人:李祉瑤郵箱:上海浦東新區浦東南路528號南塔2106室電話:(8621)6882-1612聯系人:翁起帆郵箱:深圳福田區益田路6003號榮超商務中心B座22層電話:(86755)8252-1369聯系人:曹瑩郵箱:香港中環交易廣場2期18樓電話:(852)3465-5600聯系人:劉泓麟郵箱:charleneliucsci.hk51