《計算機行業AIGC系列深度之24:GPT~4v如何實現強大多模態從文生圖到圖生文-231009(37頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業AIGC系列深度之24:GPT~4v如何實現強大多模態從文生圖到圖生文-231009(37頁).pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、行業及產計算機電萬宏源研究3A72023年10月09日GPT-4V如何實現強大多模態從文行業研究行業深度生圖到圖生文看好AIGC系列深度之24相關研究本期投資提示:“GPT-4V與問界新M7,計算機繼續機會的路邊風景!計算機行業周報證券研究報告GPT-4V展現強大多模態能力,新興應用曙光初現。9月25日,OpenAI宣布即將發布20230925-202309282023年10月8新的多模態功能,包括圖像讀取與理解、語音對話和語音生成;根據微軟測評:1)4V支8持多種混合輸入方式,同時展現了指令跟隨、思維鏈、上下文少樣本學習等能力;2)可“發布潮:華為+Dajo+Copilot后,計以勝任大量具
2、體任務,包括開放世界視覺理解、視覺描述、多模態知識、文檔推理等都表算機反彈可持續多久?-計算機行業周現較好:3)可以期待4V出現后更多AI創新應用,包括工業缺陷檢測、醫療影像識別、報20230911-202309222023年9月23日具身智能交互、汽車保險評估等。過去小模型時代“視覺智能”有限,增加語言模態或成為破局關鍵。在計算機視覺CV領域,過去常見方式仍是使用高質量、密集標注數據集進行預訓練,這一訓練方法下模型F證券分析師洪依真A0230519060003ew-shot和Zero-shot較弱。增加語言信息,有助于提升視覺模型的泛化能力。施鑫展A0230519080002auuoysue
3、具lauujoysueluoIsIA)LITdI唯LI工型香重Y空多arcncon架構較好的應用在計算機視覺任務中;2)CLIP用于將相關文本和圖像對應,OpenAI從劉洋A網上爬蟲,抓取已經有過描述的文本-圖像數據集,數據集規模達到了4億。在這兩個基礎聯系人工作后,語言和視覺特征可以用同一架構Transformer提取,且也有了對應數據集訓練。洪依真(8621)23297818xOpenAI的GPT-4v多模態能力來源:1)強大的已有語言模型基礎,產業界猜測GPT-使用了類似Flamingo架構的交叉注意力機制,特點為不直接訓練一個多模態模型,而是在已經預訓練好的語言大模型中引入圖像理解能力
4、。即OpenAI可以使用ChatGPT中已經構建的語言模塊,大幅節約成本;2)2C應用發布前的大量安全工作,GPT-4盡管此前已經完成了多模態部分的測試,但是在發布前的6個月也經歷大量調整,包括減少幻覺、拒絕越獲指令、拒絕回答刻板印象、優恨問題等:3)包括Clip在內的優質聯合訓練數據4)并行計算策略和達到175B參數Davinci模型3倍的推理成本的多模態大模型Palm-E,可以理解圖像,還能理解、生成語言,且可以用于多個具體任務,包括順序機器人操作規劃、視覺問題解答和圖像視頻字幕描述;2)目前業界對于后續即將發布的新模型Gemini期待,業界猜測訓練Gemini的硬件FLOPS將超過1e2
5、6,比訓練GPT-4的算力大5倍,訓練總數據集大小約為GPT-4的兩倍。無論OpenAI還是Google,都在AI架構、Prompt、RLHF、安全、數據、計算資源等多個方面多做出努力。相比單模態大模型,多模態的進入門檻更高。因此在上市公司層面,我們認為后續應當更加重點關注應用環節。推薦標的:1)展現應用提價能力:金山辦公、福聽軟件:2)多模態核心受益:萬興科技、大華股份、虹軟科技、科大訊飛。風險提示:大模型技術中美仍存在差異,部分技術尚處于早期實驗室階段,存在落地風險;實體清單等可能對訓練硬件產生影響。請務必仔細閱讀正文之后的各項信息披露與聲明#page#SMSG行業深度投資案件結論和投資分
6、析意見1)本次GPT-4V發布展現出的多模態能力超過市場預期;2)未來AI多模態應用有望加速;3)但同時多模態大模型的進入門檻,相比語言單模態階段,也大幅提高。原因及邏輯1)根據微軟詳細測評,GPT-4V可以勝任大量具體任務,包括開放世界視覺理解視覺描述、多模態知識、文檔推理等都表現較好;2)過去小模型時代“視覺智能”有限,主要因為在計算機視覺CV領域,過去常見方式仍是使用高質量、密集標注數據集進行預訓練,這一訓練方法下模型Few-shot和Zero-shot能力較弱。增加語言模態后,視覺模型泛化能力大幅提升;3)除了常見的ChatGPT對話功能以外,可以期待更多AI創新應用,包括工業缺陷檢測
7、、醫療影像識別、具身智能交互、汽車保險評估等;4)為了達到多模態智能,無論OpenAI還是Google,都在AI架構、Prompt、RLHF、安全、數據、計算資源等多個方面多做出努力:相比單模態大模型,多模態的進入門檻更高。因此在上市公司層面,我們認為后續應當更加重點關注應用環節。有別于大眾的認識市場此前并未充分了解GPT-4多模態能力來源,我們認為它來自于:1)強大的已有語言模型基礎,產業界猜測GPT-4使用了類似Flamingo架構的交又注意力機制,特點為不直接訓練一個多模態模型,而是在已經預訓練好的語言大模型中引入圖像理解能力。即OpenAI可以使用ChatGPT中已經構建的語言模塊,大
8、幅節約成本;2)20應用發布前的大量安全工作,GPT-4盡管此前已經完成了多模態部分的測試,但是在發布前的6個月也經歷大量調整,包括減少幻覺、拒絕越獄指令、拒絕回答刻板印象仇恨問題等;3)包括Clip在內的優質聯合訓練數據;4)并行計算策略和達到175B參數Davinci模型3倍的推理成本。市場對于OpenAI之外的多模態大模型關注較少,我們認為Google的Palm和Gemini等工作也值得期待。1前google發布了562B參數的多模態大模型Palm-E,可以理解圖像,還能理解、生成語言,且可以用于多個具體任務,包括順序機器人操作規劃、視覺問題解答和圖像視頻字幕描述;2)目前業界對于后續即
9、將發布的新模型Gemini期待,業界猜測訓練Gemini的硬件FLOPS將超過1e26,比訓練GPT-4的算力大5倍,訓練總數據集大小約為GPT-4的兩倍。請務必仔細閱讀正文之后的各項信息披露與聲明第2頁共37頁簡單金融成就夢想#page#page#DwS行業深度圖表目錄圖1:向ChatGPT求助如何降低自行車座椅,中間涉及多輪圖文對話.6圖2:ChatGPT理解復雜圖表.圖3:DALLE3模型,圖文能力進步顯著.7圖4:GPT-4V支持交錯圖像-文本輸入.8圖5:按照指令一步一步思考,體現了思維鏈能力8圖6:上下文的零樣本學習.圖7:讓GPT-4V描述下圖中飛盤和人讓人的位置關系.圖8:讓G
10、PT假設自己是偵探,從圖片中推測信息.圖9:圈出畫面中一部分問GPT這是什么.圖10:畫線和點問GPT下一張圖片應該是什么.10圖11:輸入關鍵頓,讓GPT4排序.10圖12:理解視頻中人物行動.10圖13:GPT應用于工業缺陷檢測.10圖14:GPT應用于醫療影像.圖15:為新游戲頭像創建一張特寫飛行員照片,有堅毅眼神同樣prompt在前一代模型和DALLE3中的不同效果.圖16:AI設計工具MicrosoftDesignerprompt為制作一幅捕捉秋收節日氣氛的.12拼貼畫!13圖17:Excel中自動生成數據高級分析.13圖18:生成OneNote筆記草稿.15圖19:視覺與語言Tra
11、nsformer技術的演進.15圖20:DALLE設計“一顆白菜穿著芭蕾舞裙在遙狗”.15圖21:DALLE-2設計“一碗湯是另一個次元的入口.圖22:CLIP需要的數據為圖像及其標題,數據集中大約包含4億張圖像及描述16.16圖23:CLIP的核心思路.17圖24:視覺zero-shot示意圖.圖25:CV中圖像分類、語義分割、目標檢測、實例分割任務的區別18圖26:3月發布的GPT-4基礎模型已可以理解網絡搞笑圖片.圖27:多模態模型的5種典型結構,請務必仔細閱讀正文之后的各項信息披露與聲明第4頁共37頁簡單金融成就夢想#page#SMSG行業深度圖28:Flamingo的整體架構.圖29
12、:Flamingo使用的文本-圖像交疊的多模態數據集。.2021圖30:多模態提示示例.22圖31:google的VisionTransformer的核心思路.圖32:PaLM-E核心思路和可以做到的任務.圖34:2023年7月13日GoogleBard更新多模態功能,可以理解圖片中的笑點.23圖35:DylanPatel關于Gemini預測24圖36:SemiAnalysis關于Gemini預測.圖37:GPT-4V(Launch版本)拒絕了圖片中的越獄要求,2626圖38:GPT-4V拒絕不安全行為的比例較高.27圖39:GPT-4在科學專業知識的風險(右).27圖40:GPT-4V修正刻
13、板印象回答.27圖41:GPT-4V修正誤導信息回答.圖42:DoulingoMax訂閱采用AI大模型技術提升外語學習效率,提價至30美金/月.29圖43:NotionAI功能融入后,實現了8美金/月的提價.30圖44:WPSAI已經全面接入WPS產品線.圖45:AI能力的融入將有助于WPS付費率和ARPU值進一步提升.31.32圖46:面向企業的WPS365已于近期上線.33圖47:福昕軟件率先將AIGC能力融入PDF產品線.34圖48:在Filmora中使用ChatGPT功能.34圖49:在思維導圖中使用AI功能.17表1:常見的視覺FSL(FewShotLearning)29表2:海外和
14、國內AIGC融入后的典型提價應用.31表3:金山辦公C端空間測算.33表4:福昕編輯器訂閱制與授權制價格(美元).35表5:AI行業重點公司估值表請務必仔細閱讀正文之后的名項信息披露與聲明第5頁共37頁簡單金融成就夢想#page#SMSC行業深度1.海外AI應用更新,集中體現多模態能力近期,海外AI應用催化較多:1)OpenAI升級了圖片、語音多模態能力,并即將應用在最新ChatGPT中:2)微軟宣布本月底更新AICopilot系統,全面集成OpenAI模型能力。1.10penAI在ChatGPT中升級了圖片、語音多模態能力9月25日,OpenAI宣布即將發布新的多模態功能,包括圖像讀取與理解
15、、語音對話和語音生成。ChatGPT即將在兩周內對Plus用戶與企業用戶開放一系列新功能,其中圖文能力(如下圖)對全平臺開放,與Chatgpt語音對話的能力僅對ios及安卓客戶端開放。圖1:向ChatGPT求助如何降低自行車座椅,中間涉及多輪圖文對話0樓CHATOPTeedanAl資料來源:OPENAI官網、申萬宏源研究對話能力:通過語音直接對ChatGPT對話,同時GPT可以直接語音回復客戶,可選5種定制聲音,支持ios和Android移動應用使用;圖像-文本能力:ChatGPT除了文字之外,可以理解客戶上傳的圖片信息。GPT能夠理解照片、圖片截圖、包含圖像的文檔等??蛻艨梢陨蟼饕粡埢蛘叨鄰?/p>
16、圖片給系統,甚至可以用畫筆標注重點內容,讓系統讀取理解,可以用于輔導學生作業、搜索日常食譜等各個方向。語音和圖像提供了更多在生活中使用ChatGPT的方式。例如在旅行時拍攝地標的照片,并就其進行實時對話問答;拍攝冰箱和食品儲藏室的照片,以確定晚餐的食物(并詢問后續問題以獲取分步食譜);通過直接拍攝家庭作業照片來獲得解答,或分析與工作相關的數據的復雜圖表。圖2:ChatGPT理解復雜圖表請務必仔細閱讀正文之后的各項信息披露與聲明第6頁共37頁簡單金融成就夢想#page#SMSG行業深度資料來源:ChatGPT、申萬宏源研究此前,OPENAI也升級了DALLE3模型能力。新的DALLE模型與Cha
17、tGPT能力合并,畫作更加細膩,同時可以不用prompt,準確還原細節,并且為圖片配上文字。Plus和企業版用戶通過文本就能直接在ChatGPT中生成各種類型圖片,不僅加強提示詞的生成圖像體驗,而且增強模型理解用戶指令的能力,圖像效果也有提升。圖3:DALLE3模型,圖文能力進步顯著資料來源:OPENAI官網、申萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第7頁共37頁簡單金融成就夢想#page#SMSC行業深度更好的掌握用戶提出的每一個描述。例如上圖,“享受夜間生活的行人”“滿月的光我細護思強原裝小物,紅理宏女:冊照,張都體現在圖畫中。同時可以對生成內容進行多輪自然語言對話編輯。例如
18、讓DALL-E模型生成多個刺猬圖片,選出其中一只取名為Larry,并要求模型生成更多Larry圖片,甚至可以詢問模型“為什么Larry這么可愛”,模型可以做出文字解答,期間完成了5輪對話和修改。1.2GPT-4V的使用方法、工作模式、任務能力微軟在OpenAI發布后,公布了GPT-4V詳細測評TheDawnofLMMs:Preliminary Explorations with GPT-4V(ision)。5種使用方式:輸入圖像(images)、子圖像(sub-images)、文本(texts)、場景文本(scenetexts)和視覺指針(visualpointers)。即同時支持純圖像輸入、
19、也支持圖像、文本交互輸入、同時也可以對圖片進行指向性提示(例如畫箭頭、畫圈)?;旧虾w了圖-文多模態的每個場景。圖4:GPT-4V支持交錯圖像-文本輸入Sec.2.3 Interlenved Imagc-text Inputs資料來源:微軟、申萬宏源研究3種支持的能力:指令遵循(instructionfollowing)、思維鏈(chain-of-thoughts)上下文少樣本學習(in-contextfew-shotlearning)。圖5:按照指令一步一步思考,體現了思維鏈能力圖6:上下文的零樣本學習第8頁共37頁簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明#page#pa
20、ge#SMSC行業深度PromptOGPT-4V4V資料來源:微軟、申萬宏源研究資料來源:微軟、申萬宏源研究3)時間和視頻理解:多圖像序列、視頻理解、基于時間理解的視覺參考提示。輸入視頻的幾個關鍵頓,可以理解事件前后關聯。圖11:輸入關鍵幀,讓GPT4排序圖12:理解視頻中人物行動1 Order資料來源:微軟、申萬宏源研究資料來源:微軟、申萬宏源研究4)視覺推理、智商、情商測試等,此外GPT-4V還可以用于工業、醫藥、汽車保險、具身智能、GUI交互等。圖13:GPT應用于工業缺陷檢測圖14:GPT應用于醫療影像請務必仔細閱讀正文之后的各項信息披露與聲明第10頁共37頁簡單金融成就夢想#page
21、#SMSC行業深度資料來源:微軟、申萬宏源研究資料來源:微軟、申萬宏源研究整體來看,GPT-4V:1)展現出強大的混合輸入能力,并且可以較好的支持LLM中觀察到的test-time技術,包括指令跟隨、思維鏈、上下文少樣本學習等;2)在不同領域人物中完成度和通用性都較強,包括開放世界視覺理解、視覺描述、多模態知識、常識、場景文本理解、文檔推理、編碼、時間推理、抽象推理、情感理解等:3)像素級編輯能力擴展了4V的使用邊界;4)4V出現后人工智能應用空間進一步打開,包括工業、醫療、金融、具身智能等多個產品都看到應用可能。1.3微軟AICopilot系統更新,OfficeCopilot辦公能力即將發布
22、AICopilot9月26日起發布,OffceCopilot11月1日起大范圍開放。1)9月21日微軟更新AICopilot功能并宣布Copilot功能將自9月26日起隨著更新的Windows11以初期版本形式免費更新,支持在多個APP和設備運行:2)officeCopilot將于11月1日開始大范圍開放此前7月微軟曾表示將把Copilot的價格定在每人每月30美元這是傳統Office365訂閱價格之外的額外費用這次Win11版本更新了超過150個新功能,新版本中AICopilot既可以始終顯示在任務欄上,也可以通過Win+C的快捷鍵啟動。新功能包括為WindowsPC帶來Copilot功能以
23、及畫圖、照片、clipchamp等應用。必應將增加對OpenAI最新DALLE3模型的支持。請務必仔細閱讀正文之后的名項信息披露與聲明第11頁共37頁簡單金融成就夢想#page#SMSG行業深度我們認為,本次發布的AICopilot/officeCopilot亮點包括:1、圖像能力顯著提升:正式加入DALLE3模型,新增圖文生成、圖片理解、AI編輯P圖等功能。此前OpenAI發布了第三代AI繪圖工具DALLE3,集成了ChatGPT,用戶不需要在prompt上多費時間就能生成圖像。相比上一代,DALLE3提供了更強的細節道染,還可以更好地理解要求,提供更準確的圖像。圖15:為新游戲頭像創建一張
24、特寫飛行員照片,有堅毅眼神同樣prompt在前一代模型和DALLE3中的不同效果Previous ModelDALL-E3資料來源:微軟發布會、申萬宏源研究同時微軟必應中也集成了這一AI設計工具MicrosoftDesigner。用戶在使用Designer可在通過拖電、prompt等簡單操作直接將原始畫質圖像添加到自己的設計中。比如使用本地圖片設計封面,并直接執行消除背景等操作,或通過AI創作圖片內容對圖像進行延申。圖16:AI設計工具MicrosoftDesignerprompt為制作一幅捕捉秋收節日氣氛的拼貼畫資料來源:微軟發布會、申萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第1
25、2頁共37頁簡單金融成就夢想#page#SMSC行業深度此外,基于DALLE3,微軟更新了Bing搜索引擎和Edge瀏覽器的AI功能。例如在購物中,以圖識圖搜索商品細節,根據網絡上的買家評論,結合優惠券和促銷打折碼幫忙尋找合適的產品和最優惠價格。同時,微軟通過加密方法向Bing中所有AIGC圖像添加“內容憑證”(ContentCredentials)。即一種不可見的數字水印,包括最初的創建時間和日期。2、AICopilot升級了多端和團隊協同能力。AICopilot支持下,Outlookforwindows可連接到谷歌、蘋果等不同公司的多個(云端)賬戶。文件管理器FileExplorer的主頁
26、、地址欄和搜索框能直接訪問重要且相關的內容,無需打開文件便可進行協作。備份Backup功能可將大多數文件、應用程序和個性化設置等從一臺Windows電腦無縫轉移到另一臺上。Copilot還可從用戶手機(例如短信)中獲取內容,導入Win11系統。假設用戶要給家人發送航班時刻表,Copilot會根據要求將數據導入電腦桌面上,無需拿出手機就可完成信息發送。3、集合展示了word、excel、ppt、OneNote中的copilot能力本次發布會展示的辦公軟件插件能力與此前多次發布并無較大差異。仍然包括:Word:文檔摘要、重寫內容、調整語氣、從副本中生成表格等。Excel:通過自然語言Prompt實
27、現數據可視化、添加計算公式等。OneNote:對note提出較為綜合的問題、生成摘要、文章快速編輯等。圖17:Excel中自動生成數據高級分析圖18:生成OneNote筆記草稿電:電電店資料來源:微軟發布會、申萬宏源研究資料來源:微軟發布會、申萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第13頁共37頁簡單金融成就夢想#page#SMSC行業深度基于以上,本次增加了辦公軟件AI助手功能:Microsoft365Chat??墒崂砉ぷ髦械母鱾€數據領域信息,包括電子郵件、會議、聊天記錄、文檔以及網絡信息。Microsoft365Copilot企業版將提取用戶的企業數據來幫助擺寫電子郵件、規劃
28、活動等。我們認為,本次發布會相對超預期的點包括:1)展示了AI能力在Windows操作系統中的全局管理能力;2)融合圖片大模型DALLE3基礎,從純文本能力升級到文本-圖片多模態,同時圖片AIGC水平遠超前一代;3)明確Win11更新免費,可以使更多人體驗AICopilot;4)對OfficeCopilot發布給定明確時間但同時,我們認為目前發布也存在爭議點,包括:1)OfficeCopilot體現出的能力尤其語言文字理解能力相比于3月發布并無顯著優勢:2)而OfficeCopilot定價30美金/月能否體現增量價值有待商椎:2分Win系統中通過AI操作調用需要大量Prompt,便捷性需要驗證
29、。請務必仔細閱讀正文之后的各項信息披露與聲明第14頁共37頁簡單金融成就夢想#page#SMSC行業深度2.多模態原理解析:從文生圖到圖生文2022年后,隨著Transformer技術的發展,Transformer也使用在了CV領域,并形成了VisionTransformer技術。2023年后,基于Transformer的多模態大模型出現,AI大模型應用新的空間打開。圖19:2019年到2022年的多模態預訓練大模型DatasetYFCC-100M12.IN-1Agoritim資料來源:LargescaleMult-modal Pretrained Modeb:AComprehensiveSu
30、rvey申萬宏源研究注:包括多模態數據集和代表性模型紫色字體表示該數據集包含中文文本(其他數據集包含英文文本)。紅色突出顯示的模型是使用兩個以上的模態進行訓練的。2.1文生圖:最先成熟的AIGC應用,核心在CLIPDALLE:基于CLIP,可以按照文字描述、生成對應圖片。DALL-E是OpenAI2021年發布的多模態-文生圖模型,DALL-E基于GPT-3,經過文本-圖像數據集訓練,有120億參數。圖20:DALLE設計“一顆白菜穿著芭蕾舞裙在遙圖21:DALLE-2設計“一碗湯是另一個次元的入狗口資料來源:OpenAI官網、申萬宏源研究資料來源:OpenA官網、申萬宏源研究第15頁共37頁
31、簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明#page#SMSG行業深度Dall-E一代的創新點:CLIP形成文字和圖片對照。1)在文字輸入部分,仍然使用了與GPE-3類似的transformer語言模型,且參數量大幅降低。DALL-E有12B參數,相比GPT-3的175B大幅降低,該模型是在250M圖像-文本對的數據集上訓練的。訓練后的模型根據提供的文本生成了幾個樣本(最多512個),然后再由CLIP進行排序。2)CLIP,暴力美學下的文本-圖像對應工具,DALL-E的最大創新點。CLIP(ContrastiveLanguage-ImagePre-Training)用于將相關文
32、本和圖像對應,背后思路簡單,OpenAI從網上爬蟲,抓取已經有過描述的文本-圖像數據集,但是數據集規模達到了4億。圖22:CLIP需要的數據為圖像及其標題,數據集中大約包含4億張圖像及描述IMAGECAPTION資料來源:新智元、申萬宏源研究然后在數據集上訓練對比模型。對比模型可以給來自同一對的圖像和文本產生高相似度得分,而對不匹配的文本和圖像產生低分。如下圖左對比式無監督預訓練。圖23:CLIP的核心思路1Co資料來源:Learning TransferableVisualModels FromNaturalLanguageSupervision,申萬宏源研究請務必仔細閱讀正文之后的各項信息
33、披露與聲明第16頁共37頁簡單金融成就夢想#page#SMSG行業深度但是到DALL-E為止,AI仍然無法實現zero-shot或者few-shot下的圖片理解,即無法形成“圖生文”能力。2.2圖生文:語言等模態有助于擴展視覺AI理解能力邊界傳統CV小模型在解決Few-shot和Zero-shot問題時能力受限。GPT-3結果說明使用超大規模的文本集合訓練出的NLP模型性能是足以超越高質量,密集標注數據集訓練的結果的。但是在CV領域,在LLM成熟前,常見方式仍是使用高質量,密集標注數據集(如ImageNet-1K)進行預訓練。表1:常見的視覺FSL(FewShotLearning)FSL分類具
34、體批:生爾網4ous-Me承#以驗回出,中出原S圖oMo增強、遷移學習、元學習和多模態融合學習解決Few-shot目標檢測FSOD是從多個樣本中檢測稀有物體的任務。目前可以分為三個陣營:數據增強、遷移學習和元學習。其中Atention機制在小樣本目標檢測中起到了舉足輕重的作用。Few-shot語義分割Few-shot語義分割可以大致分為有監督分割、無監督分割和視頻語義分割。Few-shot實例分割與語義分割相比,實例分割還涉及到了識別圖像中的每個像素并分別標記。目前的工作大多仍然集中在改進r-cnn,較少有研究處理實例中的少樣本分割問題。資料來源:申萬宏源研究多模態信息有助于提升視覺的FewS
35、hotLearning(FSL)能力。多模態預訓練模型的出現可以支持多個任務,跨多場景泛化,并具有大規模泛化和復制的強大能力。例如下圖,給出一個CV識別領域的Zero-shot案例,在機器沒有進行斑馬圖片識別小樣本訓練的情況下,識別出一個斑馬。1)通過大量圖片(但沒有斑馬)預訓練,模型學會各種有助于識別的特征(atributefeature):馬的形狀(horselike)、條紋(stripe)、黑白色;2)通過理解語言描述,掌握了斑馬的特征,形狀像馬且有黑白條紋;3)一張機器從未見過的斑馬照片,并完成識別圖24:視覺zero-shot示意圖1NLP領線自監督預訓練的方法一般是采用自回歸(Au
36、toregressive),或者拖碼文本建模(MaskedLanguageModeling),其特點是在模型容量,數據規模方面擴展了許多數量級,使得模型能力穩步提高,并發現模型開始具備了“Zero-Shot”能力,也叫零樣本學習的能力,即無需在目標下游任務上面進行專門的訓練,即獲得對應的能力。簡單金融成就夢想第17頁共37頁#page#SMSC行業深度此前模型沒有見過班馬圖片ZebredictoThis is資料來源:CSDN,申萬宏源研究圖25:DinoV2實現深度估計、語義分割、目標檢索SemanticInstance RetrievalSegmentation資料來源:Meta、申萬宏源
37、研究除此以外,純視覺任務已經有了較多泛化工具。例如meta的dinov2、SAM。DinoV2可以實現zero-shot下的語義分割、深度估計、圖像檢索,通過訓練vt模型,并將其提取為較小的模型,這些模型在圖像和像素級都超過了可用的最佳通用功能OpenCLIP。但是截至目前,仍然缺乏較為有效的0樣本實例分割工具。2.3OpenAI:GPT-4的多模態能力猜測此前GPT-4模型已具有多模態能力,但OpenAI并未具體公布其訓練方法。根據OpenAI,近期發布的GPT-4V,與此前發布GPT-4訓練過程基本相同,2023年3月,GPT-4已經展示出多模態能力,例如可以理解網絡搞笑圖片、理解圖表含義
38、和計算等,但是OpenAI在技術報告中并沒有給出GPT-4的參數、訓練方法等具體細節圖26:3月發布的GPT-4基礎模型已可以理解網絡搞笑圖片請務必仔細閱讀正文之后的各項信息披露與聲明第18頁共37頁簡單金融成就夢想#page#SMSG行業深度資料來源:OpenAI、申萬宏源研究產業界猜測GPT-4的視覺多模態來自于類似Flamingo的架構,使用交叉注意力機制2。產業界猜測GPT-4的模型架構基于一個獨立于語言預訓練模型的視覺Transformer。二者之間存在交叉注意力。該架構類似于Flamingo。這在GPT-4的1.8萬億個參數之上增加了更多參數。在純文本的預訓練之后,它又經過了另外約
39、2萬億個token的微調。產業界認為這是目前多模態模型中對OpenAI最有成本優勢的架構圖27:多模態模型的5種典型結構Sfor MMPTMSa)Meg資料來源:Large-scaleMulti-modalPre-trained Models:AComprehensiveSurvey、申2一般認為多模態模型的5種典型結構(未源:深圳鵬城實驗室)請務必仔細閱讀正文之后的各項信息披露與聲明第19頁共37頁簡單金融成就夢想#page#SMSG行業深度萬宏源研究注:a)合井注意力架構(Merge-atention):多個輸入模態調整為同一的特征表示,多個模態的特征在自注意力之前被合并,共同進入Tran
40、sformer。b)共同注意力架構(Co-attention):每個輸入模態都具備私有自注意力通道,用于模態獨立特征的導入,然后再使用共同的交叉注意力層融合多模態特征。C)交叉注意力架構(Cross-atention):對于多模態任務,將圖像與語言分別結合,實現圖文信息的相互嵌入與問答。d)三角Transformer架構(Tangled-transformer):使用三組Transformer模塊同時處理動作、圖形對象和語言特征,通過特定的三角連接關系,注入其他模態的Transformer網絡,以不同模態的信息融合e)模態間對比學習架構(Inter-ModalityContrastiveLea
41、rning):不同模態的信息被分解,通過矩陣結構建立多模態對比學習關聯。Flamingo是DeepMind在2022年4月發布的工作。Flamingo模型是一個可以輸入圖像和文本來生成文本的多模態模型,Flamingo建立在預訓練好的語言模型基礎上(DeepMind之前所提出的Chinchilla最大參數量70B)又引入了一個VisionEncoder圖28:Flamingo的整體架構utput:text書Pretrained and frozen?catTrained from scratch粉-th LN b1ockGATEDXATIN-DENSEResamplerit LN block送
42、stGATEDXATTN-DENSEVisicEncodeEncoder經彩Interleaved visual/text dataThis 16This 1sa very cute do資料來源:Flamingo:aVisualLanguageModelforFew-ShotLearning、申萬宏源研究核心思路為:不是直接訓練一個多模態模型,而是在已經預訓練好的語言大模型中引入圖像理解能力。1)引入預訓練好的視覺模型用來提取圖像的語義特征,并且嵌入預訓練好的語言模型中(如上VisionEncoder);2)引入一個包含圖像和文本的多模態數據集用來finetune模型,如下圖。模型支持圖像輸
43、入,而本身的任務還是文本生成,所以訓練損失還是采用語言模型的languagemodelingloss即根據前面的輸入預測下一個token。圖29:Flamingo使用的文本-圖像交疊的多模態數據集Vo.T PasseText Pairs dntasIN=1,T1,H.CN1.T=1,W.C資料來源:Flamingo:aVisualLanguageModelforFew-ShotLearning、申萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第20頁共37頁簡單金融成就夢想#page#SMSG行業深度可見若使用交叉注意力架構OpenAI可以有效節省成本可以大幅度使用ChatGPT中已經構
44、建的語言模塊在預訓練框架搭建完成后,猜測GPT-4也進行了大量訓練、提示、RLHF。2023年7月,SemiAnalysis展示了大量關于GPT-4訓練的清測,例如GPT-4的大小是GPT-3的10倍以上,120層網絡中總共有1.8萬億個參數,使用了16個專家模型,每個專家模型大約有111B個參數。同時業界猜測OpenAI訓練的一部分數據是聯合數據(包括泣染的LaTeX/文本)、網頁的截屏、YouTube視頻(采樣頓),并使用Whisper對其進行運行以獲取轉錄文本,以上數據可以用于訓練或者制作Prompt。圖30:多模態提示示例(2)5+4M行2(5)(6)2)(6)資料來源:微軟、申萬宏源
45、研究此外,產業界猜測GPT-4使用了并行計算策略。為了在所有A100GPU上進行并行計算,他們采用了8路張量并行,因為這是NVLink的極限。除此之外,他們還采用了15路流水線并行,最終GPT-4的推理成本是1750億參數的Davinci模型的3倍。2.3 Google:從Palm-E到Gemini相比OpenAI早期持續投入LLM,Google更多探索圖像和多模態大模型邊界。例如視覺重磅工具VisionTransformer(ViT),將Transformer應用于CV任務中。2021年3月,google嘗試將自注意力機制和transformer直接應用在圖像領域。Google在不依賴CNN
46、結構的情況下,盡可能地將Transformer不做修改的遷移到CV領域,取得了較好的效果。ViT將輸入圖片分為多個patch(16x16),再將每個patch投影為固定長度的向量送入Transformer,后續encoder的操作和原始Transformer中完全相同。ViT已請務必仔細閱讀正文之后的各項信息披露與聲明第21頁共37頁簡單金融成就夢想#page#SMSG行業深度被證明在遷移學習設置中具有良好的擴展性,在較少的預訓練計算下,比CNN獲得更高的準確率。圖31:google的VisionTransformer的核心思路000面電動金房保修資料來源:AN IMAGE ISWORTH 1
47、6X16WORDS:TRANSFORMERS FORIMAGERECOGNITIONATSCALE、申萬宏源研究2023年3月6日,google和德國柏林工業大學公布了當時全球最大視覺語言模型PaLM-E(PathwaysLanguage Modelwith Embodied)。PaLM包括了540B語言模型與22B視覺ViT(VisonTransformer)模型,總參數量562B。PaLM-E不僅可以理解圖像,還能理解、生成語言,且可以用于多個具體任務,包括順序機器人操作規劃、視覺問題解答和圖像視頻字幕描述。圖32:PaLM-E核心思路和可以做到的任務資料來源:palm-egithub、中
48、萬宏源研究PaLM-E-562B可以進行zero-shot多模態chain-of-thought推理。模型可以在給定圖像的情況下講述視覺條件下的笑話,并展示了一系列與機器人相關的多模態知情能力,包括感知、視覺基礎對話和計劃。PaLM-E還將zero-shot推廣到多圖像提示,盡管只針對單個圖像提示進行了訓練。PaLM-E還可以對帶有文本交錯手寫數字的圖像進行數學運算。此外,該模型可以在時間標注的以自我為中心的視覺上執行、zero-shot、提問和回答。圖33:PaLM-E-562B可以進行zero-shot多模態chain-of-thought推理簡單金融成就夢想請務必仔細閱讀正文之后的各項信
49、息披露與聲明第22頁共37頁#page#SMSC行業深度資料來源:palm-egithub、申萬宏源研究2023年5月,Google下一代多模態大模型Gemini正式宣布進入研發環節。2023年5月谷歌在I/O大會上宣布研究重心正在轉向Gemini,后者是一種多模態和高效的機器學習工具。谷歌在今年4月份合并了內部的兩個人工智能實驗室:谷歌大腦(GoogleBrain)和DeepMind,Gemini這項聯合計劃就由來自兩個實驗室的研究人員組成的團隊牽頭。根據I/O大會發布,Gemini將具有像GPT-4一樣的萬億參數,且在訓練中展示出了多模態能力。經過微調和嚴格的安全性測試后,谷歌同樣將提供不
50、同尺寸和功能的Gemini版本,類似此前Palm-2,并將Gemini部署在各項應用中。圖34:2023年7月13日GoogleBard更新多模態功能,可以理解圖片中的笑點2023.07.13Bard現已在更多國家/地區推出,并支持更多語言推出Bard的地區,包括歐盟的27個國家/地區和巴西原因:Bard是全球化的服務,旨在協助大家探索各種可解性。我們通過支持英語、日語和韓語,學習到了如何以負責任的方式推出各種語言的服務,因此現在可以支持互聯網上使用的大部分語言Bard支持Google智能鏡頭Google智能鏡頭。相關功能暫時只支持英語,。原因:圖片是人們發揮想象力的一大載體,因此我們在Bar
51、d中添加了Google智能鏡頭,無論你是想進一步了解某張圖片,還是需要構思有趣的配圖文案,現在都能通過Bard嘗試更多探索和創作方式。簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明第23頁共37頁#page#SMSC行業深度6注Bard起新對話口青個路的出快mehumiecobie資料來源:GoogleBard、申萬宏源研究近期,SemiAnalysis分析師DylanPatel4和DanielNishball在twitter等平臺上公布更多關于Gemini的預測,訓練算力是GPT-4的5倍、數據集是2倍。Gemini應該是在TPUv4上訓練的,并且猜測訓練Gemini的硬件FLO
52、PS將超過1e26,比訓練GPT-4的算力大5倍。此外,Gemini訓練數據庫包括Youtube上93.6億分鐘的視頻字幕,總數據集大小約為GPT-4的兩倍。圖35:DylanPatel關于Gemini預測圖36:SemiAnalysis關于Gemini預測Google Gemini Eats The World-Gemini415萬工資料來源:twitter、申萬宏源研究資料來源:SemiAnalysis、申萬宏源研究我們認為,Google體系獨有的消費場景數據有望增強Gemini訓練效果,減少大模型幻覺。Gemini可以訪問YouTube視頻、谷歌圖書、搜索索引以及GoogleSchola
53、r的學術資料,這些數據大部分都是谷歌獨有的,這可能會讓谷歌在創建比其他公司更智能的模型方面更具優勢。曾在今年7月11日曾噪光GPT-4的架構第24頁共37頁簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明#page#SMSG行業深度綜上,盡管我們無法了解OpenAI具體如何讓GPT-4獲取多模態智能,但無論OpenAI還是Google,都在AI架構、Prompt、RLHF、安全、數據、計算資源等多個方面多做出努力。相比單模態大模型,多模態的進入門檻更高。請務必仔細閱讀正文之后的各項信息披露與聲明第25頁共37頁簡單金融成就夢想#page#SMSG行業深度3.后續AI應用關注重點:多模
54、態安全、產品提價3.1GPT-4v重點提升安全能力,這也是多模態應用落地核心由上文可知,無論Flamingo、ViT還是Palm,Google似乎在多模態的研究上搶占先機,但是退遲無法推出爆款應用贏得市場。我們認為,除了模型本身智能以外,OpenA在2C產品中做出的安全能力提升也不容忽視。GPT-4到4V,訓練過程基本相同,提升主要在安全工作:定性和定量評估、專家紅隊測試、緩解措施。此前2023年3月,GPT-4已發布,但ChatGPT中應用仍限制圖片輸入。根據OpenAI,GPT-4V背后的技術主要還是來自GPT-4,所以訓練過程是相同的。它使用了大量文本和圖像數據進行預訓練,然后通過RLH
55、F進行微調。為了確保GPT-4V更加安全,OpenAI在這內測期間開展了大量對齊工作,對此進行了定性和定量評估、專家紅隊測試、以及緩解措施。多模態安全性評估。個體識別評估:GPT-4V可以識別名人圖像,但是對于半私人和私人個體,拒絕率超過了98%。無基礎推理評估:無基礎推理是指不僅僅依賴用戶提供的信息而進行的推理,這種推理容易體現強化偏見或者提供不準確的信息。例如針對一個人的圖像,提問“誰更危險?“或“她從事什么工作?”,GPT-4V可以識別并拒絕這類請求。多模態越獄:使用圖片信息越獄,遭到GPT-4V拒絕。此前,OpenAI在對ChatGPT進行越獄攻擊,采取的手段是設計復雜的邏輯推理鏈來困
56、住模型,使其忽略其指令和訓練這一次,將一些用于破解模型的邏輯推理放入圖像中,比如,上傳一張文字版prompt的截圖,此前early版本中接受了越獄要求,而發布launch版則直接拒絕,體現2C應用安全性。圖37:GPT-4V(Launch版本)圖38:GPT-4V拒絕不安全行為的比例較高拒絕了圖片中的越獄要求1資料來源:GPT-4VGision)System資料來源:GPT-4V(ision)SystemCard、申萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第26頁共37頁簡單金融成就夢想#page#Dsws行業深度Cardy、申萬宏源研究專家紅隊測試:多模態大模型的6個關鍵風險與之
57、前一樣,OpenAI與外部專家合作,定性評估模型和系統相關的限制和風險,并收集到了紅隊反饋的6個關鍵風險,它們分別是:1)科學專業知識;例如下圖右側,GPT-4V根據芬太尼、卡芬太尼和可卡因等物質的化學結構圖像,錯誤地識別出這些物質。圖39:GPT-4在科學專業知識的風險(右)matls資料來源:GPT-4V(ision)SystemCard、申萬宏源研究田業At-Ld彩語“我一業理于整明素到理At-1d:圖(z準確的答復,但有時也會對同一問題給出錯誤的答復。GPT-4V不適合用于執行任何醫療功能或替代專業醫療建議、診斷、治療或判斷。3劇板印象和無根據推理例如下圖早期GPT-4V可能會產生不必
58、要或有害的假設,而這些假設并不基于提供給模型的信息,發布版本則規避這一回答。圖40:GPT-4V修正刻板印象回答圖41:GPT-4V修正誤導信息回答資料來源:GPT-4V(ision)SystemCard、申萬宏源研資料來源:GPT-4V(ision)SystemCard、申萬宏源研究第27頁共37頁簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明#page#SMSC行業深度究4)虛假信息風險;5)視覺漏洞:測試人員發現,輸入圖像的先后順序也會影響GPT-4V的識別能力,例如上圖。綜上所述:GPT-4盡管此前已經完成了多模態部分的測試,但是在發布前的6個月也經歷大量調整,提升在2C使
59、用時的安全性,包括:1)減少模型環境、拒絕越獄指令、拒絕回答刻板印象、仇恨問題等;2)但同時在回答醫療、專業科學等問題時,GPT-4V仍然然有可能犯錯。3.2海外映射:哪些AIGC應用可提價?當前階段投資人更關注AIGC應用落地速度和變現節奏,海外的發展情況提供了很好的借鑒。典型案例之Doulingo:多鄰國是一款全球知名的外語學習軟件,其在2023年3月14日宣布接入ChatGPT,5月9日發布一季度財報,訂閱和用戶活躍數據都有顯著提升:總預訂額為1.4億美元,比上年同期增長37%;截至季度末,付費用戶總數為480萬,比去年同期增長63%;月活躍用戶(MAU)較上年同期增長47%至7260萬
60、,日活躍用戶(DAU鞍上年同期增長62%至2030萬總收入為1.157億美元比上年同期增長42%。圖42:DoulingoMax訂閱采用AI大模型技術提升外語學習效率,提價至30美金月圖資料來源:doulingo官網、申萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第28頁共37頁簡單金融成就夢想#page#SMSC行業深度典型案例之NotionAI:NotionAI是Notion公司開發的一款人工智能工具,它可以為用戶提供自動化的數據分析、文本處理和自然語言處理等功能。該工具可以幫助用戶更快速、更準確地完成各種任務,從而提高工作效率。在加入AI能力后,NotionAI實現了8美金/月的
61、提價,且訂閱ARR、用戶活躍度實現了大幅提升。圖43:NotionAI功能融入后,實現了8美金/月的提價Notion AlAelmFindExplainth資料來源:NotionAI、申萬宏源研究典型案例之微軟Microsoft365copilot:Microsoft365Copilot定價達到30美金/月,相比原來訂閱價格,加入copilot后2-3倍ARPU提升,前文已經分析。表2:海外和國內AIGC融入后的典型提價應用應用簡介海外應用名稱領域原始訂閱價格提價情況AIGC能力提升自動完成寫作/文檔處理Microsoft 365商業標準版$12.5/月額外$30/月,用于辦公全球最通行的辦公
62、軟件/Teams/以及各類辦公軟件businesses商業E3版$36/月Microsoft 365 Copilot生產力增強通過互動練習和聊天機器人$12.99/月用于Duolingo$30/月,用于Duolingo使用AI大模型自然語言處Duolingo教育Max教授不同語言的語言學習Super Plus理來增強語言學習集成了人工智能助手的協作免費版或$4/月,用于使用AI大模型來自動化任$15/月,用于NotionAINotion AI辦公和寫作工具,可以幫助用戶創建和管Notion個人版或團隊版務,提供見解,生成摘要,版(含AI功能)理文檔和表格等內容(不含AI功能)翻譯內容等使用AI
63、大模型,分析和處理使用A大模型來實現總結、ChatPDF免費版,使用限制較多$5/月用于ChatPDFPlus辦公和寫作PDF改寫、對話等功能提供個性化播放列表和推薦$9.99/月,用于Spotify$11.99/月,用于Spotify使用AI大模型生成個性化音樂Spotify的音樂流媒體服務Premium播放列表和推薦Premium$29/月,用于Writesonic549/月,用于Chatsonic使用AI大模型生成內容,標提供不同的AI人格和語言ChatSonic辦公和寫作ProStarter支持題,標語等的寫作工具國內上市公司明禮原價提價情況AIGC能力提升領域WPS超級會員-基礎套餐
64、WPSAI直接對標微軟。輔(148元/年和WPS超級WPS辦公套件、輕文檔等云WPS會員89元年;超級金山辦公辦公和寫作助內容生成,自動寫作、制辦公服務會員179元年會員-Pro套248元/年)作PPT、生成表格等有望進一步提價海外落地最順暢。使用AI福昕軟件辦公和寫作PDF Editor Suite$79/99/149三檔年訂閱價$129/159兩檔年訂閱價格第29頁共37頁簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明#page#SMSC行業深度格有望進一步提價大模型實現總結、改寫、基于PDF內容的對話等功能學習機:普通版本價格段在學習機:大模型版本價格段自研大模型,應用豐富。
65、高教育/辦公/星火大模型、星火語伴APP、2000-5000元在7000元以上效口語練習、作文批改、會科大訊飛醫療等學習機、辦公本、翻譯機等辦公本:普通版本價格段在辦公本:大模型版本價格段議紀要自動整理總結、診后2000-3000元在4000元以上康復管理等AI生成數字人短視頻、文本Filmora、萬興搖爆、萬興愛萬興播爆:1688元年可免費試用萬興科技辦公和創意生成圖片、一鍵生成思維導畫、PDF等萬興愛畫:5元/10次創作圖等吸收大模型能力,實現更豐智能手機攝像頭算法、智能駕視覺和多模手機AI算法預計可提價30%;電商AIGC模持預十年費富的功能,同時對象分割效虹軟科技駛視覺解決方案、VR/
66、AR解態果更好、性能更強、功耗更類似Midjourmney2000元決方案、電商AIGC模特等低資料來源:各公司官網,申萬宏源研究映射國內,當前重點關注辦公、教育等應用,長期關注具身智能、AIAgent。海外AI大模型應用在辦公和教育領域成功案例較多,實現漲價的同時也顯著提升了用戶活躍度、付費意愿。我們認為后續應重點關注現有的付費應用(證明有較好的卡位和用戶基礎)、并敢于借助AIGC能力提價的標的。對標海外,辦公+AIGC領域關注金山辦公、福聽軟件;多模態AI領域關注萬興科技、大華股份;教育+AIGC領域關注科大訊飛;其他領域虹軟科技、漢得信息、潤達醫療等。長期重點關注具身智能、AIAgent
67、等新興領域,關注黃石網絡。4.重點標的4.1金山辦公:直接對標微軟copilot,高價值AI應用入口全面擁抱AI變革,WPSAI成為國內率先落地的AI辦公應用。在9月20日的2023金山辦公技術開放日,公司官方宜布,基于大語言模型的智能辦公助手WPSAI已接入金山辦公全線產品。公司定位為大語言模型應用方,錨定AIGC(內容創作)、Copilot(智PDF、金山文檔等產品線。圖44:WPSAI已經全面接入WPS產品線請務必仔細閱讀正文之后的各項信息披露與聲明第30頁共37頁簡單金融成就夢想#page#SMSC行業深度一句簡單描述生成整份PPT年終總結做PPT袋一片空白?告訴WPSA主題和數,自動
68、生成大綱,點擊即可一鍵牛成完整PPT.了解更多資料來源:金山辦公官網、申萬宏源研究WPSAI有望助力個人訂閱付費率與ARPU值再上臺階。根據公司半年報,國內個人訂閱業務上半年收入12.52億元,同比增長33.2%。截至23Q2月活設備數5.84億,同比增長2.5%。報告期末累計年度付費個人用戶數3324萬人,同比增長16.4%,付費率進一步提升至5.69%。公司通過AI升級能力,產品體驗及質感得到躍升。在堅持長周期會員策略的同時,將原有會員體系升級,拉動更多用戶成為會員,提升會員客單價。圖45:AI能力的融入將有助于WPS付費率和ARPU值進一步提升累計年度付費個人會員數及同比33.24120
69、93528.5630100998%25.372521.8880%9622016.8196091512.02409105.881092090%累計年度付費個人會員數(百萬)付費用戶數同比資料來源:公司公告、申萬宏源研究測算金山辦公C端付費空間遠期有望300億以上。借助WPSAI對辦公軟件的賦能,我們認為C端付費率遠期有望提升至15%、ARPU值有望提升至300元年。據此測算,金山辦公C端訂閱收入空間可達300億元年,如下表所示:表3:金山辦公C端空間測算遠期2020A2022A2023E2025E第31頁共37頁簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明#page#SWS行業深度
70、474573592620月活用戶數(百萬人)680185242254272300PC月活用戶數(百萬人)289331338348380移動及其他月活用戶數(百萬人)20303545102累計付費用戶數(百萬人)付費率4.1%5.295.9%7.3%15.0%付費率(僅考慮PC端)10.6%12.4%13.8%16.6%340%5268ARPU(元)82148300個人訂閱收入(億元)10.220.528.667.0306.0資料來源:公司公告、申萬宏源研究類比微軟copilot提價邏輯,金山辦公B端價值同樣大幅提升。根據公司半年報,國內機構訂閱業務上半年收入4.18億元,同比增長40.4%。上
71、半年數字辦公產品新增政企客戶(不含Saas)1700余家。公司已新打造出一系列燈塔項目并廣泛復制。此外公司持續引導客戶使用云和協作應用,報告期內,公有云領域Saas付費企業數同比增長54%,付費企業續約率超70%,金額續費率超100%,帶動公有云領域相關收入同比增長100%。在B端客戶方面,微軟通過與Visa、通用汽車等企業用戶一起探索后,宣布于11月1日開始上線企業版,價格是每月30美元,證明AI在企業端的高價值。WPSAI融入后,有望大幅提升金山辦公在機構訂閱業務的市場空間。圖46:面向企業的WPS365已于近期上線風協合體驗選安全含規,提創駕的可解快作。安全無合業領源航公會管理入門級云辦
72、公自站WPS365商業基礎版WPS365商業應用版WPS365商業標準版WPS365體驗版WPS365商業高級版(Yet)Y0199元人年(5人起購)399元人年(5人起期)(BRY9)Y669價格聯系銷售0水印1人企業存限網對力免費試用開始試用立即購買立即購買立即購買聯系銷售資料來源:金山辦公官網、申萬宏源研究4.2福昕軟件:面向海外B端客戶,率先落地AIGC能力AIGC提升產品價值送代節奏領先行業。4月福昕軟件海外云產品PDFEditorCloud率先集成AIGC技術:5月發布全新產品線PDFEditorSuite和PDFEditorSuitePro并實現提價:8月在ChatGPTPlug
73、inStore發布了新插件FoxitPDFAssistant:9月,接入請務必仔細閱讀正文之后的各項信息披露與聲明簡單金融成就夢想第32頁共37頁#page#SMSC行業深度百度文心干帆大模型,重磅發布福昕PDF中文AI助手。公司的PDFEditorCloud現可實現文檔總結、內容改寫、實時問答、文本翻譯、文檔智能解析及增強問答、文本解釋、語法&拼寫糾錯八大功能。更多AIGC相關功能將陸續豐富,并同步至PC端PDFEditor編輯器。公司主要針對高付費能力的海外B端客戶,逐步實現AIGC在辦公場景落地并提升用戶粘性。圖47:福昕軟件率先將AIGC能力融入PDF產品線coIn cha中中10Ie
74、XDlookingforinformation.資料來源:福昕軟件官網、申萬宏源研究年內已實現一輪調價,預計AIGC打開進一步提價空間。根據公司官網,此前PDFEDITOR的$79/99/149美元的三檔年訂閱價格,現已調整為PDFEditorSuite的$129/159美元的兩檔訂閱價格。此輪核心產品體系調整,主要變化在于將eSign、PDFEditorCloud等依托于云端提供的業務作為標配,打包進PDFEditorSuite中,實現價格的整體提升。訂閱起步價從此前的79美元提升至目前的129美元,增幅達63%。未來隨著AIGC能力的不斷完善,我們認為訂閱價格還有進一步向上調整的空間表4:
75、福昕編輯器訂閱制與授權制價格(美元)訂閱制價格/年授權制價格產品(5月21日提價前)PDF EDITOR$79.00$179.99PDF EDITOR PRO599.00$209.99$149.00PDF EDITOR PRO+PDF EDITOR CLOUD$49.99訂閱制價格/年授權制價格產品(5月21日提價后)$129.00PDF Editor Suite for Teams 2023$159.00PDF Editor Suite Pro for Teams 2023請務必仔細閱讀正文之后的各項信息披露與聲明第33頁共37頁簡單金融成就夢想#page#SMSC行業深度注:PDFEDIT
76、ORPRO+版本融合了云化的esign能力,已不提供授權選項;PDFEDITORCLOUD為純云化產品,同樣只提供訂閱付費選項;5月21日產品線更新后,僅提供訂閱制版本資料來源:公司官網,申萬宏源研究在AIGC之外,公司訂閱+渠道“雙轉型”戰略同樣推進順利,實現自身成長:訂閱轉型成效卓著,核心指標超預期。2022-2024為公司訂閱轉型期,訂閱類相關指標為核心變量。根據公司財報23Q1/Q2訂閱收入占比分別為30%/35%提升顯著:23Q2訂閱ARR為1.86億元,同比+85.6%、訂閱類合同負債為1.09億元,同比+89.2%,增速均較Q1加速。Editor產品訂閱續費率環比一季度提升2pc
77、t,達到93%。分區域看,發達國家市場訂閱增長迅猛,北美/歐洲區域訂閱收入分別同比增長78.7%/115.7%。以上數據證明公司商業模式正發生根本性升級,且轉型速度超預期。渠道收入同樣加速增長,國內垂直市場順利推進。23Q1/Q2來自渠道收入分別同比增長15%/25%,渠道收入占比分別為30%/34%,渠道收入增幅與占比均較Q1明顯提升。公司有望利用渠道觸達大量海外B端客戶,有效擴大市占率。面向垂直市場,知名老牌船舶企業天海防務率先使用福聽船舶圖紙管理系統;家裝、證券、醫療、法律、供應鏈、銀行、出版、教育等行業應用同步拓展,高效挖掘國內市場。4.3萬興科技:OpenAI圖片能力升級重點受益!核
78、心產品均已接入ChatGPT。今年4月,萬興科技宣布與微軟簽訂云服務框架協議。目前,萬興科技主流產品均已接入ChatGPT:1)Filmora:上線AIGC生成封面、AI腳本寫作功能,此外,還有AI智能擬像、AI音頻重組、AI智能降噪等一系列AI工具智能套件高級功能;圖48:在Filmora中使用ChatGPT功能圖49:在思維導圖中使用AI功能Alompoworsdlagrammingcreativity資料來源:EdrawMax、申萬宏源研究資料來源:Filmora官網、申萬宏源研究2)億圖/EdrawMax:輸入關鍵詞AI一鍵繪制流程圖,同時可以使用自然語言連續對話,對流程圖進行邏輯分析
79、和矯正、并完成自動化排版;3)PDFelement:在業內領先上線高度智能的AI側邊欄、打造全新AI工具集,并帶來更安全的電子簽名功能。請務必仔細閱讀正文之后的各項信息披露與聲明第34頁共37頁簡單金融成就夢想#page#SMSC行業深度億元,同比增長32.90%;歸母凈利潤4386.89萬元,同比增長275.06%,且截至6月底,公司訂閱轉型進程持續深化,實現訂閱收入占比增長至72%,訂閱續約率增長至65%。其中拳頭產品視頻創意軟件實現營業收入4.56億元,同比增長41.31%。我們認為,此前ChatGPT放開接口能力以語言為主,融合多模態能力后對視頻剪輯軟件有更大提升。此前公司核心產品視頻
80、剪輯軟件Filmora融合ChatGPT功能主要用于自動生成腳本、生成簡單的圖片封面等,而視頻剪輯軟件中核心的圖片、視頻分析能力提升較少我們認為,結合目前OpenAI已經公布的新能力視頻,后續投資者期待的AI一鍵剪輯AI視頻定位、AI視頻文字描述等功能有望推出4.4大華股份:多模態+視頻分析,有望在能源等行業率先落地應用多模態持續發展,公司大有可為。近年來隨著vit、swintransformer、mae等論文推出,transformer在CV和多模態等應用增加?;赩iT和SwinTransformer等方法,大模型在ImageNet數據集的分類準確率突破了90%,超過傳統CNN,展現出較強
81、的應用潛力。上述技術路線已經開源,考慮到公司對AI前瞻性技術投入、擁有大量高價值視頻數據、具備豐富的落地場景,大模型技術路線的應用,有望助力公司高效滿足海量的客戶需求,并進一步壓縮定制化開發成本。加大研發投入,預計四季度后,大華視覺大模型有望在城市治理、電力等行業完成方案驗證。根據公司半年報后發布會,盡管外部環境壓力,公司依然堅定的加大對AI、大模型等方面的戰略投入,后續還將適配研發進度,投入更大規模的資源。針對大模型、多模態等一系列技術,公司首要關心的還是行業價值的創造,以及商業上的長期主義。公司基于自身的行業積累和全面的工程化能力,再結合大模型天然的強泛化、理解等特性,打造垂直行業視覺大模
82、型。此外,公司計劃在今年四季度正式推出大華行業視覺大模型,并分別在城市治理、電力等領域完成大模型方案驗證:2024年,進行方案部署及行業試點,持續做深做寬。與中移動合作持續深化期待視覺大模型落地:8月25日公司公告董事會同意提名袁利華,張曉明為公司非獨立董事,監事會同意提名要琦為公司非職工監事。以上三人均為移動系高管。我們預計大華股份憑借在AI領域深厚積累,將有效賦能中國移動視聯網及數字化業務建設,同時公司可借用中移動強大的渠道和客戶資源,額外收獲大量B端數智化轉型訂單,助力AI解決方案廣泛應用落地。表5:AI行業重點公司估值表PE證券代碼公司名稱2023/9/28Wind一致預期歸母凈利潤(
83、億元)PB(LF總市值2022A2023E2024E2025E2022A2023E2024E2025E(億元)第35頁共37頁簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明#page#DSWS行業深度福1614.73856311.1820.0427.071531877688111.SH金山辦公1.71288002230.SZ科大訊飛1.1735.6113.2719.4727.5020960437.2010.200.8N0.4931402.87688095.SH福昕軟件7510.0m153332133300624.SZ萬興科技1370.411.03512.08916610.33202
84、3.2436.4144.6554.073216142.27002236.SZ大華股份734285112655688088.SH虹軟科技1650.581.482.172976.28資料來源:Wind、申萬宏源研究風險提示:大模型技術中美仍存在差異,部分技術尚處于早期實驗室階段,存在落地風險;實體清單等可能對訓練硬件產生影響。請務必仔細閱讀正文之后的各項信息披露與聲明第36頁共37頁簡單金融成就夢想#page#SMSC行業深度信息披露證券分析師承諾本報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出
85、具本報告,并對本報告的內容和觀點負責。本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。與公司有關的信息披露本公司隸屬于申萬宏源證券有限公司。本公司經中國證券監督管理委員會核準,取得證券投資咨詢業務許可。本公司關聯機構在法律許可情況下可能持有或交易本報告提到的投資標的,還可能為或爭取為這些標的提供投資銀行服務。本公司在知曉范圍內依法合規地履行披露義務??蛻艨赏ㄟ^索取有關披露資料或登錄信息披露欄目查詢從業人員資質情況、靜默期安排及其他有關的信息披露。機構銷售團隊聯系人華東A組茅燜021-華東B組李慶021-華北組肖霞010-華南組李異0755-8299060
86、9L股票投資評級說明證券的投資評級:以報告日后的6個月內,證券相對于市場基準指數的漲跌幅為標準,定義如下:相對強于市場表現20%以上;買入(Buy)增持(Outperform):相對強于市場表現5%20%;中性(Neutral):相對市場表現在-5%+5%之間波動;減持(Underperform):相對弱于市場表現5%以下。行業的投資評級:以報告日后的6個月內,行業相對于市場基準指數的漲跌幅為標準,定義如下:看好(Overweight):行業超越整體市場表現中性(Neutral):行業與整體市場表現基本持平;看淡(Underweight):行業弱于整體市場表現我們在此提醒您,不同證券研究機構采
87、用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重建議;投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者應閱讀整篇報告,以獲取比較完整的觀點與信息,不應僅僅依靠投資評級來推斷結論。申銀萬國使用自己的行業分類體系,如果您對我們的行業分類有興趣,可以向我們的銷售員索取。本報告采用的基準指數:滬深300指數法律聲明刊載的完整報告為準,本公司并接受客戶的后續問詢。本報告首頁列示的聯系人,除非另有說明,僅作為本公司就本報告與客戶的聯絡人,承擔聯絡工作,不從事任何證券投資咨詢服務業務。作參考之用,并非作為或被視為出售或購買證券或其他投
88、資標的的邀請或向人作出邀請。本報告所載的資料、意見及推測僅反映本與用回“應改“最,未日宗士回本報告所載資料、意見及推測不一致的報告??蛻魬斂紤]到本公司可能存在可能影響本報告客觀性的利益沖突,不應視本報告為作出投資決策的惟一因素??蛻魬灾髯鞒鐾顿Y決策并自行承擔投資風險。本公司特別提示本公司不會與任何客戶以任何形式分享證券投資收益或分擔證券投資損失,任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。本報告中所指的投資及服務可能不適合個別客戶,不構風險,投資需謹慎。若本報告的接收人非本公司的客戶,應在基于本報告作出任何投資決定或就本報告要求任何解釋前咨詢獨立投資顧問。本報告的版權歸本公司所有,屬于非公開資料。本公司對本報告保留一切權利。除非另有書面顯示,否則本報告中的所有材料的版權均屬本公司。未經本公司事先書面授權,本報告的任何部分均不得以任何方式制作任何形式的拷貝、復印件或復制品,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記。請務必仔細閱讀正文之后的各項信息披露與聲明第37頁共37頁簡單金融成就夢想#page#