《多模態大模型在金融行業的實踐和展望-周思霽.pdf》由會員分享,可在線閱讀,更多相關《多模態大模型在金融行業的實踐和展望-周思霽.pdf(36頁珍藏版)》請在三個皮匠報告上搜索。
1、多模態大模型在金融行業的實踐和展望火山引擎金融解決方案總監&金融大模型負責人/周思霽目錄1.海內外多模態大模型發展趨勢洞察2.多模態大模型技術深度解析3.機遇與挑戰,金融多模態大模型場景落地展望海內外多模態大模型發展趨勢洞察大模型對各行業的影響深遠、并逐漸走向多模態大模型對各行業的影響深遠、并逐漸走向多模態 文生文 文生圖 文生視頻多模態是大模型落地發展的必經之路多模態是大模型落地發展的必經之路多模態協同更符合人類感知與表達方式多模態協同更符合人類感知與表達方式“看、聽、說、讀看、聽、說、讀”多模態數據無處不在,且加速增長多模態數據無處不在,且加速增長“據高通思科統計,據高通思科統計,2022
2、2022年,視頻流量占消費互聯網總流量的年,視頻流量占消費互聯網總流量的82%82%?!碑斘覀冊谡f多模態大模型時,我們在說什么?當我們在說多模態大模型時,我們在說什么?Sources:Gemini:A Family of Highly Capable Multimodal Models海內外多模態應用示例海內外多模態應用示例GPT-4VGPT-4VGeminiGeminiClaude3Claude3RunwayRunwayPicaPicaSunoSunoReminiRemini多模態理解多模態理解以Google Gemini為例,原生多模態模型能夠無縫理解和推理各種形式的輸入,包括文本、圖像、
3、視頻、音頻和代碼等。文生圖文生圖DALL-E 3適用領域:生成高分辨率、細節豐富的圖像 支持復雜多主題提示,適合制作概念藝術和插畫應用場景:游戲和動畫制作中的概念設計 產品設計和建筑可視化 科研和教育領域的圖像生成適用領域:生成富有藝術性和創意的圖像 支持多種藝術風格,如寫實、抽象等應用場景:藝術創作和插畫設計 廣告和營銷視覺內容制作 個人藝術愛好者的創作工具適用領域:擅長理解和呈現復雜文本描述 生成具有創意和想象力的圖像應用場景:新聞和媒體圖像生成 兒童讀物和故事書插圖 視覺藝術創作和實驗文生視頻文生視頻高效逼真視頻生成高效逼真視頻生成:利用“擴散變換器”在視頻時空補丁上高效生成逼真視頻。智
4、能字幕擴展智能字幕擴展:GPT技術將用戶提示擴展為詳細字幕,提供豐富視頻上下文。捕捉細節與動態捕捉細節與動態:大量數據集訓練,精準捕捉視頻細節和動態變化。視頻質量全面領先視頻質量全面領先:在視頻質量、成像、美學及動態范圍方面全面超越競品。生成質量高:生成質量高:Runway的Gen-2模型在成像和美學質量上較為領先。AIAI魔法工具魔法工具 套件:套件:提供30多種AI工具,通過文本、圖像或視頻生成編輯內容。多功能生成編輯:多功能生成編輯:支持多種內容生成編輯,簡化數字工作流程。實時協作設計:實時協作設計:支持團隊實時協作,促進創意和多元視角融合。獨特藝術風格:獨特藝術風格:采用動畫和程式化技
5、術,使其輸出具有獨特個性和吸引力。擅長營銷向內容:擅長營銷向內容:適合重視風格化和創造性的社交媒體、市場營銷和娛樂領域。易于使用:易于使用:Pika平臺用戶友好,讓不同技能水平的創作者都能輕松探索視頻生成AIAI音樂生成音樂生成AI音樂生成模型suno在發布V3版本后火爆出圈,只需要輸入簡單的提示詞,比如音樂主題、風格、流派、歌詞、音色等,Suno就能快速生成一首長達2分鐘的完整音樂多模態大模型技術深度解析Sources:A Survey on Multimodal Large Language Models,p2,Figure 1多模態技術演進曲線淺析多模態技術演進曲線淺析Sources:M
6、ultimodal Foundation Models:From Specialists to General-Purpose Assistants,p29,Figure 3.2典型的文本到圖像生成模型概述(截止到典型的文本到圖像生成模型概述(截止到20232023年年7 7月)月)視頻生成模型與產品時間線(截止到視頻生成模型與產品時間線(截止到20232023年年1212月)月)Sources:a16z 轉引自新智元AI 視頻年大爆發:Gen-2/Pika 成時代爆款,2023 年 AI 視頻生成領域的現狀全盤點,華創證券典型典型MLLMsMLLMs發展時間線(截止到發展時間線(截止到202
7、42024年年3 3月)月)輸入空間從文本擴展到多模態輸入空間從文本擴展到多模態通過圖文對進行輸入空間的對齊通過圖文對進行輸入空間的對齊自然地通過自然地通過LLM基座以文本方式進行輸出基座以文本方式進行輸出MLLMMLLM技術路徑概述技術路徑概述編碼器、連接器、LLM、生成器(多模態、可選)Sources:A Survey on Multimodal Large Language Models,p2,Figure 1多模態語義表示指令微調 多模態指令調整(MIT)多模態上下文學習(M-ICL)多模態思想鏈(M-CoT)LLM輔助視覺推理(LAVR)Sources:Unicoder-VL:A U
8、niversal Encoder for Vision and Language by Cross-modal Pre-training從模態平等到以語言為中心從模態平等到以語言為中心BLIP-2BLIP-2MiniGPT4MiniGPT4SOURCE:MINIGPT-4:ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELSSOURCE:BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and L
9、arge Language Models多模態生成技術路徑概述多模態生成技術路徑概述擴散模型 Stability Al-Stable Diffusion OpenAI-GLIDE,DALL-E2 Google Imagen&Imagen 2擴散模型 Stability AI-Stable video DiffusionGoogle-Imagen Video基于Transformer的自回歸模型:Google-PartiOpenAI-DALL-E1擴散模型+Transformer架構:OpenAI-DALL-E 3基于Transformer的自回歸模型:Google-VideoPoet擴散模型+
10、Transformer架構:OpenAI-Sora Google-W.A.L.T從從ViT到到DiT,多模態生成的大一統架構出現了?,多模態生成的大一統架構出現了?DiTDiTViTViT機遇與挑戰,金融多模態大模型場景落地展望金融行業多模態大模型應用場景金融行業多模態大模型應用場景營銷賦能智能客服、助手信息檢索及總結報告生成知識助手辦公助手多模態賦能企業客戶服務 多意圖、多輪識別文檔檢索、接口調用對話引導和風格化潤色智能客服數據獲取信息檢索賬戶管理流程指引什么理財產品好,怎么購買?理財產品的選擇主要取決于您的投資目標、風險承受能力、時間成本以及對投資品種的了解等因素。如需購買,可點擊鏈接跳轉
11、產品名稱年化收益率風險等級起購金額產品AA7%R31000元產品BB3.5%R21元*多意圖的統一、深度理解*檢索文檔、調用數據接口并進行統一回復。我能買嗎?當然可以買啦!不過在投資之前,記得做足功課,選好產品,適當分散風險。保持關注,及時調整策略,祝您投資順利!*對話潤色、合規回復多模態賦能客戶服務 更全面智能的服務能力我登錄不了,顯示這個,怎么回事?非常抱歉,由于您在登錄時選擇了人臉識別,但系統未能識別您的面部特征,因此無法成功登錄。為了幫助您解決這個問題,請您嘗試以下解決方案:調整光線:確保您所處的環境光線充足,避免在強光或陰影下嘗試人臉識別。重新定位:微微移動您的頭部,確保攝像頭可以清
12、晰地捕捉到您的面部特征。等待片刻:有時候系統需要一點時間來適應您的面部特征,您可以稍微等待一下再進行嘗試。我在買基金的時候彈出了這個,我之前都可以買的呀。非常抱歉給您帶來不便,根據國家相關金融法律法規要求,用戶確實需要定期進行風險評估確定風險偏好等級后才能購買理財產品。風險評估的有效期是1年,一旦過期需要重新評估后才能購買。請您理解,這是為了確保您能夠持續符合我們產品的風險承受能力要求。如果您之前可以購買但現在出現了這個問題,可能是因為您的風險評估已經過期。為了解決這個問題,您可以點擊頁面上的“查看我的風險評估結果”按鈕,重新進行風險評估。在評估完成后,您就可以正常購買基金了。參考資料:登錄方
13、式包括密碼、人臉識別、手勢識別三種,人臉識別是調用手機的人臉識別功能進行驗證,失敗原因可能是因為識別時間過短、環境光線不足參考資料:根據國家相關金融法律法規要求,用戶需要定期進行風險評估確定風險偏好等級后才能購買理財產品。風險評估的有效期是1年,一旦過期需要重新評估后才能購買多模態賦能客戶服務 更擬人的交互形態多模態交互數字人技術將傳統文本互動升級為數字人交互,把服務帶到用戶面前,為用戶和企業主提供“面對面,有人情味兒”的專業服務。個性化形象及音色僅需要用戶秒級別的音頻數據即可即時完成對用戶音色、說話風格、口音和聲學環境音的復刻。多模態賦能客戶服務 運用全新自研語音算法MegaTTS僅需要用戶
14、秒級別的音頻數據即可即時完成對用戶音色、說話風格、口音和聲學環境音的復刻。當數據量在10秒到5分鐘之間時,MegaTTS不僅可以在任意來源的新用戶的短提示下合成保同語音,而且始終優于基于Fine-tuning的基線方法(Porta speech 2)。多模態賦能營銷全流程業務理解與內容洞察Prompt知識庫數據飛輪轉化數據回收內容分發素材生成構建營銷素材生成到分發的全鏈路能力,使用的頻次越高、時間越久,模型生成效果越好,實現生成質量提升的正循環智能圖片生成,生產效率提升超300%圖片生成圖片風格化文案生圖一張長方形的書桌上放著一臺筆記本電腦,兩三本書。書桌靠著窗戶,桌上還有一些綠植。時間是傍晚
15、,體現出傍晚的陽光。賽博朋克風格,重金屬背景替換種草平臺特色生圖原圖小紅書風格圖片延展生成一張高分辨率的海灘背景圖,場景是一個陽光明媚的下午,天空湛藍,前景是細膩柔軟的沙灘原圖向右向下可控視頻生成,生產效率提升160%,非真人素材成本節約60%結合大語言模型形成個性化、可控視頻生成數字人產品介紹數字人計劃書播報智能創作金融產品模板數字人名片多模態賦能智能投研年報財務輔助財務報告經營分析行情大宗交易量價分析漲跌分析行業行業預測行業排名行業對比宏觀政策匯率變動貨幣政策財務政策上游產業鏈下游供貨量價格收并購出貨量價格消費一鍵查詢智能分析自動總結經營分析行業對比盈利預測分析框架投研數據多模態賦能智能投
16、研 提升信息理解能力文字去水印去除水印文字、去除背景LOGO、去除背景花紋圖片校正傾斜校正、圖像增強表格抽取支持靈活定制各類表格抽取及分頁合并;以財務三大表為例,抽取準確率95%,召回率85%。對研報、招股書、審計報告等文檔的解構和識別,統一支持包括目錄、表格、圖片、段落、標題等信息的識別和關鍵要素抽取圖表解讀利用多模態理解技術,對K線、折線圖、柱狀圖等圖表進行理解多模態賦能智能投研 提升信息理解能力數據清洗語義分析多模態內容多種核心算法結構化理解內容投研標簽輸出視頻關鍵幀音頻分析視頻分類模型人物視頻特征元素識別品牌場景消重模型舊聞模型廣告識別低質數據實體識別事件聚合音頻、抽幀圖片轉文字情感分
17、析行業分類信源等級關鍵詞提取企業行業事件分類企業識別情感分析產品識別行業分類行業政策核心企業環境管理節能減排環境污染自然災害員工管理產品信息供應商客戶權益公共關系行政處罰安全事故政策扶持官員變動經營治理企業形象高層動態生產銷售合同訂單財務風險經營異常監管關注涉訴失信資本運作債務違約視頻圖文音頻分析多模態賦能數字員工 多模態知識檢索Question+Top N匹配內容降低訓練成本補充長短期記憶更新知識庫大模型向量數據庫ChatGPTVector Database多模態知識助手用戶Question回答企業自有知識庫向量化入庫多模態賦能數字員工 提升業務流程效率遠程視頻盡調和風控智能資產巡檢展望未來:多模態智能體1.規劃(Plan):LLM理解用戶任務的具體要求和目標。2.行動(Action&Do)階段:任務計劃生產、工具調用與執行、動態調整與優化3.反饋與迭代(Check):完成所有子任務后,評估最終結果;自我進化,以應對更復雜的任務。多模態智能體MemoryToolsActionPlanVectorDB應用元信息文獻數據庫專題數據集人群隊列智能體設計模式生成模式從人工定義到自主規劃1.模仿人類研發流程(需求思考方案設計任務分解方案開發測試驗證)2.智能體自主規劃落地載體:提示詞、知識庫、插件、工作流3.*當前自主規劃流程中仍需引入人工糾偏,以保障輸出穩定性