《GOTC:2023全球開源技術峰會多模態大模型推理框架(26頁).pdf》由會員分享,可在線閱讀,更多相關《GOTC:2023全球開源技術峰會多模態大模型推理框架(26頁).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、AI is Everywhere專場AI is Everywhere專場王峰 王峰 Jina AI 2023年05月28日 2023年05月28日OpenGPT:多模態大模型推理框架:多模態大模型推理框架 Taking LMM app into production with OpengGPTAbout Me2021-now,Engineering manager,Jina AI2020-21,Senior Researcher,Huya AI2018-19,Senior Researcher,Tencent AI2011 -18,Ph.D.,Hong Kong Baptist Univers
2、ity王峰,王峰,開源 MLOPs 框架 Jina 的核心貢獻者,專注機器學習與深度學習算法在 NLP,多模態表征學習和信息檢索領域的落地與應用。numb3r3 felix.wangjina.aiAI的未來范式AI的未來范式GPT-4 的一大亮點就是不僅能理解文字,還能識別圖片內容多模態大模型的興起多模態大模型的興起AI的未來范式AI的未來范式MiniGPT-4:簡單整合了BLIP-2和Vicuna,通過BLIP-2將圖片轉為文字描述,再用Vicuna基于這個文字描述進行內容創作。多模態大模型的興起Zhu,Deyao et al.“MiniGPT-4:Enhancing Vision-Lang
3、uage Understanding with Advanced Large Language Models.”Arixv,2023AI的未來范式AI的未來范式大模型的“能力涌現”ChatGPT/GPT-4的橫空出世,已經徹底改變了NLP領域的研究態勢,模型能力越來越強-使用提示詞 prompt 來完成特定意圖;-由于“涌現涌現”能力,借助 Incontext Learning 方法可以處理未見過的任務;-改變了模型使用的范式AI的未來范式AI的未來范式人工智能正在從文本、語音、視覺等單模態智能,向著多種模態融合的通用人工智能方向發展。多模態 AI 的崛起BeforeAfterAI的未來范式:
4、多模態大模型AI的未來范式:多模態大模型簡單來說,就是指模型可以處理多種結構/類型的數據,可接收多種類型的數據源,例如 GPT-4,它既可以處理你輸入的文本,也可以處理你上傳的圖片。多模態模型AcousticTextualVisual表征學習表征學習讓模型為所有模態創建通用的特征表示遷移學習遷移學習讓模型首先學習基礎知識,然后在特定領域進行微調。單單模模態態 AI多模多模態態 AI基于多?;诙嗄B態的大模型將的大模型將實現圖實現圖文音文音統統一知一知識識表示,表示,成成為為人工智能基人工智能基礎設礎設施。施。多模態大模型應用挑戰多模態大模型應用挑戰計算資源需求:大模型由于其參數眾多,因此在訓
5、練和推理階段都需要大量的計算資源。這可能需要昂貴的硬件設備,并可能導致能源消耗問題。模型推理效率低:大模型的高效推理是工程應用的關鍵技術。推理環節在計算精度(FP16/INT8)、算力消耗量等方面的要求較低,但 GPU 顯存不足的問題同樣會出現在推理環節。此外,模型推理速度受限于通信延遲和硬件內存帶寬。如何保持低延遲的前提下,還盡可能節省計算資源和使現有顯存滿足推理的要求,是我們依然面臨的問題。數據處理:多模態數據需要復雜的預處理和后處理步驟。模型優化:大模型的訓練通常需要精細的超參數調整和優化策略,以確保模型的性能和穩定性。模型部署:部署相對復雜,在生產環境中部署大模型可能會面臨技術和運營挑
6、戰。以上就是一些大模型和多模態技術在實際應用中可能會遇到的技術挑戰。解決這些挑戰可能需要跨領域的合作和持續的技術創新。多模態 AI 的崛起延延遲遲(lateny)+成本(成本(cost)OpenGPT多模態大模型服務框架多模態大模型服務框架多模多模態態大模型大模型推理服務框架An open-source cloud-native of large multi-modal models(LMMs)serving framework.OpenGPTOpenGPTSupport for multi-modal models on top of large language modelsScalabl
7、e architecture for handling high traffic loadsOptimized for low-latency inferenceAutomatic model partitioning and distribution across multiple GPUsCentralized model management and monitoringREST API for easy integration with existing applications模型本地推理Jina Huggingface主要內容OpenGPTOpenGPT模型服務架構模型微服務化模型
8、推理優化模型推理 API OpenGPT:架構圖OpenGPT:架構圖大模型推理“微服務”“微服務”框架Gateway(gRPC,HTTP)Model A ServiceHTTP(s)Python(gRPC)Javascript(HTTP)Model B ServiceModel C ServiceLarge Multimodal Model微服務化OpenGPT:模型微服務化OpenGPT:模型微服務化模塊化(or 模塊化(or Mixture-Experts):):可以任意組合并充分利用兩個預訓練好的視覺編碼器和 LLM,而無須端到端地預訓練整個架構。這使得我們可以在多個視覺語言任務上實現
9、最先進的結果,同時顯著減少訓練參數量和預訓練成本BLIP-2 一種新的視覺語言模型范式 QFormer ServiceLLM ServiceBLIP2Gateway(gRPC,HTTP)QFormer ServiceHTTP(s)Python(gRPC)Javascript(HTTP)LLM ServiceOpenGPT:模型微服務化OpenGPT:模型微服務化QFormer ServiceQFormer ServiceLLM ServiceLLM ServiceLLM Servicereplica=3replica=4分布式推理服務OpenGPT:模型微服務化OpenGPT:模型微服務化設計
10、 Document,Executor 和 Flow這 3 個基本概念來抽象問題Document:基本數據結構,原生支持 protobuf 序列化方案,從而具備高效的網絡數據傳輸效率;Executor:微服務邏輯處理基本單元;Flow:微服務編排管理Jina 適用于多模態AI應用開發的微服務框架OpenGPTOpenGPT:模型微服務化模型微服務化支持不同張量數據類型 np.ndarray,torch.tensor 等等可以表示不同模態數據,例如文本,圖像,音頻支持嵌套關系Jina DocumentOpenGPTOpenGPT:模型微服務化模型微服務化Jina Executor 微服微服務邏輯單
11、務邏輯單元元OpenGPTOpenGPT:模型微服務化模型微服務化靈活的微服務編排Jina Flow 微服微服務編務編排管理排管理APIOpenGPTOpenGPT:模型微服務化模型微服務化支持不同的服務網關協議Jina Flow 微服微服務編務編排管理排管理APIvia gRPCvia Websocketvia HTTPOpenGPT:模型推理優化OpenGPT:模型推理優化通常模型加載需要把模型權重從文件加載到內存CPU中,然后再copy到CUDA中。這個過程實際上非常占用內存。而且這部分的資源是臨時性的,加載完成后會釋放。但是在實際部署中,實際申請的節點資源是根據峰值決定的。如何減少模型
12、對于內存占用的最大峰值是需要非常注意的問題。模型加載內存占用優化Jina HuggingfaceOpenGPT:模型推理優化OpenGPT:模型推理優化大規模模型的推理顯存需求過高,通常單個 GPU 的顯存是不夠的,因此支持多 GPU 并行是大模型推理技術優化的第一步。將推理工作負載拆分到多個 GPU 上,多 GPU 推理還能減少推理延遲(inference latency),以滿足實際生產環境當中對延遲到嚴格要求。過多的 GPU 并行,會增加跨 GPU 通信時間和降低每個 GPU 的計算粒度,從而導致最終結果是增加而不是減少延遲(latency)的問題。因此,為了滿足延遲要求同時減少并行開銷
13、,有必要調整并行有必要調整并行度,并確定給定模型體系結構和硬件平臺的最佳值。度,并確定給定模型體系結構和硬件平臺的最佳值。多 GPU 推理優化Jina HuggingfaceOpenGPT:模型推理優化OpenGPT:模型推理優化不同的模型推理方式,使用統一的推理API模型推理 API 本地模型推理客戶端模型推理總結展望總結展望多模態大模型的狂飆多模態大模型部署的挑戰OpenGPT的模型部署方案我們會持續優化opengpt,集成更多模型推理優化技術大型語言模型已經改變了AI領域的格局,帶來了許多新的機遇和挑戰。未來,我們期待看到更多有關如何優化和應用這些模型的研究和創新。Jina AI 開源社區致力于促進多模態 AI 技術的應用落地以及傳播,通過人工智能和深度學習技術,幫助開發者和企業減少開發學習成本,加快開發部署效率。查查看官網,了解更多:看官網,了解更多:https:/jina.ai/THANKSTHANKS1分鐘填寫反饋問卷領取精美周邊禮品