《邁向實用化多模態大模型-姚遠.pdf》由會員分享,可在線閱讀,更多相關《邁向實用化多模態大模型-姚遠.pdf(14頁珍藏版)》請在三個皮匠報告上搜索。
1、邁向實用化多模態大模型清華大學/姚遠大模型成為人工智能前沿制高點 多模態大模型的能力突破,成為大模型前沿發展的新趨勢和焦點 極大拓展大模型能力邊界和應用場景,智能躍遷的下一個關鍵引擎主要特點基于大數據和人類反饋進行學習,與用戶通過對話進行交互,能夠處理多模態信息及多種任務,深層推理與常識運用能力大幅度提升2022/11/30:OpenAI 發布文本對話模型 ChatGPT2023/03/15:OpenAI 發布多模態對話模型 GPT-42023/09/20:OpenAI 發布文生圖模型 DALLE 32023/09/25:ChatGPT 全面整合多模態能力2023/12/06:Google 發
2、布多模態模型 Gemini2024/03/04:Anthropic發布多模態模型 Claude 3里程碑事件多模態能力通常 70億-550億 參數量需要高性能服務器部署服務用戶需上傳隱私使用數據參數多,成本高參數多,成本高模型回復與圖像內容不符開源模型幻覺率 60%以上高風險場景危害大(自動駕駛、盲人助手等)幻覺多,難置信幻覺多,難置信多數開源模型僅支持英語中文多模態數據少、質量低難以滿足中文用戶需求英文強,中文弱英文強,中文弱多模態大模型邁向實用的痛點問題中文圖文數據質量分布高質量低質量具有超出預期的巨大潛力大模型 Scaling Law 沙盒可在手機高效部署運行參數多,成本高參數多,成本高
3、端側大模型端側大模型基于中英雙語語言基座僅使用英文圖文數據預訓練實現中文多模態跨語言泛化多模態大模型邁向實用的痛點問題幻覺多,難置信幻覺多,難置信多模態人類反饋學習多模態人類反饋學習英文強,中文弱英文強,中文弱多模態跨語言泛化多模態跨語言泛化通過人類反饋對齊模型行為可大幅降低模型幻覺使高風險場景更加可信Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages.ICLR 2024.RLHF-V:Towards Trustworthy MLLMs via Behavior Alignment fro
4、m Fine-grained Correctional Human Feedback.CVPR 2024.MiniCPM:Unveiling the Potential of Small Language Models with Scalable Training Strategies.2024.高效端側多模態大模型 MiniCPM-V 系列(2.8B)集成團隊近期探索前沿技術 2024/2/1 MiniCPM-V 發布 實現同參數規模最佳性能,支持中英雙語 可部署安卓和鴻蒙系統手機 國際開源平臺累計下載次數超過 4 萬次高效端側多模態大模型 MiniCPM-V 系列(2.8B)集成團隊近期探
5、索前沿技術 2024/4/11 MiniCPM-V 2.0 發布 通用能力:OpenCompass 11個常用基準綜合榜單,優于 17-34B 主流模型 OCR 能力:刷新 OCRBench 開源模型最佳成績;通用場景文字理解持平 Gemini Pro高效端側多模態大模型 MiniCPM-V 系列(2.8B)集成團隊近期探索前沿技術 2024/4/11 MiniCPM-V 2.0 發布 通用能力:OpenCompass 11個常用基準綜合榜單,優于 17-34B 主流模型 OCR 能力:刷新 OCRBench 開源模型最佳成績;通用場景文字理解持平 Gemini Pro 可信行為:物體幻覺水平持平 GPT-4V 高清圖理解:可支持 180萬 像素任意長寬比圖像無損編碼 中英雙語,端側部署開源項目技術博客