《長上下文多模態大模型.pdf》由會員分享,可在線閱讀,更多相關《長上下文多模態大模型.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、T To ow wa ar rd ds s L Lo on ng g-c co on nt te ex xt t MMu ul lt ti i-mmo od da al l L LL LMMs s2 20 02 24 4年年6 6月月1 16 6日日B Be en ny yo ou u WWa an ng g1YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Preliminary work on multi-modal LLMs2YSSNLP2024YSSNLP2
2、024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20243ALLaVA-4V 百萬級別高質量數據Guiming Hardy Chen,Shunian Chen,Ruifei Zhang,Junying Chen,Xiangbo Wu,Zhiyi Zhang,Zhihong Chen,Jianquan Li,Xiang Wan,Benyou Wang.ALLaVA:Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model.https
3、:/arxiv.org/abs/2402.11684YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20244It largely improve performance by replacing original data with ours.YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20245YSSNLP2024YSSNLP2024YSSN
4、LP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20246VLFeedback,Preference Data for Vision-Language ModelsLei Li,Zhihui Xie,Mukai Li,Shunian Chen,Peiyi Wang,Liang Chen,Yazheng Yang,Benyou Wang,Lingpeng Kong,Qi Liu.Silkie:Preference distillation for large visual language models.https:/a
5、rxiv.org/abs/2312.10665YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20247Experiments on Qwen-VL(with DPO using VLFeedback)YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Multimodal Medial LLMs8YSSNLP2024YSSNLP2024YSSN
6、LP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Multi-modal MLLM:Injecting Multimodal Medical knowledge9YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP202410YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP
7、2024An early demohttp:/47.242.72.118:52001/#/YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Towards general medical AI(GMAI)模模態態部部位位或或器器官官任任務務X光(X-ray)胸部、肋骨、脊柱、顱骨、四肢、關節、手、足視覺問答(VQA)、肺結節檢測、肺炎識別、心臟大小評估、脊柱側彎分析、骨質疏松評估、骨折識別、關節炎檢測等病理(Pathology)皮膚、乳腺、肺、肝、胃、腸、前列腺、子
8、宮、卵巢、淋巴結視覺問答(VQA)、癌癥分型、細胞計數、組織結構分析、自動病理報告生成、纖維化評分、腫瘤檢測、病毒性肝炎影響評估等內窺鏡(Endoscopy)食道、胃、小腸、大腸、直腸、膽管、胰腺管視覺問答(VQA)、慢性胃炎檢測、胃癌早期發現、息肉檢測、大腸息肉檢測、炎癥性腸病識別等CT掃描(CT)頭部、胸部、腹部、盆腔、四肢、脊柱視覺問答(VQA)、腦出血識別、腫瘤定位與分級、腫瘤體積測量、器官分割、肝臟疾病評估、肝臟腫瘤檢測、胰腺疾病評估等。數碼相機(Digital Camera)皮膚病變、傷口、手術過程記錄、臨床癥狀視覺問答(VQA)、皮膚病變分類、傷口愈合跟蹤、皮膚癌早期檢測、色素沉
9、著評估等視網膜攝影(Retinography)視網膜、黃斑區、視神經盤視覺問答(VQA)、糖尿病視網膜病變檢測、黃斑變性評估、視網膜血管分析、青光眼預測等超聲(Ultrasound)心臟、肝臟、膽囊、腎臟、前列腺、甲狀腺、乳腺、妊娠(胎兒)視覺問答(VQA)、心臟功能評估、室壁運動分析、瓣膜病變識別、胎兒發育監測、胎位評估、多胎妊娠分析、胎兒畸形檢測等MRI掃描(MRI Scan)腦部、脊髓、心臟、關節(膝、肩)、肝臟、乳腺、盆腔視覺問答(VQA)、腦部疾病分類、白質病變檢測、神經退行性疾病識別、腦功能映射、腦白質病變檢測、關節炎進展評估、軟骨損傷檢測、運動功能分析、肌腱傷害識別等Junyin
10、 Chen,et.al Benyou Wang.Towards a multi-modal medical generalist,in progress任務之間是否可以泛化?YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Towards Long-context Multimodal LLMs13YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNL
11、P2024Scaling multi-modal LLMs to 1000 images(Long Context)14Dingjie Song,et.al Benyou Wang.MILEBENCH:Benchmarking MLLMs in Long Context,submitted to COLM 2024.https:/arxiv.org/abs/2404.18532Xidong Wang,et.al.Benyou Wang.LongLLaVA,scaling multi-modal LLMs to 1000 images.In ProgressYSSNLP2024YSSNLP202
12、4YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024開源模型長上下文效果不佳15YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024已有benchmark的圖片個數較少16YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Results17YSSNLP
13、2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Application 1:高分辨率的圖片理解套娃patching(模型需要支持更長的上下文)18支持更細粒度的patching:1*1 2*2 4*4 8*8 16*16https:/llava-vl.github.io/blog/2024-01-30-llava-next/YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2
14、024YSSNLP2024Application 2:視頻理解19通用視頻理解任務以及特定場景如多模態視頻故障巡檢https:/arxiv.org/pdf/2306.07207https:/arxiv.org/abs/2311.10122YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Application 3:長上下文的多模態Agent (Mobile Agent)20Junyang Wang,Haiyang Xu,Haitao Jia,Xi Zhang,Min
15、g Yan,Weizhou Shen,Ji Zhang,Fei Huang,Jitao Sang.Mobile-Agent-v2:Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration.https:/arxiv.org/pdf/2406.01014更長記憶的agent,應用如web和APP的bug查找,web動態頁面優化的評估YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSN
16、LP2024YSSNLP2024Application 4:病理圖像理解21https:/ 5:Multi-modal Agent for social simulation22e.g.發現校園霸凌事件,是否施以援手,何時施以援手?YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024LongLLaVA,scaling MLLMs to 1000 images更加efficient的長上下文的計算 Mamba/RWKV Jamba(MOEed Mamba+Transfo
17、rmer)更加efficient的visual Tokenizationtoken compression視頻多禎之間有榮譽支持高分辨率圖片套娃patching23YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024端側多模態大模型24YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024MLLMs for Edge devices在端側設備運
18、行,甚至可以流式地運行YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024A nave demo26MLLMs running on edge devicesYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Some quetions基于類LLaVA架構的多模態大模型的細粒度感知是否足夠?原生多模態是否必要?在醫療場景里面是否多模態大模型是
19、否可以泛化,成為一個generalist?多模態模型離世界模型還有多遠?基于多模態Agent模擬的人來和真實人類差異多大?其協作起來是否和人類社會一致?多模態理解和多模態生成之間是否有gap,SORA模型的理解能力怎么樣?27YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024T Th ha an nk ks s w wa an ng gb be en ny yo ou uc cu uh hk k.e ed du u.c cn n WWe e a ar re e h hi ir ri in ng g R RA As s&P Ph hDD (e ev ve en n f fo or r 2 20 02 24 4 f fa al ll l)YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024