《浙江大學:2025大小模型端云協同賦能人機交互報告(55頁).pdf》由會員分享,可在線閱讀,更多相關《浙江大學:2025大小模型端云協同賦能人機交互報告(55頁).pdf(55頁珍藏版)》請在三個皮匠報告上搜索。
1、大小模型端云協同賦能人機交互張圣宇浙江大學2025年4月2 馬斯克的大膽預言:碳基生命(也就是我們人類)只是硅基生命的啟動程序。隨著科技的不斷發展,尤其是AI領域取得的突破,以人工智能為主的硅基生命形態將會在未來成為地球上的主宰生物。2007年1月9日,喬布斯發布第一代iPhone蘋果手機,把iPod、電話、移動互聯網設備等進行有機整合,推動了移動互聯網進入了黃金發展年代。今天大模型給人類社會諸多生產、生活模式帶來一次大變革。2023年2月,英偉達創始人兼CEO黃仁勛提出隨著ChatGPT為代表的大模型出現,我們已經進入“人工智能的iPhone時刻(iPhone moment of AI)”,
2、這一觀點受到美國財富雜志、華爾街時報等媒體的廣泛認可并轉載。DeepSeek在模型算法和工程優化方面進行了系統級創新,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集群上完成訓練,打破了大語言模型以大算力為核心的預期天花板,為在受限資源下探索通用人工智能開辟了新的道路。DeepSeek&ChatGPThttps:/ my eyeshttps:/ 端云協同(Device-Cloud Collaboration):指邊緣設備(如智能手機、IoT設備)模型和云側服務器模型協同進化推斷。l 云側大模型(Large Model):通用認知計算,擁有強大的計算能力、海量的數據、充分的知識
3、庫。l 終端小模型(Small Model):實時感知、實時響應,運行輕量級任務,響應速度快。https:/hanlab.mit.edu/courses/2024-fall-65940l 端云協同計算通過卸載部分學習任務至端側,讓端和云協同完成任務,從而發揮終端靠近用戶和數據源的天然優勢,降低服務延時至毫秒級,增強模型個性化精準推理能力,緩解云服務器中心負載壓力,同時支持用戶原始數據在設備本地處理l 有效克服主流云學習范式在實時性、個性化、負載成本、隱私安全等方面的不足自動駕駛(Gan et al.)Yulu Gan,Mingjie Pan,Rongyu Zhang,et al.:Cloud-
4、Device Collaborative Adaptation to Continual Changing Environments in the Real-World.CVPR 2023:12157-12166Chengfei Lv,Chaoyue Niu,Renjie Gu,et al.:Walle:An End-to-End,General-Purpose,and Large-Scale Production System for Device-Cloud Collaborative Machine Learning.OSDI 2022:249-265Xufeng Qian,Yue Xu
5、,Fuyu Lv,Shengyu Zhang,et al.:Intelligent Request Strategy Design in Recommender System.KDD 2022:3772-37823D渲染(Lv et al.)推薦系統(Qian et al.)前沿應用大小模型端云協同大小模型端云協同大小模型協同+端云高效協同基于調度的協同基于反饋的協同基于生成的協同大模型小模型反饋學習檢索增強大模型小模型調度大模型小模型調度IntellectReq自主智能請求WWW 24FiGRetRAG反饋學習Arxiv大模型小模型1小模型2小模型3模型架構參數生成大模型小模型任意模型知識遷
6、移ModelGPT大模型生成小模型ArxivMergeNet任意模型知識遷移AAAI 25大模型小模型反饋學習單視角采樣MPOD1232D到3D生成CVPR 2024LLMCO4MS組合優化LLMECCV 2024聯合應用平臺既有的特定業務小模型特定業務小模型與云側大模型云側大模型,將端側小模型輕量部署、快速響應、個性適配端側小模型輕量部署、快速響應、個性適配的優勢,和云側大模型認知推理、多模態理解、通用泛化云側大模型認知推理、多模態理解、通用泛化的優勢進行互補大小模型協同基礎算法研究大小模型協同基礎算法研究基于融合的進化大模型小模型基于融合的不相容參數優化CKIAAAI 25基于調度的協同基
7、于反饋的協同基于生成的協同大模型小模型反饋學習檢索增強大模型小模型調度大模型小模型調度IntellectReq自主智能請求WWW 24FiGRetRAG反饋學習Arxiv大模型小模型1小模型2小模型3模型架構參數生成大模型小模型任意模型知識遷移ModelGPT大模型生成小模型ArxivMergeNet任意模型知識遷移AAAI 25大模型小模型反饋學習單視角采樣MPOD1232D到3D生成CVPR 2024LLMCO4MS組合優化LLMECCV 2024聯合應用平臺既有的特定業務小模型特定業務小模型與云側大模型云側大模型,將端側小模型輕量部署、快速響應、個性適配端側小模型輕量部署、快速響應、個性
8、適配的優勢,和云側大模型認知推理、多模態理解、通用泛化云側大模型認知推理、多模態理解、通用泛化的優勢進行互補大小模型協同基礎算法研究大小模型協同基礎算法研究基于融合的進化大模型小模型基于融合的不相容參數優化CKIAAAI 25 大模型驅動的小模型生成框架大模型驅動的小模型生成框架ModelGPT ModelGPT+用戶對模型的需求描述模型的需求描述+少量數據少量數據=(推理生成)開箱即用小模型。在 All-in-One 的通用大模型范式之外,初步探索 One-to-All 的可能性,為更廣泛的小數據、小算力(邊端)、離線應用場景提供AI落地支撐。在NLP,CV,和,和Tabular Data典
9、型數據集上進行驗證,性能超越性能超越Finetune方法。Please give me an artificial intelligence model,making itbest suitable for UserData/UserDescri pti on.Model Customizer/Please help me discriminate the category ofthe given images.These images are officesupplies takenbyaDSLR camera.DataDesc.*.Users can choose to provide l
10、abeled data or descriptions,or bothModelGeneratorRequirementEncoderModule-Wise ParameterGeneratorLatent SpaceTransformationCustomizedModule 1:layer1.0.conv1CustomizedModule 2:layer1.1.conv2Customized Module n:classifierParameter GeneratorscissorsmousebottlebikeImage/Please help me discriminate wheth
11、er the inputsentence is semanticallyacceptable.DataDesc.Text/Please help me classify the tabular data fromthe dataset Iris.DataDesc.TabularOther Methods(Optional)LoRAAll-Parameter Finetuning(Optional)GeneratedModelGeneratedModelTabularImageMulti-classImageClassificationMLPResNetDistill-BERTType Reco
12、gnitionTextBinaryText ClassificationMLPDistill-BERTResNetTextImageTabularMulti-classTabular ClassificationResNetMLPDistill-BERTGeneratedModelModules AggregationGeneratedModelImageTextTabularRequirement GeneratorModelGPTGeneral requirements to instruct LLMExample case study and analysis for LLM to im
13、itateScissorsMouseBottleBikeNow,I will present a new batch of data along with theirbackground information.The images are includedwithin the passage.TheyaretakenbyaDSLR camera.ImageThis is a multi-class classification task,whereeach image features office-related items with ashallow depth of filed,a c
14、haracteristic effect ofusingaDSLR camera.Next,I will give you a batch,act just as I instruct above.sentence They drank the pub dry l abel acceptable sentence They drank the pub l abel unacceptable sentence The professor talked us into a stupor l abel acceptable.sentence The professor talked us l abe
15、l unacceptableTextMind that you should describe the batch as instructed above use ONLY 1 sentence.Next,I will give you a batch,act just as I instruct above.This is dataset Iris.i nput SepalLen:5.1,SepalWid:3.5,PetalLen:1.4,PetalWid:0.2 l abel Iris-setosa.i nputSepalLengthCm:5.8,SepalWidthCm:2.7,Peta
16、lLengthCm:4.1,PetalWidthCm:1 l abel Iris-versicolorTabularThis is a task of tabular classification torecognize which type of irisplantthe input is.Generated Model They drank the pub dry.acceptableThey drank the pub.unacceptableThe professor talked us into a stupor.acceptableThe professor talked us.u
17、nacceptableSepalLen SepalWidPetalLenPetalWidLabel5.13.52.40.2Iris-setosa5.82.74.11Iris-versicolor4.92.54.50.7Iris-virginica5.43.41.50.4Iris-setosaThis is a task of text classification to recognizewhether the input sentence is semanticallyacceptable.CustomizedModulesUser RequirementUser Data/Descript
18、ionOutputUser InputFinetune(Optional)ModelGPTRequirement GeneratorModel CustomizerUserDataUserDataZihao Tang,Zheqi Lv,Shengyu Zhang,Fei Wu,Kun Kuang:ModelGPT:Unleashing LLMs Capabilities for Tailored Model Generation.CoRR abs/2402.12408(2024)基于生成的協同:基于生成的協同:One(大模型)(大模型)to All(小模型)生成(小模型)生成 大模型驅動的小模
19、型生成框架大模型驅動的小模型生成框架ModelGPT 在NLP,CV,和,和Tabular Data典型數據集上進行驗證,性能超越性能超越Finetune方法。給定用戶的需求ModelGPT能夠以至多先前范式(例如全參數微調、LORA微調)270倍速度倍速度快速生成定制好的人工智能模型?;谏傻膮f同:基于生成的協同:One(大模型)(大模型)to All(小模型)生成(小模型)生成研究背景現有知識遷移方法(例如,知識蒸餾,遷移學習)要求端云具有相似的任務類型或模型架構,難以應用于跨異構模型、任務和模態的異構知識遷移場景。知識蒸餾利用Logits和Feature Map表示知識,依賴于任務類型
20、。遷移學習通常通過共享參數實現知識遷移,依賴于模型架構。異構模塊(線性層 注意力機制模塊)之間知識不兼容。不同規模模型之間知識不兼容。模型知識統一表示模型知識統一表示異構模型知識適配挑戰Li K,Zhan T,Fu K,Zhang S,et al.MergeNet:Knowledge Migration across Heterogeneous Models,Tasks,and Modalities.AAAI 2025跨越異構模型、任務、模態的統一模型知識遷移框架跨越異構模型、任務、模態的統一模型知識遷移框架 異構模型知識表示:以參數為載體,重新編碼端云模型參數,實現對異構知識的統一表示異構知
21、識適配:設立參數適配器,促進異構參數空間的交互,提取并對齊有效的信息,實現高效知識遷移創新方法研究問題研究基于端云協同的跨異構模型架構、任務和模態的異構知識遷移框架。異構模型知識表示異構知識適配協同訓練流程參數適配器 知識基本單元 按行/列展開按行/列展開注意力機制更新端側模型跨越異構模型、任務、模態的統一模型知識遷移框架跨越異構模型、任務、模態的統一模型知識遷移框架Li K,Zhan T,Fu K,Zhang S,et al.MergeNet:Knowledge Migration across Heterogeneous Models,Tasks,and Modalities.AAAI 2
22、025應用驗證克服了傳統知識遷移需要具有相似任務類型或模型架構的限制跨架構知識遷移跨模態知識遷移跨任務知識遷移跨架構知識遷移跨模態知識遷移跨任務知識遷移異構知識遷移統一異構知識表示知識交互融合有效應用于各種具有挑戰性的場景,及傳統知識遷移方法有效應用于各種具有挑戰性的場景,及傳統知識遷移方法不適用不適用的場景的場景傳統知識遷移存在的問題模型結構差異性限制任務類型匹配要求異構知識表示不兼容跨越異構模型、任務、模態的統一模型知識遷移框架跨越異構模型、任務、模態的統一模型知識遷移框架Li K,Zhan T,Fu K,Zhang S,et al.MergeNet:Knowledge Migration
23、 across Heterogeneous Models,Tasks,and Modalities.AAAI 2025大小模型端云協同大小模型協同+端云高效協同云智能的局限移動端智能的局限算力限制帶寬限制電量限制內存限制l混合AI指終端和云端協同工作,在適當的場景和時間下分配AI計算的工作負載,以提供更好的體驗,并高效利用資源。在一些場景下,計算將主要以終端為中心,在必要時向云端分流任務。而在以云為中心的場景下,終端將根據自身能力,在可能的情況下從云端分擔一些AI工作負載。高通:生成式端云混合智能-高通終端側AI 和混合AI 開啟生成式AI 的未來端云協同智能-高通終端側AI 和混合AI 開啟
24、生成式AI 的未來端云協同智能端云異構模型知識互遷與協同推斷云端任務/場景1端任務/場景2Cloud to Device(C2D)DeVLBert/DeVADG跨任務/場景泛化ACM MM 20/AAAI 23大規模因果預訓練云AUG-KD遷移壓縮ICLR 24特定端Cloud for Device(C4D)云DUET實時適應WWW 23特定端實時參數實時數據云IntellectReq實時自主適應WWW 24特定端實時參數實時數據分布偏移檢測自主請求云AdaRequest自主請求KDD 22特定端增量預測自主請求Device to Cloud(D2C)云端模型1端模型2DIET/Forward
25、-OFA高效定制高效定制KDD 24/KDD 25云特定端FedCFA/CausalD因果去偏匯聚AAAI 25,TKDE 23研究背景l 大模型向端側遷移部署往往采用知識蒸餾等壓縮手段,傳統知識整理方法假設大模型訓練數據分布(壓縮前)和小模型測試數據分布(壓縮后)服從獨立同分布假設(IID Hypothesis)。l 實際應用中,源域數據和應用場景存在分布偏移,導致壓縮性能顯著下降。理論分析l 數據蒸餾的目標:min,;+;,.l 多數場景下,源域分布和應用場景存在分布偏移分布偏移(),違反獨立同分布假設。l 情況1:,對應無數據蒸餾方法(由生成器擬合),蒸餾出的目標模型并不適用。l 情況2
26、:,源模型給出的知識不一定有效。獨立同分布假設(IID Hypothesis):源域源域和目標域目標域(應用場景)獨立同分布。在此情況下進行知識蒸餾,源域的知識可以很好地指導模型完成目標域的任務。Zihao Tang,Zheqi Lv,Shengyu Zhang,Yifan Zhou,Xinyu Duan,Fei Wu,Kun Kuang:AuG-KD:Anchor-Based Mixup Generation for Out-of Domain Knowledge Distillation.ICLR 2024面向未知端側分布的壓縮-適應聯合研究背景l 端云分布異質:云側全局數據分布體現平臺整
27、體共性與端側特化分布存在偏移l 端云有偏匯聚:有偏數據導致端側偏見,相似偏見端側模型導致云側有偏匯聚數據分布異質性導致的“局部觀察到的趨勢在全局數據中消失或反轉”的辛普森悖論,使得云側匯聚模型無法準確反映整體數據分布,給端向云去偏匯聚帶來了巨大挑戰l 虛假相關:端側數據局部且有限,存在虛假的因子-標簽關聯,忽視真實因果關系l 因子耦合:因子之間存在復雜的相互依賴關系,難以有效解耦出獨立的因果關系分布分布異質 因子因子混雜Jiang Z,Xu J,Zhang S,et al.FedCFA:Alleviating Simpsons Paradox in Model Aggregation with
28、 Counterfactual Federated Learning.AAAI 2025White catBlack dog外觀 顏色因子混雜標簽利用端側反事實表征學習實現端向云去偏匯聚 反事實表征學習:利用全局平均數據信息在端側生成反事實樣本,實現端側模型去偏訓練因子去相關模塊:基于相關性分析設計因子去相關模塊對因子解耦,提高反事實樣本的質量創新方法研究問題利用端側反事實表征學習解決云側模型聯邦匯聚中“辛普森悖論”難題。反事實表征學習因子去相關模塊緩解辛普森悖論因子解耦Encoder反事實樣本生成相關性分析因子去相關損失因子提取參數更新利用端側反事實表征學習實現端向云去偏匯聚Jiang Z,
29、Xu J,Zhang S,et al.FedCFA:Alleviating Simpsons Paradox in Model Aggregation with Counterfactual Federated Learning.AAAI 2025實驗驗證當前端云協同存在的問題數據高度異質性云端分布差異大云側模型收斂慢端側反事實表征學習端-云模型協同反事實樣本生成因子去相關約束混雜因子解耦合突破了端云協同計算在分布偏移、數據異質場景中模型匯聚效率局限相比于主流聯邦學習的最佳方法,云側模型精度最高可提升7.75%云側模型去偏匯聚的同時收斂速度提升2倍利用端側反事實表征學習實現端向云去偏匯聚研究背
30、景l 端云分布異質:云側全局數據分布體現平臺整體共性與端側特化分布存在偏移l 端側分布遷移:端側用戶興趣意圖動態偏移,需要由云向端及時下發適配模型現有端側部署方案采用云側大規模預訓練,通過模型壓縮后傳輸至端側進行部署。然而多階段訓練、稠密信息傳輸給端側動態復雜環境下的高響應、低成本自適應帶來了巨大挑戰Device 1CloudDevice 2On-device resourceoccupied resourceavailable resourceuser countl 端側計算資源有限:大量長尾用戶移動設備算力有限,難以支撐本地訓練微調l 端云通信資源有限:頻繁下發稠密適配模型消耗大量通信帶寬
31、資源,降低響應分布分布異質性 資源資源異質性Fu K,Zhang S,Lv Z,et al.DIET:Customized Slimming for Incompatible Networks in Sequential Recommendation.KDD 2024 Research Track基于端云協同的高效端模型參數定制 高效模型表示構建:基于神經網絡彩票假說,將云向端訓練壓縮過程轉化為傳輸適配子網二進制掩膜高效適配子網搜索:云側學習建立實時數據到端側個性子網掩膜的映射,僅需前向推理即可高效響應創新方法研究問題研究基于端云協同的低通信開銷、高響應速度端模型定制算法。利用掩膜進行選擇(一
32、層參數多掩膜)彩票假說理論端云子網搜索模型效率提升BaseOurs低傳輸延遲低存儲成本低推理時延 方法優勢低時延低成本下得到相似的表現 凍結參數實時數據生成掩膜掩膜生成器數據特征數據特征二進制掩膜數據特征線性微調更新輸出參數掩膜Fu K,Zhang S,Lv Z,et al.DIET:Customized Slimming for Incompatible Networks in Sequential Recommendation.KDD 2024 Research Track基于端云協同的高效端模型參數定制應用驗證當前推薦系統存在的問題通信開銷大云端分布差異大端側興趣變化快設備計算資源有限
33、端側個性子網搜索共性-個性協同大-小模型協同瘦身子網模型壓縮端側實時興趣提取適配子網生成傳輸突破了端云協同計算在分布偏移、資源受限設備上訓練推理效率局限降低模型由云向端下發的傳輸開銷至原始大小的3%端側模型能力提升的同時推理速度提升5倍基于端云協同的高效端模型參數定制大小模型端云協同大小模型協同+端云高效協同賦能與應用人工智能=人工+“智”+“能”人機交互“智”:理解使用者短視頻APP、購物APP行為數據:觀看視頻、停留時長、互動(點贊、評論、分享)機器學習算法:根據歷史行為預測喜好不是真正的“理解”,而是數據驅動的預測興趣變化:AI能否快速適應?不能理解情感和臨時興趣變化如何提高靈活性和適應
34、性?推薦系統推薦系統推薦系統信息量巨大:社交媒體、新聞、視頻、廣告推薦系統幫助“過濾”信息,找到有用內容實時推薦的工作原理分析用戶行為:點擊、停留、互動基于行為預測用戶興趣,快速推薦相關內容“探索”和“發現”推薦系統幫助你發現未知的內容根據歷史行為預測可能的興趣點為什么需要移動端智能推薦?數據采集云端大模型在線推理結果分發響應決策大模型離線訓練數據上云端側內容生成通過部署輕量化小模型至端側,發揮出終端設備靠近用戶和數據源靠近用戶和數據源天然優勢,降低智能服務延時至毫秒級毫秒級,實現本地私有化私有化響應決策。端國產小模型實時推理數據采集響應決策大模型輕量壓縮業務響應延時高秒 分鐘級開放服務風險高
35、數據網絡傳輸為什么需要移動端智能推薦?l動態變化的端環境導致資源有限情況下云模型的延遲響應,導致端側服務與端側環境的不匹配,損害用戶的服務體驗Xufeng Qian,Yue Xu,Fuyu Lv,Shengyu Zhang*,Ziwen Jiang,Qingwen Liu,Xiaoyi Zeng,Tat-Seng Chua,Fei Wu.Intelligent Request Strategy Design in Recommender System,KDD 2022用戶點擊率在云模型響應后陡升手機淘寶商品推薦系統端云大-小模型協同推斷算法 端設備部署小模型實時檢測端環境變化(用戶興趣意圖變化
36、)通過因果潛在結果模型預估請求大模型響應價值 動態規劃對云側大模型的請求,最大化資源有限時的線上收益。Xufeng Qian,Yue Xu,Fuyu Lv,Shengyu Zhang*,Ziwen Jiang,Qingwen Liu,Xiaoyi Zeng,Tat-Seng Chua,Fei Wu.Intelligent Request Strategy Design in Recommender System,KDD 2022端云大-小模型協同推斷算法直接經濟效益(購買率)平臺經濟效益(商品交易總值)當前推薦系統存在的問題通信開銷大隱私破壞風險隱時反饋噪聲多無法實時感知用戶因果因果+端云協同
37、端云協同共性-個性協同大-小模型協同隱私-效率協同因果結構學習機制因果潛在結構框架不確定性預估方法Xufeng Qian,Yue Xu,Fuyu Lv,Shengyu Zhang*,Ziwen Jiang,Qingwen Liu,Xiaoyi Zeng,Tat-Seng Chua,Fei Wu.Intelligent Request Strategy Design in Recommender System,KDD 2022端云大-小模型協同推斷算法 協同訓練:將云上大模型和端上小模型針對各自任務場景做針對性協作訓練,提升場景適應性協同推理:將云上大模型和端上小模型的輸出結果融合,集成強泛化能
38、力和強實時性的優勢智能請求:對云上大模型和端上小模型的輸出結果做不一致性檢測,不一致性高的樣本重新調用大模型創新方法研究問題研究基于端云協同的低通信開銷、高響應速度端模型定制算法。協同訓練協同推理與請求模型效率提升大幅補償LLM無法獲取實時數據下的推薦性能大小協同訓練,使小模型能針對大模型的候選列表有更強的排序能力大小協同推理與請求,融合大小模型推理結果并決策何時調用云上大模型研究成效相比于先前方法顯著提升,并在多個數據集上優于基線的結果,已被 KDD 2025 研究軌道錄用云上大語言模型和端上小推薦模型的端云協同推薦云上大語言模型和端上小推薦模型的端云協同推薦人機交互“能”:像人一樣行動語音
39、助手https:/ 技術路線https:/ Virtual Agents:A Survey on Autonomous Agents Across Digital Platforms規劃:第一天、第二天。決策:使用訂票軟件行動1:打開訂票APP、點擊、輸入、查詢。行動2:打開住宿APP、點擊、輸入、查詢。端智能體l OS Agents 是一種基于(多模態)大語言模型(M)LLMs)的智能代理,通過操作操作系統(OS)提供的環境和界面(如圖形用戶界面 GUI),利用計算設備(如電腦和手機)來自動執行任務。l 基礎模型:總結LLM/MLLM based OS Agents的模型結構與訓練方法(Pr
40、etrain、SFT、RL)。l 智能體框架:細分為感知、規劃、記憶和行動。l 評估與基準:詳細分析現有的評估協議、評估準則、評估指標;總結現存基準涉及平臺、環境以及任務。l 安全:從攻擊層面、防御層面和評估基準展開歸納?;诙嗄B大模型的操作系統智能體綜述https:/ InfiGUIAgent 3BModel&Datasets:https:/ MLLM 的圖形用戶界面(GUI)智能體在復雜任務中缺乏多步推理能力 解決方案Native Reasoning:為智能體軌跡數據構建多步驟、層次化推理過程用于模型訓練,讓智能體能夠自然地進行推理Reflection:智能體每次行動前,對先前的行動進行
41、反思,判斷期望是否達成并進行調整,以提升多步決策的一致性每一步能夠自發進行反思和層次化推理,并對采取的行動提出期望每一步反思過程回扣之前步驟提出的行動期望,增強智能體推理的一致性AEIA-MN:針對OS Agent感知層面的環境注入攻擊研究Generated Frame提示注入環境注入對抗樣本研究問題OS Agent在感知層面易受環境注入攻擊的影響,從而干擾PRM信號的生成過程。研究思路從不同類型的對抗攻擊角度出發(提示注入、對抗樣本),研究 OS Agent 在感知層面所面臨的環境注入攻擊。對 OS Agent 的使用場景分類,識別與設備特征相關的攻擊方式,進而針對性地影響 Agent 的決
42、策過程。Yurun Chen,Xueyu Hu,Keting Yin,Juncheng Li,Shengyu Zhang:AEIA-MN:Evaluating the Robustness of Multimodal LLM-Powered Mobile Agents Against Active Environmental Injection Attacks.CoRR abs/2502.13053(2025)mobile端環境注入.,the last email also sned to AgentUserWrite an email to.Execute hijacking instruc
43、tionweb端環境注入UserAgentEmbedding invisible forms in web pagesUse my Credit Card to buy.Execute instructionObtain Credit Card INFOUserAgentFind a paper named.Receive Instruction and read the screenEmbedding Adversarial text or image in appsstop action;output finshTask failedOS Agent提示注入I stole the emai
44、lAttackerI got the emailUser2AgentOS devicesOS devicesAdd noise to the image,causing the LLM to interpret it as a picture containing a humanFind a image with human.Receive Instruction and read the screenOS Agent對抗樣本UserThis is not the imageI wanted基于自反思訓練和推理的輕量級大模型能力涌現研究問題通過預算友好型數據合成增強多模態大模型級聯自評估能力
45、解決方案采用較小的MLLM使用思維鏈推理和自我評估合成自我評估數據集采用自評估訓練增強方法,生成多輪自評估訓練對話,保持思維鏈推理能力的同時增強多輪自評估能力LLaVAv1.5(7B)、Qwen2-VL(2B)在自我反思增強訓練與推理后,性能提升20%Zheqi Lv,Wenkai Wang,Jiawei Wang,Shengyu Zhang,Fei Wu:Cascaded Self-Evaluation Augmented Training for Efficient Multimodal Large Language Models.CoRR abs/2501.05662(2025)自我評估
46、自我評估增強訓練技術路線Generated Frame技術路線Raw query:Question:Chase wants to buy 4 kilograms of oval beads and 5 kilograms of star-shaped beads.How much will he spend?(Unit:$)nHint:Please answer the question requiring an integer answer and provide the final value,e.g.,1,2,3,at the end.nSolution:Rawanswer:The an
47、swer is 18.Base:Inference:4 kilograms of oval beads cost$2/kilogram,so Chase will spend$4*$2=$8 on oval beads.n5 kilograms of star-shaped beads cost$3/kilogram,so Chase will spend$5*$3=$15 on star-shaped beads.nIn total,Chase will spend$8+$15=$23 on beadsEvaluation:There were no mistakes in the prev
48、ious reasoning process.The final answer is$23 CoT:Inference:To find out how much Chase will spend,we need to calculate the cost of the oval beads and the star-shaped beads separately and then add them together.nnThe cost of the oval beads is 4 kilograms x$2/kilogram=$8.nnThe cost of the star-shaped
49、beads is 5 kilograms x$3/kilogram=$15.nnTo find the total cost,we add the cost of the oval beads and the star-shaped beads together:$8+$15=$23.nnTherefore,Chase will spend$23 on the beads.nnEvaluation:In the previous reasoning process,we calculated the cost of the oval beads and the star-shaped bead
50、s separately and then added them together.We found that Chase will spend$23 on the beads.nnThere were no mistakes in the previous reasoning process.nnThe answer is$23SEAT:Inference:1.Self-Evaluation:nn*The image shows a table with different types of beads,including oval and star-shaped beads.n*The t
51、able has a price for each type of bead.n*The task is to calculate the total cost of buying 4 kilograms of oval beads and 5 kilograms of star-shaped beads.nn2.Final Result:nnThe answer is$2+$3=$5Evaluation:1.Self-Evaluation:nn*The image shows a table with different types of beads,including oval and s
52、tar-shaped beads.n*The table has a price for each type of bead.n*The task is to calculate the total cost of buying 4 kilograms of oval beads and 5 kilograms of star-shaped beads.nn2.Final Result:nnThe answer is$2+$3=$5Finetune:Inference:Evaluation:The answer is No mistakes,the answer is 12 Cas-SEAT:
53、Inference:To find out how much Chase will spend,we need to calculate the cost of the oval beads and the star-shaped beads separately and then add them together.nn1.Cost of oval beads:n -Quantity:4 kilogramsn -Price per kilogram:$2/kilogramn -Cost:4 kilograms*$2/kilogram=$8nn2.Cost of star-shaped bea
54、ds:n -Quantity:5 kilogramsn -Price per kilogram:$3/kilogramn -Cost:5 kilograms*$3/kilogram=$15nn3.Add the costs together:n -Total cost:$8+$15=$23Evaluation:Reflection:nnIn the previous reasoning process,there were some mistakes.The initial step was to calculate the cost of the oval beads and the sta
55、r-shaped beads separately.However,the calculation for the star-shaped beads was incorrect.The price per kilogram for star-shaped beads was$3/kilogram instead of$2/kilogram.This led to an incorrect calculation of the cost.nnTo correct this,we need to recalculate the cost of the star-shaped beads usin
56、g the correct price per kilogram.The correct price per kilogram for star-shaped beads is$2/kilogram.nnThe correct calculation for the cost of the star-shaped beads is as follows:nn-Quantity:5 kilogramsn-Price per kilogram:$2/kilogramn-Cost:5 kilograms*$2/kilogram=$10nnNow,we need to add the costs to
57、gether:nn-Total cost:$8+$10=$18nnThe answer is$23Therefore,the correct answer is$18.nnThe answer is$18The answer is 12Raw Image評估效果實驗結果保留原有思維鏈推理能力,大幅提升自評估能力在各類數學問題上都有非常顯著的提升,尤其擅長更難的數值計算問題大小模型端云協同 總結推薦系統多模態終端智能體人工智能=人工+“智”“智”+“能”“能”人工智能=“人人”+“工”“工”+“智”+“能”科學(Science)雜志In-situ bidirectional human-robotvalue alignment人與機(大模型)