《LLM的新技術與新實踐-王元.pdf》由會員分享,可在線閱讀,更多相關《LLM的新技術與新實踐-王元.pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、Agent新技術新實踐王元 CEngLLM出圈了ChatGPT技術內核:生成式AI本次分享,AI Agent時代下的新方法和新實踐聊技術前,先捋捋場景私域問答機器人無代碼數據分析與報表文檔智能/企業內網搜索UI-交互式;后臺-多輪UI-交互式;后臺-多輪UI-線性執行;后臺-單/多輪新的技術棧私域數據角色框架多模態語義緩存測試問題私域數據問題:如何接入私域數據?私域數據常常大于LLM原生的context length全量放入context可能不是最優方式步驟:私域數據的分割,存入向量數據庫;向量數據庫召回,召回結果作為LLM的context;私域數據-分割考量:分割顆粒度召回準確率和速度維護成
2、本數據接入M個文件N個embeddings分割策略:分隔符 均勻分割 樹結構私域數據-召回考量:滿足上下文長度信息不丟失語義流暢召回querycontext+queryLLMN個embeddings1個context召回策略:順序拼接 重排序拼接 摘要 混合私域數據-召回檢索排序生成Model私域數據-評估傳統檢索指標:MRRNDCG等端到端:答案與標準答案的相似度LLM-無需標注(RAGAS):上下文與問題的相關性上下文與問題的相關性答案與上下文的相關性答案與問題的相關性私域數據-經驗召回方法,分割大小,top-K是影響性能的主要超參向量空間的語義搜索,有時會有不靠譜的情況結合傳統文字BM2
3、5搜索會帶來一些幫助召回數據排序,decoder-only比encoder-decoder更敏感把query同時放在召回數據前和后,有助于LLM回答召回可以有更多的考量維度,不僅限于語義相似度角色框架給LLM加上方法論:了解背景任務拆分,逐個擊破自省行動(感知和改變環境)基礎模塊:角色設定規劃模塊內存模塊動作模塊角色框架-優勢Agent機制的好處:提升LLM處理復雜任務的能力,擴大了應用范圍將LLM從無狀態變為有狀態;緩解context length有限的外部框架;賦予LLM自主調用外部工具的能力;使LLM獲得拆解任務的思維,將復雜問題分拆逐個解決;簡化手寫FSM;多個agent相互合作成為可
4、能,即群體智慧(multi-agent)角色框架角色框架角色框架-規劃開環系統:i步的執行結果不影響不影響i+1步的規劃 LLMprompt+querystep 1answerstep nLLMprompt+querystep 1answerstep nstep 1step nCOTCOT-SCReWOOLLMprompt+querystep 1answerstep nLLMLLM角色框架-規劃閉環系統:i步的執行影響影響i+1步的規劃多輪調用LLM使用外部工具(tools)內存使用LLMInit prompt+queryanswerToolsMemoryEnvironment角色框架-規劃一
5、些代表性的閉環系統:Self-Ask:COT+follow-up Q+toolsReAct:局部plan 執行 觀察Plan-n-Solve:全局plan+ReActReflextion:群體智能雛形(3個LLM)角色框架-內存內存種類:短期記憶(上下文),長期記憶(向量數據庫)內存形式:向量,字符串(text/json/list),數據庫內存召回指標:相關性,時效性,重要性內存寫入:append,去重,覆寫(overflow或者簡化)角色框架-行動函數類型:人類函數,LLM函數函數選擇:類似RAG檢索函數入參提?。簊tring-json函數返回值:string json/xml角色框架-性能
6、評估主觀評估:人類打分;圖靈測試;數據評估:端到端任務指標,KIE準確率,回答GT相似度;經典數據集:Alfworld,HotpotQA,FEVER,HumanEvalbenchmark:AgentBench,ToolBench等multi-task集合系統評估:報錯次數平均LLM calls迭代輪次(耗時)角色框架-經驗一些嘗試:ReActPlan-n-ExecuteSelf-Ask一些思考:Plan-n-Execute ReAct Self-Ask工具選擇有時會錯 工具list最好不要固定一個順序中間結果生成有時會錯 GPT4 turbo會改善現實情況:Agent和手寫FSM混合使用角色框
7、架-挑戰商業:Agent多次調用LLM,除了能力邊界提升,成本也提高了Tools的使用會帶來額外成本技術:系統魯棒性系統時延安全:Agent自主創建子目標并執行,可能會有潛在安全風險Agent機制會激發AI產生自我意識嗎?角色框架-推薦關鍵論文:COT(https:/arxiv.org/abs/2201.11903)ReAct(https:/arxiv.org/abs/2210.03629)Reflextion(https:/arxiv.org/abs/2303.11366)Agent綜述(https:/arxiv.org/abs/2308.11432)工程代碼:ReAct:https:/ t
8、ext序列化非常難以泛化,錯誤的排序直接影響LLM做QA或KIELLMOCRtextserializationquery多模態-baselineBaseline on steroids:模型越堆越多,系統越搞越復雜,泛化性依舊成問題LLMOCRtextserializationqueryLayout analysisTable Understanding多模態-方案1微調形式:高效微調挑戰:開源LLM/MLLM適用,閉源不適用(沒API)分類任務效果好,KIE效果不好預訓練的vision encoder多數分辨率低,且不是multi-scale微調不是端到端的,是2-stage微調LLMvis
9、ion encoderadapterquery多模態-方案1KIE任務,MLLM效果普遍差強人意期待更多開源高分辨率多模態原生大模型的出現!Source:https:/arxiv.org/abs/2305.07895多模態-方案2解決了text序列化問題開源和閉源LLM都適用對于LLM,是in-context learning,LLM本身不微調預訓練Seq2seq模型分辨率高,模型小,只需微調Seq2Seq模型缺點:GT標注較難獲取,有標注成本LLMTransformer seq2seqHTML orMarkdownquery語義緩存LLM服務很貴,以GPT4為例:GPT4接口調用成本很高,千
10、萬美元/年接口平均響應時間為3-6秒語義緩存技術可以有效緩解上述挑戰語義緩存KV CachequeryEvictionManagerkv cache hitanwserhit registerSimilarityEvaluatorkv cache misstop k similarsemantic cache hittop k answershit registercache missfails the threshold語義緩存注意事項:Hit ratio vs search accuracy高速實現attribute filtering,推薦支持hybrid search的向量數據庫緩存一致性并行化支持 eviction manager的進程安全持久化和故障恢復統一緩存設計Key定義表結構合理劃分Eviction manager交互接口推薦:GPTCache測試問題LLM應用讓測試變得更有挑戰測試數據On-topic similarityOff-topic rejectionModerationPrompt injectionHallucination模型打分人工收集gold responses模型自動打分 需要研發專門的打分模型,ORLLM as Evaluator 大模型prompting來打分