當前位置：首頁 > 報告詳情

LLM的新技術與新實踐-王元.pdf

上傳人：張** 編號：153213 2024-01-15 PDF PDF 34頁 2.34MB

該報告所屬合集： 2023QCon全球軟件開發者大會-上海站嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/34

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《LLM的新技術與新實踐-王元.pdf》由會員分享，可在線閱讀，更多相關《LLM的新技術與新實踐-王元.pdf（34頁珍藏版）》請在三個皮匠報告上搜索。

1、Agent新技術新實踐王元 CEngLLM出圈了ChatGPT技術內核：生成式AI本次分享，AI Agent時代下的新方法和新實踐聊技術前，先捋捋場景私域問答機器人無代碼數據分析與報表文檔智能/企業內網搜索UI-交互式；后臺-多輪UI-交互式；后臺-多輪UI-線性執行；后臺-單/多輪新的技術棧私域數據角色框架多模態語義緩存測試問題私域數據問題：如何接入私域數據？私域數據常常大于LLM原生的context length全量放入context可能不是最優方式步驟：私域數據的分割，存入向量數據庫；向量數據庫召回，召回結果作為LLM的context；私域數據-分割考量：分割顆粒度召回準確率和速度維護成

2、本數據接入M個文件N個embeddings分割策略：分隔符均勻分割樹結構私域數據-召回考量：滿足上下文長度信息不丟失語義流暢召回querycontext+queryLLMN個embeddings1個context召回策略：順序拼接重排序拼接摘要混合私域數據-召回檢索排序生成Model私域數據-評估傳統檢索指標：MRRNDCG等端到端：答案與標準答案的相似度LLM-無需標注（RAGAS）：上下文與問題的相關性上下文與問題的相關性答案與上下文的相關性答案與問題的相關性私域數據-經驗召回方法，分割大小，top-K是影響性能的主要超參向量空間的語義搜索，有時會有不靠譜的情況結合傳統文字BM2

3、5搜索會帶來一些幫助召回數據排序，decoder-only比encoder-decoder更敏感把query同時放在召回數據前和后，有助于LLM回答召回可以有更多的考量維度，不僅限于語義相似度角色框架給LLM加上方法論：了解背景任務拆分，逐個擊破自省行動（感知和改變環境）基礎模塊：角色設定規劃模塊內存模塊動作模塊角色框架-優勢Agent機制的好處：提升LLM處理復雜任務的能力，擴大了應用范圍將LLM從無狀態變為有狀態；緩解context length有限的外部框架；賦予LLM自主調用外部工具的能力；使LLM獲得拆解任務的思維，將復雜問題分拆逐個解決；簡化手寫FSM；多個agent相互合作成為可

4、能，即群體智慧（multi-agent）角色框架角色框架角色框架-規劃開環系統：i步的執行結果不影響不影響i+1步的規劃 LLMprompt+querystep 1answerstep nLLMprompt+querystep 1answerstep nstep 1step nCOTCOT-SCReWOOLLMprompt+querystep 1answerstep nLLMLLM角色框架-規劃閉環系統：i步的執行影響影響i+1步的規劃多輪調用LLM使用外部工具（tools）內存使用LLMInit prompt+queryanswerToolsMemoryEnvironment角色框架-規劃一

5、些代表性的閉環系統：Self-Ask：COT+follow-up Q+toolsReAct：局部plan 執行觀察Plan-n-Solve：全局plan+ReActReflextion：群體智能雛形(3個LLM)角色框架-內存內存種類：短期記憶（上下文），長期記憶（向量數據庫）內存形式：向量，字符串（text/json/list），數據庫內存召回指標：相關性，時效性，重要性內存寫入：append，去重，覆寫（overflow或者簡化）角色框架-行動函數類型：人類函數，LLM函數函數選擇:類似RAG檢索函數入參提?。簊tring-json函數返回值：string json/xml角色框架-性能

6、評估主觀評估：人類打分；圖靈測試；數據評估：端到端任務指標，KIE準確率，回答GT相似度；經典數據集：Alfworld，HotpotQA，FEVER，HumanEvalbenchmark：AgentBench，ToolBench等multi-task集合系統評估：報錯次數平均LLM calls迭代輪次（耗時）角色框架-經驗一些嘗試：ReActPlan-n-ExecuteSelf-Ask一些思考:Plan-n-Execute ReAct Self-Ask工具選擇有時會錯工具list最好不要固定一個順序中間結果生成有時會錯 GPT4 turbo會改善現實情況：Agent和手寫FSM混合使用角色框

7、架-挑戰商業：Agent多次調用LLM，除了能力邊界提升，成本也提高了Tools的使用會帶來額外成本技術：系統魯棒性系統時延安全：Agent自主創建子目標并執行，可能會有潛在安全風險Agent機制會激發AI產生自我意識嗎？角色框架-推薦關鍵論文：COT（https:/arxiv.org/abs/2201.11903）ReAct（https:/arxiv.org/abs/2210.03629）Reflextion（https:/arxiv.org/abs/2303.11366）Agent綜述（https:/arxiv.org/abs/2308.11432）工程代碼：ReAct：https:/ t

8、ext序列化非常難以泛化，錯誤的排序直接影響LLM做QA或KIELLMOCRtextserializationquery多模態-baselineBaseline on steroids:模型越堆越多，系統越搞越復雜，泛化性依舊成問題LLMOCRtextserializationqueryLayout analysisTable Understanding多模態-方案1微調形式：高效微調挑戰：開源LLM/MLLM適用，閉源不適用（沒API）分類任務效果好，KIE效果不好預訓練的vision encoder多數分辨率低，且不是multi-scale微調不是端到端的，是2-stage微調LLMvis

9、ion encoderadapterquery多模態-方案1KIE任務，MLLM效果普遍差強人意期待更多開源高分辨率多模態原生大模型的出現！Source:https:/arxiv.org/abs/2305.07895多模態-方案2解決了text序列化問題開源和閉源LLM都適用對于LLM，是in-context learning，LLM本身不微調預訓練Seq2seq模型分辨率高，模型小，只需微調Seq2Seq模型缺點：GT標注較難獲取，有標注成本LLMTransformer seq2seqHTML orMarkdownquery語義緩存LLM服務很貴，以GPT4為例：GPT4接口調用成本很高，千

10、萬美元/年接口平均響應時間為3-6秒語義緩存技術可以有效緩解上述挑戰語義緩存KV CachequeryEvictionManagerkv cache hitanwserhit registerSimilarityEvaluatorkv cache misstop k similarsemantic cache hittop k answershit registercache missfails the threshold語義緩存注意事項：Hit ratio vs search accuracy高速實現attribute filtering，推薦支持hybrid search的向量數據庫緩存一致性并行化支持 eviction manager的進程安全持久化和故障恢復統一緩存設計Key定義表結構合理劃分Eviction manager交互接口推薦：GPTCache測試問題LLM應用讓測試變得更有挑戰測試數據On-topic similarityOff-topic rejectionModerationPrompt injectionHallucination模型打分人工收集gold responses模型自動打分需要研發專門的打分模型，ORLLM as Evaluator 大模型prompting來打分

相關圖表

本文主要探討了AI Agent在新技術新實踐中的應用，重點關注私域數據處理、角色框架、多模態場景以及語義緩存等方面。在私域數據處理方面，提出了私域數據的分割、召回及作為LLM上下文的策略。角色框架方面，介紹了開環系統和閉環系統，以及規劃、內存、行動函數類型和性能評估等方面的內容。多模態場景下，探討了OCR、微調形式、Seq2Seq模型等解決方案。語義緩存技術用于緩解LLM服務的高成本和響應時間問題。本文還推薦了相關論文和工程代碼，并對Agent機制的挑戰進行了分析。

"AI Agent技術如何提升LLM處理復雜任務的能力？" "語義緩存技術如何緩解LLM服務的高成本和響應時間問題？" "多模態場景下，如何解決text序列化問題并提高LLM的QA或KIE性能？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站