《楊晨-從原型到生產-AgentOps 加速字節 AI 應用落地實踐(0410).pdf》由會員分享,可在線閱讀,更多相關《楊晨-從原型到生產-AgentOps 加速字節 AI 應用落地實踐(0410).pdf(41頁珍藏版)》請在三個皮匠報告上搜索。
1、楊晨目錄大模型API價格以逐年1/10的趨勢下降開源與閉源模型的能力差距在逐步縮小越來越多能處理復雜任務的Agent出現由容器、微服務及聲明式API所構建的微服務應用架構由模型、AI Agent及Tool共同構筑的AI Native應用架構解決系統復雜性問題解決智能決策問題LLM 嵌入預定義代碼路徑LLM 主導控制流 基于大模型的應用開發迭代方式有何不同?如何高效開發?如何進行模型選型?怎樣寫出更有效的Prompt引導模型輸出?面對大模型的不確定性,如何高效評測AI應用以達到上生產要求?上線后如何監測效果是否符合預期?怎樣做到持續評測?自主驅動的Agent在生產環境中如何進行觀測、運維?怎樣快
2、速發現線上BadCase?怎樣監測線上模型token消耗、成本計費?效果不及預期,如何進行模型推理結果的優化提升?Prompt調優?RAG?還是Fine-Tuning?Prompt 調試Prompt 對比調試核心思路:-APE:Prompt 逆向工程,根據輸入和輸出讓模型生成/改寫Prompt并迭代式演進尋找更優解-APO:在文本空間實現梯度下降(gradient descent)的過程,用錯誤反饋來反向優化 Prompt核心思路:將用戶調試優化迭代Prompt的過程轉變為 初始Prompt+標注數據集+評估器的設計,最終通過自主迭代優化給出滿足對應評估器指標較好的優化后Prompt?;谟脩?/p>
3、反饋的Prompt自動優化基于BadCase集的Prompt自動優化評測貫穿AI應用的全生命周期指標分析:會話聚合:1.AI應用的需要做一定權衡2.LLM/Agent不是萬能的3.評測是關鍵,評測的效率&準確度決定了AI應用的迭代速度&質量LLM/Agent能力越來越強協議標準走向統一MCP(Model Context Protocol)Agent Protocol/Multi-Agent Protocol?AgentOps的機會:AI Agent爆發,對AgentOps類平臺工具訴求明顯增加Agent落地生產應用依賴便捷的效果評估復雜任務/純自主的Agent對模型Token消耗、執行鏈路黑盒性有更強的可觀測訴求協議標準趨向統一更便捷做平臺能力集成AgentOps的挑戰:行業千變萬化,尚未形成標準范式,需要時常做好認知迭代升級競爭格局激烈更好的參與到行業標準的制定大模型正在重新定義軟件Large Language Model Is Redefining The Software