《LLM 在 BI 場景的應用思路探索-陳慶.pdf》由會員分享,可在線閱讀,更多相關《LLM 在 BI 場景的應用思路探索-陳慶.pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、 BI 場景LLM 應用探索第四范式/陳 慶關于我-機器學習平臺(數據流、特征工程、MLOps)-推薦平臺(在線推薦引擎、策略編排)-大模型應用(Copilot 應用)目錄LLM+BI 探索之旅場景落地介紹LLM 應用開發思考BI 發展的歷程 依賴IT部門生成報告,數據處理復雜。主要是查看報告,互動少。自助式BI 業務用戶可以直接操作數據,無需IT介入,強調易用性。支持用戶自行創建報告和分析,提高了數據的可訪問性。AI+BI 集成人工智能和機器學習,自動化深入分析。更智能、更個性化的數據分析和見解獲取。傳統BI傳統行業 BI 使用現狀數據孤島“千人千表”,同一業務數據有多種版本,易出現錯漏,影
2、響準確性和可信度分析能力有限重查看,少分析,缺乏深入的數據分析和預測能力用戶參與度低不夠靈活易用,嚴重依賴 IT 或第三方,響應慢,成本高ChatGPT Code InterpreterLLM Text-to-SQLs 現狀 Spider 數據集執行準確率達到 91.2%BIRD-SQL 執行準確率 65.45%(人類 92.96%)有限場景下,基于 LLM 微調能實現 90%RESDSQLC3 SQLLLM Text-to-SQLs有限場景下,基于 LLM 微調能實現 90%+效果特斯拉-TeslaText-to-SQLs 落地難點業務可信LLM 擅長通識,缺少領域知識用戶看不懂 SQL,無
3、法判斷準確性底層數據不透明數據一致業務數據變化頻繁數據治理參差不齊治理成本高成本可控微調模型在 OOD 上泛化性不足記住容易,忘記難整體算力成本高Query:查詢銷量SQL:select sum(sales)from t真實的銷量:sum(case when status=1 then sales else 0 end)看 不 懂我們的解決思路數據一致業務數據變化頻繁數據治理參差不齊治理成本高統一數據標準統一數據口徑不治理/少治理語義化數據建模維度自動組合自動 join我們的解決思路業務可信LLM 擅長通識,缺少領域知識用戶看不懂 SQL,無法判斷準確性底層數據不透明注入業務知識,用戶可干預讓
4、目標用戶能看懂結果讓用戶快速上手業務術語和維度字典結構化表達查詢邏輯提供示例問題我們的解決思路成本可控微調模型在 OOD 上泛化性不足記住容易,忘記難整體算力成本高減少調用次數盡量不微調快速適配新場景數據緩存機制FewShot 微調快速評測基于語義模型的 Chat BI 流程設計DSL 翻譯成 SQL從大量 Data Model 中召回相關表和字段構建合適長度的 prompt生成 Data ModelQuery DSL基于數據庫定義語義數據模型NER/分詞,補充維度值提示糾錯字段不匹配值不對多輪對話管理設計要點介紹緩存高頻問答自動生成衍生指標自動生成 DataModel去年特斯拉的銷量小鵬去年的銷量蔚來上個月上險量品牌 時間 指標查詢 銷量 自動生成根據類型和字段名稱描述自動推測指標、維度、關聯 key同比、環比、占比類指標整體架構未來探索方向數據治理自動歸因分析端到端數據報告金融領域數據分級重復數據監測數據資產門戶指標波動根因分析基于機器學習的特征重要性分析打造數據分析 agent自動拆解+自動取數+自動分析產出端到端報告LLM 應用開發思路總結設計可信的業務流程盡早構建評測閉環應用和算法解耦設計幻覺不是 bug,是 feature生成用戶能判斷的內容提供快速干預手段90%的正確性 90%是假的從多維度構建數據集拆分子能力評估提供原子能力 API,便于組合產品和算法獨立迭代