《LLM時代下的指標平臺建設實踐終版.pdf》由會員分享,可在線閱讀,更多相關《LLM時代下的指標平臺建設實踐終版.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunCon#2024LLM時代下的指標平臺建設實踐劉豹-數勢科技-標品研發負責人數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技Contents目錄LLM拉開數據普惠序幕數據普惠實現路徑指標平臺相關創新點未來展望案例分享數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技01 LLM拉開數據普惠序幕數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技LLM Agent 在 ToB行業常見落地場景內容創作安全與風控企業級知識庫智能分析與決策廣告與銷售智能客服數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數
2、勢科技未來管理者/一線業務員直達數據,用數門檻降低,提升企業經營決策與日常業務流中數據參與度(普惠化)LLM Agent管理者/業務人員數據管理者/業務人員數據分析師數據工程師數據BI現在數據產品經理智能分析LLM Agent 與 數據普惠數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技02 數據普惠實現路徑數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技NL2SQLNL2APISemanticLayer智能分析LLM Agent常見方案對比數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技統一語義層是現代數據棧中的一個獨立
3、且可互操作的部分,它位于數據源與數據使用者之間。統一語義層使得所有的數據端點,無論是BI(商業智能)工具、嵌入式分析,還是AI Agent和聊天機器人,都能使用相同的語義和底層數據,從而得到一致且可信賴的洞察。統一語義層-提高準確率、降低成本數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數據湖數據應用數據倉庫集市層數據倉庫DW層指標呈現數據集存儲及加工原始數據表1原始數據表3原始數據表n數據應用表1事實維度寬表 V2.0數據應用表n維度表維度表事實明細表事實明細表原始數據表2維度寬表帶有維度的輕度匯總表數據應用表2數據應用表3帶有維度的輕度匯總表BI工具數據集1數據集
4、2支付人數22,000數據上傳維度數據大屏數據集3借款人數25,000數據同步借款人數22,000訪問人數100,000ODS-DWD-DWS-ADS,語義建在哪一層?數據產品經理、數據開發、終端數據使用者,誰來建數據語義?倉內語義-繁瑣復雜、業務指向性差數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技 準準確確率率低低 企業級(千/萬張表)數據查詢 準準確確率率約約6 60 0-7 70 0%即使是GPT也難有一個直接可用的準確效果 成成本本高高 預訓練大模型未掌握企業客戶數據與數據格式定義,當數據源過大時,大模型對表的結構學學習習成成本本高高(增量預訓練、長窗口、f
5、unctioncall等)性性能能差差 大模型寫出的SQL未經優化,可能導致長查詢的占比較多,性能不好甚至導致查詢服務異常,多表關聯的真實查詢 性性能能不不可可控控 數數據據安安全全風風險險 大模型直接對接數據查詢,缺少數據權限管控,隱隱私私與與安安全全性性風風險險較較高高,用戶可通過問詢獲取非用戶權限內的數據 能能力力單單一一 很多高級的分析問題依賴底層引擎能力,無法靠大模型生成SQL 數據查詢任務大語言模型生成SQL語句(TEXT2SQL)SQL服務企業數據中臺查詢結果輸出用戶標標準準 N NL L2 2s se em ma an nt ti ic c2 2S SQ QL L 方方案案意圖
6、理解&結構化生成生成的SQL做數據庫查詢對話式數據查詢數倉語義層倉內語義LLM Agent方案-NL2SQL數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技倉外語義-靈活便捷、貼近業務數據湖數據應用指標平臺數據倉庫DWD原始數據表1原始數據表3原始數據表n維維度度表表維維度度表表事實明細表事實明細表原始數據表2數據大屏BI工具借款人數原子指標渠道維度期限月至今統計周期昨日規范化加工原子指標、維度等積木式組裝派生和衍生指標昨日A渠道借款人數昨日A渠道貸款頁訪問人數昨日借款轉化率借款轉化率周環比指標API服務貸款頁瀏覽人數指標語義層:指標字段所需維度統計周期聚合方式約束條件
7、統計步長元數據信息LUI Agent數據建模右移,更貼近數據消費endpoint,更便于LLM Agent 規劃推理;基于虛擬層做數據編織,口徑管理更靈活、便捷。數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技 數據可信,準確率高 預設數據指標的定義與管理,避免業務理解對不齊 借助思維鏈分析與歧義反問,提升泛化性,避免直接從文本到SQL 學習成本低 無需對大模型做預訓練,僅需依據指標語義和知識庫做用戶意圖理解,增強prompt語義 全流程白盒,企業客戶用業務語言描述查詢過程,方便快速排查 性能提升且穩定 基于自研的數據查詢加速引擎,智能優化查詢語句 P95 可實現 從檢
8、索到回答的 秒級出數 數據安全可保障 利用指標分析平臺的權限管理能力,結合RBAC基礎,對數據與指標進行精細化的權限管控,實現數據查詢的安全可控 能力覆蓋更全 高級數據分析問題,可通過精準的指標進行關聯與展示,實現單項數據可查、報表可展示、總結報告可生成數據查詢任務大語言模型意圖理解指標查詢SQL服務查詢結果輸出用戶指標SQL轉換指標定義結合大模型+指標分析平臺,NL2semantic,提供更優方案指標轉換意圖理解&指標關聯用指標關聯的SQL做數據庫查詢對話式數據查詢企業數據中臺數據解讀右移-指標平臺+大實現數據價值的端到端倉外語義LLM Agent方案-NL2semantic2API數勢科技
9、數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢SwiftAgent-NL2semantic2MetricsAPI用戶query是否使用分析agent是否使用規劃器COTRAGReAct場景指標推薦相似指標推薦圖表推薦維度歸因因子歸因元數據查詢指標查詢圖表生成歸因分析行業模版解讀COT數據解讀指標釋義函數索引高級計算參數解析參數解析參數解析Feedback:Finish/FailResult否是是搜索增強/知識庫/模型輸出Reward歸納指標平臺工具調用1.統一語義層2.數據計算加速引擎3.多源異構數據鏈接4.用戶可干預5.持續反思學習,自主進化數勢科技數勢科技數勢科技數勢
10、科技數勢科技數勢科技數勢科技數勢科技數勢科技03 指標平臺相關創新點數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢指標平臺SwiftMetrics概述存儲和計算引擎StarRocks/Doris網關層數據預處理層服務層數據接入層指標生產數據準備指標構建指標定義配置邏輯指標管理SQL構建模型構建模型管理模型裁剪模型創建維度關聯庫表管理數據同步維度開發數據校驗元數據維度元數據數據表元數據模型元數據表profile指標元數據DQLsHiveMySQLOracleIceberg離線數據GPOB星環HANA應用服務數據服務Gateway 網關服務SSO單點登陸UMS用戶管理
11、元數據服務數據準備服務Data pushOpen APISQL構建服務Mdx cubeHME 性能加速數據緩存策略尋優結構優化器優化任務策略管理查詢優化joinprojectfilteraggreate位點處理預計算模型打寬resharping模型自動合并1.指標管理高效、便捷;2.指標查詢快速、靈活3.數據安全精細、可靠數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技指標管理高效、便捷-DataFabric 理念數據虛擬化:指標定義與數據解耦,靈活性 業務人員前臺定義指標更靈活,所見即所得的獲取結果,無需等待 旁路加速引擎,指標變動即時生效,不依賴底層物理存儲的變動
12、指標加工函數和二次計算的算子都可以被獨立封裝成產品功能,技術實現方案可以分步增加Physical Table數據虛擬化僅記錄指標配置規則元信息不存指標結果表Dim TableDim TableDim Table原原 子子 指指 標標 A A原原 子子 指指 標標 B B派派 生生 指指 標標 C C衍衍 生生 指指 標標 D D自自助助取取數數B BI I工工具具指指標標語語義義層層Physical TablePhysical Table原原 子子 指指 標標 E EQuery1Query2Query3Query4Query5dashborad1dashborad2dashborad3dash
13、borad4dashborad5指指標標應應用用層層模模型型構構建建層層數據虛擬化僅記錄模型關系元信息數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技指標查詢快速、靈活-OLAP 引擎選型引擎特性Doris/StarrocksClickHouseImpala+Kudu+HDFSKylin基礎功能列存支持支持支持支持支持動態分區支持不支持不支持不支持智能物化視圖支持很好一般一般不支持事務支持支持ACID100w以內支持原子性,DDL無事務保證暫不支持多行事務不支持Bitmap特性支持支持不支持不支持查詢能力標準SQL兼容標準SQL兼容性稍差兼容標準SQL兼容標準SQL數據
14、查詢JoinJoin方式最多Join方式少Join方式一般依賴預先定義聯邦查詢Hive/MySQL/ES/Hudi/IceBergHive/MySQL不支持不支持引擎性能查詢性能多表性能高,單表也不差單表性能高性能一般定義范圍內性能高向量化執行支持支持不支持不支持存儲副本粒度表級別集群級別表級別表級別集群能力元數據管理支持沒有,節點自己管理支持支持分布式能力強大較差存算分離存算分離、讀寫分離支持數據量級PB級PB級PB級PB級集群擴縮容非常靈活復雜且繁瑣靈活但繁瑣靈活但繁瑣場景支持應用場景圈群/實時&高并發查詢/實時更新普通分析場景實時更新場景多維分析數勢科技數勢科技數勢科技數勢科技數勢科技數
15、勢科技數勢科技數勢科技數勢科技HME策略尋優:評估ROI 計算代價評估:涉及數據量、計算復雜度、查詢數據范圍,評估集群資源消耗 收益評估,對于性能提升的效果 目標評估:配置平臺整體的優化目標,比如多大數據量的多少個指標組合查詢時要控制到多少秒內HME目標:計算鏈路優化 根據內置優化策略和底層的數據虛擬化,對指標的查詢路徑進行改寫優化,以此提升查詢性能。指標查詢快速、靈活-旁路加速引擎HME數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技HME優化策略介紹1、自動預打寬Join:根據模型定義將常用的維度與明細數據進行打寬關聯;2、自動重分區resharding:根據指標口
16、徑的業務時間對數據進行重分布,提升數據掃描效率;3、自動預聚合rollup:根據指標聚合粒度和聚合維度對明細數據進行多粒度/多維度的聚合;4、自動去重merge:根據指標業務含義,對一定范圍內的重復更新數據進行去重;5、自動緩存cache:對常用/熱度較高的指標計算結果進行緩存;6、多預計算選?。鹤詣舆x擇執行代價最小的預計算模型;7、支持復雜指標(衍生/派生)的查詢優化;8、ROI:預計算策略的調優;9、.數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技HME加速示例執行耗時:28878.4ms未經HME優化HME優化1:省略多表關聯HME優化2:加速分區裁剪HME優化
17、3:命中聚合結果執行耗時:359ms數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數據安全精細、可靠-指標平臺權限控制RBAC 權限模型,行列級精細化控制,安全可靠 數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技指標體系與指標平臺專著-數勢科技聯合信通院出品企業如何利用指標推動數字化轉型和實現數字化經營?本書詳細講解了指標體系的設計方法指標平臺的產品設計和技術架構指標在各行業落地應用的方法本書融合了數勢科技服務近百家企業的領先實踐經驗和行業領先的指標平臺產品技術功力,是行業內首本以“指標平臺”為中心的專業書籍7.18日晚將召開線上發布會,掃碼
18、添加小助手,回復“新書發布”參加活動數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技04 案例分享數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技案例分享(一)-某零售客戶基于數勢SwiftAgent,某頭部茶飲連鎖品牌近萬家門店店長實現基于數據的運營變革簡化決策,放大成效準確性用戶意圖識別率98%復雜任務規劃準確率95%強化學習具備強化學習正反饋與追問能力交互友好度用戶界面友好度9.5分方案覆蓋度分析解決方案覆蓋率90%用戶滿意度使用者滿意度9.3分+效率提升分析工作處理時長減少80%每人每周減少10小時+數據處理工作數勢科技數勢科技數勢科技數
19、勢科技數勢科技數勢科技數勢科技數勢科技數勢科技案例分享(二)-某銀行客戶1.降低人工成本:平均取數工單每天減少約50%;2.提高決策效率:平均取數周期由3天降為1分鐘;3.提高數據利用率:數倉已有數據資產表利用率提高20%。4.提升員工滿意度:系統滿意度9.5分,Top 3。數勢科技以SwiftAgent產品為核心,利用行業知識和數據分析模型,在理解策略目標基礎上,對某城商行經營矩陣實現了從數據到價值的快速轉化。數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技05 未來展望數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技未來展望-SA 企業數字智能體“所有應用產品都值得用大模型重構一遍”“請幫我找出近30天持倉金額大于100w、交易次數超過10次的所有男性客戶,逢年過節時給他們送上節日祝?!薄鞍衙總€月未達成目標的改進措施建議,發送給各店長”數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技企業數字化升級首選長期技術伙伴!THANKS掃碼添加小助手溝通掃碼關注數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技數勢科技