1、DataFunSummitDataFunSummit#20242024替代NL2SQL,Agent+業務語義的創新產品設計岑潤哲/數勢科技數據智能產品總經理引言:大模型技術對于數據分析領域能夠解決哪些痛點解決方案:智能分析產品常見設計思路以及優化路徑技術架構:Agent架構結合數據語義層(Semantic Layer)如何實現產品落地應用場景:某零售連鎖行業智能分析助手落地案例產品設計理念與挑戰:LUI+GUI融合的產品設計理念與挑戰未來展望:智能數據分析產品演進展望01引言:大模型技術對于數據分析領域能夠解決哪些痛點痛點以下是3個不同客戶發出的真實聲音示例,反映了管理團隊對現有數據駕駛艙大屏
2、產品的痛點體驗:Data Insight:我們公司花了很大精力建設了駕駛艙和各種大屏,看起來很高端,但數字并不等于見解。每次有具體問題,團隊還得回去挖數據、分析指標,周報變成了無盡的等待游戲。Speed is Everything:每當董事會要求針對數據作出快速反應時,我都希望能夠立刻拿到結論,這個數據大屏卻只能給我表面的數,深入分析還得是手工在數倉里建作業,太慢了。The Golden Why Question:我們的駕駛艙解決了數據展示的問題,但未觸及數據解釋的關鍵。當涉及到業務背后的為什么時,它似乎沒有答案。這些真實的客戶聲音例子反映了一個通用的訴求:管理團隊需要的不單是數據的可視化展示
3、,更是對數據的深入理解、快速獲取結論和基于數據深度挖掘的原因解釋,對數據分析工具的智能性和即時交互性有著更高的期待。信息過載管理團隊之痛:現有數據產品無法端到端快速產出深度結論業務人員之痛:BI產品學習門檻高,歸因解讀靠人工痛點以下是3個不同客戶發出的真實聲音示例,反映了業務團隊在指標獲取、數據分析與數據挖掘方面的核心痛點:SQL學習難度高:盡管我們有意愿深挖數據背后的真相,但SQL的復雜性讓我們非技術人員望而卻步。許多時間都浪費在了查詢語言的學習上,而不是洞察和行動。BI報表配置難度高:我們依賴BI工具來提供數據的可視化,但每次都需要技術團隊介入來配置數據集和報表,它的復雜程度令人沮喪。大量
4、時間花費在導出數據到Excel里輸出結論:分析團隊的日常就像Excel的奴隸,時?;ㄙM大把時間將數據導入、整理和分析,這種重復低效的工作限制了我們對數據快速反饋的能力。SQL學習難度高BI報表配置難度高導出到Excel手動看數成了日常工作數據分析師/工程師之痛:重復報表需求雜、指標口徑不統一、難以實時響應業務變化痛點以下是3個不同客戶發出的真實聲音示例,反映了數據團隊在指標定義、指標開發和指標管理方面的核心痛點:報表需求靈活多變,臨時表冗余:我們數據團隊大部分時間都花在了應對業務部門多變的報表需求上,每次業務流程一變,我們就得開發各種臨時表、中間表。這不僅效率低,還很容易造成錯誤,甚至有的表用
5、一次就廢了指標口徑不一致:雖然公司有眾多部門在使用數據,但每個團隊對同一指標的定義卻截然不同,沒有統一的數據口徑和解釋標準。這種不一致性給跨部門的溝通和決策帶來了混亂難以實時響應業務新增指標需求:每次業務人員新增一個指標開發需求,都希望我們能半小時內提供相應的指標?,F狀是,雖然我們已經在數倉加班加點開發了,但還是被業務團隊說反應慢,有苦說不出報表需求靈活多變指標口徑不一致難以實時響應業務新增指標需求01交易額A02交易額B03交易額C大模型的Agent架構結合指標語義層將加速數據民主化的進程未來管理者/一線業務員直達數據,用數門檻降低,提升企業經營決策與日常業務流中數據參與度(民主化)LLM+
6、Agent架構管理者/業務人員管理者/業務人員數據分析師數據工程師原始數據BI現在數據產品經理Semantic Layer共同維護原始數據用不明白跑不過來教不明白ETL任務太多02解決方案:智能分析產品常見設計思路以及優化路徑基于倉內指標語義的實現路徑-繁瑣復雜、業務指向性差數據湖數據應用數據倉庫集市層數據倉庫DW層指標呈現數據集存儲及加工原始數據表1原始數據表3原始數據表n數據應用表1數據應用表n維度表維度表事實明細表事實明細表原始數據表2維度寬表帶有維度的輕度匯總表數據應用表2數據應用表3帶有維度的輕度匯總表BI工具/智能分析助手數據集1數據集2支付人數22,000數據上傳維度數據大屏數據
7、集3借款人數25,000數據同步借款人數22,000訪問人數100,000ODS-DWD-DWS-ADS,語義建在哪一層?數據產品經理、數據開發、終端數據使用者,誰來建數據語義?倉內語義結合LLM方案-NL2SQL的瓶頸 準確率低 企業級(千/萬張表)數據查詢 準確率約60-70%即使是GPT也難有一個直接可用的準確效果 成本高 預訓練大模型未掌握企業客戶數據與數據格式定義,當數據源過大時,大模型對表的結構學習成本高(增量預訓練、長窗口、functioncall等)性能差 大模型寫出的SQL未經優化,可能導致長查詢的占比較多,性能不好甚至導致查詢服務異常,多表關聯的真實查詢 性能不可控 數據安
8、全風險 大模型直接對接數據查詢,缺少數據權限管控,隱私與安全性風險較高,用戶可通過問詢獲取非用戶權限內的數據 能力單一 很多高級的分析問題依賴底層引擎能力,無法靠大模型生成SQL 數據查詢任務大語言模型生成SQL語句(TEXT2SQL)SQL服務企業數據中臺查詢結果輸出用戶標準 NL2SQL 方案意圖理解&結構化生成生成的SQL做數據庫查詢對話式數據查詢數倉語義層倉外數據語義靈活便捷,更加貼近業務數據湖數據應用指標語義層(由指標平臺低代碼實現)數據倉庫DWD原始數據表1原始數據表3原始數據表n維度表維度表維度表維度表事實明細表事實明細表原始數據表2數據大屏BI工具借款人數原子指標渠道維度期限月
9、至今統計周期昨日規范化加工原子指標、維度等積木式組裝派生和衍生指標昨日A渠道借款人數昨日A渠道貸款頁訪問人數昨日借款轉化率借款轉化率周環比指標API服務貸款頁瀏覽人數指標語義層:指標字段所需維度統計周期聚合方式約束條件統計步長元數據信息Data Agent數據建模右移,更貼近數據消費endpoint,更便于LLM Agent 規劃推理;基于虛擬層做數據編織,口徑管理更靈活、便捷。倉外語義結合LLM Agent方案-NL2semantics2API 數據可信,準確率高 預設數據指標的定義與管理,避免業務理解對不齊 借助思維鏈分析與歧義反問,提升泛化性,避免直接從文本到SQL 學習成本低 無需對大
10、模型做預訓練,僅需依據指標語義和知識庫做用戶意圖理解,增強prompt語義 全流程白盒,企業客戶用業務語言描述查詢過程,方便快速排查 性能提升且穩定 基于自研的數據查詢加速引擎,智能優化查詢語句 P95 可實現 從檢索到回答的 秒級出數 數據安全可保障 利用指標分析平臺的權限管理能力,結合RBAC基礎,對數據與指標進行精細化的權限管控,實現數據查詢的安全可控 能力覆蓋更全 高級數據分析問題,可通過精準的指標進行關聯與展示,實現單項數據可查、報表可展示、總結報告可生成數據查詢任務大語言模型意圖理解指標查詢SQL服務查詢結果輸出用戶指標SQL轉換指標定義結合大模型+指標分析平臺,NL2semant
11、ics,提供更優方案指標轉換意圖理解&指標關聯用指標關聯的SQL做數據庫查詢對話式數據查詢企業數據中臺NL2Semantics 相比 NL2SQL在不同數據分析場景的實現度對比1最近7天A門店的訂單量是多少?2XXX商品今年累計賣了多少?3今年XX商品的交易金額與退貨金額分別是多少?4XX品牌最近3個月銷量最好的Top3商品是哪些?這三個分別的好評率是多少?幫我解讀下5華東區XX商品的下單金額周環比為什么下降了?任務難度系數難點枚舉值轉維度枚舉值轉維度指標語義模糊指標語義模糊跨表多指標查詢日維度上卷年維度多任務規劃指標取數結果排序衍生計算多維歸因報告解讀NL2SQLNL to Semantic
12、s可實現可實現可實現但不準可實現且準確難實現可實現且準確難實現可實現但不準可實現且準確可實現且易理解枚舉值轉維度同環比計算場景數據分析訴求時間維度產品維度數據指標數據維度任務指令地域維度公司維度03技術架構:Agent架構結合數據語義層(Semantic Layer)如何實現產品落地為什么復雜的數據分析場景需要Agent架構來支撐Expert Recruitment(專家雇傭)取數專家 可視化專家 歸因專家 預警專家 報告專家Goal(目標)看下近7天基金申購人數,哪個渠道跌得最多,做個總結GroupCollaborative Decision-Making(協同決策)取數專家歸因專家報告專家
13、Action Execution(動作執行)Agents:Actions:維度:渠道、風險偏好、基金類型、起購金額、日期等度量:申購人數維度歸因算法客戶常用的報告模版AEvaluation(結果評估)用戶想要的SwiftAgent輸出的=?Outcome(結果)有數據、有邏輯有業務Sense的分析報告Reward Feedback(正負反饋)N輪循環大模型Agent架構結合數據語義層的整體技術架構分享1.任務規劃能力將復雜任務化繁為簡,逐步拆解讓大模型自動執行。2.數據理解能力依托指標語義特性,讓大模型更懂數據。3.高效計算能力將計算任務通過自研計算引擎提交執行,極大優化了計算效率。用戶Que
14、ry是否適用分析Agent調用外部工具/知識庫/模型本身問答是否使用規劃器TOTCOT子目標分解ReActAPI對齊Feedback:1.Finish/fail2.Result3.Reward元數據查詢指標/標簽查詢圖表生成場景指標推薦相似指標推薦參數解析圖表推薦歸因分析維度歸因因子歸因數據解讀解讀知識庫數據分析API調用Text2CodeHM APIResult是是否否ActLLM規劃規劃指標行列權限校驗記憶短期記憶:會話上下文長期記憶:歷史分析思路工具調用基于大模型Agent架構的理解和思考能力,實現基于自然語言的數據分析,并針對獲取的結果數據進行智能解讀與歸因,提升經營分析效率感知04應
15、用場景:某零售連鎖行業智能分析助手落地案例零售案例分享:SwiftAgent賦能百名督導千家加盟商實現門店智能運營在原有的數據倉庫基礎上,構建一套完整的指標體系框架,并幫助其打造一套可供戰區負責人(管理團隊)和門店督導(一線業務人員)快速使用的低門檻智能數據分析助手,推進數字民主化進程總部視角總部視角萬元盈利率GMV凈利毛利 加盟商加盟商督導督導顧客顧客渠道GMV渠道毛利門店運營成本 QSC稽核紅燈綠燈新品銷售達成 大眾點評星級美團外賣星級餓了么外賣星級小程序差評率 抓價抓價格格抓品抓品質質抓服抓服務務抓體抓體驗驗發現問題形成改善策略落地執行衡量標準門店精細化分析場景門店精細化分析場景統一數據
16、資產(指標統一數據資產(指標+標簽體系)標簽體系)統一的分析工具統一的分析語言統一的分析思路智能數據資產(指標)平臺大模型分析助手管理層決策看板產品分析支撐產品上新、營銷、下架的管理決策;門店健康度分析賦能管理到執行的運營策略優化構建統一財務經營、門店運營、門店管理、商品分析場景的指標體系,讓分析能夠進行多維度下鉆打造基于統一數據的決策體系和策略診斷的支持工具指標體系設計框架財務經營域門店運營域產品&供應鏈&外賣門店管理域指標維度6029x指標/標簽維度6324x指標維度2227x指標維度2434x項目內容:以產品分析和門店運營為切入點,建設統一的分析思路、分析語言、分析工具項目內容:以產品分
17、析和門店運營為切入點,建設統一的分析思路、分析語言、分析工具基座大模型(智能)SwiftAgent(產品)企業多源異構數據(信息)數據計算加速引擎一站式接入多源異構數據SwiftAgent規劃器(用戶意圖識別、復雜任務拆解、工具調用等)大模型基座(百川/智譜/千問等)交互式數據查詢智能歸因與預警數據分析場景(應用)Prompt微調模型微調客群畫像分析智能報告生成Data LayerSemantic LayerApplication Layer業績指標分析財務經營分析客戶畫像分析產品損益分析門店稽核分析營銷效果分析會員運營分析客戶投訴分析一站式構建大模型能理解的業務語義(指標、標簽、群組、私域術
18、語、行業知識等)某客戶SwiftAgent產品實施架構面向門店督導人員的運營指標體系(統一語義層)門店運營域稽核類指標是否監控異常目視化合格率基礎服務合格率清潔衛生合格率產品品質合格率食品安全合格率紅線合格率稽核分數外賣點評合格率是否串貨是否紅燈執行類指標QSC線上稽核整改完成率QSC線下稽核整改完成率是否完成慧運營開店任務上傳是否完成慧運營值班任務上傳是否完成慧運營打烊任務上傳是否完成慧運營周月清任務上傳是否完成慧運營運營管理人員“門店工作日”任務上傳督導積分制督導平均積分培訓類指標是否完成上新產品動作一是否完成上新產品動作二是否完成上新產品動作三是否完成上新產品動作四是否完成上新產品動作五
19、是否完成產品周周訓是否完成督導周周訓是否完成商學院推送學習任務是否通過新督導學習是否通過店長訓學習是否通過累計“回爐”訓練獎懲類指標罰款金額獎勵金額獎勵事由管理類指標門店首單時間分級類指標門店分級客訴類指標客訴責任率運營類指標口碑類指標督導人數督導平均司齡督導平均管轄城市數督導平均管轄店數門店合格店長配置率店均店員數(店長+店員)完成店長訓人數本年累計督導離職人數本年累計店長離職人數店長打卡完成率分公司培訓人員在崗率分公司營銷人員在崗率NPS小程序差評率小程序店均差評數大眾點評星級點評好評數點評差評回復率點評差評率美團外賣星級美團好評數美團差評率美團差評回復率餓了么外賣星級餓了么差評率餓了么外
20、賣好評數餓了么差評率回復率門店管理域門店總覽拓新類指標地址轉讓總門店數總加盟商數加盟商帶店率應營業門店數營業門店數平均營業門店數新簽門店數新簽加盟商數新簽轉址轉讓門店數新簽轉址轉讓加盟商數新開門店數新開轉址轉讓門店數凈增長營業門店數籌建門店數凈增長門店數試營業門店數轉址門店數轉讓門店數解約&閉店已閉店門店數已閉店待解約門店數暫停營業門店數解約門店數商品商品點踩率商品點贊率流水占比杯量占比供應鏈平均采購價格供應鏈平均售價供應鏈理論毛利額供應鏈理論毛利率曝光UV進店UV下單UV進店轉化率下單轉化率曝光下單率曝光UV(商圈同行前10%均值)進店UV(商圈同行前10%均值)下單UV(商圈同行前10%均
21、值)進店轉化率(商圈同行前10%)下單轉化率(商圈同行前10%)曝光下單率(商圈同行前10%)廣告交易額提升訂單數推廣消耗投入產出比供應鏈外賣門店巡檢場景一二級場景與依賴的原子能力與功能現狀制定巡店的具體地址和其它信息。確定每次巡店的重點關注指標以及波動原因。2.巡店計劃明確巡檢的主要目的,如提升服務質量、確保標準執行、優化門店環境等。確定要達成的具體指標和當前達成率。1.目標設定對比巡檢前后各項指標的變化情況。通過數據分析評估門店在服務、產品、運營等方面的提升效果??偨Y經驗教訓,為下一次巡檢和持續改進提供參考。4.效果驗收檢查門店的問題指標(如基礎服務合格率、清潔衛生合格率、產品品質合格率、
22、外賣點評合格率等),若有問題,從知識庫中查找策略并推薦給加盟商3.門店稽核目標設定達成情況排名同店對照分析門店信息檢索門店KPI查詢門店KPI歸因問題指標檢索推薦策略查詢門店前后對比總結報告指標平臺能力SwiftAgent-數據分析技能SwiftAgent-知識問答技能目標設定取數與高級計算取數與高級計算門店知識庫查詢自然語言取數指標維度歸因智庫文檔查詢自然語言取數解讀報告能力取數與高級計算智能數據分析助手SwiftAgent在企業經營分析場景的產品演示智能分析助手(SwiftAgent)幫助門店督導與總部管理團隊分析提效核心成果智能分析提效量化成果用戶意圖識別率98%復雜任務規劃準確率95%
23、準確性具備強化學習正反饋與追問能力強化學習用戶界面友好度9.5分交互友好度分析解決方案覆蓋率90%方案覆蓋度使用者滿意度9.3分+用戶滿意度分析工作處理時長減少80%每人每周減少10小時+數據處理工作效率提升05產品設計理念與挑戰:LUI+GUI融合的產品設計理念與挑戰LLM加持下,產品設計需要結合LUI與GUI各自的優點,才能顯著提升數據分析體驗數據可視化數據可視化指標歸因指標歸因總結報告總結報告LUI+GUILUI+GUI結合的設計理念結合的設計理念Language User InterfaceGraphic User Interface常見挑戰1:當用戶提問模糊的時候,怎么提升交互體驗容
24、錯原則(容錯原則(Help users recognize,diagnose,and recover from errors Help users recognize,diagnose,and recover from errors)理想中的“讓用戶隨便說一句話,大模型產品馬上開始完全自動化執行”,往往是不太可能的,因為用戶天生就是“懶”的,而且語言本身也具有一定的模糊性,因此在產品設計環節里,可以增加反問模塊,讓大模型更好的理解用戶需求,一步一步把需求“精細化”,提升正確結果概率,增加使用者的信任感最近是多近?7天?30天?60天?什么渠道???線上渠道?線下渠道?三方渠道?按下單口徑的訂單量
25、還是按支付成功口徑算的訂單量?是按一個區間做同比分析還是按時點?解決思路:用戶可干預,讓LLM反問并協助澄清希望查詢哪個時間段的總資產情況?例如,是最近7天、最近1個月,還是今年年初至今的統計數據?您也可以自定義時間窗口情況情況1 1:維度表述不清楚:維度表述不清楚情況情況2 2:指標表述不清楚:指標表述不清楚常見挑戰2:如何讓用戶可以說企業內部的“黑話”貼近場景原則(貼近場景原則(Match between system and the real worldMatch between system and the real world)利用大模型原生的知識庫技術(ex.RAG),來更好地讓用
26、戶說他熟悉的用詞、短語和黑話,而不是強迫他說系統術語。用戶運營部門理解活動運營部門理解經營分析部門理解“數據表現數據表現”=”=新客首單人數、成新客首單人數、成熟用戶復購人數、流失召回人數熟用戶復購人數、流失召回人數“數據表現數據表現”=”=活動活動PV/UVPV/UV、完成、完成活動人數、活動帶來的活動人數、活動帶來的GMVGMV“數據表現數據表現”=”=門店營收、門店成門店營收、門店成本、門店利潤、各類損耗指標本、門店利潤、各類損耗指標大模型:你到底要哪個???常見挑戰2:如何讓用戶可以說企業內部的“黑話”后臺知識庫管理范圍如文檔性知識、QA對問答樣例、客服FAQ等通用文檔不同的業務角色在提出相似的問題時,分析場景和常用維度肯定是不一樣的,因此需要預置讓大模型理解。舉例:當用戶運營團隊分析“門店情況”時,更多看的是新客首單人數、成熟用戶復購人數、流失召回人數這類指標;而經營分析團隊提出相似問題的時候,更多看營收、成本和利潤類指標場景分析模版企業內部的專有名詞管理(如指標的在企業內的常見簡稱、縮寫,還有一些行業或者企業內部的黑話)R12M 指的是Rolling 12 Month年級指的是會員年限新客代表新增有效會員數企業內部