《大模型驅動的DeepInsight Copilot在螞蟻的技術實踐.pdf》由會員分享,可在線閱讀,更多相關《大模型驅動的DeepInsight Copilot在螞蟻的技術實踐.pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型驅動的DeepInsight Copilot在螞蟻的技術實踐螞蟻數據分析平臺哈天2025.04目錄1.DI Copilot產品概要介紹2.用戶需求驅動的DI Copilot技術演進3.DI Copilot高階智能化技術建設4.未來展望,AI給BI帶來的機會和挑戰CHAPTER01DI Copilot產品概產品概要介紹要介紹數據分析是數據生產-消費鏈路上釋放數據價值的最關鍵一步數據生產到消費數據生產到消費 流程流程 DataInformationInsightDecision Recommendation數據(通常意義的表)信息攜帶業務語義的匯總數據(主要的呈現方式是報表)洞見從數據中找到
2、不為人知的規律(主要的呈現方式是報表)決策建議運營可以直接選擇的運營策略(主要的呈現是一條條可執行策略)看清,看全,業務全貌領先于競對發現洞見更快的做出更精準的決策決策智能,系統產出決策建議將最優決策時間縮短到分鐘級數據資產高質量,合規,低成本,有序等數據分析數據分析核心流程抽象核心流程抽象 穩定性中樞(系統自監控、系統自診斷、預警、應急)數據分析DSL執行引擎增強分析引擎數據分析Model(Tabular Model,度量,計算列)數據分析DSL性能大腦(智能加速、智能預熱、智能物化、性能決策中心)自動化洞察(Easy Insight)數據故事生成(Story Telling)報告整合權限&
3、安全NLQNLG可視化圖/表產品能力產品能力 數據準備報表制作自助分析智能分析數據引入和加工分析模塊配置和管理規范數據集工作簿&報表可視化組件靈活取數多輪探索報表&探索智能分析14+種數據源數據加速規范校驗規范數據集市數據集應用數據血緣計算列協同配置篩選器報表全局配置度量/計算列/參數報表模板50+圖表組件(指標,表,比較,趨勢,分布等10大類)工作簿&報表 管理拖拽查詢度量在線分析對比分析多維下鉆四則運算排序/取top等多結果合并多結果對比多結果關聯單指標過濾分析模板自助分析產物管理波動歸因異動分析智能下鉆一鍵洞察智能問答維度推薦洞見推薦相關性分析特征/占比預測趨勢分析智能圖表推薦PC/移動
4、/大屏多端適配關鍵技術關鍵技術多表關聯智能Join度量/參數數據表輕加工行列級權限數據集管理數據集治理計算列/參數報表質量工具數據準備Copilot報表制作CopilotCopilot DeepInsigh是螞蟻深耕數據分析領域8年的BI產品報表閱讀Copilot知數據Copilot自助分析Copilot在數據分析領域,我們對Copilot、Agent的定義和實踐HumanCopilotPilot智能化程度對用戶的助力DI中產品模塊:如報表制作模塊、自助分析等等輔助用戶完成一系列任務:如制作報表、自助取數等等Copilot&Pilot&Agent概念定義Copilot是toB產品的某個模塊中,
5、輔助用戶更低門檻,更高效率,更高質量,更低成本的完成一系列任務的,具備一定泛化能力的智能體集合,該Copilot是產品模塊的子模塊。Copilot定義定義Pilot是toB產品的某個模塊中,替代用戶完成一系列任務的,具備一定泛化能力的智能體集合,該Pilot是產品模塊的子模塊。Pilot定義定義Copilot和Agent的關系:多對多的關系CopilotAgentnn多對多的組合關系:一種Copilot可以包含多種Agent,某種Agent又可以被多個Copilot所包含。兩者是多對多(n:n)的關系。數據分析類Agent是一種能夠感知用戶意圖、基于分析上下文,定義實現分析目標的動作序列,和執
6、行數據分析動作的智能實體。Agent定義定義智能化程度對用戶助力有3個層次高低小大圖表Agent分析Agent報表制作報表制作CopilotCopilot門控Agent度量Agent口徑Agent報表制作Copilot的實例演進方向Copilot與Agent的映射矩陣概覽,當前我們已建設了5個Copilot產品和8個AgentCopilot任務度量定義口徑查詢取數分析報表&圖表制作摘要解讀資產搜索產品幫助與教學Agent度量定義Agent口徑Agent取數Agent分析Agent圖表Agent摘要Agent搜索Agent答疑Agent用戶價值效率價值&效能價值降低門檻:DAL編寫門檻提升自助率
7、降低門檻簡化生產關系提升自助率降低門檻簡化生產關系提升自助率降低門檻簡化生產關系提升自助率降低門檻簡化生產關系提升自助率提升用戶的總結效率降低門檻提升自助率提升用戶的學習和成長效率降低產品使用門檻Copilot能力關鍵能力指標DAL采納率用戶提問中斷率口徑正確率用戶提問中斷率取數正確率用戶提問中斷率指令執行正確率用戶提問中斷率采納率用戶提問中斷率簡報采納率用戶提問中斷率采納率用戶提問中斷率采納率用戶提問中斷率Input自然語言自然語言自然語言自然語言自然語言自然語言自然語言自然語言Processer代碼生成文本生成意圖識別,知識查詢,代碼翻譯/指標檢索,數據查詢推理并執行多輪查詢,分析指令翻譯
8、,報表結構生成文本生成,對圖表、報表上數據進行歸納,生成摘要意圖識別,搜索報表、數據集,搜索結果重排輸出根據用戶提供的信息生成使用產品流程和分析教程OutputDAL代碼業務口徑的文本描述數據可能的洞見圖表和報表總結的解讀報表資產教學內容CopilotCopilot增強增強的產品模塊的產品模塊數據準備數據準備CopilotCopilot報表制作報表制作CopilotCopilot報表閱讀報表閱讀CopilotCopilot知數據知數據CopilotCopilot自助分析自助分析CopilotCopilotDI Copilot之報表制作Copilot的主要技術能力介紹報表制作報表制作Copilo
9、t-8大能力大能力 自然語言靈活圖表制作(依托于圖表Agent)自然語言靈活界面操作(依托于圖表Agent)自然語言定義度量(依托于度量Agent)自然語言生成帶看數思路規劃的報表(基于看數思路MCTS+LLM,依托于看數思路Agent)知識答疑(依托于答疑Agent)指標口徑查詢 引導式問題生成 多模式融合分析自然語言圖表制作&自然語言界面操作自然語言帶看數思路規劃的報表生成知識答疑DI Copilot之報表閱讀Copilot的主要技術能力介紹報表閱讀報表閱讀Copilot-8大能力大能力 報表分析解讀(依托于解讀+分析Agent)自然語言取數(依托于取數Agent)自然語言口徑問答(依托于
10、口徑Agent)引導問題生成 知識答疑(依托于答疑Agent)指標口徑查詢 分析思路規劃-基于知識圖譜+LLM 多模式融合分析報表分析解讀自然語言取數自然語言口徑問答DI Copilot之知數據Copilot的主要技術能力介紹知數據知數據Copilot-7大能力大能力 自然語言資產查找(依托于資產查找Agent)自然語言取數(依托于取數Agent)自然語言口徑問答(依托于口徑Agent)知識答疑(依托于答疑Agent)引導問題生成 分析思路規劃-基于知識圖譜+LLM 多模式融合分析自然語言資產查找自然語言取數知識答疑DI Copilot之自助分析Copilot的主要技術能力介紹自助分析自助分析
11、Copilot-8大能力大能力 自然語言靈活取數(依托于取數Agent)自然語言定義度量(依托于度量Agent)自然語言增強分析(異常發現,歸因,預測,依托于增強分析Agent)知識答疑(依托于答疑Agent)引導式問題生成 分析思路規劃-基于知識圖譜+LLM 分析結果解讀 指標口徑查詢自然語言取數自然語言定義度量自然語言增強分析(預測分析)CHAPTER02用戶需求驅動的用戶需求驅動的DI Copilot技術演進技術演進DI Copilot產品形態演進了3代:第1代問答,第2代對話,第3代“引導式”對話非常精準、但門檻非常高門檻中、采納率高FAQ模式(2023.52023.9)對話模式(20
12、23.102024.7)引導式對話模式(2024.8)不能識別用戶真正意圖不能識別用戶真正意圖用戶不知道如何提問用戶不知道如何提問產品形態更新產品形態更新門檻低、采納率高FAQ模式主要功能:只支持用戶單次輸入完整意圖取數(用戶提問門檻最高)對話模式主要功能:用戶每次輸入部分意圖,通過產品提升,用戶多次輸入,不斷完善意圖(用戶提問門檻中)引導式對話模式主要功能:基于知識、用戶歷史提問、增強分享算法、LLM等生成問題,給用戶選擇(用戶提問門檻最低)指令指令NLNL與配置與配置VLVL割裂割裂當前進入第4代多模式融合分析,自然語言和組件拖拽融合的形態右側指令區與左側右側指令區與左側配置區是配置區是聯
13、動聯動的的左側配置區與右側左側配置區與右側上下文是上下文是相通相通的的右側自然語言輸入和左側組件拖拽聯動,效率大幅提升的同時,對工具的熟練度也大幅提升右側自然語言輸入和左側組件拖拽聯動,效率大幅提升的同時,對工具的熟練度也大幅提升 以報表制作Copilot為例,自然語言和報表組件拖拽“融合”的圖表及報表制作與之對應的技術架構也發展了2代:第1代是任務型多輪對話系統1.NLU1.NLU(Nature Language UnderstandingNature Language Understanding)NLU的目標是理解用戶的自然語言,將用戶表述映射成結構化的語義,如意圖+實體。2.DM2.DM
14、(Dialog MangementDialog Mangement)對話管理主要的任務是對話狀態跟蹤和對話生成策略選擇,即根據NLU輸出的三元組,加以歷史對話信息和上下文語境分析,決定要采取的動作。給我來一杯拿鐵咖啡給我來一杯拿鐵咖啡意圖:買咖啡詞槽:【數量:1杯】【類型:拿鐵】任務型對話系統架構任務型對話系統架構關鍵技術模塊關鍵技術模塊3.NLG3.NLG(Nature Language GenerationNature Language Generation)將DM模塊輸出的抽象表達轉換為句法合法,語義準確的自然語言句子。From:任務型對話系統研究綜述論文第1代任務型多輪對話系統架構在D
15、I自助分析Copilot中的實現DI CopilotDI Copilot中的任務型多輪對話中的任務型多輪對話DI CopilotDI Copilot實現:基于經典的對話系統我們設計了實現:基于經典的對話系統我們設計了自助取數自助取數對話系統流程對話系統流程【昨天】替換了【最近30天】NLU識別完成后,交由DST做取數上下文信息合并,在DPO階段生成DAL,最后轉換為自然語言返回給用戶以自助分析取數鏈路為例1.該框架是工程化的思路下設計的對話系統,在大模型時代下已經落后,如NLU僅負責槽位提取,DST僅負責多輪上下文信息管理,大模型已經天然具備這些能力。2.框架能力上不支持單輪復雜多任務協同,未
16、來也不適用于復雜問題場景??蚣芸蚣懿蛔悴蛔愕?代技術架構標準Agent架構,以取數任務為例的執行流程MDA引擎增強分析引擎DAL引擎流&批引擎其他引擎報表制作Copilot自助分析Copilot生意參謀Copilot其他領域產品Copilot數據分析核心能力數據分析產品Copilots集合數據智能體模塊集合Data-AI Agents(此處有很多具體的智能體)感知&理解子系統(語言理解、對話管理等)知數據Copilot規劃子系統(如分析思路規劃)推理子系統(如代碼生成推理)工具子系統(調用數據產品功能)學習子系統知識子系統(業務語義的知識表達)35反思子系統記憶子系統百靈大模型Data Cop
17、ilot Studio(數據產品的感知,規劃,推理,學習,評估,記憶,知識等子系統)數據copilot各子系統框架,各子系統運行時環境(如模型適配器),copilot評測平臺大模型依賴數據智能化平臺Data Copilot Studio4報表閱讀Copilot螞蟻集團 AI Studio平臺6Qwen大模型DeepSeek等大模型12用戶提問:查看2024年1月1日到12月31日的利潤,其中利潤的計算公式為單價*數量-單位成為*數量技術實現視角看,AI應用主要有2種模式:提示詞與微調,按需選擇提示詞工程提示詞工程Prompt Engineering有監督微調有監督微調Supervised Fi
18、ne-tuning定義定義通過設計高質量的提示詞高質量的提示詞來引導模型生成期望的輸出,無需修改模型本身的參數在預訓練模型的基礎上,使用特定任務的標注數據進行有監督的微調標注數據進行有監督的微調,以優化模型在該任務上的表現優勢優勢低成本低成本:僅需要設計提示詞靈活性靈活性:可以快速實現任務需求適用性好適用性好:適用于任何預訓練模型性能高性能高:在特定任務上可以嚴格按照預期輸出,達到更好的表現垂直領域理解好垂直領域理解好:能夠解決模型在某些領域內知識不足的情況劣勢劣勢依賴提示詞質量依賴提示詞質量:提示詞質量直接決定任務效果,需要多次測試和調整提示詞依賴模型能力依賴模型能力:強依賴基礎模型本身能力
19、,模型能力增強能執行的任務就多穩定性較差穩定性較差:在迭代過程中調整提示詞,可能導致以往的任務執行性能下降成本高成本高:需要計算資源和推理資源,以及大量的數據合成、標注工作,技術成本高過擬合風險過擬合風險:如果數據量不足或豐富度較低,可能帶來模型過擬合,泛化能力下降靈活度低靈活度低:新任務需要構建新的語料,迭代靈活度低DI DI 落地落地分析思路任務分析思路任務:Prompt+符號推理看數思路任務看數思路任務:Prompt+思路約束業務簡報報告生成任務:業務簡報報告生成任務:Prompt+數據 NLUNLU模型模型:意圖理解和實體識別Text2ChartText2Chart模型模型:生成工作簿
20、的圖表DSLText2DALText2DAL模型模型:生成分析語言DALText2AnalysisText2Analysis模型模型:生成增強分析算子DSL接下來,以DI Copilot中NLU模型、Text2Chart模型為例看具體的設計、實現和演進。DI Copilot關鍵能力之一:門控Agent,核心是自然語言理解NLUDI中門控Agent主要作用:基于數據上下文,理解用戶意圖、規劃Agent執行路徑、協同Agent輸出最終輸出。數據集信息數據集信息交易表的字段交易表的字段 訂單日期 城市 交易金額 交易數量庫存表的字段庫存表的字段 入庫日期 地區 入庫數量感知感知 交易情況怎么樣交易情
21、況怎么樣 查看最近查看最近7 7天交易金額,最近天交易金額,最近7 7天交易數量,再分析一下交易金額趨勢天交易數量,再分析一下交易金額趨勢 理解用戶的意圖,對用戶意圖背后的需要使用的Agent進行推理,通過業務知識、用戶習慣,生成各個Agent執行任務內容。1.用戶指令輸入2.感知3.規劃4.協同關鍵流程規劃規劃 1.1.取數任務:近取數任務:近7 7天交易金額、交易數量天交易金額、交易數量 并發執行并發執行 2.2.分析任務:交易金額趨勢分析任務:交易金額趨勢 依賴取數任務依賴取數任務執行執行 依據任務類型和內容,生成各個任務間的執行順序、依賴關系。協同協同 1.1.執行取數執行取數 2.2
22、.獲取取數結果獲取取數結果 3.3.攜帶取數結果執行分析攜帶取數結果執行分析 4.4.獲取分析結果獲取分析結果 5.5.結果合并返回結果合并返回 依據規劃,發起Agent調用、獲取Agent結果,并對Agent結果進行協同與合并。隨著用戶需求和產品能力不斷增強,NLU系統也經歷了4次大迭代規則識別階段規則識別階段分詞器分詞器+依存語法依存語法+規則規則基于關鍵詞以及規則進行意圖識別,通過分詞器、依存語法做實體識別,實體識別和意圖識別相互依賴。單職責模型單職責模型取數實體識別模型取數實體識別模型+意圖識別模型意圖識別模型通過SFT模型識別,可以增加NLU的泛化能力,不需要窮舉規則可以完成取數領域
23、的NLU識別。通用通用NLUNLU模型模型“意圖意圖+實體實體”聯合提取通用模型聯合提取通用模型對各個領域通用的實體進行提取和識別,使得各個Agent都可以復用NLU的能力。2023年5月2024年1月2024年15月自然語言表達豐富,規則無法窮舉且容易沖突存在的問題存在的問題多智能體交互下無法拓展實體,通用型性差存在的問題存在的問題模型的輸出不如規則來的確信和穩定升級后的不足升級后的不足通用模型多任務模型較單職責模型準確率會下降升級后的不足升級后的不足大門控大門控+DeepSeek+DeepSeek大門控理解、分發、協同大門控理解、分發、協同實現多智能體協作,利用多Agent能力完成復雜、模
24、糊任務模型泛化能力增強帶來的準確性和穩定性降低升級后的不足升級后的不足2024年5月2025年2月模糊表達和口語化的識別準確性低,需要多個Agent協作完成指令存在的問題存在的問題2024年2月DI Copilot關鍵能力之二:可視化圖表生成,核心是Text2ChartDI Copilot圖表生成流程:用戶輸入自然語言指令,經過感知和理解、規劃、推理、動作,完成自然語言生成圖表。1.用戶指令:畫個主副指標卡,展示近7天單位成本、數量的情況2.感知和理解:感知用戶意圖為圖表生成,理解用戶自然語言提取通用實體。示例:用戶意圖:圖表生成實體結構:1.用戶指令輸入2.感知和理解3.規劃4.推理5.動作
25、3.規劃:如用戶報表生成意圖,則進行看數思路規劃,生成看數思路大綱、多輪分析步驟、及多步智能體執行的執行路徑和計劃4.推理:基于Text2Chart大模型,進行圖表DSL的代碼推理生成。產出示例:圖表DSL代碼:5.動作:調用圖表智能體的圖表生成工具,產出可渲染執行的圖表結構。示例:圖表渲染結構:最近七天分區字段單位成本度量數量度量圖表類型主副指標卡操作類型創建圖表圖表過濾器最近7天主指標單位成本副指標數量圖表類型主副指標卡&渲染結構操作類型創建圖表&渲染結構圖表過濾器-渲染結構數據集字段=時間分區T-1,T-7&渲染結構主指標數據集字段=單位成本&渲染結構副指標-渲染結構數據集字段=數量&渲
26、染結構一句話生成圖表一句話生成圖表圖表圖表Agent支撐了一句話生成圖表支撐了一句話生成圖表圖表生成Text2Chart模型的微調全流程和關鍵設計(領域DSLPattern生成+用戶日志+對抗樣本)N輪ACI訓練迭代(61511條語料,18種KA圖表,Top50界面指令)(反饋采集+標注能力)(中斷率30%-7.8%)(支持更多語言Pattern)領域領域DSLPattern生成生成 50%用戶日志(用戶日志(30%)對抗樣本(對抗樣本(20%)多源語料分類多源語料分類用戶日志(30%):真實場景自然語言表達領域Pattern生成(50%):覆蓋2017種提問形式對抗樣本(20%):模擬長尾有
27、歧義指令共61511條語料 模型訓練模型訓練 語料合成語料合成 定向微調定向微調 自動化評自動化評測測 用戶反饋用戶反饋采集采集多源語料采集(準確率爬坡)L1-l4評測難度分級顯示+隱式反饋用戶定向語料微調20份中斷率分析報告RLHF:基于用戶反饋的強化學習 中斷率分中斷率分析析用戶輸入問題Copilot系統處理返回結果用戶點贊/踩意圖識別實體識別會話跟蹤Text2Chart反饋標注&語料合成模型微調&上線過程信息采集通過構建顯示/隱式雙負反饋鏈路,對Text2Chart模型的進行持續性強化學習語料合成:多源語料分布Text2Chart的語料設計自然語言指令Chart DSL可視化指令:畫個折
28、線圖,X軸為最近7天,Y軸為銷售金額看數指令:展示銷售金額、銷售成本的匯總情況目前已支持指標卡、堆積柱形圖、百分比堆積柱形圖、餅圖、排行榜、散點圖18種KA圖表目前已支持修改圖表標題、新增/刪除/替換字段、入口等Top50種高頻界面操作指令Text2ChartText2Chart模型微調全流程模型微調全流程Text2Chart模型的負反饋自動化控制流程DI CopilotDI Copilot用戶用戶BI研發運營反饋信息反饋信息線上問題線上問題線上顯式答案線上顯式答案參照答案生成參照答案生成NLUNLU端到端端到端Llm as judgeLlm as judgeText2ChartText2Ch
29、art獎勵規則獎勵規則QAQA正確評價正確評價結果明細結果明細用戶問題正確率用戶問題正確率分析報告分析報告評測語料合成評測語料合成微調語料合成微調語料合成SFTSFT優化優化PROMPTPROMPT優化優化工程優化工程優化上線服務用戶上線服務用戶LLMLLM答案生成答案生成領域知識領域知識約束校驗約束校驗34反饋標準化采集反饋標準化采集反饋信息反饋信息反饋信息反饋信息線上隱式答案線上隱式答案指導產品設計指導產品設計反饋應用反饋應用關鍵環節關鍵環節參照答案參照答案批判規則批判規則1通過構建:反饋標準化采集、QA采集、答案生成、llm as judge和獎勵模型,實現端到端的Copilot的能力提
30、升意圖識別意圖識別指令分類指令分類 DSLDSL生成生成答案評價答案評價難度分級難度分級錯誤標注錯誤標注2測評:通過定義圖表指令難度等級標準,結合測評工具衡量能力水位各項關鍵用戶視角可感知的指標當前的水位及業界對比各項關鍵用戶視角可感知的指標當前的水位及業界對比界面操作指令界面操作指令-用戶視角關鍵指標用戶視角關鍵指標Deepinsight水位水位業界水位(未知)業界水位(未知)圖表生成-支持指令種類7大類39種圖表生成指令,我們實現了7/7類,22/39種,高頻Top20圖表類型覆蓋率80%(18/20)(業界暫無同類產品公開)界面操作-支持指令種類7大類149個指令,我們實現了其中6/7類
31、,50個/149個,高頻Top50界面指令覆蓋率84%(42/50)自然語言圖表生成-支持問法種類2031種自然語言形式化問法圖表生成和推薦-指令執行正確率整體正確率:整體正確率:94.71%L1指令執行正確率98.05%L2指令執行正確率96.08%L3指令執行正確率93.8%L4指令執行正確率87%難度級別定義示例:L1:(單圖表單任務指令)做個折線圖,X軸為訂單日期、Y軸為數量和單價L1:(單圖表單任務指令)主指標是數量、同時展示下平均單價,以主副指標卡展示L2:(多圖表單任務指令)對所有百分比堆疊柱狀圖改為柱狀圖。L2:(多圖表單任務指令)把指標卡切換為餅圖。L3:(單圖表多任務指令)
32、做個折線圖,X軸為訂單日期、Y軸為數量和單價。顯示組件標題L3:(單圖表多任務指令)展示交易日期近12月的北京市的折扣變化趨勢。修改圖表標題為折線圖L4:(多圖表多任務指令)對所有百分比堆疊柱狀圖修改為柱狀圖,新增訂單日期過濾器。L4:(多圖表多任務指令)把指標卡切換為餅圖,并且新增城市維度。依托依托DI Copilot構建了面向數據領構建了面向數據領域的自動化測評平臺域的自動化測評平臺DI Copilot關鍵能力之三:自然語言生成分析報告自然語言生成分析報告效果展示,一句話深度歸因并生成分析報告自然語言提問,系統基于多種算子深度歸因直至根因挖掘生成圖文融合分析報告CHAPTER03DI Co
33、pilot高階智高階智能化技術建設能化技術建設Copilot規?;褂眠^程中并不是一帆風順,也遇到了很多問題調研問卷:調研問卷:48.44%用戶不知道如何提問放棄使用用戶不知道如何提問放棄使用Copilot49.19%=調研問卷:調研問卷:49.19%用戶明確期望提供看數思路協助用戶明確期望提供看數思路協助制作報表制作報表用戶需求收集:多業務場景反饋需要支持自動生成分用戶需求收集:多業務場景反饋需要支持自動生成分析思路、分析指標變化原因。析思路、分析指標變化原因。問題1:用戶不知道如何提問問題2:用戶沒有看數思路問題3:用戶沒有分析思路希望提供看數思路協助制作報表的用戶數總的制作報表的調研用戶
34、數1.希望有完整的看數思路,包括核心指標、拆解維度及其關聯關系,用戶提及占比62.30%2.希望提供如何確定核心指標的分析關聯關系來滿足的制作訴求,用戶提及占比 19.67%3.需要提供明確核心指標及其拆解維度來滿足看數需求,用戶提及占比18.03%用戶問題總結:用戶問題總結:1.推薦的問題不是真正想要提問的問題2.上一輪做了智能取數,下一輪推薦的問題關聯的度量和維度跟上下文沒有關系3.推薦的批次問題,中間沒有分析思路,且問題關聯的字段不是高頻使用的度量和維度用戶問題總結:用戶問題總結:1.門檻高:(1)需要了解各種智能分析算法,執行結果的解讀需要專業的分析知識;(2)目前沒有高效的工具,要借
35、助手動 SQL、Python 配合工程側定制開發,引入其他的專業知識成本;2.效率低:極大程度依賴“專家經驗”,分析空間受限,需要不斷進行多次往復的探索分析,而每次分析涉及分析思路的調整及重新運行,耗時長;用戶問題總結:用戶問題總結:引導式問題推薦:針對用戶“不會提問”或“問不出好問題”,系統精細化引導用戶系統流程系統流程用戶提問用戶分級策略選擇問題生成候選問題庫問題推薦問題展示幫助用戶入門幫助用戶入門幫助用戶進階幫助用戶進階幫助用戶探索幫助用戶探索小白用戶(不知道如何提問)普通用戶(學習新問法)專家用戶(發掘有價值問題)查詢銷售金額是多少?生成并推薦難度等級低的問題,幫助初步學會使用Copi
36、lot。主要生成并推薦難度等級適中,使用戶跳出舒適圈不斷學習新問法。分析銷售金額在城市上的分布情況。舉例:用戶查詢指標銷售金額,但不曾分析銷售金額相關指標。主要生成并推薦對于用戶業務有價值的問題,幫助更高效分析。最近7天對銷售金額進行波動性分析。舉例:用戶提問:總銷售金額是多少。通過EI洞察到銷售金額的波動性有明顯上升趨勢用戶分類推薦問題場景舉例系統引導作用舉例:用戶經常查看銷售額數據集,沒有使用Copilot提問過。策略配比可調整用戶標簽識別看數思路生成:針對用戶“沒有看數思路”,系統智能給出分析思路并自動生成報表系統流程系統流程用戶提問分析思路選型分析大綱生成后置問題校驗圖表結構生成報表渲
37、染看數思路生成模塊圖表Agent思路分類通用總、分、下鉆分析指標總覽-數據解讀-北極星指標拆解用戶增長AARRR模型分析思路舉例場景舉例基礎分析思路行業分析思路經典分析思路最基礎的分析思路,能夠適配絕大部分的數據集場景,如分析商品類別和商品子類別的銷售額情況等場景貼合行業特征,能夠基于業務特征、領域特征、行業特征以及領域知和沉淀的優質的看數思路,進行思路的生成和規劃。使用場景諸如:小程序領域小程序領域-流量分流量分析、商家領域析、商家領域-交易人群狀態躍分析交易人群狀態躍分析等基于經典的分析思路來進行構建,如在用戶增長的場景中使用AARRRAARRR來構建分析思路,在市場分析場景中使用波士頓矩
38、陣波士頓矩陣來進行引入行業知識和經典思路圖譜分析思路規劃:基于LLM的自動數據探索簡化探索分析過程,自動產生分析報告用戶選擇推薦的分析問題輔助智能分析(過去)智能數據探索(當前)獲得智能分析結果(異常檢測)問題生成系統推薦分析問題問題生成系統推薦分析問題執行指令,生成分析結果執行指令,生成分析結果3大類12小類的算子能力,持續迭代用戶的數據集分析思路數據探索分析報告必須基于某個特定分析意圖產出的數據洞察需要依賴數據分析師根據經驗產出多個分析意圖并不斷探索存在的問題基于LLM自動執行數據分析任務,主動地從數據,結合分析思路,尋找有價值的洞察,為用戶提供更全面、精準的數據分析結果。新的解決方案業務
39、知識Insight引擎執行LLMLLM增強分析 AgentPerceptionSolverPlannerReasonerCHAPTER04未來展望,未來展望,AI給給BI帶來的機會和挑戰帶來的機會和挑戰趨勢:數據分析的發展趨勢,智能BI已經是業界共識傳統BI敏捷BI智能BI定義定義代表技術代表技術價值價值傳統BI專注于將歷史數據轉化為結構化的報表和儀表盤,支持企業的日常運營和決策。數據倉庫ETL工具報表工具1.標準化分析流程2.數據集中管理3.人工效率提升探索式BI強調數據分析的靈活性和互動性,允許數據分析人員自行探索數據、發現潛在的業務洞察。自助BI工具數據挖掘多維統計分析1.自助的分析2.
40、探索洞察增強3.實時數據分析智能BI結合人工智能AI、機器學習ML和自然語言處理NLP等先進技術,實現數據分析的自動化、智能化和個性化。人工智能大模型自然語言處理1.更低的分析門檻2.極致的分析效率3.更好的分析效果機會:AI技術給數據分析帶來門檻、效率、效果、能力4大方面的機會極低調用成本和強大推理能力,降低準入門檻增強的數據洞察與自動化報告生成,更懂數據少數大廠和大平臺才能做智能分析過去大模型快速實現垂直領域的數據分析現在人工看數據分析撰寫報告過去數據結果自動提煉生成解讀分析報告現在人機協同新范式,自然語言交互與對話式BI人工拖拉拽制作分析報表或探索分析過去對話式界面,獲取數據和分析報表現
41、在自動化工作流,從副駕駛到主駕駛數據分析工作流由人工串聯、核驗過去AI主導的自主式全自動工作流現在機會機會1 1機會機會2 2機會機會3 3機會機會4 41.1.自定義知識引入自定義知識引入2.2.定制業務分析思路定制業務分析思路挑戰:AI技術在數據分析規?;瘧弥忻媾R的4大挑戰,以及DI的解法如何將智能問答與傳統BI功能進行無縫集成,提升協同分析效率?如何讓大模型理解領域業務知識,回答更貼業務,而非泛泛而談?如何解決大模型的回答準確性與泛化問題,讓回答更可信?大模型輸入Token有限制和計算能力弱,如何進行海量的數據分析?問題描述問題描述DIDI的解法的解法1.取數精準,有別于聊天式知識問答
42、,數據分析對數據準確度要求是精準級2.分析準確,大模型有幻覺和泛化問題,同樣問題可能理解和輸出不一樣的答案。針對數據的解讀和分析報告要求準確。1.1.分析過程顯性化分析過程顯性化2.2.人工干預調整人工干預調整3.3.Reflection&RLHFReflection&RLHF1.數據分析關鍵是理解業務,大模型具備通用知識,領域知識只能靠推理,推理就會存在理解偏差。2.用戶問題往往偏口語化,不同場景問法不一樣。期待的答案也要貼場景。1.智能BI不是創造了新能力,更多是提升分析效率,降低門檻,離不開原本的傳統BI功能。2.智能問數和分析對大多數人仍有一定門檻,而習慣傳統BI工具使用,二者結合更具
43、想象力。1.大模型對輸入Token有限制,小數據量可以全部喂給模型,讓模型來分析,大數據量無法輸入。2.大模型本質上是預測下一個Token,是概率推導,而非精確計算,不能直接做復雜計算。1.1.自然語言與組件拖拽自然語言與組件拖拽的融合分析的融合分析1.1.模型提供分析思路,計模型提供分析思路,計算執行交給分析引擎算執行交給分析引擎挑戰挑戰我們持續在智能化3個層次上探索,DeepInsight系列產品讓人人都能成為分析師層次一基于自然語言的生成層次二基于AI和行業知識的推理&規劃(Hybrid AI Agent)層次三基于領域流程的多智能體協同(Multiple Hybrid AI Agent
44、)解決問題如:1.自然語言取數2.生成報表3.生成報告/解讀4.生成數據查詢代碼5.等等解決問題如:1.規劃數據分析思路2.規劃特定看數思路3.自動數據挖掘分析4.規劃用戶增長框架5.等等解決問題如:1.根據目標,由多智能體參與協作,生成完整的業務增長規劃,細分到可執行2.根據目標,由多智能體參與協作,生成完整的品牌提升規劃,細分到可執行3.等等自助分析Copilot報表制作Copilot報表閱讀Copilot知數據Copilot數據科學Copilot生意參謀Copilot增長分析Copilot未來未來1-3年預測:人人都是數據分析師年預測:人人都是數據分析師 人人都有數據分析師人人都有數據分析師 人人都有數據團隊人人都有數據團隊人人都有一個數據分析師人人都有一個數據研發專家人人都有一個營銷推廣專家人人都有一個虛擬團隊人人都有一個虛擬團隊人人都有一個數據科學家人人都是數據分析師人人都是數據研發專家人人都是營銷推廣助手人人都是數據科學家CopilotPilotVirtualTeam人人都有自己專屬的Team感謝聆聽THANKS