《從數據整合到決策提效:B站數據知識庫與增強分析協同的端到端實踐.pdf》由會員分享,可在線閱讀,更多相關《從數據整合到決策提效:B站數據知識庫與增強分析協同的端到端實踐.pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、 從數據整合到決策提效:B站數據知識庫與增強分析協同的端到端實踐演講人:胡天偉從RAG原型到智能體協同決策的演進工程化實踐中的系統挑戰與突破創新全場景數據工作流重構:AI提效規?;涞叵乱淮鶤I與數據融合布局展望01從RAG原型到智能體協同決策的全棧升級第一章節早期痛點與技術選型數據分散與知識檢索低效作為傳統的數據平臺,平臺內各種數據、知識分散,不僅找表、取數用數效率低下,知識檢索效率也不高,難以滿足企業內部快速獲取知識的需求。并且在這個提效越來越被重視的AI時代,有一套快速檢索數據解決問題的能力尤為重要。0102RAG架構選擇原因數據平臺憑借天然的數據接入優勢,成為解決這一痛點的關鍵角色。R
2、AG架構能夠對數據有效整合,并提供檢索與生成能力,適配企業知識管理與問答需求。早期采用開源框架llamaIndex,配合B站自研的Index大模型,構建知識庫平臺,實現企業微信對話機器人的一鍵發布。03初期成果檢索準確率顯著提升,效率大幅提高,為后續平臺的發展和AI場景化提效奠定基礎。利用數據平臺先天優勢,知識庫接入幾十種不同的數據源,接入知識庫數量300+。早期痛點與技術選型引入Agent的驅動力僅靠檢索無法滿足復雜業務決策、落地需求,引入Agent成為必然選擇。Agent能夠基于檢索結果進行深度分析與決策,提升業務智能化水平。從檢索到決策的轉變在SQL生成、多維歸因、稿件智能研判等場景中,
3、Agent發揮關鍵作用,大大提升工具的智能化水平。智能數據客服、數據開發與查詢智能診斷等場景,充分展現Agent的強大功能,改變了重人力運營的困境。典型應用場景剖析實現基于MCP協議的動態工作流編排能力,可根據業務需求靈活調整工作流程。Agent在不同場景下的工作流程定向開發與優化,也解決了以往開發效率低下的痛點。技術突破與流程優化端到端AI解決方案業務價值閉環構建實現從需求到決策的全鏈路覆蓋,形成業務價值閉環。通過自反饋的機制,持續優化AI解決方案,提升業務價值。整體架構全景展示呈現整體架構全景圖,數據流與AI組件有機結合。數據從源頭到消費的全鏈路清晰可見,各AI組件協同工作。02工程化實踐
4、中的系統挑戰與突破創新第二章節數據預處理攻堅戰01低質量元信息問題低質量的元信息導致各種智能體(如textTosql)的效果衰減,影響智能體應用的落地速度。以具體案例說明元信息問題對業務的實際影響。02創新方案實施實現自動元信息打分、開發自動元數據補全框架,進一步提升數據質量。在數據預處理階段,基于業務語義進行數據預打標。配合KAG知識圖譜構建,增強數據語義理解。成果與效益數據可用率顯著提升,預訓練的小模型效果更加優異。(對20w+的業務sql進行反向標注,并且引入相關的高質量元信息,進行預訓練)通過數據質量提升,推動智能業務流程的高效運行。03數據預處理攻堅戰14個評價標準:更新策略、存儲策
5、略、主鍵、字段含義、時間格式、維度歸一、字段枚舉值說明、指標單位、時間范圍、歸屬業務線、細分業務范圍、表owner、字段有效時間、指標歸一基于MCP的Multi-Agent智能協作架構MCP聯網搜索、知識庫檢索、企業應用接口等按照協議注冊成Tool提供基礎能力,通過prompt用戶可以在Server端進行調試、控制Multi-AgentAgent節點支持引入工作流,提供特定領域的智能,并實現Agent間的協作定制化多模態突破企業內部文檔包含圖片、復雜表格、公式等,存在數據安全風險,數據內容理解困難。傳統OCR工具無法滿足需求,需定制化解決方案。場景特殊性分析定制化的數據預處理與Paddle O
6、CR改造,適配企業內部文檔的特殊場景。通過技術優化,提升OCR識別的準確率與效率。技術方案探索在客服場景,能處理各種系統截圖與用戶截圖,提升知識庫召回準確度。在埋點場景,通過描述與圖片輕松找到埋點,顯著提升工作效率。效果對比與應用定制化多模態突破多模型協同架構單一模型在面對復雜業務需求時,能力存在天花板。多模型協同成為突破瓶頸的關鍵方向。單一模型能力瓶頸設計出模型路由策略,平衡成本、精度與時延,在各個場景給出最優的模型調用組合。實現模型熱切換機制,根據業務需求靈活切換模型。鏈式組合設計在SQL生成場景,構建模型組合策略樹,提升最終的生成效果。通過多模型協同,滿足不同業務場景的多樣化內容生成需求
7、。案例與應用03全場景數據工作流重構:AI提效規?;涞氐谌鹿澅尘芭c目標設定背景痛點01.傳統數據分析中存在的時間消耗:數據提取、可視化、固定報告占分析師70%+時間。存在低效環節:SQL編寫復雜、圖表適配耗時、重復性文檔撰寫。AI提效價值02.效率躍遷:SQL耗時降低60%,文檔撰寫時間節省50%??梢暬瘓D表自動生成,提升80%專業度。覆蓋率提升:滲透率100%,業務方進行自助取數分析。核心目標03.全員AI工具使用滲透率100%,雙周活躍率完全達標。業務方通過AI完成70%常用指標查詢及數據查詢 sql書寫需求。團隊整體效率提升38%。產品功能全景與Agent化工具鏈SQL小助手:基于指
8、標字典與元數據,自動生成規范SQL。圖表小畫家:數據圖表一鍵生成,支持HTML交互可視化。多維歸因:指標異動自動下鉆歸因(如交易GMV波動分析)。一鍵報告:結構化數據自動化解讀,串聯業務結論。亮點與規?;涞?NL2SQLAgent能力編排調用需求指標字典SQL生成(準確率90%+)里程碑已支持200+日常寬表,滲透率70%。到年底覆蓋全部2000+業務寬表亮點與規?;涞?NL2SQL亮點與規?;涞?NL2SQL亮點與規?;涞?NL2SQL2024年12月GMV24年12月直播時長超過20小時的帶貨up主,需要輸出up主id、up名稱、直播時長和GMV24年1-2月帶貨GMV,按照一級類
9、目、二級類目聚合、店鋪名聚合亮點與規?;涞?圖表小畫家收益:周報圖表制作時間從2小時10分鐘。亮點與規?;涞?多維歸因亮點與規?;涞?多維歸因愿景-決策效率提升10倍“數據找人”“人找數據”04下一代AI與數據融合布局展望第四章節核心經驗總結數據治理先行,構建可信知識基座,為AI應用奠定堅實基礎。啟示:數據質量是AI落地的隱形成本,需結合領域特性,設計數據治理鏈路。技術選型 平衡靈活性與可控性啟示:開源框架需適配企業各自不同需求,核心技術掌握自主權,數據安全得以保護。以場景閉環 驅動AI工程化迭代啟示:AI價值需通過北極星指標進行指引,其中場景的滲透率需要量化(如節省XX人天/月),避免過度投入、技術空轉。嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻演講人:胡天偉