《LLM 在大數據研發治理套件 DataLeap 中的應用實踐-王慧祥 丁桂濤.pdf》由會員分享,可在線閱讀,更多相關《LLM 在大數據研發治理套件 DataLeap 中的應用實踐-王慧祥 丁桂濤.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、AIGC AIGC 在在 DataLeap DataLeap 大數據研發治理套件的實踐大數據研發治理套件的實踐火山引擎 DataLeap 資深架構師/王慧祥火山引擎 DataLeap 技術專家/丁桂濤目錄DataLeap整體介紹AIGC在DataLeap數據資產方向的實踐 找數助手AIGC在DataLeap數據研發方向的實踐 研發助手 未來規劃DataLeapDataLeap整體介紹整體介紹DataLeap DataLeap 大大數據研發治理數據研發治理套件套件數據研發全鏈路管理數據研發全鏈路管理整合全域數據,支持20+多源異構數據集成,靈活對接各類業務系統。敏捷開發CI/CD,覆蓋需求、開發
2、、測試、發布、運維等研發全鏈路管理。數據全生命周期治理數據全生命周期治理結合基線監控、數據質量、SLA治理等能力,提供事前預警、事中處理、事后復盤及推薦優化的全生命周期的數據治理能力沉淀數據規范沉淀數據規范統一數據標準及數據查詢出口,沉淀數倉建設規范的最佳實踐,提升數據開發效率,保證數據質量,快速精準為業務賦能保障數據安全保障數據安全更細粒度的行、列權限控制,表及字段級別的血緣管理,加上行為監控等功能,構成真正意義上的數據安全屏障多云多引擎多云多引擎提供公有云PaaS服務及靈活的私有化部署方案??傻统杀?、高效適配客戶已有大數據平臺,控制遷移成本,降低業務影響DataLeapDataLeap智能
3、助手智能助手火山引擎大數據研發治理套件DataLeap智能助手基于自研方舟MAAS,經過海量代碼和語料訓練,支持根據自然語言理解,提供擬人化的邏輯推理總結、自動生成代碼構建優化和管理。資產知識庫經過對話式語義檢索,高效聚焦全鏈路的搜索過程,以低門檻、自助式的數據探索,極大提升企業數據研發和數據消費能力找數助手找數助手對話式的數據檢索能力,解決用戶找數據與用數據訴求。通過AI加持推動讓搜索過程更聚焦。同時伴隨模型語義理解能力的逐步提升,其全鏈路的檢索效率更高,使得資產以低成本管理、促進自助式數據消費研發助手研發助手實現通過自然語言描述,自動生成代碼,針對已有的代碼可以自動實現自動生成、修復,優化
4、、解釋與注釋等。對話式方式進行文檔搜索、函數使用、代碼示例等問題咨詢。助力平臺用戶減少基礎開發工作量、提升開發效率。更便捷地生產數據、應用數據,實現更普惠的數據消費,為數字化提供現實基礎。打破了語言障礙,極大程度降低了數據開發的準入門檻,同時讓專業數據研發人員更聚焦復雜場景的需求AIGC AIGC 在在 DataLeap DataLeap 數據數據資產資產方向的實踐方向的實踐-找數找數助手助手數據資產數據消費問題數據消費問題 數據資產建設的核心目的是促進數據消費,使數據價值最大化 在海量數據場景下,如何準確、高效的找到數據是數據消費的前提 數據的查找和使用強依賴于業務知識業務知識的處理 結構化
5、組織數據表達能力有限,在數據管理側信息丟失 基于關鍵詞的檢索能力受限,在數據消費側信息丟失結構化數據非結構化數據數據消費數據研發數據分析數據運營數據管理數據決策數據采集數據編目數據認證數據發布找數據問口徑咨詢含義關鍵詞檢索結構化組織?LLMLLM在找數場景能做什么在找數場景能做什么 LLM的特性:理解、推斷、生成 找數場景有如下復雜點:問題理解(理解)意圖判斷(推斷)結構化元數據描述不足(生成)大量非結構化元數據沉淀于文檔(生成)關鍵信息提?。ㄉ桑┯脩魡栴}:幫我看看商家GMV用哪張表?LLM用戶是要找一張表還是問業務的含義?是找包含什么信息的表?哪些表包含這些信息?這些表中有沒有適合回答用戶
6、問題的?使用哪些信息能更好的回答用戶問題?DataLeapDataLeap找數助手整體架構找數助手整體架構對話框架LLMQuery分析文檔搜索元數據搜索LLM:問題理解與篩選LLM:問題理解與總結語義召回排序垂類搜索-Hive語義召回匹配召回多路召回融合排序垂類搜索-數據集語義召回匹配召回多路召回融合排序垂類搜索多輪會話問題合并意圖識別找數據用數據業務問答問題排查其他意圖判斷數據增強答案總結總結按意圖搜索Query分析用戶問題問題答案問題理解問題理解 核心關鍵詞提取核心關鍵詞提取 識別query中核心的term,提升找數準確性,提升用戶體驗 多輪對話問題合并多輪對話問題合并 判斷用戶新問題是否
7、需要關聯上一個問題信息 合并多個問題為一個問題上一輪問題上一輪問題本輪問題本輪問題合并后問題合并后問題商家GMV用哪張表?數據集呢?商家GMV用哪個數據集?如何查看直播間PV數據?有沒有帶貨粒度的數據?有沒有帶貨粒度的數據?想看下DQC的報警實例用哪張表?不要基線任務的查看DQC的報警實例切不要基線任務的用哪張表?數據安全等級分布用哪張表?我想要標簽粒度的標簽粒度的數據安全等級分布用哪張表?用戶問題用戶問題關鍵詞提取關鍵詞提取shop_id和order_id的關系字段/指標:shop_id字段/指標:order_id7日結算率字段/指標:7日結算率C_O率是什么意思字段/指標:C_O率xxx.
8、a與yyy.b的區別是什么?表名:xxx.a表名:yyy.bzzz.c的call_type有什么作用?表名:zzz.c字段/指標:call_type意圖判斷意圖判斷 依賴LLM的判斷能力,判斷用戶的找數意圖 基于業務真實找數場景調研,總結4大類意圖 Prompt工程+模型精調一級意圖一級意圖二級意圖二級意圖問題示例問題示例找數據找表、數據集抖音是否有用戶維度的消費視頻表?使用數據問指標xxx數據集中has_risk=0值的定義是什么?問口徑近7天直播間曝光次數口徑是什么問區別表xxx與表yyy中的user_id有什么區別?業務咨詢-什么是GMV?問題排查-表xxx中的字段a為什么會有空的情況?
9、其他閑聊元數據生成元數據生成元數據質量衡量元數據質量衡量 信息填充度 信息豐富度低質量元數據資產識別元數據完善元數據分發元數據質量核驗LLM元數據生成元數據生成Schema信息加工邏輯&血緣業務沉淀元數據治理分發元數據治理分發 資產識別&圈選 任務分發 元數據完善LLMLLM:元數據生成提效:元數據生成提效 Schema信息 生成邏輯代碼+血緣信息 業務沉淀業務知識沉淀與檢索業務知識沉淀與檢索 文檔模塊化拆分,基于語義相似度匹配召回,解決非結構化業務知識問答問題 沉淀歷史問答問題,以LLM進行清洗,豐富知識庫向量數據庫文檔業務知識向量化query召回排序生成答案QnA清洗LLM相似匹配Top
10、NTop n拆分、入庫沉淀答案總結答案總結結構化元數據總結結構化元數據總結 多輪召回+精排(Top m)Query+表shcema+增強信息 prompt工程控制輸出非結構化文檔總結非結構化文檔總結 語義召回+相似度排序(Top n)Query+Top n prompt工程控制輸出LLMquery文檔片段Top n元數據AnswerAIGC AIGC 在在 DataLeap DataLeap 數據研發方向的實踐數據研發方向的實踐 -開發助手開發助手AIGC 可以降低數據開發的門檻,讓需要使用數據的人離數據更近,同時也能提升專業數據開發的效率。數據平民化數據平民化需要使用數據會寫簡單 SQL專業
11、數據開發提高模型準確率降低 prompt 編寫成本減少多工具間的切換數據平民化數據平民化產品價值產品價值=原范式成本原范式成本-AIGC -AIGC 范式成本范式成本-習慣改變成習慣改變成本本SQL 編程自然語言編程LLM 輔助編程場景:Coding Copilot、知識問答工程:Prompt Engineering、模型對接框架模型:支持 MaaS、私有化等多種模型開發助手開發助手-產品架構產品架構需要根據場景的差異化要求,進行針對性設計、優化。開發助手開發助手-場景設計場景設計場景場景交互形式交互形式Prompt Prompt 成本成本準確率要求準確率要求延遲容忍度延遲容忍度Text2SQ
12、LText2SQL主動提問高高高補全補全被動提示低低低BugfixBugfix一鍵操作低高中問答問答主動提問中高中.開發助手開發助手-Prompt Engineering-Prompt Engineering業務需求業務需求:“查詢昨日銷售額 top 1000 的商品信息”用戶輸入用戶輸入:“一天”、“銷量”、“1000”開發助手開發助手-Prompt Engineering-Prompt Engineering字段裁剪Prompt 模版多輪上下文表結構填充開發助手開發助手-準確率準確率https:/ IDE 體驗關鍵鏈路延遲 對外對外 歡迎試用 DataLeap AI 助手&大數據研發套件聯系我們聯系我們火山引擎DataLeap找數&研發助手咨詢及試用申請獲取更多技術干貨、活動信息進入官方交流群