《張功貫-大語言模型在大數據研效場景中的智能化探索與實踐.pdf》由會員分享,可在線閱讀,更多相關《張功貫-大語言模型在大數據研效場景中的智能化探索與實踐.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、張功貫 騰訊平臺智能技術架構師多年負責搜、推、廣場景數據相關的數據倉庫、數據平臺及算法系統架構設計與工程實現的數據工作經驗;加入騰訊后,主要負責騰訊天穹大數據平臺的平臺智能自治、數據治理、智能化相關的系統架構設計、工程實現以及業務落地的工作。演講主題:大語言模型在大數據研效場景中的智能化探索與實踐大數據研效場景的智能化探索張功貫騰訊大數據架構師大數據的研效場景概述&痛點大數據研效場景的智能化思考AI4DataSystem智能化能力打造AI4DataWareHouse智能化能力打造未來思考與規劃目 錄大數據場景中的業務協作關系數據科學家數據分析師數據倉庫工程師SQLSDKScripts業務抽象數
2、據組織數倉數據湖湖倉一體數據計算數據存儲SparkMapReduceStarrcoksHDFSKV StorageGraph Storage引擎研發&運維工程師效率穩定成本快、準、穩大數據場景中各個角色的工作內容引擎/運維工程師(SE)數據倉庫工程師(DE)數據科學家/分析師(DA)存儲成本計算性能系統SLA系統兼容性系統計算能力數據倉庫數據湖、湖倉一體ADSDWSDWDODS數據模型業務指標計算口徑數據報表業務歸因業務決策底層技術數據邏輯業務邏輯大數據的研效場景各個角色的關注點效率穩定成本快、準、穩通過業務數據如何快速推理出數據背后的業務問題?業務需求如何快速轉化成技術邏輯的表達并計算取得想
3、要的數據?如何依據業務場景,構建出高效的數據倉庫?并保存數據倉庫中數據的質量、時效性?大量的業務數據計算邏輯,如何快速排查問題?如何以合理的計算/存儲資源支撐?研效場景中,所有業務點,離不開成本、效率、穩定性的考量。數據科學家/分析師(DA)數據倉庫工程師(DE)引擎/運維工程師(SE)大數據的研效場景中的智能化思路AI4DataSystemAI4DataWarehouse效率 全鏈路診斷:解決作業運行過程中的黑洞問題,將作業運行過程進行全鏈路根因定位。成本 作業調優:基于專家經驗和黑盒算法進行內存和Core的優化。數據治理:針對表的存儲、生命周期、小文件等維度進行優化。穩定性 異常感知:感知
4、到單進程粒度的狀態、性能、資源等維度數據信息。異常告警:秒級感知到異常、失敗等狀態信息,進行實時告知。SQL智能 SQL改寫:通過大語言模型來理解SQL包含的業務算法,通過改寫SQL業務邏輯來對SQL計算進行深度優化。SQL診斷:通過事前、事中、事后的能力構建,快速幫助用戶定位到問題,解決SQL中的邏輯錯誤。SQL解釋&補全:結合業務邏輯,幫助用戶快速理解SQL,同時對SQL邏輯進行輔助補全。數據智能 Text2SQL:是將自然語言文本(Text)轉換成結構化查詢語言SQL,并將SQL結果給與展示。ChatBI:針對BI報表的若干指標,進行數據逇深度歸因分析,得出BI報表中的風險與機遇等分析相
5、關的結論。湖倉智能 智能索引/分區 智能視圖/分層 執行計劃優化 冷熱數據等AI4Data的能力模型:圍繞成本、效率、穩定性來打造智能化能力大數據的研效場景中的智能化落地AI4DataSystem的能力體系構建思路碰到的問題歷史數據模型解決方案訓練輸入預測Machine Learning碰到的問題經驗規律解決方案歸納輸入預測專家經驗相結合大數據的研效場景中的智能化落地AI4DataSystem的能力體系構建之可觀測性JVM粒度數據采集滲透360o指標評估體系已基本覆蓋天穹平臺所有物理機/容器,每天感知的數據量在萬億的規模支撐到任務、進程粒度的數據上卷和下鉆能力,量化那些背后看不見的內容。大數據
6、的研效場景中的智能化落地AI4DataSystem的能力體系構建之診斷能力全鏈路診斷深入系統的組件內部,探尋異常的真正根因。SQL執行計劃的回放與診斷大數據的研效場景中的智能化落地AI4DataSystem的能力體系構建之成本優化白盒+黑盒的機制:白盒,采用歷史數據進行趨勢預估預測。黑盒,采用算法多輪迭代自動學習,無人工干預。超過 50%的內存成本30%的 CPU成本節省大數據的研效場景中的智能化落地AI4DataWareHouse的構建思路Dashboard邏輯追蹤性能分析SQL 診斷SQL 優化數倉優化SQL知識庫SQL-Copilot產品能力SQL知識庫SparkStarrocksHiv
7、eSuperSQLIceBerg湖倉主機數據CPU/GPU內存/磁盤網絡/IOSQL/日志全量查詢慢 SQL錯誤日志實例數據QPS會話參數其他變更歷史監控指標應用日志核心數據LLMToT基座模型感知分析健康評估慢 SQL 影響分析毛刺分析數倉合理性分析優化收益分析資源分析根因診斷資源診斷性能診斷邏輯追蹤物理執行計劃診斷異常錯誤診斷延遲/內存診斷SQL優化空間優化熱點優化SQL 改寫優化Add Hints 優化參數優化數倉優化ODS 層優化改寫DWD 層優化改寫DWS 層優化改寫ADS 層優化改寫分層 SQL 合理性診斷語法錯誤碼庫引擎異常錯誤碼庫基于引擎的異常解決基于引擎的計算特性基于方言的語
8、法兼容技術能力 APISQLCopilotSQL優化SQL生成SQL診斷數倉優化ChatBI/Text2SQL針對數據分析場景,通過LLM技術,將自然語言轉成SQL并進行數據分析,總結結論。幫助用戶快速解決SQL運行異常的問題,運行異常包含本身引擎執行失敗和運行成功得到錯誤的數據。SQL優化改寫,依據用戶寫的SQL,解決SQL運行過程中的運行慢問題。ChatBI/Text2SQL針對數據分析場景,通過LLM技術,將自然語言轉成SQL并進行數據分析,總結結論。大數據的研效場景中的智能化落地AI4DataWareHouse的能力體系構建之SQL能力數據生產部分進行數據深度加工,從源頭數據ETL到數
9、倉建模。整個過程重度依賴SQL。SQL的復雜度比較高,SQL的文本長。數據分析部分數據需求多,業務需求非固定式,變化較快,數據報告需求比較急迫。SQL的復雜度適中,需要快速運行,拿到結果。引擎運行部分分析作業運行慢,業務結果失敗的根因,引擎計算執行優化等等。重點關注SQL的計算、異常、穩定性等問題。AI(LLM)結合大語言模型,對大數據數研場景進行重新思考Standard Query Language(SQL)大數據生態SQL自動生成、診斷、SQL優化等數倉生產、數據分析工作,之前的解決方案上,絕大大部分是從既定的SQL邏輯往引擎下層推進。缺乏對業務邏輯算法重構的能力,而LLM的出現,突破了這
10、層限制。SQL-CopilotSQL大數據場景的核心角色大數據的研效場景中的智能化落地AI4DataWareHouse之SQL-Copilot智能體的作用基于系統引擎的優化改進基于業務的SQL優化更多業務邏輯、業務算法上的合理性。只考慮算力、技術計算算法問題。比如暴力掃描問題SQL智能體的優化,是結合大語言模型,更多的從業務的角度考慮是否需要計算長周期的數據。引擎層面的優化,考慮的是如何快速去計算出長周期的數據。大數據的研效場景中的智能化落地AI4DataWareHouse之SQL-Copilot的智能化(LLM)業界大語言模型10大問題1.大模型的幻覺問題2.文本的長度問題3.業務的可迭代性
11、問題4.業務結果可評測性問題大模型業務落地過程中的“攔路虎”業務落地過程中的關鍵問題大數據的研效場景中的智能化落地AI4DataWareHouse之SQL-Copilot的思路SQL智能體Prompt工程知識庫工具大語言模型(LLM)理解執行生成多模態問題分類任務拆解規劃設計對齊意圖效果驗證元數據查詢SQL執行抽樣驗證數據可視化MapJoin優化Join優化WithAs優化多Distinct等等數據傾斜暴力掃描SQL優化SQL診斷模型微調User Query(SQL)這里通過問題分類來重構CoT思路,讓LLM能夠有針對性的提供解決方案。同時加強對垂直問題分類的解決方案強化?;糜X問題?可迭代性問
12、題?可驗證問題?大數據的研效場景中的智能化落地大語言模型中的幻覺問題和可迭代性問題解決方案SQL智能體Prompt工程知識庫工具大語言模型(LLM)理解執行生成多模態問題分類任務拆解規劃設計對齊意圖效果驗證元數據查詢SQL執行抽樣驗證數據可視化MapJoin、WithAs優化Join優化多Distinct等等數據傾斜暴力掃描SQL優化SQL診斷模型微調SQL問題分類模型SQLClassPredict按問題分類的子PromptMapJoin優化WithAs優化多DistinctJoin優化暴力掃描等通用指令集Prompt構建有效減少幻覺問題通過垂直化來提升可迭代性大數據的研效場景中的智能化落地S
13、QL智能體Prompt工程知識庫工具大語言模型(LLM)理解執行生成多模態問題分類任務拆解規劃設計對齊意圖效果驗證元數據查詢SQL執行抽樣驗證數據可視化MapJoin、WithAs優化Join優化多Distinct等等數據傾斜暴力掃描SQL優化SQL診斷模型微調大語言模型中的可評測性的解決方案建立大模型結果的雙跑機制,進行有效的效果驗證。大數據的研效場景中的智能化落地SQL智能體SQL優化改寫的落地針對多個Count(Distinct)優化最終結果SQL智能體思考過程大數據的研效場景中的智能化落地SQL智能體SQL優化改寫的落地針對IN(SELECT)的場景優化SQL智能體思考過程最終結果大數據的研效場景中的智能化落地SQL智能體的業務評測數據71.05%73.58%85.37s30.58%結果一致率正向優化占比正向優化提升時間均值正向優化提升比例均值未來思考與規劃大語言模型(LLM)數據效果數據分析數倉建模SQL文本較短SQL文本較長算法大數據研效智能化,AI4DW(數倉/湖倉)的智能化實現Text2SQLChatBIPrompt工程可迭代、可評測機制SQL改寫SQL診斷SQL解釋SQL補全SQL智能數據智能SQL改寫SQL診斷SQL解釋SQL補全SQL智能智能索引/分區執行計劃優化智能視圖/分層冷熱數據等湖倉智能模型微調第一階段第二階段(doing)長文本挑戰Thanks