《從數據質量檢查到可觀測性——源于DataLeap的數據建設思考》.pdf

編號:122853 PDF 20頁 3.91MB 下載積分:VIP專享
下載報告請您先登錄!

《從數據質量檢查到可觀測性——源于DataLeap的數據建設思考》.pdf

1、輸入標題Title2023 DataFunCon智能化、自動化,揭秘字節跳動數據質量前沿探索演講人:周方圓 火山引擎DataLeap團隊輸入標題Title智能數據質量What&Why&How輸入標題Title行業動向國內的互聯網行業更徹底的進入了大數據的應用時代:云上大數據體系:數據收集、存儲、處理、應用的技術棧加易用、低門檻,同時有更成熟的數據應用工具,如可視化、自動化決策、機器學習數據“用起來”的問題基本的得到了解決。隨之而來的是數據治理的問題。以火山引擎的大數據產品為例:輸入標題Title行業動向數據質量:為什么要重視數據質量?規模小的時候,速度就是效率,規模大到一定程度時,質量就是效率

2、輸入標題Title數據質量的基礎概念經典的數據質量保障方法:配置質量檢查規則(Assertions)Freshness:數據新鮮度 Data Delay AlarmVolumn:數據量 Missing or Too much data testsAccuracy:數據的正確性 Numeric distribution tests,String pattern testsCompleteness:數據完整性 NULL values testsUniqueness:數據唯一性 Unique key testsIntegrity:數據的主外鍵正確性 Referential tests輸入標題Titl

3、e數據質量的基礎概念質量檢查(Assertions)是數據開發的單元測試+持續監控數據探查Profiling設置規則Apply Rule例行監控MonitorAssertionsData Quality輸入標題Title質量檢查方法的問題實際配置情況:表行數,主鍵重復 80%規則配置滲透率不及預期的原因1.配置繁瑣2.依賴經驗3.往往是事后補充輸入標題Title智能數據質量推薦規則減少規則配置成本協作機制質量也是協作問題鏈路檢查整合數據鏈路自動檢測無須配置,自動檢測智能化智能化輸入標題Title自動檢測無規則:基于自動異常檢測算法發現異常無規則的缺點:復雜指標收集的成本較高1.Cardinal

4、ity 數據維度2.Regex 字符串模式匹配3.Percentile 數據分布輸入標題Title規則推薦減少指標收集成本:場景推薦規則外部數據入口數據鏈路開發數據應用模型特征業務應用輸入標題Title規則推薦場景核心問題常見推薦規則外部數據入口穩定性、規范性新鮮度、數據量、數值范圍、字符串模式.數據鏈路開發數據模型符合預期重復數據數據應用語義級數據質量真實類型判斷、數值范圍、字符串模式、時序范圍預估、完整性檢查.模型特征數據分布漂移數據缺失、數據分布距離、OOV值.業務應用指標監控波動率閾值、異常檢測輸入標題Title規則推薦適應性數據探查Adaptive Profiling規則推薦-設置R

5、ec Rule&Apply例行監控Monitor場景感知Scenery Strategy自動檢測Auto-Detect輸入標題Title鏈路根因診斷數據鏈路是一個整體,應用層質量問題需要在上游表中追查問題借助DataLeap的字段級全鏈路血緣功能,配合鏈路指標收集實現自動根因診斷輸入標題Title協作:數據質量協議開發者和應用者的質量預期鴻溝:金額為什么是-1?枚舉值為什么增加了?有些視頻點擊比曝光還多?部分郵件/電話格式無效?XX字段缺失率升高?業務建模特性枚舉值增加業務變更不受數倉控制業務處理特性導致數據檢驗不嚴格導致(但也不能丟)業務變更/節假日/事件導致數倉需要保證數據質量!基礎質量有

6、保證!這些不是質量問題!你要保障什么規則,提需求過來,給你配置好。最終結果往往是往往可能是發生故障后,“運動式”配置一批監控、保障最重要的數據輸入標題Title協作:數據質量協議分級質量協議1.General Service Level Agreement:開發者提供的關鍵質量承諾2.Application Service Level Expectation:使用者預期的質量指標應用者主動參與到質量工作中,多方應用者與開發者形成互動輸入標題Title總結:數據質量的四大支柱Assertions基礎手段Metrics自動檢測Data QualityLineage系統整合Collaboration開放協作輸入標題Title探索:ChatGPT與數據質量減少規則設計的門檻:自然語言-質量規則VIDEO輸入標題Title火山引擎DataLeap:端到端的數據質量保障輸入標題Title歡迎聯系我們Q&A輸入標題Title2023 DataFunCon感謝您的觀看 THANKS

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(《從數據質量檢查到可觀測性——源于DataLeap的數據建設思考》.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站