《1-4 面向行為分析的數據治理和應用.pdf》由會員分享,可在線閱讀,更多相關《1-4 面向行為分析的數據治理和應用.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、面向行為分析的數據治理和應用賈毅寧2022-08-27v常見的數據分析場景v數倉建模方法v數倉建模方法的優劣勢v面向行為分析的分析方法-概念v面向行為分析的分析方法-整體架構v面向行為分析的分析方法-分析舉例目錄常見的數據分析場景業務數據行為數據做了什么-指用戶使用產品上的各種行為v 網站行為:瀏覽頁面、停留時長、頁面的瀏覽路徑、點擊行為 等v 廣告行為:請求、曝光、點擊、廣告瀏覽時長 等v App行為:登陸、注冊、功能使用、客服支持 等v 游戲行為:完成教程、過關、付費、升級 等結果如何-指用戶行為之后,實際產生的結果業務數據會落庫業務數據表。分析業務數據的意義,可以衡量商業價值,是業務最終
2、呈現結果,用以推動公司業務的發展。v 電商指標:PV、UV、成交用戶數、成交訂單數、GMV、客單價、退款率 等v 廣告指標:點擊率、轉化率、參競率、競得率 等v 金融指標:資產負債率、凈利潤、流動比率、毛利率 等v 游戲指標:付費金額、付費人數、付費率、首充人數、首充金額、ARPU、LTV 等工程實現-面向行為分析的數據加工和分析v 主要分析方式:漏斗分析、留存分析、Segment分析、Cohort分析、用戶會話分析、用戶行為路徑分析 等v 服務的團隊:增長團隊,存量經營團隊,產品團隊工程實現:數倉建模v 工程關鍵詞:數據倉庫、數據集市、星形數據模型、雪花形數據模型、緯度表建模、多維分析、MP
3、P數據庫 等v 服務的團隊:各個業務團隊、公司決策層、產品團隊數倉建模方法用戶空間點擊曝光請求用戶ID登陸時間登陸方式用戶ID注冊時間會員等級數倉建模主題應用廣告主題寬表用戶登陸主題寬表會員注冊主題寬表ODSDWD維度表報表建設特征挖掘機器學習OneID增長團隊存量經營團隊產品團隊數倉建模方法的優劣勢優勢v 方法論成熟:已經在無數的公司中被驗證過,更有像阿里巴巴大數據實踐Building The Data Warehouse等優秀的指導書籍。v 技術棧成熟:無論是從消息中間件、數據ETL管路,數據湖、數據倉庫、數據集市的各種選型等,工業界已經誕生了無數優秀的框架和數據庫。v 技術供應商支持完善
4、:Google,Amazon,Microsoft,阿里云,騰訊云均提供幾乎一站式的服務。v 技術人才供給:各個互聯網公司都有數據倉庫建模的需求,人才供應充分,培養體系完備。v 公司推動阻力小:數倉的重要性經歷了充分的市場教育,推動起來會比較順暢,投入產出比也比較好闡述。v 應用場景:適合指標類的多維分析數據運算劣勢v 建設鏈條長:數據采集-ODS-DWD-DWT-數據報表和應用。v 數據一致性保證有挑戰:不同數據主題之間會有指標和字段的重合,在工程和業務之間,不同的工程團隊之間都可能造成理解的偏差。v 擴展字段流程復雜:表結構需要預先定義,擴展新字段往往需要較長的開發周期和回溯數據周期。v 工
5、程實現很難統一:架構評估往往取決于承接的工程團隊的過往經驗和喜好,同樣需求的實現差異較大。v 不適合時序形的行為數據分析:因為需要按照用戶維度shuffle和開窗,用戶行為分析往往比較耗資源。v 預聚合不夠靈活:當維度不能命中預聚合的維度時,查詢會退化成全表聚合。面向行為分析的分析方法 概念用戶空間用戶群計算事件抽象用戶事件序列活躍用戶群新增用戶群滿足X條件用戶群一個例子-7日Andoird用戶的留存率傳統數倉的解決方案行為分析的解決方案1.使用數據的底表和表的字段2.定義中間表的創建邏輯(過濾條件,分組條件,指標計算)3.最終結果的業務邏輯4.查詢優化(過濾前置,數據傾斜,shuffle,關
6、聯方式)1.加載Android用戶人群_A;加載T的活躍用戶人群_B;加載T-7新增用戶人群_C2.(A,B,C)用戶群求交=用戶人群_D3.(A,C)用戶群求交=用戶人群_ E4.(D,E)用戶群 計算覆蓋率整體架構v 查詢接入層:負責將一個復雜查詢語句拆解成原子的子查詢語句。v 查詢結果聚合層:負責將用戶數據訪問層的結果聚合返回v 查詢緩存層:每個子查詢語句因為其不變形,都可以保存在緩存中v 實時層:處理實時數據v IDMapping:設備ID和用戶ID的關聯,用戶ID和用戶ID的關聯v 用戶數據訪問層:執行真正的子查詢語句,并行的訪問用戶數據v 元數據層:記錄文件和事件事件的關系,列在文
7、件中的偏移量v 列存儲層:列存的方式存儲數據,通過Delta encoding 和 Dictionary encoding優化體積和訪問速度一個例子-7日Andoird用戶的留存率將相對事件翻譯成絕對事件,查詢是否子查詢的結果已經存儲在緩存中。將查詢拆解成計算以下幾個子任務:1.T-7:的新增用戶2.T-7:的android活躍用戶3.T日的活躍用戶對于沒有命中緩存的字查詢,分布式執行查詢計劃。根據查詢的時間范圍和查詢列,加載存儲文件到計算節點中。返回需要參與計算的數據。返回:用戶ID-用戶ID;用戶ID-設備ID 兩種mapping關系對。匯總子查詢的返回結果和Mapping對,最終返回查詢
8、結果。(1)(2)(3)(4)(5)(6)(7)列存儲Metadata HeaderBloomFilter 過濾User_IDDelta encoding 時間戳列Dictionary encoded user_id 列.其他 Dictionary-encoded 屬性列v Metadata Header:文件頭,記錄時間的開始和結束,以及每一個列的偏移量v Delta encoding:差分編碼,減少時間戳的存儲體積。v BloomFilter:布隆過濾器,快速判斷是否一個用戶在當前文件中。v Dictionary-encoded:屬性字段用字典編碼,減少體積,提高過濾和GroupBy的查詢
9、效率。v 字典:0:Beijing,1:Shanghai,2:Shenzhenv 編碼后的維度值:通過編碼的方式,統一存儲大小,提高訪問效率。減少存儲體積。v 倒排索引:通過屬性值快速定位行索引,更高效的支持 過濾條件 和 And/OR 等邏輯條件。Dictionary-encodedselect city,sum(click_cnt)from table_twhere category=0 or category=1group by city元數據文件元數據v文件保持相對固定的大小,并按照時間動態分區。時間久遠,稀疏的文件按照高時間密度做聚合。時間近,但稠密的文件按照低時間密度聚合。v單個文
10、件內部按照用戶ID和時間排序。列元數據v 行元素按照v 一般的查詢,只會訪問 816列屬性值v 減少從存儲層到計算層之間加載的數據量OneIDv 追蹤用戶的設備變化,還原用戶事件的最真實狀態一個用戶在多個設備上使用同一個應用,需要對該用戶的唯一性進行標識,進而把用戶的行為歸屬到同一個用戶上。多個用戶在同一臺設備上操作同一個應用。同一個APP內,注冊用戶前的行為 和 注冊用戶后的行為進行關聯。不同App之間,用戶行為進行關聯。v IDMapping:User_id:Device_id:用來追蹤用戶的設備使用情況。如廣告中的排除老用戶場景Device_id:Deivce_id:用來追蹤同一步設備或
11、者同一個用戶的多部設備。User_id:User_id:用來追蹤同一個用戶的ID的變化,具體場景取決于業務模式。v ID Encodingv 為每個OneID賦予一個bit位,用來在bit數組中唯一的標識這個用戶。v 在計算人群時,可以通過返回bit數組來進行標識。v 多個人群之間的集合運算可以通過bit數組的與/或/非 進行快速的計算。緩存層v時間版本號:數據可能會因為回填等原因引入新數據,通過時間版本號的方式可以自動刷新緩存。v查詢的時間范圍:【啟始時間、結束時間)用來表識查詢的時間范圍,一般來說,時間越近,可支持的粒度越小。v查詢過濾條件:相當于SQL中的Where條件子句。v人群分組條
12、件:相當于Group條件,表示在過濾條件下,按照分組條件對人群進行重新的劃分。用戶數據訪問層1.用戶請求:時間范圍,過濾條件,用戶群聚合條件。2.請求元數據:確定需要訪問文件的位置和列的偏移量3.加載數據到計算節點:加載時序數據到計算節點,并緩存到本地磁盤??梢圆捎肔RU的方式進行淘汰。4.用戶分區計算:根據加載的用戶活躍度進行分區,并行計算符合查詢條件的用戶群。5.聚合計算:對每個用戶群算子的返回結果進行二次聚合,形成最終用戶群。行為分析的應用 用戶留存分析Day(行時間+偏移量)的活躍用戶群Jul 29 Aug 08新增用戶群計算T-1 的每日新增用戶群和活躍用戶群,那么就可以做任意一段時
13、間新增用戶的任意一個時間點的留存分析Day(行時間+偏移量)的活躍用戶群行為分析的應用 漏斗分析播放歌曲收藏歌曲購買歌曲下載歌曲v時序嚴格的轉化漏斗(水平切)同一個session內(播放-收藏-購買-下載)用戶群同一個session內(播放-收藏-購買)用戶群同一個session內(播放-收藏)用戶群同一個session內(播放)用戶群v非時序嚴格的轉化漏斗(垂直切)播放歌曲用戶群收藏歌曲用戶群購買歌曲用戶群下載歌曲用戶群行為分析的應用 路徑分析v事件的入度:一個事件發生時,其在時間軸上的前一個事件。v事件的出度:一個事件發生后,其在時間軸上的后一個事件。v計算方式1.計算某一個事件的人群2.按照前一個事件類型進行劃分,得到出度。3.按照后一個事件類型進行劃分,得到入度。4.對于出度人群和入度人群,分別進行N次迭代計算,最終得到N層深的路徑分析,回顧v分析了行為分析和指標分析的主要差異v闡述了數倉建模方式的優劣勢,更適合用來做指標分析v闡述了行為分析的主要概念和分析思路的不同v闡述了行為分析系統建設的主要層次v闡述了行為分析系統每個層次的主要應用的技術v闡述了行為分析的主要支持的三個分析場景Thanks