《指標歸因分析實踐.pdf》由會員分享,可在線閱讀,更多相關《指標歸因分析實踐.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、指標歸因分析在騰訊視頻的應用Date:2024.5.26by 林卓楹 騰訊 數據科學家1目錄什么是指標歸因2指標歸因的基本方法3指標歸因的案例介紹4指標歸因的工具介紹什么是指標歸因1指標并不都是穩定不變的持續下降占比變化指標突變and more.指標的波動,反應業務的波動一旦波動,需要及時分析波動原因指標歸因:定位指標波動的核心影響因素持續下降指標發生了怎樣的變化?哪些因素導致了指標的波動?不同因素分別帶來了多大的影響?哪些因素是可控可優化的?明確問題明確問題分析定位分析定位解決問題解決問題指標歸因問題分析框架明確問題明確問題分析定位分析定位解決問題解決問題當前需要解決的問題是什么?該問題能否
2、抽象為數學問題?該數學問題屬于哪個類型?是否有足夠的信息進行分析?可選擇的方法有哪些?各方法的優缺點是什么?該問題選哪個方法更優?通過分析定位到了什么原因?該原因是否具有業務含義?該原因如何回答原始問題?有哪些方案可以解決該問題?每個方案的利弊是什么?選擇合適的方法推動執行指標歸因的基本方法2指標判斷/指標的變動是否真實存在指標暫時性指標暫時性的異常的異常趨勢持續性趨勢持續性的異常的異常環比過大的突增環比過大的突增點或者突降點,點或者突降點,呈現為一個呈現為一個/幾幾個凸起的點個凸起的點中長期呈現持續中長期呈現持續上升或者下降的上升或者下降的趨勢,無明顯的趨勢,無明顯的突變時刻突變時刻短短期期
3、波波動動長長期期波波動動反應業反應業務變化務變化預示潛預示潛在風險在風險解決數據問題的第一步,永遠是明確問題、定義問解決數據問題的第一步,永遠是明確問題、定義問題題明確問題明確問題分析定位分析定位解決問題解決問題特殊日子特殊日子線上技術線上技術bugbug數據問題數據問題.預期中的波動預期中的波動預期外的波動預期外的波動未知原因波動未知原因波動.歸因方法/指標拆解可量化影響,可解釋性高,可復用性強,可工具化結結論論的的確確定定性性結論的可行性(結論的范圍)結論的可行性(結論的范圍)確定性推確定性推斷斷可能性推可能性推斷斷猜測性推猜測性推斷斷收入下降收入下降10%10%,APPAPP、PCPC、
4、TVTV分別影響多少?分別影響多少?APPAPP端收入下降,受什么因素端收入下降,受什么因素的影響?用戶行為?策略?的影響?用戶行為?策略?用戶行為變化,是否受競品用戶行為變化,是否受競品的影響?是否受政策的影響?的影響?是否受政策的影響?確定性判斷確定性判斷可能性判斷可能性判斷猜測性判斷猜測性判斷1 1、指標拆解、指標拆解2 2、漏斗分析、漏斗分析.1 1、經驗判斷、經驗判斷2 2、時事新聞、時事新聞.1 1、機器學習擬合、機器學習擬合2 2、因果推斷、因果推斷.PROSPROSCONSCONS確定性判斷確定性判斷可解釋性最高,計算邏輯易理解可解釋性最高,計算邏輯易理解計算效率最高計算效率最
5、高不能代表因果關系不能代表因果關系可能性判斷可能性判斷有一定可解釋性有一定可解釋性計算效率取決于所選方法,不確定性大計算效率取決于所選方法,不確定性大方法原理的理解門欄高方法原理的理解門欄高可復用性相對較低可復用性相對較低猜測性判斷猜測性判斷大膽猜測,提供信息增量大膽猜測,提供信息增量可提供新的分析思路,推進下一步的數據驗證可提供新的分析思路,推進下一步的數據驗證無法提供確定的數據結論無法提供確定的數據結論結論的可靠性不易評估結論的可靠性不易評估明確問題明確問題分析定位分析定位解決問題解決問題確定性判斷/指標拆解,貢獻度可量化、可相加,滿足MECE原則明確問題明確問題分析定位分析定位解決問題解
6、決問題加法加法減法減法乘法乘法除法除法變化量變化量變化率變化率變化量變化量-類似加法類似加法變化率變化率-類似加法類似加法替換法替換法替代的順序影響貢獻度的計算替代的順序影響貢獻度的計算LMDILMDI乘積因子拆解乘積因子拆解每個因子貢獻度計算的過程相每個因子貢獻度計算的過程相互獨立,順序不影響結果互獨立,順序不影響結果替換法、替換法、LMDILMDI同乘法同乘法雙因素法雙因素法不轉為乘法,而是進行維度拆不轉為乘法,而是進行維度拆解解基于不同的問題,選擇相應的一種或者多種方法基于不同的問題,選擇相應的一種或者多種方法確定性判斷/指標拆解,組合分析,定位核心變化場景明確問題明確問題分析定位分析定
7、位解決問題解決問題通過橫向通過橫向+縱向的組合分析,縱向的組合分析,準確定位至核心的變化場景,有準確定位至核心的變化場景,有針對性的標本兼治針對性的標本兼治針對不同指標,既可選擇持續針對不同指標,既可選擇持續拆解、也可選擇維度分析拆解、也可選擇維度分析可能性判斷/建模分析,科學性更高、邏輯更嚴謹明確問題明確問題分析定位分析定位解決問題解決問題機器學習機器學習機器學習機器學習+SHAP+SHAP因果推斷因果推斷貝葉斯網絡貝葉斯網絡針對目標指標做回歸預測,針對目標指標做回歸預測,計算特征重要性計算特征重要性常見方法:常見方法:線性回歸、邏輯回線性回歸、邏輯回歸歸回歸樹、分類樹回歸樹、分類樹xgbo
8、ostxgboost.等等優點優點解釋直接,容易理解解釋直接,容易理解計算效率相對較高計算效率相對較高缺點:缺點:僅能解釋相關性僅能解釋相關性僅能提供特征的全局僅能提供特征的全局重要性重要性使用使用shap valueshap value計算特計算特征對目標指標的征對目標指標的貢獻貢獻優點:優點:能提供個體的特征能提供個體的特征貢獻度貢獻度缺點:缺點:僅能解釋相關性僅能解釋相關性計算成本相對更高計算成本相對更高確定某個干預對結果的確定某個干預對結果的因因果果影響,及影響的大小影響,及影響的大小常見方法常見方法隨機實驗隨機實驗雙重差分法雙重差分法DIDDID傾向性得分傾向性得分.等等優點:優點:
9、能解釋因果性能解釋因果性控制混雜變量控制混雜變量缺點:缺點:隨機實驗不總是可隨機實驗不總是可行行可能存在未觀測到可能存在未觀測到的特征,造成偏差的特征,造成偏差通過概率圖模型,表示變通過概率圖模型,表示變量之間的因果關系量之間的因果關系優點:優點:建模正確時,能進行建模正確時,能進行因果推理因果推理網絡圖形結構,直觀網絡圖形結構,直觀表示變量間的關系表示變量間的關系缺點:缺點:計算復雜且密集計算復雜且密集明確問題明確問題分析定位分析定位解決問題解決問題分析落地/基于分析結論,確定解決方案外部外部頭客預算收縮?頭部客戶預算收縮,減少廣告投放,則需要拓展新的行業預算頭客預算收縮?頭部客戶預算收縮,
10、減少廣告投放,則需要拓展新的行業預算競品主動降價?競品的價格策略,左右廣告主預算分配,則需要增加亮點爭取客戶預算競品主動降價?競品的價格策略,左右廣告主預算分配,則需要增加亮點爭取客戶預算用戶心智變化?短視頻等產品持續擠占用戶時間,則需要優化內容吸引用戶回流用戶心智變化?短視頻等產品持續擠占用戶時間,則需要優化內容吸引用戶回流基于定位到的核心指標,結合商業邏輯,明確問題的本質,尋找對應的解決方法基于定位到的核心指標,結合商業邏輯,明確問題的本質,尋找對應的解決方法內部內部新策略導致未預期的新問題?重新評估該策略的有效性新策略導致未預期的新問題?重新評估該策略的有效性某策略的負面影響累積不斷擴大
11、超出預期?評估如何調整優化策略降低負面影響某策略的負面影響累積不斷擴大超出預期?評估如何調整優化策略降低負面影響指標歸因的案例介紹3明確問題明確問題分析定位分析定位解決問題解決問題背景:監控觸發指標同比下降3.13%3.13%(11.29%-8.15%),波動-27.8%27.8%案例分析1/指標判斷,確認問題是否存在及嚴重程度是問題嗎?是否需要關注?是問題!需要關注!是問題!需要關注!某場景核心轉化指標,反應業務效率效率降低,削弱了業務優化的價值增量長期趨勢下降,近期降幅加劇明確問題明確問題分析定位分析定位解決問題解決問題1.選擇方法:比例型指標;有明確的轉化節點,層層遞進選擇乘法乘法-替換
12、法替換法:目標指標Y=A*B*C*D案例分析1/指標拆解,初步明確問題方向初步定位了導致指標下降的核心影響因素(環節D和環節B)發現環節C的效率提升,后續值得關注并強化指標選擇指標選擇指標是有意義的能夠有明確的負責團隊指標不宜過多切忌切忌無實際含義的強行拆解無法有明確的落地指向指標太碎太細,缺乏重點環節D環節B明確問題明確問題分析定位分析定位解決問題解決問題2.繼續拆解or下鉆分析?3.下鉆方法:加法or雙因素法?案例分析1/持續分析,定位核心影響因素進一步定位了導致環節D指標下降的主要影響因素:場景X1加法加法僅限絕對值指標各子場景可直接相加貢獻度可計算雙因素法雙因素法應用于比例型指標可分波
13、動貢獻、結構變化貢獻滿足貢獻度可加場景X1明確問題明確問題分析定位分析定位解決問題解決問題案例分析1/結合商業邏輯,明確問題本質,對癥下藥環節D、場景X1 波動最大,說明什么?業務含義是什么?是否存在已知原因,能與該變化對應?已知原因,新增負面影響發現新問題,重點關注是否討論解決方案案例分析2/指標判斷,抽象數據問題并選擇方法明確問題明確問題分析定位分析定位解決問題解決問題背景:日常監控發現某場景用戶活躍度同比上升背景:日常監控發現某場景用戶活躍度同比上升6.7%6.7%是問題嗎?是否需要關注?是問題嗎?是否需要關注?是問題!需要關注!是問題!需要關注!該場景為核心場景,直接影響商業變現能力該
14、場景為核心場景,直接影響商業變現能力該指標長期穩定,該變化相對異常該指標長期穩定,該變化相對異?;钴S度上升,我們做對了什么?活躍度上升,我們做對了什么?數學問題:數學問題:哪個因素對指標的上升影響最大?如何影響的?哪個因素對指標的上升影響最大?如何影響的?方法選擇:方法選擇:模型效果模型效果 vs vs 可解釋性:可解釋性:機器學習機器學習+SHAP Value+SHAP Value明確問題明確問題分析定位分析定位解決問題解決問題案例分析2/建模分析,定位核心影響因素1、建立預測模型2、調用特征重要性函數,計算SHAP值藍色柱藍色柱為各特征的SHAP值的絕對值的均值,代表了特征對Y的影響程度解
15、讀:因素A對Y的影響最大;因素B次之因素因素A A因素因素B B3、調用特征影響方式函數,查看特征影響的正負向每一行代表一個特征每一行代表一個特征,橫軸為SHAP值一個點代表一個樣本,顏色越紅說明特征本身顏色越紅說明特征本身數值越大,顏色越藍說明特征本身數值越小數值越大,顏色越藍說明特征本身數值越小解讀:Y隨著因素A增大而增大;Y隨著因素B增大而增大因素因素A A因素因素B B明確問題明確問題分析定位分析定位解決問題解決問題案例分析2/結合商業邏輯,明確問題本質,對癥下藥4、調用特征依賴函數,查看單個特征的影響方式一個點代表一個樣本,縱軸為SHAP值。橫軸為特征本身數值,越靠近右側值越大。解讀:Y隨著因素A增長而線性增長因素因素A A反向思考反向思考如果因素A代表內容精彩指數,應該如何解讀?結合商業特性,我們可以問:是否有優質內容上線?這些優質內容是什么?有什么特性?運營策略是否有所調整?推薦策略是否有所優化?.等基于分析結論,作出策略建議,持續強化內容基于對業務的了解,才能透過數字、看到問題基于對業務的了解,才能透過數字、看到問題本質,提出合理的建議,共同解決問題本質,提出合理的建議,共同解決問題指標歸因的工具介紹4數據工具/數據解讀、波動分析、歸因分析等高級解讀能力歸因分析/問答式分析,可記憶上下文,可生成思維導圖,保存報告Thanks