《2024-05-26-datafun-楊嵩-騰訊游戲數據指標體系的高性能保障-定稿.pdf》由會員分享,可在線閱讀,更多相關《2024-05-26-datafun-楊嵩-騰訊游戲數據指標體系的高性能保障-定稿.pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊游戲數據指標體系騰訊游戲數據指標體系的高性能的高性能保障保障單位:騰訊游戲單位:騰訊游戲/公共數據平臺公共數據平臺部部分享人:楊嵩分享人:楊嵩時間:時間:2024-05-262024-05-26目錄目錄l 01 背景l 02 怎么做的l 03 致謝0101背景背景1.1.業務業務背景背景背景背景騰訊游戲:一個騰訊游戲:一個擁有上百款游戲的產品擁有上百款游戲的產品矩陣矩陣業務時間跨度:從業務時間跨度:從20032003至今,跨越至今,跨越2121年年游戲用戶量:游戲用戶量:過億過億超級游戲超級游戲業務業務截止截止目前,累計數據量:目前,累計數據量:PBPB,萬張表萬張表相當于相當于4 4千萬
2、張千萬張DVDDVD光盤的存儲光盤的存儲量量每天新增數據:超過萬億條,每秒超過千萬條每天新增數據:超過萬億條,每秒超過千萬條相當于相當于500500次春運的社會次春運的社會人流量人流量海量游戲海量游戲數據數據這么多數據,能用在什么地方呢?這么多數據,能用在什么地方呢?2.2.數據應用場景數據應用場景背景背景案例一:游戲案例一:游戲排行榜排行榜案例二:案例二:皮膚抽獎皮膚抽獎案例三:分析看板(案例三:分析看板(討論重點)討論重點)分析看板的年訪問量超千萬次,服務用戶超分析看板的年訪問量超千萬次,服務用戶超萬名。萬名。那么這樣穩定數據指標體系,是怎么做到那么這樣穩定數據指標體系,是怎么做到的?的?
3、總結和總結和思考思考數據純屬虛構數據純屬虛構eg:FASTeg:FAST指標評估看板指標評估看板3.3.我們的目標,我們的目標,以及遇到的以及遇到的問題問題背景背景騰訊游戲數據指標體系面臨的主要問題(在降低數據成本的同騰訊游戲數據指標體系面臨的主要問題(在降低數據成本的同時、提高數據研效、改善數據質量、安全使用時、提高數據研效、改善數據質量、安全使用數據)數據)1 1、工程效率、工程效率、人效比人效比;2 2、海量指標場景下的數據一致性、海量指標場景下的數據一致性問題;問題;3 3、數據服務、數據服務多樣性;多樣性;4 4、數據、數據安全;安全;問題相似,但場景不同,解法不同問題相似,但場景不
4、同,解法不同定義來源:騰訊集團通道制度能力模型完備性完備性重復性重復性合規性合規性準確性準確性一致性一致性及時性及時性埋點上報埋點上報數據數據存儲存儲數據數據計算計算數據數據應用應用高性能高性能數據數據治理治理高性能的高性能的定義定義主要主要問題問題0202怎么做怎么做的的【問題一】研效。使用【問題一】研效。使用框架化思維,框架化思維,實現游戲實現游戲80%80%的共性的共性指標指標怎么做怎么做的的怎么應付怎么應付上百款游戲的數據指標開發?上百款游戲的數據指標開發?常規方法:人海戰術。假設常規方法:人海戰術。假設每款游戲配置每款游戲配置1 1名數據開發人員名數據開發人員結果:天價的人力成本(上
5、百個指標開發人員,年成本超結果:天價的人力成本(上百個指標開發人員,年成本超5 5億)億)遇到的遇到的問題問題現象現象1 1:王者榮耀要計算日活躍指標,和平精英也要:王者榮耀要計算日活躍指標,和平精英也要看!看!本質本質1 1:經典指標具有經典指標具有通用性通用性現象現象2 2:王者榮耀要分析英雄的登場率,英雄聯盟手游也要:王者榮耀要分析英雄的登場率,英雄聯盟手游也要看!看!本質本質2 2:相似類型的游戲也有:相似類型的游戲也有通用性通用性現象現象3 3:指標的開發流程很類似,:指標的開發流程很類似,BIBI平臺是平臺是同一個同一個本質本質3 3:ETLETL可以管線可以管線化化思考思考sou
6、rce-ETL-sink-BIsource-ETL-sink-BI平臺平臺舉例:舉例:compute_dau.py -game_id=compute_dau.py -game_id=傳參傳參1 1、sourcesource:約定數據源的:約定數據源的元數據元數據2 2、ETLETL:配置式開發,:配置式開發,低代碼低代碼3 3、sinksink:約定落地表的:約定落地表的元數據元數據4 4、BIBI平臺:配置式開發,平臺:配置式開發,無代碼無代碼【落地【落地效果】效果】600600款游戲共用一套代碼生成共性指標款游戲共用一套代碼生成共性指標平均平均4h4h完成三千個完成三千個指標指標解決了經典
7、指標的一致性解決了經典指標的一致性問題問題解法解法數據純屬虛構數據純屬虛構【問題一】研效。使用【問題一】研效。使用框架化思維,框架化思維,實現游戲實現游戲80%80%的共性的共性指標指標怎么做怎么做的的數據純屬虛構數據純屬虛構舉舉例例1 1、封裝整個上報、計算、看板配置流程,打包成一個、封裝整個上報、計算、看板配置流程,打包成一個sdksdk;通過參數配置,實例化不同的游戲;通過參數配置,實例化不同的游戲;2 2、低代碼甚至、低代碼甚至無代碼;無代碼;3 3、需要數據上報環節、需要數據上報環節、BIBI平臺方的配合;平臺方的配合;【問題一】【問題一】研效研效。使用。使用數據資產化思維,數據資產
8、化思維,實現游戲實現游戲20%20%的的特性指標特性指標怎么做怎么做的的1 1、煙囪式開發,各做各的,無法形成復合、煙囪式開發,各做各的,無法形成復合力;力;2 2、開發流程沒有復用性,這次慢,下次、開發流程沒有復用性,這次慢,下次還慢;還慢;3 3、研效問題,找不到表、不會選、研效問題,找不到表、不會選表;表;4 4、指標同名不同值的問題,花費大量時間在數據核對、指標同名不同值的問題,花費大量時間在數據核對環節;環節;遇到的遇到的問題問題【豐田五問法找原因】豐田五問法找原因】Q1Q1、為什么研效不高?、為什么研效不高?A1A1、因為指標的數量又多又復雜、因為指標的數量又多又復雜Q2Q2、那為
9、什么這次和上次的研效相比沒有提高?、那為什么這次和上次的研效相比沒有提高?A2A2、因為相同的開發流程要重來一次、因為相同的開發流程要重來一次Q3Q3、那為什么相同的流程要完全重復?、那為什么相同的流程要完全重復?A3A3、因為上次做過的代碼或中間表沒有保留、因為上次做過的代碼或中間表沒有保留Q4Q4、那為什么不把做過的事沉淀下來?、那為什么不把做過的事沉淀下來?A4A4、因為沒有表的復用性思維、因為沒有表的復用性思維Q5Q5、那為什么沒有表的復用性思維?、那為什么沒有表的復用性思維?A5A5、因為開發者不了解數據資產化思維、因為開發者不了解數據資產化思維思考思考1 1、思想鋼?。涸趫F隊內宣導
10、資產化、思想鋼?。涸趫F隊內宣導資產化思維思維2 2、組織變化:數倉團隊分為資產組、組織變化:數倉團隊分為資產組、應用組應用組3 3、流程改革:資產組對指標開發流程做、流程改革:資產組對指標開發流程做注解注解【落地效果】【落地效果】復利效應,研效隨著資產的沉淀,復利效應,研效隨著資產的沉淀,越做越快越做越快效率提高效率提高70%70%解決了反向依賴、數據一致性的解決了反向依賴、數據一致性的問題問題解法解法【問題一】【問題一】研效研效。使用。使用數據資產化思維,數據資產化思維,實現游戲實現游戲20%20%的的特性指標特性指標怎么做怎么做的的【措施】措施】1 1、數據資產組負責復用性資產的沉淀,只要
11、開發、數據資產組負責復用性資產的沉淀,只要開發2 2次以上的指標,都會沉淀成次以上的指標,都會沉淀成資產;資產;2 2、約束了輸入(數據源),根治了、約束了輸入(數據源),根治了“找表難找表難”問題,問題,簡化了數據應用的工作難度;簡化了數據應用的工作難度;3 3、看似鏈路長了,其實分工更明確了,整體效率、看似鏈路長了,其實分工更明確了,整體效率提高提高70%70%;舉例舉例待開發待開發的指標的指標開發者開發者理解理解指標指標找找數據源數據源開發和開發和交付交付待開發待開發的指標的指標數據資產組數據資產組理解理解指標指標找找數據源數據源偽代碼偽代碼數據應用組數據應用組開發和開發和交付交付優化之
12、前優化之前優化之優化之后后【問題一】【問題一】研效研效。使用敏捷分析對。使用敏捷分析對EDAEDA(探索性數據分析探索性數據分析)場景二次)場景二次提效提效怎么做怎么做的的盡管框架化盡管框架化+資產化,解決了絕大多數指標的研效問題,但在資產化,解決了絕大多數指標的研效問題,但在EDAEDA場景下,仍存在不足。場景下,仍存在不足。數據開發人員需要提供數據開發人員需要提供“保姆式服務保姆式服務”,應對業務人員對指標,應對業務人員對指標定義定義頻繁的、簡單的頻繁的、簡單的修改。修改。遇到的遇到的問題問題例如:對游戲大例如:對游戲大R R(高付費玩家)的分析,充值多少才算是大(高付費玩家)的分析,充值
13、多少才算是大R R玩家?一千還是玩家?一千還是一萬?一萬?由于需要由于需要EDAEDA,因此指標無法確定,需要開發者貼身,因此指標無法確定,需要開發者貼身服務。服務。那么,能否讓修改指標定義那么,能否讓修改指標定義+分析的過程,由分析分析的過程,由分析者閉環?者閉環?思考思考解法解法ClickHouseStarRocksStarRocksMPP是是硬件要求高高單表查詢極致性能優多表join差優數據湖支持中優存儲介質本地磁盤多種存算分離否是冷熱分離支持支持數據可靠性批次同步,中自動同步,優可運維性差優【問題一】【問題一】研效研效。數倉。數倉+AIAI,提升,提升SQLSQL編寫研效編寫研效怎么做
14、怎么做的的LLMLLM的風口下,如何利用大模型提升指標開發的的風口下,如何利用大模型提升指標開發的效率?效率?遇到的遇到的問題問題1 1、行業動態:模型效果提升變慢,工程化應用、行業動態:模型效果提升變慢,工程化應用愈演愈烈愈演愈烈2 2、可行性分析:、可行性分析:LLMLLM在公共數據集下,在公共數據集下,TextToSQLTextToSQL的準確率的準確率與人類相當;但在真實數據集下,準確率不到與人類相當;但在真實數據集下,準確率不到70%70%【結論結論】LLMLLM存在存在SQLSQL編寫的想象空間,但需要人幫助編寫的想象空間,但需要人幫助LLMLLM更更清楚的理解業務數據集!清楚的理
15、解業務數據集!思考思考解法解法ODSODSD DWDWDDWSDWSADSADSODSODSD DWDWDDWSDWS語義層語義層傳統傳統數倉數倉新型新型數倉數倉問題集(問題集(“今天的今天的DAUDAU是多少?是多少?”)資產推薦資產推薦組件組件是否是否準確準確YN人工指定人工指定資產資產PromptPrompt優化優化器器LLMLLM(GPTGPT、混元)混元)是否是否準確準確【問題一】【問題一】研效研效。數倉。數倉+AIAI,提升,提升SQLSQL編寫研效編寫研效怎么做怎么做的的案例一:對業務案例一:對業務人員返回人員返回指標指標平臺或人工指定表平臺或人工指定表平臺或人工指定平臺或人工指
16、定指標指標數據純屬虛構數據純屬虛構數據純屬虛構數據純屬虛構案例二:對案例二:對分析師返回分析師返回SQLSQL【問題二】【問題二】數據一致性。使用數據一致性。使用指標原子化思想,解決指標二義性指標原子化思想,解決指標二義性問題問題怎么做怎么做的的1 1、指標同指標同義不同名,同名不同義義不同名,同名不同義2 2、不知道這個、不知道這個指標有沒有,自己隨便造指標有沒有,自己隨便造3 3、對一個新業務進行分析,沒有參考指標、對一個新業務進行分析,沒有參考指標遇到的遇到的問題問題為什么會發生上面的問題?原因為什么會發生上面的問題?原因如下:如下:1 1、指標定義沒有人統一、指標定義沒有人統一管理管理
17、2 2、指標缺乏嚴格的上線、下架、指標缺乏嚴格的上線、下架流程流程3 3、指標元數據無處可查、指標元數據無處可查思考思考解法解法業務方業務方提出指標提出指標需求需求指標指標委員會委員會評估評估合理性合理性YN指標中心做變更指標中心做變更知會知會各用戶各用戶業務方業務方查詢查詢【問題三】人肉識別異動指標【問題三】人肉識別異動指標不精確。使用不精確。使用異動告警,來提高開發人員的異動告警,來提高開發人員的業務敏感度業務敏感度怎么做怎么做的的指標波動現象頻繁出現,如何自動化識別正常波動、異常波動,指標波動現象頻繁出現,如何自動化識別正常波動、異常波動,進而主動處理進而主動處理異常問題?異常問題?難點
18、難點1 1:運營導致的波動很多,游戲天天:運營導致的波動很多,游戲天天做活動做活動難點難點2 2:超過一萬個的海量:超過一萬個的海量指標指標遇到的遇到的問題問題指標異動的指標異動的原因:原因:1 1、營銷、營銷活動帶來的指標高點,例如情人節的情侶皮膚銷售活動帶來的指標高點,例如情人節的情侶皮膚銷售量;量;2 2、ETLETL異常,例如服務器故障導致在線玩家數量異常,例如服務器故障導致在線玩家數量掉零;掉零;具體具體表現:空值、掉零、指標曲線變平、表現:空值、掉零、指標曲線變平、突增突降突增突降采?。翰扇。阂巹t監控規則監控+波形監控波形監控思考思考解法解法業務業務DBDB指標指標中心中心異動分析
19、模型異動分析模型異動異動分類分類ExemplarExemplar學習學習3sigma3sigma方法方法業務喜報業務喜報/異常異常推送推送【問題四】數據【問題四】數據安全。使用聯邦學習安全。使用聯邦學習,在合規要求下進行,在合規要求下進行交叉分析交叉分析怎么做怎么做的的在個人信息保護法、數據安全法實施之后,數據孤島在個人信息保護法、數據安全法實施之后,數據孤島現象愈演愈烈,業務團隊無法安全合規的進行交叉現象愈演愈烈,業務團隊無法安全合規的進行交叉分析。分析。egeg:20182018年年FacebookFacebook的數據泄露事件影響的數據泄露事件影響87008700萬萬用戶用戶遇到的遇到的
20、問題問題現有現有方案:方案:1 1、通過宣導、簽署保密協議等方式保障數據可控(存在、通過宣導、簽署保密協議等方式保障數據可控(存在隱患)隱患)2 2、基于、基于iptableiptable的私有化物理數據集群(運維成本的私有化物理數據集群(運維成本高)高)新思路:新思路:基于聯邦學習的多方安全計算(基于聯邦學習的多方安全計算(數據各方保有、不出庫數據各方保有、不出庫)思考思考解法解法參與方參與方A A參與方參與方B B同態加密同態加密RSARSA公鑰公鑰加密加密RSARSA私鑰私鑰解密解密數據數據A1A1數據數據A2A2數據數據A1A1同態加密同態加密數據數據B1B1對對齊齊計計算算無需申請明文無需申請明文數據權限數據權限