1、用戶畫像大數據時代下的用戶洞察 劉黎春 SNG運營部/數據中心 May 2015 目錄 用戶畫像體系 1 挑戰及解決方案 2 用戶畫像挖掘舉例 3 用戶畫像應用場景 4 SNG數據現狀 人口屬性 年齡 性別 地域 家鄉 關系鏈 QQ群 QQ關系鏈 數據現狀 移動互聯網 LBS 手機APP 移動設備 手Q游戲 游戲 端游 頁游 手游 社交&音樂 說說 相冊 QQ音樂 增值業務 QQ會員 黃鉆 綠鉆 QQ秀 QQ 月活躍8.4億+ 最高同時在線2億+ QQ空間 月活躍6.5億+ 用戶畫像體系 用戶畫像主要挑戰 1. 如何充分利用騰訊各種豐富的數據資源及之間的聯系 社交網絡 用戶群組 LBS日志 多
2、媒體數據 登錄IP UGC文本 2. 如何使用戶畫像適應各種不同的應用場景 推薦 系統 市場 營銷 廣告 定向 信用 評分 3. 如何高效的處理海量的用戶數據(超過10億的QQ用戶, 超過千億級別的各類日志數據) 用戶畫像解決方案 1. 針對不同的底層數據類型設計特定的挖掘算法,挖掘用戶的行為特征,形成底層標簽。綜合考慮不同數據來源的,形成更上層的抽象用戶標簽 2. 建立完善的用戶畫像標簽體系結構,從不同維度、粒度對用戶進行描述。 3. 搭建用戶畫像挖掘系統,基于大規模存儲和機器學習計算平臺,定期對全量用戶數據進行計算和挖掘,并提供用戶標簽的使用和查詢服務。 用戶畫像挖掘的基本框架 數據源 文
3、本分類 結構數據統計 社交網絡分析 LBS數據挖掘 底層標簽 底層標簽 底層標簽 高層標簽 社交網絡 底層標簽 底層標簽 底層標簽 底層標簽 單一數據源挖掘 標簽在社交網絡中的擴散 從底層標簽挖掘高層標簽 文本挖掘系統 QQ空間 中文分詞 token抽取 tf-idf LDA word2vec 文本預處理 特征提取 logistic regression Kernel SVM Neural Networks 文本分類 針對短文本特點,利用LDA與word2vec進行語義擴展 利用非線性分類器對神經網絡得到的特征向量進行分類 QQ群 基于LBS數據的用戶畫像挖掘 海量用戶上報LBS日志 數據清洗
4、 與匯總 LBS位置與 POI匹配 用戶-POI 場景判斷 用戶LBS 標簽挖掘 POI類型 登陸次數 時間段分布 天數分布 居住 工作 餐飲 購物 工作 程序員 社交網絡與用戶畫像 局部聚類系數: (local clustering coefficient) 反映用戶與好友關系的穩定性 及QQ用戶交友的主要目的 社團影響力 PageRank得分 1 2 3 反映用戶在社交網絡中人脈的豐富程度或重要性 利用Pagerank算法對有向圖中的所有節點進行排序,得到不同節點的影響力得分 根據用戶間的重要程度,將無向圖轉化為有向有權重的好友關系圖 用戶在社交網絡中的行為反應出現實生活中的某些特質: 基
5、于社交網絡的標簽擴散 好友關系 網絡下的 標簽傳播 算法改進: 好友關系類型對傳播的影響 好友關系的穩定性對傳播的影響 算法應用: 用戶基礎屬性優化,如年齡 用戶屬性擴散,如職業、學校等 群-用戶二 部圖下的 標簽傳播 算法改進: 針對QQ群的特殊場景設計標簽傳播算法,提升傳播效率和準確度 算法應用: 用戶屬性擴散,如職業、學校等 用戶興趣擴散,如文藝、體育等 不同數據源的融合 職業挖掘 如何判斷一個用戶工作所在的行業 思路1:根據用戶加入的QQ群文本及其他UGC進行文本分類 存在問題:加入群只能反專業業相關興趣,與職業并無絕對關系 思路2:判斷用戶工作地點,并根據工作地點推測用戶行業 存在問
6、題:同一工作地點可能存在多種不同工作行業 思路3:利用同事間好友關系網絡進行行業標簽傳播 存在問題:好友關系類型比較復雜,無法確定是否為同事 不同數據源的融合 職業挖掘 工作地點 該地點工作的用戶及社交網絡 Community Detection (FastGreedy算法) 工作社團1 工作社團2 群文本分類 IT行業 金融行業 LBS數據挖掘 根據工作社團的特殊性,將部分用戶的行業標簽擴散給全體社團成員 名稱、簡介、公告等 計算平臺與系統部署 相冊說說 APP文本 群文本 TDW數據倉庫 操作行為 LBS數據 關系鏈 原始 數據層 數據處理層 結構化數據統計 文本分詞 LBS與POI匹配
7、模型訓練 與預測層 基于Hadoop,Spark和GraphLab等計算平臺 無監督模型:word2vec, LDA,社區發現 半監督模型: 標簽傳播 監督模型:LR, Kernel SVM, Random Forest 標簽匯總層 不同算法、數據來源得到標簽進行匯總 標簽應用層 TDW 離線查詢 HBase 實時查詢(理論峰值40w/s) 外部數據 用戶畫像應用 廣點通定向投放 用戶畫像應用 騰訊征信 償還 歷史 信用 賬戶 第三方 信息 身份 特質 履約 能力 社交 關系 虛擬 財產 騰訊系 用戶資料 行為 (通訊/娛樂) 網絡 支付 金融 數據模型 社交 數據模型 數據銀行 機器學習 用戶畫像 統計學 謝謝!