(一)原始數據獲取與預處理
(1)數據獲?。焊鶕脩魠⑴c方式的不同,用戶畫像原始數據的獲取可以分為顯式獲取與隱式獲取兩種方式。顯式獲取數據是指用戶手動輸入基本信息、行為偏好等相關數據,這種方式簡單直接、數據質量較高,但需用戶主動參與,且通常能夠獲取的數據信息有限。隱式獲取數據對用戶是透明的,主要包括在用戶的交互過程中記錄用戶的信息和對用戶的行為習慣進行分析獲取用戶的特征兩種方式。由于獲取的數據越豐富,用戶畫像就越全面,在實際操作中,業界與學術界一般會將兩種數據獲取方式相結合,以便充分利用用戶留下的各種數據。
(2)數據處理:數據處理是指對獲取的原始數據進行臟數據清理,以獲得適合進行用戶畫像構建的規范化數據,主要數據處理方式包括:分詞、數據過濾、數據規范化等。分詞是針對非結構化文本數據處理必不可少的一個環節;數據過濾能夠有效的剔除臟數據,保證基礎數據可靠性;數據規范化是為了保持輸入模型數據的一致性。
(二)標簽選擇與指標體系構建
(1)標簽的選擇。標簽是將某種用戶特征通過符號進行表示,是一種關聯性很強的內容組織方式,能迅速幫我們找到合適的內容及內容分類。標簽從運算層級角度可以分為事實標簽和模型標簽,事實標簽是通過對原始數據進行統計分析得到的,比如用戶購買次數,是針對用戶一段時間內實際購買行為的統計;模型標簽是以事實標簽為基礎,通過構建其與業務問題之間的關聯關系,得到適用于用戶畫像選擇模型的標簽,比如,結合用戶實際購買次數、用戶購買產品類型、購買金額等,進行用戶購買傾向類型的識別。
(2)特征指標賦權。標簽解決的是描述問題,在實際應用中還需要解決數據間的關聯問題,所以通常將標簽作為一個體系來設計,在這個特征體系中會涉及到眾多標簽,而每個標簽的對于特定維度用戶畫像刻畫的重要程度又不盡相同,因此我們必須按照標簽對用戶畫像刻畫的重要程度為這些標簽賦權。常用的賦權方法主要包括主觀賦權法和客觀賦權法兩類??陀^賦權法主要有熵權法、相關系數法、標準離差法等,其優點是通過數學方法來確定權重,結果不依賴于人的主觀判斷,缺點在于太過依賴數據,通用性不強,無法體現不同指標的重要程度。主觀賦權法包括主觀經驗法、專家調查加權法、德菲爾法和層次分析法,前三種方法易于實現,但主觀性強;相比之下,層次分析法將定性和定量結合,不僅降低了主觀性,還能夠進行指標間的橫向比較,合理判斷各指標間的重要程度。
(三)建模方法選擇及應用實施
(1)用戶畫像建模方法。用戶畫像技術是多學科的結合,需要知識圖譜、自然語言處理、機器學習和數據挖掘等方面的知識融合。常用的用戶畫像模型主要分為文本挖掘技術、分類算法、聚類算法等三類,文本挖掘主要是針對非結構化數據的挖掘與處理,包括TF-IDF、向量空間模型、主題模型等;分類算法適用于有監督學習的用戶分類,包括人工神經網絡ANN、鄰近算法KNN、支持向量SVM等;聚類算法適用于無監督學習的用戶聚類,包括k-均值聚類算法、k-中心點算法、基于密度的聚類算法DBSCAN、層次凝聚聚類算法HAC等。
(2)用戶畫像的應用。用戶畫像的應用范圍非常廣泛,主要包括三個方面:第一,通過分析潛在用戶,針對特定用戶群體進行廣告投放,減少不必要的費用投入;第二,通過分析用戶數據的關聯性,構建面向用戶的個性化推薦系統,對服務或產品做到千人千面的定制化部署;第三,進行企業經營效果評估,完善產品運營,提升服務質量和用戶體驗,促進企業的良性發展[2]。