《2019年房源質量打分中深度學習應用及算法優化.pdf》由會員分享,可在線閱讀,更多相關《2019年房源質量打分中深度學習應用及算法優化.pdf(45頁珍藏版)》請在三個皮匠報告上搜索。
1、2019 KE.COM ALL COPYRIGHTS RESERVED1AI選房中深度學習的實踐及優化2019 KE.COM ALL COPYRIGHTS RESERVED4目錄 為什么要做AI選房 如何做AI選房 模型演變歷程 實踐應用 總結&思考2019 KE.COM ALL COPYRIGHTS RESERVED5為什么做AI選房?2019 KE.COM ALL COPYRIGHTS RESERVED6貝殼找房發展&挑戰20萬經紀人98門店平均房源2.1萬門店10-25經紀人熟悉房源70%跨店成交占比1.87億房屋3000萬月活躍用戶需要強大的房源質量盤點工具找到好房難度大,成本高挑戰2
2、00萬貝殼全部房源2019 KE.COM ALL COPYRIGHTS RESERVED7目標&價值平臺 提升去化率經紀人 提升效率和業績客戶 降低看房成本業主 縮減銷售時長 市場需求恒定,優先成交好房核心思想 選出好房核心問題 提升帶看效率 加速成交核心價值2019 KE.COM ALL COPYRIGHTS RESERVED8人工選房方法人工選房標準每周舉行周例會討論并投票選出好房選房成本高選房帶有主觀性無法盤點所有房源質量存在問題人工選房流程2019 KE.COM ALL COPYRIGHTS RESERVED9AI選房本質上是TopN排序問題2019 KE.COM ALL COPYRI
3、GHTS RESERVED10AI選房-房源質量打分好房定義AI選房建模Y=f(X)Y:未來?天能否成交 X:最近?天房源產生的所有行為 樣本:掛牌滿?天的房源2019 KE.COM ALL COPYRIGHTS RESERVED11AI選房建模 成交/帶看具有周期性 周期性單位:周2019年3月每天的成交量和帶看量作業周期性分析時間選擇:周的倍數2019 KE.COM ALL COPYRIGHTS RESERVED12AI選房建模 Y:未來?天能否成交 X:最近?天房源產生的所有行為 樣本:掛牌滿?天的房源 時間太短:信息傳遞不充分 時間太長:-中間出現其他原因導致成交-無法及時反饋效果 綜
4、合考慮,并對比測試:選擇2周Y=f(X)時間太短:行為信息不足 時間太長:浪費機器資源 對比測試:選擇2周 Y:未來?天能否成交 X:最近?天房源產生的所有行為 樣本:掛牌滿?天的房源2019 KE.COM ALL COPYRIGHTS RESERVED13AI選房建模 Y:未來?天能否成交 X:最近?天房源產生的所有行為 樣本:掛牌滿?天的房源Y=f(X)行為特征選擇14天進行聚合 掛牌不足14天房源,行為特征信息不足 結論:選擇掛牌滿14天的房源2019 KE.COM ALL COPYRIGHTS RESERVED14模型演變歷程2019 KE.COM ALL COPYRIGHTS RES
5、ERVED15模型演變歷程v1.0初版模型系統v2.0深度學習模型v2.0+效果持續優化XGBoostDNN+RNN特征建設v1.0初版模型系統2019 KE.COM ALL COPYRIGHTS RESERVED16v1.0-初版模型系統概覽房源特征靜態特征時序特征特征處理特征提取特征組合離散化模型預測XGBoost分數映射房源質量分數M2019 KE.COM ALL COPYRIGHTS RESERVED17房源特征 6大方向設計了90維特征 靜態特征:69維 時序特征:21維 一套房源能否成交同很多因素相關客源17維性價比9維業主14維市場12維經紀人9維基本屬性29維成交2019 KE
6、.COM ALL COPYRIGHTS RESERVED18時序特征提取0510152025302018100120181002201810032018100420181005201810062018100720181008201810092018101020181011201810122018101320181014 均值 方差 極值 瀏覽 關注 IM聊天 電話 帶看 跟進 最近14天瀏覽量均值 最近7天瀏覽量均值時序特征21維提取函數8個提取特征168維2019 KE.COM ALL COPYRIGHTS RESERVED19v1.0-小結存在的問題新上房源與庫存房源在行為特征上差異巨大引
7、入新上房源,會嚴重干擾模型 很難兼容新上房源 時序數據特征爆炸時序特征進行特征提取,得到的特征數量龐大隨著迭代的進行,新加入特征邊際效應遞減,但是成本高解決的問題 人工-機器 解決了人工選房的問題 選房成本低 選房沒有主觀性 可以盤點所有房源質量2019 KE.COM ALL COPYRIGHTS RESERVED20模型演變歷程v1.0初版模型系統v2.0深度學習模型v2.0+效果持續優化XGBoostDNN+RNN特征建設2019 KE.COM ALL COPYRIGHTS RESERVED21RNNRNNLSTM2019 KE.COM ALL COPYRIGHTS RESERVED22D
8、NN2019 KE.COM ALL COPYRIGHTS RESERVED23深度學習模型結構 混合模型:DNN+RNN Deep neural networks(DNN)-全連接的多層感知機-BatchNormalization-激活層(RELU)-dropout正則化 Recurrent neural networks(RNN)-LSTM2019 KE.COM ALL COPYRIGHTS RESERVED24模型系統對比房源特征特征處理MXGBoost分數映射房源特征分數映射DNN+RNNv1.0v2.02019 KE.COM ALL COPYRIGHTS RESERVED25模型指標對
9、比v1.0v2.0AUC0.8140.831Top1000去化率30.72%+0.83%Top2000去化率25.28%+1.2%Top3000去化率22.13%+1.24%2019 KE.COM ALL COPYRIGHTS RESERVED26模型演變歷程v1.0初版模型系統v2.0深度學習模型v2.0+效果持續優化XGBoostDNN+RNN特征建設2019 KE.COM ALL COPYRIGHTS RESERVED27v2.0+:持續優化0.5%業主誠意0.5%區域競爭力特征維度現狀分析房源基本屬性可以完善補充客戶可以挖掘市場可以挖掘業主體現不完善經紀人 考慮完整性價比 考慮完整1%
10、經緯度1.5%潛在熱度2019 KE.COM ALL COPYRIGHTS RESERVED28v2.0+:持續優化業主誠意類型占比成交56%在售34%定金5%暫不出售5%2019 KE.COM ALL COPYRIGHTS RESERVED29v2.0+:持續優化 巧婦難為無米之炊:行為稀少 能做什么?業主誠意2019 KE.COM ALL COPYRIGHTS RESERVED30v2.0+:持續優化潛在熱度已有客戶潛在客戶一套房源的用戶組成結構 客戶潛在的熱度,反映市場偏好2019 KE.COM ALL COPYRIGHTS RESERVED31v2.0+:持續優化潛在熱度 單套房源的客
11、戶潛在熱度商圈偏好小區偏好居室偏好面積偏好價格偏好 對房源偏好 購房意愿強度潛在客戶對房源偏好潛在客戶購房意愿強度X()所有潛在客戶2019 KE.COM ALL COPYRIGHTS RESERVED32v2.0+:持續優化區域競爭力 是否成交與周圍競爭者有關 體現競爭力的特征 價格:總價、單價 行為:瀏覽、帶看 區域內排名(門店/商圈)2019 KE.COM ALL COPYRIGHTS RESERVED33v2.0+:持續優化經緯度房源地理位置信息 市場偏好 反映地段偏好 區域競爭力 結合體現競爭力的特征 反映某一距離范圍內的競爭力2019 KE.COM ALL COPYRIGHTS R
12、ESERVED34 指標TopN去化率N=2.5*周成交量效果評估32個城市平均值TopN去化率:31.7%自然去化率:3.8%去化率(一周平均值)2019 KE.COM ALL COPYRIGHTS RESERVED35人工選房 VS AI選房 人工選房和AI選房重合率48%三種模式下的去化率人工+AI:33%純AI:26%純人工:21%條件:基于相同的名額下進行比較人工+AI去化率33%純人工去化率21%純AI去化率26%2019 KE.COM ALL COPYRIGHTS RESERVED36實踐應用2019 KE.COM ALL COPYRIGHTS RESERVED37分數映射 模型
13、輸出 房源質量分數根據概率值排名進行映射分數分布比較穩定10分制易于業務使用每天不穩定,范圍波動大分數分布不合理不易于業務使用MinMaxScaler(1)分數映射公式2019 KE.COM ALL COPYRIGHTS RESERVED38庫存&新上房源數量分布 新上房源分數略高2019 KE.COM ALL COPYRIGHTS RESERVED39庫存&新上房源去化率 分數越高,質量越好2019 KE.COM ALL COPYRIGHTS RESERVED40了解分 分數解釋:打分是怎么計算的 如何操作可以提升打分?優質房(A)次優房(B)一般房(C)經紀人的疑問質量分數具有排序意義很難
14、引導經紀人2019 KE.COM ALL COPYRIGHTS RESERVED41雷達圖雷達圖明示數據的核心打分維度每個維度展示特征的優缺點引導經紀人,提高分數舉例:-業主誠意-性價比維度選擇正相關的核心維度2019 KE.COM ALL COPYRIGHTS RESERVED42房源質量分數-B端場景2019 KE.COM ALL COPYRIGHTS RESERVED43AI選房-B端場景輔助經紀人選房高分房源直接推為好房輔助經紀人盤房2019 KE.COM ALL COPYRIGHTS RESERVED44AI選房-C端場景2019 KE.COM ALL COPYRIGHTS RESERVED45總結&思考2019 KE.COM ALL COPYRIGHTS RESERVED46總結&思考 AI選房解決的是房地產領域的TopN排序問題 AI選房采用了DNN+RNN的混合網絡結構-DNN,靜態數據;RNN,時序數據-DNN+RNN的混合模型,提供了靜態數據+時序數據的解決方案 模型輸出值并不能直接適用于業務,需要做一些轉換-為了便于經紀人理解和指導經紀人,采用分數映射和雷達圖兩種方式2019 KE.COM ALL COPYRIGHTS RESERVED48JOIN US