1、基于 DORIS 的知乎DMP 系統的架構與實踐侯容 知乎用戶理解&數據賦能研發 Leader|01背景背景DMP 業務DMP 業務流程DMP 畫像特征DMP 功能梳理02架構與實現架構與實現DMP 架構DMP 平臺功能盤點 業務向DMP 平臺功能盤點 基礎向特征數據鏈路及存儲人群定向流程03難點及解決方案難點及解決方案人群定向性能優化-第一階段人群定向性能優化-第二階段04未來展望未來展望業務向技術向目錄目錄CONTENT|背景01|DMP 業務知乎業務中存在哪些問題需要解決?為什么要建立 DMP 平臺來解決這些問題?|DMP 業務流程當前這些業務的運營流程是怎樣的?DMP 如何與業務結合并
2、賦能?|站內運營自閉環內容運營活動運營用戶運營站內向站外投放閉環增長投放站外向站內廣告閉環廣告投放DMP 畫像特征當前有哪些畫像特征?這些特征是如何分層分類的?量級如何?|3 層級特征分類一級分類 8 組二級分類 40 組標簽組 120 個性別、手機品牌、話題興趣標簽 250 萬男|女、HUAWEI|Apple、對影視內容感興趣程度高DMP 功能梳理DMP 通過設計哪些功能模塊,支持相應的業務流程?|架構與實現02|DMP 架構|DMP 通過設計怎樣的架構來降低實現業務功能的復雜度?拆分后,不同模塊的設計重心對外模塊DMP 接口:高穩定性、高并發高吞吐DMP 前臺:操作簡單,低運營使用成本DM
3、P 后臺:日常開發工作配置化,降低開發成本業務模塊人群圈選:可擴展。新增特征 0 成本,新增規則低成本。人群洞察:可擴展。新增特征 0 成本,新增洞察方式低成本。人群泛化:可擴展。新增泛化方式低成本。特征生產:擴展成本低。原子特征低成本生產,派生特征通過后臺可配置ID Mapping:屏蔽 ID 打通邏輯計算任務運維:屏蔽機器資源和任務依賴的邏輯存儲:可擴展可持續,不因業務成長而導致成本大幅增加DMP 平臺功能盤點|數據量級120 個標簽組250 萬個標簽1100 億條用戶 x 標簽的數據業務向DMP 上線至今支持了5+萬人群定向400+次人群洞察60+次人群泛化DMP 平臺功能盤點|數據量級
4、每日 2.x TB 共 5 日 11 TB(離線、實時)特征(Doris)120 個離線生產任務和 5 個實時生產任務每日 6100 次人群預估,300 個人群圈選,1-2 個人群洞察,1 個人群泛化任務基礎向特征數據鏈路及存儲|數據量級特征鏈路離線:Hive-特征抽取-離線標簽-實時:Kafka-特征抽取-實時標簽-存儲Doris用戶 x 標簽:用戶有哪些標簽(1100 億)id mapping:id 轉化寬表(8.5 億)ElasticSearch標簽枚舉表:標簽中文信息及搜索(250 萬)DMP 的批量、流式特征如何建設并落地到相應的存儲?人群定向流程人群定向分哪幾個過程?怎么做的?|標
5、簽搜索人群預估人群圈選人群泛化人群定向流程很多,以下說幾種典型的:1.標簽加購物車-圈選。2.傳種子人群-泛化。3.歷史效果人群-泛化-疊加本次運營特點-圈選。4.歷史效果人群-洞察-重新生成標簽關系-圈選-疊加歷史正向人群-泛化-限制分發條件-圈選。5.等等對標簽、歷史人群進行組合、泛化、再限制條件再圈選、洞察,最后再調整等等泛化結果生成人群、標簽難點及解決方案03|人群定向性能優化|背景和難點人群定向性能優化|第一階段人群定向性能優化第一階段 倒排索引及 id mapping|partition_sign 分區標識(日期、群組等)tag_group、tag_value_id 標簽組和標簽值
6、 idcondidence 置信度區間 50 55、55 60 members 該特征用戶 bitmap1.特征提取,生成標簽2.通過用戶、設備等基礎設施新增、獲取一個統一用戶 id3.通過統一 id 和其他信息的關聯結果生成id_mapping 表倒排索引ID Mapping人群定向性能優化第一階段 查詢邏輯變更|過濾條件從 where 條件中的 and、or、not 替換為查詢聚合函數的 bitmap_and 等。取用戶方式從 id 列表轉化為 id bitmap 結果人群定向性能優化|第二階段人群定向性能優化|第二階段 分而治之將連續一塊的用戶 id的不同 tag 的數據,都增加統一的
7、group字段進行分組。在 group 內完成交并差后,最后進行數據匯總。同時開啟多線程模式,提升每組的計算效率。人群定向性能優化|第二階段 數據預置 colocate join優化前優化后Colocate 原理未來及展望04|未來及展望業務向|目標指向能力提升目標結果與平臺由松耦合轉變為強綁定實驗與流程強綁定實驗能力與平臺由流程綁定轉變為邏輯綁定未來及展望技術向|提升查詢效率自動探測 SQL 復雜查詢條件預先合并成一個派生特征的 bitmap,預測和圈人時對復雜條件 SQL 重寫為派生特征提升導入速度Spark 直接寫 Doris Tablet 文件,并掛在到 FE01背景背景DMP 業務DMP 業務流程DMP 畫像特征DMP 功能梳理02架構與實現架構與實現DMP 架構DMP 平臺功能盤點 業務向DMP 平臺功能盤點 基礎向特征數據鏈路及存儲人群定向流程03難點及解決方案難點及解決方案人群定向性能優化-第一階段人群定向性能優化-第二階段04未來展望未來展望業務向技術向回顧回顧|非常感謝您的觀看|