《美團:2022年美團技術年貨年度合輯(1356頁).pdf》由會員分享,可在線閱讀,更多相關《美團:2022年美團技術年貨年度合輯(1356頁).pdf(1356頁珍藏版)》請在三個皮匠報告上搜索。
1、新春將至,一年一度的美團技術年貨也如約到來!時間煮雨,歲月縫花,花開無聲,花謝無語。2022這一年,我們一起經 歷了無數的悲喜,也留下了滿滿的回憶。也許生活就是這樣,只有歷盡波瀾,才能欣賞茫茫大海的遼闊和無邊,才能感受到漫天星辰的光芒和溫暖。在2023年春節到來之際,我們從去年美團技術團隊公眾號上精選了60多篇技術文章,整理制作成一本1300多頁的電子書,作為新年禮物贈送給大家。這本電子書內容覆蓋算法、前端、后端、數據、安全等多個技術領域,希望能對同學們的工作和學習有所幫助。也歡迎大家轉給更多有相同興趣、積極上進的同事和朋友們,一起切磋,共同成長。祝愿2023年,大家諸事順遂,健康平安。序算法
2、1YOLOv6:又快又準的目標檢測框架開源啦 1目標檢測開源框架 YOLOv6 全面升級,更快更準的 2.0 版本來啦 13通用目標檢測開源框架 YOLOv6 在美團的量化部署實戰 177 次 KDD Cup&Kaggle 冠軍的經驗分享:從多領域優化到 AutoML 框架 37圖神經網絡訓練框架的實踐和探索 66圖技術在美團外賣下的場景化應用及探索 83大規模異構圖召回在美團到店推薦廣告的應用 102美團搜索粗排優化的探索與實踐 116美團外賣推薦情境化智能流量分發的實踐與探索 129大眾點評搜索相關性技術探索與實踐 152美團 SemEval2022 結構化情感分析跨語言賽道冠軍方法總結
3、174檢索式對話系統在美團客服場景的探索與實踐 188端智能在大眾點評搜索重排序的應用實踐 216對話摘要技術在美團的探索(SIGIR)238異構廣告混排在美團到店業務的探索與實踐 258短視頻內容理解與生成技術在美團的創新實踐 271美團搜索中查詢改寫技術的探索與實踐 297美團內部講座|清華大學崔鵬:因果啟發的學習、推斷和決策 325NeurIPS 2021 Twins:重新思考高效的視覺注意力模型設計 339目錄iv2022年美團技術年貨美團獲得小樣本學習榜單 FewCLUE 第一!Prompt Learning+自訓練實戰 353DSTC10 開放領域對話評估比賽冠軍方法總結 368K
4、DD 2022|美團技術團隊精選論文解讀 382ACM SIGIR 2022|美團技術團隊精選論文解讀 391CVPR 2022|美團技術團隊精選論文解讀 404ACM MM&ECCV 2022|美團視覺 8 篇論文揭秘內容領域的智能科技 413前端427知識圖譜可視化技術在美團的實踐與探索 427終端新玩法:技術棧無關的劇本式引導 459自動化測試在美團外賣的實踐與落地 483深入理解函數式編程(上)512深入理解函數式編程(下)541Android 對 so 體積優化的探索與實踐 568從 0 到 1:美團端側 CDN 容災解決方案 589美團高性能終端實時日志系統建設實踐 608后端62
5、2可視化全鏈路日志追蹤 622設計模式二三事 647基于代價的慢查詢優化建議 670Java 系列|遠程熱部署在美團的落地實踐 692日志導致線程 Block 的這些坑,你不得不防 713基于 AI 算法的數據庫異常監測系統的設計與實現 775目錄2022年美團技術年貨運維/安全1277數字化新業態下數據安全創新Token 化 1277Linux 中基于 eBPF 的惡意利用與檢測機制 1293如何應對開源組件風險?軟件成分安全分析(SCA)能力的建設與演進 1328算法2022年美團技術年貨圖 1-1YOLOv6 各尺寸模型與其他模型性能對比圖 1-2YOLOv6 與其他模型在不同分辨率下性
6、能對比算法2022年美團技術年貨圖 2Roofline Model 介紹圖于是,我們基于硬件感知神經網絡設計的思想,對 Backbone 和 Neck 進行了重新設計和優化。該思想基于硬件的特性、推理框架/編譯框架的特點,以硬件和編譯友好的結構作為設計原則,在網絡構建時,綜合考慮硬件計算能力、內存帶寬、編譯優化特性、網絡表征能力等,進而獲得又快又好的網絡結構。對上述重新設計的兩個檢測部件,我們在 YOLOv6 中分別稱為 EfficientRep Backbone 和 Rep-PAN Neck,其主要貢獻點在于:引入了 RepVGG4 style 結構?;谟布兄枷胫匦略O計了 Backbo
7、ne 和 Neck。RepVGG4 Style 結構是一種在訓練時具有多分支拓撲,而在實際部署時可以等效融合為單個 3x3 卷積的一種可重參數化的結構(融合過程如下圖 3 所示)。通過融合成的 3x3 卷積結構,可以有效利用計算密集型硬件計算能力(比如 GPU),同時也可獲得 GPU/CPU 上已經高度優化的 NVIDIA cuDNN 和 Intel MKL 編譯框架的幫助。算法2022年美團技術年貨都重新設計為 RepBlock,其中 RepBlock 的第一個 RepConv 會做 channel 維度的變換和對齊。另外,我們還將原始的 SPPF 優化設計為更加高效的 SimSPPF。圖
8、4EfficientRep Backbone 結構圖Rep-PAN:在 Neck 設計方面,為了讓其在硬件上推理更加高效,以達到更好的精度與速度的平衡,我們基于硬件感知神經網絡設計思想,為 YOLOv6 設計了一個更有效的特征融合網絡結構。Rep-PAN 基于 PAN6 拓撲方式,用 RepBlock 替換了 YOLOv5 中使用的 CSP-Block,同時對整體 Neck 中的算子進行了調整,目的是在硬件上達到高效推理的同時,保持較好的多尺度特征融合能力(Rep-PAN 結構圖如下圖 5 所示)。算法2022年美團技術年貨圖 6Efficient Decoupled Head 結構圖2.3更
9、有效的訓練策略為了進一步提升檢測精度,我們吸收借鑒了學術界和業界其他檢測框架的先進研究進展:Anchor-free 無錨范式、SimOTA 標簽分配策略以及 SIoU 邊界框回歸損失。Anchor-free無錨范式YOLOv6 采用了更簡潔的 Anchor-free 檢測方法。由于 Anchor-based 檢測器需要在訓練之前進行聚類分析以確定最佳 Anchor 集合,這會一定程度提高檢測器的復雜度;同時,在一些邊緣端的應用中,需要在硬件之間搬運大量檢測結果的步驟,也會帶來額外的延時。而 Anchor-free 無錨范式因其泛化能力強,解碼邏輯更簡單,在近幾年中應用比較廣泛。經過對 Anch
10、or-free 的實驗調研,我們發現,相較于算法2022年美團技術年貨3.實驗結果經過以上優化策略和改進,YOLOv6 在多個不同尺寸下的模型均取得了卓越的表現。下表 1 展示了 YOLOv6-nano 的消融實驗結果,從實驗結果可以看出,我們自主設計的檢測網絡在精度和速度上都帶來了很大的增益。表 1YOLOv6-nano 消融實驗結果下表 2 展示了 YOLOv6 與當前主流的其他 YOLO 系列算法相比較的實驗結果。從表格中可以看到:表 2YOLOv6 各尺寸模型性能與其他模型的比較 YOLOv6-nano 在 COCO val 上 取得了 35.0%AP 的精度,同時在 T4 上算法20
11、22年美團技術年貨同時也歡迎社區同學加入我們,共同建設一個適合工業應用的更快更準的目標檢測框架。5.參考文獻1 YOLOv5,https:/ YOLOX:Exceeding YOLO Series in 2021,https:/arxiv.org/abs/2107.084303 PP-YOLOE:An evolved version of YOLO,https:/arxiv.org/abs/2203.162504 RepVGG:Making VGG-style ConvNets Great Again,https:/arxiv.org/pdf/2101.036975 CSPNet:A New
12、Backbone that can Enhance Learning Capability of CNN,https:/arxiv.org/abs/1911.119296 Path aggregation network for instance segmentation,https:/arxiv.org/abs/1803.015347 OTA:Optimal Transport Assignment for Object Detection,https:/arxiv.org/abs/2103.142598 Computer Architecture:A Quantitative Approa
13、ch9 SIoU Loss:More Powerful Learning for Bounding Box Regression,https:/arxiv.org/abs/2205.127406.作者簡介楚怡、凱衡、亦非、程孟、秦皓、一鳴、紅亮、林園等,均來自美團基礎研發平臺/視覺智能部。算法2022年美團技術年貨表 1YOLOv6 各尺寸模型與其他 YOLO 系列的性能對比結果注:YOLOv6 系列模型均在訓練 300epoch 且不使用預訓練模型或額外檢測數據集下獲得,“”表示采用了自蒸餾算法,“”表示從官方代碼庫對發布模型進行重新測評的指標。以上速度指標均在 T4 TRT7.2 環境下測
14、試。本次版本升級,主要有以下更新:性能更強的全系列模型1.針對中大型模型(YOLOv6-M/L),設計了新主干網絡 CSPStackRep,它在綜合性能上比上一版的 Single Path 結構更具優勢。2.針對不同網絡,系統性地驗證了各種最新策略/算法的優劣,綜合精度和速度,為每類網絡選擇合適的方案。同時將模型整體訓練時間減少了 50%,極大地提升了模型的訓練效率。3.引入自蒸餾思想并設計了新的學習策略,大幅提升了 YOLOv6-M/L 的模型精度。算法2022年美團技術年貨表 2YOLOv6-S 量化方案與 PaddleSlim 應用于 YOLO 系列模型的量化效果對比注:以上速度指標均在
15、 T4 TRT8.4 環境下測試。對比方法為 PaddleSlim 30。不同之處是 PaddleSlim 使用 YOLOv6-S 1.0 版本,我們的量化方案應用于 2.0 版本。更詳盡的關于量化部署實踐的相關內容,近期會在美團技術團隊公眾號上進行推送,敬請期待。完備的開發支持和多平臺部署適配YOLOv6 支持檢測模型訓練、評估、預測以及模型量化、蒸餾等全鏈路開發流程,同時支持 GPU(TensorRT)、CPU(OPENVINO)、ARM(MNN、TNN、NCNN)等不同平臺的部署,極大簡化工程部署時的適配工作。更詳細的教程指引請移步 YOLOv6 Github 倉庫 Deployment
16、 的部分。相關論文1 RepOptimizer:Re-parameterizing Your Optimizers rather than Architectures算法2022年美團技術年貨圖 1多分支結構重參數化過程(A)結構變化(B)參數變化(來源:2)2.量化方案實戰2.1重參數化優化器YOLOv6 網絡中大量使用重參數化結構,在提高模型訓練精度的同時能夠顯著降低模型部署推理延時,但也帶來了模型量化部署方面的難題。對重參數化網絡的直接量化一般會帶來不可接受的精度損失,例如 RepVGG-B1 2 網絡在 ImageNet 數據集上的浮點精度為 78.42%,采用 TensorRT 后量
17、化(PTQ)的量化模型精度則降低為 54.55%。此外,由于重參數化結構在訓練和部署時結構不同,因此無法直接適配現有的量化感知訓練(QAT)方法,如何使用 QAT 方法來提高 YOLOv6 量化模型的精度,同樣存算法2022年美團技術年貨示),通過梯度掩碼(Gradient Mask)的方式在網絡訓練反向傳播的過程中加入先驗,保證了訓練精度可達到 RepVGG 相近的水平,而網絡結構則在訓練和推理階段始終保持普通的 VGG 結構,這種訓練方法請參考 RepOpt 3。該工作中提出的 RepOpt-B1 網絡模型,在浮點精度與 RepVGG-B1 基本一致的情況下,量化模型精度提升超過 20%,
18、極大地改善了重參數化網絡的量化掉點問題。此外,RepOpt模型的訓練速度快,內存占用也比較低。圖 3RepVGG 和 RepOpt 結構示意圖2.1.2RepOpt版本的PTQ我 們 實 現 了 RepOpt 版 本 的 YOLOv6s 網 絡(YOLOv6s_repopt),達 到 了 與 YOLOv6s_repvgg 一致的浮點精度 42.4%(300 epochs),兩個版本的網絡結構在部署階段保持一致。我們首先分析了 YOLOv6s_repopt 模型的數據分布特征。如圖 2 所示,給出了“Rep_p4.block.0.rbr_reparam”層的特征圖數值分布直方圖,可以看到數值緊密
19、分布在 0,10 的區間內,相比 YOLOv6s_repvgg 的數值分布算法2022年美團技術年貨圖 4RepVGG 和 RepOpt 結構的 QAT 過程示意圖如圖 4(右)所示,對 RepOpt 的卷積等算子加入偽量化節點進行量化感知訓練,提升量化模型精度,然后直接部署該量化模型,而不需要再進行模型融合的操作。后文,我們將給出具體的 QAT 算法及對模型精度的提升結果。2.2基于量化敏感度分析的部分量化YOLOv6s_repopt 在 PTQ 后的 mAP 達到了 40.9%,雖然比之前的 35.0%有了很大的改善,但仍然有 1.5%的精度損失,還無法滿足業務需求。因此,我們采用了部分量
20、化(Partial PTQ),一種使網絡中的部分量化敏感層恢復浮點計算,來快速恢復量化模型精度的方法。首先需要對網絡中的每一層都進行量化敏感度分析。我們在 YOLOv6s-repopt 網絡上對常用的敏感度分析方法均方誤差(MSE)、信噪比(SNR)、余弦相似度(Cosine Similarity)進行了對比測試。量化校準(calibra-tion)測試使用 4 個 batch 的數據,敏感度計算用 1 個 batch,batch 大小設置為 32。測試時,每次只對一層進行量化,獲取該層的激活數據后計算敏感度數值,代表了該層的量化敏感度。作為對比,我們可以直接計算網絡在 COCO val 數據
21、集上的 mAP,使用檢測精度作為該層的量化敏感度,即檢測精度越高,該層敏感度越低(下文稱為 mAP 方法)。算法2022年美團技術年貨表 3使用不同量化敏感指標得到的 Top-6 敏感層及部分量化精度對比2.3基于通道蒸餾的量化感知訓練至此,我們優化后的 PTQ 的精度達到了 42.0%,進一步提高模型精度需要引入量化感知訓練(QAT)。量化感知訓練(Quantization Aware Training,QAT)可以改善 PTQ 量化精度損失,通過在訓練過程中對卷積等算子加入偽量化操作(如圖 4 所示),使得網絡參數能更好地適應量化帶來的信息損失,從而顯著降低量化后的精度損失。模型蒸餾作為一
22、種有效的提升小模型精度的方法,在 QAT 過程中被廣泛使用,來提升量化模型的精度。以下,我們將探索針對 YOLOv6 網絡的量化感知訓練方法。2.3.1通道蒸餾傳統的分類網絡在蒸餾時,往往對最后一層輸出的 logits 進行蒸餾;但是在檢測網絡中一般采用“特征圖”蒸餾的方法,直接讓學生網絡(student)輸出的特征圖擬合教師網絡(teacher)輸出的特征圖(一般不會選取整個特征圖,而是一些感興趣區域)。這種方法的缺陷是特征圖中的每個 pixel 對蒸餾的損失貢獻相同。我們采用了每通道分布蒸餾 6,即讓 student 輸出的每個通道的分布擬合 teacher 輸出的每個通道的分布。兩種方法
23、的區別如下圖 6 所示:算法2022年美團技術年貨如下表 4 所示,在 Partial QAT 中引入通道蒸餾方案(CW),量化精度進一步提升了 0.3%。表 4Partial QAT 使用通道蒸餾提升對比3.部署時優化3.1圖優化量化部署時,可以直接利用 TensorRT 的 PTQ 接口進行生成量化引擎,但是這種方法往往精度損失較大。因此,一般要先進行 QAT,使量化模型精度滿足業務需求,然后導出帶有“Quant”、“DeQuant”節點的 ONNX,最后再利用 TensorRT 構建量化引擎。我們發現這兩種方案最終生成的圖結構并不相同,導致部署模型的實際運行效率存在很大的差異,通常 QA
24、T 方法生成的模型效率更低。我們在 NVIDIA T4 機器上對量化模型進行了對比測試(見下表 5)。盡管 QAT INT8 模型的 QPS 比 FP16 高了 27%,但是離 PTQ INT8 還有較大差距。我們對此現象進行了細致的分析,發現原因是 QAT 引入的“Quant”,“DeQuant”節點打破了原有 TensorRT 的融合策略,導致了很多算子無法融合,從而影響了最終量化引擎的性能。在這一節中,我們以 YOLOv6s_repopt 為例,展示一種定位具體瓶頸的圖優化方法。在量化實踐中,圖優化是一個很實用的手段,我們可以依法炮制,提升模型的 QPS。算法2022年美團技術年貨圖 8
25、permutationKernelPLC3 操作定位3.1.2圖結構分析為什么 QAT INT8 會有大量的 permutationKernelPLC3 操作?我們利用 trtexec 和 pltEngine 工具,畫出了 PTQ INT8 和 QAT INT8 的計算圖,并進行了仔細的分析。下圖 9 是其中一個子圖的對比:算法2022年美團技術年貨通過分析 ONNX 圖結構,我們發現了 QAT INT8 引擎中 neck.reduce_layer1.conv 輸出為 FP32,并且為兩個分支保留了 quantize_scale_node 的原因。因為 neck.upsample1.upsam
26、ple_transpose 分支的輸入量化 scale 為 0.083,而 neck.Rep_n3.conv1 分支的輸入量化 scale 為 0.105,這兩個節點輸入尺度是不同的,導致 neck.reduce_layer1.conv 無法直接輸出為 INT8??梢钥闯?,對于同一個輸出,輸入到多路分支后為何 scale 不同的,原因是右邊的分支經過了 concat 操作,會導致輸出的數據分布發生變化,再進行激活校準(Activation Calibration)時,會得到的不同的最佳截斷值(Activaition Max)。3.1.3圖結構優化根據上面的分析,如果一個節點的輸出,輸入到不同的
27、分支節點中,并且分支節點的量化 scale 不同,則 quantize_scale_node 節點無法融合,進而導致了額外的開銷。如何解決這個問題?我們使用了一個簡單的方法,就是強制使所有分支節點的量化 scale 相同(根據經驗,在同一數量級上的 scale 可以安全合并),即直接修改 QAT 網絡中的 Quantizer 節點的參數。我們整理了 YOLOv6s_repopt 中所有需要進行 scale 融合的節點(如表 7 所示),由于 TensorRT 的 8 bit 的量化范圍是-127,127,所以只需要將多路分支的 Activation Amax 設為同一個值,一般取多路分支中的最
28、大值。算法2022年美團技術年貨圖 11圖優化后 INT8 圖節點變化我們測試了經過圖優化的 QAT 模型,QPS 達到了 528,性能非常接近 PTQ 的 556,而且 mAP 依然保持優化前的 42.1%。表 8圖優化后 QPS 對比3.2線上服務優化我們在 NVIDIA T4 服務器上進行了端到端的吞吐測試,利用“多實例”并發處理的技術,YOLOv6s_repopt INT8 QPS 達到了 552,相較 FP16 提升了 40%。我們對服務器的各項指標進行了監測,發現此時 T4 GPU 的利用率只有 95%,還有壓榨空間,而 16 核 CPU 利用率已經超過了 1500%,幾乎滿負荷運
29、轉。我們推測整個線上服務的“瓶頸”可能在 CPU,而圖片預處理會使用大量 CPU 資源。表 9服務器資源配置算法2022年美團技術年貨圖 13使用 DALI 后吞吐測試提升對比4.總結綜上所述,本文基于 YOLOv6 V1.0 版本,以 YOLOv6s 為例探討了基于重參數化結構設計的 2D 檢測模型的量化難點和具體方案,在模型精度基本保持的前提下,通過量化加速,提升了約 40%的 QPS。部署時的預處理優化則額外提升了 214%,極大地提升了工業部署吞吐能力。下表列出了本文嘗試的方法及疊加效果。算法2022年美團技術年貨表 12YOLOv6-S V2.0 量化效果我們希望通過分享本文的實踐,
30、進一步推動最新通用目標檢測算法的落地。未來,我們會和業界同行一道,探索更優的量化方案,持續提升量化精度和推理速度,助力降本增效,深化業務價值。5.參考文獻1 YOLOv6:又快又準的目標檢測框架開源啦2 RepVGG:Making VGG-style ConvNets Great Again,https:/arxiv.org/abs/2101.036973 ReOpt:Re-parameterizing Your Optimizers rather than Architectures4 SNR:https:/ 2b75e66/ppq/quantization/measure/norm.py5
31、 Nsight-systems:https:/ Channel-wise Knowledge Distillation for Dense Prediction,https:/arxiv.org/abs/2011.132567 YOLOv6:A Single-Stage Object Detection Framework for Industrial Applications,https:/arxiv.org/abs/2209.029766.本文作者慶源、李亮、奕鐸、張勃、王新、祥祥等,來自美團基礎研發平臺數據科學與平臺部和視覺智能部。算法2022年美團技術年貨球幾十萬用戶,通過高額獎金與分
32、享氛圍產出了大量優秀算法方案,例如 Heritage Health 獎金高達三百萬美元。目前,Kaggle 比賽在艾滋病研究、棋牌評級和交通預測等方面均取得了突出成果,得益于此,Kaggle 平臺后來被 Google 公司收購。ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)是數據挖掘領域的國際頂級會議。KDD Cup 比賽是由 SIGKDD 主辦的數據挖掘研究領域的國際頂級賽事。從 1997 年開始,每年舉辦一次,是目前數據挖掘領域最具影響力的賽事。該比賽同時面向企業界和學術界,云集了世界數據挖掘界的頂尖專家、學者、工程師、學生等參加,為數據挖掘從業者們提供了一個學術交流和研
33、究成果展示的平臺。通過分析不難發現,KDD Cup 舉辦 20 年來,一直緊密結合工業界前沿與熱點問題,演進主要分為三個階段。第一階段從 2002 年左右開始,專注于互聯網的熱點推薦系統方面問題,包括推薦、廣告,行為預測等;第二階段聚焦在傳統行業問題,比較關注教育、環境、醫療等領域;而在第三階段,自2019年以來,重點關注非監督問題,例如 AutoML、Debiasing、強化學習等問題,這類比賽的共同特點是通過以前方法難以解決現有的新問題。這三個階段趨勢也一定程度反應著當前工業界與學術界的難點與重點,無論從方式、方法,還是從問題維度,都呈現出從窄到寬,從標準向非標準演進的趨勢。圖 2KDD
34、Cup 近 20 年問題趨勢本文會先介紹筆者的 7 次 KDD Cup/Kaggle 比賽冠軍的方案與理解,問題涉及推薦、廣告、交通、環境、人工智能公平性等多個領域問題。接著會介紹在以上比賽中發揮關鍵作用的 AutoML 技術框架,包括自動化特征工程,自動化模型優化,自動化算法2022年美團技術年貨2.1推薦系統問題本節主要介紹 Kaggle Outbrain Ads Click Prediction 和 KDD Cup 2020 Debias-ing 比賽。二者任務都是面向用戶下一次點擊預估問題,但因為應用場景與背景的不同,存在著不同的挑戰:前者的數據規模龐大,涉及到數億個用戶在千級別數量異
35、構站點上的數十億條瀏覽記錄,對模型優化、融合有著嚴格的要求;后者則尤為關注推薦系統中的偏差問題,要求參賽選手提出有效的解決方案,來緩解選擇性偏差以及流行度偏差,從而提高推薦系統的公平性。本節將分別介紹這兩場比賽。Kaggle Outbrain Ads Click Prediction:基于多層級多因子的模型融合方案競賽問題與挑戰:競賽要求在 Outbrain 網頁內容發現平臺上,預估用戶下一次點擊網頁廣告,具體參考:Kaggle Outbrain 比賽介紹詳情26。參賽選手會面對以下兩個重要挑戰:異構性:平臺提供需求方平臺(DSP)廣告投放服務,涉及到用戶在數千個異質站點上的行為刻畫。超高維稀
36、疏性:特征高維稀疏,數據規模龐大,包含了 7 億個用戶、20 億次瀏覽記錄?;诙鄬蛹壎嘁蜃拥哪P腿诤戏桨福横槍Ρ敬钨愵}的挑戰,我們隊采用了基于多層級多因子的模型融合方案來進行建模。一方面對于異構站點行為,單一模型不易于全面刻畫,另一方面,億級別的數據規模給多模型的分別優化帶來了較大的空間。由于 FFM 具有強大的特征交叉能力以及較強的泛化能力,能更好地處理高維稀疏特征。因此,我們選擇該模型作為融合基模型的主模型。模型融合通過不同模型學習到有差異性的內容,從而有效挖掘用戶在不同站點上的異質行為。模型融合的關鍵是產生并結合“好而不同”的模型34?;诙鄬蛹壎嘁蜃拥哪P腿诤戏桨甘紫韧ㄟ^模型差異性、
37、特征差異性多個角度來構造模型之間的差異性,然后通過多層級以及使用基學習器的多特征因子(模型 pCTR 預估值、隱層表征)進行融合:算法2022年美團技術年貨 賽題只提供點擊數據,構造候選集時需要考慮選擇性偏差問題。不同商品熱度差異大,商品歷史點擊次數呈現一個長尾分布,數據存在嚴重的流行度偏差問題,并且評估指標 NDCG50_half 用于考察低熱度商品的排序質量?;?i2i 游走的 Debiasing 排序方案:我們的方案為基于 i2i 建模的排序框架。如圖所示,整體流程包含四個階段:i2i 構圖與多跳游走、i2i 樣本構建、i2i 建模以及 u2i 排序。前兩個階段解決了選擇性偏差問題,后
38、兩個階段則側重于解決流行度偏差問題。圖 4基于 i2i 的建??蚣艿谝粋€階段是基于用戶行為數據和商品多模態數據構建 i2i 圖,并在該圖上多跳游走生成候選樣本。這種方式擴大了商品候選集,更好地近似系統真實候選集,緩解了選擇性偏差。第二個階段是根據不同 i2i 關系計算 i2i 候選樣本的相似度,從而決定每種 i2i 關系下候選樣本的數量,最終形成候選集。通過不同候選的構造方法,探索出更多有差異的候選商品,可以進一步緩解選擇性偏差問題。第三個階段包括基于 i2i 樣本集的自動化特征工程,以及使用流行度加權的損失函數進行消除流行度偏差的建模。自動化特征工程中包含了商品多模態信息的刻畫,這類信息能夠
39、反應商品在熱度信息以外的競爭關系,能夠一定程度上緩解流行度偏差問題。而流行度加權的損失函數定義如下:算法2022年美團技術年貨如圖 5 所示,站點 2 在 05-05 以及 05-06、05-07 之間存在大量的波動和突變??臻g性:不同站點上污染物濃度有明顯差異,并且和站點之間的拓撲結構相關聯。如圖所示,站點 1、2 的波形有較大差別,但是在 05-07 產生了相同的凸起。圖 5時空挑戰圖基于 Spatial-temporalGatedDNN 與 Seq2Seq 的模型融合方案9:為了強化時間序列和空間拓撲的建模,我們引入了 Spatial-temporal Gated DNN 與 Seq2S
40、eq兩個模型,并與 LightGBM 一起構建模型融合方案,具體如下。(1)Spatial-temporalGatedDNN:對于時序問題而言,由于未來預測臨近時間點的統計特征值差異較小,直接使用 DNN 模型會使得不同小時和站點的預測值差異性小,因此我們在 DNN 中引入 Spatial-temporal Gate 來突出時空信息。如下圖 6所示,Spatial-temporal Gated DNN 采用了雙塔結構,拆分了時空信息和其他信息,并且通過門函數來控制和強調時空信息,最終能夠提高模型對時空的敏感度,實驗中發現引入 swish 激活函數 f(x)=x sigmoid(x)能提升模型精
41、度。算法2022年美團技術年貨進行拼接以及歸一化,從而實現時空聯合建模。圖 7Seq2Seq 模型(3)模型融合:我們隊采用了 Stacking 融合的方式,單個學習器通過不同模型、數據、建模方式來構建差異性。LightGBM 模型使用了天氣質量、歷史統計、空間拓撲等特征,Spatial-temporal Gate 則是引入了門結構,強化了時空信息。Seq2Seq利用序列到序列的建模方式,刻畫了序列的連續性、波動性。最后使用了基于約束的線性模型將不同的單個學習器進行融合。更多詳情,大家可參考 SIGKDD 會議論文:AccuAir:Winning Solution to Air Quality
42、 Prediction for KDD Cup 2018。KDD Cup 2017 Traffic Flow Prediction:基于交叉驗證降噪與多損失融合的高穩定性交通預測方案競賽問題及挑戰:競賽目標是以 20 分鐘為時間窗口,給定前 2 小時高速公路入口到關卡的行駛狀況,預測未來 2 小時的行駛狀況,具體可參考:KDD Cup 2017 比賽介紹詳情29。競賽根據行駛狀況的不同,分為了行駛時間預測和交通流量預測兩個賽道。參賽選手需要解決以下兩個挑戰:算法2022年美團技術年貨助模型關注于小值同時更魯棒,損失使用 MAE、MSE 等多種,樣本權重上利用標簽對樣本進行加權等,我們在 XGB
43、oost、LightGBM、DNN 上引入這些處理生成多個不同模型進行模型融合,優化極值點問題,達到魯棒效果。備注:特別感謝共同參加 KDD Cup 2017 的陳歡、燕鵬、黃攀等同學。2.3自動化機器學習問題自動化機器學習問題10主要包括 KDD Cup 2019 AutoML 和 KDD Cup 2020 AutoGraph 比賽。該類問題,一般具有以下三個特性:數據多樣性強:15+個數據集,來源于不同領域問題,且不會標識數據來源,要求選手設計的自動化機器學習框架能夠兼容多領域的數據,并對不同領域數據做出一定的適配。自動化的魯棒性:公共排行榜與私有榜評測數據不一樣,最終評分按照多個數據集的
44、平均排名/得分得到,要求能夠在不曾見過的數據集上得到魯棒的結果。性能限制:與現實問題搜索空間有較大對應,需要在有限時間和內存上求解。KDD Cup 2020 AutoGraph:基于代理模型的自動多層次圖學習優化方案競賽問題及挑戰:自動化圖表示學習挑戰賽(AutoGraph)是第一個應用于圖結構數據的 AutoML 挑戰,詳情請見 KDD Cup 2020 AutoGraph 比賽介紹30。競賽選擇圖結點多分類任務來評估表示學習的質量,參與者需設計自動化圖表示學習 11-13解決方案。該方案需要基于圖的給定特征、鄰域和結構信息,高效地學習每個結點的高質量表示。比賽數據從真實業務中收集,包含社交
45、網絡、論文網絡、知識圖譜等多種領域共 15 個,其中 5 個數據集可供下載,5 個反饋數據集評估方案在公共排行榜的得分,剩余 5 個數據集在最后一次提交中評估最終排名。算法2022年美團技術年貨基于代理模型的自動化多層次模型優化14圖 10AutoHEnsGNN 框架多類別層次化圖模型優化:(1)候選圖模型的生成:現實世界中的圖通常是多種屬性的組合,這些屬性信息很難只用一種方法捕捉完全,因此,我們使用了基于譜域、空域、Attention 機制等多種不同類型的模型來捕捉多種屬性關系。不同模型在不同數據集上效果差異較大,為了防止后續模型融合時加入效果較差的模型,會對 GCN、GAT、APPNP、T
46、AGC、DNA、GraphSAGE、GraphMix、Grand、GCNII 等候選模型進行快速篩選,得到模型池。(2)層次模型集成:這部分共包含兩個維度的集成。第一層為模型自集成,為了解決圖模型對初始化特別敏感,同種模型精度波動可達 1%的問題,采用了同模型的自集成,同時生成多個同種模型,并取模型預測的平均值作為該種模型的輸出結果,成功降低了同種模型方差,提高了模型在不同數據集上的穩定性。第二層為不同模型集成,為了有效地利用來自本地和全球鄰域的信息,充分捕獲圖的不同性質,我們采用加權集成了不同種類的圖模型,進一步提高性能。同時針對在參數搜索階段,需要同時優化模型內參數,以及多種模型加權集成參
47、數,使用模型集成參數和模型內參數通過互迭代的梯度下降進行求解,有效提升了速度。算法2022年美團技術年貨3.AutoML 技術框架3.1自動化框架概述圖 12AutoML 整體框架經過上述的多場比賽,團隊在多領域建模中不斷總結與優化,抽象出其中較為通用的模塊,總結得到針對數據挖掘類問題時的一套較為通用的解決方案AutoML 框架。該框架包含數據預處理,自動化特征工程15和自動化模型優化16-20三個部分。其中數據預處理部分主要負責特征分類、數據編碼、缺失值處理等常見的基礎操作,不過多展開。主要針對 AutoML 框架的自動化特征工程和自動化模型優化兩個部分進行詳細介紹。算法2022年美團技術年
48、貨進行高階組合,基于 K 階(K=1)的 K+1 高階組合循環迭代,能夠產出大量人為考慮不足的高階特征。高階特征算子按多實體結果是否完全匹配,分為 Match 方式匹配全部實體,All方式匹配部分實體,得到另一實體的全部值的計算結果,這樣兩種特征產出方式。下圖中舉例說明,Match 方式匹配用戶與時間段兩個實體,得到用戶在該時間段的平均訂單價格;All 方式則只匹配用戶,得到用戶在所有時間段的平均訂單價格。圖 14高階算子特征產出方式相較于 DeepFM、DeepFFM 等算法,自動化特征工程具有三個方面的優勢。首先在存在多表信息的情況下,容易利用非訓練數據的信息,如在廣告場景中,通過特征可以
49、利用自然數據的信息,相比直接使用自然數據訓練,不容易產生分布不一致等問題;其次,只通過模型自動交叉學習,對于某些強特征交叉沒有手動構造學習得充分,許多顯示交叉特征如用戶商品點擊率等往往有較強的業務意義,讓模型直接感知組合好的特征往往比自動學習特征間的關系更為簡單;第三方面對于許多高維度稀疏ID 特征,如億級別以上的推薦或廣告場景中,DeepFM、DeepFFM 對于這些特征的學習很難充分,自動化特征工程能給這些稀疏 ID 構造很強的特征表示。算法 樣本不平衡率 葉子數 行列采樣等。DNN:學習率 Embedding 維度 全連接層數和大小。值得一提的是,超參搜索在整個迭代過程中會進行多次,同時
50、迭代前期與迭代后期參數搜索策略也有所不同,迭代前期,一般會選擇更大的學習率,更小 Embedding 維度和全連接層數等,降低模型參數量加快迭代速度,而在后期則選擇更多參數,獲得更好的效果。模型融合:模型融合的關鍵點在于構造模型間的差異性,LightGBM 和 DNN的模型本身差異性較大,同種模型中差異性主要體現在,數據差異、特征差異、超參差異三個方面。數據差異主要通過自動化行采樣實現,自動生成不同數據采樣的模型;特征差異通過自動化列采樣,生成特征采樣的模型;超參差異通過高優參數擾動生成,在最優局部進行參數組網格局部擾動。模型融合方562022年美團技術年貨法一般 Blending、Stack
51、ing 或簡單 Mean Pooling 等,融合前進行需要進行模型粒度剪枝(去除效果較差的模型避免影響融合效果)與正則化。3.4AutoML 框架近期實戰:MDDCup2021 美團外賣圖譜推薦比賽冠軍方案在 2021 年 8-9 月美團舉行的內部算法比賽 MDD Cup 2021 中,美團到店廣告平臺質量預估團隊應用了 AutoML 框架并獲得了冠軍。下面結合這場比賽,介紹框架在具體問題中的應用。MDD Cup 2021 需要參賽者根據用戶、商家在圖譜中的屬性、用戶的歷史點擊、實時點擊以及下單行為,預測下次購買的商家。包含四周的 135 萬個訂單行為,涉及20 萬個用戶,2.9 萬個商家,
52、17.9 萬個菜品,訂單關聯菜品數據共 438 萬條,構成知識圖譜。使用 Hitrate5 作為評價指標。數據預處理階段:進行特征分類、異常值處理、統一編碼等操作。主要涉及用戶(用戶畫像特征等)、商家(品類、評分、品牌等)、菜品(口味、價格、食材等)三種實體數據及點擊、購買(LBS、價格、時間等)兩類交互數據,對原始數據進行特征分類、數據編碼、缺失值處理等常見預處理操作。自動化特征工程:一、二階特征算子,首先對于類別、數據、時序、標簽四類原始特征,按照可抽象的三種實體及兩類交互數據進行一、二階特征交叉,運用頻數編碼、目標編碼與時序差分算子操作,在多時段上統計得到一、二階統計特征。舉例說明,如頻
53、數編碼可計算用戶點擊某商家的次數、用戶購買商家品類的 nunique 值,用戶在某場景的下單數量等。目標編碼可計算用戶的平均訂單價格,用戶點擊次數最多的商家品類等。時序差分可計算如用戶購買某口味菜品的平均時間差等。多時段統計則意味著上述特征均可在不同時段上計算得到。算法2022年美團技術年貨4.通用建模方法與理解本節會就比賽的通用建模方法進行介紹,即面對一個新問題,如何進行快速高效的整體方案設計。4.1建??蚣芘c方法在面對新問題時,我們主要將技術框架分為以下三個階段,即探索性建模、關鍵性建模、自動化建模。三個階段具有逐漸深化,進一步補充的作用。圖 17三階段算法建模探索性建模:比賽前期,首先進
54、行問題理解,包括評估指標與數據表理解,然后進行基礎的模型搭建,并線上提交驗證一致性。在一致性驗證過程中往往需要多次提交,找到同線上指標一致的評估方式。探索性建模的核心目標是要找到迭代思路與方法,所以需要對問題做多方面探索,在探索中找到正確的方向。一般在非時序問題,采用 N-fold 方法構造多個驗證集,并可以靈活變換生成種子,得到不同的集合。而在時序問題,一般會采用滑窗方式,構造同線上提交時間一致的驗證集,并可以向前滑動 k 天,來構造 k 個驗證集。在多個驗證集評估中,可以參考均值,方差,極值等參考指標綜合評估,得到同線上一致的結果。關鍵性建模:比賽中期,會就關鍵問題進行深挖,達成方案在榜單
55、 Top 行列,在問題理解方面,會盡可能就評估方式進行損失函數自定義設計。分類問題優化,可以結合 Logloss、AUC Loss21、NDCG Loss 等不同損失函數進算法2022年美團技術年貨實際系統。在空氣質量預測中,我們采用了時空結合的 Spatial-temporal Gated DNN 網絡進行有效建模,同空氣質量問題相接近,在美團的實際業務中也面臨著時空相結合的建模問題,以用戶行為序列建模為例。我們對用戶的歷史時空信息和當前時空信息進行了充分的建模和交互24。我們分辨出用戶行為的三重時空信息,即:用戶點擊發生時的時間、用戶請求發出的地理位置、用戶所點擊的商戶的地理位置?;谏鲜?/p>
56、三重時空信息,我們提出 Spatio-temporal Activator Layer(如圖 19):三邊時空注意力機制神經網絡來對用戶歷史行為進行建模,具體通過對請求經緯度信息、商戶經緯度信息和請求時間的交互進行學習。針對空間信息交叉,我們進一步采用地理位置哈希編碼和球面距離相結合的方式;針對時間信息交叉,我們也采用絕對與相對時間相結合的方式,有效實現用戶行為序列在不同時空條件下的三邊表達。最后,經上述網絡編碼后的時空信息經過注意力機制網絡融合,得到 LBS 場景下用戶超長行為序列對不同請求候選的個性化表達。相比較而言,比賽中的 Spatial-temporal Gated DNN 更注重時
57、空融合信息對于預測值的影響,由于需要預測的時間序列問題,更側重于不同的時間、空間信息有能夠將差異性建模充分。而在美團業務中的時空網絡注重于細粒度刻畫空間信息,源于不同的球面距離,不同的區塊位置影響大,需要多重信息深度建模。更多詳情,大家可參考團隊的 CIKM 論文:Trilateral Spatiotemporal Attention Network for User Behavior Modeling in Location-based Search23。算法2022年美團技術年貨特征之間交叉,組合等復雜問題。而在小數據下,因為噪音多,不穩定性強,核心問題是模型的魯棒。高數據敏感性是方案設計
58、的關鍵。方差與偏差的平衡是后期指導優化的關鍵從誤差分解角度去理解,平方誤差可以分解為偏差(Bias)與方差(Variance)25,在中前期模型復雜度較低時,通過提升模型復雜度,能夠有效減低偏差。而在偏差已經被高度優化的后期,方差的優化是關鍵,因此在后期會通過 Emsemble 等方式,在單模型復雜度不變的基礎上,通過模型融合優化結果。AutoML 的關鍵是人為先驗的不斷減少在運用 AutoML 框架的同時,會有一些超參數等隱蔽的人為先驗,把 AutoML 技術也以模型視角來理解,同樣存在模型復雜度越高越容易過擬合的問題,迭代中的一個關鍵問題不是評估效果的好壞,而是方案是否存在不必要的超參數等
59、信息,能否不斷地簡化 AutoML 的建模,不斷地自動化,自適應適配各類問題。最后,也特別感謝 Convolution Team、Nomo Team、Getmax Team、Aister Team 等隊伍的隊友們??偨Y本文基于筆者 7 次算法比賽的冠軍經歷,分享推薦系統、時間序列及自動化機器學習等不同領域比賽中的算法經驗,接著結合具體問題介紹 AutoML 技術框架,最后總結比賽中通用的建模方案,結合工業界方案介紹其與比賽的聯系。希望文章中的一些算法比賽相關經驗能夠幫助算法愛好者更好地參與競賽,能為大家提供一些思路,啟迪更多的工程師與研究員在實際工作中取得更優結果。未來,我們團隊將持續關注國際
60、算法競賽,積極進行比賽思路與工業方案結合的嘗試,同時也歡迎大家加入我們團隊,文末附有招聘信息,期待你的郵件。算法2022年美團技術年貨16 Yao Shu,Wei Wang,and Shaofeng Cai.2019.Understanding Architectures Learnt by Cell-based Neural Architecture Search.In International Conference on Learning Representations.17 Kaicheng Yu,Rene Ranftl,and Mathieu Salzmann.2020.How to
61、 Train Your Super-Net:An Analysis of Training Heuristics in Weight-Sharing NAS.arXiv preprint arXiv:2003.04276(2020).18 Haixun Wang,Wei Fan,Philip S Yu,and Jiawei Han.2003.Mining concept-drifting data streams using ensemble classifiers.In Proceedings of the ninth ACM SIGKDD international conference
62、on Knowledge discovery and data mining.226235.19 Robi Polikar.2006.Ensemble based systems in decision making.IEEE Circuits and systems magazine 6,3(2006),2145.20 Chengshuai Zhao,Yang Qiu,Shuang Zhou,Shichao Liu,Wen Zhang,and Yanqing Niu.2020.Graph embedding ensemble methods based on the heterogeneou
63、s network for lncRNA-miRNA interaction prediction.BMC genomics 21,13(2020),112.21 Rosenfeld N,Meshi O,Tarlow D,et al.Learning Structured Models with the AUC Loss and Its Generalizations.22 Chen T,Tong H,Benesty M.xgboost:Extreme Gradient BoostingJ.2016.23 Qi,Yi,et al.“Trilateral Spatiotemporal Atten
64、tion Network for User Behavior Modeling in Location-based Search”,CIKM 2021.24 廣告深度預估技術在美團到店場景下的突破與暢想.25 Geurts P.Bias vs Variance Decomposition for Regression and ClassificationJ.Springer US,200526 Kaggle Outbrain 比賽鏈接:https:/ KDD Cup 2020 Debiasing 比賽鏈接 https:/ KDD Cup 2018 比賽鏈接:https:/www.biendat
65、a.xyz/competition/kdd_2018/.29 KDD Cup 2017 比 賽 鏈 接:https:/ KDD Cup 2020 AutoGraph 比賽鏈接:https:/www.automl.ai/competitions/3招聘信息美團到店廣告平臺算法團隊立足廣告場景,探索深度學習、強化學習、人工智能、大數據、知識圖譜、NLP 和計算機視覺前沿的技術發展,探索本地生活服務電商的價值。主要工作方向包括:觸發策略:用戶意圖識別、廣告商家數據理解,Query 改寫,深度匹配,相關性建模。質量預估:廣告質量度建模。點擊率、轉化率、客單價、交易額預估。機制設計:廣告排序機制、競價機
66、制、出價建議、流量預估、預算分配。創意優化:智能創意設計。廣告圖片、文字、團單、優惠信息等展示創意的優化。算法2022年美團技術年貨圖神經網絡訓練框架的實踐和探索作者:付浩憲鵬祥洲玉基徐灝夢迪武威1.前言萬物之間皆有聯系。圖作為一種通用的數據結構,可以很好地描述實體與實體之間的關系。例如,在社交網絡中,用圖來表示用戶與用戶之間的好友關系;在電商網站中,用圖表示用戶與商品之間的點擊購買行為;在知識圖譜構建中,還可以用圖表示實體與實體間多樣的關系。另一方面,深度學習技術在計算機視覺、自然語言處理、語音處理等領域均已取得了巨大的成功。深度學習技術將圖像、文本、語音等多種多樣的數據轉化為稠密的向量表示
67、,提供了表示數據的另一種方式。借助于硬件日益強大的計算能力,深度學習可以從海量數據中學習到數據之間復雜多樣的相關性。這會讓人不禁思考,深度學習能否應用到更廣闊的領域,比如圖?事實上,早在深度學習興起之前,業界就已經開始了圖嵌入(Graph Embedding)技術的探索1。早期的圖嵌入算法多以啟發式的矩陣分解、概率圖模型為主;隨后出現了以DeepWalk2和 Node2vec3為代表的、較為“淺層”的神經網絡模型;最后,以GCN4為代表的一系列研究工作,打通了圖信號處理與神經網絡之間的壁壘,奠定了當前基于消息傳遞機制的圖神經網絡(GNN:Graph Neural Network)模型的基本范式
68、。近年來,圖神經網絡逐漸成為學術界的研究熱點之一5。在工業界,圖神經網絡在電商搜索、推薦、在線廣告、金融風控、交通預估等領域也有諸多的落地應用,并帶來了顯著收益。由于圖數據特有的稀疏性(圖的所有節點對之間只有少量邊相連),直接使用通用的深度學習框架(例如 TensorFlow 和 PyTorch)訓練往往性能不佳。工欲善其事,必先利其器。針對圖神經網絡的深度學習框架應運而出:PyG(PyTorch Geometric)6和DGL(Deep Graph Library)7等開源框架大幅提升了圖神經網絡的訓練速度,并且算法2022年美團技術年貨(3)與業務系統無縫對接。圖神經網絡的完整落地流程至少
69、包括:基于業務數據構圖、離線訓練和評測模型、線上推理、業務指標觀測等步驟。要讓圖神經網絡技術成功落地應用,需要充分理解業務邏輯和業務需求,統一并高效地管理業務場景。同樣以美食推薦場景為例,線上日志記錄了曝光、點擊、下單等行為事件,知識圖譜提供了商家和菜品豐富的屬性數據,如何從這些異質的數據構造圖,要結合業務實際多次實驗確定。合適的工具能提升對接業務數據的效率,然而現有的圖神經網絡框架大多聚焦在模型的離線訓練和評測,缺乏此類工具。(4)研發人員易于上手,同時提供充足的可擴展性。從研發效率的角度來說,自建圖神經網絡框架的目的是減少建模中的重復工作,讓研發人員的精力集中在業務本身的特性上。因此,一個
70、“好用”的圖神經網絡框架應當易于上手,通過簡單地配置即能完成多數任務。在此基礎上,對于一些特殊的建模需求,也能提供適當的支持。1.2美團的解決方案美團搜索與 NLP 團隊在搜索、推薦、廣告、配送等業務的長期落地實踐中,總結實踐經驗,自主設計研發了圖神經網絡框架 Tulong 以及配套的圖學習平臺,較好地解決了上述問題。首先,我們對當前流行的圖神經網絡模型進行了細粒度的剖析,歸納總結出了一系列子操作,實現了一套通用的模型框架。簡單修改配置即可實現許多現有的圖神經網絡模型。針對基于子圖采樣的訓練方式,我們開發了圖計算庫“MTGraph”,大幅優化了圖數據的內存占用和子圖采樣速度。單機環境下,相較于
71、 DGL 訓練速度提升約 4 倍,內存占用降低約 60%。單機即可實現十億節點百億邊規模的訓練。圍繞圖神經網絡框架 Tulong,我們構建了一站式的圖學習平臺,為研發人員提供包括業務數據接入、圖數據構建和管理、模型的訓練和評測、模型導出上線等全流程的圖形化工具。算法2022年美團技術年貨(1)圖以及深度學習引擎我們把圖神經網絡的底層算子分為三類:圖結構查詢、稀疏張量計算和稠密張量計算。我們開發了圖計算庫 MTGraph 提供圖數據的存儲和查詢功能,深度優化了內存占用和子圖采樣速度。MTGraph 兼容 PyTorch 和 DGL,用戶可以在 MTGraph 的基礎上直接編寫基于 DGL 的模型
72、代碼。(2)Tulong 框架Tulong 框架首先封裝實現了訓練圖神經網絡所需的基本組件,包括圖和特征數據的預處理流程、子圖采樣器、通用的 GNN 模型框架,以及包括訓練和評測在內的基礎任務?;谏鲜鼋M件,Tulong 框架提供豐富的預定義模型和訓練/推理流程,用戶通過修改配置文件即可在業務數據上訓練和評測 GNN 模型。(3)圖學習平臺圖學習平臺旨在簡化離線的模型開發和迭代過程,同時簡化業務系統的對接流程。圖學習平臺提供一系列的可視化工具,簡化從業務數據接入到模型上線的全流程。下文將從模型框架、訓練流程框架、性能優化和圖學習平臺等四個方面詳細介紹各個模塊的分析和設計方案。3.模型框架我們從
73、工程實現的角度,歸納總結了當前主流圖神經網絡模型的基本范式,實現一套通用框架,以期涵蓋多種 GNN 模型。以下按照圖的類型(同質圖、異質圖和動態圖)分別討論。3.1同質圖同質圖(Homogeneous Graph)可以定義為節點集合和邊集合:,一條邊 表示節點 u 與節點 v 相連。節點和邊上往往還附加有特征,我們記$xv 為節點為節點 v 的特征,的特征,x(u,v)為邊為邊(u,v)$的特征。算法2022年美團技術年貨學術引用網絡13中包含論文、作者、機構等類型的節點,節點直接通過“論文引用其他論文”、“作者撰寫論文”、“作者屬于機構”等類型的邊相連,如下圖 2 所示:圖 2同質圖與異質圖
74、的比較我們把異質圖視為多個二分圖的疊加,每一個二分圖對應于一種邊類型。上述的學術引用網絡可以表示成“論文-引用-論文”、“作者-撰寫-論文”、“作者-屬于-機構”,共計三個二分圖,同質圖的 GNN 模型框架稍加修改即可在二分圖上應用。在此基礎上,一個節點在不同的二分圖中會產生不同的表示。我們進一步提出邊類型維度的聚合函數,用于聚合節點在不同二分圖中的表示(如下圖 3 所示)??蚣苤型瑯犹峁┻咁愋途暥染酆虾瘮档亩喾N實現,可以通過配置選項調用。例如,要實現RGCN,可以在二分圖上應用 GCN,然后在邊類型維度上取平均。算法2022年美團技術年貨圖 4離散時間動態圖 GNN 模型框架在連續時間動態圖
75、中,每條邊附有時間戳,表示交互事件發生的時刻。相比于靜態圖,連續時間動態圖中的消息函數 還依賴于給定樣本的時間戳以及邊的時間戳。此外,鄰居節點 必須與時間有關,例如鄰居節點中不能出現 t 時刻之后才出現的節點。針對此問題,我們開發了多種連續時間動態圖上的鄰居節點采樣器,可以在指定的時間范圍內,高效地采樣鄰居節點。圖 5連續時間動態圖 GNN 模型框架以上分析了同質圖、異質圖和動態圖的計算范式,我們從中抽取出通用的函數(算子),包括消息函數、聚合函數、更新函數、鄰居節點函數,并給出多種預定義的實現??蚣苡脩敉ㄟ^配置選項即可拼裝組合算子,從而實現需要的 GNN 模型。算法2022年美團技術年貨更上
76、一層,我們提供多種流程配置模板和 GNN 模型模板。模板對外暴露若干超參,例如訓練數據路徑、模型類型、學習率等參數,結合用戶指定的超參后就可以完整定義一次訓練任務。換言之,基于模板和參數即可完整復現一次 GNN 模型實驗??蚣軐馕鲞@些配置,并生成可執行的應用。舉例來說,用戶可以選擇 GraphSage 模型的配置模板,以及鏈接預測任務的訓練模板,指定模型層數和維度,以及訓練評測數據路徑,即可開始訓練基于 GraphSage的鏈接預測模型。5.性能優化隨著業務的發展,業務場景下圖的規模也愈發龐大。如何以合理的代價,高效訓練數十億乃至百億邊規模的 GNN 模型成為亟需解決的問題。我們通過優化單
77、機的內存占用,以及優化子圖采樣算法,來解決這一問題。5.1圖數據結構優化圖數據結構的內存占用是制約可訓練圖規模的重要因素。以 MAG240M-LSC 數據集13為例,添加反向邊后圖中共有 2.4 億節點和 35 億邊。在基于子圖采樣的訓練方式下,PyG 和 DGL 單機的圖數據結構均需要占用 100GB 以上的內存,其它開源框架的內存占用往往更多。在更大規模的業務場景圖上,內存占用往往會超出硬件配置。我們設計實現了更為緊湊的圖數據結構,提升了單機可承載的圖規模。我們借助圖壓縮技術降低內存占用。不同于常規的圖壓縮問題,GNN 的場景下需要支持隨機查詢操作。例如,查詢給定節點的鄰居節點;判斷給定的
78、兩個節點在圖中是否相連。我們對此提出的解決方案包括兩部分:圖數據預處理和壓縮:首先分析圖的統計特征,以輕量級的方式對節點進行聚類和重新編號,以期讓編號接近的節點在領域結構上也更為相似。隨后調整邊的順序,對邊數據進行分塊和編碼,產生“節點-分塊索引-鄰接邊”層次的圖數據文件(如下圖 7 所示)。最后,如果數據包含節點特征或邊特征,還需要算法2022年美團技術年貨圖 8圖數據結構內存占用對比5.2子圖采樣優化子圖采樣是 GNN 模型訓練的性能瓶頸之一。我們發現在某些業務圖中,子圖采樣的耗時甚至占訓練整體的 80%以上。我們分別針對靜態圖和動態圖,設計實現了多種高效的鄰居節點采樣算法。主要的優化手段
79、包括:隨機數發生器:相比于通信加密等應用,圖上的采樣對于隨機數發生器的“隨機性”并沒有苛刻的要求。我們適當放松了對隨機性的要求,設計實現了更快速的隨機數發生器,可以直接應用在有放回和無放回的采樣操作中。概率量化:有權重的采樣中,在可接受的精度損失下,將浮點數表示的概率值量化為更為緊湊的整型。不僅降低了采樣器的內存消耗,也可以將部分浮點數操作轉化為整型操作。時間戳索引:動態圖的子圖采樣操作要求限定邊的時間范圍。采樣器首先對邊上的時間戳構建索引,采樣時先根據索引確定可采樣邊的范圍,然后再執行實際的采樣操作。算法2022年美團技術年貨間內共同點擊商家的關系。除此之外,還可以引入額外的數據,比如商家的
80、地理位置、商家在售的菜品等。究竟使用何種構圖方案,需要經過實驗才能確定。對此,圖學習平臺提供了圖形化的構圖工具(如下圖 10 所示),幫助用戶梳理構圖方案;同時還提供圖數據集的版本管理,方便比較不同構圖方案的效果。圖 10圖形化的構圖工具 實驗管理:確定圖數據之后,建模方案和訓練策略是影響最終效果的關鍵。例如,應該用何種 GNN 模型?損失函數如何選???模型超參和訓練超參如何確定?這些問題也需要經過大量實驗才能回答?;?Tulong 框架,建模方案和訓練策略可以通過一組配置來控制。圖學習平臺提供配置的可視化編輯器和版本管理功能,方便比較不同的方案的優劣。流程管理:有了圖數據集和建模/訓練方案
81、后,還需要讓整個流程自動化。這是模型上線的必要條件,同時也有利于團隊成員復現彼此的方案。圖學習平臺針對常見的“構圖、訓練、評測、導出”流程提供了自動化的調度,在適當的時候可以復用前一階段的結果,以提升效率。例如,如果數據集的定義沒有變算法2022年美團技術年貨on neural networks and learning systems 32,no.1(2020):4-24.6 https:/ https:/www.dgl.ai/8 Chen,Jie,Tengfei Ma,and Cao Xiao.“FastGCN:Fast Learning with Graph Convolutional
82、Networks via Importance Sampling.”In International Conference on Learning Representations(2018).9 Hamilton,Will,Zhitao Ying,and Jure Leskovec.“Inductive representation learning on large graphs.”Advances in neural information processing systems 30(2017).10 Xu,Keyulu,Chengtao Li,Yonglong Tian,Tomohiro
83、 Sonobe,Ken-ichi Kawarabayashi,and Stefanie Jegelka.“Representation learning on graphs with jumping knowledge networks.”In International Conference on Machine Learning,pp.5453-5462.PMLR,2018.11 Hochreiter,Sepp,and Jrgen Schmidhuber.“Long short-term memory.”Neural computation 9,no.8(1997):1735-1780.1
84、2 https:/ https:/ogb.stanford.edu/14 Sankar,Aravind,Yanhong Wu,Liang Gou,Wei Zhang,and Hao Yang.“Dysat:Deep neural representation learning on dynamic graphs via self-attention networks.”In Proceedings of the 13th International Conference on Web Search and Data Mining,pp.519-527.2020.15 Xu,Da,Chuanwe
85、i Ruan,Evren Korpeoglu,Sushant Kumar,and Kannan Achan.“Inductive representation learning on temporal graphs.”International Conference on Learning Representations(2020).16 https:/ Wang,Minjie,Da Zheng,Zihao Ye,Quan Gan,Mufei Li,Xiang Song,Jinjing Zhou et al.“Deep graph library:A graph-centric,highly-
86、performant package for graph neural networks.”arXiv preprint arXiv:1909.01315(2019).18 Fey,M.and Lenssen,J.E.“Fast graph representation learning with PyTorch Geometric.”In ICLR Workshop on Representation Learning on Graphs and Manifolds,2019.19 Schlichtkrull,Michael,Thomas N.Kipf,Peter Bloem,Rianne
87、van den Berg,Ivan Titov,and Max Welling.“Modeling relational data with graph convolutional networks.”In European semantic web conference,pp.593-607.Springer,Cham,2018.招聘信息美團搜索與 NLP 部/NLP 中心是負責美團人工智能技術研發的核心團隊,使命是打造世界一流的自然語言處理核心技術和服務能力,依托 NLP(自然語言處理)、Deep Learning(深度學習)、Knowledge Graph(知識圖譜)等技術,處理美團海量
88、文本數據,為美團各項業務提供智能的文本語義理解服務。NLP 中心長期招聘自然語言處理算法專家/機器學習算法專家,感興趣的同學可以將簡歷發送至:(郵件主題:美團搜索與 NLP 部)。算法2022年美團技術年貨圖 1場景化用戶行為決策示例場景化建模在本質上,是在給定場景條件下,比如地理位置、餐段時間、天氣等,基于用戶興趣為用戶匹配出最佳商品。圍繞場景化建模這一目標,業界從不同角度進行了一系列技術探索:特征建模:構造用戶-商品-場景交互的統計特征/交叉特征,例如:用戶在午餐時段的品類偏好、用戶夜宵時段點擊商戶數量統計等。序列建模:分場景行為序列,精細化刻畫在不同場景下的用戶興趣,例如:用戶在不同蜂窩
89、下的 Session 行為,在不同時間段的 Session 行為。以上建模方法能夠建模場景因素在用戶決策商品時的影響,但存在一些問題:特征建模,尤其是特征交叉的過程中,容易引入噪聲,會對模型學習產生負面影響。序列建模,依賴于用戶行為的豐富程度,在分場景行為劃分下對低頻用戶的興趣刻畫不友好,同時高頻用戶的興趣刻畫容易陷入個人興趣封閉圈。交叉和序列范式對場景的刻畫并不完整,交叉范式存在維度上限,序列范式局限于用戶已有行為偏好。因此,場景化建模存在以下挑戰:如何抽取有效場景特征交叉。算法2022年美團技術年貨 強泛化:利用圖網絡的消息傳播機制,圖上節點豐富信息更容易傳播到冷門節點上,提高冷門節點表達
90、能力。從業界信息表示的發展趨勢來看,信息表示是在升維的:從手工特征,到序列建模,再到圖建模,背后是對更加完整信息的有效刻畫的訴求。手動特征時代:基于行為日志統計挖掘用戶/商家/商品畫像。缺點是刻畫粒度較粗、不精準、表達能力有限。NeuralNetwork(NN)序列模型時代:基于原始行為序列設計用戶興趣提取模塊端到端學習用戶興趣。優點是一定程度從多峰和動態演變方面提升了用戶興趣表達的準確性。缺點是較難學習到結構化信息,對于行為數據強依賴,頭部用戶行為密集,中長尾用戶行為稀疏。GraphNeuralNetwork(GNN)時代:萬物皆圖。序列可以看做是一個子圖,相比于序列,圖結構數據對于信息的表
91、達,更加結構化、完整、豐富。在日常業務優化中我們也發現,如果說要找到一種形式化的建模語言能夠準確、完整的翻譯出我們的業務場景,那么呈現出來的建模語言就是“圖”。圖 2信息表示的發展歷程因此,我們期待通過圖技術手段,實現外賣場景下的場景建模。以下我們將從圖算法探索和具體工程實踐落地兩大方面,闡述我們在圖技術場景建模上的嘗試及經驗。2.圖技術的場景化探索外賣場景化是指基于用戶-商家/商品完整交互信息(User、POI、Time、Loca-算法)中挖掘到的共性 Pattern。我們通過構建用戶-商家/商品交互場景圖來刻畫和提取這個 Pattern,并將場景先驗知識引入到預估模型當中輔助決策。業界已經
92、有前沿探索將 GNN 應用于 LBS 場景建模,如美團平臺的 STGCN2從時空結合的角度描述了 LBS 場景下 GNN 應用,外賣數據組的“門控超圖 GNN”3描述了超圖在外賣 LBS 場景化建模的應用;對比普通 GNN 方法都取得了 SOTA 的效果。針對美團外賣的場景化建模特點,我們在圖算法上也進行了一系列探索,分別在場景特征交叉、子圖拓展感知、元路徑場景圖三個方面,圍繞著在不同場景下的用戶-POI 建模的目標,進行了多方面的探索,在離線評估、線上業務上均取得了不錯的效果。2.1基于特征圖的場景特征交叉建模2.1.1場景特征交叉特征是機器學習模型的源動力,業界常言“特征的上限決定了模型的
93、上限”。NN 時代以前,模型效果的提升有很大一部分來自于特征工程。隨著模型進入 NN 時代,NN模型具備的擬合能力以及在數據紅利的加持下,極大地減少了算法工程師們在特征工程上的精力開銷,工作重點開始聚焦于模型結構。雖然理論上 NN 可以擬合一切函數,但在有限的數據和訓練周期內,無法快速地逼近效果上限。在這種背景下,顯式特征交叉重新得到大家的關注,圍繞自動交叉特征,業界陸續迭代出 FM/xDeepFM/DCN/CAN 等模型,并取得了非常好的效果。在美團外賣場景,也經歷了第一階段的手動交叉特征,以及第二階段的自動交叉特征。但在場景化建模中我們發現:交叉特征帶來了信息增益,但往往也會帶來“噪聲”問
94、題;比如具體到樣本粒度來說,不同類型的樣本所需要的有效交叉特征并不是完全一致,存在差異性。近兩年業界的一些工作,如 Fi-GNN、L0-SIGN、阿里FIVES 等,也都在對應的業務中發現全量信息交叉引入噪聲問題。因此,從迭代思路來看,希望能夠引入更多的交叉特征,同時也減少噪聲信息的引入,實現在樣本粒度的“個性化”交叉特征。882022年美團技術年貨2.1.2圖視角的特征交叉特征交叉,可以抽象為“從全量特征集中,選擇出 K 組特征兩兩組合,實現給模型帶來高效非線性表達能力的目的”。本質上可以看做是特征-特征之間二部圖的關系預測:將特征看作節點,特征之間的關聯關系看作邊,則可以將所有特征之間的關
95、聯關系構成一張圖網絡。兩個節點連邊的權重,可看作對應特征之間交叉關系的強弱。通過將此關系圖嵌入到模型訓練過程中,關系圖中不同邊權即反映了不同特征交叉的重要程度。每個樣本中 N 個特征互相之間構成一個全連通圖記為 M,圖中的每個頂點表示特征F,頂點之間的邊表示任意兩個特征 Fi 和 Fj 的關聯度,記為 M。通過聯合訓練關系圖和預估模型,更新參數矩陣 M,使關系圖的語義信息與預估模型保持相關性和一致性,主要過程如下圖 3 所示:圖 3特征交叉圖建模過程主要步驟可描述如下:Step1.建立參數矩陣(隨機初始化得到),對特征所對應的向量表示做點積,結果作為關聯系數。Step2.對矩陣施加 L0 懲罰
96、,用于限制矩陣 M 的參數盡量接近 0,減少無用的場景交叉。Step3.參數矩陣 0,1 化,用于確定需要參與聚合的節點。Step4.圖聚合,對于每個特征來說,與其存在交互的多個特征進行聚合操作,聚合方式使用 Attention。Step5.將聚合后的特征向量表示,做為該特征新的向量表示,用在下游 CTR預估的聯合訓練中。算法2022年美團技術年貨戶行為的 POI 是有重疊的,整個外賣場景下的不同 POI 簇之間通過這些重疊的 POI鏈接,就可以形成一張 POI 網絡。對于任意一個 POI,我們都可以從 POI 行為網絡中,尋找到該 POI 的一跳、二跳鄰居,這些鄰居可以作為 POI 信息的相
97、關補充。這樣,對于用戶的行為興趣刻畫,不僅僅局限在用戶已有的序列上,而是可以通過子圖進一步擴展。相比傳統序列建模方法,圖網絡建??梢岳萌钟脩粜袨榛ヂ摰母唠A網絡結構,借助 POI 序列擴展用戶興趣:對于行為稀疏用戶,通過全局行為互聯圖,補充用戶興趣建模線索。緩解基于密集用戶行為建模產生的馬太效應,跳出歷史行為探索潛在興趣,提升推薦結果泛化性。具體的,針對用戶行為序列中的每一個 POI,都可以通過子圖進行擴展,擴展后的子圖通過卷積的方式形成 POI 的向量表示,如下圖(左)所示。通過行為序列的擴展,使用戶行為得到補充,從而得以跳出用戶個人興趣局限,豐富用戶和 POI 的信息表達。圖 4子圖卷積
98、擴展到感知卷積在 POI 子圖的基礎上,我們進一步思考如何有效地聚合不同 POI,達到子圖信息更加完整的表達。建模不同 POI 之間強弱不同的關聯關系,使用 Attention 結構動態分配確定POI 在所屬子圖中的貢獻度??紤]到 POI 子圖是由 Session 構建的,用戶的行為序列存在差異,相應地算法2022年美團技術年貨2.3基于元路徑的場景圖建模2.3.1從業務特點出發-元路徑建模的初衷我們對用戶決策過程進行抽象,將用戶 User 與商戶 POI 在給定 Context 環境下的一次交互定義為一個事件(Event),多個用戶和 POI 交互的結果定義為事件鏈(EventChain)。
99、對于多個強相關的事件鏈(不同事件鏈通過公共節點連接),就構成了一個場景,而場景之間的 User、POI 主體又存在連接,這樣延展開,實際上就構成了一個“場景”拓撲網絡圖,如下圖所示:圖 6事件與事件鏈抽象示例可以看到,實際上事件鏈組成的“場景”是一種異構圖:比如具備某些屬性(消費頻率、餐飲偏好等)的用戶 U,在某個上下文 C 下(時間、地點等),點擊/購買了具備某些屬性(品類、主營菜品等)的商戶 P,這個決策過程實際上是個最簡單的U-C-P 元路徑。事件鏈是在這個元路徑的基礎上繼續擴展,得到的更長的元路徑實例(U-C1-P2-C2-U)。通過事件鏈,可以建立起場景要素的關系鏈接,而對場景的完整
100、刻畫,就是對場景要素表示和要素關系的抽取。至此,我們將場景化建模,抽象為異構圖上元路徑建模問題。接下來,我們將介紹如何在這個場景圖上,實現對用戶決策場景的建模。2.3.2到業務中去-元路徑建模的實現元路徑 UCPCU 表達的語義為:不同用戶在不同時空場景下,點了同一家商戶,當然不同場景需求可以定義不同的元路徑。為了進一步融合元路徑中豐富的語義表達,僅僅依賴單一的元路徑的話,所表達的語義會受到限制。我們從用戶 U 出發,通過該元算法2022年美團技術年貨3.工程實踐落地3.1場景圖 CTR 模型主結構在模型結構設計的過程中,我們按照”低耦合、高內聚、可插拔、無依賴“的原則,將“行為子圖拓展模塊”
101、、“元路徑場景子圖模塊”、“特征圖交叉模塊”三個子方向迭代作為獨立模塊接入到模型中。圖 8場景圖 CTR 模型主結構3.2基于子圖擴展的行為圖聯合訓練在“基于子圖擴展的行為圖建?!敝?,對于每個請求在線模塊都需要進行“行為序列長度*鄰居數”次向量查詢和計算,當行為序列較長時對在線 CTR 預估服務來說會存在較大的 RT 挑戰??紤] POI 之間的”全局行為互聯圖”和用戶的長期興趣較為穩定,因此針對長期行為子圖拓展采用基于行為 POI 和采樣子圖進行聚合不依賴候選 Target POI,短期行為子圖拓展方案仍然采用 2.2.2 中方案根據序列和候選 Target POI 動態計算,長短期 POI
102、使用不同的 Embedding 空間?;诖松暇€方案采取長期行為子圖離線計算+在線查詢的思想,離線計算用戶長期行為序列子圖 Embedding 并灌庫,在線查詢算法2022年美團技術年貨 Step2.拆分子圖查詢模塊,聚合 Embedding,灌庫訓練完成后,將原有子圖查詢模塊拆分,再對長期行為中全量 POI 做一次子圖POI-Embedding 聚合操作,得到行為 POI 的子圖 Embedding。灌庫階段,將長期行為子圖 POI 的 Embedding 和其他特征的 Embedding 寫入 Redis 存儲中。Step3.對聯合訓練的模型進行重構導出生成新的線上 Serving 模型將
103、長期行為“子圖擴展的行為圖模塊”中子圖聚合計算重構為直接查詢 Embedding表征,線上從 Step2 灌庫的結果中查取 Embedding。這樣避免線上大量卷積操作的耗時,線上實驗驗證,高峰期 TP99 與 TP999 新增模塊耗時基本持平。3.3場景子圖模塊基于元路徑的場景圖建模是采用元路徑 Metapath 的方式來表示 CTR 任務樣本中的用戶子圖和商家子圖,采樣子圖來自預選構建好的 User、POI、Context(Context節點包含了蜂窩、餐段信息)異構行為場景圖。3.3.1離線異構圖構建由于 Context 會同時連接 User 與 POI,在異構圖上 Context 節點
104、會成為超級節點(能夠連接一個蜂窩內幾乎全部的 User 和 POI),POI 類型節點也可能成為超級節點(連接區域內所有 Context 節點);當出現了普遍的超級節點后,會導致圖上游走采樣困難、噪聲加劇。我們在設計構建 Context 節點以及異構邊時防止了這一問題:Step1.Context 節點作為時空上下文,貫穿用戶和門店;細化 Context 節點(比如包含蜂窩、餐段、品類),那么 User 與 Context 的連接邊、Context 與POI 的連接邊都會大大減少。Step2.不同 User 可能通過 Context 節點跳轉到不同 POI 上,為了防止采樣時從 User 節點出
105、發的 Path 跳轉到不相關的 POI 上,Context 節點最好能夠體現用戶興趣(品類信息其實就是一種)。算法150 次)和低頻(過去一個月在外賣點擊 POI 次數 2022年美團技術年貨Base 模型 AB 實驗)的線上指標(點擊率,CTR/商品交易額(Gross Merchandise Volume,GMV)。同時,我們還按照高低頻用戶分別統計了三級品類的人均曝光數量,對比基線的人均曝光數量。CTRGMV人均曝光品類數量低頻用戶+1.58%+1.08%+0.02 品類高頻用戶+2.68%+1.94%+0.3 品類從上表結果可以看出:低頻和高頻用戶的 CTR 和 GMV 均有提升,證明感
106、知子圖卷積能夠有效捕捉高低頻場景,實現場景化下用戶興趣刻畫。低頻和高頻用戶人均曝光品類數量均有提升,并且高頻用戶的人均品類增加更多,說明具備更好的興趣挖掘探索能力,能夠幫助高頻場景用戶跳脫已有的興趣圈。3.4.2特定時空場景感知為驗證場景圖模型對于不同場景的識別和刻畫能力,進一步對比引入場景圖聯合建模對比無場景圖在時間品類和空間需求下的感知變化(以下多組統計結果均為多天/同時段累計結果)。3.4.2.1時間品類場景奶茶品類是下午時段的熱銷品類,從曝光轉化比來看在下午茶時段較高且時段效應明顯,我們統計了某業務奶茶品類上多天同時段,曝光數量占該時間段總曝光數量的比例,并比較實驗組相比基線的漲幅情況
107、,從時段上看,實驗組在下午茶時間段(14-16 時)奶茶曝光比例上升,而晚間正餐期間曝光比例減少,說明場景圖模型的品類時段感知能力得到加強并且在流量選擇上趨向優質流量,模型上線后在奶茶品類上的整體后驗 CTR 指標表現正向。算法2022年美團技術年貨圖 11超市便利分天曝光對比4.總結和展望與傳統電商推薦不同,外賣推薦呈現出場景化的特點:供給受 LBS 強約束、用戶決策鏈路短、易受所處環境影響,因此場景化建模是外賣推薦亟需解決的問題。圖網絡技術已經在學術界和工業界進行了較為深入的探索,在美團外賣場景化建模中遇到的挑戰,我們也通過圖技術進行了相應的優化求解,分別通過場景特征圖交叉、場景序列子圖擴
108、展、元路徑場景圖,在交叉特征去噪、突破用戶興趣封閉圈、完整場景圖刻畫方面進行了探索。在算法落地上,考慮到線上的耗時問題,我們在 Serving 階段拆分重構長期行為子圖,在不改變模型結果的情況下減少了計算復雜度,滿足了線上的性能要求。圖技術的場景化落地雖然取得了一定的收益,但仍然存在一些問題需要解決,例如特征圖交叉在算力約束下,只能滿足部分特征交叉;對于場景的元路徑刻畫仍然依賴于先驗人工定義,尚未走上“自動駕駛”之路,未來我們會持續進行探索。算法2022年美團技術年貨大規模異構圖召回在美團到店推薦廣告的應用作者:齊裕祥洲等1.引言美團到店推薦廣告技術部服務于到店餐飲、休娛親子、麗人醫美等眾多本
109、地生活服務商家。其中,召回環節作為推薦廣告系統的第一個環節,承擔著從海量商品中尋找優質候選的角色,是算法優化的核心問題之一。推薦系統中經典的召回范式有兩類:基于標簽構建倒排索引的顯式召回和基于模型端到端建模用戶興趣的隱式召回。在隱式召回中,歷史交互行為建模對于準確刻畫用戶興趣非常關鍵。電商場景中,用戶與商家、商品之間的交互關系適合通過圖網絡來表達。相較于傳統模型,圖神經網絡可以構建用戶與商品間的多種交互關系,然后借助高階網絡結構的傳遞性合理擴充用戶行為的豐富度,將用戶行為、用戶基礎屬性和商品的內容屬性等各種異質信息在統一的框架中進行融合,帶來更大的效果空間。美團到店推薦廣告算法團隊和 NLP
110、中心知識計算團隊圍繞圖技術在推薦廣告的應用進行了密切的合作,獲得了線上效果的顯著提升。本文主要介紹探索過程以及相關的實踐經驗。2.圖神經網絡簡介圖作為包含節點自身和節點間邊關系的集合,廣泛存在于真實世界的多種場景中,例如社交網絡中人與人之間的社交關系圖、推薦系統中用戶與商品的交互圖等。圖神經網絡能捕捉節點和邊的特征及其之間的拓撲關系,對圖結構數據有很好的建模效果。推薦系統中常用的圖神經網絡模型可以分為兩大類:基于圖游走的方法和基于圖卷積的方法?;趫D游走的方法:傳統神經網絡模型擅長處理歐式空間的數據,但難以建模圖結算法2022年美團技術年貨圖 2單層 GCN 模型的公式演化GCN 從整圖的角度
111、出發,打通了原始圖結構和神經網絡之間的壁壘,但巨大的計算量使其難以應用到大規模場景中。相比之下,GraphSAGE4從圖上節點的角度,提出了基于采樣的消息傳遞范式,使得圖神經網絡在大規模圖上的高效計算變得可行。GraphSAGE 中的 SAGE 指 SAmple and aggreGatE,即采樣和聚合。下圖 3 展示了 GraphSAGE 的采樣聚合過程。圖中左側展示了對節點 A 使用兩層采樣器采樣其一階和二階鄰居,圖中右側展示了將采樣得到的一階二階鄰居的特征通過對應的聚合函數進行聚合,得到節點 A 的表征,進而可以使用 A 的表征計算包括節點分類、鏈接預測及圖分類在內的多種圖相關的任務。圖
112、 3GraphSage 模型的采樣及聚合過程算法2022年美團技術年貨業務中召回模型建模面臨以下兩大挑戰:a.同場景反饋數據稀疏:傳統序列行為建模方案依賴用戶在同場景的反饋數據構造正負樣本進行模型訓練,但用戶在推薦廣告場景的交互行為比較稀疏,據統計超過一半的活躍用戶在近 90 天內無廣告點擊行為,超過 40%的廣告商品在近一個月沒有被點擊。如何解決反饋數據稀疏導致的用戶興趣刻畫不準確、長尾商品學習不充分是我們面臨的一大挑戰。b.LBS 業務中不同時空場景下的興趣刻畫:到店業務中,用戶在不同時間、空間下的瀏覽行為,往往有著完全不同的偏好。例如一個用戶工作日在公司附近,可能感興趣的就是一次方便的工
113、作餐;在假期的家中,則會想找一個有趣的遛娃去處。但傳統的圖神經網絡缺乏對用戶請求時間和所處位置的實時感知能力。因此如何從圖蘊含的豐富信息中挖掘出匹配當前時空場景的候選集合,同樣是一大挑戰。針對以上業務特點和挑戰,我們設計了基于全場景數據高階關系的大規模異構圖建模,借助全場景豐富的行為數據優化稀疏問題;并進一步強化時空信息感知,刻畫用戶在不同時空上下文中的興趣。4.圖召回技術在推薦廣告的演進4.1基于全場景數據高階關系的大規模異構圖建模團隊之前的召回模型僅通過用戶在廣告場景的行為構造正負樣本進行訓練,這種方式提高了訓練數據與預測場景的一致性,但也不可避免地產生用戶興趣刻畫不準確、長尾商品推薦效果
114、較差等問題。特別是召回作為推薦系統最上游環節,決定了全鏈路效果優化上限,我們期望借助圖神經網絡蘊含的強大表達能力,基于用戶在全場景的行為數據全面刻畫用戶興趣和商品信息。如圖 5 所示,圖網絡分別產出用戶(User)和商品(Item)的隱式表征(Embed-ding),通過距離相似度衡量用戶對候選廣告的潛在興趣。在圖神經網絡的選型上,我們使用帶 Attention 結構的 GAT5,使得鄰居信息的貢獻度可以根據其對源節算法2022年美團技術年貨圖 6全場景圖構建流程圖裁剪與噪聲抑制:上文提到的異構圖由于涵蓋了用戶在全場景的行為數據,數據規模龐大,給實際落地帶來了巨大的算力和性能挑戰。我們發現在圖
115、的拓撲結構中,各個節點的度分布極不均勻,部分熱門節點的鄰居個數可達幾十萬,由于訓練過程中每個節點只采樣固定個數的鄰居參與計算,過多的鄰居引入了許多噪聲數據,也帶來了不必要的資源開銷。根據圖數據背后的業務理解,我們對原始拓撲結構進行合理裁剪。具體來說:對于“User 點擊 Item 邊”,保留行為時間較近的 topN 條出邊;對于“Item 共同點擊邊”,保留邊權重較高的 topN 條出邊。圖裁剪后,節點數量保持不變,邊數量減少 46%,訓練內存開銷降低 30%,并帶來了約 0.68%的離線 Hitrate效果提升。圖 7圖裁剪示例(設圖中 a b c)算法2022年美團技術年貨上述 3 個優化
116、點的迭代在多個主廣告位落地,并在衡量廣告營收的 RPS(RevenuePerSearch)指標提升約 5%10%。4.2強化時空信息感知的端到端異構圖建模在 LBS 的業務中,時空信息是影響用戶興趣的重要因素。用戶通常具有穩定的長期興趣,但也會受到當前時空信息影響而呈現出多變的短期興趣。因此,我們在 4.1 節介紹的全場景異構圖建模的基礎上進行升級。根據長期興趣穩定、短期興趣多變的特點,我們采用針對性措施分別建模時空信息對長短期興趣的影響。如下圖 9 所示,我們通過時空子圖刻畫用戶在不同時空場景下的長期興趣偏好,通過多因子協同激活的序列建??坍嬘脩粼诙唐跁r空場景下的興趣演變。值得注意的是,區別
117、于將異構圖預訓練 Embedding 作為靜態特征引入的兩階段訓練方式,我們將模型各部分在相同的優化目標下進行一階段端到端訓練,避免優化目標不一致帶來的效果損失。圖 9強化時空信息感知的端到端異構圖建模時空子圖構建及多視角融合:用戶在不同的時空下表現出不同的興趣,舉例來說,一個用戶可能在工作日的辦公室訂購咖啡,而在休息日的健身房參加運動。僅使用全局算法2022年美團技術年貨多因子協同激活的用戶序列建模:我們將時間信息(當前時間與行為序列時間的差值)、位置信息(當前位置與行為序列位置的差值)作為激活因子來激活短期行為序列,捕捉用戶興趣隨時空的遷移趨勢。此外,圖神經網絡輸出的用戶長期興趣向量,體現
118、了用戶在時間、位置等維度較穩定的興趣偏好,也有利于從短期序列中提取出匹配當前時空場景的實時興趣。使用時空信息及用戶長期興趣對用戶短期行為序列進行激活時,涉及到多個因子協同激活的問題,業界常見的方案如下圖 11 所示:圖 11多因子協同激活在美團 LBS 的業務場景中,各個激活因子之間可能會相互影響,例如時間和地理位置兩種激活因子對行為序列激活的側重點存在差異。為了讓多因子激活發揮最佳效果,我們結合離線指標選擇“多因子融合激活”模式。多因子協同激活的用戶序列建模帶來了約 6.90%的離線 Hitrate 提升。值得一提的是,圖神經網絡挖掘的多階關系能夠豐富用戶序列的表達。這種多階關系不僅體現在商
119、品和商品、用戶和商品等粗粒度節點之間,也體現在時間、位置、類目等細粒度特征之間。因此,我們對特征產出流程進行了升級改造,使圖神經網絡中的商品節點能夠與用戶行為序列在特征維度共享 Embedding 詞典,并基于統一的優化目標端到端訓練,幫助細粒度多階信息更好地在圖神經網絡與用戶序列間傳遞。上述 2 個優化點的迭代在多個主廣告位落地,并在衡量廣告營收的 RPS(RevenuePerSearch)指標提升約 5%。算法2022年美團技術年貨6.總結與展望圖神經網絡對圖結構的數據有很好的建模能力,能充分利用圖節點的高階鄰居信息,在大規模推薦系統的召回模塊中展現出巨大潛力,業界頭部公司均有結合各自業務
120、特點的圖模型落地實踐8910。本文介紹了大規模圖召回技術在美團到店推薦廣告的應用?;趯Φ降晖扑]廣告場景特點的分析,我們在落地圖召回技術時進行了對應的優化。在模型方面,為了解決廣告反饋數據稀疏的問題,我們將全場景的數據融入到圖模型中豐富用戶興趣表達,并結合圖裁剪和動態負樣本采樣技術,累計提升 Hitrate 約 5.34%;為了加強對時空等LBS 動態場景信息的感知,我們通過時空子圖模塊刻畫用戶在不同時空下的興趣,并進行多視角融合及長短期序列融合,累計提升約 10.55%。配合離線訓練及在線計算的性能優化,我們成功在多個主廣告位上落地,線上 RPS 累計提升 10%15%。未來我們還將在以下技
121、術方向繼續進行探索:1.多場景知識遷移到店廣告場景眾多,不同廣告位維護不同的圖召回模型帶來的維護成本較大。多場景的聯合訓練既能豐富圖數據,提升用戶興趣的刻畫,又能將單個圖召回模型應用到不同廣告位,降低維護成本。但是用戶在不同廣告位下的行為存在差異,數據融合不當可能導致引入噪聲,影響模型訓練結果。如何在模型設計中刻畫用戶在不同廣告位下行為的共同點和差異點,是需要重點考慮的內容。2.動態圖技術用戶興趣隨著時間空間不斷發生著改變。動態圖模型可以將時空等動態信息構建到圖結構中,相比人為劃分長期興趣與短期興趣,動態圖可以更靈活地感知用戶興趣的變化,更貼合 LBS 業務的特點。7.作者簡介齊裕、李根、少華
122、、張騰、程佳、雷軍,來自美團到店事業群/廣告平臺技術部。祥洲、夢迪、武威,來自美團平臺/搜索推薦算法部 NLP 中心。算法2022年美團技術年貨美團搜索粗排優化的探索與實踐作者:曉江所貴李想曹越培浩肖垚達遙陳勝云森利前1.前言眾所周知,在搜索、推薦、廣告等大規模工業界應用領域,為了平衡性能和效果,排序系統普遍采用級聯架構1,2,如下圖 1 所示。以美團搜索排序系統為例,整個排序分為粗排、精排、重排和混排層;粗排位于召回和精排之間,需要從千級別候選 item 集合中篩選出百級別 item 集合送給精排層。圖 1排序漏斗從美團搜索排序全鏈路視角審視粗排模塊,目前粗排層優化存在如下幾個挑戰點:樣本選
123、擇偏差:級聯排序系統下,粗排離最后的結果展示環節較遠,導致粗排模型離線訓練樣本空間與待預測的樣本空間存在較大的差異,存在嚴重的樣本算法2022年美團技術年貨型,比如阿里巴巴1,2。下文主要介紹美團搜索在粗排升級為 NN 模型過程中的相關優化工作,主要包括粗排效果優化、效果&性能聯合優化兩個部分。3.粗排優化實踐隨著大量的效果優化工作5,6在美團搜索精排 NN 模型落地,我們也開始探索粗排 NN 模型的優化??紤]到粗排有嚴格的性能約束,直接將精排優化的工作復用到粗排是不適用的。下面會介紹關于將精排的排序能力遷移到粗排的精排聯動效果優化工作,以及基于神經網絡結構自動搜索的效果和性能 trade-o
124、ff 優化工作。3.1精排聯動效果優化粗排模型受限于打分性能約束,這會導致模型結構相比精排模型更加簡單,特征數量也比精排少很多,因此排序效果要差于精排。為了彌補粗排模型結構簡單、特征較少帶來的效果損失,我們嘗試知識蒸餾方法7來聯動精排對粗排進行優化。知識蒸餾是目前業界簡化模型結構并最小化效果損失的普遍方法,它采取一種 Teacher-Student 范式:結構復雜、學習能力強的模型作為 Teacher 模型,結構較為簡單的模型作為 Student 模型,通過 Teacher 模型來輔助 Student 模型訓練,從而將 Teacher 模型的“知識”傳遞給 Student 模型,實現 Stud
125、ent 模型的效果提升。精排蒸餾粗排的示意圖如下圖 2 所示,蒸餾方案分為以下三種:精排結果蒸餾、精排預測分數蒸餾、特征表征蒸餾。下面會分別介紹這些蒸餾方案在美團搜索粗排中的實踐經驗。算法2022年美團技術年貨策略 1:在用戶反饋的正負樣本基礎上,隨機選取少量精排排序靠后的未曝光樣本作為粗排負樣本的補充,如圖 3 所示。該項改動離線 Recall150(指標解釋參看附錄)+5PP,線上 CTR+0.1%。圖 3補充排序結果靠后負例策略 2:直接在精排排序后的集合里面進行隨機采樣得到訓練樣本,精排排序的位置作為 label 構造 pair 對進行訓練,如下圖 4 所示。離線效果相比策略 1 Re
126、call150+2PP,線上 CTR+0.06%。圖 4排序靠前靠后構成 pair 對樣本算法2022年美團技術年貨3.1.3特征表征蒸餾業界通過知識蒸餾實現精排指導粗排表征建模已經被驗證是一種有效提升模型效果的方式7,然而直接用傳統的方法蒸餾表征有以下缺陷:第一是無法蒸餾粗排和精排之間的排序關系,而前文已提到,排序結果蒸餾在我們的場景中,線下、線上均有效果提升;第二是傳統采用 KL 散度作為表征度量的知識蒸餾方案,把表征的每一維獨立對待,無法有效地蒸餾高度相關的、結構化的信息9,而在美團搜索場景下,數據是高度結構化的,因此采用傳統的知識蒸餾策略來做表征蒸餾可能無法較好地捕獲這種結構化的知識。
127、算法2022年美團技術年貨案同時優化粗排模型的效果和性能,選擇出滿足粗排時延要求的最佳特征組合和模型結構,整體架構圖如下圖 7 所示:圖 7基于 NAS 的特征和模型結構選擇下面我們對其中的神經網絡架構搜索(NAS)以及引入效率建模這兩個關鍵技術點進行簡單介紹:算法2022年美團技術年貨通過神經網絡架構搜索的建模來聯合優化粗排模型的效果和預測性能,離線 Recall150+11PP,最終在線上延時不增加的情況下,線上指標 CTR+0.12%;詳細工作可參考13,已被 KDD 2022 接收。4.總結從 2020 年開始,我們通過大量的工程性能優化使粗排層落地 MLP 模型,在 2021 年我們
128、繼續在 MLP 模型基礎上,持續迭代粗排模型來提升粗排效果。首先,我們借鑒業界常用的蒸餾方案來聯動精排優化粗排,從精排結果蒸餾、精排預測分數蒸餾、特征表征蒸餾三個層面分別進行了大量實驗,在不增加線上延時的情況下,提升粗排模型效果。其次,考慮到傳統蒸餾方式無法很好處理排序場景中的特征結構化信息,我們自研了一套基于對比學習的精排信息遷移粗排方案。最后,我們進一步考慮到粗排優化本質上是效果和性能的 trade-off,采用多目標建模的思路同時優化效果和性能,落地神經網絡架構自動搜索技術來進行求解,讓模型自動選擇效率和效果最佳的特征集合和模型結構。后續我們會從以下幾個方面繼續迭代粗排層技術:粗排多目標
129、建模:目前的粗排本質上還是一個單目標模型,目前我們正在嘗試將精排層的多目標建模應用于粗排。算法2022年美團技術年貨5 https:/ https:/ Tang,Jiaxi,and Ke Wang.“Ranking distillation:Learning compact ranking models with high performance for recommender system.”Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.2018.8
130、 Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.“Distilling the knowledge in a neural network.”arXiv preprint arXiv:1503.02531(2015).9 Chen L,Wang D,Gan Z,et al.Wasserstein contrastive representation distillationC/Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2021:16
131、296-16305.10 https:/arxiv.org/abs/2207.0307311 Liu Y,Jia X,Tan M,et al.Search to distill:Pearls are everywhere but not the eyesC/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:7539-7548.12 Cai H,Zhu L,Han S.Proxylessnas:Direct neural architecture search on tar
132、get task and hardwareJ.arXiv preprint arXiv:1812.00332,2018.13 https:/arxiv.org/abs/2205.09394招聘信息搜索推薦算法部/基礎算法組是負責美團搜索研發的核心團隊,使命是打造世界一流的搜索引擎,依托 Deep Learning(深度學習)、NLP(自然語言處理)、Knowledge Graph(知識圖譜)等技術,處理美團海量用戶、商家、商品數據,不斷加深對用戶、場景、查詢和服務的理解,高效地支撐形態各樣的生活服務搜索,解決搜索結果的多業務混排、相關性、個性化等問題,給用戶極致的搜索體驗。搜索推薦算法部長期招
133、聘搜索推薦算法專家,感興趣的同學可以將簡歷發送至:(郵件主題:美團平臺/搜索推薦算法部)。算法2022年美團技術年貨圖 1某地區高消費用戶在工作日和周末的差異性就餐習慣美團外賣推薦需要滿足“用戶 X 時間 X 地點”等情境下的需求總和,應對需求的不斷拓展和演化。為了更好的理解我們所面對的用戶需求,如下圖 2 所示,將其定義到一個魔方內(Magic Cube),用戶、時間和地點是魔方的三個維度。其中,魔方中的每個點,如圖 2 中黃色點,代表一個用戶在一個特定情境下的需求;魔方中的每個小立方體,如圖 2 中黃色立方體,代表一組相似用戶在一組相近情境下的需求。此外,在問題定義上,為了支持情境維度的進
134、一步擴展,我們使用超立方體(Hyper Cube)來定義更多維度的用戶需求。圖 2“用戶 X 時間 X 地點”等情境下的需求總和面對以上這種三維模式,模型設計是非常棘手的。以往的模型設計,比如用戶興趣建模,或者樸素的多層神經網絡無法應對這些復雜的用戶、時間和地理環境糾纏在一起的情況。用戶興趣建模通常采用連續建模方法,通過注意力機制提取重要行為偏好信算法2022年美團技術年貨通過對信息獨有性的刻畫和信息共性的相互傳遞,實現全部流量的效率提升。3.情境化智能流量分發“情境細分+統一模型”的實現思路主要分為用戶行為序列建模與專家網絡結構兩個組成部分,模型整體架構如圖 3 所示:圖 3情境化智能流量分
135、發模型該模型通過 Cube 檢索出特定細分情境下的用戶行為進行序列建模,并且通過專家網絡模型自動化對不同情境參數進行學習,保持了模型統一,既能刻畫情境的獨特性,也能實現不同情境間的知識共享和遷移。具體的,在用戶行為序列建模上,首先仔細考慮了細粒度行為特征對于外賣商家推薦的重要作用,并以此為基礎,根據時間、空間場景對用戶序列進行長序列多路情境檢索;對于專家網絡結構,則先針對不同入口情境建立基于 Attention 機制的多入口情境建模,隨后探索了情境化稠密 MMOE 和稀疏 MMOE 模型,發現在外賣場景中,專家網絡可以學習到不同情境、不同任務的差別,進而提升模型精度?;谠摲桨?,對于 CTR、
136、CXR(CTCVR)任務,模型在離線指標 AUC、GAUC(perSessionAUC)上均取得了顯著提升,并在線上也取得了 UV_RPM、UV_算法2022年美團技術年貨3.1.1細粒度行為特征不同于電商中的商品推薦形式,美團外賣推薦是以商家為主體,用戶從進入商家到最終下單過程中具有更加豐富的細粒度行為,通過捕捉用戶在商家中的細粒度行為,可以精細感知到用戶差異化偏好,如注重品質商家的用戶會更多查看商家/商品描述和評論,而折扣敏感度高的用戶則會查看折扣信息、領取優惠券等。工業實踐中,用戶行為序列特征往往包含商家/商品 ID、品類、價格等商家/商品表示特征,而在行為表示上除了用戶到商家的點擊之外
137、,用戶通過什么頁面進入到商家點菜頁、用戶在商家點菜頁中的細粒度行為,同樣可以反映用戶的偏好。因此,可以對用戶從瀏覽商家到最終下單整個流程進行歸納分析,捕捉用戶最細膩的行為并納入模型,充分學習用戶在外賣場景中重要的、最細粒度的行為及其所代表的意圖偏好。我們將用戶從瀏覽商家到成單商品的全流程抽取出 70 種不同的 Micro-Behavior,總結歸納出四大步驟:定位商家、考察商家、挑選商品、結算提單。在歸納不同意圖的 Micro-Behavior 時,綜合考慮了該意圖下 Micro-Behavior 的日均 PV、當日轉化率、行為跳轉路徑以及頁面展示信息,并剔除了日均 PV 覆蓋率小于 1%的
138、Micro-Behavior,將相同意圖的行為聚合到一起作為特征表示(比如評價 Tab 點擊、評價標簽點擊和用戶評價縮略圖點擊聚合成“查看評論”意圖表示),最終抽象出 12 種不同意圖的 Micro-Behavior,用來捕捉用戶更深層次、更細粒度的興趣?;谟脩?Micro-Behavior 提煉出從進入商家到最終下單流程如下圖 4 所示:算法2022年美團技術年貨圖 5Micro-Behavior 和轉化率關系分別在用戶實時(短周期行為)、歷史(長周期行為)商家序列中引入 Micro-Be-havior 信息。如下表所示,離線實驗數據表明,引入的 Micro-Behavior 信息取得了比
139、較明顯的提升。最終,細粒度行為特征在線取得了 UV_RPM+1.77%,PV_CTR+1.05%的收益。優化方案CTRAUCCXRAUCCTRGAUCCXRGAUC序列引入 Micro-Behavior 信息+0.69pp+0.54pp+0.10pp+0.39pp離在線實驗效果表明引入 Micro-Behavior 信息增加了模型的精準推薦能力。此外,我們進一步對模型是否正確的學習了細粒度行為進行驗證。隨機選取一個用戶的成單商家及其商家序列引入 Micro-Behavior 后 Attention 權重變化,如下圖 6 所示,圖左上部分表示用戶行為序列中的商家以及相應 Micro-Behavi
140、or 信息,圖右上部分是序列中商家引入 Micro-Behavior 信息后所對應的 Attention 權重可視化,方塊顏色越深則表示 Attention 權重越大,圖下部分是用戶的最終成單商家“鴻鵠一品蹺腳牛肉”在引入不同 Micro-Behavior 信息后的商家排名。通過對比序列中商家引入 Micro-Behavior 觀察 Attention 權重的變化:算法2022年美團技術年貨3.1.2長序列多路情境檢索美團外賣上線至今,已經積累了豐富的用戶行為數據。將如此豐富的行為信息引入到模型中,是近期工業界和學術界的熱門方向,我們在該方向上也進行了一系列探索。最初,我們直接將近三年的點擊行
141、為直接引入到模型中來,發現離線效果提升顯著,但是帶來的訓練和推理的壓力不可承受。在此基礎上,借鑒了 SIM4,將候選商家的品類 ID 當作 Query,先從用戶的行為序列中檢索出相同品類的商家,再進行興趣建模,離線取得了不錯的收益。具體的,嘗試過使用二級品類和葉子品類來分別做檢索,在檢索后根據分位點進行最大長度截斷的情況下,二級品類檢索出來的序列平均長度大約為 X,而葉子品類因為品類劃分過細,檢索出來的序列平均長度大幅減少。根據離線實驗評估,最終選擇了使用二級品類進行檢索,在離線取得了 CXR GAUC+0.30pp 的效果。對于檢索條件中,像二級品類和葉子品類這種泛化性與精確性之間的 tra
142、de off,我們目前正在進行更進一步的探索。為了進一步提升模型的效果,考慮到用戶興趣建模從 DIN 發展到 SIM,都是根據候選商家、商品的屬性,從用戶的行為歷史中提取對該候選商家、商品的興趣,這在傳統電商場景下是行的通的,因為用戶對某一商家、商品的興趣基本不會隨著他所處位置、所處時段改變(用戶要買手機殼,不會因為他在家還是在公司有改變,也不會因為他的購物時段是在早上還是晚上而改變)。但是餐飲外賣相較于傳統電商,正如前面的問題與挑戰中提到的,其鮮明的 LBS 和餐飲文化特色構成多種多樣的情境,用戶在不同的情境下對于不同的商家、商品的偏好是不一樣的,是會變化的。因此,除了建模品類偏好外,還要進
143、一步建模用戶的地理位置偏好和時段偏好。對于地理位置偏好的建模,嘗試了使用用戶當前所處地理位置的 geohash(一種地理位置編碼,詳見維基百科)/aor_id(蜂窩 ID)作為 Query 來檢索用戶歷史行為中相同 geohash/aor_id 的商家,也根據業務經驗,直接從用戶的歷史行為中將到用戶當前請求位置的距離小于 C 公里的商家全部檢索出來,檢索后序列的平均長度如下表 1 所示,根據離線實驗評估,最終選擇 distanceC 算法139km 檢索來建模用戶的地理位置偏好。公里數 C 這個參數是根據業務經驗統計得到的超參,考慮到不同的用戶對于距離的容忍度可能是不一樣的,如何對不同的用戶在
144、不同的情境下對該超參進行調整,還在積極探索中。對于時段偏好的建模嘗試了兩種檢索方式:從用戶的歷史行為中,將與當前請求的 meal_time(根據業務將一天劃分為早餐、午餐、下午茶、晚餐和夜宵)或 hour_of_day(行為小時時段)相同的商家檢索出來。meal_time 劃分的粒度更粗,檢索出來的商家更多,從下表中也可以看到其離線結果更好,成為了建模時段偏好的最終選擇。很明顯,meal_time 檢索和 hour_of_day 檢索也存在泛化性與精確性之間的 trade off 問題。偏好類型說明檢索后序列平均長度CTRGAUCCXRGAUC品類二級品類 ID 檢索X+0.10pp+0.30
145、pp品類葉子品類 ID 檢索X-65+0.05pp+0.17pp地理位置distanceC km 檢索Y+0.08pp+0.29pp地理位置aor_id 檢索Y-52+0.05pp+0.21pp地理位置geohash 檢索Y-43+0.07pp+0.23pp時段meal_time 檢索Z+0.12pp+0.24pp時段hour_of_day 檢索Z-41+0.07pp+0.19pp最后,我們將二級品類 ID 檢索序列(品類偏好)、distance2022年美團技術年貨圖 7長序列多路情境檢索最終,在離線取得了 CTR GAUC+0.30pp,CXR GAUC+0.52pp 的收益,在線上取得了
146、 UV_CXR+0.87%,UV_RPM+0.70%,PV_CTR+0.70%,首購訂單占比+1.29%的收益??梢宰⒁獾缴鲜鲩L序列的引入,不僅帶來了效率的提升,還帶來了新穎性的提升,分析發現通過建模用戶更長期的興趣,擴展了模型的視野,不再集中于用戶的短期興趣,能更好地滿足用戶口味“短聚集,長多樣”的特性。在后續的數據探查中,基于樣本維度統計了二級品類 ID 檢索序列、meal_time 檢索序列和 distanceC km 檢索序列的重合度情況。從下表可以看到,三者各自檢索出的商家重合度確實非常的低,符合建模不同偏好的預期,也解釋了為何三個序列疊加后,效果還是有增長的原因。比較序列重合度(=
147、重合商家個數占各自檢索后序列長度的比例)distanceC km 檢索 vs 二級品類 ID 檢索9.6%,12.5%distanceC km 檢索 vs meal_time 檢索11.5%,20.3%二級品類 ID 檢索 vs meal_time 檢索13.75%,18.6%然而,當前三路檢索合并的版本,雖然可以對用戶的品類偏好、地理位置偏好和時段偏好進行有效的建模,但還是存在兩個比較明顯的缺陷。首先,各路檢索序列中還是算法2022年美團技術年貨先縮小至 1,只計算一次,然后與候選商家計算 attention 時再進行展開,通過計算圖折疊,極大減小了線上序列部分帶來的巨大計算開銷。圖 8用戶
148、序列計算圖折疊3.2情境化多專家網絡大部分工業界的 CTR 預估模型遵循傳統 Embedding&MLP 范式,將用戶興趣向量、商家/商品表征和其他特征作為輸入,通過樸素的多層神經網絡學習特征、樣本、標簽之間的關系。另有學術界一些熟知的工作如 PNN5、DeepFM6、xDeepFM7、DCN8等方法,都在努力建模特征間共現關系、特征的特異性、特征的層次結構關系、樣本之間的關系等信息,并且在公開數據集和部分特定工業場景下取得顯著效果。而在 NLP 領域,2018 年 10 月,Google 發布 BERT9模型,刷新了 11 個 NLP 任務的最好水平,由此開啟了 NLP“大煉模型”時代,引爆
149、了業界的研究熱潮。專家混合(Mixture of Experts,MOE)模型被證明是通往容量更大、性能更強大的機器學習模型的有效途徑。MOE 是基于分而治之的原則建立的,其中問題空間在幾個算法2022年美團技術年貨動態地建模各個頻道間的關系變得尤為重要。圖 9外賣推薦基于多入口多任務學習網絡結構 AutoAdapt 示意圖我們通過實現多入口統一建模(AutoAdapt)解決以上挑戰。具體的,設計了如圖 9 所示的多入口情境專家模型,在模型結構的特征 Embedding 和多任務 Tower 之間構建了 Share Expert 學習全部入口的信息,該 Expert 將始終處于激活狀態;為了捕
150、捉多入口之間的區別與聯系,構建了 Domain Extract 模塊,為每個入口設置一個由 MLP 組成的專家網絡(Expert)。為了使每個入口對應的 Expert 可以充分建模私有的表達,在模型訓練和推理時,對于入口 i 的樣本或請求,根據入口 ID 激活其對應 Expert Di,該 Expert 產生的輸出將 Xi 將直接輸入到任務對應的 Tower 當中。對于一個入口的樣本或請求,在保證該入口的 Expert 一定會被激活的情況下,以一定概率去激活其它入口的 Expert,并對這些 Expert 的輸出做 Pooling 抽取,從而有效地利用到其它入口的知識。很顯然,入口間的相似程度
151、、同一樣本對不同入口知識的依賴程度都是不同的,為此增加了一個 Query-Key Attention 模塊去做動態概率激活。如圖 9 中 Domain Extract 模塊所示,對算法2022年美團技術年貨圖 10不同入口 Attention 權重熱力圖該解決方案不僅實現了首頁 Feed、美食“金剛”、甜點飲品等流量入口間模型的統一,同時也為各個入口帶來了顯著的離線指標收益和線上指標的增長。經過聯合建模,小入口可以有效利用到首頁 Feed 的豐富信息,使得線上和離線效果提升顯著,此外,對于首頁 Feed,該方案同樣有顯著的效果提升,不同場景線上收益如下表所示:方法/不同入口UV_RPM提升首頁
152、Feeddomain1domain2domain3domain4domain5domain6domain7在線 UV_RPM+0.97%+0.62%+0.77%+1.61%+0.99%+1.06%+1.28%+1.43%3.2.2情境化稠密MMOE專家網絡是情境化建模的主要手段之一,模型可以根據不同情境自動選擇需要激活的參數參與推理達到整體更高的精度水平。我們發現在 Share-Bottom CTR/CXR 多目標結構基礎上,引入 MMOE 結構可以帶來顯著的離線 CTR/CXR AUC 收益(如下表所示),可以發現當 Experts 數量達到 64 時,CTR GAUC 和 CXR GAUC
153、 分別有 0.3pp 與 0.4pp 左右的提升。算法2022年美團技術年貨從所有 N 個 Experts 的輸出中只選取 K 個(KN)進行后續計算。下表實驗結果表明,采用 32Experts 對比 4Experts 在不同入口離線指標均有明顯提升,同時 Top K MMOE(32Experts 選 4)與 FLOPs 相同 MMOE 4Experts 相比在不同入口都具有明顯的優勢,效果接近 MMOE 32experts。方法/不同入口 CXR GAUC 提升首頁 Feeddo-main2domain 3domain6domain 7MMOE(4Experts)+0.18pp+0.13pp
154、+0.25pp+0.41pp-0.37ppMMOE(32Experts)+0.33pp+0.29pp+0.37pp+0.46pp-0.03ppTop K MMOE(32Experts 選 4)+0.29pp+0.26pp+0.38pp+0.53pp+0.19pp繼續分析稀疏 MMOE 是否能學到各個切片下的共性與差異性,對 MMOE 和 Top K MMOE 的 CTR 任務在各個 domain 上的 Expert Gate 分布進行可視化??梢园l現,稀疏 Top-K 方法相比稠密方法,更能學到根據不同入口、不同時段、不同任務來選擇不同的 Expert 進行 serving。例如,針對不同的時
155、段情境,圖 11 中下午茶入口與早餐入口的分布明顯不同、圖 12 中首頁入口的夜宵時段與非夜宵時段的分布明顯不同;針對模型中不同的任務目標,如圖 13 中 CTR/CXR 任務的分布也明顯不同,這些都與實際中的業務認知相符,表明稀疏 MMOE 中不同專家學習到了不同情境、不同任務之間的差異性。圖 11Top K MMOE 中 Expert Gate 在不同入口上的分布的可視化分析算法2022年美團技術年貨升會快速衰減。因此,通過簡單擴充專家數量來提升效果是不可取的,在未來將考慮結合 AutoML、交叉網絡等手段提高參數利用效率,尋求在推薦場景落地稀疏專家網絡的工業級解決方案。5.本文作者瑞東、
156、俊潔、樂然、覃禹、秀峰、王超、張鵬、尹斌、北海等,均來自到家事業群/到家研發平臺/搜索推薦技術部。6.參考文獻1 Zhou G,Zhu X,Song C,et al.Deep interest network for click-through rate prediction.SIGKDD 2018.2 Zhou G,Mou N,Fan Y,et al.Deep interest evolution network for click-through rate prediction.AAAI 2019.3 Pi Q,Bian W,Zhou G,et al.Practice on long se
157、quential user behavior modeling for click-through rate prediction.SIGKDD 2019.4 Pi Q,Zhou G,Zhang Y,et al.Search-based user interest modeling with lifelong sequential behavior data for click-through rate prediction.CIKM 2020.5 Qu Y,Cai H,Ren K,et al.Product-based neural networks for user response pr
158、ediction.ICDM 2016.6 Guo H,Tang R,Ye Y,et al.DeepFM:a factorization-machine based neural network for CTR prediction.arXiv:1703.04247,2017.7 Jianxun Lian,et al.xdeepfm:Combining explicit and implicit feature interactions for recommender systems.KDD 2018.8 Wang R,Shivanna R,Cheng D,et al.Dcn v2:Improv
159、ed deep&cross network and practical lessons for web-scale learning to rank systems.WWW 2021.9 Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding.arXiv:1810.04805,2018.10 Ma J,Zhao Z,Yi X,et al.Modeling Task Relationships in Multi-task Learn
160、ing with Multi-gate Mixture-of-experts.KDD 2018.11 Sheng X R,Zhao L,Zhou G,et al.One model to serve all:Star topology adaptive recommender for multi-domain ctr prediction.CIKM 2021.12 Fedus W,Zoph B,Shazeer N.Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
161、.arXiv:2101.03961,2021.13 Zoph B,Bello I,Kumar S,et al.Designing effective sparse expert models.arXiv 2202.08906,2022.14 Chen Z,Deng H Wu Y,Gu Q.Towards Understanding Mixture of Experts in Deep Learning.arXiv:2208.02813,2022.算法2022年美團技術年貨大眾點評搜索相關性技術探索與實踐作者:校婭沈元朱迪湯彪張弓1.背景點評搜索是大眾點評 App 的核心入口之一,用戶通過搜索來
162、滿足不同場景下對生活服務類商戶的找店需求。搜索的長期目標是持續優化搜索體驗,提升用戶的搜索滿意度,這需要我們理解用戶搜索意圖,準確衡量搜索詞與商戶之間的相關程度,盡可能展示相關商戶并將更相關的商戶排序靠前。因此,搜索詞與商戶的相關性計算是點評搜索的重要環節。大眾點評搜索場景面臨的相關性問題復雜多樣,用戶的搜索詞比較多樣,例如搜索商戶名、菜品、地址、類目以及它們之間的各種復雜組合,同時商戶也有多種類型的信息,包括商戶名、地址信息、團單信息、菜品信息以及其他各種設施和標簽信息等,導致 Query 與商戶的匹配模式異常復雜,容易滋生出各種各樣的相關性問題。具體來說,可以分為如下幾種類型:文本誤匹配:
163、在搜索時,為保證更多商戶被檢索和曝光,Query 可能會被拆分成更細粒度的詞進行檢索,因此會帶來 Query 錯誤匹配到商戶不同字段的問題,如圖 1(a)所示的用戶搜“生蠔火鍋”應該想找湯底中包含生蠔的火鍋,而“生蠔”和“火鍋”分別匹配到商戶的兩個不同菜品。語義偏移:Query 與商戶字面匹配,但商戶與 Query 的主要意圖在語義上不相關,如“奶茶”-“黑糖珍珠奶茶包”,如圖 1(b)所示。類目偏移:Query 與商戶字面匹配且語義相關,但主營類目與用戶需求不符,例如用戶搜索“水果”時一家提供“果盤”的 KTV 商戶明顯與用戶的需求不相關。算法2022年美團技術年貨型,并將 Query 與
164、POI 的相關性信息應用在搜索鏈路各環節。本文將從搜索相關性現有技術綜述、點評搜索相關性計算方案、應用實戰、總結與展望四個方面對點評搜索相關性技術進行介紹。其中點評搜索相關性計算章節將介紹我們如何解決商戶輸入信息構造、使模型適配點評搜索相關性計算及模型上線的性能優化等三項主要挑戰,應用實戰章節將介紹點評搜索相關性模型的離線及線上效果。2.搜索相關性現有技術搜索相關性旨在計算 Query 和返回 Doc 之間的相關程度,也就是判斷 Doc 中的內容是否滿足用戶 Query 的需求,對應 NLP 中的語義匹配任務(Semantic Matching)。在大眾點評的搜索場景下,搜索相關性就是計算用戶
165、 Query 和商戶 POI 之間的相關程度。文本匹配方法:早期的文本匹配任務僅考慮了 Query 與 Doc 的字面匹配程度,通過 TF-IDF、BM25 等基于 Term 的匹配特征來計算相關性。字面匹配相關性線上計算效率較高,但基于 Term 的關鍵詞匹配泛化性能較差,缺少語義和詞序信息,且無法處理一詞多義或者多詞一義的問題,因此漏匹配和誤匹配現象嚴重。傳統語義匹配模型:為彌補字面匹配的缺陷,語義匹配模型被提出以更好地理解 Query 與 Doc 的語義相關性。傳統的語義匹配模型主要包括基于隱式空間的匹配:將 Query 和 Doc 都映射到同一個空間的向量,再用向量距離或相似度作為匹配
166、分,如 Partial Least Square(PLS)1;以及基于翻譯模型的匹配:將 Doc 映射到 Query 空間后進行匹配或計算 Doc 翻譯成 Query 的概率2。隨著深度學習和預訓練模型的發展,深度語義匹配模型也被業界廣泛應用。深度語義匹配模型從實現方法上分為基于表示(Representation-based)的方法及基于交互(Interaction-based)的方法。預訓練模型作為自然語言處理領域的有效方法,也被廣泛使用在語義匹配任務中。算法2022年美團技術年貨基于表示的深度語義匹配模型:基于表示的方法分別學習 Query 及 Doc 的語義向量表示,再基于兩個向量計算相
167、似度。微軟的 DSSM 模型3提出了經典的雙塔結構的文本匹配模型,即分別使用相互獨立的兩個網絡構建 Query 和 Doc 的向量表示,用余弦相似度衡量兩個向量的相關程度。微軟 Bing 搜索的 NRM4針對 Doc 表征問題,除了基礎的 Doc 標題和內容,還考慮了其他多源信息(每類信息被稱為一個域 Field),如外鏈、用戶點擊過的 Query 等,考慮一個 Doc 中有多個 Field,每個 Field 內又有多個實例(Instance),每個 Instance 對應一個文本,如一個 Query詞。模型首先學習 Instance 向量,將所有 Instance 的表示向量聚合起來就得到一
168、個 Field 的表示向量,將多個 Field 的表示向量聚合起來得到最終 Doc 的向量。SentenceBERT5將預訓練模型 BERT 引入到雙塔的 Query 和 Doc 的編碼層,采用不同的 Pooling 方式獲取雙塔的句向量,通過點乘、拼接等方式對 Query 和 Doc進行交互。大眾點評的搜索相關性早期模型就借鑒了 NRM 和 SentenceBERT 的思想,采用了圖 2(a)所示的基于表示的多域相關性模型結構,基于表示的方法可以將 POI 的向量提前計算并存入緩存,線上只需計算 Query 向量與 POI 向量的交互部分,因此在線上使用時計算速度較快?;诮换サ纳疃日Z義匹配
169、模型:基于交互的方法不直接學習 Query 和 Doc 的語義表示向量,而是在底層輸入階段就讓 Query 和 Doc 進行交互,建立一些基礎的匹配信號,再將基礎匹配信號融合成一個匹配分。ESIM6是預訓練模型引入之前被業界廣泛使用的經典模型,首先對 Query 和 Doc 進行編碼得到初始向量,再用 Attention機制進行交互加權后與初始向量進行拼接,最終分類得到相關性得分。引入預訓練模型 BERT 進行交互計算時,通常將 Query 和 Doc 拼接作為 BERT句間關系任務的輸入,通過 MLP 網絡得到最終的相關性得分7,如圖 2(b)所示。CEDR8在 BERT 句間關系任務獲得
170、Query 和 Doc 向量之后,對 Query 和 Doc 向量進行拆分,進一步計算 Query 與 Doc 的余弦相似矩陣。美團搜索團隊9將基于交互的方法引入美團搜索相關性模型中,引入商戶品類信息進行預訓練,并引入實體識算法2022年美團技術年貨匹配情況。如何優化模型來適配點評搜索的場景,并能處理復雜多樣的相關性判斷邏輯,盡可能地解決各種不相關問題,是我們面臨的主要挑戰;如何解決預訓練相關性模型的在線性能瓶頸:基于表示的模型雖計算速度較快但表達能力有限,基于交互的模型可以增強 Query 和 POI 的交互從而提升模型效果,但在線上使用時存在較大的性能瓶頸。因此,在線上使用 12 層BER
171、T 的基于交互的模型時,如何在保證模型計算效果的同時保證整個計算鏈路的性能,使其在線上穩定高效運行,是相關性計算線上應用的最后一道關卡。經過不斷探索與嘗試,我們針對 POI 側的復雜多源信息,構造了適配點評搜索場景的 POI 文本摘要;為了讓模型更好地適配點評搜索相關性計算,采用了兩階段訓練的方法,并根據相關性計算的特點改造了模型結構;最后,通過優化計算流程、引入緩存等措施,成功降低了模型實時計算和整體應用鏈路的耗時,滿足了線上實時計算BERT 的性能要求。3.1如何更好地構造 POI 側模型輸入信息在判定 Query 與 POI 的相關程度時,POI 側有十幾個參與計算的字段,某些字段下的內
172、容特別多(例如一個商戶可能有上百個推薦菜),因此需要找到合適的方式抽取并組織 POI 側信息,輸入到相關性模型中。通用搜索引擎(如百度),或常見垂類搜索引擎(如淘寶),其 Doc 的網頁標題或商品標題信息量豐富,通常是相關性判定過程中 Doc 側模型輸入的主要內容。如圖 3(a)所示,在通用搜索引擎中,通過搜索結果的標題可以一眼看出對應網站的關鍵信息及是否與 Query 相關,而在圖 3(b)的搜索結果中,僅通過商戶名字段無法得到充足的商戶信息,需要結合商戶類目(奶茶果汁)、用戶推薦菜品(奧利奧利奶茶)、標簽(網紅店)、地址(武林廣場)多個字段才能判斷該商戶與 Query“武林廣場網紅奶茶”的
173、相關性。算法2022年美團技術年貨標簽抽取是業界比較通用的抽取主題信息的途徑,因此我們首先嘗試了通過商戶標簽來構造 POI 側模型輸入的方法,根據商戶的評論、基礎信息、菜品、商戶對應的頭部搜索點擊詞等抽取出具有代表性的商戶關鍵詞來作為商戶標簽。在線上使用時,將已抽取的商戶標簽,及商戶名和類目基礎信息一起作為模型的 POI 側輸入信息,與Query 進行交互計算。然而,商戶標簽對商戶信息的覆蓋仍不夠全面,例如用戶搜索菜品“雞蛋羹”時,某個距用戶很近的韓式料理店有雞蛋羹售賣,但該店的招牌菜、頭部點擊詞等均與“雞蛋羹”無關,導致該店所抽取的標簽詞也與“雞蛋羹”相關性較低,因此模型會將該店判斷為不相關
174、,從而對用戶體驗帶來傷害。為了獲取最全面的 POI 表征,一種方案是不抽取關鍵詞,直接將商戶的所有字段拼接到模型輸入中,但是這種方式會因為模型輸入長度過長而嚴重影響線上性能,且大量冗余信息也會影響模型表現。為構造更具信息量的 POI 側信息作為模型輸入,我們提出了 POI 匹配字段摘要抽取的方法,即結合線上 Query 的匹配情況實時抽取 POI 的匹配字段文本,并構造匹配字段摘要作為 POI 側模型輸入信息。POI 匹配字段摘要抽取流程如圖 4 所示,我們基于一些文本相似度特征,將與 Query 最相關且最具信息量的文本字段提取出來,并融合字段類型信息構建成匹配字段摘要。線上使用時,將已抽取
175、的 POI 匹配字段摘要、商戶名及類目基礎信息一起作為 POI 側模型輸入。圖 4POI 匹配字段摘要抽取流程算法2022年美團技術年貨圖 5基于點擊及人工標注數據的兩階段訓練模型結構基于點擊數據的第一階段訓練引入點擊數據作為第一階段訓練任務的直接原因是在點評搜索場景下存在著一些特有的問題,例如“開心”和“高興”兩個詞在通用場景下是幾乎完全同義的詞,但是在點評搜索的場景下“開心燒烤”和“高興燒烤”卻是兩家完全不同的品牌商戶,因此點擊數據的引入能夠幫助模型學習到搜索場景下的一些特有知識。但是直接將點擊樣本用于相關性判斷會存在較大噪聲,因為用戶點擊某個商戶可能是由于排序較為靠前導致的誤點擊,而未點
176、擊某個商戶也可能僅僅是因為商戶距離較遠,而并不是因為相關性問題,因此我們引入了多種特征和規則來提高訓練樣本自動標注的準確率。在構造樣本時,通過統計是否點擊、點擊位次、最大點擊商戶距用戶的距離等特征篩選候選樣本,將曝光點擊率大于一定閾值的 Query-POI 對作為正例,并根據業務特點對不同類型商戶調整不同的閾值。在負例的構造上,Skip-Above 采樣策略將位于點擊商戶之前且點擊率小于閾值的商戶才做為負樣本。此外,隨機負采樣的方式可以為訓練樣本補充簡單負例,但考慮隨機負采樣時也會引入一些噪聲數據,因此我們利用人工設計的規則對訓練數據進行降噪:當 Query 的類目意圖與 POI 的類目體系較
177、為一致時或者與 POI 名高度匹配時,則將其從負樣本中剔除。算法2022年美團技術年貨圖 6對比樣本增強示例以跨菜品匹配的相關性問題為例,如上圖 6 所示,同樣是 Query 拆開后與商戶的多個推薦菜字段匹配的情況,Query“榴蓮蛋糕”與推薦菜“榴蓮千層、黑森林蛋糕”是相關的,但 Query“鵝肝漢堡”與“鐵板鵝肝、芝士牛肉漢堡”是不相關的,為了增強模型對這類高度匹配但結果相反的 Case 的識別能力,我們構造了“榴蓮蛋糕”與“榴蓮千層”、“鵝肝漢堡”與“鐵板鵝肝”這兩組對比樣本,去掉了與 Query 在文本上匹配但對模型判斷沒有幫助的信息,讓模型學到真正決定是否相關的關鍵信息,同時提升模型
178、對“蛋糕”和“千層”這類同義詞的泛化能力。類似地,其他類型的難例同樣可以用這種樣本增強方式來提升效果。3.2.2基于多相似矩陣的深度交互模型BERT 句間關系是一個通用的 NLP 任務,用于判斷兩個句子的關系,而相關性任務是計算 Query 和 POI 的相關程度。在計算過程中,句間關系任務不僅計算 Query 與POI 的交互,還計算 Query 內部和 POI 內部的交互,而相關性計算更關注 Query與 POI 的交互。此外,在模型迭代過程中,我們發現部分類型的困難 BadCase 對模型的表達能力有更高要求,例如文本高度匹配但不相關的類型。因此,為進一步提升模型對復雜的 Query 和
179、 POI 在相關性任務上的計算效果,我們對第二階段訓練中的 BERT 句間關系任務進行改造,提出了基于多相似矩陣的深度交互模型,通過引入多相似矩陣來對 Query 和 POI 進行深度交互,引入 indicator 矩陣以更好地解決困難 BadCase 問題,模型結構如下圖 7 所示:算法2022年美團技術年貨Indicator 矩陣可以較好地刻畫 Query 和 POI 的匹配關系,該矩陣的引入主要考慮到判定 Query 和 POI 相關程度時的一個難點:有時即使文本高度匹配,兩者也不相關?;诮换サ?BERT 模型結構更容易將文本匹配程度高的 Query 和 POI 判定為相關,但是在點評
180、搜索場景中,有些難例卻未必如此。比如“豆汁”和“綠豆汁”雖然高度匹配,但并不相關?!柏埧铡焙汀柏埖奶炜罩恰彪m然是拆開匹配,但因為前者是后者的縮寫而相關。因此,將不同的文本匹配情況通過 Indicator 矩陣直接輸入給模型,讓模型顯式地接收“包含”、“拆開匹配”等文本匹配情況,在幫助模型提升對難例判別能力的同時,也不會影響大部分正常的 Case 的表現?;诙嘞嗨凭仃嚨纳疃冉换ハ嚓P性模型將 Query 和 POI 拆分后計算相似矩陣,相當于讓模型對 Query 和 POI 進行顯式交互,使模型更加適配相關性任務。多個相似矩陣則增加了模型對 Query 和 POI 相關程度計算的表征能力,而
181、Indicator 矩陣則是針對相關性任務中復雜的文本匹配情況做的特殊設計,讓模型對不相關結果的判斷更加準確。3.3如何解決預訓練相關性模型的在線性能瓶頸將相關性計算部署在線上時,現有方案通常會采用知識蒸餾的雙塔結構10,14以保證線上計算效率,但此種處理方式或多或少對于模型的效果是有損的。點評搜索相關性計算為保證模型效果,在線上使用了基于交互的 12 層 BERT 預訓練相關性模型,需要對每個 Query 下的數百個 POI 經過 12 層 BERT 的模型預測。為保證線上計算效率,我們從模型實時計算流程和應用鏈路兩個角度出發,通過引入緩存機制、模型預測加速、引入前置黃金規則層、將相關性計算
182、與核心排序并行化等措施優化相關性模型在線上部署時的性能瓶頸,使得 12 層基于交互的 BERT 相關性模型在線上穩定高效運行,保證可以支持數百個商戶和 Query 間的相關性計算。算法2022年美團技術年貨3.3.2應用鏈路性能優化圖 9相關性模型在點評搜索鏈路中的應用相關性模型在搜索鏈路中的應用如上圖 9 所示,通過引入前置黃金規則、將相關性計算與核心排序層并行化來優化整體搜索鏈路中的性能。為了進一步對相關性調用鏈路加速,我們引入了前置黃金規則對 Query 分流,對部分 Query 通過規則直接輸出相關分,從而緩解模型計算壓力。在黃金規則層中利用文本匹配特征對 Query 和 POI 進行
183、判斷,例如,若搜索詞跟商戶名完全一致,則通過黃金規則層直接輸出“相關”的判定,而無需通過相關性模型計算相關分。在整體計算鏈路中,相關性計算過程與核心排序層進行并發操作,以保證相關性計算對搜索鏈路的整體耗時基本無影響。在應用層,相關性計算被用在搜索鏈路的召回和排序等多個環節。為降低搜索列表的首屏不相關商戶占比,我們將相關分引入到 LTR多目標融合排序中進行列表頁排序,并采用多路召回融合策略,利用相關性模型的結算法2022年美團技術年貨后,點評搜索的月平均 BadCase 率指標相比上線前顯著下降了 2.9pp(Percentage Point,百分比絕對點),并在后續幾周 BadCase 率指標
184、穩定在低點附近,同時,搜索列表頁的 NDCG 指標穩定提升 2pp??梢钥闯鱿嚓P性模型可以有效識別不相關商戶,顯著降低了搜索的首屏不相關性問題占比,從而提升了用戶的搜索體驗。下圖 10 列舉了部分線上 BadCase 解決示例,小標題是該示例對應的 Query,左邊為應用了相關性模型的實驗組,右邊為對照組。圖 10(a)中當搜索詞為“佩姐”時,相關性模型將商戶核心詞包含“佩姐”的商戶“佩姐名品”判斷為相關,并將用戶可能想找但輸錯的高質目標商戶“珮姐老火鍋”也判斷為相關,同時,通過引入地址字段標識,將地址中位于“珮姐”旁邊的商戶判斷為不相關;圖 10(b)中用戶通過Query“柚子日料自助”想找
185、一家名為“柚子”的日料自助店,相關性模型將拆詞匹配到有柚子相關商品售賣的日料自助店“竹若金槍魚”正確判斷為不相關并將其排序靠后,保證展示在靠前的均為更符合用戶主要需求的商戶。(a)佩姐算法2022年美團技術年貨目前,點評搜索相關性模型在模型表現及線上應用上仍有提升空間,在模型結構方面,我們將探索更多領域先驗知識的引入方式,例如識別 Query 中實體類型的多任務學習、融入外部知識優化模型的輸入等;在實際應用方面,將進一步細化為更多檔位,以滿足用戶對于精細化找店的需求。我們還會嘗試將相關性的能力應用到非商戶模塊中,優化整個搜索列表的搜索體驗。6.參考文獻1 Rosipal R,Krmer N.O
186、verview and recent advances in partial least squaresC/International Statistical and Optimization Perspectives Workshop”Subspace,Latent Structure and Feature Selection”.Springer,Berlin,Heidelberg,2005:34-51.2 Gao J,He X,Nie J Y.Clickthrough-based translation models for web search:from word models to
187、phrase modelsC/Proceedings of the 19th ACM international conference on Information and knowledge management.2010:1139-1148.3 Huang P S,He X,Gao J,et al.Learning deep structured semantic models for web search using clickthrough dataC/Proceedings of the 22nd ACM international conference on Information
188、&Knowledge Management.2013:2333-2338.4 Zamani,H.,Mitra,B.,Song,X.,Craswell,N.,&Tiwary,S.(2018,February).Neural ranking models with multiple document fields.In Proceedings of the eleventh ACM international conference on web search and data mining(WSDM)(pp.700-708).5 Reimers N,Gurevych I.Sentence-bert
189、:Sentence embeddings using siamese bert-networksJ.arXiv preprint arXiv:1908.10084,2019.6 Chen Q,Zhu X,Ling Z H,et al.Enhanced LSTM for Natural Language InferenceC/Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2017:1657-1668.7 Nogueira R
190、,Yang W,Cho K,et al.Multi-stage document ranking with bertJ.arXiv preprint arXiv:1910.14424,2019.8 MacAvaney S,Yates A,Cohan A,et al.CEDR:Contextualized embeddings for document rankingC/Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval.20
191、19:1101-1104.9 李勇,佳昊等.BERT 在美團搜索核心排序的探索和實踐.10 邵雯,楊揚等.預訓練技術在美團到店搜索廣告中的應用.11 楊揚,佳昊等.美團 BERT 的探索和實踐.12 Zou L,Zhang S,Cai H,et al.Pre-trained language model based ranking in Baidu searchC/Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery&Data Mining.2021:4014-4022.13 Pang L,Lan Y,Guo
192、J,et al.Text matching as image recognitionC/Proceedings 算法2022年美團技術年貨美團 SemEval2022 結構化情感分析跨語言賽道冠軍方法總結作者:陳聰見聳劉操楊帆廣魯今雄1.背景SemEval(International Workshop on Semantic Evaluation)是一系列國際自然語言處理(NLP)研討會,也是自然語言處理領域的權威國際競賽,其使命是推進語義分析的研究進展,并幫助一系列日益具有挑戰性的自然語言語義問題創建高質量的數據集。本次 SemEval-2022(The 16th International
193、 Workshop on Semantic Evaluation)包含 12 個任務,涉及一系列主題,包括習語檢測和嵌入、諷刺檢測、多語言新聞相似性等任務,吸引了包括特斯拉、阿里巴巴、支付寶、滴滴、華為、字節跳動、斯坦福大學等企業和科研機構參與。其中 Task 10:結構化情感分析(Structured Sentiment Analysis)屬于信息抽?。↖nformation Extraction)領域。該任務包含兩個子任務(分別是 Monolingual Subtask-1 和 Zero-shot Crosslingual Subtask-2),包含五種語言共 7 個數據集(包括英語、西班
194、牙語、加泰羅尼亞語、巴斯克語、挪威語),其中子 Subtask-1使用全部七個數據集,Subtask-2 使用其中的三個數據集(西班牙語、加泰羅尼亞語、巴斯克語)。我們在參與該評測任務的三十多支隊伍中取得 Subtask-1第 二 名 和 Subtask-2 第 一 名,相 關 工 作 已 總 結 為 一 篇 論 文 MT-Speech at SemEval-2022 Task 10:Incorporating Data Augmentation and Auxiliary Task with Cross-Lingual Pretrained Language Model for Struct
195、ured Sentiment Analysis,并收錄在 NAACL 2022 Workshop SemEval。2.賽題簡介結構化情感分析任務(Structured Sentiment Analysis,SSA)的目的是抽取出文本算法2022年美團技術年貨數據介紹數據集語言說明鏈接/參考文獻MultiBCA加泰羅尼亞語Catalan hotel reviewsBarnes,Jeremy,Patrik Lambert,and Toni Badia.2018.“MultiBooked:A Corpus of Basque and Catalan Hotel Reviews Anno-tated
196、for Aspect-Level Sentiment Classi-fication.”ArXiv:1803.08614 Cs,March.http:/arxiv.org/abs/1803.08614.MultiBEU巴斯克語Basque hotel reviewsBarnes,Jeremy,Patrik Lambert,and Toni Badia.2018.“MultiBooked:A Corpus of Basque and Catalan Hotel Reviews Anno-tated for Aspect-Level Sentiment Classi-fication.”ArXiv
197、:1803.08614 Cs,March.http:/arxiv.org/abs/1803.08614.OpeNerES西班牙語Spanish hotel reviewshttps:/ hotel re-viewshttps:/ wire text in En-glish.http:/mpqa.cs.pitt.edu/corpo-ra/mpqa_corpus/)Janyce Wiebe,Theresa Wilson,and Claire Cardie.2005.Annotating expressions of opinions and emotions in language.Lan-gua
198、ge Resources and Evaluation,39(2-3):165210.https:/doi.org/10.1007/s10579-005-7880-9.DSUnis英語English reviews of online universitiesCigdem Toprak,Niklas Jakob,and Iryna Gurevych.2010.Sentence and expression level annotation of opinions in user-gen-erated discourse.https:/aclanthology.org/P10-1059/NoRe
199、CFine挪威語Norwegian pro-fessional reviews in multiple do-mainsvrelid,Lilja,Petter Mhlum,Jeremy Barnes,and Erik Velldal.2020.“A Fine-Grained Sentiment Dataset for Norwegian.”ArXiv:1911.12722 Cs,April.http:/arxiv.org/abs/1911.12722.評估指標比賽的評估指標是 Sentiment Graph F1(SF1,縮寫沿用論文5的寫法),評價預測四元組和標簽四元組的重合度。除了需要使用
200、傳統的真陽性(True Positive,算法2022年美團技術年貨動的模型依賴于大量標注數據,但在真實場景中往往是標注數據不足或者甚至沒有標注數據。例如,在本次任務中,MultiBEU(Barnes et al.,2018)4 的訓練集只有 1063 個樣本,類似的 MultiBCA(Barnes et al.,2018)4 的訓練集只有 1174 個樣本。本次任務的跨語言子任務要求不能使用目標語言的訓練數據,也嚴重制約了該方法的性能。4.我們的方法為了解決上述提到的問題,我們提出了一個統一的端到端 SSA 模型(圖 2),把 PLM作為模型主干(Backbone)參與到整個端到端的訓練中,
201、并且利用數據增強方法和輔助任務來大幅提升跨語言 zero-shot 場景的效果。具體地,我們采用 XLM-RoBERTa(Conneau and Lample,2019;Conneau et al.,2019)10,11 作為模型的主干編碼器(Backbone Encoder),以充分利用其已有的多語言/跨語言知識;使用 BiLSTM12加強序列解碼能力;最后一個雙線性注意力矩陣(Bilinear Attention)建模依存圖,解碼出觀點四元組。為了緩解缺乏標注數據的問題,我們采用了兩種數據增強方法:一種是在訓練階段添加相同任務的相同領域(In-Domain)的標注數據,另一種是利用 XLM
202、-RoBERTa 通過掩碼語言模型(MLM)(Devlin et al.,2018)13 生成增強樣本(Augmented Samples)。此外,我們還添加了兩個輔助任務:1)序列標注任務(Sequence Labeling)以預測文本中 Holder/Target/Expression 的片段,以及 2)情感極性分類(Polarity Classification)。這些輔助任務都不需要額外的標注。算法2022年美團技術年貨XLM 系列模型中的 TLM 和 Masked Language Modeling(MLM)目標的性能優于 mBERT,后者僅使用 MLM 目標在多語言語料庫上進行訓練
203、。此外,XLM-Ro-BERTa 提供了 Large 版本,模型更大,訓練數據更多,這使其在下游任務的性能更好。我們沒有使用 infoXLM,因為它著重于句子級的分類目標,不適合本次結構化預測的任務。表 1 不同編碼器在官方發布的 Monolingual 任務評測驗證集上的效果,所有模型都適用相同結構的雙線性注意力解碼器為了證明跨語言預訓練語言模型 XLM-RoBERTa 的有效性,我們將其與以下基線 進 行 了 比 較:1)w2v+BiLSTM,word2vec(Mikolov et al.,2013)20 詞 嵌 入和 BiLSTMs;2)mBERT,多 語 言 BERT(Devlin e
204、t al.,2018)13;3)mBERT+BiLSTM;4)XLM-RoBERTa+BiLSTM。表 1 表明 XLM-RoBERTa+BiLSTM 在所有基準測試中獲得了最佳性能,平均得分比最強基線(mBERT+BiLSTM)高 6.7%。BiLSTM 可以提高 3.7%的性能,這表明 BiLSTM 層可以捕獲序列信息,這有利于序列化的信息編碼(Cross and Huang,2016)12。我們使用官方發布的開發集作為測試集,將原始訓練集隨機拆分為訓練集和開發集。并保持拆分開發集的大小與官方發布的開發集相同。5.2數據增強數據增強(DA1)-同領域數據合并不同語種的 M 個數據集如果屬于
205、相同的領域,可以合并作為一個大訓練集以提升各個子數據集的效果。本次評測有四個同屬于酒店評論的數據集 MultiBEU、MultiB-CA、OpeNerES、OpeNerEN(Agerri et al.,2013)1,我們在訓練階段組合了這些屬于同一領域的不同數據集,可以提高各個數據集的效果。我們還額外添加了葡萄牙算法2022年美團技術年貨這樣我們就獲得了帶標簽的新樣本。但要注意不能在 Express 片段上進行掩碼生成,因為模型可能會生成與原始標簽極性不同的詞。表 4 兩種數據增強方法在 Crosslingual 任務上的效果,其中 OpeNerEN 表示只使用 OpeNerEN數據作為訓練數
206、據,w/DA1-2表示同時使用了數據增強 DA1 和 DA2從表 3 和表 4 可以看到兩種數據增強方法都有助于提高性能,幾乎每個基準測試的性能都有所提高。特別是對 Crosslingual 任務的性能有顯著提高,推測是因為Zero-shot 任務沒有機會在訓練階段看過同數據集的訓練樣本的文本和標簽。DA2方法能提升 Crosslingual 任務的效果,但是對 Monolingual 任務的作用不大,推測是因為 Monolingual 任務的已經在訓練階段看過同數據集的訓練樣本了。5.3輔助任務SSA 任務同時包含結構化預測和情感極性分類,讓模型端到端地解決這兩個任務并非易事。我們提出了兩個
207、輔助任務來為模型提供更多的訓練信號,以更好地處理結構化預測和極性分類。對于結構化預測,我們添加了一個序列標注任務(如下圖 3),讓模型預測每個 token 的類型(Holder、Target 或者 Expression),得到輔助損失。圖 3序列標注任務針對極性分類任務,我們把評測的訓練數據轉換為句子級的極性分類任務,具體實現是把只有一種極性的觀點元組的句子設置為對應的極性類別,把包含多種極性的觀點元組的句子設置為中性(Neutral)類別。除此之外,針對不同語種的數據集,我們還算法2022年美團技術年貨表 7Subtask-2 各隊伍效果對比(括號內的數字為單個數據集的排名,Average
208、為平均值)7.總結本次評測,我們主要探索了結構化情感分析的任務。針對不同語言數據間缺乏交互、以及標注資源缺乏的問題,我們應用了跨語言預訓練語言模型,并采用了兩種數據增強方法和兩種輔助任務。實驗證明了我們的方法和模型的有效性,并在 SemEval-2022 任務 10 結構化情感分析(Structured Sentiment Analysis)取得Subtask-1 第二名(表 6)和 Subtask-2 第一名(表 7)的成績。后續將繼續探索其他更有效的多語言/跨語言資源和跨語言預訓練模型的應用方法。我們正在嘗試將比賽中的技術應用到美團具體業務中,如語音交互部的智能客服、智能外呼機器人中,為優
209、化智能解決能力、提升用戶滿意度提供參考。8.招聘信息語音交互部負責美團語音和對話技術研發,面向美團業務及生態系統內 B 端、C 端合作伙伴,提供語音技術與對話交互技術能力支持和產品應用。經過多年研發積累,團隊在語音識別、合成、口語理解、智能問答和多輪交互等技術上已建成大規模的技術平臺服務,并研發包括外呼機器人、智能客服、語音內容分析等解決方案和產品,在美團豐富的業務場景中廣泛落地。語音交互部長期招聘自然語言處理算法工程師、算法專家,感興趣的同學可以將簡歷發送至。9.參考文獻1 Rodrigo Agerri,Montse Cuadros,Sean Gaines,and German Rigau.
210、2013.OpeNER:Open polarity enhanced named entity recognition.In Sociedad Espaola 算法2022年美團技術年貨12 James Cross and Liang Huang.2016.Incremental parsing with minimal features using bi-directional lstm.ArXiv,abs/1606.06406.13 Jacob Devlin,Ming-Wei Chang,Kenton Lee,and Kristina Toutanova.2018.Bert:Pre-tra
211、ining of deep bidirectional transformers for language understanding.arXiv preprint arXiv:1810.04805.14 Timothy Dozat and Christopher D Manning.2016.Deep biaffine attention for neural dependency parsing.arXiv preprint arXiv:1611.01734.15 E.Kiperwasser and Yoav Goldberg.2016.Simple and accurate depend
212、ency parsing using bidirectional lstm feature representations.Transactions of the Association for Computational Linguistics,4:313327.16 Robin Kurtz,Stephan Oepen,and Marco Kuhlmann.2020.End-to-end negation resolution as graph parsing.In IWPT.17 Xin Li,Lidong Bing,Piji Li,and Wai Lam.2019.A unified m
213、odel for opinion target extraction and target sentiment prediction.ArXiv,abs/1811.05082.18 Bing Liu.2012.Sentiment analysis and opinion mining.Synthesis lectures on human language technologies,5(1):1167.19 Yinhan Liu,Myle Ott,Naman Goyal,Jingfei Du,Mandar Joshi,Danqi Chen,Omer Levy,Mike Lewis,Luke Z
214、ettlemoyer,and Veselin Stoyanov.2019.Roberta:A robustly optimized bert pretraining approach.arXiv preprint arXiv:1907.11692.20 Tomas Mikolov,Kai Chen,Gregory S.Corrado,and Jeffrey Dean.2013.Efficient estimation of word representations in vector space.In ICLR.21 Margaret Mitchell,Jacqui Aguilar,There
215、sa Wilson,and Benjamin Van Durme.2013.Open domain targeted sentiment.In EMNLP.22 Stephan Oepen,Omri Abend,Lasha Abzianidze,Johan Bos,Jan Hajic,Daniel Hershcovich,Bin Li,Timothy J.O Gorman,Nianwen Xue,and Daniel Zeman.2020.Mrp 2020:The second shared task on crossframework and cross-lingual meaning re
216、presentation parsing.In CONLL.23 Lilja Ovrelid,Petter Maehlum,Jeremy Barnes,and Erik Velldal.2020.A fine-grained sentiment dataset for norwegian.In LREC.24 Lilja vrelid,Petter Mhlum,Jeremy Barnes,and Erik Velldal.2020.A fine-grained sentiment dataset for Norwegian.In Proceedings of the 12th Language
217、 Resources and Evaluation Conference,pages 5025 5033,Marseille,France.European Language Resources Association.25 Bo Pang,Lillian Lee,et al.2008.Opinion mining and sentiment analysis.Foundations and Trends in information retrieval,2(12):1135.26 Maria Pontiki,Dimitris Galanis,John Pavlopoulos,Haris Pa
218、pageorgiou,Ion Androutsopoulos,and Suresh Manandhar.2014.Semeval-2014 task 4:Aspect based sentiment analysis.In COLING 2014.27 Alec Radford,Jeff Wu,Rewon Child,David Luan,Dario Amodei,and Ilya Sutskever.2019.Language models are unsupervised multitask learners.28 Colin Raffel,Noam M.Shazeer,Adam Robe
219、rts,Katherine Lee,Sharan Narang,算法2022年美團技術年貨檢索式對話系統在美團客服場景的探索與實踐作者:子健炎根1.背景與挑戰對話系統一直是人工智能研究的熱門領域之一,近年來隨著深度學習技術的發展,人工智能在對話系統上出現了不少的突破性進展。但是,由于自然語言的復雜性,目前的智能對話系統還遠遠達不到可以直接替代人類的地步。因此在一些復雜的業務場景中,目前的智能對話系統如何更好的去輔助人類做到人機協同,提升溝通效率,也成為了當今研究的一個熱點以及實際落地方向。作為一家連接用戶和商戶的生活服務電子商務平臺,美團在平臺服務的售前、售中、售后全鏈路的多個場景中,用戶向商
220、家都存在有大量的問題咨詢情況,如在線坐席CHAT、商家 IM 等。因此我們希望利用對話系統,以推薦回復的方式,基于對話上文為客服提供候選回復,來幫助商家提升回答用戶問題的效率,同時更快地解決用戶問題,改善用戶咨詢體驗。一般來說,對話系統可以大致分為三類:任務型:一般為受限域,以完成特定領域的特定任務為目的,主流方法是基于有限狀態機(FSM)的可配置化 TaskFlow,而基于強化學習、監督學習等基于數據驅動的對話管理方法在實際應用中尚不成熟,應用場景如售后退款等流程明確的智能機器人。問答型:受限域或開放域,主要是回答特定領域的信息咨詢或開放領域的知識性問題,主流方法包括圖譜問答(KBQA)、社
221、區問答(CQA)、文檔問答(MRC)等單輪問答,也可能涉及多輪問答,應用場景如酒店、旅游等領域的售前咨詢。閑聊型:一般為開放域,無特定目的,在開放領域內讓對話有意義地進行下去即可,主流方法是基于檢索的召回排序二階段方法或基于生成的端到端模型,應用場景如聊天機器人。算法2022年美團技術年貨既可以用在智能客服中,也可以用作話術推薦。召回層:給定對話上文及其它限制條件,從話術索引庫和知識庫中召回結果,包括文本、向量、標簽、知識等多路召回。排序層:針對召回模塊返回的結果集合,進行排序打分,包括規則排序、文本相關性模型排序以及 CTR 預估排序。策略層:針對排序模塊返回的結果列表,進行重排序或者拒推,
222、例如非活躍商戶拒推,推薦列表包含正確答案而商家長期無采納行為則降低推薦概率;多樣性答案選擇,盡量選擇語義及表達形式不同的答案,避免推薦過于相似的答案;個性化場景策略,針對場景特征定制策略。應用層:主要用于人工輔助場景,包括在線回復咨詢時的話術推薦和輸入聯想,以及離線填答智能客服知識庫時的答案推薦供給。同時,為了更合理地指導系統相關優化,我們設計了一套離線到在線的指標體系,以話術推薦為例,如下圖 2 所示,具體來說可分為三個部分:圖 2話術推薦指標體系 離線自動指標:主要計算的是 Top-N 推薦話術與坐席/商家下一句真實回復的語義相關性,我們采用了文本相關性的 BLEU、ROUGE 指標,以及
223、排序相關性的 Recall、MRR 指標。算法2022年美團技術年貨 通用高頻話術索引:主要包括通用及高頻的 Context-Response 對,如問好、感謝等等場景,用于兜底,可大大提升覆蓋率。索引日更新機制:借助離線數據表生產平臺和在線索引查詢平臺,保證對話日志的回流和索引的日更新。因此,在實際的話術推薦中,對商戶/坐席而言,推薦答案的來源是該商戶/坐席本身歷史話術或通用高頻話術,既部分緩解了個性化及時間漂移問題,也避免了因推薦不合格或違規話術引發客訴。3.1文本召回對于文本召回,在對歷史對話建立索引時,最粗暴的方案是直接把歷史對話上下文直接拼接成一長串文本建立索引,然后線上利用 BM2
224、5 進行召回。這種做法主要存在兩個較大的缺陷:1.沒有考慮到對話的順承特性,即對話的下一句回復通常與最近幾句對話歷史更為相關。2.把所有對話歷史進行拼接導致內容較為雜亂,不利于精確檢索。針對這兩個問題,我們對對話歷史上下文索引的建立進行了優化。具體來說,我們將整個對話歷史劃分為:短期對話上文:一般為上文最后一句包含完整語義的話,中文分詞后去停用詞建立倒排索引。長期對話上文:一般為上文除最后一輪外前 N 輪對話,中文分詞后去停用詞通過 TF-IDF 等方法挖掘 Top-M 關鍵詞入索引庫。機器人對話上文:主要為進線標簽等,可以增加對話初期的背景信息。如下圖 3 所示,針對不同的對話上文采用不同的
225、信息抽取及建模方式,核心思想在于對于短期上文保留盡量多的信息,保證召回時的相關性,對于長期上文中的信息進行篩選過濾,只保留核心信息,提升召回的精準性。算法2022年美團技術年貨大增強表示和匹配的泛化性。增強長期上文的表示:文本中的長期上文僅使用關鍵詞進行表示,語義明顯失真,通過向量召回的方法可以更加有效地表示和利用長期上文。具體來說,向量召回即給定對話上文(Context,Q),檢索得到答案集合(Response,A),一個最基本的問題就是召回方式的選擇(QQ vs QA),最終我們選了 QQ 的方式來進行檢索召回,即構建 Context-Response Pair 對,將 Context 表
226、示為向量后檢索召回索引中相似的歷史 Context,再使用這些歷史 Context 對應的歷史Response 作為召回結果。這樣選擇的核心原因在于:Context 與 Response 之間并非單純的語義相似或相關關系,更多的是一種順承推理的關系,難以用基于相似度或距離的向量檢索方案來直接處理,通過引入歷史 Context 作為其中的”橋梁”,可以讓建模變得更加簡單。舉一個簡單的例子,如果 Context 是“謝謝”,那么向量檢索返回的集合中大多都是此類表示感謝語義的句子,然而我們應該召回回復感謝的“不客氣”之類的句子。在實際實驗和業務中,我們也進行了一系列的對比,發現 Context-Re
227、sponse(QA)召回方式效果遠差于 Context-Context(QQ)方式。3.2.1表示模型關于如何表征文檔,我們簡單介紹三類典型的模型框架:BoW:詞袋向量模型(Bag-of-Words Embedding)是文檔向量表示的一個基礎模型,在大規模無監督對話語料中通過 Word2vec1、Glove2 等算法計算出每個單詞的向量表示,文檔的向量表示可以通過文檔中所有詞語的向量進行組合來得到,比較簡單有效的方法是平均池化(Average Pooling)。BERT:大規模無監督預訓練顯著地提升了深度學習在自然語言處理領域的實用性和通用性,BERT3和 MLM(Mask Language
228、 Model)作為典型的模型及任務,在對話領域內大規模數據預訓練后,可以獲得詞語的上下文相關表征向量,最終文檔的向量依然可由平均池化獲得。算法2022年美團技術年貨3.2.2數據采樣雙塔模型的一個基本問題是如何構造高質量的正樣本對,在話術推薦的場景這個問題并不復雜,不過存在兩種選擇:Context-ResponsePair:經由歷史對話日志挖掘得到的樣本對,及給定上文和其對應的回復。Context-ContextPair:借助商戶 Context 與 Response 的對應關系,同一 Response 對應的 Context 集合互為正例,通過這種關系偽造獲取Context 及其對應 Con
229、text。我們選擇了方式一,這是因為對話中 Context 與 Response 盡管存在一定的多樣性,但是總體上來說相比搜索系統中的 Query-Document 還是具備很強的對應關系,Response 本身提供了足夠的監督信息來區分不同的 Context。此外,負例采樣是向量召回中最重要的問題,一般來說典型的采樣方法有以下三種19:預定義采樣:在數據準備階段預先根據某些規則或條件采樣負例,在模型訓練過程中單個正例對應的負例集合不變。局限于資源等問題,一般來說負例個數不會太多。Batch 內采樣:模型訓練過程中,Batch 內除當前正例及其對應樣例之外的其它樣例都可視作負例。相比于預定義采
230、樣,Batch 內隨機采樣使得每輪訓練時同一正例對應不同的負例,并且可以設置較大的負例個數,可以更加簡單高效地利用數據。難負例采樣:除了簡單負例之外,為了提升模型對難負例的識別效果以及對細節的學習能力,一般會結合場景特征挖掘部分難負例作為補充。不管是學術界文章還是工業界實踐,都顯示 Batch 內簡單負例+難負例的組合效果最好,經驗比例大致在 100:1。因此,我們最終也基本參考了這種設置5,如下圖 5所示,其中關于難負例的采樣,我們嘗試了如下兩種方式:算法2022年美團技術年貨針對第一類多樣性,在 Context 召回相似 Context 的設置下并不存在明顯問題。但是在實際的實驗中,我們發
231、現將同一個 Response 對應的 Context 集合做平均池化獲取均值向量,以此合并多條記錄到一條記錄并以該均值向量作為 Context 表示,可以有效提升召回結果集合的文本相關性指標,我們稱之為語義純化。推測平均池化的方式去除了每個 Context 向量上附著的噪音,僅保留與對應Response 最為相關的語義向量部分,故而提升了召回效果。針對第二類多樣性,類似的問題或者思想在對話回復選擇、電商推薦、文本檢索中有過相關的工作:弱交互6:對話回復選擇任務,一般來說,交互模型的效果遠好于雙塔模型,但是交互模型的推理速度較慢。本文通過設計多個 Poly Codes 或直接選取First-M、
232、Last-M 個 Context Hidden States 將 Context 表征為多個向量,從而引入弱交互性質,相比雙塔模型可以有效提升效果,相比交互模型可以大幅提升推理速度,不過其主要應用是在粗排模塊,而非向量召回模塊。多興趣7:電商場景的推薦任務,本文將推薦系統視作一個序列化推薦任務,即根據用戶點擊 Item 歷史推測下一個用戶可能感興趣的 Item。作者認為單個向量難以表征用戶歷史的多興趣,通過動態路由(Dynamic Routing)與自注意力(Self-Attentive)從歷史中抽取 K 個向量表示不同的興趣點,不同的興趣點向量獨立召回不同的 Items,然后設計聚合模塊對召
233、回的 Items 進行重新分組和排序,聚合時除了相似度分數還可以考慮引入 Diversity 等更多的性質。多向量8:稠密文檔檢索,作者認為簡單的雙塔模型可能造成文檔表征嚴重的信息損失,因而利用迭代聚類(Iterative Clustering)的方法將文檔表示為 K個向量,即類簇中心點。在建立索引時保留文檔的 K 個 vector,檢索時召回K*N 個結果并經過重排序保留 N 個結果??梢钥闯?,多樣性(多向量表征)的核心問題在于如何表征獲取 K 個向量,結合話術推薦的場景,給定一個 Context,可能存在多個合適的 Response,根據 Context不同的復雜程度,可能存在不同數目的
234、Response。我們希望將 Context 表征為多算法2022年美團技術年貨具 體 來 說,Context 和 Response 輸 入 BERT 編 碼 器 后,獲 取 一 個 Context Vector Set 即,以及一個 Response Vector 即。在離線訓練時,我們采取 Scaled Dot Attention 的方式來獲取 Context 最終表征向量,而后與 Response Vector 計算 Score,如下所示:在線上推理時,對 Context Vector Set 中的每個 Vector 進行并行檢索,而后通過重排和聚合獲取最終結果。4.排序模塊排序模塊是在
235、上一步召回模塊的基礎上,結合當前的對話上下文對每個召回的答案進行打分排序。在召回階段,為了能夠更高效率的進行檢索,我們通常采用的是雙塔架構模型,這種模型 Context 與 Response 信息交互的程度低,效果相對也較差。而在排序階段,召回的候選集通常已經控制到了幾十條,可以利用交互式架構模型,來更好的學習 Context 與 Response 之間的相關性,從而提升話術推薦的準確性。典型的交互模型如下圖 7 所示,一般采用 BERT 作為編碼器,通過將 Context 與Response 進行拼接當做模型輸入,最后模型輸出 0-1 之間的打分作為排序結果9。本場景對應了學術上一個經典任務
236、,即對話回復選擇(Conversational Response Selection),我們后續重點介紹預訓練、負采樣、建模方式、對比學習、特征融入等方面的工作。算法2022年美團技術年貨(1)對話層級:建模不同層級(Token-Level/Sentence-Level/Session-Lev-el)的結構。Token-Level 的任務大多是通用 NLP 任務。最簡單的 Language Model(LM)任 務,基 于 上 文 預 測 下 一 個 單 詞。BERT 的 Masked Language Model(MLM)任務,根據句子中其余的詞來預測被 Mask 的詞。XLNet 的Per
237、mutation Language Model(PLM)任務,將句子中的 Token 隨機排列后用自回歸的方法訓練預測末尾的 Tokens。Sentence-Level 的任務眾多,可以有效表征對話中的句間關系,通過特殊設計后也可以建模對話的一致性等性質。BERT 中的 Next Sentence Pre-diction(NSP)預測句子對是否是同一文檔的上下句關系。Next Sentence Generation(NSG)10任 務 在 給 定 上 文 時 生 成 對 應 的 回 復。Sentence Reordering Task(SRT)將 對 話 中 句 子 打 亂 順 序 后 預 測
238、 正 確 的 順 序。Incoherence Detection(ID)隨機替換對話中的一句話并預測哪句話被替換了。Consistency Discrimination(CD)是面向說話人角色的一致性判別,建模目標為來自同一說話人的句對比來自不同說話人的句對相似度分數更高,使模型更多地去捕捉兩個話語之間在主題、說話個性和風格之間的相似性,而不是話語之間地連貫性和語義相關性。在本場景中,我們實驗了 NSG 任務,希望生成式任務可以對檢索式任務有所增益。Session-Level 的任務較少,Next Session Prediction(NSP)11預測兩個片段是否是相鄰的兩個輪次,計算對話中兩
239、段 Session 之間的匹配程度,相當于是 Next Sentence Prediction 的對話改進版。(2)對話性質:建模流暢性(Fluency)、一致性(Coherence)、可讀性(Read-ability)、多樣性(Diversity)、特異性(Specificity)等性質。以一致性和特異性為例,文章12借助 N 元逆文檔頻率(n-NIDF,n-gram Nor-malized Inverse Document Frequency)為每個正例進行打分,而后通過均方差損失函數(MSE,Mean-Square Error)進行學習建模。在本場景中,我們并未使用額外的語料,僅僅在 B
240、ERT 基礎上繼續進行預訓練,主算法2022年美團技術年貨過多假負例。僅從 Retrieval 集合采樣與 Retrieval+Random 聯合采樣的效果相差不大,不過后者更加穩定,對召回集合分布漂移問題具備更強的魯棒性。4.3學會排序針對排序的任務的建模一般有以下兩種思想:二元絕對論13:非黑即白,候選回復要么是相關的要么就是不相關的,主要工作在于如何構造難負例。作者使用 DialogueGPT 類預訓練生成模型來偽造假負例,通過對話流變形(Flow Distortion)和上文擾動(Context Destruction)的方式獲取修改過的對話,輸入到模型生成對應的回復,最后選擇困惑度分
241、數(Perplexity Score)最高的回復以避免假負例問題。常見的建模方式為 Pointwise。多元相對論14:次序關系,注重回復質量的多樣性,主要工作在于如何構造數據建模更細粒度的好壞關系。作者使用生成(Generation)或者檢索(Retrieval)的方式來構造所謂的灰度數據(Grayscale),并希望模型學習“Ground Truth Response Greyscale Response Random Sampled Response”的 漸 進 關 系,最 終 損 失 函 數 同 時 建 ?!癎round Truth Random”、“Ground Truth Retr
242、ieval Random”、“Ground Truth Generation Random”三類次序關系。常見的建模方式為 Pairwise。結合我們當前的場景,這兩類方法的典型對比如下圖 9 所示,區別在于將召回集合視作難負例還是灰度數據。圖 9排序任務兩種建模方式(Pointwise vs Pairwise)算法 Retrieval Random 增強有效。同時,Pointwise 和 Pairwise 建模方式無絕對的高低上下之分,效果好壞取決于場景和數據特性。事實上在線坐席 CHAT 場景中 Pairwise 更好,商家 IM 場景中 Pointwise 更好,聯合建模(Pointwi
243、se+Pair-wise or Pointwise-Pairwise)效果略有提升。4.4對比學習在分析排序錯誤的過程中,我們發現存在 Context 或 Response 少量擾動導致最終分數變化較大的情形,典型的例子如短 Response 添加或刪除句尾符號導致預測標簽變化。而對比學習的指導原則是通過自動構造相似實例和不相似實例學習一個表示模型,使得相似的實例在投影空間中比較接近,而不相似的實例在投影空間中距離比較遠。因此,為了緩解上述問題,我們希望借助對比學習的思想使得模型的輸出結果更為穩定一致,具體來說,輸出的向量表示盡可能接近,輸出的概率分布盡可能一致。針對向量表示,我們對 Cont
244、ext16和 Response17分別進行了數據增強,或者說添加了不改變語義的擾動,希望增強之后樣例與原始樣例在表示空間上盡可能接近,并且遠離對應的負例,如下圖 10 所示:2062022年美團技術年貨圖 10對話中的對比學習具體來說:(1)Context 端數據增強:基本原則是不顯式改變 Context 的最后一句話,因為最后一句話的語義最為重要。Context 為單句,不進行顯式改變,添加 Dropout。Context 包含商家或用戶連續說話情形,進行 Sentence Re-ordering 操作(角色信息很重要,不會調換不同角色說的話的位置)。其它多輪情形,隨機選擇一句,進行 Sen
245、tence Token Shuffling 操作(針對中文,我們利用 Jieba 分詞后再打亂重組,避免字級別打亂重組噪音過多)。(2)Response 端數據增強:基本原則是盡量不改變語義,不引入過多噪音。句子長度小于 5,隨機進行 Dropout 或者 Operate punctuations(添加刪減句尾標點符號)操作。句子長度大于 5,隨機選擇 Random Deletion 或 Random Swaping,每個算法2022年美團技術年貨 商家個性化特征:對于精排模型輸入集合的樣例,關注答案是否來源于商戶歷史,即商家是否說過這句話。商品個性化特征:在咨詢過程中,除了純文本信息之外,還
246、存在商品、團購等卡片信息,這類信息為“多少錢”、“適用人群”等問題提供了約束和限制。時間個性化特征:部分問題如“營業時間”、“經營項目”存在時效性和周期性。針對時效性問題,同樣的問題下答案時間越近越好;針對周期性問題,上一周期的同時段的答案最好。業界通用的特征建模方式是 Wide&Deep 模型,我們因為可用特征較少,所以采取了一種簡化的聯合建模的方式。具體來說,我們采取了一種簡單的類雙塔的形式來分別建模文本特征和非文本個性化特征,如下圖 11 所示:圖 11個性化特征建模算法2022年美團技術年貨進一步提升。在雙塔模型基礎上,引入難負例會帶來一定提升,而引入對話多樣性表征則帶來明顯提升。精排
247、模型主要考慮 Top-1 排序結果的 BLEU、ROUGE2、RECALL 指標,結果如下表所示:表 2精排模型指標可以看到,引入 Pairwise 學習并不能帶來完全的正向收益,對話預訓練則帶來了穩定提升,對比學習增強大大提升了所有指標。非文本特征融入在文本相關性指標上有一定提升,并且顯著提升了排序相關性指標,說明該方法非常有效處理了在語言表達形式類似情況下商家個性化偏好問題。5.2商家 IM 話術推薦商家 IM 是商家與用戶在交易流程中的在線即時通訊工具,在獲取所需商品和服務過程中,用戶有主動表述問題咨詢信息的訴求,并通過 IM 向商家發起提問。以到綜業務為例,大部分商家由于沒有配備專門客
248、服等原因,回復能力不足,回復欲望較低,效率不足,導致回復率較低,回復不及時,夜間無回復,容易造成客資流失。針對這一問題,我們建立面向商家的智能助手,商家在線時提供話術推薦輔助人工能力,降低客服輸入成本,提升回復率,最終提升用戶服務體驗,如下圖 12 所示:算法2022年美團技術年貨圖 13在線坐席 CHAT 輸入聯想產品示例5.4知識庫答案供給商家 IM 中,除了商家在線時提供話術推薦輔助人工能力之外,我們也在商家離線時提供智能客服自動回復能力,解決夜間無人值守的問題。其中首要的步驟就是幫助商家建立自定義知識庫,在意圖體系構建完成之后,除了存在默認答案的通用意圖之外,部分特定意圖仍需要商家手動
249、填寫答案。在此過程中,我們根據意圖中的問法為商家提供了推薦答案,減輕填寫成本,提升填答效率,以提升答案覆蓋率,如下圖 14 所示:算法2022年美團技術年貨8.參考文獻1 Mikolov,Tomas,et al.“Efficient estimation of word representations in vector space.”arXiv preprint arXiv:1301.3781(2013).2 Pennington,Jeffrey,Richard Socher,and Christopher D.Manning.“Glove:Global vectors for word r
250、epresentation.”Proceedings of the 2014 conference on empirical methods in natural language processing(EMNLP).2014.3 Devlin,Jacob,et al.“Bert:Pre-training of deep bidirectional transformers for language understanding.”arXiv preprint arXiv:1810.04805(2018).4 Reimers,Nils,and I.Sentence-BERT Gurevych.“
251、Sentence Embeddings using Siamese BERT-Networks.arXiv 2019.”arXiv preprint arXiv:1908.10084(1908).5 Liu,Yiding,et al.“Pre-trained language model for web-scale retrieval in baidu search.”Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery&Data Mining.2021.6 Humeau,Samuel,et al.“Poly-
252、encoders:Transformer architectures and pre-training strategies for fast and accurate multi-sentence scoring.”arXiv preprint arXiv:1905.01969(2019).7 Cen,Yukuo,et al.“Controllable multi-interest framework for recommendation.”Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Dis
253、covery&Data Mining.2020.8 Tang,Hongyin,et al.“Improving document representations by generating pseudo query embeddings for dense retrieval.”arXiv preprint arXiv:2105.03599(2021).9 Whang,Taesun,et al.“An effective domain adaptive post-training method for bert in response selection.”arXiv preprint arX
254、iv:1908.04812(2019).10 Mehri,Shikib,et al.“Pretraining methods for dialog context representation learning.”arXiv preprint arXiv:1906.00414(2019).11 Xu,Ruijian,et al.“Learning an effective context-response matching model with self-supervised tasks for retrieval-based dialogues.”Proceedings of the AAA
255、I Conference on Artificial Intelligence.Vol.35.No.16.2021.12 Li,Junlong,et al.“Task-specific objectives of pre-trained language models for dialogue adaptation.”arXiv preprint arXiv:2009.04984(2020).13 Qiu,Yao,et al.“Challenging Instances are Worth Learning:Generating Valuable Negative Samples for Re
256、sponse Selection Training.”arXiv preprint arXiv:2109.06538(2021).14 Lin,Zibo,et al.“The world is not binary:Learning to rank with grayscale data for dialogue response selection.”arXiv preprint arXiv:2004.02421(2020).15 Burges,Chris,et al.“Learning to rank using gradient descent.”Proceedings of the 2
257、2nd international conference on Machine learning.2005.16 Zhang,Wentao,Shuang Xu,and Haoran Huang.“Two-Level Supervised Contrastive Learning for Response Selection in Multi-Turn Dialogue.”arXiv preprint arXiv:2203.00793(2022).17 Li,Yuntao,et al.“Small Changes Make Big Differences:Improving Multi-turn
258、 算法2022年美團技術年貨端智能在大眾點評搜索重排序的應用實踐作者:祝升劉哲湯彪1.引言隨著大數據、人工智能等信息技術的快速發展,云計算已經無法滿足特定場景對數據隱私、高實時性的要求。借鑒邊緣計算的思想,在終端部署 AI 能力逐漸步入大眾的視野,“端智能”的概念應運而生。相比于傳統的云計算,在智能手機等終端部署運行 AI 模塊有以下幾個方面的優勢:首先,數據本地化可以緩解云存儲的壓力,也有利于用戶數據的隱私保護;其次,計算的本地化可以緩解云計算過載問題;最后,端智能減少了和云端系統的請求通信成本,可以更好地利用用戶在端上的交互,提供更加實時、個性化的服務體驗。在端智能的應用方面,國內外各大科
259、技公司已經走在了前列。Google 提出了 Rec-ommendation Android App 的概念,根據用戶興趣進行內容推薦;Apple 的 Face ID 識別、Siri 智能助手等一些我們熟知的產品,也都是端智能典型的應用代表。阿里巴巴、快手、字節跳動等企業也在各自的應用場景上進行了端智能的落地,并推出相應的端上模型推理框架。比如,快手上線的短視頻特效拍攝、智能識物等功能。另外,在搜索推薦場景下也有一些實踐,其中,手機淘寶“猜你喜歡”在端上部署了智能推薦系統,取得較為顯著收益(EdgeRec1,雙十一 IPV 提升 10%+,GMV 提升 5%+)??焓稚舷禄扑]場景也應用了端上重
260、排的方案,并取得 App 時長提升了 1%+的效果。搜索是大眾點評 App 連接用戶與商家的重要渠道,越來越多的用戶在不同場景下都會通過搜索來獲取自己想要的服務。理解用戶的搜索意圖,將用戶最想要結果排在靠前的位置,是搜索引擎最核心的步驟。為了進一步優化搜索個性化的排序能力,提升用戶體驗,搜索技術中心進行了在端上部署深度個性化模型的探索實踐。本文主要介紹了端智能重排在大眾點評 App 上的實踐經驗,文章主要分為以下三個部分:第一算法2022年美團技術年貨說,存在以下兩個問題:列表結果排序更新延遲分頁請求限制會導致排序結果的更新不及時。在下一個分頁請求之前,用戶的任何行為都無法對當前頁內的搜索排序
261、結果產生任何影響。以大眾點評搜索結果頁為例,一次請求返回 25 個結果到客戶端,每屏展示約 34 個,那么用戶需要滑動 68 屏左右,才能觸發新的分頁請求到云端獲取下一頁結果(以美食頻道列表頁為例,有 20%以上的搜索瀏覽超過一頁結果)。云端的排序系統無法及時感知用戶的興趣變化,并調整已下發到客戶端的結果順序。圖 2分頁瀏覽決策示意圖實時反饋信號感知延遲一般來說,實時反饋信號會通過 Storm、Flink 等流處理平臺,將日志流以 Mini-batch 的方式計算后,存入 KV 特征數據庫供搜索系統模型使用。這種方式往往會有分鐘級的特征延遲,因為需要對反饋數據進行解析處理,當涉及到更多、更復雜
262、的反算法2022年美團技術年貨圖 3端智能重排流程示意圖3.端上重排序算法探索與實踐重排序任務在搜索、推薦領域已有不少研究工作和落地實踐,核心解決的問題是從 N 個結果候選中,生成 Top-K 個結果的排列。具體到端上的重排序場景,我們要做的主要工作是:根據用戶對前面排序結果的反饋行為,生成候選商戶上下文的排列,使得列表頁整體的搜索點擊率達到最優。下面將詳細介紹,針對端上重排序場景,我們在特征工程、實時反饋序列建模以及模型結構做的一些探索與實踐。3.1特征工程在端上建設特征工程的思路和云端搜索排序系統基本一致,User/Item/Query/Contextual 各個維度的基礎、交叉特征可以快
263、速復用到端上,當然需要考慮傳輸和算法2022年美團技術年貨引入深度反饋網絡在云端的精排模型優化工作中,我們一般只考慮用戶和商戶顯式的“正反饋”行為(包括點擊、下單等),隱式的曝光未點擊“負反饋”信號則少有引入,因為長短期的歷史行為中,此類曝光未點擊行為非常多,相比于點擊信號噪音很大。對于端上來說,這種實時的曝光“負反饋”信號也很重要。比如,對于同一品牌的某類商戶實時多次曝光后,該品牌商戶的點擊率會呈明顯的下降趨勢。由于實時反饋序列中曝光未點擊的隱式負反饋信號占了較大的比例,作為一個整體序列進行建模,對稀疏的正反饋信號存在較大的主導影響。阿里巴巴在淘寶首頁信息流推薦場景下也提出了一種基于對抗的方
264、式,來挖掘曝光、點擊行為序列之間的聯系,從而尋找當前曝光序列當中有哪些行為是真正的負反饋,而哪些行為與點擊有更相近的關系。微信團隊提出了深度反饋網絡 DFN4,通過引入正負反饋信號的交互作用關系,進行一定程度的去噪、糾偏。首先,基于 DFN 的優化思路,我們對反饋序列進行拆分,生成正負反饋序列,利用 Transformer 進行正負反饋信號的 Cross Attention 交互作用。具體來說,以曝光序列和點擊序列為例,曝光行為序列作為 Query,點擊行為序列作為 Key 和 Value,得到曝光行為序列對點擊行為序列的 Attention 結果。同理,再調換一下得到點擊行為序列對曝光行為序
265、列的 Attention 結果??紤]到正反饋信號的稀疏性,當僅有負反饋序列時,會計算得到一些平均的無關噪音權重。因此,我們參考7的做法,在負反饋序列中引入全零的向量,來消除這種潛在的噪音。具體模型結構如下圖 4 所示:算法2022年美團技術年貨圖 5停留時長-點擊率效果對比多視角的正負反饋序列交叉建模在初版正負反饋序列模型的基礎上繼續迭代,我們關注到在調整 Transformer 中 Multi-Head 的數目時,并沒有預期的增量收益,相比僅使用一個 Head 指標無明顯變化。經過分析,我們懷疑這種通過隨機初始化的生成的多頭表征,很大程度上只是單純參數量上的擴充。另外,在大眾點評搜索場景下,
266、同 Query 下商戶列表整體的相關度比較高,尤其對頁內的結果來說,同質度更高。差異性主要體現在比如價格、距離、環境、口味等細粒度的表征上面。因此,我們設計了一種多視角的正負反饋序列交叉建模方式 Multi-View FeedBack Attention Network(MVFAN),來強化曝光、點擊行為在這些感知度更高的維度上的交互作用。具體網絡結構如下圖 6 所示:算法2022年美團技術年貨通過消融對比實驗發現,相比于隨機初始化的 Multi-Head Attention,這種顯式使用多種商戶上下文特征的 Transformer 激活方式效果更顯著。Match&Aggregate序列特征對
267、于端上的用戶實時反饋特征,除了各種常用的基于 Attention 的序列建模方式,還有一種采用顯式交叉的興趣提取方式。如圖 7 所示,相比于一般基于 Embedding 內積計算“Soft”權重的 Attention 建模,它可以理解為一種“Hard”的 Attention 方式,提取的形式包括:Hit(是否命中)、Frequency(命中多少次)、Step(間隔多久)等等,除了單變量序列的交叉,還可以組合多個變量進行交叉,來提升行為描述的粒度和區分度。圖 7Attention、Match&Aggregate 序列特征提取對比圖這種基于先驗知識引入的反饋序列交叉特征,可以一定程度上避免“Sof
268、t”Attention 方式引入的一些噪音信息,同時也具有更好的可解釋性。比如,用戶在搜索“火鍋”時,沒有選擇附近的商戶,而點擊了常住地附近的歷史偏好商戶,這種場景下存在明顯的信號說明用戶提前決策的意圖。這時,加入一些顯式的強交叉特征(例如,待排商戶距實時點擊商戶的距離等)就能非常好的捕捉這種意圖,從而把距離遠但和用戶算法2022年美團技術年貨端云聯合訓練一般來說,云端的重排序模型基本都復用精排層的特征,并在此基礎上加入精排輸出的位置或者模型分。大眾點評搜索精排模型經過長期的迭代更新,已經建設了大量的基礎、場景相關特征,以及建模了包括點擊、訪購等多個聯合目標,這些大規模維度的特征和多目標優化在
269、端上直接復用存在巨大的計算開銷、存儲&傳輸壓力。而僅使用云端模型位置或者預估分輸出,則不可避免的會損失掉很多端云特征的交叉表達能力。同時,對于到端云兩側的模型迭代、更新,還會存在較大的維護成本。因此,我們采用端云聯合訓練的方式把大量的云端特征交叉信號,以及多目標高階表征引入到端上使用。如圖 9 所示,云端的模型訓練收斂后,加入到端上重排任務繼續 Fine-tune 更新。需要注意的是:1.因為搜索精排層使用的是 ListWise 的 LambdaLoss,模型輸出的預估分僅有相對的大小意思,不能表示商戶的點擊率預估范圍,無法進行全局的絕對值使用。故僅采用網絡的最后一層輸出接入。2.僅接入最后一
270、層的 Dense 輸出,大大損失了云端特征與端上特征的交叉能力,因此,需要通過特征選擇方式,選取頭部特征加入到云端進行使用。圖 9端云聯合訓練模型結構圖算法2022年美團技術年貨3.4多場景應用效果綜合上述特征&模型優化舉措,相關的離線實驗指標效果對比如表 2 所示:表 2實驗迭代指標對比數據表端智能重排序在點評主搜和美食頻道列表頁上線 AB 實驗,核心業務指標 QV_CTR 均在高位基礎上取得顯著提升。如圖 11 所示,上半部分,主搜列表頁 QV_CTR 提升 0.25%,美食頻道列表頁 QV_CTR 提升 0.43%,分端表現穩定正向。另外,從下半部分分位置的點擊率對比曲線,可以看出,端上
271、重排能夠一定程度上緩解固定分頁請求的點擊衰減效果,尤其在靠后的幾屏展示上都有比較顯著的提升。算法2022年美團技術年貨4.1系統架構整體的端智能重排系統架構,包括和云端的搜索排序系統聯合部署方案如圖 12 所示。具體來說,主要有以下三大模塊來支持端上重排系統的實現:智能觸發方案模塊,針對業務設計的各類觸發事件,執行端上智能模塊的調度。例如,用戶點擊商戶行為觸發執行本地重排。端上重排服務模塊,執行構建特征數據,并調用端側推理引擎運行重排模型,進行打分輸出。其中:特征處理部分,是搜索技術中心針對搜/推/廣算法場景,專項設計的一套方便算法使用的通用特征算子處理服務。支持對客戶端、云端的各種類型數據,
272、使用輕量、簡便的表達式構建特征。端側推理引擎部分,是終端研發中心輸出的統一模型管理框架,支持各類端上輕量級推理引擎部署,以及模型的動態下發控制等。Native 重排處理邏輯部分,主要進行重排輸出后的結果回插,刷新控制處理。圖 12端智能重排系統架構算法2022年美團技術年貨圖 13模型壓縮數據、能耗相關指標對比4.3端智能模型訓練預估平臺不同于云端的排序算法實驗流程,已經有成熟、完善的訓練預估平臺支持,特征&模型上線非常便捷、高效??蛻舳说膶嶒灹鞒糖捌诖嬖诜浅4蟮牡蕟栴},比如模型的上線流程繁瑣,包括模型結構的分離、轉換&驗證以及發布依賴大量的人工操作,跟多個內部平臺的流轉、對接;另外特征
273、迭代效率低下,需要客戶端協同開發相應的特征加工邏輯,存在較大的邏輯一致性風險,而且還會存在分端的實現差異等問題?;诖?,美團的前后端工程合力推進開發、設計了一套適配客戶端的 Augur 特征處理框架,將端上的模型發布和特征處理與一站式實驗平臺(Poker)、統一預估框架(Augur)進行打通,為進一步的算法迭代實驗奠定了良好的基礎,后續搜索技術中心團隊也會向大家介紹面向端智能算法應用的一站式模型訓練預估平臺,敬請期待。算法2022年美團技術年貨1.基于聯邦學習模式,進一步在保證數據隱私安全及合法合規的基礎上,迭代端云聯合的智能搜索排序模型。2.建模更精確、多樣的觸發控制策略,對于端上實時用戶意
274、圖感知的決策模塊,當前的控制策略還比較簡單。后續我們會考慮結合 Query 上下文,用戶反饋信號等特征輸出更靈活的預判信號,同時請求云端,獲取更多符合用戶當前意圖的候選結果。3.繼續優化重排序模型,包括實時反饋序列建模算法,探索對于隱式負反饋信號更魯棒的編碼表達方式等。4.思考端上更豐富、靈活的應用場景,比如模型的個性化定制,做到“千人千?!钡臉O致個性化體驗。作者簡介祝升、劉哲、湯彪、嘉煒、凱元、楊樂、洪晨、曼曼、華林、孝峰、張弓,來自美團/大眾點評事業部/搜索技術中心。逸然、朱敏,來自美團平臺/搜索與 NLP 部/工程研發中心。參考資料1 Yu Gong,Ziwen Jiang,et al.
275、“EdgeRec:Recommender System on Edge in Mobile Taobao”arXiv preprint arXiv:2005.08416(2020).2 Qingyao Ai,Keping Bi,et al.“Learning a Deep Listwise Context Model for Ranking Refinement”arXiv preprint arXiv:1804.05936(2018).3 Changhua Pei,Yi Zhang,et al.“Personalized Re-ranking for Recommendation”arXiv
276、 preprint arXiv:1904.06813(2019).4 Ruobing Xie,Cheng Ling,et al.“Deep Feedback Network for Recommendation”(IJCAI-2020).5 非易、祝升等.大眾點評搜索基于知識圖譜的深度學習排序實踐.6 肖垚、家琪等.Transformer 在美團搜索排序中的實踐.7 Qingyao Ai,Daniel N Hill,et al.“A zero attention model for personalized product search”arXiv preprint arXiv:1908.11
277、322(2019).8 Teo CH,Nassif H,et al.“Adaptive,Personalized Diversity for Visual Discovery”(RecSys-2016).9 Eugene Ie,Vihan Jain,et al.“SLATEQ-A Tractable Decomposition for Reinforcement Learning with Recommendation Sets”(IJCAI-19).10 Zhou,Guorui,et al.“Deep interest network for click-through rate predi
278、ction.”(SIGKDD-2018).算法2022年美團技術年貨對話摘要技術在美團的探索(SIGIR)作者:馬兵劉操今雄書杰見聳楊帆廣魯等隨著互聯網產生的文本數據越來越多,文本信息過載問題日益嚴重,對各類文本進行一個“降維”處理顯得非常必要,而文本摘要就是其中一個重要的手段。本文首先介紹了經典的文本摘要方法,包括抽取式摘要方法和生成式摘要方法,隨后分析了對話摘要的模型,并分享了美團在真實對話摘要場景中面臨的挑戰。希望能給從事相關工作的同學帶來一些啟發或者幫助。1.對話摘要技術背景文本摘要65-74旨在將文本或文本集合轉換為包含關鍵信息的簡短摘要,是緩解文本信息過載的一個重要手段。文本摘要按
279、照輸入類型,可分為單文檔摘要和多文檔摘要。單文檔摘要從給定的一個文檔中生成摘要,多文檔摘要從給定的一組主題相關的文檔中生成摘要。按照輸出類型可分為抽取式摘要和生成式摘要。抽取式摘要從源文檔中抽取關鍵句和關鍵詞組成摘要,摘要信息全部來源于原文。生成式摘要根據原文,允許生成新的詞語、短語來組成摘要。此外,按照有無監督數據,文本摘要可以分為有監督摘要和無監督摘要。根據輸入數據領域,文本摘要又可以分為新聞摘要、專利摘要、論文摘要、對話摘要等等。自動文本摘要可以看作是一個信息壓縮的過程,我們將輸入的一篇或多篇文檔自動壓縮為一篇簡短的摘要,該過程不可避免地存在信息損失,但要求保留盡可能多的重要信息。自動文
280、摘系統通常涉及對輸入文檔的理解、要點的篩選以及文摘合成這三個主要步驟。其中,文檔理解可淺可深,大多數自動文摘系統只需要進行比較淺層的文檔理解,例如段落劃分、句子切分、詞法分析等,也有文摘系統需要依賴句法解析、語義角色標注、指代消解,甚至深層語義分析等技術。對話摘要是文本摘要的一個特例,其核心面向的是對話類數據。對話類數據有著不同的形式,例如:會議、閑聊、郵件、辯論、客服等等。不同形式的對話摘要在自己的算法2022年美團技術年貨傳統抽取式摘要方法Lead-3一般來說,文檔常常會在標題和文檔開始就表明主題,因此最簡單的方法就是抽取文檔中的前幾句作為摘要。常用的方法為 Lead-363,即抽取文檔的
281、前三句作為文檔的摘要。Lead-3 方法雖然簡單直接,但卻是非常有效的方法。TextRankTextRank58 算法仿照 PageRank,將句子作為節點,使用句子間相似度,構造無向有權邊。使用邊上的權值迭代更新節點值,最后選取 N 個得分最高的節點,作為摘要。聚類基于聚類的方法,將文檔中的句子視為一個點,按照聚類的方式完成摘要。例如 Padmakumar 和 Saran 11將 文 檔 中 的 句 子 使 用 Skip Thought Vectors 和Paragram Embeddings 兩種方式進行編碼,得到句子級別的向量表示。然后再使用 K 均值聚類59和 Mean-Shift 聚
282、類60進行句子聚類,得到 N 個類別。最后從每個類別中,選擇距離質心最近的句子,得到 N 個句子,作為最終的摘要?;谏窠浘W絡的抽取式摘要方法近年來神經網絡風靡之后,基于神經網絡的抽取式摘要方法比傳統的抽取式摘要方法性能明顯更高?;谏窠浘W絡的抽取式摘要方法主要分為序列標注方式和句子排序方式,其區別在于句子排序方式使用句子收益作為打分方式,考慮句子之間的相互關系。序列標注方式這種方法可以建模為序列標注任務進行處理,其核心想法是:為原文中的每一個句子打一個二分類標簽(0 或 1),0 代表該句不屬于摘要,1 代表該句屬于摘要。最終摘要由所有標簽為 1 的句子構成。算法2022年美團技術年貨是摘要
283、句的概率,最終依據概率,選取 Top K 個句子作為最終摘要。雖然任務建模方式(最終選取摘要方式)不同,但是其核心關注點都是對于句子表示的建模。序列標注方式的模型在得到句子的表示以后對于句子進行打分,這就造成了打分與選擇是分離的,先打分,后根據得分進行選擇,沒有利用到句子之間的關系。NeuSUM49提出了一種新的打分方式,使用句子收益作為打分方式,考慮到了句子之間的相互關系。其模型 NeuSUM 如下圖 2 所示:圖 2NeuSUM 模型結構句子編碼部分與之前基本相同。打分和抽取部分使用單向 GRU 和雙層 MLP 完成。單向 GRU 用于記錄過去抽取句子的情況,雙層 MLP 用于打分,如下公
284、式所示:2.2生成式摘要模型抽取式摘要在語法、句法上有一定的保證,但是也面臨了一定的問題,例如:內容選擇錯誤、連貫性差、靈活性差等問題。生成式摘要允許摘要中包含新的詞語或短語,靈活性較高。隨著近幾年神經網絡模型的發展,序列到序列(Seq2Seq)模型被廣泛地用于生成式摘要任務,并取得一定的成果。下面介紹生成式摘要模型中經典的Pointer-Generator50模型和基于要點的生成式摘要模型 Leader+Writer4。算法2022年美團技術年貨Leader-Writer 模型Leader-Writer 模型主要通過挖掘對話中存在的要點(例如背景、結論等)來生成摘要。作者總結了生成式摘要現存
285、的幾個問題:邏輯性,例如在客服對話中,背景應該在結論之前;完整性,即對話中存在的各個要點都應該在摘要中存在;關鍵信息正確,例如“用戶同意”和“用戶不同意”雖然只有一字之差,但含義完全相反;摘要過長問題。為了解決這些問題,本文提出了如下解決方案:1.引入要點序列預測輔助任務,并利用對話的要點序列信息引導模型生成具有邏輯性、完整性、關鍵信息正確的摘要。如下圖 4 所示,Leader-Writer 模型用一個層次的 Transformer 編碼器編碼每個話語,用 Leader 解碼器對每個話語的要點進行分類,并使用 Writer 解碼器進行摘要生成。Leader 解碼器解碼的輸出作為 Writer
286、解碼器初始狀態的輸入,以利用不同對話片段的要點信息。2.引入 Pointer-Generator 模型,以生成更長、信息更豐富的摘要。圖 4Leader-Writer 模型2.3對話摘要模型對話具有關鍵信息散落、低信息密度、多領域、話題轉換、說話者角色經常轉換等特點,因此可以直接將文本摘要應用于對話摘要,一些研究工作也致力于解決這些問題。下面介紹 2 個有代表性的對話摘要模型:SPNet53和 TDS-SATM54。算法2022年美團技術年貨圖 5TDS-SATM 的整體架構3.基于閱讀理解的 Span-level 抽取式摘要方案 DSMRC-S(發表于 SIGIR 2021)3.1背景介紹未
287、來保證良好的用戶體驗,美團有大量的人工客服來處理用戶來電問題,客服同學接到電話后需手動記錄電話的內容,耗時費力。一個有效的對話摘要模型可以大大增加客服同學的工作效率,降低人工客服處理每通來電的平均處理時間。盡管上述經典方法在 CNN/Daily Mail、LCSTS 等數據集上取得了不錯的效果,但在實際的場景中仍然會遇到很多挑戰。例如,生成式摘要依然缺少穩定性(重復或者產生奇怪的詞)和邏輯性,而抽取式摘要如果沒有明確的標注信息去訓練模型,一般通過“ROUGE-L 指標高的句子標為正例”的方式自動標注句子層次的標簽,但這種只抽取句子層次的粗粒度方式也容易帶來噪音。此外,現有對話摘要結果不可控,難
288、以得到特定的信息要素。為了適用實際的場景,我們介紹基于閱讀理解的 Span-Level 抽取式對話摘要方案,該方法基于現有人工客服記錄的摘要,不需要額外標注,也取得了不錯的結果。其中相關的成果發表也在 SIGIR 2021 國際會議上,下文將詳細介紹該方法。算法2022年美團技術年貨這樣轉換的好處在于:可以更有效地利用預訓練語言模型強大的語言理解能力。相比 Seq2Seq 生成內容不可控,閱讀理解的方式可以通過問句進行更有針對性引導,使得答案作為摘要更聚焦,可以得到關注的信息要素。無需額外標注的閱讀理解方案閱讀理解任務需要通常需要大量的標注數據。幸運的是,人工客服記錄了大量的關鍵信息(例如“用
289、戶來電背景”、“用戶來電訴求”、“解決方案”等),這些記錄可以作為閱讀理解問句對應的答案。然而人工客服的記錄不是對話的原始文本片段,不能直接用于抽取式閱讀理解,為了解決這個問題,我們設計了如下兩個階段(不依賴額外標注的閱讀理解方案):第一階段:預測對話中每一個 Token 出現在答案的概率如上圖 6 所示,我們首先通過判斷對話中的 Token 是否出現在答案(客服記錄的關鍵信息)中,以自動給每個 Token 一個標簽(出現則標為 1,不出現則標為 0)。然后,將對話和問題(預定好的,每個問題對應一個關鍵要素)一起輸入到 BERT 中,使用 BERT 最后一層對每個 Token 進行分類,擬合上
290、一步自動標注的標簽,分類損失如下公式:其中 h 為 BERT 最后一層的 Token 向量,W 和 b 是可訓練的權重矩陣。第二階段:根據上一階段的概率挑選密度最高的 Span 作為答案我們提出了密度的計算方式,對于一個 xi,xi+1,x_i+l 的 Span,其密度計算如下式:算法2022年美團技術年貨 Trans+Att+Pointer:將 RNN 替換為 Transformer46。Trans+Att+Pointer(w):將 RNN 替換為 Transformer,(w)指的是將整個摘要作為一個整體進行預測,而不是預測多個關鍵要素,再最終組合。Leader+Writer:一個層次化的
291、 Transformer 結構4,Leader 模塊先預測關鍵要素序列,Writer 模塊根據關鍵要素序列生成最終的摘要。TDS+SATM:利用 Transformer 結構進行句子級別的摘要抽取和字符級別的摘要生成的兩階段方法54,并使用神經主題模型進行主題增強。DSMRC-S:我們提出的基于閱讀理解的 Span-level 抽取式摘要方法。實驗結果主實驗表 1DSMRC-S 和其他 Baseline 方法效果對比(%)DSMRC-S 和其他 Baseline 方法的性能如表 1 所示。我們可以得到以下結論:我們的模型獲得了最好的性能,比最好的 Baseline 方法在 BLEU 上和ROU
292、GE-L 上都提升了約 3%。單獨對每個關鍵要素進行預測的方式,比起對整個摘要進行預測,效果明顯更好。比如,Trans+Att+Pointer 比 Trans+Att+Pointer(w)要在 ROUGE-L上高 3.62%。這意味著在客服場景,對摘要進行拆分預測是有必要的。從摘要的差異性來看,我們的模型也獲得了最好的性能,比最好的 Baseline方法在 Distinct1 指標上提升了 3.9%。算法2022年美團技術年貨都表現比 Baseline 方法更好的準確率。4.總結與展望本文先介紹了文本摘要的經典方法,包括抽取式摘要方法和生成式摘要方法,隨后介紹了更為靈活的基于距離監督閱讀理解的
293、 Span-Level 方案,該方法比強基準方法在ROUGE-L 指標和 BLEU 指標上高出了 3%左右。未來,我們將從如下方向繼續在對話摘要上探索和實踐:多 Span 答案的摘要抽取方法;基于 Prompt 的生成式對話摘要方法的探索;對話結構的深度建模,捕獲更為豐富的對話信息。5.參考文獻1 A.M.Rush,S.Chopra,and J.Weston,“A neural attention model for abstractive sentence summarization,”in Proceedings of the 2015 Conference on Empirical Me
294、thods in Natural Language Processing,EMNLP 2015.2 A.See,P.J.Liu,and C.D.Manning,“Get to the point:Summarization with pointer-generator networks,”in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,ACL 2017.3 S.Gehrmann,Y.Deng,and A.M.Rush,“Bottom-up abstractive
295、 summarization,”in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,EMNLP 2018.4 C.Liu,P.Wang,J.Xu,Z.Li,and J.Ye,“Automatic dialogue summary generation for customer service,”in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery&Da
296、ta Mining,KDD 2019.5 S.Chopra,M.Auli,and A.M.Rush,“Abstractive sentence summarization with attentive recurrent neural networks,”in NAACL HLT 2016.6 Y.Miao and P.Blunsom,“Language as a latent variable:Discrete generative models for sentence compression,”in Proceedings of the 2016 Conference on Empiri
297、cal Methods in Natural Language Processing,EMNLP 2016.7 D.Wang,P.Liu,Y.Zheng,X.Qiu,and X.Huang,“Heterogeneous graph neural networks for extractive document summarization,”in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,ACL 2020.8 M.Zhong,D.Wang,P.Liu,X.Qiu,
298、and X.Huang,“A closer look at data bias in neural extractive summarization models.”算法2022年美團技術年貨for Computational Linguistics,ACL 2018.23 A.Jadhav and V.Rajan,“Extractive summarization with SWAP-NET:sentences and words from alternating pointer networks,”in Proceedings of the 56th Annual Meeting of t
299、he Association for Computational Linguistics,ACL 2018,24 S.Narayan,S.B.Cohen,and M.Lapata,“Ranking sentences for extractive summarization with reinforcement learning,”in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language T
300、echnologies,NAACL-HLT 2018,25 X.Zhang,M.Lapata,F.Wei,and M.Zhou,“Neural latent extractive document summarization,”in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,26 Y.Liu,I.Titov,and M.Lapata,“Single document summarization as tree induction,”in Proceedings o
301、f the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,NAACL-HLT 2019,27 J.Xu,Z.Gan,Y.Cheng,and J.Liu,“Discourse-aware neural extractive text summarization,”in Proceedings of the 58th Annual Meeting of the Association for Comp
302、utational Linguistics,ACL 202028 M.Zhong,P.Liu,Y.Chen,D.Wang,X.Qiu,and X.Huang,“Extractive summarization as text matching,”in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,ACL 202029 Y.Wu,W.Wu,C.Xing,ou,and Z.Li,“Sequential matching network:A new architectur
303、e for multi-turn response selection in retrieval-based chatbots,”in ACL 2017,30 Z.Zhang,J.Li,P.Zhu,H.Zhao,andG.Liu,“Modelingmulti-turn conversation with deep utterance aggregation,”in COLING 2018,31 X.Zhou,L.Li,D.Dong,Y.Liu,Y.Chen,W.X.Zhao,D.Yu,and H.Wu,“Multi-turn response selection for chatbots wi
304、th deep attention matching network,”in ACL 201832 C.Tao,W.Wu,C.Xu,W.Hu,D.Zhao,and R.Yan,“One time of interaction may not be enough:Go deep with an interaction-over-interaction network for response selection in dialogues,”in ACL 201933 M.Henderson,I.Vulic,D.Gerz,I.Casanueva,P.Budzianowski,S.Coope,G.S
305、pithourakis,T.Wen,N.Mrksic,and P.Su,“Training neural response selection for task-oriented dialogue systems,”in Proceedings of the 57th Conference of the Association for Computational Linguistics,ACL 201934 J.Devlin,M.Chang,K.Lee,and K.Toutanova,“BERT:pre-training of deep bidirectional transformers f
306、or language understanding,”in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,NAACL-HLT 2019,35 J.Dong and J.Huang,“Enhance word representation for out-of-vocabulary on ubuntu dialogue corpus,”CoRR,vol.abs/
307、1802.02614,2018.算法2022年美團技術年貨50 Abigail See,Peter J Liu,and Christopher D Manning.Get to the point:Summarization with pointer-generator networks.arXiv preprint arXiv:1704.04368,2017.51 Abdelrahman Mohamed,Omer Levy,Veselin Stoyanov and Luke Zettlemoyer.“BART:Denoising Sequence-to-Sequence Pre-traini
308、ng for Natural Language Generation,Translation,and Comprehension.”ACL(2020).52 Zhang,Jingqing,Yao Zhao,Mohammad Saleh and Peter J.Liu.“PEGASUS:Pre-training with Extracted Gap-sentences for Abstractive Summarization.”ArXiv abs/1912.08777(2020):n.pag.53 Yuan,Lin and Zhou Yu.“Abstractive Dialog Summari
309、zation with Semantic Scaffolds.”ArXiv abs/1910.00825(2019):n.pag.54 Zou,Yicheng,Lujun Zhao,Yangyang Kang,Jun Lin,Minlong Peng,Zhuoren Jiang,Changlong Sun,Qi Zhang,Xuanjing Huang and Xiaozhong Liu.“Topic-Oriented Spoken Dialogue Summarization for Customer Service with Saliency-Aware Topic Modeling.”A
310、AAI(2021).55 Brown,Tom B.et al.“Language Models are Few-Shot Learners.”ArXiv abs/2005.14165(2020):n.pag.56 Radford,Alec,Jeff Wu,Rewon Child,David Luan,Dario Amodei and Ilya Sutskever.“Language Models are Unsupervised Multitask Learners.”(2019).57 Radford,Alec and Karthik Narasimhan.“Improving Langua
311、ge Understanding by Generative Pre-Training.”(2018).58 Mihalcea,Rada and Paul Tarau.“TextRank:Bringing Order into Text.”EMNLP(2004).59 Hartigan,J.A.and M.Anthony.Wong.“A k-means clustering algorithm.”(1979).60 Comaniciu,Dorin and Peter Meer.“Mean Shift:A Robust Approach Toward Feature Space Analysis
312、.”IEEE Trans.Pattern Anal.Mach.Intell.24(2002):603-619.61 Lin,Chin-Yew.“ROUGE:A Package for Automatic Evaluation of Summaries.”ACL 2004(2004).62 Papineni,Kishore,Salim Roukos,Todd Ward and Wei-Jing Zhu.“Bleu:a Method for Automatic Evaluation of Machine Translation.”ACL(2002).63 Ishikawa,Kai,Shinichi
313、 Ando and Akitoshi Okumura.“Hybrid Text Summarization Method based on the TF Method and the Lead Method.”NTCIR(2001).64 Feng,Xiachong,Xiaocheng Feng and Bing Qin.“A Survey on Dialogue Summarization:Recent Advances and New Frontiers.”ArXiv abs/2107.03175(2021):n.pag.65 El-Kassas,Wafaa S.,Cherif R.Sal
314、ama,Ahmed A.Rafea and Hoda Korashy Mohamed.“Automatic text summarization:A comprehensive survey.”Expert Syst.Appl.165(2021):113679.66 Nallapati,Ramesh,Bowen Zhou,Ccero Nogueira dos Santos,aglar Glehre and Bing Xiang.“Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond.”CoNLL(20
315、16).算法2022年美團技術年貨異構廣告混排在美團到店業務的探索與實踐作者:曲檀旭陽胡可程佳雷軍1.背景與簡介1.1背景美團到店廣告負責美團搜索流量的商業變現,服務于到店餐飲、休娛親子、麗人醫美、酒店旅游等眾多本地生活服務商家。質量預估團隊負責廣告系統中 CTR/CVR以及客單價/交易額等質量分預估,在過去幾年中,我們通過位次上下文建模1、時空超長序列建模2等創新技術,在 CTR 預估問題中的用戶、上下文等方向都取得了一些突破3,并整理成論文發表在 SIGIR、ICDE、CIKM 等國際會議上。不過以上論文重在模型精度,而模型精度與廣告候選共同決定著排序系統的質量。但在廣告候選角度,相比于傳
316、統電商的候選集合,美團搜索廣告因 LBS(LocationBasedServices,基于位置的服務)的限制,所以在某些類目上門店候選較少,而候選較少又嚴重制約了整個排序系統的潛力空間。當用傳統方式來增加候選數量的方法無法取得收益時,我們考慮將廣告候選進行擴展與優化,以期提升本地生活場景排序系統的潛能上限。1.2場景介紹單一的門店廣告不足以滿足用戶找商品、找服務的細粒度意圖訴求。部分場景將商品廣告作為門店廣告的候選補充,兩者以競爭方式來確定展示廣告樣式;此外,還有部分場景商品廣告以下掛形式同門店廣告進行組合展示。多種形式的異構廣告展示樣式,給到店廣告技術團隊帶來了機遇與挑戰,我們根據業務場景特
317、點,針對性地對異構廣告進行了混排優化。下文以美團結婚頻道頁和美團首頁搜索為例,分別介紹兩類典型異構混排廣告:競爭關系異構廣告和組合關系異構廣告。算法2022年美團技術年貨 組合關系異構廣告:門店廣告和其商品廣告組合為一個展示單元(藍色框體)進行列表排序,商品從屬于門店,兩種類型異構廣告組合混排展示。如下圖 2 所示,門店廣告展示門店的頭圖、標題價格等信息;兩個商品廣告展示商品價格、標題和銷量等信息。廣告系統確定展示單元的排列順序,并在門店的商品集合中確定展示的 Top2 商品。圖 2組合關系異構廣告在首頁搜索場景算法2022年美團技術年貨 生成式廣告組合預估系統:將商品預估流程升級為列表組合預
318、估,并提出上下文聯合模型,建模商品上下文信息。異構廣告冷啟動優化:基于湯姆森采樣算法進行 E&E(Exploit&Explore,探索與利用)優化,深度探索用戶的興趣。目前,高性能異構混排和生成式廣告組合預估已經在多個廣告場景落地,視場景業務不同,在衡量廣告營收的千次廣告展示收益(RPM,Revenue Per Mille)指標上提升了 4%15%。異構廣告冷啟動優化在各業務生效,在精度不下降的前提下給予流量 10%隨機性。下文將會對我們的具體做法進行詳細的介紹。2.技術探索與實踐2.1高性能異構混排系統打分粒度從門店下沉為商品后,排序候選量從 150 增加到 1500+,帶來排序潛力提升的同
319、時,如果使用門店模型直接進行商品預估,則會給線上帶來無法承擔的耗時增加。通過分析,我們發現門店下所有商品共享門店基礎特征,占用了 80%以上的網絡計算,但對于多個商品只需要計算一次,而商品獨有的、需要獨立計算的商品特征只占用 20%的網絡計算。所以基于這個特性,我們參照組合預估7的做法,來實現異構混排網絡。主網絡的高復雜性門店表征通過共有表達的遷移學習,實現對門店網絡輸出層的復用,從而避免在進行商品預估時對門店網絡的重復計算。如下圖 4 所示,整個網絡分為門店網絡和商品網絡。在離線訓練階段,門店網絡(主網絡)以門店特征作為輸入,得到門店的輸出層,計算門店 Loss,更新門店網絡;商品網絡(bi
320、as 網絡)以商品特征為輸入,得到商品輸出層,與門店網絡的輸出層門店向量作 CONCAT 操作,然后計算最終的商品 Loss,并同時更新門店網絡和商品網絡。為了實現線上預估時對門店網絡輸出層的復用,我們將商品以 List 的方式喂入模型,實現請求一次打分服務,獲得 1(門店)+n(商品)個預估值。另外,對于門店的商品數不固定這一問題,我們通過維度動態轉換的方式保證維度對齊。實現保持網絡規模算法2022年美團技術年貨首頁搜索的組合關系異構廣告 首頁搜索的排序列表頁中每個展示單元由門店和兩個商品組成,機制模塊對這一個展示單元進行計費排序。訓練階段,每一次曝光為多條樣本:一條門店樣本和多條商品樣本。
321、門店樣本只更新門店網絡,商品樣本同時更新門店網絡和商品網絡。預估階段,由于用戶點擊【更多優惠】前,默認展示 Top2 商品,所以可以選擇商品預估值最高的 Top2 作為展示商品,其余商品按預估值排序。我們需要預估 pCTR(門店|商品 1|商品 2)。從數學角度分析,我們在預估門店或商品1 或商品 2 被點擊的概率,因此我們使用概率加法法則算子:pCTR(門店|商品 1|商品 2)=1-(1-P 門店)*(1-P 商品 _1)*(1-P 商品 _2)。所以在得到門店和商品預估值之后,首先要對商品按預估值進行排序,得到商品商品的展示順序,并選擇 Top2 的商品預估值和門店預估值進行概率加法法則
322、計算,得到展示單元的預估值用于門店排序計費。雖然系統整體架構相似,但是因使用場景不同,樣本生成方式也不同,模型最終輸出的 P 商品有著不同的物理含義。在競爭關系廣告中,P 商品作為和門店并列的另一種展示類型;組合關系廣告中,P 商品則為門店廣告展示信息的補充,因此也有著不同預估值的應用方式。最終高性能異構混排系統在多個廣告場景落地,視場景業務不同,RPM 提升范圍在 2%15%之間。2.2生成式廣告組合預估系統在商品列表中,商品的點擊率除了受到其本身質量的影響外,還會受到其上下展示商品的影響。例如,當商品的上下文質量更高時,用戶更傾向于點擊商品的上下文,而當商品上下文質量較低時,用戶則傾向于點
323、擊該商品,這種決策差異會累積到訓練數據中,從而形成上下文偏置。而消除訓練數據中存在的上下文偏置,有利于更好地定位用戶意圖以及維護廣告系統的生態,因此我們參照列表排序的思路8-9,構建生成式商品排序系統,建模商品上下文信息。獲取上下文信號可以通過預估商品列表的全排列,但是全排列的打分量極大(商品候算法2022年美團技術年貨3.將包含上下文信息的商品 Emb 與位次信號再次拼接,通過 DNN 非線性交叉,得到包含上下文信息及位次信息的最終輸出商品預估值。通過強化商品間的交叉,達到建模商品上下文的目的,最終生成式廣告組合預估在首頁搜索取得了 RPM+2%的效果提升。圖 6下文組合預估模型2.3異構廣
324、告冷啟動優化為了避免馬太效應,我們也會主動試探用戶新的興趣點,主動推薦新的商品來發掘有潛力的優質商品。我們在模型上線前,通過隨機展示的方式來挖掘用戶感興趣的商品。但是給用戶展示的機會是有限的,展示用戶歷史喜歡的商品,以及探索用戶新興趣都會占用寶貴的展示機會,此外,完全的隨機展示從 CTR/PRS 等效果上看會有較為明顯的下降,所以我們考慮通過更合理的方式來解決“探索與利用”問題。相對于傳統隨機展示的 E&E 算法,我們采用基于湯普森采樣的 Exploration 算法10,這樣可以合理地控制精度損失,避免因部分流量進行 Exploration 分桶的 bias 問題。湯普森采樣是一種經典啟發式
325、 E&E 算法,核心思路可以概況為,給歷史曝光數算法2022年美團技術年貨2.4業務實踐異構混排和廣告組合預估有效地解決了 LBS 限制下門店候選較少的問題。對于前文介紹的兩類典型異構廣告:競爭關系異構廣告和組合關系異構廣告,我們根據其展示樣式和業務特點,將相應的技術探索均進行了落地,并取得了一定的效果。如下圖 8所示:圖 8異構廣告混排技術業務實踐3.總結本文介紹了美團到店搜索廣告業務中異構廣告混排的探索與實踐,我們通過高性能的異構混排網絡來應對性能挑戰,并根據業務特點對異構預估進行了應用。為了建模廣告的上下文信息,我們將商品預估流程由單點預估升級為組合預估模式,并提出上下文組合預估模型,建
326、模商品位次及上下文信息,然后,通過基于湯普森算法的 E&E策略對商品冷啟動問題進行了優化,在多個場景均取得了一定的成果。近期,已經有越來越多業務場景開始了展示樣式的升級,例如美食類目由門店調整為菜品廣告,酒店類目由門店調整為房型展示,本文提到的方案與技術也在逐步的推廣落地過程中。值得一提的是,相比于美團以門店作為廣告主體,業界的廣告主體以商品和內容為主,本文提到的共有表達遷移和生成式組合預估的技巧,可以應用在商品和創意的組合問題上,更進一步拓展候選規模。廣告異構混排項目也是從業務視角出發,勇于打破原來迭代框架下的一次重要嘗試。算法2022年美團技術年貨對前沿技術不斷突破,以驅動業務持續發展。團
327、隊視人才培養,具備完善成熟的培養機制,幫助大家快速成長。崗位要求 兩年以上相關工作經驗,熟悉常見機器學習原理和深度學習模型,具備 CTR/CVR/NLP/CV/RL 等模型實踐經驗。具備優秀的分析問題和解決問題的能力,保持對新事物的學習能力和好奇心,對解決挑戰性問題充滿激情。具備良好的編程能力,扎實的數據結構和算法基礎,熟悉 Python/Java/Scala/C+兩種或以上語言。計算機、自動化、電子信息、數學或相關專業本科及以上學歷。具備以下條件優先 互聯網廣告/搜索/推薦某一領域相關工作經驗。感興趣的同學可投遞簡歷至:(郵件標題請注明:廣平算法團隊)。算法2022年美團技術年貨上面展示了美
328、團業務場景下的一個菜品評論示例??梢钥吹?,視頻相較于文本和圖像可以提供更加豐富的信息,創意菜“冰與火之歌”中火焰與巧克力和冰淇淋的動態交互,通過短視頻形式進行了生動的呈現,進而給商家和用戶提供多元化的內容展示和消費指引。視頻行業發展我們能夠快速進入了視頻爆炸的時代,是因為多個技術領域都取得了顯著的進步,包括拍攝采集設備小型化、視頻編解碼技術的進步、網絡通信技術的提升等。近年來,由于視覺 AI 算法不斷成熟,在視頻場景中被廣泛應用。本文將主要圍繞如何通過視覺 AI 技術的加持,來提高視頻內容創作生產和分發的效率。算法2022年美團技術年貨本文分享的一些技術實踐案例,主要圍繞著“吃”來展開。美團在
329、每個場景站位都有內容布局和展示形式,短視頻技術在美團 C 端也有豐富的應用,例如:大家打開大眾點評 App 看到的首頁 Feed 流視頻卡片、沉浸態視頻、視頻筆記、用戶評論、搜索結果頁等。這些視頻內容在呈現給用戶之前,都要先經過了很多算法模型的理解和處理。豐富的內容和展示形式(B 端)而在商家端(B 端)的視頻內容展示形式包括,景區介紹讓消費者在線上感受更立體的游玩體驗;酒店相冊速覽將相冊中的靜態圖像合成視頻,全面地展示酒店信息,幫助用戶快速了解酒店全貌(其中自動生成的技術會在下文 2.2.2 章節進行介紹);商家品牌廣告算法可以通過智能剪輯等功能,降低商家編輯創作視頻的門檻;商家視頻相冊商家
330、可以自行上傳各類視頻內容,算法為視頻打上標簽,幫助商家管理視頻;商品視頻/動圖上文提到美團的業務范圍也包括零售電商,這部分對于商品信息展示就非常有優勢。舉個例子,生鮮類商品,如螃蟹、蝦的運動信息很難通過靜態圖像呈現,而通過動圖可為用戶提供更多商品參考信息。算法2022年美團技術年貨2.短視頻內容理解和生成技術實踐2.1短視頻內容理解2.1.1視頻標簽視頻內容理解的主要目標是,概括視頻中出現的重要概念,打開視頻內容的“黑盒”,讓機器知道盒子里有什么,為下游應用提供語義信息,以便更好地對視頻做管理和分發。根據結果的形式,內容理解可以分為顯式和隱式兩種。其中,顯式是指通過視頻分類相關技術,給視頻打上
331、人可以理解的文本標簽。隱式主要指以向量形式表示的嵌入特征,在推薦、搜索等場景下與模型結合直接面向最終任務建模??梢源致缘乩斫鉃?,前者主要面向人,后者主要面向機器學習算法。顯式的視頻內容標簽在很多場景下是必要的,例如:內容運營場景,運營人員需要根據標簽,開展供需分析,高價值內容圈選等工作。上圖中展示的是內容理解為視頻打標簽的概要流程,這里的每個標簽都是可供人理解的一個關鍵詞。通常情況下,為了更好地維護和使用,大量標簽會根據彼此之間的邏輯關系,組織成標簽體系。算法2022年美團技術年貨征,對于下游任務的性能提升事半功倍。由于視頻標簽的標注代價非常昂貴,技術方案層面需要考慮的是:如何在盡量少用業務全
332、監督標注數據的情況下學習更好的基礎特征。首先,在任務無關的基礎模型表征層面,我們采用了在美團視頻數據上的自監督預訓練特征,相比在公開數據集上的預訓練模型,更加契合業務數據分布。其次,在語義信息嵌入層面(如上圖所示),存在多源含標簽數據可以利用。值得一提的是,美團業務場景下比較有特色的弱標注數據,例如:用戶在餐廳中做點評,圖片和視頻上層抽象標簽是美食,評論文本中大概率會提到具體在店里吃的菜品名稱,這是可挖掘的優質監督信息,可以通過視覺文本相關性度量等技術手段進行清洗。這里展示了自動挖掘出的標簽為“烤肉”的視頻樣本。算法2022年美團技術年貨2.1.4模型迭代面向具體標簽的性能提升主要應對的問題是
333、,如何在基礎表征模型的基礎上,高效迭代目標類別的樣本數據,提升標簽分類模型的性能。樣本的迭代分為離線和在線兩部分,以美食探店標簽為例,首先需要離線標注少量正樣本,微調基礎表征模型得到初始分類模型。這時模型的識別準確率通常較低,但即便如此,對樣本的清洗、迭代也很有幫助。設想如果標注員從存量樣本池里漫無目的地篩選,可能看了成百上千個視頻都很難發現一個目標類別的樣本,而通過初始模型做預篩選,可以每看幾個視頻就能篩出一個目標樣本,對標注效率有顯著的提升。第二步如何持續迭代更多線上樣本,提升標簽分類模型準確率至關重要。我們對于模型線上預測的結果分兩條回流路徑。線上模型預測結果非常置信,或是若干個模型認知一致,可以自動回流模型預測標簽加入模型訓練,對于高置信但錯誤的噪聲標簽,可以通過模型訓練過程中的一些抵抗噪聲的技術,如:置信學習進行自動剔除。更有價值的是,我們在實踐中發現對于模型性能提升 ROI 更