當前位置：首頁 > 報告詳情

阿里媽媽：2024阿里媽媽技術年刊-廣告算法與工程實踐精選（304頁）.pdf

上傳人： C** 編號：611820 2025-02-06 PDF PDF 304頁 49.24MB

該報告所屬合集： 2025年算法報告合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/304

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《阿里媽媽：2024阿里媽媽技術年刊-廣告算法與工程實踐精選（304頁）.pdf》由會員分享，可在線閱讀，更多相關《阿里媽媽：2024阿里媽媽技術年刊-廣告算法與工程實踐精選（304頁）.pdf（304頁珍藏版）》請在三個皮匠報告上搜索。

1、序阿里媽媽成立于 2007 年，是淘天集團商業數智營銷中臺。秉承著“讓每一份經營都算數”的使命，阿里媽媽技術團隊深耕 AI 在互聯網廣告領域的探索和大規模應用，并通過技術創新驅動業務高速成長，讓商業營銷更簡單高效。2021 年 5 月，我們開始通過阿里媽媽技術微信公眾號持續分享我們的技術實踐與經驗，覆蓋廣告算法實踐、AI 平臺及工程引擎、智能創意、風控、數據科學等多個方向。每年此時，我們都會整理過去一年頗具表性和創新性的工作沉淀制作成冊，這些工作有的已為業務創造實際收益，有的是一些常見問題的新解法，希望可以為相關領域的同學帶來一些新的思路。期待明年此時，每位朋友都有新的收獲，而我們也帶著更多探

2、索實踐來與大家分享交流 2024 阿里媽媽技術年刊開放下載，如果對這本電子書有想要探討的問題，或有更好的建議，也歡迎通過阿里媽媽技術微信公眾號與我們聯系。最后，祝大家新春快樂祝福如初，愿不負追求與熱愛，萬事盡可期待！如果覺得還不錯，別忘了分享給身邊的朋友阿里媽媽技術團隊關注阿里媽媽技術，了解更多精彩內容|目錄目錄決策智能 1阿里媽媽首提 AIGB 并實現大規模商業化落地，將在 NeurIPS 2024 正式開源 Benchmark 1【NeurIPS24】開源|AuctionNet:針對大規模博弈環境的出價決策 Benchmark 7【KDD24】AIGB：基于生成式模型的自動出價優化新

3、范式 17【KDD25】AIGA 生成式拍賣：感知排列外部性的整頁優化機制 28強化學習在廣告自動出價場景的大規模落地實踐 39召回/預估模型 52【CIKM24】展示廣告預估技術最新突破：基于原生圖文信息的多模態預估模型 52展示廣告多模態召回模型：混合模態專家模型 66【WSDM24】展示廣告預估模型優勢特征應用實踐 76大規模約束優化 85【KDD24】合約廣告中的雙目標庫存分配 85【KDD24】合約廣告中大規模多重線性約束庫存分配問題的高效局部搜索算法 98【AAAI24】合約廣告中基于風險約束的 Pacing 算法優化 111智能創意 123開源|阿里媽媽技術開源 FLUX 圖像修

4、復及蒸餾加速模型 123開源|筑基砥柱：EcomXL-萬相實驗室 AIGC 電商基礎模型 131懂你，更懂電商：阿里媽媽推出淘寶星辰視頻生成大模型及圖生視頻應用 143乘風破浪，川流入海 LLM 在阿里媽媽智能文案的應用 157尺寸魔方：AIGC 賦能下的視覺創意智能延展 168AtomoVideo：AIGC 賦能下的電商視頻動效生成 178|目錄【ACL24】視頻解說生成算法及在電商廣告中的應用 188【ECCV24】SPLAM：基于子路徑線性近似的擴散模型加速方法 197【NeurIPS24】FlowDCN：基于可變形卷積的任意分辨率圖像生成模型 207【ACM MM23】視頻尺寸魔方：分

5、層遮掩 3D 擴散模型在視頻尺寸延展的應用 216因果推斷 224【WSDM24】CausalMMM：基于因果結構學習的營銷組合建模 224【ICML24】面向因果效應估計的耦合生成對抗模型 235隱私計算 242阿里媽媽營銷隱私計算平臺 SDH：公用云應用案例分享 242風控技術 252重磅！阿里媽媽新一代反作弊平臺DNA算法揭秘 252算法工程 264揭秘阿里媽媽AI 小萬背后的 AI Native 工程能力 264AI 生成存儲基座：自研超大規模向量數據庫 Dolphin VectorDB 280多智能體 292哪家 AI 能成臥底之王？淘天技術團隊發布多智能體博弈游戲平臺 WiS 29

6、21|決策智能阿里媽媽首提 AIGB 并實現大規模商業化落地，將在 NeurIPS 2024 正式開源 Benchmark 阿里媽媽技術導讀2023 年，阿里媽媽首次提出了 AIGB（AI-Generated Bidding）Bidding 模型訓練新范式。AIGB 是一種全新的迭代范式，把自動出價問題建模為生成式序列決策問題，這是生成式 AI 在該領域的首次應用。經過一年的探索和研發，我們在阿里媽媽廣告平臺成功部署 AIGB 并取得顯著效果，我們還把過程中的發現和經驗總結成論文發表在 KDD 2024，詳細分享了這一全新的迭代范式。為了激發該領域進一步的技術創新，我們今年發起了大規模拍賣

7、中的自動出價比賽，并特別設置了 AIGB 賽道，這一理念得到了 NeurIPS 的認同，阿里媽媽成為國內工業界今年唯一一家獲得 NeurIPS 比賽主辦權的組織。同時，我們也將在 NeurIPS 2024 上正式開源 AIGB 的 Benchmark：業界首個標準化的大規模模擬競價系統和大規模博弈數據集。論文名稱：AIGB:Generative Auto-bidding via Diffusion Modeling論文作者：Jiayan Guo,Yusen Huo,Zhilin Zhang,Tianyu Wang,Chuan Yu,Jian Xu,Yan Zhang,Bo Zheng發表會議：

8、KDD 2024論文鏈接：https:/arxiv.org/abs/2405.16141背景：在線廣告場景中的自動出價廣告業務是互聯網公司營收的一項重要來源。僅在 2023 年，在線廣告市場的規模就決策智能2|決策智能達到了 6268 億美元。在線廣告往往是通過流量拍賣的方式進行廣告投放。廣告主需要設定合理的出價從而競得流量。近年來，自動出價（Auto-Bidding）技術已成為推動廣告市場持續增長的關鍵因素。相比于傳統的手動出價，自動出價充分考慮了線上流量分布、競價環境、預算以及各種限制因素，在為廣告主帶來了更多價值的同時，促進了平臺業務的增長。一種典型的自動出價目標是在給定預算及其他約束的

9、條件下最大化廣告主的流量價值。典型的自動出價任務包括給定預算下的最大化拿量任務 Max-Return，以及給定預算和 ROI 約束的最大化拿量任務 Target Roas 等。在實踐中，自動出價的優化問題一般會被看作一個序列決策問題，出價模型在整個投放周期（通常為 1 天）內隨著流量和競價情況的變化動態調整出價參數從而優化整體效果。模型需要具備一定的全局視角，進行整體規劃和決策。對于序列決策問題，一種被業界廣泛采用的解決方案是強化學習（RL）。RL 方法可以通過不斷和環境交互尋優，從而不斷提升策略效果。RL 也是目前一種主流的 Bidding 解決方法。但是這種方法由于存在一定的內生性缺陷（價

10、值函數預估和自舉法導致的訓練不穩定），不擅長處理 Bidding 面臨的長序列決策問題，容易出現訓練效果差的問題。因此，我們期待通過算法范式的升級來提升 Biding 模型的線上效果。生成式模型助力 Bidding 范式升級生成式模型近年來得到了迅速的發展，在圖像生成、文本生成、計算機視覺等領域取得了重大突破。目前最新的生成式模型在分布擬合以及相關性關聯等方面顯著地優于淺層神經網絡。工業界 Bidding 策略優化的核心是基于歷史的 Bidding 數據，通過模型挖掘策略與效果之間的相關性從對策略進行優化，是生成式模型落地的一個較為理想環境?；谶@一洞察，我們提出了 AIGB（AI-Gener

11、ated Bidding）解決方案。AIGB 是一種基于生成式模型（Transformer、Diffusion Model 等）的出價問題解決方案框架。與以往解決序列決策問題的 RL 思路不同，AIGB 將 Auto-Bidding 視為一個策略生成問題，通過生成模型強大的特征關聯以及分布擬合能力，直接捕捉歷史 Bidding 數據集中優化目標和出價策略之間的相關性從而優化策略。相比于 RL 方法，這種新的建模范式避免了價值函數預估和自舉法所所造成的誤差，尤其擅長處理 Bidding 所面對的長序列稀疏回報的問題。3|決策智能圖 1：圖左歷史投放軌跡中，顏色深淺代表計劃 return 的不同。

12、右圖為 AIGB 模型根據不同需求生成的新策略。整個模型看作一個分布處理 pipeline，輸入歷史非最優但存在有效信息的廣告投放軌跡，輸出符合優化目標的新策略。圖 1 直觀地展示了生成式出價（AIGB）模型的流程。我們將出價、優化目標和約束等具備相關性的指標視為一個有一定規律的數據分布。在訓練階段，我們可以利用生成模型對這一數據分布進行數據挖掘尋優，這使得模型能夠自動學習出價策略、狀態間轉移概率、優化目標和約束項之間的相關性。在線上推斷階段，生成式模型可以基于約束和優化目標，以符合分布規律的方式輸出出價策略。理論上，AIGB 范式可以兼容多種生成模型。目前常用的生成式模型包括 Trans-f

13、ormer、Diffusion Model 等。但不同的模型側重點不同，例如，Transformer 模型主要基于自注意力機制，能夠對樣本中跨時序和分層信息進行提取和關聯，擅長進行自回歸處理。而 Diffusion Model 則緩慢地將隨機噪聲添加到數據中，然后學習逆向擴散過程以從噪聲中構造所需的數據樣本。加噪和去噪的過程可以類比為是把特征用馬賽克遮住然后再還原的過程。相比之下，可以從細節到整體捕捉多個層次的相關性，從而提取出更多的有效信息，更擅長進行分布建模。因此，基于不同的生成模型特點，可以構建出不同的建模方案。DiffBid：基于擴散模型（Diffusion Model）的 AIGB在

14、 AIGB 框架下，我們引入了基于擴散模型方案 DiffBid。DiffBid 由規劃模塊和控制模塊組成。對于規劃模塊，我們首先將一個完整投放周期內廣告主剩余預算、消耗速率、ROI、流量價值等出價相關狀態信息隨著時間不斷變化的過程看作一條 Bidding 軌跡，然后利用擴散模型對歷史數據集中的海量 Bidding 軌跡序列進行建模（圖 2），以最大似然估計的方式擬合軌跡數據中的分布特征。因此，DiffBid 可以基于給定目標規劃出對應的出價軌跡。在此基礎上，DiffBid 會再利用一個逆動力學控制模型根據環境的變化盡可能逼近規劃軌跡。4|決策智能圖 2：左為正向過程，右為反向過程。DiffBi

15、d 正向與反向過程示例，對于一條由剩余預算序列軌跡，正向過程不斷加入噪聲，破壞其有效信息，然后反向過程生成新的軌跡，最大限度將這部分丟失的信息還原。在近一年多的實踐中，我們通過多輪線上實驗，反復驗證了 DiffBid 的效果。截至目前，DiffBid 已經多個場景的實驗中相比于傳統的 RL 方法產生了顯著的正向效果。其中在某場景 Max-Return 任務中，產生了 GMV+3.6%的結果。在 Target Roas 任務中，在保證整體 ROI 滿足要求的情況下取得了 GMV+5.0%的結果。特別在 Target Roas 中，由于 ROI 反饋稀疏且滯后，RL 方法訓練難度較大，而 Diff

16、Bid 受影響較小。因此，DiffBid 既為廣告主帶來更多收益，又很好保障了廣告主的 ROI。與此同時，我們通過進一步分析，發現 DiffBid 模型在提效的同時，還能夠對實際投放軌跡產生一定的平滑性優化（圖 3），在 DiffBid 策略生效后，投放軌跡的異常狀態顯著減少，振蕩性顯著降低，與此同時減少過快消耗的現象。廣告主的投放體驗也因此得到改善。圖 3：真實線上剩余預算散點圖。橫軸為剩余時間，縱軸為剩余預算。越分散代表消耗越振蕩，投放平滑性越差。此外在圖 a 中，存在大量提前消耗完畢的投放軌跡。這部分軌跡可能會由于錯過一部分晚上的高性價比流量導致效果下跌。而 DiffBid 可以明顯減少

17、這種問題5|決策智能除了實際線上效果的優勢外，相比于其他方法，DiffBid 還具有其他兩方面的優勢。首先，相比于通過端到端方法直接輸出 Bidding 信息，DiffBid 生成的軌跡信息具有更好的可解釋性（圖 4）。有助于我們對模型效果進行更好的評估，從而助力優化工作。例如，我們觀察模型規劃出的軌跡和實際線上的軌跡，如果出現規劃出的最終剩余預算不為 0 的情況說明模型并未能有效利用所有預算。如果規劃軌跡與實際軌跡差距較大，則說明逆動力學控制模型自適應能力較差。在定位問題之后，可以較為方便地進行針對性優化。其次，DiffBid 對多目標的兼容能力更強，與此同時支持在訓練完成后對目標進行調整從

18、而優化規劃軌跡?；谶@一特點，我們可以更為方便地加入一些將業務邏輯指標作為優化目標，與 Bidding 模型更好地結合起來。例如，在 Max-Return 任務優化的過程中，可以將預算使用率合并進入目標中，同時保證 GMV 和預算使用率得到優化。圖 4：橫坐標軸表示時間，縱坐標表示剩余預算和但時間步消耗?；疑€/柱子為最優軌跡剩余預算曲線/消耗。紅色表示不同優化目標所對應的規劃軌跡曲線?？梢钥闯?，隨著目標 Return 變大，模型規劃會逐步逼近最優軌跡。證明模型學到了合理的業務邏輯和優化措施目前 DiffBid 在阿里媽媽廣告場景中大規模商業化落地，助力雙十一，為廣告主賦能。此外，基于擴散模

19、型的特點，DiffBid 下可延展性和多目標能力會顯著強于傳統模型，這種特點將會為未來的 Bidding 優化和產品建設帶來幫助。展望除了已經展現出來的諸多優勢之外，AIGB 框架的開放性也能夠兼容諸多不同的方案設計。在阿里媽媽剛剛舉辦的 NeurIPS 2024：大規模拍賣中的自動出價比賽中，選手們基于不同的基礎生成模型，提出了一批不同于 DiffBid 的 AIGB 解決方案，迸發出諸多亮點。其中有的選手充分利用了 Transformer 的優勢，通過自回歸的方式預測給定優化目標的出價信息。有的選手提出 Transformer 全局規劃模型與 bidding 小模型結合的出價方案。也有基于

20、 Diffusion 模型直接進行出價的方案。這些方案均在不同程度上展示出了優勢，為未來 AIGB 的進一步迭代提供了啟發。但是，我們相6|決策智能信這僅僅是一個開始。未來隨著技術的進一步發展，更多的 AIGB 方案涌現出來，從而以完全不同的方式重構自動出價的技術體系。阿里媽媽沉淀了億級廣告投放軌跡數據，是業界為數不多具備超大規模決策類數據資源儲備的平臺。這些海量數據資源可以成為營銷決策大模型訓練的有力保證，從而推動 AIGB 技術的發展。期待后續有機會與大家分享和交流我們的進展與實踐。7|決策智能【NeurIPS24】開源|AuctionNet:針對大規模博弈環境的出價決策 Benchmar

21、k 銀耀、妙臨、铓客摘要大規模博弈環境中的決策智能是人工智能領域內的重要研究方向，對實際應用具有深遠影響。然而，由于缺乏全面且真實的博弈環境及相關數據集，這一領域的進展受到了限制。為了解決這一問題，本文提出了一種基于在線廣告行業的自動出價決策問題的 Benchmark，并命名為 AuctionNet。AuctionNet 包括一個大規模廣告競拍環境、基于該環境預生成的數據集以及幾種基礎出價決策算法的效果評估。廣告競拍環境通過深度生成式模型生成廣告流量數據，旨在縮小仿真環境與現實問題之間的差距，同時避免敏感數據暴露的風險。數據集中包含了 48 個不同出價智能體相互競價的日志，可幫助出價模型更好的

22、訓練。這個數據集共有 5 億條記錄，共計 80GB。AuctionNet 已應用于 NeurIPS 2024 競賽，為 1500 支隊伍提供了近萬次準確、公正的算法效果評估，并幫助選手研發更多元、創新性的解決方案。AuctionNet 不僅適用于廣告拍賣中的出價決策算法研究，也適用于大型博弈場景的決策智能算法研究。論文：AuctionNet:A Novel Benchmark for Decision-Making in Large-Scale Games作者：Kefan Su,Yusen Huo,Zhilin Zhang,Shuai Dou,Chuan Yu,Jian Xu,Zongqing

23、 Lu,Bo Zheng發表會議：NeurIPS 2024 Datasets and Benchmarks Track（Spotlight）論文下載：https:/arxiv.org/abs/2412.10798代碼地址：https:/ 2023 年超過 6000 億美元。這一領域需要在大規模博弈中運用復雜的決策技術。具體來說，在線廣告系統主要通過流量拍賣的方式實現廣告投放。而自動出價技術是衍生于這一場景的一項重要技術。如圖 1 所示，自動出價的智能體代表廣告主對大量持續到來的廣告流量進行出價，目標是在滿足特定約束條件（如投資回報率 ROI）的前提下實現效益最大化。圖 1：大規模在線廣告平臺總

24、體架構大規模廣告拍賣中的出價決策是大規模博弈決策的一個典型例子。然而，研究人員通常只能有限地訪問到真實的大規模廣告競拍環境，這一現狀會對該領域的研究造成阻礙。盡管業界已經有了部分工作旨在為研究者提供一個仿真環境，但此類仿真環境大都無法對廣告系統中的復雜的流量分布及博弈行為進行很好的描述，且可擴展性不足，無法很好支持研究者對問題進行廣泛的研究。在本文中，我們提出了 AuctionNet源自真實在線廣告平臺的大規模廣告出價決策基準。AuctionNet 由三個部分組成：廣告競拍環境、基于該環境的預生成數據集以及對幾種基線出價決策算法的性能評估。具體來說，該環境通過多個模塊的交互，有效地復制了真實世

25、界廣告競價的完整性和復雜性：廣告流量生成模塊基于深度生成式模型。這種方法可以縮小模擬數據和真實世界數據之間的差距，同時降低敏感數據暴露的風險；出價模塊實現了使用不同決策算法訓練的多樣化；拍賣機制模塊基于廣義二價（GSP）拍賣機制，同時也允許根據需要定制拍賣機制。為了促進研究并提供對博弈環境的深入了解，我們還基于該環境預生成了一個大型數據集。該數據集包含 48 個不同的智能體相互競爭的軌跡，總計超過 5 億條記錄，大小達 80GB。作為AuctionNet 的一部分，我們還提供了線性規劃、強化學習和生成式模型等基線算法9|決策智能在出價決策方面的性能評估。2.問題建模在本文中,我們使用部分可觀測

26、隨機博弈（POSG）來構建這個問題。在 POSG 中，=表示一個元組，其中表示所有智能體的集合，為時間范圍，即一個周期所對應的時間步數，表示狀態空間，為動作空間，為轉移概率，表示折扣因子，表示觀測空間，表示對每個智能體從狀態到觀測的映射，是所有智能體的聯合獎勵函數，是每個智能體的個體獎勵函數，其中是所有智能體的聯合動作。具體來說，在一個時間步內的交互過程如下：狀態由預算、廣告流量特征、廣告主特征（如行業類別）以及相應的價值矩陣組成，其中表示廣告流量對智能體的價值。智能體的觀察值僅包含狀態中的部分信息，即智能體可能不知道其他智能體的預算?；谧詣映鰞r領域的已有結論，智

27、能體對流量的出價可以被表示為一個出價系數與流量價值的乘積。因此，在這個時間步內智能體對所有廣告流量的出價為，其中是這個時間步長內的廣告流量數量。給定所有智能體的出價，根據拍賣機制的決定，智能體將收到拍賣結果，其中當且僅當智能體贏得流量時，。智能體只會從贏得的流量中獲得獎勵并付出成本，即獎勵以及成本。因此下一個時間步的預算，其中是展示對智能體的成本。以典型的自動出價場景為例，根據上述定義，從智能體的角度來看，優化目標如下：其中，是智能體的預算，表示內積。在實現的時候，我們構造，因此優化公式中的目標與是相同的。對于更復雜的場景，我們可以添加 CPA 約束以確保預算的

28、有效利用。上述決策制定10|決策智能公式可以輕松擴展到各種現實場景中。3.廣告競拍環境為了全面展示真實世界在線廣告平臺中的大規模博弈，我們開發了一個廣告競拍環境。為了規范自動出價過程，我們將一段時期內的廣告流量劃分為個決策時間步。根據目標，自動出價智能體在每個時間步依次進行出價，利用第步的結果和之前的歷史信息來改進第步的策略。這種設計理念使智能體能夠持續優化其出價策略，以適應不斷變化的環境。在每個時間步內，所有廣告流量都是獨立且并行執行的。完成競價后，環境會為智能體計算出最終得分。這個環境通過廣告流量生成模塊、競價模塊和廣告拍賣模塊的相互作用，有效地復現了真實世界中廣告拍賣的完整性和復雜

29、性。為了更好地模擬現實中的大規模拍賣，環境中輸入了大量的廣告流量，并配置了數十個出價智能體。這些廣告流量是通過深度生成式模型產生的，以此減少模擬環境與現實之間的差距，同時避免敏感數據泄露的風險。這些代理配備了多樣化且復雜的自動競價算法。3.1 流量生成模塊廣告流量生成模塊的目標是生成與真實在線廣告數據相似的多樣化廣告流量。如圖2 所示，該模塊的核心是深度生成式模型。我們使用了潛在擴散模型（LDM）的方法來生成廣告流量。LDM 在潛在空間中添加噪聲并使用擴散模型進行去噪，然后通過編碼器和解碼器從潛在空間生成數據。具體來說，LDM 在訓練過程中使用編碼器將廣告流量特征映射到潛在向量，并使用解碼器

30、重構這個特征。在生成時，LDM從正態分布中采樣一個隨機潛在向量，然后基于這個向量生成廣告流量特征。令為廣告流量特征數據的空間，其中是原始數據的維度，是廣告流量的數量。令為潛在空間（）。編碼器和解碼器分別表示為和，其中和是參數。編碼器的功能是獲取原始數據的潛在表征，即，其中且是潛在表征。在實踐中，應用重參數化技巧以確保該操作在反向傳播期間是可微的。11|決策智能圖 2：廣告流量生成流程給定潛在表征，解碼器負責從重構原始數據，即。除了重構之外，潛在分布需要逼近標準高斯分布。因此，編碼器和解碼器的損失函數如下：其中是重構損失，是潛在分布的正則化損失。LDM 在潛在空間中使用

31、擴散模型來生成潛在變量。擴散模型背后的思想是向原始數據添加高斯噪聲以獲得服從的變量，并從開始去噪來進行生成。給定一個潛在變量，我們將其經過次迭代后的噪聲版本表示為。擴散模型包含一個用于預測噪聲的網絡，其損失函數可以表示為：其中，是的潛在空間嵌入，是從集合中均勻采樣得到的。網絡是擴散模型中唯一可學習的組件，它通過基本操作實現了添加噪聲和去噪的過程。對于給定的廣告流量特征，我們還需要確定這個廣告流量與對應廣告主類別信息 12|決策智能和時間信息相結合的價值，其中是與相關聯的真實數據中的廣告主信息。我們使用多頭注意力機制（Multi-head Attention,MHA）作為信息

32、整合的網絡架構。讓表示價值預測模塊，表示在特定時間步驟下，針對特定廣告主的廣告流量特征的預測價值。價值預測模型的損失函數如下：其中是與相關聯的記錄中廣告流量的真實價值。3.2 出價模塊出價模塊復現了廣告主之間的動態競爭。每個廣告主都有不同的廣告目標，并使用獨立的自動出價智能體，同時對其競爭對手的策略并不了解。研究人員可以控制環境中的部分智能體，而其他智能體則保持不受控制。這種設置可以更好地反映現實世界在線廣告中復雜且動態的博弈過程。3.3 拍賣機制模塊廣告拍賣模塊的任務是根據智能體對廣告流量的所有出價來確定贏家和中標價格。根據不同的拍賣規則，智能體的成本會有所不同?；诔Ｒ姷?GSP

33、拍賣，獲勝者會以第二高的出價而非最高出價來支付。為了方便研究人員進行研究，拍賣模塊內部支持包括 GSP 在內的多種主流拍賣規則。此外，研究人員可以使用拍賣模塊的接口設計特定的拍賣規則以滿足他們的研究目的。此外，環境中實現了多坑的屬性。多坑源于工業應用，意味著單個廣告流量可能有多個廣告坑位用于展示。具有較高曝光率的廣告坑位對廣告主來說更有價值。假設廣告位數量為 l，那么拍賣模塊將把 l 個廣告位分配給出價最高的 l 個出價者，這些出價者將根據廣告位不同的曝光率獲得不同的價值?？偟膩碚f，多廣告位特性增加了最優出價策略的復雜性，因為曝光率作為折扣因子同時影響成本和價值。4.預生成數據集為了更好地證明

34、生成的數據能夠反映真實世界數據的特性，我們對廣告流量生成模塊本身的有效性進行了驗證。廣告流量生成模塊包含兩個組成部分：特征生成式模型和價值預測模型。我們進行了實驗來驗證這些模型的有效性。我們隨機抽樣了 10 萬個真實世界在線廣告數據點，并與 10 萬個生成的數據點進行13|決策智能比較。首先，我們使用 PCA（主成分分析）來可視化真實數據和生成數據之間的相似性。3D PCA 結果如圖 3 所示。為了更好地展示，我們在 3D 空間中使用了六個不同的視角。我們觀察到生成的數據在 3D 空間中與原始數據重疊。此外，生成的數據點在 3D 空間中形成了四個主要的獨立簇，這與真實世界的數據點類似。這些可視

35、化結果表明，生成的數據總體上與真實世界的數據相似。圖 3：10 萬條生成數據和 10 萬條真實數據的三維主成分分析(PCA)結果為了進一步比較這兩個數據集，我們研究了兩個數據集中身份信息和消費行為信息的數值分布。實證結果如圖 4 所示。對比真實數據和生成數據中個人信息相關特征的取值分布：可以發現在年齡、會員等級、偏好的手機價格區間等具體的特征上，生成數據的分布和真實數據的分布雖然略有差異，但在大體上仍是相似的。圖 4：用戶身份信息分布在圖 5 中，我們對比了真實數據和生成數據中消費行為相關特征的取值分布：在統計消費行為的相關特征上，我們可以發現生成數據和真實數據都呈現出“長尾分布”，即絕大部分

36、消費者的消費行為都比較稀疏，而存在小部分的消費者消費行為較為頻繁，這也符合相關行業觀察到的現實規律。14|決策智能圖 5：消費行為信息分布實驗結果表明，生成數據在總體上與真實數據相似。該數據集源自博弈環境中生成的數據，其中多個自動出價智能體相互競爭。我們已經預先生成了大規模的博弈數據，以幫助研究人員更深入地了解競價系統。這些數據可用于對環境建模和有效訓練自動出價智能體。數據集包含 21 個廣告投放周期，每個周期包含超過 500,000 個廣告流量，并被分為48 個步驟。每個流量都包含出價最高的前 48 個智能體（注：真實世界的數據表明，48 個智能體可以確保自動出價智能體訓練時的競爭壓力）。數

37、據集包含超過 5 億條記錄，總計 80GB 大小。每條記錄包含預測價值、出價、拍賣和展示結果等信息。5.評估基線算法的性能對比在實驗部分，論文評估了多種基線算法在 AuctionNet 環境中的性能，包括 PID Controller、Online LP、IQL、BC 和 Decision Transformer。值得注意的是，我們使用了論文中的原始算法，并沒有在自動出價任務對這些方法做特殊的優化。實驗結果如圖 6 所示。為了更好地說明問題，我們將所有基線方法的性能用啟發式基線 Abid 的平均周期獎勵進行歸一化。因此，在基礎任務中，Abid 的平均相對性能為1.0。Online LP 取得了

38、最佳性能，這可能是因為它相對穩健，無需為自動出價任務進行特殊適應就能取得良好效果。雖然 IQL、BC 等方法的表現不如 Online LP，但我們觀察業界有在這些算法基礎上針對自動出價問題提出了一些新的解法（如 AIGB）并有顯著效果提升，證明了這類方法具有巨大的優化潛力。此外，在目標 CPA 任務中所有基線方法的獎勵下降是由于超出約束而產生的 CPA 懲罰所致。15|決策智能圖 6：基線算法在基本任務和目標 CPA 任務上的實驗結果6.在 NeurIPS 比賽上的應用AuctionNet 被應用于 NeurIPS 2024 競賽“Auto-Bidding in Large-Scale

39、 Auctions”中。該競賽解決了在不確定和競爭環境中進行高頻出價決策的關鍵問題，歷時 3 個月并有來自全球 1500 多支隊伍參與其中。競賽中使用的廣告競拍環境、數據集和基線出價決策算法均源自該 Benchmark。廣告競拍環境為競賽提供了近萬次評估，為參賽者提供了準確、公平的效果評估。數據集和基線算法使參賽者能夠快速啟動任務并激發他們的創造力，從而產生更多樣化和創新的解決方案，推動該領域的技術發展。7.開源代碼我們將這個 benchmark 的代碼開源出來，希望能加速這個領域的技術突破。16|決策智能8.總結AuctionNet 環境仍然存在一定的局限性，包括生成數據與真實數據之間的偏差

40、并沒有完全得到解決，以及 AuctionNet 環境的計算速度仍然偏慢，有待進一步優化。盡管如此，AuctionNet 環境和數據集仍然為大規模博弈決策的研究提供了一個有價值的工具。這不僅為研究人員提供了在大規模拍賣中研究自動出價算法的機會，也可以幫助博弈論、強化學習、生成模型、運籌學等領域的研究人員和實踐者解決各種決策研究問題。17|決策智能【KDD24】AIGB：基于生成式模型的自動出價優化新范式銀耀、铓客、妙臨導讀：去年，我們提出了 AIGB 的初步設想與方案（延展閱讀：Bidding 模型訓練新范式：阿里媽媽生成式出價模型（AIGB）詳解）。經過一年的深入探索，我們完成了AIGB 的完

41、整方案，并在實際在線廣告平臺大規模預算 AB 測試中取得了顯著效果。值得一提的是，AIGB 的研究成果已被 KDD 2024 大會接收。在本文中，我們將基于 KDD 公開發表的論文，詳細分享這一全新的自動出價優化范式。論文：AIGB:Generative Auto-bidding via Diffusion Modeling作者：Jiayan Guo,Yusen Huo,Zhilin Zhang,Tianyu Wang,Chuan Yu,Jian Xu,Yan Zhang,Bo Zheng鏈接：https:/arxiv.org/abs/2405.16141摘要：在 2023 年，在線廣告市場的

42、規模達到了 6268 億美元，而自動出價已成為推動這一市場持續增長的關鍵因素。自動出價需要在順序到來的海量展示機會中依次做出出價決策，這是一個典型的長序列決策問題。近年來，強化學習（RL）在自動出價中得到了廣泛應用。然而，目前大多數基于 RL 的自動出價方法都采用馬爾可夫決策過程（MDP）進行建模，但在面對較長序列決策時，這些方法受到了誤差累積等因素的限制，效果表現受限。為了解決這些問題，本文提出了一種新范式 AIGB基于生成式模型的自動出價。在具體實現上，該方法基于條件生成模型，將出價決策軌跡與優化目標直接建模在一起，從而有效避免在長序列決策時跨時間步的誤差傳播。在應用中，只需設定要達成的優

43、化目標及特定約束，即可生成能夠最大化給定目標的出價軌跡，依托此軌跡可以得到具體的出價決策動作。我們將該方法在阿里巴巴廣告平臺進行大規模部署，并通過預算 AB 實驗進行了長達一個月的效果觀察，充分驗證了該方法的有效性。在總交易額（GMV）和投資回報率（ROI）上分別實現了 4.2%和 5.6%的增長，同時顯著提升了廣告主的投放體驗。并且我們對該范式進行了深入細致的分析，在出價軌跡規劃及出價動作的有效性上都展現出了不錯的潛力，對該范式的深入研究可以帶來持續的效果提升。18|決策智能一、背景1.1 自動出價建模廣告主的目標是在滿足各個約束的條件下在整個投放周期內部獲取最多的流量價值?？紤]到廣告目標、

44、預算和 M 個 KPI 約束，自動出價問題可以被定義為一個帶約束的優化問題：其中，表示是否競得流量，和分別表示流量的價值（流量產生購買或 GMV 的可能性）和成本。是第個約束的上界。表示效果指標，例如 CPC、ROI 等，第個約束所關聯的流量消耗。如果只有預算進行約束，我們稱為 Max Return Bidding。如果同時考慮預算約束和 CPC 約束，我們稱為Target-CPC bidding。如果假設已經知道整個投放周期內流量集合的全部信息，包括能夠觸達的每條流量以及其流量價值和成本，那么可以通過解決線性規劃問題來獲得最優。為了求解這一優化問題，我們一般通過對偶變換，構造一個最

45、優出價公式，將原問題轉化為求解最優參數的問題，從而大大降低在線情況下求解此問題的難度。最優的出價公式為：其中，是常數項，是參數，其范圍為：。證明過程詳見論文1。最優出價公式共包含 m+1 個核心參數，公式中其余項為在線流量競價時可獲得的流量信息。由于最優出價公式存在，對于具有 M+1 個約束、且希望最大化贏得流量的總價值的問題，最優解可以通過找到 M+1 個最優參數并根據公式進行出價，而不是分別為每個流量尋找最優出價。理想情況下，通過求解最優參數，即能直接獲得每個廣告計劃的最優出價。19|決策智能1.2 自動出價中的決策問題然而，在實際投放過程中，我們無法提前獲知整個投放周期的流量分布，需要在

46、流量集合未知的情況下進行實時競價。因此，由于無法直接計算出最優參數，常規的線性規劃解決方法并不完全適用。在實踐中我們往往需要根據歷史信息對進行預估，并得到預估值。由于環境隨機性大，進行實時動態調整以適應環境的變化?；谶@一視角，我們可以將自動出價被看作一個序列決策問題。為了對這個問題進行建模，我們引入狀態變量描述實時投放狀態，自動出價模型基于輸出出價動作,環境將動態變遷至下一狀態，并獲取到相應的獎勵。接下來我們進行詳細的定義：狀態：描述在時間段的實時廣告投放狀態，包含一下方面的信息：1)剩余投放時間；2)剩余預算；3)預算消耗速率；4)實時點擊成本（Cost Per Click）；5)

47、平均點擊成本（CPC）。動作：描述在時間段對出價參數的調整，其維度與競價參數的數量相符，并用向量形式表達。獎勵：在時間段內獲取的收益。軌跡：表示整個投放周期內一系列狀態、動作和獎勵的序列。1.3 生成式模型生成式模型近年來得到了迅速的發展，在圖像生成、文本生成、計算機視覺等領域取得了重大突破，并催生出了近期大熱的 ChatGPT 等。生成式模型主要從分布的角度去理解數據，通過擬合訓練數據集中的樣本分布來進行特征提取，最終生成符合數據集分布的新樣本。目前常用的生成式模型包括 Transformer3、Diffusion Model4等。Transformer 主要基于自注意力機制，能夠對

48、樣本中跨時序和分層信息進行提取和關聯，擅長處理長序列和高維特征數據，如圖像、文本和對話等。而 Diffusion Model 則將數據生成看作一個分階段去噪的過程，將生成任務分解為多個步驟，逐步加入越來越多的信息，從而生成目標分布中的樣本。這一過程與人類進行繪畫過程較為相似，由此可見，Diffusion Model 擅長處理圖像生成等任務。依靠生成式模型強大的信息生成能力，我們也可以引入生成式模型將序列決策問題建模為一個序列動作生成問題。模型通過擬合歷史軌跡數據中的行為模式，達到策略輸出的目標。Decision Transformer(DT)5 和 Decision Diffuser(DD)6

49、分別將Transformer 以及 Diffusion Model 應用于序列決策，在通用數據集中，相比主流的20|決策智能RL 方法 7,8 取得了較好的效果提升。這一結果為我們的 Bidding 建模提供了一個很好的思路。二、AIGB（AI Generated Bidding）建模方案AIGB 是一種利用生成式模型構造的出價優化方案。與以往解決序列決策問題的 RL視角不同，AIGB 將自動競價視為一個軌跡生成問題，直接捕捉優化目標和整個投放軌跡之間的相關性，從而克服 RL 在處理線上環境高隨機性、長序列稀疏回報和有限數據覆蓋時的性能瓶頸。在此基礎上，我們進一步發揮生成模型的優勢，嘗試通過

50、多任務的方式解決出價問題。在訓練過程中，對約束進行條件化，使得推斷時的行為可以同時滿足多個約束組合。我們的研究結果表明，使用條件生成模型來解決出價問題中的序列決策問題是一個好的選擇。圖 1：圖左歷史投放軌跡中，顏色深淺代表計劃 return 的不同。右圖為 AIGB 模型根據不同需求生成的新策略。整個模型看作一個分布處理 pipeline，輸入歷史非最優但存在有效信息的廣告投放軌跡，輸出符合優化目標的新策略。從生成式模型的角度來看，我們可以將出價、優化目標和約束等具備相關性的指標視為一個聯合概率分布，從而將出價問題轉化為條件分布生成問題。這意味著我們可以以優化目標和約束項為條件，生成相應出價策

51、略的條件分布。圖 1 直觀地展示了生成式出價（AIGB）模型的流程：在訓練階段，模型將歷史投放軌跡數據作為訓練樣本，以最大似然估計的方式擬合軌跡數據中的分布特征。這使得模型能夠自動學習出價策略、狀態間轉移概率、優化目標和約束項之間的相關性。在線上推斷階段，生成式模型可以基于約束和優化目標，以符合分布規律的方式輸出出價策略?？偟膩碚f，生成式模型的優勢在于：訓練階段，條件生成式模型通過最大似然估計進行訓練，通過監督學習的方式優化策略，可解釋性更強。推斷階段，條件生成式模型可以根據不同的出價類型生成不同的出價軌跡，以實現不同約束項的滿足。具備多任務能力。21|決策智能2.1 模型結構圖 2：AIGB

52、結構如圖 2，給定當前軌跡信息和策略生成條件，AIGB 模型可以逐個生成未來的出價策略：其中出價策略是由未來的最優狀態和與之對應的最優出價組成的序列。生成條件包括了優化目標（購買量最大化、點擊量最大化）以及約束項（PPC、ROI、投放平滑性）等。被用來估計條件概率分布。模型基于當前的投放狀態信息以及策略生成條件輸出未來的投放策略，相比于以往的 RL 策略僅僅黑盒輸出單步 action，AIGB 策略可以被理解為在規劃的基礎上進行決策，更擅長處理長序列問題。這一優點有利于我們在實踐中進一步減小出價間隔，提升策略的快速反饋能力。與此同時，基于規劃的出價策略也具備更好的可解釋性，能夠幫助我們

53、更好地進行離線策略評估，方便專家經驗與模型深度融合。2.2 生成式建模我們提出一種基于 AIGB 范式的出價算法DiffBid。在訓練階段，DiffBid 模型通過最大似然估計歷史數據集 D 中軌跡和策略生成條件所對應的軌跡信息進行訓練，從而最大限度擬合歷史軌跡的分布信息：22|決策智能擬合歷史分布的過程可以通過引入 Diffusion Model 或 Transformer 等生成式模型來完成。以我們真實使用的擴散模型為例，我們將序列決策問題看作一個條件擴散過程，包括正向過程和反向過程。表示正向過程的迭代步，在正向過程，從轉變為的過程，每一次到的轉換均通過加入高斯擾動實現；反向

54、過程則表示高斯噪聲轉化為歷史投放軌跡分布。每一次到的轉換均通過加入含有一定信息的高斯擾動實現。除此之外，在反向過程中，我們還希望能夠表達與的相關性，因此可以引入 DD 模型中使用的 Classifier-free 方法，利用提取數據集中與相關度最高的部分。其中為噪聲模型，通過神經網絡生成每一個時間步所增加的噪聲。步所對應的高斯擾動可以表示為：其中表示不同的目標或者約束，用來調節的權重。Classifier-free 方法可以較為優雅地處理多種優化目標和約束條件，避免以往 RL 訓練過程中由于約束信號稀疏而效果下降的問題。在此基礎上，我們可以計算每一個 step 的重構誤差，也

55、就是：然后通過最小化誤差的方式進行訓練。DiffBid 模型的策略生成階段通過給定生成條件生成符合要求的出價軌跡。具體過程如下：23|決策智能2.3 策略生成條件對于只有預算約束的單約束 bidding 問題，我們利用策略生成條件來表示優化目標。我們將每一條投放軌跡在整個投放周期內的總獎勵定義為 Return，為了方便模型進行訓練，我們沿用 DD 中的處理方式，也就是：其中和分別表示數據集中 Return 的最小和最大值。其中表示數據集中最好的軌跡，能夠更好地服務于廣告主的效果提升。表示數據集中最差的軌跡。接下來我們把作為 condition 合并進中并進行訓練。對于具有多約束

56、的 bidding 問題，需要要求每一個約束變量都不能超過設定的閾值。我們在此基礎上將更多約束相關信息合并進中，并維護一個二進制變量來指示最終 CPC 是否超過給定的約束：其中，由上文計算得到。當時代表出價不會導致超限發生。我們將合并進中進行訓練。對于多約束變量，除了業內普遍的 CPC、ROI 等約束以外，利用擴散模型的強大能力，我們得以加入更多個性化的約束，我們稱為人類反饋約束。例如，廣告主可能會希望預算消耗盡可能均勻，進一步減小爆量發生的概率。我們可以通過定義約束相來實現。其中表示廣告計劃在時刻的總消耗。廣告主可能希望將特定時間段消耗更多的預算以應對促銷活動,我們通過來表

57、示。三、實驗結果為了對 AIGB 的效果進行驗證，我們通過仿真平臺和真實線上做了大規模的實驗。在離線實驗中，我們進行了多維度的實驗，包括在 Max Return Bidding、Target-CPC Bidding、廣告主反饋等。在此基礎上，我們將模型部署到線上場景進行了線上的 Max-Return 場景進行了實驗。24|決策智能3.1 仿真實驗結果表 1：AIGB 模型與各種 baseline Max Return Bidding 對比。USCB 是一種基于仿真的 RL bidding 方法1，目前在業界被普遍使用。其余 Baseline 包括目前主流的 Offlin

58、e RL 方法，包括 BCQ10、CQL7以及 IQL10，USCB-5K 表示利用 USCB 出價模型與環境交互產的數據集，USCBx-5K 表示在 USCB 策略上加入一定的探索擾動。表 1 展示了 DiffBid 與基準模型在 Max Return Bidding 的效果對比。在這個表中，DiffBid 作為評估的所有方法中表現最好的方法脫穎而出。在所有預算場景和訓練數據集中，DIffBid 模型始終獲得最高的累計獎勵。這一顯著的表現突顯了 AIGB 在優化出價策略方面的能力，展示了將出價過程進行生成式建模的優勢能夠做出更具有全局性的出價策略。另外一個關于 AIGB 性能的方面是其對探索

59、數據具有更好的融合能力。AIGB 比強化學習基線方法能夠更有效從探索數據中提取出更好的策略。圖 3：AIGB 與 USCB 消耗曲線對比，顏色的不同代表不同的預算25|決策智能我們進一步研究 AIGB 策略的特點，我們比較了基準方法 USCB 和 DIffBid 的分時消耗情況。在圖 3 中，我們繪制了一天中剩余預算比例隨時間步的變化。從圖中我們可以觀察到，在 USCB 下，大部分廣告商的消費未能耗盡他們的預算。這歸因于USCB 面臨的線下虛擬環境和真實線上環境之間的不一致性。相反，在 AIGB 下，預算完成情況有所改善，大部分廣告商花費了超過 80%的預算。一個可能的原因是DiffBid 發

60、現高預算完成比例的軌跡同樣會有高累積獎勵，因此傾向于生成預算完成比例高的軌跡。此外，小預算的廣告商傾向于在下午消費。這是因為下午的流量平均性價比更高。圖 4：AIGB 與 IQL 在 Target-CPC Bidding 中的表現我們還研究了 AIGB 應對多約束的能力，并將其性能與離線強化學習（IQL）進行了比較。具體來說，我們檢查 DiffBid 和 IQL 控制整體 CPC 超額比例的能力，同時最大化總回報。在訓練期間，我們設置不同的 CPC 閾值。然后在測試時，我們讓 AIGB生成滿足期望 CPC 下的軌跡。在圖 4 中，我們展示了在不同 CPC 約束和訓練設置下的超限比例和總回報。從

61、圖中發現，AIGB 能夠在保持完整回報的同時，控制不同水平的超限比例，顯著優于 IQL。因此，AIGB 在有效解決 MCB 問題上占據了明顯優勢。26|決策智能圖 5：AIGB 不同水平的人類反饋對比我們還研究了在不同廣告商反饋下的性能。在訓練期間，我們將閾值將軌跡分為高低兩個水平，并學習不同水平下的條件分布。在生成期間，我們調整條件并生成相應的樣本，并總結指標。圖 5 顯示了低水平、高水平和原始軌跡的指標的統計分布結果。我們發現，部署 AIGB 獲得的軌跡能夠很好地受到條件的控制。3.2 線上實驗結果：表 2:線上 AB 實驗結果為了進一步證實 AIGB 的有效性，我們已經在阿里巴巴廣告平臺

62、上與表現最優的自動出價方法之一 IQL 方法進行了比較。通過較長周期的在線 A/B 測試，實驗結果表明（如表 2），DiffBid 可以將購買次數(Buycnt)提高 2.72%，總商品交易額(GMV)提高 4.2%，投資回報率(ROI)提高 5.55%，ROI 勝出率提升 20.04%，展示了其在優化整體性能方面的有效性。在效率方面，經過 GPU 加速，AIGB 可以很好地保證計算延時不增加太多。四、總結及未來展望AIGB 方案有諸多優勢，包括解決困擾 RL Bidding 在離線不一致問題，更好地訓練27|決策智能多約束出價模型，更好的可解釋性以及更為順暢的與專家經驗的結合能力等，這些優勢

63、可以幫助我們進一步提升的模型迭代效率和效果上限?；?AIGB 的出價方案目前已經在阿里媽媽線上廣告場景落地?？梢钥闯?，生成式模型驅動的 AIGB 已經在以完全不同的方式重構自動出價的技術體系。但是，這僅僅是一個開始。阿里媽媽沉淀了億級廣告投放軌跡數據，是業界為數不多具備超大規模決策類數據資源儲備的平臺。這些海量數據資源可以成為營銷決策大模型訓練的有力保證，從而推動 AIGA 技術的發展。與此同時，用戶和互聯網產品的交互方式也將發生深刻的變化。重塑廣告營銷模式的機會之門已經在變化之中逐步顯現，我們需要做的就是通過持續不斷的探索和嘗試來迎接變化。期待后續有機會與大家分享和交流我們的進展與實踐。2

64、8|決策智能【KDD25】AIGA 生成式拍賣：感知排列外部性的整頁優化機制衡言從“先預估后分配”的判別式方法，到直接面向最終拍賣結果的生成式方法，生成式模型能否為在線廣告的拍賣機制優化帶來持續增量？本文介紹阿里媽媽展示廣告機制策略團隊在 AIGA（AI-Generated Auction）方向的前沿探索-生成式拍賣研究工作。1.摘要廣告拍賣機制設計作為在線廣告系統的重要一環，在持續優化廣告主和平臺收益方面起著至關重要的作用。傳統的廣義二價拍賣（GSP）等拍賣機制依賴于點擊率分離假設（將廣告點擊率拆分為廣告自身質量分和廣告位曝光權重的乘積），忽略了頁面中同時展示的其它商品的影響，即外部性影響。

65、近年來，基于深度學習的拍賣機制顯著增強了對高維上下文特征的編碼能力，但是現有方法仍受限于“先預估后分配”的設計范式。這種范式只能建模參競廣告集合內的外部性，無法捕捉最終分配結果的整頁上下文信息（即排列外部性），因此難以收斂到全局最優解。本文系統分析了在排列外部性影響下的最優拍賣機制，在理論最優解的基礎上，我們提出了首個使用生成式模型建模排列外部性的廣告拍賣機制-生成式拍賣（Contextual Generative Auc-tion,CGA）。該框架通過自回歸模型生成廣告分配結果，并將激勵兼容（Incentive Compatibility,IC）條件量化為最小化事后后悔（ex-post re

66、gret），實現端到端學習最優計費規則。大規模離線實驗和在線 A/B 實驗表明 CGA 能顯著提升平臺收入等關鍵指標，同時有效逼近理論最優拍賣的結果?；谠擁椆ぷ髡淼恼撐囊驯?KDD25 Research Track 接收，歡迎閱讀交流。論文：Contextual Generative Auction with Permutation-level Externalities for Online Advertising作者：Ruitao Zhu,Yangsu Liu,Dagui Chen,Zhenjia Ma,Chufeng Shi,Zhen-zhe Zheng,Jie Zhang,Jian

67、 Xu,Bo Zheng,Fan Wu下載：https:/arxiv.org/abs/2412.1154429|決策智能2.引言在線廣告系統的最優拍賣機制旨在最大化平臺期望收入，同時滿足經濟學性質，包括激勵兼容和個體理性（Individual Rationality,IR），并且需要滿足系統在線部署的計算時延要求。IC 條件要求廣告主真實報價最大化其自身效用，IR 條件要求廣告主的效用非負。在典型的點擊計費（Cost-per-Click,CPC）多坑廣告場景下，廣告拍賣機制的效果依賴于對廣告點擊率（CTR）的預估準度。廣泛使用的 GSP 等機制使用精排階段的單點預估 CTR，忽略了頁面展示的其

68、它商品的影響。而實際場景中，用戶瀏覽的頁面包括多個商品，用戶在決策前通常會對不同商品進行比較，因此同時曝光的其它商品會對目標廣告的 CTR 產生影響，稱為“外部性”1?；谏疃葘W習的拍賣機制，如 Deep Neural Auction（DNA 2）和 Score Weighted VCG（SW-VCG 3）等工作考慮使用深度網絡刻畫外部性影響以提升平臺收入。然而無論是 DNA 采用的先預估廣告 rankscore 再進行排序，還是 SW-VCG 使用的先預估單調性分數再求解二部圖最大匹配，這些方法本質上都受到“先預估后分配”（allocation-after-prediction）范式的局限，

69、預估時的上下文信息與分配后的最終上下文信息不一致，因此模型只能捕捉到粗粒度的廣告候選集層面的外部性。另一方面，Neural Multi-slot Auction（NMA 4）等機制采用類似 VCG 拍賣的方式，遍歷所有可能的排列結果以求解最優分配，但是極高的計算復雜度使其難以應用于在線場景。根據 Myerson 拍賣理論 5，拍賣機制的 IC 條件要求廣告主獲得的期望價值關于其出價滿足非遞減關系。大多數現有方法通過保證排序公式中出價的權重為正，使得廣告主提高出價能獲得相同或更前置的廣告位。但是在排列外部性的影響下，即使廣告候選集保持不變，將廣告分配到的坑位前置反而可能導致其期望價值下降。圖 1

70、給出了不同廣告的分坑位點擊率*曝光率（表示 CPC 機制下的廣告主期望價值）的實驗數據，二者的關系并不滿足單調性。因此，在排列外部性影響下，如何設計滿足激勵兼容條件的分配規則是一個非平凡的問題。30|決策智能圖 1：廣告分坑位點擊率*曝光率本文旨在探索在排列外部性影響下，滿足 IC 和 IR 約束的收入最大化廣告拍賣機制的基本形式和高效實現。我們首先給出系統性的理論分析，證明最優解保留 Myerson 最優拍賣的基本形式，即分配規則和計費規則可以進行解耦。在理論最優解的基礎上，我們引入經典的生成器-評估器（Generator-Evaluator）架構，構建感知排列外部性的生成式拍賣。最

71、后，我們進行工業數據集上的離在線實驗，在多維度指標上對比現有的拍賣機制研究工作。3.問題建模與理論分析在線廣告場景可以抽象成一個典型的多坑拍賣問題。對于每條用戶請求，由個廣告主（可以是手動調整出價或者自動出價代理）對個廣告位進行出價。廣告主根據自身的私有估值提交出價，其中服從價值分布。給定出價向量，用戶特征向量以及所有參競廣告的特征向量，平臺的拍賣機制決定分配方案以及廣告主的計費，其中表示廣告分配到廣告位。廣告拍賣中的外部性指的是競勝廣告主的效用會受到其它競勝廣告的影響 1。對于 CPC 多坑拍賣，外部性影響主要反映在廣告 CTR 上。我們用表示任意感知排列外部性的 CTR

72、模型，廣告的 CTR 可以表示為，可以簡化表示為。在上述排列外部性的拍賣機制建模下，廣告主的期望效用為31|決策智能拍賣機制的激勵兼容（IC）條件要求真實報價最大化其期望效用，個體理性（IR）條件則要求廣告主效用非負。廣告拍賣機制目標為最大化平臺期望收入，且滿足 IC 和 IR 約束。求解收入最大化機制的直觀想法是遵循經典的 Myerson 拍賣，我們將排列外部性引入 Myerson 拍賣，可以寫成如下形式，其中表示經過 iron 操作后的虛擬價值函數（確保函數單調性）：分配規則：計費規則：需要注意的是，由于排列外部性的引入，在最終分配結果中其它廣告的影響下，廣告主提高出價不一定會提

73、高最終的 CTR，因此 Myerson 理論中的“單調分配”性質在排列外部性影響下是否成立需要重新論證。我們理論證明了上述“單調分配”的性質仍然保持，具體表述為如下引理 1，完整證明請參考論文原文附錄 A.1。引理 1:在排列外部性建模下，若拍賣機制的分配規則最大化期望虛擬福利，則對于任意廣告主以及其它廣告主的出價向量，關于出價單調不減，或者稱分配規則為單調的。結合引理 1 和 Myerson 拍賣理論，可以證明上述引入排列外部性的 Myerson 拍賣為滿足 IC、IR 約束且最大化平臺期望收入的最優拍賣機制，完整推導過程請參考論文原文 2.2 節。直接求解上述最優分配結果需要枚舉參

74、競廣告的所有可能排列結果，再進行選優，枚舉過程的計算復雜度為，線上場景下,，枚舉過程的高復雜度無法滿足線上推理實驗要求。因此我們考慮將拍賣機制進行參數化，通過數據驅動的方式進行學習。為了在端到端學習的過程中滿足 IC 約束并保持優化過程的可微性，類似多物品拍賣的研究工作 RegretNet 6，我們將機制偏離 IC 條件的程度量化為每個廣告主的 ex-post regret，即廣告主通過虛報出價可以獲得的最大效用增加值：32|決策智能給定價值分布中的條采樣，則廣告主的經驗 ex-post regret 為拍賣機制設計問題可以進一步改寫成如下約束優化問題：4.生成式拍賣前文提到，現有的基

75、于深度學習的拍賣機制受限于“先預估后分配”的設計范式，無法感知排列級外部性。我們提出的生成式拍賣引入了生成器-評估器的基本架構，模型整體架構如圖 2 所示。生成器采用自回歸模型，逐坑位感知已經決策完成的序列信息，生成廣告序列。評估器捕捉廣告序列中的商品相互影響，對精排階段的單點 pCTR 結合序列上下文信息進行校準，在訓練時為生成器提供獎勵信號。在線推理時，僅部署生成器，以保證線上推理時延。此外，我們構建了 PaymentNet 模塊，通過優化 ex-post regret 學習最優計費規則。圖 2：感知排列外部性的生成式拍賣整體框架4.1 生成器根據理論推導的最優分配形式，生成器的目標為根據

76、個參競廣告，生成長度為的廣告序列，以最大化期望虛擬福利。我們構建的生成器包括兩部分：滿足排列33|決策智能不變性（permutation-invariant）的集合編碼器，以及滿足排列同變性（permuta-tion-equivariant）的自回歸解碼器。排列不變性指的是改變模型輸入元素的排列順序不會改變模型輸出的結果，排列同變性指的是輸入元素的排列順序改變會引起輸出結果的排列順序產生相同的改變。前者保證輸入模型的參競廣告順序不影響分配結果，后者在自動機制設計 7-9 的研究工作中廣泛應用，10 進一步論證了排列同變性可以提升機制的泛化性。集合編碼器旨在通過建模參競集合粒度的外部性來增強

77、每個廣告的表征。編碼器首先通過 self-attention layer 編碼廣告 embedding 序列：再經過 sum-pooling 層和 MLP 層得到集合粒度上下文編碼：解碼器使用自回歸模型建模長度為的廣告序列的聯合概率分布：我們使用 GRU 單元建模參競廣告在坑位的條件概率：，第個 GRU 單元迭代式地定義為：進一步，每個參競廣告在坑位的分配概率建模為：其中為可學習的參數，始終非負，確保更高的虛擬價值獲得更大的分配概率，與最大化虛擬福利的目標保持一致。我們接下來對在坑位之前分配的廣告進行 mask 操作，并基于概率進行采樣以決策分配到當前坑位的廣告。重復次

78、采樣過程，得到長度為的廣告序列即為最終分配結果。注意到生成器中的 MLP 和 GRU 單元作用在每個 state-ad 對，且編碼器滿足排列不變性，因此解碼器滿足排列同變性。34|決策智能4.2 評估器評估器的目標為預估分配結果中每個廣告的 CTR，進一步在訓練過程中為生成器提供獎勵信號。為了復用精排階段從用戶行為序列中提取的用戶興趣信息，避免冗余建模，評估器在精排單點 pCTR 的基礎上，預估排列外部性校準向量，再將二者進行逐元素相乘得到最終預估的 CTR：。模型結構上同時引入了雙向 LSTM 和 self-attention 模塊提取序列上下文信息，最終將聚合用戶 embedding

79、后的表征送入 MLP 層得到外部性校準向量：，具體實現細節請參考論文原文。4.3 計費模塊注意到第 2 節中理論推導的最優計費規則包括積分項通過蒙特卡洛采樣近似計算積分時，每次采樣都需要調用生成器和評估器，在實時推理時的計算開銷過大。在前文中，我們將 IC 條件改寫為每個廣告主的經驗 ex-post regret 等于 0，這使得我們可以通過數據驅動的方式構建計費模塊學習上述最優計費規則。計費模塊輸入包括廣告分配序列的表征，出價矩陣，以及期望價值向量，其中表示生成器輸出的廣告分配概率，表示評估器輸出的外部性校準后的 CTR。為了滿足 IR 條件，計費模型通過 sigmoid 激活函數輸出計

80、費比，再與出價相乘得到最終計費。4.4 訓練流程根據第 2 節中推導的結論，最優分配最大化虛擬福利，與計費規則無關，因此我們在訓練時將基于生成器-評估器架構的分配求解模塊與計費模塊的優化進行解耦。我們首先使用列表級的廣告點擊數據訓練評估器，交叉熵損失函數定義為：35|決策智能其中表示用戶是否點擊列表中的第個廣告，表示評估器的外部性校準后的預估 CTR。在評估器訓練收斂后，我們凍結其參數，指導生成器訓練。類似推薦系統重排工作 GRN 11 的損失函數設計思路，我們將獎勵函數拆解為兩部分。Self-Reward 直接刻畫每個分配的廣告帶來的虛擬福利增量，即；External-Reward 刻

81、畫每個分配的廣告帶來的外部性影響，即類似 VCG 拍賣中的邊際貢獻的概念。二者相加即可得到分配廣告的整體獎勵函數：其中表示排除廣告后的廣告序列。最后，我們使用 Policy Gradient 定義生成器的損失函數為：在生成器-評估器架構訓練收斂后，我們凍結其參數，使用增廣拉格朗日方法求解第 2 節最后定義的約束優化問題以優化計費模塊，對違反 IC 條件施加懲罰項，增廣拉格朗日函數定義為：計費模塊的優化過程包括以下兩個過程的迭代：（1）更新計費模塊的參數（2）更新拉格朗日乘子 5.實驗我們在淘寶展示廣告場景的真實數據集上以及線上環境中評估生成式拍賣的有效性。對比的基線方法按照外部性建模的粒

82、度可以分為三類：36|決策智能無外部性建模：GSP 廣義二價拍賣。集合粒度外部性建模：DNA 2；SW-VCG 3。排列級外部性建模：基于枚舉實現的 VCG 拍賣；EdgeNet 12；理論推導的最優拍賣機制。5.1 離線實驗離線實驗使用的訓練集和測試集分別包括不同日期隨機采樣的 50 萬條和 10 萬條拍賣日志，每次拍賣約有 30 個廣告參競。我們考慮廣告主出價的條件分布分別服從均勻分布（uniform）和指數分布（exponential），在兩種條件下分別進行評估。評估指標包括平臺收入指標 RPM（Revenue Per Mille），CTR 以及評估機制 IC 條件的指標，衡量廣告主通

83、過非真實出價能夠獲得的效用相對增量。實驗結果如表 1 所示?？梢杂^察到隨著外部性建模從不考慮外部性到集合粒度外部性，再到排列級外部性，三個指標均趨向更優。此外，注意到與基于枚舉法實現的理論最優上界相比，生成式拍賣（CGA）達到了 95%的平臺收入以及極低的值，表明生成式拍賣可以高效近似理論最優機制。表 1：離線對比實驗。指標后的百分比增減量表示基線方法相比 CGA 的相對值5.2 在線實驗我們在展示廣告場景進行了線上 A/B 實驗，基線為線上使用的 DNA 2 機制。實驗結果表明，生成式拍賣在推理時延僅增加 1.6%的情況下，平臺收入指標 RPM 提高了 37|決策智能3.2%，CTR 提升

84、 1.4%，成交 GMV 提升 6.4%，廣告主 ROI 提升 3.5%。實驗結果表明生成式拍賣帶來的收入提升不是由于直接抬高廣告主計費，而是通過感知排列級外部性優化廣告分配，實現更精準的廣告觸達，反映于 CTR、GMV 以及廣告主 ROI 的提升。6.總結本文從廣告拍賣機制中的排列級外部性影響出發，打破“先預估后分配”的設計范式，針對在線廣告場景提出了感知排列外部性的生成式拍賣。我們的理論結果表明，經典的 Myerson 拍賣在遷移到排列級外部性的形式后，仍然保持其最優性?；谶@一結論，我們設計的生成式拍賣架構將分配和計費模塊解耦。在具體實現上，我們構建了基于生成器-評估器的自回歸生成式結構

85、來優化分配，并將 IC 約束量化為最小化期望事后后悔來學習最優支付規則。工業級場景的離在線實驗驗證了生成式拍賣的有效性。值得注意的是，我們提出的生成式拍賣框架并不局限于特定的生成式模型。我們未來的研究工作將探索引入更加高效的生成式架構，并在拍賣機制中統一分配來自多渠道的商品，例如自然結果與廣告的融合混排。參考文獻1 Arpita Ghosh and Mohammad Mahdian.Externalities in online advertising.WWW08.2 Xiangyu Liu,Chuan Yu,Zhilin Zhang,Zhenzhe Zheng,Yu Rong,Hongtao

86、 Lv,Da Huo,Yiqing Wang,Dagui Chen,Jian Xu,Fan Wu,Guihai Chen,and Xiaoqiang Zhu.Neural auction:End-to-end learning of auction mechanisms for e-commerce advertising.KDD21.3 Ningyuan Li,Yunxuan Ma,Yang Zhao,Zhijian Duan,Yurong Chen,Zhilin Zhang,Jian Xu,Bo Zheng,and Xiaotie Deng.Learning-Based Ad Auctio

87、n Design with Externalities:The Framework and A Matching-Based Approach.KDD23.4 Guogang Liao,Xuejian Li,Ze Wang,Fan Yang,Muzhi Guan,Bingqi Zhu,Yongkang Wang,Xingxing Wang,and Dong Wang.2022.NMA:Neural Multi-slot Auctions with Externalities for Online Advertising.arXiv preprint arXiv:2205.10018(2022)

88、.5 Roger B Myerson.1981.Optimal auction design.Mathematics of operations research 6,1(1981),5873.6 Paul Dtting,Zhe Feng,Harikrishna Narasimhan,David Parkes,and Sai Srivatsa Ravindranath.Optimal auctions through deep learning.ICML19.7 Zhijian Duan,Haoran Sun,Yurong Chen,and Xiaotie Deng.A scalable ne

89、ural network for dsic affine maximizer auction design.NeurIPS24.8 Dmitry Ivanov,Iskander Safiulin,Igor Filippov,and Ksenia Balabaeva.Optimal-er 38|決策智能auctions through attention.NeurIPS22.9 Jad Rahme,Samy Jelassi,Joan Bruna,and S Matthew Weinberg.A permutation-equivariant neural network architecture

90、 for auction design.AAAI21.10 Tian Qin,Fengxiang He,Dingfeng Shi,Wenbing Huang,and Dacheng Tao.Benefits of permutation-equivariance in auction mechanisms.NeurIPS22.11 Yufei Feng,Binbin Hu,Yu Gong,Fei Sun,Qingwen Liu,and Wenwu Ou.2021.GRN:Generative Rerank Network for Context-wise Recommendation.arXi

91、v preprint arXiv:2104.00860(2021).12 Guangyuan Shen,Shengjie Sun,Dehong Gao,Duanxiao Song,Libin Yang,Zhen Wang,Yongping Shi,and Wei Ning.EdgeNet:Encoder-decoder generative Network for Auction Design in E-commerce Online Advertising.CIKM23.39|決策智能強化學習在廣告自動出價場景的大規模落地實踐妙臨、霽光、璽羽導讀：本文整理自 RL-China 演講分享實錄

92、，歡迎閱讀交流。1.前言在線廣告對于大多數同學來說是一個既熟悉又陌生的技術領域。搜廣推、搜推廣等各種組合耳熟能詳，但廣告和搜索推薦有本質區別：廣告解決的是“媒體-廣告平臺-廣告主”等多方優化問題，其中媒體在保證用戶體驗的前提下實現商業化收入，廣告主的訴求是通過出價盡可能優化營銷目標，廣告平臺則在滿足這兩方需求的基礎上促進廣告生態的長期繁榮。廣告智能決策技術在這之中起到了關鍵性的作用，如圖 1 所示，它需要解決如下問題在內的一系列智能決策問題：1.為廣告主設計并實現自動出價策略，提升廣告投放效果；2.為媒體設計智能拍賣機制來保證廣告生態系統的繁榮和健康。圖 1：廣告智能決策通過自動出價和拍賣機制

93、等方式實現多方優化40|決策智能隨著智能化營銷產品和機器學習的發展，阿里媽媽將深度學習和強化學習等 AI 技術越來越多地應用到廣告智能決策領域，如 RL-based Bidding（基于強化學習的出價）幫助廣告主顯著提升廣告營銷效果，Learning-based Auction Design（基于學習的拍賣機制設計）使得多方利益的統籌優化更加高效。我們追根溯源，結合技術浪潮發展的視角重新審視廣告智能決策技術的演化過程，本文將以阿里媽媽廣告智能決策技術的演進為例，分享我們工作和思考。也希望能以此來拋磚引玉，和大家一塊探討。2.持續突破的自動出價決策技術廣告平臺吸引廣告主持續投放的核心在于給他們帶

94、來更大的投放價值，典型的例子就是自動化的出價產品一經推出便深受廣告主的喜愛并持續的投入預算。在電商場景下，我們不斷地探索流量的多元化價值，設計更能貼近營銷本質的自動出價產品，廣告主只需要簡單的設置就能清晰的表達營銷訴求。圖 2：出價產品逐步的智能化&自動化，廣告主只需要簡單的設置即可清晰的表達出營銷訴求極簡產品背后則是強大的自動出價策略支撐，其基于海量數據自動學習好的廣告投放模式，以提升給定流量價值下的優化能力?？紤]到廣告優化目標、預算和成本約束，自動出價可以統一表示為帶約束的競價優化問題。其中為廣告主的預算，為成本約束，該問題就是要對所有參競的流量進行報價，以最大化競得流量上的價值總和。如

95、果已經提前知道要參競流量集合的全部信41|決策智能息，包括能夠觸達的每條流量的價值和成本等，那么可以通過線性規劃（LP）方法來求得最優解。然而在線廣告環境的動態變化以及每天到訪用戶的隨機性，競爭流量集合很難被準確的預測出來。因此常規方法并不完全適用，需要構建能夠適應動態環境的自動出價算法。對競價環境做一定的假設（比如拍賣機制為單坑下的 GSP，且流量競得價格已知），通過拉格朗日變換構造最優出價公式，將原問題轉化為最優出價參數的尋優問題9：對于每一條到來的流量按照此公式進行出價，其中為在線流量競價時可獲得的流量信息，為要求解的參數。而參數并不能一成不變，需要根據環境的動態變化不斷調整。參競

96、流量的分布會隨時間發生變化，廣告主也會根據自己的經營情況調整營銷設置，前序的投放效果會影響到后續的投放策略。因此，出價參數的求解本質上是動態環境下的序列決策問題。2.1 主線：從跟隨到引領，邁向更強的序列決策技術如何研發更先進的算法提升決策能力是自動出價策略發展的主線，我們參考了業界大量公開的正式文獻，并結合阿里媽媽自身的技術發展，勾勒出自動出價策略的發展演進脈絡。圖 3：自動出價策略的演進主線：邁向更強的決策能力42|決策智能整體可以劃分為 4 個階段：第一代：經典控制類把效果最大化的優化問題間接轉化為預算消耗的控制問題?；跇I務數據計算消耗曲線，控制預算盡可能按照設定的曲線來消耗。PID

97、1及相關改進210是這一階段常用的控制算法。當競價流量價值分布穩定的情況下，這類算法能基本滿足業務上線之初的效果優化。第二代：規劃求解類相比于第一代，規劃求解類（LP）算法直接面向目標最大化優問題來進行求解?？苫谇耙惶斓膮⒏偭髁縼眍A測當前未來流量集合，從而求解出價參數。自動出價問題根據當前已投放的數據變成新的子問題，因此可多次持續的用該方法進行求解，即 Online LP34。這類方法依賴對未來參競流量的精準預估，因此在實際場景落地時需要在未來流量的質和量的預測上做較多的工作。第三代：強化學習類現實環境中在線競價環境是非常復雜且動態變化的，未來的流量集合也是難以精準預測的，要統籌整個預算

98、周期投放才能最大化效果。作為典型的序列決策問題，第三階段用強化學習類方法來優化自動出價策略。其迭代過程從早期的經典強化學習方法落地5689，到進一步基于 Offline RL 方法逼近在線真實環境的數據分布9，再到末期貼近問題本質基于 Online RL 方法實現和真實競價環境的交互學習13。第四代：生成模型類以 ChatGPT 為代表的生成式大模型以洶涌澎湃之勢到來，在多個領域都表現出令人驚艷的效果。新的技術理念和技術范式可能會給自動出價算法帶來革命性的升級。阿里媽媽技術團隊提前布局，以智能營銷決策大模型 AIGA（AI Generated Action）為核心重塑了廣告智能營銷的技術體系

99、，并衍生出以AIGB（AI Generated Bidding）14為代表的自動出價策略。為了讓大家有更好的理解，我們以阿里媽媽的實踐為基礎，重點講述下強化學習在工業界的落地以及對生成式模型的探索。43|決策智能2.1.1 強化學習在自動出價場景的大規模應用實踐跟隨：不斷學習、曲折摸索作為典型的序列決策問題，使用強化學習（RL）是很容易想到的事情，但其在工業界的落地之路卻是充滿曲折和艱辛的。最初學術界8做了一些探索，在請求粒度進行建模，基于 Model-based RL 方法訓練出價智能體（Agent），并在請求維度進行決策。如競得該 PV，競價系統返回該請求的價值，否則返回 0，同時轉移到

100、下一個狀態。這種建模方法應用到工業界遇到了很多挑戰，主要原因在于工業界參競流量巨大，請求粒度的建模所需的存儲空間巨大；轉化信息的稀疏性以及延遲反饋等問題也給狀態構造和 Reward 設計帶來很大的挑戰。為使得 RL 方法能夠真正落地，需要解決這幾個問題：MDP 是什么？由于用戶到來的隨機性，參競的流量之間其實并不存在明顯的馬爾可夫轉移特性，那么狀態轉移是什么呢？讓我們再審視下出價公式，其包含兩部分：流量價值和出價參數。其中流量價值來自于請求粒度，出價參數為對當前流量的出價激進程度，而激進程度是根據廣告主當前的投放狀態來決定的。一種可行的設計是將廣告的投放信息按照時間段進行聚合組成狀態，上一時刻

101、的投放策略會影響到廣告主的投放效果，并構成新一時刻的狀態信息，因此按照時間段聚合的廣告主投放信息存在馬爾可夫轉移特性。而且這種設計還可以把問題變成固定步長的出價參數決策，給實際場景中需要做的日志回流、Reward 收集、狀態計算等提供了時間空間。典型的工作5678912 基本上都是采用了這樣的設計理念。Reward 如何設計？Reward 設計是 RL 的靈魂。出價策略的 Reward 設計需要讓策略學習如何對數億計流量出價，以最大化競得流量下的價值總和。如果 Reward只是價值總和的話，就容易使得策略盲目追求好流量，預算早早花光或者成本超限，因此還需要引導策略在約束下追求更有性價比的流量。

102、另外，自動出價是終點反饋，即直到投放周期結束才能計算出完整的投放效果；且轉化等信號不僅稀疏，還存在較長時間的回收延遲。因此我們需要精巧設計 Reward 讓其能夠指導每一次的決策動作。實踐下來建立決策動作和最終結果的關系至關重要，比如9在模擬環境中保持當前的最優參數，并一直持續到終點，從而獲取到最終的效果，以此來為決策動作設置較為精準的 Reward。另外，在實際業務中，為了能夠幫助模型更好的收斂，往往也會把業務經驗融入到 Reward 設計中。如何訓練？強化學習本質是一個 Trail-and-Error 的算法，需要和環境進行交互44|決策智能收集到當前策略的反饋，并不斷探索新的決策空間進一

103、步更新迭代策略。但在工業界，由于廣告主投放周期的設置，一個完整的交互過程在現實時間刻度上通常為一天。經典的 RL 算法要訓練好一般要經歷上萬次的交互過程，這在現實系統中很難接受。在實踐中，通常構造一個模擬競價環境用于 RL 模型的訓練，這樣就擺脫現實時空的約束提升模型訓練效率。當然在線競價環境非常復雜，如何在訓練效率和訓練效果之間平衡是構造模擬環境中需要著重考慮的事情。這種訓練模式，也一般稱之為 Simulation RL-based Bidding（簡稱 SRLB），其流程如下圖所示：圖 4：Simulation RL-based Bidding（SRLB）訓練模式基于 SRLB 訓練模式，

104、我們實現了強化學習類算法在工業界場景的大規模落地。根據我們的調研，在搜廣推領域，RL 的大規模落地應用較為少見。創新：立足業務、推陳出新隨著出價策略不斷的升級迭代，“模擬環境和在線環境的差異”逐漸成為了效果進一步提升的約束。為了方便構造，模擬環境一般采用單坑 GSP 來進行分配和扣費且假設每條流量有固定的獲勝價格（Winning Price）。但這種假設過于簡單，尤其是當廣告展現的樣式越來越豐富，廣告的坑位的個數和位置都在動態變化，且Learning-based 拍賣機制也越來約復雜，使得模擬環境和在線實際環境差異越來越大?；?Simulation RL-based Bidding 模式訓練

105、的模型在線上應用過程中會因環境變化而偏離最優策略，導致線上效果受到損失。模擬環境也可以跟隨線上環境不斷升級，但這種方式成本較高難度也大。因此，我們期待能夠找到一種不依賴模擬環45|決策智能境，能夠對標在線真實環境學習的模式，以使得訓練出來的 Bidding 模型能夠感知到真實競價環境從而提升出價效果。結合業務需求并參考了 RL 領域的發展，我們先后調研了模仿學習、Batch RL、Offline RL 等優化方案，并提出的如下的 Offline RL-based Bidding 迭代范式，期望能夠以盡可能小的代價的逼近線上真實的樣本分布。圖 5：Offline RL-based Bidding

106、訓練模式，與 SRLB 模式差異主要在訓練數據來源和訓練方式在這個范式下，直接基于線上決策過程的日志，擬合 reward 與出價動作之間的相關性，從而避免模擬樣本產生的分布偏差。盡管使用真實決策樣本訓練模型更加合理，但在實踐中往往容易產生策略坍塌現象。核心原因就是線上樣本不能做到充分探索，對樣本空間外的動作價值無法正確估計，在貝爾曼方程迭代下不斷的高估。對于這一問題，我們可以假設一個動作所對應的數據密度越大，支撐越強，則預估越準確度越大，反之則越小?；谶@一假設，參考 CQL21的思想，構建一種考慮數據支撐度的 RL 模型，利用數據密度對價值網絡估值進行懲罰。這一方法可以顯著改善動作高估問題

107、，有效解決 OOD 問題導致的策略坍塌，從而使得 Offline RL-based 能夠部署到線上并取得顯著的效果提升。后續我們又對這個方法做了改進，借鑒了 IQL22（Implicit Q learning）中的 In-sample learning 思路，引入期望分位數回歸，基于已有的數據集來估計價值網絡，相比于 CQL，能提升模型訓練和效果提升的穩定性。46|決策智能圖 6：從 CQL 到 IQL，Offline RL-based Bidding 中訓練算法的迭代總結下來，在這一階段我們基于業務中遇到的實際問題，并充分借鑒業界思路，推陳出新。Offline RL-based Biddin

108、g 通過真實的決策數據訓練出價策略，比基于模擬環境訓練模式（SRLB）能夠更好的逼近線上真實環境的數據分布。突破：破解難題、劍走偏鋒讓我們再重新審視 RL-based Bidding 迭代歷程，該問題理想情況可以通過與線上真實環境進行交互并學習的方式求解，但廣告投放系統交互成本較高，與線上環境交互所需要的漫長訓練時間成本和在線上探索過程中可能需要遭受的效果損失成本，讓我們在早期選擇了 Simulation RL-based Bidding 范式，隨后為解決這種范式下存在的環境不一致的問題，引入了 Offline RL-based Bidding 范式。圖 7：重新審視 RL-based Bid

109、ding 發展脈絡47|決策智能為了能夠進一步突破效果優化的天花板，我們需要找到一種新的 Bidding 模型訓練范式：能夠不斷的和線上進行交互探索新的決策空間且盡可能減少因探索帶來的效果損失。還能夠在融合了多種策略的樣本中進行有效學習。即控制訓練時間成本和效果損失成本下的 Online RL-based Bidding 迭代范式，如下圖所示：圖 8：Online RL-based Bidding 訓練模式，與前兩種模式的差別在于能夠和環境進行直接交互學習13提出了可持續在線強化學習（SORL），與在線環境交互的方式訓練自動出價策略，較好解決了環境不一致問題。SORL 框架包含探索和訓練兩部分

110、算法，基于 Q函數的 Lipschitz 光滑特性設計了探索的安全域，并提出了一個安全高效的探索算法用于在線收集數據；另外提出了 V-CQL 算法用于利用收集到的數據進行離線訓練，V-CQL 算法通過優化訓練過程中 Q 函數的形態，減小不同隨機種子下訓練策略表現的方差，從而提高了訓練的穩定性。48|決策智能圖 9：SORL 的訓練模式在這一階段中，不斷思考問題本質，提出可行方案從而使得和在線環境進行交互訓練學習成為可能。2.1.2 引領生成式 Bidding 的新時代（AIGB）ChatGPT 為代表的生成式大模型以洶涌澎湃之勢到來。一方面，新的用戶交互模式會孕育新的商業機會，給自動出價的產品

111、帶來巨大改變；另一方面，新的技術理念和技術范式也會給自動出價策略帶來革命性的升級。我們在思考生成式模型能夠給自動出價策略帶來什么？從技術原理上來看，RL 類方法基于時序差分學習決策動作好壞，在自動出價這種長序列決策場景下會有訓練誤差累積過多的問題。因此，我們提出了一種基于生成式模型構造的出價策略優化方案（AIGB-AI Generative Bidding）14。與強化學習的視角不同，如圖 9 所示，AIGB 直接關聯決策軌跡和回報信息，能夠避免訓練累積，更適合長序列決策場景。圖 10：Generative Bidding 相比 RL-based Bidding 模式能夠避免訓練誤差累積，更適

112、合長序列決策場景49|決策智能從生成式模型的角度來看，我們可以將出價、優化目標和約束等具備相關性的指標視為一個聯合概率分布，從而將出價問題轉化為條件分布生成問題。圖 10 直觀地展示了生成式出價模型的流程：在訓練階段，模型將歷史投放軌跡數據作為訓練樣本，以最大似然估計的方式擬合軌跡數據中的分布特征。這使得模型能夠自動學習出價策略、狀態間轉移概率、優化目標和約束項之間的相關性。在線上推斷階段，生成式模型可以基于約束和優化目標，以符合分布規律的方式輸出出價策略。圖 11：AIGB 的訓練和預測算法AIGB 基于當前的投放狀態信息以及策略生成條件輸出未來的投放策略，相比于以往的 RL 策略輸出單步

113、action，AIGB 可以被理解為在規劃的基礎上進行決策，最大程度地避免分布偏移和策略退化問題，從而更適合長序列決策場景。這一優點有利于在實踐中進一步減小出價間隔，提升策略的快速反饋能力。與此同時，基于規劃的出價策略也具備更好的可解釋性，能夠幫助我們更好地進行離線策略評估，方便專家經驗與模型深度融合。另外，我們也還在進一步探索，是否可以把競價領域知識融入到大模型中并幫助出價決策。從動作判別式決策到軌跡生成式決策，朝著生成式 Bidding 的新時代大踏步邁進！50|決策智能2.2 副線：百花齊放，更全面的出價決策技術圖 12：發展副線：更全面的業務實際場景的特性優化除了更強的決策能力外，在

114、實際場景中還會針對業務特點做更多的優化，這里介紹 4個典型的研究技術點：復雜的競價環境下的最優出價策略出價形式化建模依賴對競價環境的假設，不同的假設下推導出來的出價公式是不同的。以 MaxReturn 計劃為例，出價形式為，其中為一個粗粒度與請求無關的參數，在簡單競價環境下(GSP 單坑下)這種出價形式是理論最優的。而在實際工業界競價環境是非常復雜的：多坑、帶保留價的機制或其他復雜機制，當前的出價策略并非最優。學術界和工業界針對這一問題提出了不少方法，大概分為 2 類：1）對競價環境做進一步的假設（比如多坑）推導出閉式解，并進行求解18；2）基于數據驅動的方法，在基礎價格上結合當前流量的信息

115、（如 Winning Price）等進行微調，比如 Bid Shading 類方法1719。多智能體聯合出價在線廣告本質上是一個多智能體競價系統。通常情況下每一個自動出價智能體求解一個獨立的優化問題，而將其他智能體出價的影響隱式地建模為環境的一部分。這種建模方式忽略了在線廣告的動態博弈，即最終的拍賣結果取決于所有智能體的出價，且任一智能體的策略的改變會影響到其他所有智能體的策略。因此若不做協調，則所有51|決策智能智能體會處于一個無約束狀態，進而降低系統的效率。典型的工作包括71112都是針對線上環境的多智能體問題進行求解，面對線上智能體個數眾多（百萬級），通過廣告主進行聚類等方式，把問題規模

116、降低到可求解的程度。Fairness不同行業的廣告主在廣告投放時面臨的競價環境也是不同的，當前廣泛采用的統一出價策略可能使得不同廣告主的投放效果存在較大的差異，尤其是對小廣告主來說，訓練效果會受到大廣告主的影響，即“Fairness”問題。典型的工作包括16將傳統的統一出價策略拓展為多個能夠感知上下文的策略族，其中每個策略對應一類特定的廣告主聚類。這個方法中首先設計了廣告計劃畫像網絡用于建模動態的廣告投放環境。之后，通過聚類技術將差異化的廣告主分為多個類并為每一類廣告主設計一個特定的具有上下文感知能力的自動出價策略，從而實現為每個廣告主匹配特定的個性化策略。多階段協同出價為平衡行業在線廣告的優

117、化性能和響應時間，在線工業場景經常會采用兩階段級聯架構。在這種架構下，自動出價策略不僅需要在精競階段（第二階段）進行傳統的競拍，還必須在粗競階段（第一階段）參與競爭才能進入精競階段?，F有的工作主要集中在精競階段的拍賣設計和自動出價策略上，而對粗競階段的拍賣機制和自動出價策略研究還不夠充分，這部分最主要的挑戰在于粗競階段的廣告量級會比精競階段多了近百倍，且自動出價依賴的流量價值預估（如 PCVR）比精競階段準度差，因此如何設計更大規模且能夠應對不確定性預估值下的出價策略是這個方向主要研究的問題，而且還需要研究兩階段下的拍賣機制設計以引導自動出價正確報價。在這個方向上，我們依賴強大的工程基建能力上

118、線了全鏈路自動出價策略，顯著提升了廣告主的投放效果；并設計了適用于兩階段的拍賣機制33。3.結語雄關漫道真如鐵，而今邁步從頭越。歷經阿里媽媽技術同學們堅持不懈的努力，在自動出價決策技術上，從推動經典強化學習類算法在工業界大規模落地，到持續革新提出 Offline RL-based Bidding、Online RL-based Bidding 等適應工業界特點的新算法，再到提出 AIGB 邁入生成式 Bidding 的新時代。一路走來，我們持續推動業界廣告決策智能技術的發展，并秉承開放共贏，把我們的工作以學術化沉淀的方式實現對學術界研究的反哺。希望大家多多交流，共赴星辰大海。52|召回/預估模

119、型【CIKM24】展示廣告預估技術最新突破：基于原生圖文信息的多模態預估模型珞家一、摘要目前，搜索推薦及廣告領域的預估模型主要基于大規模稀疏 ID 特征結合 MLP 構建。然而，ID 特征難以刻畫 item 的內容語義信息，因此業界一直在探索如何引入原生多模態內容信息以提升模型性能。為此，需要思考幾個關鍵問題：1.多模態信息在預估模型中帶來效果提升的關鍵，以及如何設計預訓練任務以獲取多模態表征；2.在基于 ID 體系的預估模型中如何釋放多模態表征的效果。本文將介紹阿里媽媽展示廣告團隊在預估模型與多模態結合方向上的最新突破。我們發現，多模態信息能否大幅提升效果的關鍵在于，其能否通過精準建?！?/p>

120、目標商品”和“用戶歷史行為商品”之間的語義相似度，從而實現相較于 ID 特征更優的行為序列建模。為此，我們首先設計了語義感知的對比學習預訓練 SCL 方法，讓多模態編碼器能夠從多模態原始信息中抽取出其蘊含的電商業務語義信息。隨后，我們提出了SimTier 和 MAKE 算法，利用多模態表征的語義判別能力進行行為序列建模。通過這些技術創新，我們取得了顯著成果精排 CTR 模型的 GAUC 提升超過 1 個百分點，這是近幾年來展示廣告離線效果提升最大的迭代，在目前的高技術水位下顯得尤為可貴。目前，多模態的應用也在粗排等其他模型中全面上線，均取得顯著的線上收益?；谶@一工作的研究論文已被 CIKM

121、2024 會議接收，歡迎閱讀交流。論文：Enhancing Taobao Display Advertising with Multimodal Representations:Challenges,Approaches and Insights召回/預估模型53|召回/預估模型作者：Xiang-Rong Sheng*,Feifan Yang*,Litong Gong*,Biao Wang*,Zhang-ming Chan,Yujing Zhang,Yueyao Cheng,Yong-Nan Zhu,Tiezheng Ge,Han Zhu,Yuning Jiang,Jian Xu,Bo Zhe

122、ng(*Equal contribution)鏈接（點擊閱讀原文）：https:/arxiv.org/pdf/2407.19467二、背景目前，業界的預估模型普遍采用大規模稀疏 ID 特征結合多層感知機（MLP）作為核心架構。ID 特征的優勢在于其高復雜度和強大擬合能力，在數據量較大的情況下往往能夠取得優異的效果 1。然而，ID 特征天然難以刻畫商品的內容語義信息。因此，業界一直在探索將多模態信息引入預估模型的解決方案 2-這些方案通常采取兩階段的建?？蚣?，第一階段進行多模態表征的預訓練，第二階段將這些表征引入預估模型。盡管過去的研究在一定程度上提高了模型在長尾樣本上的預估準度，但尚缺乏能夠大

123、幅提升整體預測效果的方案。在本文中，我們希望探明預估模型與多模態的有效結合方式，為模型迭代提供 ID 體系之外的第二增長曲線。為此，我們需要回顧當前業界預估模型中哪些模塊起到了最重要的作用，并思考如何利用多模態數據來改進這些模塊。預估模型的核心模塊：行為序列建模模塊。在預估模型中，一個（最為）重要的模塊是行為序列建模模塊，其核心在于通過建?！澳繕松唐贰焙汀坝脩魵v史行為商品”之間的相關性，以實現精準個性化推薦（圖 1 以 DIN 為例進行了介紹）；ID 特征做行為序列建模的局限：難以建模商品之間的語義相似度。由于 ID 特征稀疏性和無泛化性的特點，其難以有效建模商品之間語義相似度，例如商品pai

124、rwise 的視覺相似度和文本語義相似度。54|召回/預估模型圖 1.DIN 利用 ID 特征端到端建?！癟arget 商品”和“用戶歷史行為商品”之間基于 ID 協同過濾信息的 pairwise 相似度（用作 attention score），但由于 ID 的稀疏性和無泛化性特點，其難以建模商品之間的視覺及文本語義相似度針對 ID 特征的不足，我們思考是否可以利用多模態信息來實現更好的行為序列建模。直觀上，多模態信息可以更好地建?！澳繕松唐贰焙汀坝脩魵v史行為商品”之間的視覺和文本語義相似度。例如，商品的圖片可以幫助模型判定目標商品與歷史行為商品之間的視覺相似度，從而輔助預測。明確了多模態信息

125、的利用方式后，我們設計了基于原生圖文信息的多模態預估模型建?？蚣埽ㄈ鐖D 2 所示），核心解決了以下兩個問題：如何設計預訓練任務，使多模態表征具備度量商品之間語義相似度的能力；如何有效應用多模態表征的語義相似度度量能力提升序列建模能力。圖 2.基于原生圖文信息的多模態預估模型建?？蚣茚槍Χ嗄B表征預訓練，我們提出了語義感知的對比學習方法 SCL（Seman-tic-aware Contrastive Learning）。SCL 的設計 motivation 來源于我們的實驗55|召回/預估模型發現-我們發現多模態預訓練（表征質量）的關鍵不在于選擇哪個基座模型，而在于如何構造預訓練數據，更具體地，

126、如何定義語義相似/不相似的商品對，來使得表征可以刻畫電商場景下不同商品之前的語義相似度。更具體地，我們發現電商場景下用戶的搜索-購買行為鏈可以很好地定義多模態之間的語義相似性。以圖像為例，如果用戶搜索了一張枕頭的圖片，隨后購買了一個枕頭，這一連串的動作表明查詢的圖片和購買商品的圖片在語義上足夠相似，從而滿足了用戶的購買意圖。因此我們使用用戶的搜索-購買行為鏈定義語義相似 pair，通過對比學習讓多模態 encoder 提取多模態中蘊含的電商業務語義信息。在訓練文本編碼器時，我們將用戶搜索查詢的文本與他們最終購買的商品標題配對，作為語義相似對。同樣地，對于圖像模態，我們將用戶搜索的圖片與后續購買

127、商品的圖像進行配對。這種配對策略自然地捕捉了在電商場景中與用戶最相關的語義相似信息（反映了影響他們購買決策的關鍵因素）。在獲得蘊含電商業務語義的多模態表征后，接下來的問題是如何將這些多模態表征引入基于 ID 體系的預估模型。我們對不同的應用方式進行了實驗，并有兩個有趣的觀察：1.簡化多模態表征的使用方式通?？梢蕴嵘嗄B表征的效果；2.由于泛化能力的不同，基于 ID 的模型和基于多模態的模型在訓練時的epoch 數上存在差異。針對以上的這兩個觀察，我們設計了兩個多模態表征應用算法。首先，我們提出了SimTier 方法，通過構造行為序列與 target 商品的同款相似度分布，簡化模型對語義相似度

128、分布的建模難度。此外，為了解決多模態表征和 ID 特征之間在訓練 epoch上存在的差異，我們引入了多模態知識提?。∕AKE）模塊。MAKE 模塊將與多模態表征相關參數的優化與基于 ID 模型的參數優化分離開來，通過多個 epoch 的訓練，使多模態表征相關參數能夠充分學習。接下來的章節我們會對表征預訓練和表征應用方式做詳細介紹，同時也會介紹實驗分析和線上系統架構。三、SCL：語義感知的對比學習預訓練為了得到能夠度量語義相似度的表征，我們提出了語義感知的對比學習方法 SCL，SCL 的核心想法是在表征空間拉近語義相似樣本對的距離，推遠語義不相似樣本對56|召回/預估模型的距離。為實現這一目標，

129、我們需要定義電商場景下的語義相似（正樣本）和不相似（負樣本）的樣本對。正負樣本的定義直接決定了表征質量-以圖 3 為例，這里展示了三個幾乎相同的枕頭，它們之間存在著細微的差異（圖案和外觀上有微小不同）。如果語義相似/不相似樣本對的定義不夠準確，那么表征將無法捕捉這些細微差別，進而影響后續的序列建模應用。實際上，我們在實驗中發現這些微小差異通常無法被關注整圖語義的預訓練表征刻畫，這也是之前業界使用通用預訓練表征收效甚微的原因。圖 3.圖 A 與圖 B 在圖案上相對圖 C 更一致那么，如何構造這種語義相似的樣本對（pair）呢？如第二章所述，我們發現在電商場景中用戶的搜索-購買行為鏈可以用來定義語

130、義相似商品 pair：以圖像為例：如果用戶搜索了一張枕頭的圖片，隨后購買了一個枕頭，這一連串的動作表明查詢的圖片和購買商品的圖片在語義上足夠相似，從而滿足了用戶的購買意圖。以文本為例：如果用戶搜索“毛絨絨的玩具”，隨后購買了一只標題為“毛絨玩偶”，這表明搜索的文本和購買商品的文本在語義上足夠相似，從而滿足了用戶的購買意圖。因此，在訓練文本 encoder 時，我們將用戶搜索查詢的文本與他們最終購買的商品標題配對，作為語義相似對。同樣地，對于圖像模態，我們將用戶搜索的圖片與后續購買商品的圖像進行配對。我們實驗中發現使用搜索-購買行為鏈作為正樣本效果最佳，而其他一些常見的商品相似度定義指標，例如

131、swing i2i 等，并不適合作為多模態預訓練的 label。原因在于諸如 swing i2i 等指標并不是基于商品 pair 的多模態語義相似性定義，如果用這種 pair 進行訓練，會導致多模態 encoder 的學習偏離預期（退化為 ID 表征），學習不到商品的多模態語義信息。因此定義語義相似的商品對57|召回/預估模型時，需要保證這一相似性能夠歸因于圖像、文本的多模態語義相似性，而不是其他無關因素。構造完正樣本后，接下來的問題是如何構造負樣本。一種直觀的方式是使用同 mini-batch 下的樣本作為負樣本，在實踐中，我們發現對于負樣本，擴大負樣本的數量可以進一步提升效果。為了在訓練過

132、程中增加可用的負樣本數量，我們借鑒 MoCo 的動量更新技術，從更大的 memory bank 中采樣出更多的負樣本。最終的樣本組成如下表所示：模態正樣本（語義相似）pair負樣本圖像MoCo memory bank文本MoCo memory bank構造完正/負樣本 pair 后，我們采用 InfoNCE 作為損失函數進行對比學習。具體來說，給定一個多模態 encoder 提取的搜索 query 表征及其對應的正樣本表征，以及 memory bank 中的一組負樣本表征，InfoNCE 利用點積來度量相似性（所有表征均進行了 L2 歸一化）。如公式 1 所示，當 query 與其指定的正樣

133、本的相似度較高，并且與 memory bank 中的所有其他樣本的相似度較低時，損失值將降低。（1）在公式（1）中，是一個可學習的溫度參數。在實踐中，我們將 memory bank 的大小設置為 196,800。通過 SCL 預訓練獲得的表征能夠為下游預估模型提供區分商品語義相似度的能力。除了上述的預訓練過程，我們在實驗中還發現顯示增加難負樣本對最終的表征質量也有一定幫助。例如對于圖像，我們會額外構造難負樣本，例如用戶被商品圖 A trigger（類 query）后的點擊商品 B 作為難負樣本（具有一定的視覺相似性但又不完全視覺相似的樣本 pair），并取得了進一步的效果提升。58|召回/

134、預估模型四、SimTier&Make：多模態表征用于序列建模4.1 觀察和思考在獲得蘊含電商業務語義的多模態表征后，接下來的問題是如何利用多模態表征的語義判別能力進行序列建模。我們首先回顧當前業界主流的多模態表征應用思路，主要可以分為：(a)聚類(b)相似度(c)原始表征幾種方式：聚類：將多模態 embedding 聚類為 ID，并應用 Target Attention 等序列建模方法；相似度：計算 target item 與行為 item 的相似度，將其作為序列行為的sideinfo 并應用 pooling 等建模方法；原始表征：直接引入原始 embedding，采用和 ID embedd

135、ing 完全一樣的序列建模方式，進行 target attention 等計算。我們對不同的應用方式進行了實驗，并有兩個有趣的觀察：1.觀察 1：簡化多模態表征的使用方式通?？梢蕴嵘嗄B表征的效果。我們發現，直接將多模態原始表征采用和 ID embedding 一樣的復雜應用方式，往往不能帶來最佳的效果。這是因為與多模態表征相關的參數（例如與多模態表征連接的 MLP 的參數），在與 ID embedding 的聯合訓練過程中無法充分學習。相反，那些簡化多模態表征使用的策略，例如將它們轉換為聚類 ID和相似度的方式 3,4，往往可以提供相對更好的效果。2.觀察 2：由于泛化能力的不同，基于 I

136、D 的模型和基于多模態的模型對于訓練所需 epoch 數存在差異。業界基于 ID 的模型通常只訓練一個 epoch，以避免過擬合 1。相反，我們發現完全基于多模態表征（無 ID 特征）的模型由于其良好的泛化性，可以進行多個 epoch 的訓練，并且隨著訓練 epoch 數的增加，其性能顯著提升（詳見圖 4）。59|召回/預估模型圖 4.多模態預估模型（只以多模態表征為輸入，無 ID 特征）訓練多個 epoch 后測試 GAUC 持續上漲，而 ID 預估模型在訓練的第二個 epoch 測試 GAUC 會有急劇下滑（One-Epoch 現象）針對以上的這兩個觀察，我們設計了兩個多模態表征應用算法

137、SimTier 及 MAKE，將分別在 4.2 和 4.3 中進行介紹。圖 5.本文提出的預估模型應用多模態表征方法：SImTier（a）及 MAKE（b）4.2 SimTier：構造語義相似度分布4.1 章的觀察 1 啟發了我們要簡化多模態表征的使用方式。為此，我們提出了SimTier 方法，通過構造 target 商品與行為序列的語義相似度分布，簡化模型序列建模的難度。如圖 6（a）所示，SimTier 首先計算 Target 商品與用戶歷史行為商品的多模態相似度（L 為序列長度），在得到相似度分數之后，我們的想法是將相似度分數離散化后分檔，并統計每個檔位行為個數，以此來表示 targe

138、t 商品與歷史行為商品的相似度分布。具體地，我們先將60|召回/預估模型相似度的值域-1.0,1.0 平均劃分為 N 個層級。在每個層級中，我們計算其對應范圍內的相似度分數的數量。由此，我們將 L 個相似度分數轉換為了得到一個 N 維向量，每個維度代表該對應層級中的相似度分數的數量。通過這樣方式，SimTier 有效地將一組高維的多模態表征轉換為一個低維（N 維）向量，該向量刻畫了 Target商品與用戶歷史行為商品之間的相似度分布。SimTier 得到的 N 維向量會與其他ID embedding 拼接，并輸入到隨后的 MLP 中。圖 6 給出了 SimTier 向量計算的偽代碼。4.3 M

139、AKE：解耦多模態表征和 ID 特征的優化過程為了解決 4.1 章觀察 2 中多模態表征和 ID 特征之間在訓練 epoch 上存在的差異，我們引入了多模態知識提?。∕AKE）模塊。MAKE 模塊將與多模態表征相關參數的優化與其他參數優化分離開來，通過多個 epoch 的訓練，使多模態表征相關參數能夠更有效地學習。如圖 7（a）所示，MAKE 模塊包括兩個步驟：1）將多模態相關參數通過多個 epoch 訓練充分 2）將預訓練充分的多模態知識引入下游 CTR 等任務。多個 epoch 訓練多模態相關參數MAKE 模塊的目標是通過多輪訓練預訓練多模態表征相關的參數，以確保它們的收斂。實踐中，我們采

140、用點擊率預估任務作為多模態參數的“預訓練”任務（注意到這里的預訓練不同于表征預訓練，是預訓練多模態預估模型，其只以 Target 和序列側多模態表征、為輸入）。如圖 7（a）所示，我們首先構造一個基于 DIN 的用戶行為建模模塊，該模塊只使用多模態特征為輸入，得到輸出 :61|召回/預估模型然后，我們將輸入到一個四層的 MLP（）中，得到 logit 及預估點擊率，通過多輪訓練使其模型參數訓練收斂（表征 fix 不更新）。將預訓練充分的多模態知識引入下游 CTR 等任務在獲取到訓練充分的多模態預估模型后，接下來的步驟是將其引入到下游推薦任務中。在實踐中，我們將、的中間層輸出、logits 拼

141、接，送到預估模型中聯合訓練。通過 MAKE 模塊的多輪訓練，我們有效解決了 ID 特征和多模態表征所需訓練 epoch 的差異，最終帶來了更好的預估效果。我們還對 MAKE 進行了消融實驗，來驗證第一階段 MAKE 多 epoch 預訓練對下游預估模型的正向作用。如圖 7（b）所示，我們將預訓練不同 epoch 后的 MAKE 模塊分別與預估模型結合?？梢杂^察到預估模型效果隨著 MAKE 預訓練 epoch 數量的增多而變好（0 epoch 意味著 MAKE 沒有進行預訓練，而是直接與預估模型端到端訓練）。這說明第一階段的預訓練起到非常關鍵的作用，這一階段為多模態相關的模型參數提供更好的初始化

142、，使得 ID 和多模態表征聯合訓練時效果更優。五、實驗分析在本節中，我們以圖像表征在點擊率（CTR）預估模型的應用為實驗 setting，在此基礎上進行實驗分析。5.1 預訓練任務對比我們將 SCL 與其他一系列廣泛應用的預訓練方法進行了對比。CLIP-O：基于通用數據集預訓練的 CLIP 模型；62|召回/預估模型 CLIP-E：在電商場景中基于 CLIP-O 模型進行微調的版本，使用對齊的商品描述和商品圖片；SCL：本文提出的語義感知的對比學習方法。對于預訓練方法的評估，我們主要采用準確率 Acc（多模態檢索匹配語義相似商品能力）及正負差異性指標（衡量測試樣本與正負樣本之間距離的差距）。具

143、體來說，AccN 指標量化了表征識別語義相似商品對的能力。但由于準確率只是評估了正負樣本的相對距離大小，而模型使用時會使用相似度的絕對值，因此我們也會比較正負差異性指標，評估正樣本 pair 與負樣本 pair 之間距離差距。具體來說，正負差異性指標計算邏輯是檢索 top1 相似度與檢索 top10 相似度的差，直觀上正負差異性指標越大，表征區分正負樣本 pair 的能力越強。預訓練指標與預估模型 GAUC 的關系詳見論文 6.2。圖 8.不同預訓練方法的對比各個預訓練方法的效果對比詳見圖 8。從中我們可以得到兩個結論。首先，SCL 預訓練方法優于其他不考慮語義相似性的方法，這顯示了語義感知預

144、訓練的必要性。其次，Momentum Contrast（MoCo）和 Triplet loss（引入 hard negative）等負樣本增強技術可以進一步提升多模態表征的質量，這說明負樣本的選擇對表征質量有很大影響。5.2 預估模型對比我們將 SimTier 和 MAKE 與其他方法進行了對比，包括基于 ID 的生產基線模型（ID-based model）；原始表征應用（vector）方法，即直接引入原始 embedding，進行 target attention 等計算；63|召回/預估模型相似度方法（SimScore）：SimScore 方法可以看作是 Vector 方法的簡化版本。

145、它將每個歷史行為與 Target 的相似度作為輔助信息引入模型。圖 9.不同多模態應用方法的對比實驗結果如圖 9 所示，從中我們可以得到兩個結論，首先 SimTier 和 MAKE 顯著優于其他方法。其次，SimTier 和 MAKE 疊加后可以進一步提升預估效果，相比于基于 ID 的模型，GAUC 提升+1.25%，AUC 提升+0.75%。此外我們也驗證了多模態表征對于長尾商品的幫助，更詳盡的實驗分析見論文 6.3。六、在線部署和效果為了最大化多模態表征的效果，我們需要保障多模態表征在用戶行為序列側和 target商品側的特征覆蓋率。這要求我們構建高效的實時表征產出能力，使得新建商品/廣告

146、能夠迅速請求多模態 encoder 生成表征，供模型訓練和在線預測使用。為此，我們也對系統架構進行了升級，如圖 10 所示，在接收到上游觸發源（新商品/新廣告）的消息后，我們會請求多模態 encoder 模型，實時推理得到商品主圖/廣告創意embedding，并寫入多模態索引表。下游 ODL 訓練任務和在線預估引擎可以從索引中查詢表征進行應用。通過表征實時推理能力的建設，新商品/新廣告從創建到對應表征可以被下游應用的時延降低至秒級，多模態特征覆蓋率提升至 99%以上-這不僅提升了多模態表征的效果，還大大緩解了新廣告的冷啟動問題。64|召回/預估模型圖 10.在線系統架構自 2023 年中期以來

147、，原生圖像、文本表征已經在阿里媽媽展示廣告系統中的粗排、精排和融合模型中全量上線，帶來了顯著的業務收益。例如，在精排 CTR 預估模型中引入圖像表征取得大盤 CTR+3.5%，RPM+1.5%，ROI+2.9%的提升。特別地，對于新廣告（創建時間在最近 24 小時內）提升更加顯著，CTR+6.9%，RPM+3.7%，ROI+7.7%，這也驗證了多模態信息在緩解冷啟動問題上的效果。七、總結和展望多模態內容信息能補充 ID 特征難以刻畫的語義信息，因此一直吸引著業界的廣泛關注。在本文中，我們通過設計語義感知的預訓練 SCL 方法，并結合創新的多模態應用算法 SimTier 及 MAKE，構建了基于

148、原生圖文信息的多模態預估模型。在取得顯著的業務效果的同時，也突破傳統預估模型對 ID 特征過度依賴的問題。對于預估模型 X 多模態方向，未來還有諸多值得繼續探索的方向，包括但不限于1.如何利用多模態表征全面革新傳統序列建模技術，例如多模態結合長序列建模 5；2.如何將多模態表征與大模型世界知識進行結合，突破用戶行為反饋數據的閉環；3.如何將多模態與生成式推薦結合，實現預估模型的 scaling law。未來我們也會在這些方向進行持續探索。References1 Zhao-Yu Zhang,Xiang-Rong Sheng,Yujing Zhang,Biye Jiang,Shuguang Han

149、,Hongbo Deng,and Bo Zheng.Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Models.In CIKM 2022.65|召回/預估模型2 Tiezheng Ge,Liqin Zhao,Guorui Zhou,Keyu Chen,Shuying Liu,Huiming Yi,Zelin Hu,Bochao Liu,Peng Sun,Haoyu Liu,Pengtao Yi,Sui Huang,Zhiqiang Zhang,Xiaoqiang Zhu,Yu Zhang,

150、and Kun Gai.Image Matters:Visually Modeling User Behaviors Using Advanced Model Server.In CIKM 2018.3 Jia-Qi Yang,Chenglei Dai,Dan Ou,Ju Huang,De-Chuan Zhan,Qingwen Liu,Xiaoyi Zeng,and Yang Yang.COURIER:Contrastive User Intention Reconstruction for Large-Scale Pre-Train of Image Features.CoRR abs/23

151、06.05001(2023).4 Anima Singh,Trung Vu,Raghunandan H.Keshavan,Nikhil Mehta,Xinyang Yi,Lichan Hong,Lukasz Heldt,Li Wei,Ed H.Chi,and Maheswaran Sathiamoorthy.2023.Better Generalization with Semantic IDs:A case study in Ranking for Recommendations.CoRR abs/2306.08121(2023).5 Search-based User Interest M

152、odeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction.Qi Pi,Guorui Zhou,Yujing Zhang,Zhe Wang,Lejian Ren,Ying Fan,Xiaoqiang Zhu,Kun Gai.In CIKM 2020.66|召回/預估模型展示廣告多模態召回模型：混合模態專家模型俊廣、卓立、凌潼、青螢1.背景隨著在搜索、推薦、廣告技術上多年的迭代積累，業界逐步形成了召回（匹配）、粗排、精排這一多階段的系統架構。其中，召回作為鏈路的最前端，決定了業務效果的天花板。

153、召回階段的主要目的是從全量廣告庫中高效篩選高質量 top-k 集合給后鏈路進一步打分&排序。近年來，隨著機器學習，尤其是深度學習技術的發展，學術界及工業界已經全面進入到了 model-based 召回算法的研究與應用階段。其中阿里媽媽代表性的工作有：TDM 系列算法 1-3、二向箔索引算法4。在 model-based 的召回模型中，主要基于離散 ID 來描述廣告和用戶，這種方式直接針對最終目標進行優化，具有很高的優化效率，也非常適合個性化推薦的需求。但是，只使用離散 ID 模態進行個性化推薦存在以下幾方面的問題：信息不全：真正給用戶展現的是商品創意、標題等圖、文、視頻模態信息，而非離散 ID

154、。泛化性不強：ID 類特征無泛化性，因此完全基于離散 ID 特征的推薦系統在長尾商品、冷啟廣告等低頻 ID 上存在預估不準的問題。與 ID 模態相反，圖像、文本等內容內容模態泛化性強，對新廣告友好，更接近用戶感知，但是內容模態的個性化能力差，不容易針對廣告召回的目標進行優化。例如在淘寶上可能存在多個商家使用相同的圖片，但是這些店鋪的信譽度有好有差，廣告主的出價有高有低，內容模態都無法將其有效區分開。離散 ID 模態和內容模態在分布、形態、優勢上均存在明顯的差異，在本文中我們將探索在展示廣告的召回模型中如何將 ID 模態和內容模態進行融合，并提出了混合模態專家模型的設計。2.模型召回的形式化目標

155、及檢索方法介紹圖文內容模態主要反映了用戶的興趣偏好，因此我們這里重點介紹在以用戶興趣作為目標的召回模型中引入多模態的方法。用戶興趣召回模型是展示廣告召回的主力通道之一，一方面它保障了召回的結果滿足用戶的興趣和需求，另一方面避免系統陷入數67|召回/預估模型據循環，保障系統的長期健康。在用戶興趣建模中，為用戶從全庫候選集挑選出商品的概率為：其中表示用戶對商品的興趣分，對應的優化目標為：其中表示用戶在全域中的興趣行為（點擊為主，也包括購買、收藏、加購）。推理時的目標是從候選集中找到用戶點擊概率最高的一個子集：為了降低在線 serving 時的推理時間，我們采用了二向箔檢索框架3來減

156、少模型打分量。如下圖所示，在推理時，首先會對 Layer=2 層的所有商品計算興趣分，從中挑選出興趣分較高的商品，然后在 HNSW 層次化圖結構進行擴展，得到 Layer=1 層的候選集，之后繼續對擴展出的商品候選計算興趣分，這個過程迭代進行，直至抵達 Layer=0 層。通過二向箔檢索，我們可以將千萬級別的候選庫打分量降低至萬級別，同時檢索精度依然接近 90%。二向箔檢索框架使得我們可以用相對復雜的模型結構來建模用戶對商品的興趣分，這也是我們后面引入混合模態專家召回模型的重要基礎。68|召回/預估模型二向箔檢索中的 HNSW 層次化圖結構3.混合模型專家模型本節將介紹我們在用戶興趣建

157、模中如何引入多種模態的信息，來提高用戶興趣的建模能力。多模態召回的主要目標是通過引入多種模態的表征，使得模型更好地擬合或反映真實的價值度量函數。這個目標可以進一步分解為三個關鍵問題：模態選擇：對于召回任務，需要明確選擇哪些模態來描述廣告或用戶。哪些模態最適合用于召回的任務？模態表征優化：一旦確定了使用的模態，接下來的問題是如何在給定模態后優化其表征。這涉及到模態表征的訓練和優化策略。模態融合：在獲得不同模態的表征后，需要解決如何融合這些模態以訓練最終的召回模型。這一步是確保不同模態信息有效協同工作的關鍵。3.1 模態選擇在個性化推薦系統中，使用最為廣泛的模態是離散的 ID 模態，例如我們

158、會使用性別、年齡、地理位置等 ID 特征表述用戶，使用商品、店鋪、類目等 ID 特征描述商品。商品側天然地存在一些其他模態的信息，例如商品的文本和圖像，但是用戶側并不存在類似的文本或者圖像。幸運的是，在電商場景下往往存在豐富的用戶行為序列，因此69|召回/預估模型我們可以將用戶行為過的商品的文本或者圖像序列作為用戶側的內容模態特征。在實踐中，我們發現圖像單一模態更適合排序任務，而圖文融合模態則更適合召回任務。這是因為召回需要從全庫商品中進行篩選，全庫商品中存在大量的負樣本（無關樣本），而文本這種粗粒度的特征對這些負樣本的判別性更強。在排序任務中，候選集往往已經是相似的商品，因此圖像這種細粒度的

159、特征的判別性更強。下圖中提供了圖像單一模態的一些 badcase，可以看到圖像模態的表征確實可以檢索出視覺上較為相關的廣告，然而卻忽視了實際的語義（例如藝術體操鞋檢索出的是嬰兒地板鞋和老年人手套，清潔劑檢索出的是蘇籽油、清涼油和食用油，游戲機檢索出的是刻錄機、打印機和遙控器）。與此相比，圖文融合模態能夠更好地彌補這一缺陷，找到的是同一類目下外觀相似的商品。70|召回/預估模型3.2 模態表征優化圖像和文本模態的表征往往需要使用更深的模型結構，優化時需要采樣更多的負樣本，同時訓練完成之后對于參數更新的需求較低；而 ID 模態的表征需要的網絡層數更淺，但是需要根據回流的數據實時更新模型參數?？紤]到

160、這兩種表征的差異，我們采用了分離的訓練方式：首先使用對比學習獲得商品的圖文預訓練表征；然后將這些已經訓練完畢不再更新的商品圖文表征引入到原始的召回模型中，使用標準的Sample Softmax Loss 對召回模型中的 ID 表征進行優化。接下來我們簡要介紹圖文內容模態的表征預訓練方法。我們使用阿里電商行為數據構建了圖文的正樣本對，對圖像和文本分別用 ViT6 和BERT7進行編碼后，輸入融合編碼器得到融合特征，在融合特征上使用了對比學習8進行訓練。同時，我們采用了跨 batch 的負樣本采樣和在線難樣本挖掘策略，力求增加訓練過程中的負樣本的難度，提升商品的同款率和相關性指標。整個訓練的模型架

161、構如下圖所示：71|召回/預估模型3.3 模態融合3.3.1 特征融合離散 ID 模態和圖文模態的表征空間存在較大差異，直接在召回模型中加入圖文表征適配困難。而圖文模態的余弦空間（用戶行為和目標廣告的余弦）和模型目標更加接近，且更容易適配。因此我們將用戶側行為序列圖文特征和廣告側圖文特征逐一計算余弦值，然后對余弦序列進行直方圖統計后再作為召回模型的特征。這種方式減少了內容模態和 ID 模態在特征空間上的差異，降低了特征融合的困難。直接將其用于興趣召回模型，點擊 recall+1.6pt，長尾點擊 recall+2.2pt(recall：用戶點擊正樣本被模型召回為 top-1000 的比例)。然

162、而特征融合依然存在著一些問題：難以分析和監控不同模態的作用。神經網絡是一個相對黑盒的模型，在項目開發初期中，當測試指標不變時，我們很難驗證是某種模態本身沒用，還是因為在特征融合中被其他模態的作用給壓制了。在項目上線后，我們也難以監控隨著模型不斷地訓練，每個模態是否依然正常發揮著作用。沒有顯式建模模態自適應性。一個理想的特征融合模型應該能夠自適應地結合 ID 模態和內容模態特征。例如，對于高熱商品，應該更多地關注 ID 模態特征，而對于長尾冷啟商品，應該更多地關注內容模態特征。然而特征融合的范式下，難以直接驗證模型能否學習到這種自適應性。3.3.2 輸出融合為了更好地分析理解 ID 模態和內容模

163、態在用戶興趣建模中的作用，我們借鑒了集成72|召回/預估模型學習的思想，嘗試在輸出層面進行模態的融合。具體而言，模型中包括純 ID 模態專家輸出的興趣分和純內容模態專家輸出的興趣分，其中和分別表示用戶和商品。最終融合的興趣分是：其中和是可學習的參數，,以及均使用全部數據進行訓練，它們的區別來自于假設空間的差異。在相同的興趣數據訓練集上進行多任務優化后，純 ID 模態專家、純內容模態專家、輸出融合模型的訓練準確率依次為79.3%,48.3%,79.5%，可以看出純 ID 模態專家擬合訓練集的能力遠高于純內容模態專家。純 ID 模態專家的權重，純內容模態專家的權重。說明輸出融合模型最終

164、主要依賴 ID 模態，但是內容模態確實也對最終的結果產生了影響。在測試集上，輸出融合模型相比于特征融合模型，在點擊 recall 上+0.5pt，在長尾點擊 recall 上+3.7pt，長尾廣告的漲幅更加明顯。說明直接在輸出上進行模態融合更能發揮內容模態泛化性強的優勢，反過來其實說明了特征層面的模態融合可能并沒有充分挖掘內容模態的優勢。3.3.3 條件輸出融合進一步地，我們希望能顯式地建模輸出融合模型在不同熱度商品上的模態自適應性。長尾冷啟與高熱商品最顯著的差別是它們的淘內點擊量，因此我們將其作為融合權重的條件輸入，最終融合的興趣分是：其中是對點擊量進行了取 log 然后離散化分桶處理后的

165、結果。下圖給出了訓練得到門控權重和之間的關系曲線，可以看出：對于長尾冷啟商品，也就是減小時，內容模態專家的門控權重增大，ID 模態專家的門控權重減小，因此模型逐漸增加對內容模態的關注。對于高熱商品，也就是增大時，ID 模態專家的門控權重增大，因此73|召回/預估模型模型的輸出更加依賴 ID 模態。門控權重和詳情頁點擊量的關系曲線注意到在淘內點擊量接近于 0 的時候，ID 模態專家相比于內容模態專家依然占據主導地位，原因是 ID 模態中不僅包括 item_id 等非常個性化的特征，也包括類category_id、shop_id 等相對更加泛化的特征，因此在點擊量接近于 0 的商品上

166、的預估依然具有意義。輸出層面的條件融合模型，顯式建模了不同熱度商品上的模態自適應性，相比于輸出融合模型，在點擊 recall 上+1.9pt，在長尾點擊 recall 上+2.2pt。在長尾和非長尾上均有提升，說明模態自適應性對于不同熱度的商品均有意義。我們將最終得到的興趣召回模型稱為混合模態專家模型（Mixture of Multi-Modal Experts,MoMME）。下圖給出了完整的架構圖，其中黃色的部分是 ID 模態專家，綠色的部分是內容模態專家，通過商品點擊量作為門控單元的輸入，對 ID 模態專家和內容模態專家的輸出進行了條件融合，得到用戶興趣分數。74|召回/預估模型4.實驗結

167、果離線指標：各部分對于興趣召回模型的點擊 recall(用戶點擊正樣本被模型召回為 top-1000 的比例)的影響總結如下。引入多模態特征后，我們取得了點擊recall+4.0pt、長尾點擊 recall+8.1pt 的顯著提升。在線指標：整體升級已在展示大盤主要場景全量，累計貢獻展示大盤收入+2.33%/CTR+0.82%。全場景長尾廣告（廣告庫占比較高但消耗占比較低）展現點擊消耗相對漲幅均大于非長尾部分：PV+5.24%。引用1 Han Zhu,Xiang Li,Pengye Zhang,Guozheng Li,Jie He,Han Li,and Kun Gai.Learning tre

168、e-based deep model for recommender systems.In Proceedings of 75|召回/預估模型the 24th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining(2018).10791088.2 Han Zhu,Daqing Chang,Ziru Xu,Pengye Zhang,Xiang Li,Jie He,Han Li,Jian Xu,and Kun Gai.Joint optimization of tree-based index and deep

169、 model for recommender systems.Advances in Neural Information Processing Systems 32(2019).3 Jingwei Zhuo,Ziru Xu,Wei Dai,Han Zhu,Han Li,Jian Xu,and Kun Gai.Learning optimal tree models under beam search.In International Conference on Machine Learning(2020),1165011659.4 Weihao Gao,Xiangjun Fan,Chong

170、Wang,Jiankai Sun,Kai Jia,Wenzhi Xiao,Ruofan Ding,Xingyan Bin,Hui Yang,and Xiaobing Liu.Deep Retrieval:Learning A Retrievable Structure for Large-Scale Recommendations.arXiv preprint arXiv:2007.07203(2020).5 Rihan Chen,Bin Liu,Han Zhu,Yaoxuan Wang,Qi Li,Buting Ma,Qingbo Hua,Jun Jiang,Yunlong Xu,Hongb

171、o Deng,Bo Zheng.Approximate Nearest Neighbor Search under Neural Similarity Metric for Large-Scale Recommendation.CIKM(2022).6 Alexey Dosovitskiy,Lucas Beyer,Alexander Kolesnikov,Dirk Weissenborn,Xiaohua Zhai,Thomas Unterthiner,Mostafa Dehghani,Matthias Minderer,Georg Heigold,Sylvain Gelly,Jakob Usz

172、koreit,Neil Houlsby.An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale.ICLR(2022).7 Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.ACL(2019)8 Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,Ro

173、ss Girshick.2020.Momentum Contrast for Unsupervised Visual Representation Learning.CVPR(2020)76|召回/預估模型【WSDM24】展示廣告預估模型優勢特征應用實踐珞家 1.簡介本文介紹阿里媽媽展示廣告 Rank 團隊對優勢特征的應用實踐。優勢特征是指預估模型在線無法獲取但離線能用于提升模型能力的特征。一種經典的優勢特征使用方法是優勢特征蒸餾（PFD）1,2：PFD 方法使用全部特征（包括優勢特征）來訓練教師模型，然后利用以非優勢特征（離在線均可得的常規特征）為輸入的學生模型蒸餾教師模型能力，并用于在線

174、打分。對于預估模型，我們通常會使用準度和排序能力來作為評價指標，針對優勢特征蒸餾這個問題，我們發現 pointwise 和 listwise 蒸餾損失分別存在一定問題:pointwise 蒸餾損失：雖然 pointwise 損失能很好地保證準度，但其在排序能力上表現要弱于使用 listwise 損失函數進行蒸餾。listwise 蒸餾損失：直接使用 listwise 損失函數進行蒸餾會造成預估不準的問題，這對于依賴準度的廣告系統來說難以接受。一種同時提升準度與排序能力的思路是使用 scale-calibrated ranking loss，例如阿里媽媽的 JRC 3以及 Google 的 RC

175、R 4。本文中，我們針對優勢特征蒸餾問題的特性，設計了 scale-calibrated listwise distillation loss（準度兼容的 listwise 蒸餾損失）CLID：CLID 以 session 粒度進行 listwise 蒸餾，具體來說，我們將學生和教師模型輸出的概率分別進行 session 內的歸一化，得到樣本排在 session top的概率，隨后對學生和教師模型輸出的樣本排在 session top概率對齊，在實現蒸餾教師模型排序能力的同時也在理論上保證了學生模型的準度不被破壞?；谠擁椆ぷ鞯恼撐囊驯?WSDM 2024 接收，歡迎閱讀交流論文：Calib

176、ration-compatible Listwise Distillation of Privileged Features for CTR Prediction作者：Xiaoqiang Gui,Yueyao Cheng,Xiang-Rong Sheng,Yunfeng Zhao,Guoxian Yu,Shuguang Han,Yuning Jiang,Jian Xu,Bo Zheng鏈接：https:/arxiv.org/abs/2312.0872777|召回/預估模型2.背景在預估模型中，存在著一些離線可以獲取在線無法獲取的特征，我們將這一類特征統稱為優勢特征。對于精排 CTR 預估模型來

177、說，目標商品的同頁面曝光的商品列表就屬于優勢特征（context 特征）。離線添加此類特征通常能極大提升模型預估能力，但在線精排模型預測時卻拿不到此類后驗特征。一種經典的優勢特征使用方法是優勢特征蒸餾（PFD）：PFD 方法使用全部特征（包括優勢特征）來訓練一個教師模型，然后將教師模型的知識蒸餾到使用非優勢特征（離在線均可得的常規特征）進行訓練的學生模型上，學生模型進一步用于在線推理。在實際實踐中，PFD 方法通常使用 pointwise 的 LogLoss 作為蒸餾損失。然而我們發現，pointwise 蒸餾損失難以完全學習到教師模型的排序能力。這是因為 pointwise蒸餾損失假設數據獨

178、立同分布，而推薦系統中存在外部性問題，即同一展示頁面上的候選物品點擊率顯著受其周圍其他商品的影響。因此在進行優勢特征蒸餾時，有必要將一個 session 內的商品做為整體進行蒸餾，以此提升學生模型的預估能力。3.方法考慮到時效性要求以及資源需求，我們并沒有先訓練好教師模型再單獨訓練一個學生模型，而是使教師模型和學生模型共享一部分參數，同時流式訓練。以精排點擊率預估任務為例，CLID 方法示意圖如下所示。圖 1 CLID 框架示意圖78|召回/預估模型3.1 模型結構在點擊率預估任務中，我們使用的非優勢特征包括用戶行為序列，用戶畫像，候選物品以及其他特征。此外我們還額外構造了候選商品的同 se

179、ssion 展示商品列表作為其優勢特征。3.1.1 基模塊如上圖所示，我們將學生模型和教師模型共享的這部分參數稱為基模塊(Base Mod-ule)，其包含 embedding 層和用戶行為序列建模模塊。首先我們通過 embedding 層將高維稀疏特征轉化為低維嵌入表示.這些特征包括非優勢特征和優勢特征。個優勢特征被定義為。對于用戶行為特征，我們采用 DIN 作為序列建模模塊。通過拼接所有 embedding，我們可以得到非優勢特征表示向量作為學生模型的輸入：隨后，我們拼接個優勢特征的 embedding 得到優勢特征表示向量：因為優勢特征在訓練時可得而測試時不可得，因此我們將它們添加

180、到教師模型中，教師模型的輸入由非優勢特征表示向量和優勢特征表示向量拼接得到：3.1.2 教師和學生模型給定一個樣本，其 label，和分別表示學生和教師模型的輸入。在訓練過程中，將輸入到教師模型中得到樣本的 logit，然后經過 sigmoid 激活函數得到樣本的 pCTR。對于教師模型，我們采用pointwise LogLoss 作為損失函數：不同于教師模型，學生模型僅使用非優勢特征表示向量作為輸入來得到樣本的 pCTR，這里是學生模型的 logit。學生模型將使用兩個損失進行訓練，一個與教師模型一樣，以為監督信號通過 LogLoss 優化。另一個損失是知識蒸餾損失，用

181、于從教師模型中蒸餾知識。因為教師模型引入了優勢79|召回/預估模型特征，其具有比學生模型更好的預測效果，可以指導學生模型進行學習。學生模型的最終損失構成如下：這里是平衡 LogLoss 和蒸餾損失的超參數。3.2 listwise 優勢特征蒸餾3.2.1 存在的挑戰如上所述，對于學生模型，之前的 PFD 方法使用 pointwise LogLoss 作為蒸餾損失：然而，在推薦系統中，一個物品的點擊率顯著地受同頁面內其他物品的影響。而pointwise 蒸餾損失基于同分布假設獨立地對待每一個物品，并沒有考慮同一展示頁中物品預測分的相對順序信息，這就導致 pointwise 蒸餾損失不足以蒸餾教

182、師模型的排序能力。另一方面，listwise 損失以商品列表為單位進行優化，天然考慮了同一展示頁中物品預測分的相對順序信息。然而，我們實際中發現盡管相較于 pointwise 蒸餾損失直接使用 listwise 損失作為蒸餾損失可以大幅蒸餾教師模型的排序能力，但這種方式使得學生模型輸出的 pCTR 失去了概率意義，出現預估不準的問題。實際生產中，準度對于 CTR 預估模型也尤為重要，因此，我們需要準度兼容的 listwise 蒸餾損失，即在提升模型排序能力的同時保持模型準度。3.2.2 準度兼容的 listwise 蒸餾我們首先形式化定義了蒸餾損失的準度兼容性質并分析了 pointwise L

183、ogLoss 蒸餾損失和常用的 listwise 損失作為蒸餾損失的準度兼容性質，然后我們給出了準度兼容的 listwise 蒸餾損失的設計方案。定義 1.一個蒸餾損失是準度兼容的，如果對于任意候選物品，蒸餾損失在學生和教師模型的 LogLoss 損失實現全局最小的時候也同時實現全局最小?？梢宰C明 pointwise LogLoss 蒸餾損失是準度兼容的。具體來說，對于每個 ses-sion，令表示其中第 i 個樣本的真實點擊率。假設從樣本的80|召回/預估模型真實標簽分布中取個樣本，第個樣本的標記是?？梢酝茖С鰧W生模型和教師模型的 LogLoss 損失分別在和時達到最小，

184、其中在時。因此，教師和學生模型的LogLoss 損失總能夠在的時候同時實現全局最小。對于 LogLoss蒸餾損失，它也在時最小，因此根據定義 1 它滿足準度兼容性質。以常用的 listwise 損失 ListNet 5 為例，可以證明它在作為蒸餾損失的時候不是準度兼容的：這里是包含樣本的 session 中全部商品的數量。根據微分法則，可以知道ListNet 蒸餾損失在如下情況下實現全局最?。嚎梢杂^察到，蒸餾損失在學生和教師模型的 LogLoss 損失都實現全局最小的情況下并沒被最小化(即)，因此不滿足準度兼容的性質。為了使 listwise 蒸餾損失滿足準度兼容性質，我們提出 CL

185、ID 蒸餾損失框架。具體來說，對于蒸餾損失，我們首先將和映射到概率單純形上來構建教師模型預測分布和學生模型預測分布：這些概率編碼了樣本排在商品列表頂部的概率。給定這兩個分布，CLID 使用交叉熵損失懲罰它們之間的差異：根據微分法則，可以得到該蒸餾損失在如下情況下全局最?。?1|召回/預估模型可以觀察到當學生和教師模型的 LogLoss 損失都全局最小的時候，蒸餾損失也是最小的。因此，我們所設計的 CLID listwise 蒸餾損失滿足準度兼容性質，故而能夠在大幅蒸餾教師模型排序能力的同時保持學生模型的準度不被破壞。4.實驗4.1 實驗設置我們使用了兩個經典的 Learning-To

186、-Rank 公開數據集 Web30K 和 Istella-S，以及一個收集自阿里媽媽展示廣告系統的生產數據集用以驗證 CLID 方法的有效性。采用的對比方法如下：Base：該方法將非優勢特征作為輸入并用 LogLoss 損失進行優化。PriDropOut 7:該方法訓練時為優勢特征構建淺層網絡，淺層網絡的 logits與主網絡的 logits 相加來計算 pCTR 用于訓練，訓練時采用 dropout 的方式模擬在線拿不到優勢特征的情況。當在線推理時，淺層網絡被丟棄，由主網絡的 logits 計算 pCTR。PAL 8:該方法也是在訓練時為優勢特征構建淺層網絡，訓練時，通過淺層網絡和主網絡輸出

187、分數相乘的方式計算 pCTR。當在線推理時，也是丟棄淺層網絡，用主網絡的輸出分數作為 pCTR。Base+Pointwise 1,2,9：基于 pointwise 蒸餾損失的 PFD 方法。Base+ListMLE 6：基于 listwise 蒸餾損失的 PFD 方法，采用 ListMLE 損失作為蒸餾損失。Base+ListNet 5：基于 listwise 蒸餾損失的 PFD 方法，采用 ListNet 損失作為蒸餾損失。在公開數據集上，我們采用 NDCG10 作為排序能力的評價指標，ECE 和LogLoss 作為準度的評價指標。在生產數據集上，我們采用 GAUC 作為排序能力的評價指標，

188、LogLoss 作為準度的評價指標。NDCG10（GAUC）值越大代表模型排序能力越好，ECE（LogLoss）值越小代表模型準度越好。82|召回/預估模型4.2 實驗4.2.1 實驗效果圖 2 公開數據集實驗結果圖 3 生產數據集實驗結果以上分別是公開數據集和生產數據集上的實驗效果，從中我們可以看出：（1）基于 listwise 的 PFD 方法在排序能力上一致地比基于 pointwise 的方法表現要好。這一事實證明了 listwise 蒸餾損失能夠考慮推薦數據的非獨立同分布特征，學到教師模型預測分布的相對順序信息。然而 Base+ListMLE 和 Base+ListNet 方法由于不滿

189、足準度兼容性質，破壞了模型的準度。（2）CLID 在所有方法中取得了 ranking 能力同時確保了模型的準度不被破壞。這一觀察證實了 CLID 中設計的 listwise 蒸餾損失的優越性。（3）PFD 方法通過解決訓練-測試不一致問題有效地保持了模型的泛化性。這一結論可由非 PFD 方法（PAL 和 PriDropOut 方法）的不穩定的排序性能提升和破壞的準度來證明。因為這兩個非 PFD 方法的淺層網絡在線上推理時會被丟棄，所以導致了訓練和測試時 pCTR 不一致問題。這個不一致破壞了模型輸出的概率意義，給學生模型造成了巨大的準度下降。通過上述分析，我們證明了 CLID 方法能夠很好地蒸

190、餾教師模型的排序能力，同時保83|召回/預估模型持學生模型的準度。4.2.2 權重分析圖 4 CLID 權重比分析我們在公開數據集上分析了 CLID 的權重比對學生模型排序能力和準度的影響，我們從權重比集合中進行檢驗，圖 4 畫出了 NDCG10 和-LogLoss 指標隨權重比變化的趨勢，權重比越大表示蒸餾損失越主導模型參數優化過程，NDCG10 和-LogLoss 越大證明模型性能越好。我們觀察到模型的準度和排序能力在兩個數據集上都呈現先增加后降低的趨勢。這是因為權重比過大會削弱 LogLoss 損失的貢獻，該損失直接影響準度，因此造成了模型準度下降；另一方面，蒸餾損失權重過大可能使得

191、學生模型從教師模型中學到了一些噪聲，從而造成了次優的排序性能。因此，在實際生產中我們推薦使用一個折中的權重比。5.總結和展望我們針對 PFD 方法常用 pointwise LogLoss 蒸餾損失的不足，提出了準度兼容的listwise 蒸餾框架 CLID。我們理論分析發現，相比于經典的 listwise 損失，CLID 滿足準度兼容性質，因此在蒸餾教師模型排序能力的同時能夠保持學生模型的準度不被破壞，阿里媽媽生產數據集上的實驗結果證明了 CLID 框架的優勢。在實驗中，我們也發現了未來幾個值得探索的方向，首先目前 CLID 的學生和教師模型都分別使用 pointwise loss 學習用戶真

192、實點擊行為，如何在學生和教師模型中引入 ranking loss，并設計準度兼容的蒸餾損失是一個有意思的研究方向，事實上，我們發現可以同時使用 JRC 3提升教師模型自身的排序能力和使用 CLID 提升學生模型蒸餾教師模型排序的能力，二者在效果提升方面不存在重疊。其次，目前的84|召回/預估模型CLID 的蒸餾損失主要基于 RCR 4進行設計（便于理論推導），未來我們會將更多的scale-calibrated ranking loss 融入到 CLID 的框架中。參考文獻1 Xu C,Li Q,Ge J,et al.Privileged features distillation at tao

193、bao recommendations.KDD 2020.2 Yang S,Sanghavi S,Rahmanian H,et al.Toward Understanding Privileged Features Distillation in Learning-to-Rank.NeurIPS.2022.3 Sheng X R,Gao J,Cheng Y,et al.Joint Optimization of Ranking and Calibration with Contextualized Hybrid Model.KDD 2023.4 Bai A,Jagerman R,Qin Z,e

194、t al.Regression Compatible Listwise Objectives for Calibrated Ranking with Binary Relevance.CIKM 2023.5 Cao Z,Qin T,Liu T Y,et al.Learning to rank:from pairwise approach to listwise approach.ICML 2007.6 Xia F,Liu T Y,Wang J,et al.Listwise approach to learning to rank:theory and algorithm.ICML 2008.7

195、 Zhang Y,Yan L,Qin Z,et al.Towards Disentangling Relevance and Bias in Unbiased Learning to Rank.KDD 2023.8 Guo H,Yu J,Liu Q,et al.PAL:a position-bias aware learning framework for CTR prediction in live recommender systems.RecSys 2019.9 Liu C,Li Y,Zhu J,et al.Position Awareness Modeling with Knowled

196、ge Distillation for CTR Prediction.RecSys 2022.85|大規模約束優化【KDD24】合約廣告中的雙目標庫存分配容洵摘要合約廣告（GD）分為兩個不同的階段，即離線售賣階段和在線投放階段。前者進行合約庫存分配，主要考慮庫存利用率的提升從而提升收入；后者則針對合約進行廣告投放展示，考慮履約完成率?，F有的研究通常將這兩個階段分開處理，訂單在離線售賣階段時，并不考慮在線投放階段的實際情況。本文提出一種用于合約廣告的雙目標庫存分配方法，旨在最大化分配給新廣告訂單的展示次數（即庫存分配）提升庫存利用率的同時，優化庫存分配的平衡性以實現履約完成率的提升。由于所提出

197、的問題是高維、多目標和多約束的，我們設計了一種高效的局部搜索算法，該算法交替關注這兩個目標。實驗結果表明，我們的算法優于進化算法和 Gurobi。前者常用于多目標優化中，后者是一個知名有競爭力的商業求解器?；谠擁椆ぷ髡淼恼撐囊驯?KDD 2024 接受，歡迎閱讀交流。論文：Bi-Objective Contract Allocation for Guaranteed Delivery Advertising作者：Yan Li,Yundu Huang,Wuyang Mao,Furong Ye,Xiang He,ZHONGLIN ZU,Shaowei Cai下載：https:/dl.acm.o

198、rg/doi/10.1145/3637528.36717521.背景介紹合約廣告（GD）對于電子商務營銷中的精準投放至關重要，其目的是將廣告投放給滿足特定且可能復雜要求的目標用戶。這些要求涉及用戶的特征，如年齡、性別、所使用的設備、地理位置等。大規模約束優化86|大規模約束優化傳統的合約廣告通?？紤]已簽約訂單需求的情況下估算和分配新訂單的最大可售賣量。在實踐中，常見的方法基于供應和需求節點的容量，尋找能夠最大化新訂單可用售賣量的最優分配。然而，在線投放階段可能因各種潛在問題而無法滿足已簽約的訂單。傳統方法僅考慮新訂單的最大售賣量，可能會因為忽視在線投放中的問題而導致投放不足違約和高額罰款。因此

199、，我們提出了一種新的雙目標廣告庫存分配問題，該問題同時考慮新訂單的最大可用售賣量和投放中的履約完成率。我們在下文中將該問題稱為雙目標 GD 問題。第二個目標，通過平衡已分配展示量的分布提升投中履約完成率。一種常見情況是：投前系統在假設將所有供應節點的展示量都分配給需求訂單的情況下，最大化新訂單的可用展示量。然而，假設的預測是準確的，部分的展示量可能會在在線投放階段被分配給另一個訂單，導致無法滿足訂單。為避免這種情況，我們希望投前系統在確定新訂單的展示量時不要超賣供應節點中的庫存，且盡量平衡的分配減小履約風險。本文核心亮點：1)解決了實際操作中涉及線下投前階段和在線投放階段的合約廣告庫

200、存分配問題，形成了雙目標合約廣告問題；2)提出了交替優化的雙目標局部搜索算法。實驗結果表明，所提出的算法在實際業務場景中優于著名的 MOEAs 和商業工具Gurobi。87|大規模約束優化2.問題建模2.1 訂單廣告庫存分配合約廣告庫存分配可以通過下圖所示的二部圖來說明。在左側，每個供應節點表示一組庫存。供應節點可以通過各種屬性的組合來標記，如城市、性別、用戶等，每個節點可以作為廣告訂單的一組展示。是能夠提供的展示數量。在右側，每個節點表示廣告商訂單中的需求。是所需的展示數量。我們用鄰接矩陣表示供應節點和需求節點之間的連接關系，其中表示供應的庫存可以為需求提供展示，；否則，。我們用

201、表示可用于需求的供應集，即與相連的供應集，。類似地，我們用表示可以提供展示的需求訂單。傳統的合約廣告工作通常致力于最大化可以為新訂單需求分配的展示數量。例如，給定一組現有訂單的需求和一個新訂單需求，常見的目標是最大化可分配給的供應量，同時確?，F有需求訂單的需求。我們在下文中將現有需求訂單集表示為。合約廣告系統通常包含大量的供應和需求，需要在短時間內給出解決方案。通常采用啟發式方法在有限時間內搜索高質量的解決方案。然而，僅僅為了最大化新訂單的庫存分配可能會導致不同供應之間的庫存不平衡，進而在在線服務階段導致潛在的履約88|大規模約束優化風險。為了解決這個問題，我們引入了下列方程（2

202、）目標，該目標旨在平衡不同供應的展示分配。我們希望實現一個分配，使得在總可用供應中的比例與相應供應中的展示分配的比例之間的偏差最小，這有助于保證供應之間的平衡。對于需求，我們希望為分配的展示次數由中的多個供應節點提供，而不是由一個或少數幾個特定節點提供。此外，每個供應節點提供的展示次數應與其容量相關?？傮w而言，給定一組供應，一組現有需求訂單，以及一個新訂單，我們的雙目標 GD 廣告庫存分配問題是找到一個分配，以優化以下兩個目標（我們記為集合，為集合）：雙目標：多約束：其中，方程(1)表示最大化新訂單需求的展示次數（我們通過減法將其表示為最小化問題），方程(2)旨在保持不同供

203、應的庫存平衡，方程(3)表示分配的展示次數不會超過每個供應節點的庫存，方程(4)約束現有訂單的需求必須得到滿足，方程(5)中的表示供應為需求提供的分配次數。請注意，實際上，是預定義的現有需求訂單集合，我們的問題目標是為新需求訂單達到適當的分配。2.2 帕累托解集多目標整數規劃問題可以表述如下：。89|大規模約束優化其中，對于我們提出的問題，目標數，表示搜索空間。我們處理的是最小化問題。我們定義，對于兩個解和，如果在兩個目標上都好于（我們稱支配），記作。則，且。如果并且，則兩個解和是非支配的，記作。一個解是帕累托最優的，如果 _。所有可行非支配解的集合稱為帕累托最優集。帕

204、累托最優集的目標值形成帕累托前沿。多目標優化問題的目標是找出帕累托最優集中的解。然而，由于現實問題的搜索空間通常很復雜，多目標優化的實際方法是搜索一組近似的帕累托最優集的非支配解。3.雙目標局部搜索算法3.1 算法框架我們提出了 BOLS 方法如下所示。由于所解決的 GD 問題是高維度且高度約束的，可行解的搜索空間是稀疏的。實際場景需要在有限的時間內獲得解決方案，即時間要求相對較短。因此，我們在初始化階段執行貪婪策略。在優化循環中，算法分兩個階段進行：尋找可行解（第 3-5 行）和分別改進可行解（第 7-16 行）。第一階段確保為改進階段找到一個可行解。采用 SatisfyingMove 迭代

205、操作，直到解中不存在違反的約束條件。之后，在改進階段，應用 ImproveMove 操作以尋找更好的解決方案。在解決雙目標 GD 問題時，BOLS 交替優化其中一個目標。在實踐中，當步后沒有改進時，它會切換優化另一個目標（第 16 行）。在前述步驟中，BOLS 處理一個解，解決二分圖中排除的問題。當獲得一個可行（且更好）的時，BOLS 將通過為分配展示次數來創建一個完整的分配。并且，我們通過比較新的完整分配（第 11 行）來維護一組帕累托解。當達到終止條件，即耗盡 cutoff_time 時，BOLS 返回帕累托集。90|大規模約束優化3.2 初始化適當的初始化可以提高算法性能并加速

206、收斂。為了獲得一個有效的初始解，盡管它不需要是可行的，我們通過最小化（2）所示的目標來生成它。在實踐中，對于每個和，我們通過分配每個分量來計算的初始化值，同時確保。通過簡單的線性變換，生成的初始解可以證明滿足(4)中的約束。請注意，我們在這一步中排除了，并且的分配將在驗證現有訂單的分配之后進行。3.3 滿足約束階段由于初始解的可行性無法保證，BOLS 首先使用 SatisfyingMove 搜索可行解。SatisfyingMove 通過更新解中的一個或兩個變量的值來創建新解。SatisfyingMove需要調整以滿足(3)的約束，即確保每個供應節點提供的總庫存不超過其可用庫存。請注意，

207、這里已經滿足了(3)中的約束，且尚未考慮新的需求訂單。如 Algorithm 2 所示，SatisfyingMove 旨在減少由供應節點提供的庫存，其中每個 supply 節點提供的庫存超過其庫存容量。該函數首先檢測是否可以通過調整分配給一個需求訂單的庫存來滿足隨機選擇的的違反約束（第 4-7 行）。如果無法滿足違反的約束，則該函數使用多次選擇最佳策略（BMS）調整兩個隨機選擇的需求訂單的相應分配，BMS 從次獨立試驗中選擇最佳操作（第 9-14 行）。在本文中，我91|大規模約束優化們根據先前工作的建議將設置為 100。當調整兩個需求訂單的分配時，我們獲得最佳得分的操作（第 13 行

208、），該得分表示由兩個供應節點提供的庫存的平衡性。評分函數基于操作前后兩個節點使用率之間的差異計算。是已分配給需求的總庫存數，可以看作的使用率。3.3 優化階段為了獲得有效的解決方案來應對（1），（2）兩個目標，我們在算法中應用 Improve-Move 來改進現有訂單的分配，并迭代測試新的完整分配以應對。我們定義：為新需求92|大規模約束優化訂單的總剩余庫存，為每個供應節點為現有訂單提供的庫存量的平衡水平。ImproveMove 通過交替優化和來解決這兩個目標。在比較現有需求訂單的分配和時，我們將和的偏差分別表示為和。我們定義如果，。對于給定的解決方案和當前的非支配解決方

209、案集，ImproveMove 首先通過調優隨機選擇的一個來找到一個新的，其中。是由約束(3),(4)確定的可行域（第 1-7 行）。根據優化模式，我們選擇最小化或的（第 5 行）。如果獲得了，則 ImproveMove 終止（第 7 行）。如果在調優一個的次試驗后未能獲得，則它將在調優兩個的次試驗中進行，直到獲得（第 8-12 行）。在實踐中，它隨機選擇兩個和（第 9 行），并通過更新值（第 11 行），其中是根據相應的模式計算的（第 10 行）。如果，則該試驗失敗。當調優一個和兩個變量都失敗時，ImproveMove 將在調優一個的次試驗中通過進行，其中是根據最小

210、化或的相應模式計算的（第 13-20 行）。函數在獲得時終止并返回（第 19 行）。否則，它通過估算每個，并選擇得分最高的一個，其中表示當前關注目標的進展，表示另一個目標的進展（第 20 行）。93|大規模約束優化3.4 更新解集如 Algorithm 3 所述，在得到一組可行解后，UpdatePareto 會用更新 Pareto 集（第 11 行）。我們依次檢查中的。如果，則將從中刪除。如果對于所有，則將被加入到中。在實踐94|大規模約束優化中，。4.實驗結果4.1 評估指標我們在這里介紹用于算法比較的四個評估指標：(1)表示與其他測試算法相比，該算法得到最優結果的實

211、例數；(2)表示在給定時間限制內獲得可行解的實例數。解決一個實例表示獲得至少一個滿足所有現有需求訂單所需印象的解決方案；(3)是被解集支配的目標空間的體積。給定一個具有目標值的解集，其中是搜索空間的維數，以及一個參考點，其中表示勒貝格測度，表示正交體，其角點分別為和；(4)是評估實際廣告收入的實用度量標準。其中。SR 的定義是使用實際分配數據調整的。95|大規模約束優化4.2 與多目標遺傳算法對比由于進化計算在多目標優化問題中得到了廣泛應用，本節中我們與四種多目標進化算法（MOEAs）：NSGA-II、NSGA-III、U-NSGA-III 和 C-TAEA，進行比較。下表展示了五個數

212、據集上測試算法的，和正則化的結果。為了研究算法在不同截止時間下的性能影響，我們展示了給定截止時間 10s、60s 和 300s的結果。這些觀察結果表明，MOEAs 在獲取相對較小搜索空間的可行解方面具有優勢。與此同時，BOLS 在解決大規模問題方面表現出優越性。此外，通過交替專注于每個目標的策略，結果顯示 BOLS 相對于 MOEAs 能夠在所有數據集上給出更好的解決方案。4.3 與 Gurobi 的求解數量對比我們現在將我們提出的 BOLS 與著名的商業優化工具 Gurobi 進行比較。Gurobi 已成功應用于各種現實世界的場景，并在許多混合整數規劃問題中表現出顯著優勢。雖然 Gurob

213、i 不提供求解帕累托解集的功能，但它可以通過為每個目標值分配權重，將多目標優化問題轉換為單目標問題，從而求解問題。因此，我們通過為和分別分配權重和來測試 Gurobi 對我們提出的雙目標 GD 問題的解決方案。在實踐中，我們使用 Gurobi 解決問題，同時約束條件保持不變。我們測試了 Gurobi 的精確方法（Gurobi-E）和啟發式方法（Gurobi-H）進行比較。下表展示了各方法的和。我們可以觀察到，在給定為時間 10s 時，BOLS 在五個數據集中都優于 Gurobi 的兩種方法。隨著運行時間的增加，Gurobi 96|大規模約束優化在供應節點規模相對較小的數據集中優于

214、BOLS。然而，BOLS 在其余數據集中仍顯著優于 Gurobi。4.4 收益對比如前幾節所述，我們在這項工作中解決了合約廣告系統的雙目標問題，在與其他方法的對比中，而我們提出的 BOLS 顯示出其優勢。在本節中，我們使用銷售收入（SR）指標來評估該工作的實際收益。在本節中，我們僅將 BOLS 與 Gurobi 進行比較，因為 Gurobi 通常應用于商業場景，而 BOLS 顯示出相對于 MOEAs 的顯著優勢。在實踐中，我們使用和的九種設置獲得的最佳結果來計算 Gurobi 方法的 SR，并使用獲得的 Pareto 解集的最佳結果來計算 BOLS 的 SR。下表展示了 60s（商業場景中

215、常用的設置）的結果，這是測試實例中 SR 的總和。結果表明，與 Gurobi 的精確方法和啟發式方法相比，的銷售收入分別提高了 1.4%和 3.7%。對于，這些值分別為 23.5%和 19.5%。由于沒有獲得可行解，和的 Gurobi 值缺失，如下表所示。97|大規模約束優化5.結論本文提出一種新的雙目標庫存分配方法，用于合約廣告的離線售賣階段，這個問題首次考慮了流量供給的均衡分布。該方法可以在實際的在線服務階段更好地分配訂單，避免無法履約。我們提出了一種雙目標局部搜索算法來解決這個問題，實驗結果表明，它相對于多目標進化算法和 Gurobi 有著顯著的優勢，證明了我們的方法在解決這種高維度和

216、高度約束的雙目標整數規劃問題上的優越性。未來，我們計劃深耕該方法的并行版本，以應對更大規模的數據集，從而使提出的問題和方法能夠推廣到更多實際應用場景。并且可以將雙目標局部搜索應用于其他二分分配問題，例如通信中的資源分配、供應鏈庫存分配、庫存分配，尤其是具有高維度和眾多約束的分配問題。參考文獻1 Nader Al Theeb,Hazem J Smadi,Tarek H Al-Hawari,and Manar H Aljarrah.2020.Optimization of vehicle routing with inventory allocation problems in Cold Supp

217、ly Chain Logistics.Computers&Industrial Engineering 142(2020),1063412 Peiji Chen,Wenjing Ma,Srinath Mandalapu,Chandrashekhar Nagarjan,Jayavel Shanmugasundaram,Sergei Vassilvitskii,Erik Vee,Manfai Yu,and Jason Zien.2012.Ad serving using a compact allocation plan.In Proceedings of the 13th ACM Confere

218、nce on Electronic Commerce.319336.3 Kalyanmoy Deb.2011.Multi-objective optimisation using evolutionary algorithms:an introduction.In Multi-objective Evolutionary Optimisation for Product Design and Manufacturing.Springer,3344 Andrzej Jaszkiewicz.2002.Genetic local search for multi-objective combinat

219、orial optimization.European Journal of Operational Research137,1(2002),50715 Wuyang Mao,Chuanren Liu,Yundu Huang,Zhonglin Zu,M Harshvardhan,Liang Wang,and Bo Zheng.2023.End-to-End Inventory Prediction and Contract Allocation for Guaranteed Delivery Advertising.InProceedings of the 29th ACM SIGKDD Co

220、nference on Knowledge Discovery and Data Mining.16771686.6 Hong Zhang,Lan Zhang,Lan Xu,Xiaoyang Ma,Zhengtao Wu,Cong Tang,Wei Xu,and Yiguo Yang.2020.A request-level guaranteed delivery advertising planning:Forecasting and allocation.In Proceedings of the 26th ACM SIGKDD International Conference on Kn

221、owledge Discovery&Data Mining.29802988.98|大規模約束優化【KDD24】合約廣告中大規模多重線性約束庫存分配問題的高效局部搜索算法容洵、鶴水、林衍摘要合約廣告（Guaranteed Delivery Advertising）是在線廣告的重要組成部分，合理的合約庫存分配機制直接提升客戶需求和平臺收入。隨著廣告客戶需求的越來越多樣化和精細化，在業務場景中經常出現媒體偏好需求，即適合投放在指定媒體的廣告在該媒體上分配的比例應該大于另一些不適合在該媒體投放的廣告。然而，這些需求涉及到非凸的多重線性約束，會給合約廣告的庫存分配帶來挑戰，而數學規劃求解器或現有基

222、于約束的啟發式求解方法無法在約束時間內產生高質量的解。本文提出一種局部搜索的框架來解決這個難題，該框架包含兩階段的搜索模式，并且集成了四種新的針對非線性約束設計的算子。實驗結果表明，相比于其它算法或者求解器，我們的算法能夠在業務要求的約束時間內產生高質量的解，并且該算法具備通用性，可以處理其它業務場景中存在的非線性約束，未來可以應用到更多類似的場景中?；谠擁椆ぷ髡淼恼撐囊驯?KDD 2024 接收，歡迎閱讀交流。論文：An Efficient Local Search Algorithm for Large GD Advertising Inventory Allocation with

223、Multilinear Constraints作者：Xiang He,Wuyang Mao,Zhenghang Xu,Yuanzhe GU,Yundu Huang,ZHONGLIN ZU,Liang Wang,Mengyu Zhao,Mengchuan Zou1.背景介紹合約廣告是在線廣告行業的重要組成部分，它在品牌的在線商業營銷和推廣中起著至關重要的作用。廣告庫存的分配是合約廣告的關鍵組成部分。廣告客戶通常會在廣告投放日期的幾個月或幾周前與平臺簽訂合同，以預先鎖定所需的廣告展示次數。合同中明確規定了在特定定向條件下（如人群、頻次控制、城市、渠道）的廣告展示數量。如果庫存過度出售，可能導致無

224、法完成合同中的展示數量目標，平臺需要進行賠償；而庫存少售賣則會損害平臺的收入。在以往的廣告庫存分配工作中，研究的重點僅限于包含線性約束。通常會利用線性約束的性質，利用對偶和 KKT 條件，快速解決99|大規模約束優化問題。然而，這些算法只能處理線性或凸性約束。隨著商業需求的不斷擴大，越來越多的細化需求被提出，其中一些需求可以自然地表達為非線性約束，并且在數學形式上是非凸形式。舉例來說，假設一個客戶有兩種產品，一個是護膚精華液，一個是耳機，并指定美妝 app 作為護膚精華液的重點媒體，相對于耳機來說。廣告主希望護膚精華液在美妝 app 上的分配比例比耳機更大，使其更多地集中展示在合適的媒體上。由

225、于現有求解器和方法的效率或能力不足以處理商業場景中的這些非凸約束，這就需要探索新技術和新算法來有效解決這些問題。針對此問題，我們做了以下工作：1）首次提出解決帶有非線性約束的庫存分配問題，將其建模為一個包含多線性約束的整數規劃問題。2）設計了一種輕量級局部搜索求解器 LS-IMP 來解決這個問題。提出了四種新的鄰域操作來處理多線性約束，并設計了兩種切換模式，以快速找到問題的近似最優解。LS-IMP 可以輕松處理商業場景中的一般多線性約束。3）我們在真實的在線廣告應用數據上對保證交付庫存分配進行了實驗。實驗結果表明，我們的求解器在更多實例中滿足了要求，并在商業指標上具有更高質量的分配結果，優于數

226、學規劃或基于約束的啟發式求解器。2.問題建模2.1 二部圖建模GD 廣告庫存分配問題是計算新合同的最大可能展示量（庫存），同時確保展示量滿足發布商和廣告商的需求約束。該問題可以使用二部圖來描述，它可以使用二部圖表100|大規模約束優化示，如下圖所示。在左側，供給節點集對應于基本維度（城市媒體操作系統）的展示次數。在右側，需求節點集對應于銷售系統中的合同。其中，需求節點代表新合同，而其他需求節點代表現有合同。決策變量表示從供給分配到需求的展示次數。問題的目標是求解以最大化分配給新合同的展示次數，并滿足三種約束條件：1）供給約束：每個供給節點的總分配量不應超過其供給量；2）需求

227、約束：分配到某個需求節點的展示次數不應少于其需求；3）Focus 約束：在關注媒體上，合同的關注比例不得低于另一個合同。此約束涉及同一廣告主的兩個合同和及一組選定的指定媒體集，代表相比的關注媒體。然后要求合同和在供給集上的關注比例符合廣告主的優先級要求：合同在上的關注比例應大于合同的關注比例。我們使用鄰接矩陣（）來表示供應節點和需求節點之間的連接，如果供應節點和需求節點之間存在連接，則101|大規模約束優化2.2 整數多重線性規劃整數多重線性規劃(IMP)問題的形式如下：其中,，是輸入，是決策變量。是多線性的，意味著任意變量的最高指數為 1。我們用表示約束系統中的第

228、個約束為 :。變量的邊界表示為，并且我們表示。在我們的問題中，是其對應供給節點的容量。給定變量，每個約束可以寫成：其中是中的系數多項式，是中的截距多項式。直觀上，如果我們僅將視為變量，那么是的系數，是不包含的單項式。顯然，我們的問題在公式可以轉換為一般的 IMP 形式，因為線性約束是多線性的，并且關注比例約束等價于：102|大規模約束優化這是多線性的。在下文中，我們考慮一般情況下整數多重線性規劃形式的問題。一個完整的賦值對于 IMP 實例是一個映射，它為每個變量賦予一個整數，表示下的值。賦值滿足約束如果，否則約束被違反。賦值是可行的，當且僅當它滿足中的所有約束

229、。賦值的目標函數值表示為。另外，我們表示為中的系數多項式在賦值下的值，為截距多項式的值。3.問題求解實現我們算法處理具有多線性約束的 GD 廣告庫存分配的關鍵創新包括局部搜索過程中四個新算子。此外，我們設計了兩種模式的算法架構，以幫助算法找到高質量的解決方案。3.1 算子設計在局部搜索算法中，一個算子定義了如何修改變量以生成新的賦值，當一個算子實例化為一個變量時，我們得到一個操作。局部搜索算法逐步執行操作以生成新的賦值，并跟蹤獲得的最佳賦值。我們提出了四個用于一般整數多線性規劃的新算子，包括三個單變量算子和一個雙變量算子。它們旨在處理未滿足的約束或優化目標函數，這些算子將在算法的不同

230、模式中使用。3.1.1 多重線性 critical move(mc)算子我們的多重線性 critical move(mc)算子考慮在違反的約束中修改變量，使其滿足約束。多線性關鍵移動將變量的值修改為使約束為真的邊界值。多線性關鍵移動可以通過以下方式構造：給定一個違反的多線性約束，變量，我們知道。在賦值下，我們表示：，一個操作為是：如果且：將增加。如果且：將減少。103|大規模約束優化否則：保持不變。3.1.2 邊界移動(bm)算子邊界移動算子考慮在所有約束都滿足時優化目標函數。減少目標函數值的基本思想是改變其中變量的值。設為出現在目標函數中的變量集合，即，其中是在中的系

231、數。邊界移動算子的思想是根據其在目標函數中的系數將變量移動到其上界或下界，這將使目標函數值的最快下降。我們設計邊界移動算子表示為如下：如果，則將賦值為其上界。如果，則將賦值為其下界。3.1.3 降低移動(rd)算子類似于邊界移動的作用，減少移動也旨在優化目標函數。在某些情況下，將變量設置為其全局界限可能會導致更多約束被違反。對于目標函數中的變量，邊界移動關注其界限，而減少移動關注其受制約的約束。對于一個變量和一個包含的已滿足約束，我們設計減少移動算子，以保持的滿足狀態并在不違反的上界或下界的情況下實現目標函數值的減少。給定變量和其關聯的已滿足約束，。在賦值下，我們表示，一

232、個操作為是：，：增加，：減少，否則：保持不變。3.1.4 推進移動(pm)算子不論是邊界移動還是減少移動，這些算子都與目標函數中的變量相關聯。然而，如果某些變量沒有出現在目標函數中，它們可能不會直接影響目標函數。但是，如果這些變量與目標函數中的變量共享約束，它們可以通過改變其值來影響變量范圍，進而影響目標函數。接下來，我們打算定義并搜索一對變量，類似于上面例子中的和，以及相應的算子。有效輔助約束：給定一個賦值和一個變量，如果，則約104|大規模約束優化束是變量的有效輔助約束。表明輔助約束限制向減小目標的方向移動。我們定義在約束中的有效范圍，即可以移動并保持滿足的范圍。對

233、于多線性約束，這個范圍是一個區間?，F在我們來確定那些能夠改變在輔助約束中有效范圍的變量。有效輔助變量:給定一個賦值，對于任意，變量是的有效輔助變量，如果滿足以下條件：(1)(2)存在約束使得是的有效輔助約束，和都出現在中。直覺上，由于和在同一個約束中，的值可能會影響在中的有效范圍?，F在我們試圖找到改變是否能夠導致在中更廣范圍移動，從而減小目標函數。有效推進對:給定一個賦值，一個有序變量對，是一個有效推進對，如果滿足以下條件：1）存在約束使得，并且。2）存在約束使得，并且固定為不會改變的符號。3），其中是通過固定為更新的輔助賦值?；谝陨纤枷?，推進

234、移動算子定義如下：給定一個賦值，一個推進移動算子接受一個有效推進對以及定義的約束和，如有效推進對的定義，推進移動算子通過以下步驟固定的值：1）將的值固定為，得到一個新的輔助賦值。2）執行操作，將的值固定。3.2 雙模式移動框架我們的算法采用雙模式搜索框架，當存在約束不滿足時，算法進入 infeasile 模式，在該模式下，通過多重線性算子來試圖滿足約束。當所有約束都滿足的時候，算法進入 infeasible 模式，在該模式下，算法通過三種算子來降低目標函數的值。同時通過105|大規模約束優化加權技術和設計的評分函數來指引好的搜索方向，從而加速搜索。4.實驗4.1 實驗說明Ba

235、seline：將我們的求解器與兩個數學求解器 Gurobi 10.0.0(2022)和 SCIP 8.0.1(2021)進行比較，它們分別是公認的最佳商業求解器和最佳開源求解器 mittelmann-plots。除了數學編程求解器，我們還比較了約束啟發式求解器 Yuck，該求解器是 2022 和 2023 年 MiniZinc 挑戰中局部搜索賽道的冠軍，這是約束編程求解器的代表性競賽 minizic。我們使用 Gurobi 的精確版和啟發式版，分別記為 Exact 和 Heur。SCIP 和 Yuck 使用默認參數。106|大規模約束優化數據集：實驗數據集來自阿里媽媽真實 GD 廣告場景。通過

236、對涵蓋不同時間段（包括常規日和節假日）的實際在線請求數據進行采樣和聚合生成 5 個數據集，以涵蓋全面的業務場景。我們從所有樣本中進行均勻隨機抽樣。實驗數據的規模如下表：其中ins 是例子的數量，ML Constraint 是新引入的約束數量。4.2 評估指標在本小節中我們比較了 5 個指標：庫存利用率（#UR）：我們將所有供應節點的總庫存水平記為，所有訂單的總需求量記為。較高的#UR 表示售出的廣告數量更多，從而帶來更多收入。理想庫存履約率（#FR）：理想分配量記為，等于將目標函數中所有變量設置為其上限時的值。#FR 代表庫存與最優庫存之間的差距較小，意味著在滿足合同義務的同時盡可能多地銷售廣

237、告。#FR 應盡可能接近 100%以履行客戶合同。獲勝解決方案（#win）：表示求解器在所有測試求解器輸出的解決方案中找到最佳解決方案的實例數量。這個指標衡量算法在目標值方面找到高質量分配的能力?？尚薪鉀Q方案（#feas）：表示求解器在時間限制內找到可行解決方案的實例數量。這個指標衡量求解器找到滿足所有要求的分配方案的實例數量。求解時間：比較 LS-IMP 與 baseline 求解器在找到相同目標值的解決方案時的運行時間。4.3 結果分析#UR 和#FR 分析：我們比較了每組實例的平均#UR 和#FR。結果下圖所示。在商業場景中，GD 廣告庫存分配的銷售實例通常需要在 60 秒內解決?？梢钥?/p>

238、到，SCIP 和 Yuck 在解決這個問題上的效果相對較低，反映在業務解決時間內觀察到的較低的#UR 和#FR 指標。為了驗證和比較我們求解器的能力，還進行了求解時間延長到 300 秒和 1000 秒的實驗。實驗結果表明，盡管 Gurobi 在#UR 和#FR 上有所提107|大規模約束優化高，LS-IMP 仍然是最具競爭力的算法。此外，從 300 秒和 1000 秒的求解時間結果來看，與 60 秒的 LS-IMP 結果相比，沒有明顯的改進。這表明 LS-IMP 基本在 60 秒內收斂，展示了我們算法的有效性。#win 和#feas 分析：可以觀察到，在 60 秒內，LS-IMP 在可行解決方

239、案的數量和獲勝解決方案的數量上都具有顯著優勢。顯然，SCIP 和 Yuck 在應用于可用數據集時，大多數實例無法提供可行的解決方案。作為商業求解器，Gurobi 在 60 秒的時108|大規模約束優化間范圍內，在可行解決方案的數量和找到的解決方案的質量方面都遠遠落后于 LS-IMP。即使在更長的時間（300 秒和 1000 秒）內，這兩個指標仍然未能超越 LS-IMP。求解時間分析：我們比較了 LS-IMP 和 Gurobi 求解器的求解時間，具體考察了它們在 300 秒和 1000 秒的運行時間，以驗證我們算法的收斂速度。在這個分析中，我們比較了 Gurobi 的啟發式和精確版本?？梢杂^察到

240、，無論在 300 秒還是 1000 秒的時間范圍內，對于找到相同解決方案的實例，LS-IMP 始終能在更短的時間內獲得解決方案。這表明了我們求解器的快速收斂速度。109|大規模約束優化5.結論本文分享了 GD 廣告庫存分配問題的局部搜索算法。我們將具有偏好要求的 GD 廣告庫存分配建模為一個整數多線性規劃問題，并提出了一種高效的雙模式局部搜索算法來解決該問題。實驗表明，與該問題的最先進求解器相比，我們的算法生成了更高質量的分配計劃。該算法方案能夠處理一般的多線性約束，并且可以應用于其他合同分配場景。未來，我們還考慮擴展該算法方案，以解決涉及其他業務指標比率要求的問題。局部搜索算法對于計算廣告來

241、說是新的方向，我們認為這是一個值得探索的領域。期待我們的新局部搜索算法能夠為未來的研究提供一些靈感。參考文獻1 Tobias Achterberg.Scip:solving constraint integer programs.Mathematical Programming Computation,1:141,2009.2 Shipra Agrawal and Nikhil R Devanur.Fast algorithms for online stochastic convex programming.In Proceedings of the twenty-sixth annual

242、ACM-SIAM symposium on Discrete algorithms,pages 14051424.SIAM,2014.3 Shipra Agrawal,Zizhuo Wang,and Yinyu Ye.A dynamic near-optimal algorithm for online linear programming.Operations Research,62(4):876890,2014.4 Anand Bhalgat,Jon Feldman,and Vahab Mirrokni.Online allocation of display ads with smoot

243、h delivery.In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining,pages 12131221,2012.5 Vijay Bharadwaj,Peiji Chen,Wenjing Ma,Chandrashekhar Nagarajan,John Tomlin,Sergei Vassilvitskii,Erik Vee,and Jian Yang.Shale:an efficient algorithm SIGKDD internatio

244、nal conference on Knowledge discovery and data mining,pages 11951203,2012.6 Peiji Chen,Wenjing Ma,Srinath Mandalapu,Chandrashekhar Nagarjan,Jayavel Shanmugasundaram,Sergei Vassilvitskii,Erik Vee,Manfai Yu,and Jason Zien.110|大規模約束優化Ad serving using a compact allocation plan.In Proceedings of the 13th

245、 ACM Conference on Electronic Commerce,pages 319336,2012.7 Liang Dai,Zhonglin Zu,Hao Wu,Liang Wang,and Bo Zheng.Fairness-aware guaranteed display advertising allocation under traffic cost constraint.In Proceedings of the ACM Web Conference 2023,pages 35723580,2023.8 Nikhil R Devanur,Kamal Jain,Balas

246、ubramanian Sivan,and Christopher A Wilkens.Near optimal online algorithms and fast approximation algorithms for resource allocation problems.In Proceedings of the 12th ACM conference on Electronic commerce,pages 2938,2011.9 Zhen Fang,Yang Li,Chuanren Liu,Wenxiang Zhu,Yu Zheng,and Wenjun Zhou.Large-s

247、cale personalized delivery for guaranteed display advertising with real-time pacing.In 2019 IEEE International Conference on Data Mining(ICDM),pages 190199.IEEE,2019.10 Jon Feldman,Monika Henzinger,Nitish Korula,Vahab S Mirrokni,and Cliff Stein.Online stochastic packing applied to display ad allocat

248、ion.In European Symposium on Algorithms,pages 182194.Springer,2010.11 Jon Feldman,Aranyak Mehta,Vahab Mirrokni,and Shan Muthukrishnan.Online stochastic matching:Beating 1-1/e.In 2009 50th Annual IEEE Symposium on Foundations of Computer Science,pages 117126.IEEE,2009.12 Vahideh H Manshadi,Shayan Ove

249、is Gharan,and Amin Saberi.Online stochastic matching:Online actions based on offline statistics.Mathematics of Operations Research,37(4):559573,2012.13 Wuyang Mao,Chuanren Liu,Yundu Huang,Zhonglin Zu,M Harshvardhan,Liang Wang,and Bo Zheng.End-to-end inventory prediction and contract allocation for g

250、uaranteed delivery advertising.In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining,pages 16771686,2023.14 Hong Zhang,Lan Zhang,Lan Xu,Xiaoyang Ma,Zhengtao Wu,Cong Tang,Wei Xu,and Yiguo Yang.A request-level guaranteed delivery advertising planning:Forecasting and a

251、llocation.In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining,pages 29802988,2020.111|大規模約束優化【AAAI24】合約廣告中基于風險約束的 Pacing算法優化覺一、天穿摘要：本文提出一種適用于合約保量廣告的預算平滑 Pacing 算法，該算法通過對偶出價因子的百分位位置聯動調控 Pacing，兼容保量分配機制的同時，有效控制了預算釋放過快的風險，并且最大程度兼顧了投放效果的提升?；谠擁椆ぷ髡淼恼撐囊寻l表在 AA

252、AI24，歡迎閱讀交流。論文：Percentile Risk-Constrained Budget Pacing for Guaranteed Display Advertising in Online Optimization 下載（點擊閱讀原文）：https:/arxiv.org/abs/2312.061741.背景介紹1.1 業務場景合約廣告（Guaranteed Delivery，GD）是通過合同形式，為品牌或直播廣告主在指定時間內，在圈定的目標人群上觸達確定數量的曝光。和效果廣告的實時競價相比，GD 廣告采用曝光的合同固定價格計費，并且具有強保量的約束，也是廣告主在大促時期確定性獲取

253、流量的重要廣告形式。合約廣告的在線分配機制中，通?；趯ε祭碚?，采用”虛擬出價”（如 bid=CTR-對偶）的方式進行流量優選（0 價過濾）和分配（最高價競得），在滿足保量約束的前提下，最大限度優化投放效果。除了合約廣告，有很多場景有采用類似的建模方式，如：push 次數有限的情況下，最大化用戶點擊次數等；消費券數量有限情況下，最大化轉化率/成交 uplift。1.2 分配建模假設我們以優化 CTR 為目標，對于第次請求召回的廣告的預估價值為，原問題可以建模成：112|大規模約束優化根據原始對偶可以推導出，虛擬出價公式為：其中是根據廣告消耗速度的快慢，基于反饋算法（如 PID 等）進行

254、調整得到的。虛擬出價后，再通過 0 底價過濾和出價排序，最終選取 top1 廣告返回，過程表示為：其中，表示召回率，表示 Pacing 模塊的隨機通過率，表示參競率，表示競得率。因此，一段時間內廣告的曝光計費次數，可以串行漏斗來表示：1.3 平滑問題雖然理論上原始對偶方法可以實現最優的在線分配，但是在實際投放過程中，我們面對的是一個動態分配問題。如果只使用“虛擬出價”，非常容易出現不平滑的情況。比如，對偶因子初始值不合理，廣告可能在幾分鐘之內釋放完一個小時的預算；另外，PID 反饋調整的步長設置不合理，也可能導致廣告從完全沒展現到瞬間“爆量”。不平滑釋放會帶來兩方面問題：1）業務方面：廣告主

255、希望預算均勻消耗，尤其是主播希望均勻引流，長時間無量或者爆量會帶來客訴和資損；2）效果方面：對廣告感興趣的用戶是隨著大盤流量均勻到達的，不平滑投放會浪費后續投放到優質流量的機會，對效果有損。113|大規模約束優化2.技術挑戰與算法思路2.1 現有算法現有廣告里平滑投放算法，主要有三類可以借鑒：Bid Modification（出價修改）：相當于沒有 Pacing 模塊，通過參競率來間接實現，反饋速度慢且對于小訂單風險巨大（如初始值不合理預算瞬間花完），達不到較好的預算平滑效果 Probabilistic Throttling（概率節流）：簡單高效，在 RTB 使用廣泛，但是在合約廣告里，直接使

256、用會帶來一個問題，同時用一個信號（預算消耗速度）反饋調整兩個參數（出價&Pacing），會出現相互干擾、控制混淆，引起保量風險和平滑問題。舉個例子，廣告釋放過快，應該調低出價，還是調低Pacing 通過率？Regularization（分配正則項）：在之前合約分配模型建模常采用正則項，以實現平滑或者均勻分配，但是這種方法的正則項超參數是固定的，無法在投放中自適應調整。綜上，現存的方法并不能很好解決我們的問題。2.2 合約業務挑戰分析我們業務里面平滑釋放的挑戰，主要包含以下因素：1）靜態因素預定量：不同廣告的保量目標從幾千到幾百萬 PV 不等定向：不同廣告的定向人群、定向資源位不同優化目標

257、：不同廣告優化目標不同（轉化率/停留時長/進店率等），不同類型的目標分布差異極大，如轉化率 0.1%，點擊率 10%，僅打分的平均值就相差百倍，導致調控的初始化和步長配置非常復雜2）動態因素假設有兩個廣告 Ad1 和 Ad2，除了 Ad1 的流量供給大很多，其他靜態因子都相同的情況下，最終收斂后 Ad1 的對偶因子一定高于 Ad2 的對偶因子。這意味著：由于 Ad1 的流量供給大于 Ad2，Ad1 更容易“爆量”；114|大規模約束優化 Ad1 的虛擬出價遠低于 Ad2，Ad1 的競得率更容易受其他訂單的影響；從參競率的角度，如果對偶因子反饋調整相同距離，或者打分分布發生變化，Ad1 的波動也

258、比 Ad2 更大，可以用下圖來表示這個過程：2.3 算法設計思路平滑投放的主要挑戰來自于釋放過快，因為消耗是無法回撤的，而釋放過慢可以通過后期反饋進行調整后加速。設計合約廣告中的 Pacing 算法，需要考慮以下幾點：一方面通過 Pacing 隨機通過率，來控制廣告的流量供給，把對偶因子限制在安全的百分位范圍內，避免由于調控出現參競率太大的波動。另一方面，Pacing 如果過濾流量太多，會讓對偶因子處于較低百分位，雖然沒有平滑風險，但是會隨機丟棄大量優質流量，不利于效果提升。所以一個合格的合約 Pacing 算法，需滿足以下三點要求：1）不能破壞合約保量分配機制，不干擾到對偶因子的調控，否則有

259、缺量風險；2）能有效控制平滑風險（對偶百分位不能太高）；3）盡量避免丟棄優質流量，減少效果損耗（流量充足情況下，對偶百分位不能太低）。115|大規模約束優化3.風險約束的 Pacing 算法細節3.1 雙向變換為了解決不同打分類型分布不一致，導致“對偶初始化”以及”調控步長“難以統一設置的問題，一個很簡單的思路，是將所有打分通過之前落盤打分日志，統一變換到 0,1 的均勻分布。但是這帶來的問題是，我們的求解目標從變成了。盡管百分位變換是保序，但是其非線性變換的特性，將導致百分位空間的最優解并不是原問題的最優解（不同類型分數，競得率的公平性不在討論范圍內）?；诖?，我們采用了雙向變換：1）效果

260、分前向變換：原空間()=百分位()，將打分映射到百分位空間，在百分位空間調整對偶。通過對偶在百分位空間的位置，可以感知爆量風險（比如當前對偶調整到 0.99，說明參競率為 1%，爆量風險較高），并在 pacing 策略采取對應調整措施約束風險；2）對偶后向變換：百分位()=原空間()。在百分位空間調整對偶后，反向變換到原空間，所以 bid 的計算還是在原來的空間，保證我們求解的是原問題的最優解。原空間到百分位空間的變換，可以基于非參數方法（如累計直方圖統計），也可以采用參數化方法變換。這里我們采用了參數化的 BoxCox 方法，將原空間變換到正態分布，再通過標準化轉換為標準正態分布，最后通過標

261、準正態分布的累積分布函數(CDF)，變換成 0 到 1 的均勻分布，即百分位空間。變換過程如下圖所示：后向變換與上述過程正好相反，互為逆函數。116|大規模約束優化3.2 PTR 粗估上述我們分析了對偶的百分位越高，對應廣告的參競率越小，不平滑風險越高。因此我們希望 Pacing 模塊通過隨機通過功能，將每個廣告的對偶的百分位限制在一個安全閾值內。例如表示期望收斂后，此時廣告有 top 5%的優質流量參競，余下的 95%流量 bid 為負被底價過濾。假設廣告定向的人群大小為，全局的競得率為，通過之前的流量漏斗公式，可以粗估出 Pacing 的通過率()為：百分位對偶值初始化可以表示為：

262、3.3 PTR 微調盡管我們在離線對 PTR 進行了粗估，但是在實際投放過程中，粗估值和實際線上投放情況可能有較大誤差，因此需要根據線上情況進行微調。微調函數我們分解為兩個函數：1）對偶聯動在線實際投放中如果，說明偏小，需要增加流量供給，減少缺量風險和優質流量損耗；反之則說明偏高，需要快速降低以約束風險，我們用兩段指數函數來進行微調：函數如下圖所示：117|大規模約束優化2）出價加權受到 smart pacing 論文的啟發，效果越好的流量，PTR 應該更高。對應到我們的算法中，對于同一個廣告來說，即 bid 越高通過率越高。如果用原空間的bid 加權，由于廣告的打分分布差異很大，b

263、id 也有很大的差異，不利于統一設置加權倍率。因此，我們在百分位空間進行加權，這里我們采用簡單的線性加權，即：如下圖所示：相比于，是根據在線實時的“虛擬出價”進行加權的，是完全實時自適應的。舉個例子，比如我們歸一化參數更新不及時或者計算有偏差，導致變換后的打分分布是的均勻分布，對于函數來說，會在離線粗估的 PTR 的基礎上添加較大的倍數，存在爆量的風險，而對于函數來說則不存在這樣問題。3.4 梯度裁剪在 PID 反饋調控算法中，如果步長太大，調控容易出現大幅抖動，如果太小反饋調整的反應速度又太慢。一種常見的做法是靜態梯度裁剪。假設限制相鄰兩次調整的對118|大規模約束優化偶調整最大距離為

264、，通過 PID 算法計算出下一次百分位空間的對偶因子的值為，則下一次百分位對偶變量更新值為：這種做法的一個缺點是，對偶因子在不同的百分位位置調整，帶來的波動其實是不一樣的。如百分位對偶從 0.9 調整到 0.8，參競率（PR）可以從 0.1 增加到 0.2 出現翻倍現象；百分位對偶從 0.2 調整到 0.1，PR 則僅從 0.8 增加到 0.9，幾乎沒有變化。上述只分析了百分位對偶調整對于參競率的影響，此外，百分位對偶的調整還會影響到 PTR 和 WR。以下推導基于廣告出現缺量情況：根據反饋算法將往下調。假設該廣告的召回率、打分分布、在線競價環境在這期間沒有發生變化，會發生以下變化：會增加。

265、競價環境不變，下調對偶會提升 bid，top1 排序概率變大；會增大。隨著下調提高加權倍率；也會增大。下 0 底價過濾的比例也會降低。假設我們廣告在第次周期中的真實消耗是，期望消耗是，則釋放速度可義為：理想的調控結果是讓輪的消耗速度為 1。上面分析了 WR、PTR 和 PR 都會增加，由于競價環境是未知的，增加倍率無法計算，但是如果增加到了倍，那么廣告在輪的釋放速度肯定就超過 1 了，這就是我們調整范圍的下限。定義函數：實際求解時，可以通過蒙特卡洛重要性采樣的方法進行積分計算。具體做法是：隨機在有顏色區域的軸上打 1000 個點得到平均高度，乘以寬度就即為。然后用二分查找法找到的下

266、限：下圖表示函數：119|大規模約束優化在線上實際使用時，我們采用的是靜態+動態梯度裁剪的方法雙管齊下來控制風險：3.5 可變步長梯度裁剪只是限制了更新的上限和下限，實際的更新的步長也有較大的優化空間。直覺上，越靠近 1，PR 波動越大，此時步長應該越??；反之越靠近 0，PR 波動越小，不平滑的風險也更小，步長也應該設置更大。這個直覺上的判斷，可以通過數學推導得到一個可變更新步長，詳情可以查閱我們發表在 AAAI24 的論文：Percen-tile Risk-Constrained Budget Pacing for Guaranteed Display Advertising in Onli

267、ne Optimization(https:/arxiv.org/abs/2312.06174，點擊閱讀原文)。3.6 止血控制以上所有的策略，都是基于梯度更新實現的。梯度更新有一個較大的問題是，當線上已經發生“爆量”情況，往往需要多次更新才能控制“險情”，這時候小時預算往往已經消耗完畢。針對這種情況，我們采用比例調控的方式，額外增加一個通用率進行及時止血，把廣告的釋放速度控制在 2 倍，既能防止損失進一步擴大，也能讓對偶因子朝著正確的梯度方向進行逐步調整，止血調控的通過率計算公式為：所以最終的的 Pacing，由兩個概率通過模塊串行組成：120|大規模約束優化3.7 冷啟問題在廣告剛上線的幾

268、分鐘，止血通過率可以設置成 10%進行小流量試探，防止對偶初始化不準確導致不平滑現象。3.8 流量傾斜在合約業務里，往往還有很多業務需求需要對部分流量進行加權投放，如通投廣告主中需要對廣告主圈選的人群進行流量傾斜、部分資源位流量傾斜等，可以從兩方面進行干預：Pacing 對需要傾斜的流量進行通過倍率加權，以增加 PTR；Bid 環節對需要傾斜的流量進行出價加權，以增加 PR 和 WR。如果流量傾斜需要達到某個目標，則加權因子需要通過反饋調節鏈路進行調整。3.9 整體流程總結起來，Pacing 算法的流程如下：1）設置超參數全局參數：安全百分位閾值，步長，靜態梯度裁剪；廣告參數：預算，定向人

269、群大小，止血冷啟動通過率。2)離線計算對于每個廣告：根據供需比計算基礎通過率；計算分位對偶初始值；根據廣告優化目標的類型，通過歷史日志統計對應目標類型的歸一化參數（包括 boxcox 參數、均值、標準差）。3）在線決策對于召回的廣告列表：用 RTP DNN 模型預估分數；將打分轉換到百分位空間；121|大規模約束優化將百分位對偶通過后向變換成原空間對偶；計算原空間出價和百分位空間出價；0 底價過濾；通過、和計算通過率；計算最終 Pacing 通過率；以的概率保留廣告；按照原空間出價排序；選取 Top 1 返回。4）近線調控每隔兩分鐘進行一次近線調控；計算上次調控的釋放速度；根

270、據 PID 算法（或動態步長算法），計算本次百分位空間的對偶值；通過蒙特卡洛重要性采樣，計算動態梯度裁剪的上下界；進行靜態+動態梯度裁剪，得到更新后的百分位對偶；根據釋放速度，通過止血調控更新公式，得到止血通過率；將和推送到線上，進行下一輪在線決策。4.業務效果互動合約廣告對平滑投放要求較高，算法側經過一段時間的迭代和優化，逐步形成了以上基于百分位風險約束的 Pacing 策略，并通過了日常投放、雙十一大促等各方面考驗。在日?；由虡I上場景上，我們對出價加權進行了消融實驗，相比于無出價加權策略，收藏加購購買率及吸粉入會率均有所提升，平滑釋放和效果提升達到了較好的平衡。5.總結本文提出一

271、種適用于合約保量廣告的預算平滑 Pacing 算法，該算法通過對偶出價因子的百分位位置聯動調控 Pacing，兼容保量分配機制的同時，有效控制了預算釋放過快的風險，并且最大程度兼顧了投放效果的提升。實驗表明，該方案使平滑釋放和效果提升達到了較好的平衡。122|大規模約束優化參考文獻1 Budget pacing for targeted online advertisements at linkedin.KDD 20142 Dual mirror descent for online allocation problems.PMLR 20203 Clustering with Bregman

272、divergences.JMLR 20054 Shale:an efficient algorithm for allocation of guaranteed display advertising.KDD 20125 The Box-Cox transformation technique:a review6 Smart pacing for effective online ad campaign optimization.KDD 20157 An Adaptive Unified Allocation Framework for Guaranteed Display Advertisi

273、ng.WSDM 2022123|智能創意開源|阿里媽媽技術開源 FLUX 圖像修復及蒸餾加速模型鵬徙、曉旗 1.概述阿里媽媽智能創作與 AI 應用團隊近期開源了兩項 FLUX 文生圖模型的的實用配套模型。Black Forest Lab 的 FLUX 1 文生圖模型具有更高的生成畫面質量和指令遵循能力，一經推出便受到業界廣泛關注，也有很多優秀的控制插件和 Lora 微調模型陸續跟進。但是，通過修復（Inpainting）進行可控生成的插件還未有公開可用的模型，另一方面 FLUX 12B 的參數量會帶來顯著的推理時耗和計算開銷。我們針對這一行業需求進行了相關探索，開源了兩個基于 FLUX（FLU

274、X.1-dev）的配套模型：ControlNet 圖像修復模型以及 8 步加速的 Turbo 模型。更進一步，兩個模型可互相兼容配合使用，達到更快的修復生圖。兩項開源模型收到了社區積極反饋，在 HuggingFace 社區居于趨勢榜前列。本文介紹基于 FLUX 的 ControlNet 修復模型及蒸餾加速模型的設計思路，歡迎閱讀交流和試用反饋。FLUX 修復 ControlNet 主頁（已更新至 Beta 版本）：Huggingface 地址：https:/huggingface.co/alimama-creative/FLUX.1-dev-ControlNet-Inpainting-Bet

275、a ModelScope 地址：https:/ 步加速 LoRA 主頁（Alpha 版本）：Huggingface 地址：https:/huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha智能創意124|智能創意 ModelScope 地址：https:/ 2024.10.162.圖像修復 ControlNet 模型圖像修復（Image Inpainting）對圖像的指定區域根據指令進行重新生成。在創意設計領域，設計師可以利用該模型快速修復或改變圖像中的特定元素；在個人照片編輯領域，普通用戶可以輕松去除照片中不想要的元素或添加新的內容。毫不夸張地

276、說，圖像修復的 ControlNet 是 FLUX 基礎模型用于圖像可控生成的關鍵插件，同時相較于其他控制條件（線稿、姿勢、深度圖等）有較高的訓練難度，對模型在豐富場景中的泛化能力、預測合理性和穩定性有較高要求。因此，我們從 FLUX 模型采用的 DiT 模型結構和 Flow Matching 2 訓練機制出發，在嵌入的 ControlNet 模型結構和訓練流程方面進行嘗試。125|智能創意FLUX 圖像修復 ControlNet 整體使用流程2.1 ControlNet 模型結構探索社區普遍使用的 Unet ControlNet 3(圖 a)，直接遷移到 DiT 架構上需要將前一半的特征加到

277、后一半上面。不同于傳統的基于 Unet 的文生圖結構，DiT 的文生圖模型由一系列的 Transformer Block 堆疊而成，沒有顯式的 Encoder-Decoder 結構，因此直接遷移效果不好。我們在同樣是 DiT 框架的 SD3 Inpainting 上實驗發現，更多控制層數的 Full 結構相較于 Half 與 Interleave 結構收斂更快。由于訓練時顯存限126|智能創意制，FLUX 的 Inpainting 采用 Interleave（圖 c）結構進行訓練，在模型收斂效果和顯存&計算量取得平衡。2.2 由粗到細的多階段訓練從公開的圖文對數據集和內部數據集過濾出千萬量級數

278、據用于訓練，并對其中的圖片通過多模態大模型進行長 Caption 重打標。我們先在 768 分辨率進行訓練得到Alpha 版本，然后在 1024 分辨率進行繼續訓練得到 Beta 版本。相比于 Alpha 版本相比，Beta 圖像修復模型提升了以下特性：1）從 768 圖像分辨率升級到 1024：能夠直接處理和生成 1024x1024 分辨率的圖像，無需額外的放大步驟，提供更高質量和更詳細的輸出結果。得益于多通道 VAE的強大重構能力，生成的結果中非重繪區域依然能高保真復原。2）增強細節生成：經過微調以捕捉和重現修復區域的更精細細節。3）改進提示詞控制：減少額外的控制信號對 FLUX.1 底模

279、能力的影響，使模型對生成內容提供更精確的控制。2.3 修復效果對比我們對比 Diffusers 官方開源的基于 SDXL 的 Inpainting 模型 4，FLUX-Inpaint-ing 模型繼承了 FLUX 更好基礎能力，在指令跟隨、文字生成、畫面效果方面都有突出優勢，其中最新的 Beta 版相比一個月前的 Alpha 版效果有進一步提升。以下是對比結果（均沒有進行原圖貼回操作）：127|智能創意128|智能創意與其他擴散模型一樣，直接使用 Inpainting 模型仍需進行多步迭代推理（28 步）才能達到比較滿意的結果，為加快推理速度，我們進行了加速擴散方法的嘗試。3.蒸餾加速模型擴散

280、模型由于需要多步去噪的推理生成方式，使得圖片生成速度緩慢，計算資源需求高。尤其是對于 FLUX 模型來講，其高達 12B 的參數量，在實際使用中具有較大困難。針對推理加速這個問題，已經有不少優秀的工作在 SD1.5 或 SDXL 上進行了降低采樣步數的相關研究，但是對于 Flux 的相關加速工作還較少。由此，阿里媽媽智能創作與 AI 應用團隊探索訓練出了一個 8 步蒸餾模型，使得 FLUX 在 8 步的采樣步數下，接近原本 FLUX 30 步左右推理的效果，我們的模型對于修復也適配良好，能夠在接近原修復質量的同時實現更快的推理。3.1 技術介紹我們采用改進的一致性蒸餾算法 5，并使用了對抗訓練

281、來提升蒸餾的效果。對于對抗訓練所需的判別器模型，我們設計了一種多頭的判別器模型，在固定原始 FLUX 的 Transformer 的權重，在每一層 Transformer Block 后接一個可訓練的由幾層 MLP 構成的 Head，如圖所示。判別器的輸出由所有 Head 的均值決定，這樣的 Head 設計，充分利用了 FLUX Transformer 的不同層級特征，能夠更加有效的監督蒸餾后的效果。Turbo 蒸餾加速訓練流程圖129|智能創意3.2 效果&加速對比我們在文生圖任務上進行了嘗試，對比原始 FLUX.1-dev 28 步的結果，我們 8 步 LoRA 加速后的結果幾乎逼近原始結

282、果?？梢钥吹?，我們的模型在通用場景、人像場景、電商場景都取得了不錯的效果。4.圖像修復疊加蒸餾加速我們的加速模型配合修復模型能夠在接近原始修復效果的情況下實現更快的修復速度。在 H20 機器，使用 T5xxl-fp16 結合 FLUX.1-dev-fp8 模型進行測試，在 true_cfg 設置為 1 的情況下，原始 30step 需要約 26s，疊加加速模型后只需要約8s，推理速度提升了約三倍，效果損失微小。130|智能創意5.總結本文介紹了阿里媽媽技術團隊基于 FLUX 開發的 Controlnet 修復模型和蒸餾加速模型，該項工作填補了社區空白并提升了 FLUX 的實用性和效率。未來，我

283、們將著力提高復雜紋理和結構的理解生成能力，增加多尺寸支持，探索 4 步生圖的加速方案。我們相信，持續創新將使 FLUX 在 AI 創意生成等眾多領域發揮更大潛力。也期待通過社區的力量，共同加速模型能力的迭代，發現更多應用場景，創造更多可能。引用1 https:/ Lipman Y,Chen R T Q,Ben-Hamu H,et al.Flow matching for generative modelingJ.arXiv preprint arXiv:2210.02747,2022.3 Zhang L,Rao A,Agrawala M.Adding conditional control t

284、o text-to-image diffusion modelsC/Proceedings of the IEEE/CVF International Conference on Computer Vision.2023:3836-3847.4 https:/huggingface.co/diffusers/stable-diffusion-xl-1.0-inpainting-0.15 Luo S,Tan Y,Huang L,et al.Latent consistency models:Synthesizing high-resolution images with few-step inf

285、erenceJ.arXiv preprint arXiv:2310.04378,2023.131|智能創意開源|筑基砥柱：EcomXL-萬相實驗室 AIGC電商基礎模型顧知、歲星、天扉、佳玏、允行一、背景隨著生成式技術浪潮的興起，Stable Diffusion 結合 Controlnet 等控制能力在電商場景得到了廣泛的應用，其中制作一張優秀的商品主圖（亦或是廣告的創意圖，以下簡稱商品圖）對商品的點擊轉化有著重要影響，商家往往需要投入不少時間和資金成本。如何通過 AIGC 能力來幫助商家節省成本、提高制作效率和投放效果是阿里媽媽萬相實驗室的初衷。隨著 2023 年 7 月 SDXL 文生圖

286、模型的發布，其生成結果相比 SD1.5 在語義表達和美觀度上都有顯著提升。但模型參數規模的大幅增長也帶來了在訓練和推理上的挑戰。我們圍繞 SDXL 模型進行了多角度效果優化以及推理加速優化，并且將其應用于萬相實驗室圖像生成任務中，實現了全量上線。生成結果的視覺質量以及業務指標都有不錯提升。部分相關工作沉淀到開源項目 EcomXL（hugging-face-ecomxl-controlnet）和 SLAM(Sub-path Linear Approximation Model,huggingface-slam)，歡迎交流&提出建議。HuggingFace 項目鏈接（復制鏈接到瀏覽器訪問）：Eco

287、mXL:https:/huggingface.co/collections/alimama-creative/ecomxl-con-trolnet-662f1f0dac05b4f7c20fcde6SLAM:https:/huggingface.co/collections/alimama-creative/slam-662f1dd31d5c8cd0b3acb0e0本篇工作更多從 SDXL 模型應用視角，闡述將其落地到規?；瘓D像生成系統中遇到的效果和推理速度問題。在 AIGC 圖像生成中，如何實現對生成結果更加可控請參考另一篇團隊工作百變背景：萬相實驗室 AIGC 電商圖片可控生成技術。二、萬相

288、實驗室簡介阿里媽媽萬相實驗室（https:/）是面向商家/廣告主建設的 Al 132|智能創意Native 商品圖片生成工具。它提供商品展示圖片和服飾展示圖片兩項基本服務，支持通過豐富的虛擬模特、背景氛圍實現商品的生動展示。平臺內置海量商品預設背景描述可供選擇和再次創作，商品的布局和大小可以精細調節，畫面可以增加背景元素組合，虛擬模特的發型膚色身材搭配著裝均可選擇。面向電商 ToB 的場景應用，我們可以將淘寶平臺商品分為普通剛性商品和柔性服飾，前者是外觀相對固定的商品，后者是外觀多變且與人物交互的服飾。具體在以下幾個方面體現對其生成效果的更高要求：（1）美觀和真實的人像生成（2）電商風格的背景

289、生成（3）自然貼切的商品與背景融合效果（4）不同場景不同時延的服務能力。對應這些問題，我們提出面向電商場景的 EcomXL 系列工作，旨在在對社區 SDXL 的基礎上實現更佳人物和背景繪畫效果、更佳的 Controlnet 控制能力以及快速 3 秒電商生圖方案。三、EcomXL 文生圖模型3.1 問題定義盡管 SDXL 模型與 SD1.5 相比，在語義理解和視覺美感方面進步顯著，但是在電商場景中應用對人像顏值和真實性，以及對電商風格背景的多樣性提出更高的要求，因此人像不夠美不夠真、背景不夠貼近電商場景是效果上的主要挑戰。其次，在電商圖像生成中，往往耦合了生成控制（例如：Controlnet/L

290、ora），基礎模型的變化進一步帶來和生態適配性的問題。133|智能創意3.2 模型優化我們基于社區開源的數據以及內部數據，收集了千萬規模的高質量人像和背景數據，用于補充 SDXL 模型在電商生成圖像的質量?，F有的一些工作如 Dalle3 1，pixart 2，EMU 3等指出，詳細準確的圖像描述和高美觀圖像的篩選對模型最終的效果至關重要。因此，我們制定了機篩加人篩的數據篩選策略，并運用多模態大模型對其進行精細文本標簽打標，在少量數據上進行了人工標簽修正。以下是數據示意：134|智能創意在具體的基礎模型迭代中，我們提出了一個兩階段模型微調方法，通過模型微調和模型融合使得 EcomXL 在適配電商

291、場景的同時，可以較好的保持 SDXL 優秀的語義理解能力，同時保持對社區生態的兼容性。3.2.1 模型微調-去噪步數加權的蒸餾法全參數模型微調帶來的挑戰是語義退化以及鏈路適配的問題。相比于基礎模型本身通過億級別的圖文對訓練，在少量數據上直接進行微調，雖然在微調樣本上表現良好，但是泛化性下降，特別是體現在語義退化上。其次，全參數微調也會下降社區Controlnet 和微調后基礎模型的適配性。為緩解上述問題，我們前期探索了部分參數微調、可插拔的 Lora 等等方案，在生成效果和后期迭代便利上都遇到不少挑戰。我們提出了一種基于去噪步數加權的蒸餾方法，參考過往學者工作有將信噪比 SNR(signal-

292、to-noise ratio)應用于擴散模型加速采樣 4 和加速訓練 5 的有效性，我們使用時間步數 t 的函數作為加權權重，從訓練約束的角度對 SDXL 模型進行微調。該方法在去噪損失函數的基礎上加入了一個蒸餾損失，并通過一個參數來控制對總損失函數的貢獻度。去噪前期，的值較小，較小，蒸餾損失函數主導總損失函數，使微調模型預測噪聲對齊語義良好的原始模型；去噪聲后期，SNR 增加，蒸餾損失權重不斷減小，預測圖片分布逐漸對齊微調數據集。其中，擴散過程中 t 步的噪聲，和為去噪過程中微調模型和原始模型分別預測的 t 步的噪聲。為超參數，用于調節蒸餾強度。其背后的思考是，去噪過程為 coar

293、se-to-fine 的過程，初期主要生成的是整體的輪廓與布局，而后期則重點生成細節信息。如人像場景中，去噪前期模型生成身體/發型/背景的大致輪廓，去噪后期則生成面部、服飾等細節。我們的微調任務往往重在后期視覺細節的優化，而盡量保持前期語義理解。135|智能創意3.2.2 模型融合-分層加權融合為進一步提升微調模型對原始模型社區生態的兼容性，我們采用了模型融合策略，在構建 SDXL 的影響矩陣基礎上，秉持“最大收益-最小改動”原則來進行新老模型的分層融合，在最小改動原始模型權重的基礎上，把微調模型優勢注入其中。模型融合公式如下：其中，,和分別表示融合模型、基礎模型和微調模型的第層的權重。為

294、第層的融合系數。雖然模型融合作為社區解決小樣本微調導致過擬合問題的常規手段，但現階段社區尚缺乏 SDXL 對生圖效果的影響矩陣。對此，為實現更精細融合，我們先對其影響矩陣進行總結。首先根據 SDXL UNet 結構將層進行歸并劃分為如上所述 19 個最小融合單位。隨后，通過控制變量法探討各個層對于生圖效果的影響。以人像優化為例，我們將模型 1 的權重用模型 2 的對應層權重替換來探尋對于人臉生成影響較大的層。在隨后的模型融合中，我們僅對人臉影響較大的層進行權重的加權融合，而其他層維持舊模型的權重?？刂谱兞糠ǖ牟糠挚梢暬Y果如下，可見 UNet 深層(如 IN08、M00、OUT01)相較于淺

295、層（如 IN04）對人臉具有更大影響。136|智能創意3.2.3 對比效果EcomXL 在適配電商生圖的同時，較大程度地保留了原模型的固有優勢，其與原始SDXL 模型在直接圖像生成的效果對比如下：137|智能創意四、EcomXL-ControlNetEcomXL 還處于在文生圖階段進行基礎 t2i 模型的優化，實際在用戶對主體摳圖之后還會進行多個控制網絡 Controlnet 的聯合生成。聯合生成的目標是既能夠保持前景真實、又要背景足夠豐富、還要前后景良好的融入效果。使用社區開源的 SDXL inpainting/softedge Controlnet，在大規模測試之后，我們發現了不少效果上的

296、問題?？偨Y起來可以分為三類：(1）搭配商品圖的背景生成；(2）服飾控制下的肢體生成；(3）邊緣控制下的元素生成。為解決以上問題，我們針對電商場景，從淘寶收集了千萬級高質量商品數據，利用多模態大模型對其打標，同時進行了實例級別分割、邊緣提取等預處理操作。在此基礎上，訓練了電商版 SDXL 版 Inpainting/Softedge Controlnet，稱作EcomXL-ControlNet。4.1 Inpainting ControlnetInpainting ControlNet 的作用是進行圖像補全：根據圖像的已知前景圖像，控制基礎模型生成其余部分的圖像。社區普遍使用隨

297、機 Mask 遮擋圖像訓練 Inpainting ControlNet，使網絡學習通用的圖像補全能力。而在電商場景下，圖像的已知前景通常為商品本身，具有完整的結構，同時待補全的部分通常為背景與模特肢體。我們希望模型能夠在根據已知前景圖像補全背景的同時，避免對商品本身進行不必要的擴展，降低商品邊緣異常等問題的概率。同時，我們還希望模型可以在圖像的已知前景為模特、服飾時，補全缺失的人體結構，緩解肢體無法生成與肢體畸形的概率。因138|智能創意此，我們提出了兩階段的 Inpainting ControlNet 訓練方案：第一階段：基于通用數據使用隨機 Mask 訓練。第二階段：基于電商數據使用實例

298、Mask 微調，提高了前景維持、背景搭配、肢體生成的能力。4.2 Softedge ControlNetSoftedge ControlNet 的作用是進行邊緣控制：根據 Softedge 邊緣圖像，控制基礎模型生成邊緣一致的圖像。在電商場景中，Softedge ControlNet 除了用來控制商品邊緣外，還有著控制搭配元素生成的作用。我們使用了千萬級別的高美觀度數據訓訓練了 Softedge ControlNet，數據來源包括開源和內部數據集、淘寶電商數據等。相比社區模型在邊緣控制，邊緣發光等問題上都有了明顯的改善。此外，我們使用hed、pidinet、pidisafe 等常用的 edge

299、預處理器混合使用的方式進行訓練，對不同預處理器都有很好的適應能力。五、EcomXL 下 3 秒快速出圖EcomXL 在推理耗時以及顯存開銷都有大幅增長，特別是更長的推理時間對客戶體驗帶來挑戰，跟進到社區有關 LCM 一致性模型的相關工作。我們提出了一種新的推理加速模型 SLAM（Sub-path Linear Approximation Model），可將推理從 25 步降低至 4 步，同時相比社區 LCM 在相同步數下取得更好生成效果。該工作已整理成論文：https:/arxiv.org/abs/2404.13903，并已上線到萬相實驗室。139|智能創意5.1 一致性模型 SLAMLCM

300、通過縮小相鄰兩個點間的映射誤差來逐漸達到一致性，但這也引入了較大的累積誤差，導致其一步生圖時細節丟失較多，通常需要更多的推理步數來提升效果。針對這一問題，我們提出了子路徑線性近似模型 SLAM（Sub-path Linear Approximation Model）。SLAM 為所有相鄰點構建了線性子路徑，并通過在該路徑上的隨機線性插值采樣來完成連續的漸進式誤差估計，使得整個學習過程更加平滑。其流程如下圖所示：由于 SLAM 優化了相鄰點間的映射誤差，所以其完整去噪映射過程的累積誤差也得以降低，從而提高了低步數下的生成質量。如下 SLAM 和 LCM 方法的指標對比，SLAM 在 2 步的效

301、果與 LCM 在 4 步的效果相當。如右側示意圖，SLAM 的線條和紋理較 LCM 更清晰，生成細節更準確。5.2 靈感推薦結合 EcomXL 和 SLAM 的快速生圖能力，萬相實驗室提供了全新的“靈感推薦”功能。在日常并發負載下，實現 3 秒內完成生成推理過程，疊加預處理和風控后處理，整體用戶體驗時間縮短到 5 秒內。從而助力客戶更高效地嘗試不同的生成風格。140|智能創意六、業務效果評估6.1 評估方法為有效評估 EcomXL 對于業務最終效果的影響，我們將其與線上的 Ecom1.5 進行了離線和在線的對比。其中，離線對比以視覺可用率、1 vs.1 勝率作為評估指標；在線對比以線上采納率為

302、評估指標，來最直觀反映用戶對于生圖結果的滿意程度。視覺可用率：從模特語義屬性和肢體畸形、商品摳圖邊緣和異常延展、背景構圖邏輯和語義觸發等角度評估生成圖片的可用度。1 vs.1 勝率：采用成對圖像盲測的測評方式，多位設計師通過個人專業角度投票選出其中更美觀的一張。從而計算 Ecom1.5 和 EcomXL 的各自勝率。在線采納率：萬相實驗室一次生圖請求產生 4 張不同種子點圖像，在圖像的粒度進行模型的打散，計算每個模型下載率=下載圖片數量/生成圖片數量。6.2 線上效果相較于線上的 Ecom1.5，EcomXL 在視覺可用率（+5pt）、1 vs.1 勝率（+2.8pt）和線上采納率（+2pt）

303、均顯著提升，因此，已經作為主模型裝配到了阿里媽媽萬相實驗室。兩者更多對比效果如下：141|智能創意七、總結我們從人物/電商風格生成、控制能力配套以及推理提速多個角度分析了 SDXL 應用在電商場景的不足，在進行優化后整理了一套綜合解決方案 EcomXL（hugging-face-ecomxl，huggingface-slam），該方案已全量上線到萬相實驗室。期待未來能夠朝著給客戶提供秒級實時、逼真靈動的生成效果的目標，與業界同行一起努力探索更優秀的 AIGC 圖像生成算法。HuggingFace 項目鏈接（復制鏈接到瀏覽器訪問）：EcomXL:https:/huggingface.co/col

304、lections/alimama-creative/ecomxl-662f1f0dac05b4f7c20fcde6SLAM:https:/huggingface.co/collections/alimama-creative/slam-662f1dd31d5c8cd0b3acb0e0參考文獻1 Betker J,Goh G,Jing L,et al.Improving image generation with better captionsJ.Computer Science.https:/ Chen J,Yu J,Ge C,et al.PixArt-:Fast Training of Di

305、ffusion Transformer for Photorealistic Text-to-Image SynthesisJ.arXiv preprint arXiv:2310.00426,2023.3 Dai X,Hou J,Ma C Y,et al.Emu:Enhancing image generation models using 142|智能創意photogenic needles in a haystackJ.arXiv preprint arXiv:2309.15807,2023.4 Salimans T,Ho J.Progressive distillation for fa

306、st sampling of diffusion modelsJ.arXiv preprint arXiv:2202.00512,2022.5 Hang T,Gu S,Li C,et al.Efficient diffusion training via min-snr weighting strategyJ.arXiv preprint arXiv:2303.09556,2023.143|智能創意懂你，更懂電商：阿里媽媽推出淘寶星辰視頻生成大模型及圖生視頻應用阿里媽媽技術【淘寶星辰】是由阿里媽媽基于自研的淘寶星辰視頻生成大模型推出的視頻 AIGC工具?！咎詫毿浅?圖生視頻】工具已重磅上線，

307、并對淘寶天貓商家正式開放！體驗地址：https:/ 掃碼閱讀原文查看視頻效果144|智能創意一、淘寶星辰：懂你，更懂電商！依靠先進的自研大模型、海量的電商數據、豐富的設計語言和業內領先的營銷經驗，【淘寶星辰圖生視頻】工具在電商視頻生成中展現出以下核心優勢：更懂商品的展示手法：基于豐富的電商數據和設計經驗，自動識別并應用最適合不同類別商品的展示手法。從產品細節的精準呈現到整體風格的統一協調，確保每一件商品都能以最佳方式展示。更強的多語種語義遵循能力：深度理解參考圖片和多語種指令（中/英），精準捕捉文本指令中的關鍵動作信息，確保生成視頻與用戶意圖高度契合。合理的物理和動作規律：嚴格遵循物理規律

308、和動作規范，確保畫面流暢自然，避免出現不符合現實的畫面效果，提升視頻的真實感和專業度。穩定的人物、商品和裝飾保持：無論是人臉、商品、還是文字、貼紙等裝飾元素，始終保持清晰、完整、無抖動或變形，提升視覺一致性。二、淘寶星辰視頻生成大模型在主流 AIGC 背景下，視頻生成早已不是單純的生成算法優化和應用，而是一個更加復雜的、系統性的算法工程，其中人、數據、模型、算力是最核心的四個因素。在 2024 年 3 月，我們基于 Unet Diffusion Model 路線研發并上線了阿瞳木動效視頻，實現了視頻 AIGC 在電商場景的首次應用落地，在業內產生了一定的傳播度和影響力。但是，由于技術路線、數據

309、等多個因素的限制，阿瞳木動效視頻在畫面穩定性、內容可控性、目標與動作豐富性等關鍵要素上，仍然存在較大的進步空間。從去年 3 月至今，我們在視頻 AIGC 方向上堅定地持續投入。通過算法、數據、工程等眾多團隊的密切協作，我們完成了面向生成任務的數據飛輪、自研 3D VAE、自研淘寶星辰視頻生成大模型（包括 Tbstar-T2V、Tbstar-I2V、Tbstar-V2V 等）等多個關鍵模塊和模型從 0 到 1 的建設。目前，Tbstar-I2V 大模型已經應用于【淘寶星辰圖生視頻】工具中，為用戶提供更懂電商的圖生視頻功能。145|智能創意淘寶星辰視頻生成大模型三、更懂電商的圖生視頻3.1 操作

310、便捷僅需輸入一張靜態圖片，淘寶星辰可根據對圖片的理解直接生成視頻，也可遵循用戶輸入的文本描述生成視頻，一鍵生成高質量的 5 秒視頻?！咎詫毿浅?圖生視頻】工具146|智能創意3.2 更懂商品的展示手法以更懂電商的方式展示服飾和非服飾商品，尤其是對模特動作的流暢性和專業性提升顯著。prompt：一個模特臉上帶著酷酷的表情展示衣服147|智能創意prompt：模特拿著咖啡，走向鏡頭，展示衣服prompt：懸浮的氣泡和水滴飄動prompt：商品不動，植物隨風搖動，云霧移動148|智能創意3.3 更強的多語種語義遵循能力深度理解參考圖片，支持中英輸入，精準捕捉文本指令中的關鍵動作信息，確保生成視頻與用

311、戶意圖高度契合。prompt：模特拿手機擋著臉，對鏡自拍展示衣服prompt：男生把手搭在女生肩膀上，兩人靠在一起149|智能創意3.4 專業的光影效果根據參考圖片和用戶，推理光線變化，生成電影質感的光影效果。prompt：一個女人的臉部特寫，創造出柔和的陰影和高光prompt：光線緩慢移動，創造出動態的陰影,背景保持不變，突出了人物面部和裝飾的微妙變化150|智能創意3.5 穩定的人物、商品和裝飾保持尤其針對電商圖片中常見的文字、貼紙等裝飾元素，始終保持清晰、完整、無抖動或變形，提升視覺一致性。prompt：一個女模特對著鏡頭展示衣服prompt：鏡頭后退，女模特走向鏡頭，展示衣服151|智

312、能創意四、高品質低成本的原生化應用結合解說視頻、模版視頻等后期剪輯類工具，實現高品質、原生化電商視頻的低成本智造，應用至主流電商場景，以及泛娛樂場景。應用 1：商品主圖視頻供給單張商品主圖一鍵生成主圖視頻。單張主圖 vs 主圖視頻152|智能創意應用 2：賣點吸睛視頻根據多張模特圖分別生成視頻片段，采用模版視頻方式制作商品短視頻，添加轉場、特效和文字，快速生成吸睛的產品展示視頻。153|智能創意應用 3：種草內容視頻根據多張商品圖分別生成視頻片段，采用剪輯視頻方式制作商品短視頻，配備解說、字幕等，生成商品種草視頻。154|智能創意應用 4：服飾一體化解決方案“模特圖”或“平鋪圖”+虛擬模特，都

313、能輕松生成多樣化服飾視頻。不同 SKU 平鋪圖|虛擬模特穿搭圖|多 SKU 服飾視頻155|智能創意應用 5：虛擬試穿視頻根據用戶虛擬試穿圖片一鍵生成虛擬試穿視頻，模擬服飾的真實上身效果。用戶虛擬試穿圖用戶虛擬試穿視頻156|智能創意應用 6：UGC 場景視頻化UGC 圖片一鍵轉為視頻，提升視頻供給，例如評價、買家秀、逛逛等。應用 7：泛娛樂場景AIGC 時代可以不活但不能沒活兒 prompt：超級英雄和恐龍在沙灘上慢慢散步，背景是城市的天際線157|智能創意乘風破浪，川流入海 LLM 在阿里媽媽智能文案的應用次況 1.引言在現代廣告系統中，文案是不可或缺的一部分，幾乎參與了廣告素材的各個地

314、方。隨著 NLP 技術的極速發展，廣告主逐漸學會并習慣使用文案生成工具直接或者間接的參與到廣告的制作中，這為 NLP 技術在廣告場景的應用提供了巨大的潛力和機會。阿里媽媽智能創作與 AI 應用團隊在廣告文案方面做了長期的工作，并積累的一定的技術能力。圖 1：智能文案應用場景舉例2022 年底，ChatGPT 的橫空出世，為 NLP 技術的發展的應用打開了新的局面。面臨大模型的時代潮流，是否使用大模型、怎么樣使用大模型、怎么樣更好的使用大模型、大模型能給廣告文案生成帶來哪些變化，是團隊亟需探索、研究和嘗試回答的問題。本文從業務背景出發，嘗試通過分析大模型在智能文案上的應用，對上述問題進行探索和分

315、析。首先我們從智能文案面向的業務出發，討論智能文案生成業務面對的困難及大模型可能帶來的提升。然后總結了在面對如雨后春筍般涌出的中文大模型時的選型過程和方法。在怎么樣更好的使用大模型方面，我們主要從數據源和訓練方法進行了討論。在大模型落地到廣告智能文案生成后，給業務帶來了一定的提效。最后，在使用大模型的過程中，我們發現了一些可能的問題，并嘗試對未來的發展進行展望。158|智能創意2.模型的選擇2.1 模型那么大，我想試試看大語言模型在 NLP 方面的強大能力和巨大潛力已經為大家所公認，但是這是否意味著所有的自然語言處理任務都應該使用大語言模型來處理呢？答案顯然是否定的，不管是從開發成本還是服務成

316、本上來說，大語言模型的花費都是巨大的。大模型的落地顯然要充分考慮到應用場景的特點后進行選擇和決定。從阿里媽媽智能文案創意業務的角度來看，主要面臨著以下幾個挑戰：圖 2：廣告智能文案業務1.文案種類要求多。智能文案面向直通車、展示、外投、工具等多種服務場景，每個場景都有其特定的文案種類和風格要求，加上上下游各種文案預處理和后處理模型，文案支持涉及的模型池巨大。包含從傳統的 NLP 算法到大規模神經網絡算法的各種類型，從分類到生成的各種任務，開發時間從幾年前到幾個月前。這耗費了前人無數心血，結合眾多的業務邏輯的文案服務，在很好的支持了現有文案生成服務之外，也帶來較大的維護成本，后續的開發和迭代相對

317、困難。分久必合，一個功能強大的、能同時支持多個文案種類的模型，會給算法和模型的維護、開發迭代、升級改進、服務擴展等都帶來收益。2.文案內容要求豐富。作為智能文案，大多數服務的最終出口是生成和商品相關的創意文案，這對文案的創造性有很強的需求。一個能夠根據商品信息生成更具創意的文案，自然會提升廣告的投放效果。大模型有著強大的基礎寫作能力和創意能力，在廣泛的世界知識的基礎上進行創意生成，可以極大的擴展創意的豐富度。159|智能創意3.新興創意業務的需求。隨著短視頻潮流的席卷而來，對廣告創意也有了進一步的需求。在圖文創意的基礎上，視頻類創意的需求逐步增加。面對從看文案到聽文案的轉變，從短文案到長文案的

318、需求，文案創意需要提升文案服務能力，服務更多的新興業務，支持新興需求。大模型在這方面同樣有著很強的潛力?；谏厦娴目紤]，我們選擇使用大模型來對現有的文案種類進行統一收口和支持，降低服務的支持維護和開發更新的難度。同時利用大模型強大的寫作能力，提升文案創意的豐富度，擴展文案創意的新表現形式，滿足更多場景的文案需求。2.2 模型那么多，我用哪一個在過去的一年里，大模型的迭代速度和相關工作爆發式的增長，可供選擇的底模玲瑯滿目。面對魚龍混雜的龐大的開源大模型庫，選擇和業務適配的大模型就是一個亟待解決的問題。評價指標為了對比和選擇模型，首先需要確定評價指標?；趶V告文案創意的業務背景，我們將評價指標首先

319、分為客觀和主觀?？陀^指標主要包括模型對于輸出的控制能力，例如能否滿足字數要求、能否滿足輸出格式要求、能否區分不同業務的文案等?？陀^指標基于指標定義制定評測流程即可。圖 3：指標分類圖160|智能創意主觀指標參考人對廣告文案的判斷標準，總結人對優質文案的喜好，分為了文案的流暢度、文案的優美度、和商品信息的對應關系等。主觀指標的評測相對比較復雜，原則上來說應該通過細化評價維度和標準、眾包人工評測來完成。但是人工評測方法成本高、周期長，對模型的迭代不友好。業內另一種相對成熟的評測方式是使用更強大的模型進行評測，例如 GPT 系列模型。通過人工標注和 GPT 標注結果進行對比我們發現，GPT 和人工標

320、注結果的趨勢基本相似，且 GPT 在標注上更加的一致。因此最終選用 GPT 作為評價標注，對比兩個模型的輸出進行選擇得到模型勝率，作為模型的評分。在前期的測評中我們發現，GPT 存在較為明顯的“端水”現象，且存在于多個指標的內和外。在一個指標內，除非兩個文案有明顯的大的差別，否則 GPT 傾向于打平，導致最終的打分區分度不足。而在多個指標之內，GPT 會自然的傾向于在不同指標之間維持平衡，在一個指標上的上升往往會伴隨著另一個指標的下降。為了解決上面兩個問題，我們通過調整 prompt，指定 GPT 做互斥評價，在兩個文案中必須選擇一個。同時多個指標通過不同的 prompt 分別進行打分，避免指

321、標之間的互相影響。模型系列的選擇參考社區的下載量和評論等，我們首先將選擇范圍限定在 LLaMA 的中文版、Baich-uan 系列、ChatGLM 系列和 QWen 系列等。具體的模型背景在此不再贅述。LLaMA-Alpaca-Chinese、Openbuddy-LLaMA2 等以 LLaMA 系列模型為基礎的中文模型，對原始詞表進行擴展，從而支持更多的中文字符。同時使用中文數據進行 CT 和 SFT，使得模型獲得在中文上的指令跟隨能力。Baichuan、ChatGLM、QWen 等是原生的中文大模型。我們首先測試了直接使用 prompt 進行 zero-shot 的文案生成。通過精心設計pr

322、ompt，模型的回答滿足了一定的流暢度和優美度的要求，對于文案風格的需求也可以在一定程度上滿足。但是對于字數限制、格式需求、更加精細的文案需求，通用的大模型距離可用還有一定的差距。因此我們收集了一批廣告文案生成的文本數據，經過簡單的 SFT 之后，再對模型的能力進行評測。在客觀指標方面，包括文案輸出格式、文案數量控制、文案字數控制上，各個模型的表現都相對較好，能夠輸出符合要求的文案格式，文案數量控制的準確率都超過了97%。在文案字數控制上，Openbuddy-LLaMA2 表現相對較差，輸出文案長度不161|智能創意在合理的范圍內的超過 3.5%，其次是 ChatGLM、Baichuan，QW

323、en 在字數控制上表現最好。值得注意的是，原生的中文大模型都顯著的好于 LLaMA 的中文版，但中文大模型之間的差距較小。有趣的現象出現在主觀指標上。Baichuan 和 ChatGLM 像是浪漫的詩人遇到了嚴謹的學者，在文案的流暢、優美等方面，Baichuan 都表現出了明顯的優勢，發揮了豐富的想象力，但是商品的準確率略差。QWen1 雖然在流暢度和商品準確方面好于Baichuan，在優美度上也是落了下風。LLaMA 的中文版相對來說表現最差，在所有指標上均沒有顯出明顯優勢。在后續的持續迭代中，我們也注意到，隨著開源模型的不斷改進，同一系列模型的效果也會有明顯的提升。例如 QWen1.5 模

324、型（QWen 模型的最新版本），相比Baichuan 系列、QWen1、ChatGLM 系列等模型，QWen1.5 模型的效果在客觀指標上基本持平，但在所有的主觀指標上均有明顯的提升?？紤]到廣告智能文案的業務特點，我們最終選擇了各方面都更加優秀的 QWen1.5 模型作為底模。模型參數的選擇除了不同的底模，模型的參數量也是我們需要考慮的因素。從直覺上來說，bigger is better，但是在具體的業務落地中，更多的參數會帶來更大的資源需求和更長的 RT。我們嘗試了 6B-14B 的中小規模的模型，并用上述的評估方法進行選擇。在客觀指標上，更大的模型確實會帶來更好的效果。同一系列的模型，增大

325、模型規?？梢砸欢ǔ潭鹊奶嵘Ｐ偷目刂颇芰?，QWen 系列的 14B 模型比 7B 模型，在文案字數控制能力上有了一定的提升，字數波動的范圍也更小。但是在主觀指標上，更大的模型并沒有帶來明顯的性能提升。我們猜測，對于固定種類的文案生成任務，我們的文案類別尚沒有達到小規模模型的上限。同時考慮到對計算資源的需求，14B 模型相比 7B 模型存在質變，14B 模型需要經過量化才能在單卡 A10 提供服務，而 7B 模型通?？梢栽?FP16 下載入。更小的顯存占用，也可以通過 batch 的方法顯著的提升平均文案生成速度。因此我們最終選擇了QWen1.5-7B 的模型提供服務。162|智能創意3.模型訓

326、練3.1 數據準備為了實現大模型在廣告文案場景的落地，高質量、多樣化的數據是重中之重。得益于團隊長久以來的工作，我們積累了大批量的數據，難點主要在于數據清洗。圖 4：數據準備純文本數據的清洗相對比較直接。我們基于業務場景需要，定義了多種文案類型及其特點，包括長短文案的字數、輸出格式等，使用多樣化的規則對海量數據進行清洗，并基于商品類目覆蓋、輸出字數覆蓋、輸出數量覆蓋等多樣性標準進行了篩選和過濾，最終形成了純文本的訓練數據。此外，由于文案還被用于視頻解說等場景，對文案的口語化、吸睛開頭、各種有趣形象的描述也有了進一步的要求?；诖?，我們增加了高質量的視頻解說數據，以增強模型的口語化能力，并產出更

327、吸引人的高質量的文案。我們從線上的高質量視頻數據出發，通過 ASR、OCR 增強和修復等方法，獲得了高質量多樣化的口語化文案數據。最后，利用更強大的大模型進行數據生成也是一種重要的獲取數據的手段。針對新興的、沒有存量數據或難以獲取存量數據的文案需求，我們根據文案的特點和要求，使用更強大的大模型，例如 GPT4 等，作為生成器，通過 prompt 工程和 answer 163|智能創意engineering，生成了高質量的數據，增強的較小規模模型的生成能力。同時，為了盡可能的保留模型原始的指令跟隨能力，避免模型在業務數據上過度訓練，完全擬合成為業務特點模型，我們還收集了通用的指令跟隨數據集，以供

328、在訓練中進行數據混合。3.2 訓練過程為了更好的對大語言模型進行微調，眾多的微調方法被開發出來，例如 Prompt Tuning、Prefix Tuning、P-Tuning、LoRA 等，deepspeed 和 ZeRO 等優化模型顯存占用和模型并行的方法也極大的降低了微調大模型的難度。我們嘗試了P-Tuning、LoRA、全參數微調后，最終選擇了全參數微調作為主要的訓練方法。4.效果大模型的使用，為廣告智能文案業務打開了新的局面。一方面，我們可以接受更大量的文本信息的輸入，從商品的標題、屬性，到商品詳情頁的文本，大模型強大的理解能力，為我們打開了輸入的大門。另一方面，大模型能夠生成更加

329、高質量的文案，完成對原有文案的替換和升級，打開了文案優選的候選池，打破了原有文案生成的能力邊界，讓智能文案生成的可能性和發展方向更加的多元。我們的文案生成大模型，集成了多種類型的文案生成能力，并對外提供統一的服務。圖 5：智能文案生成流程164|智能創意4.1 原有文案的升級和替換基于大語言模型，我們對原有的文案生成能力進行了統一的升級和替換。針對原有文案生成能力分布在多個模型的問題，我們使用統一的大模型進行了替換，并使用不同的 prompt 進行能力的激發和提供服務，提升了文案服務的易維護性和易用性。在悉語文案生成工具中的通用場景文案生成功能中，我們提供的 4 種 10 條文案均出自同一個模

330、型，生成的文案相比原有文案質量高、表述多樣。流量實驗證明，我們的新文案相對老文案，用戶的采納率有明顯提升。圖 6：悉語智能文案工具改進效果對比通過例子也可以看出，新模型提供的相同類別文案可以描述商品的不同的特點，更加多樣化。長文案擺脫了過于模式化的表達，增強的文案的吸引力。在外投場景中，受限于原有模型的生成能力，為商品生成的外投標題相對比較單一，且存在較多的 bad case，例如商品和標題關聯性弱等問題，導致需要人工復核，文案生成成本高且效率低，線上覆蓋率很低。我們使用大模型生成了多種長度、多種風格的外投標題，使得外投標題更加易讀且提現商品特點，極大的提升了智能文案的覆蓋率，支持了多個外投場

331、景的落地。4.2 原有業務的升級原有業務，例如直通車、外投等，受限于文案生成能力，對外輸出文案以原始的商品名稱和模式化相對嚴重的數據統計類文案為主，文案的可讀性和吸引度都不高。在大165|智能創意模型強大的文案生成能力的加持下，我們根據業務特點，生成了表達通順、多樣化、有吸引力的文案。在直通車場景中，我們主要擴展了多種表述風格的商品摘要。通過挖掘商品信息輸入大模型中，生成了描述商品賣點的、風格化的商品摘要，例如浮夸風、科普風等。流量實驗表明，浮夸風和科普風均有相當的提效。將風格化摘要文案加入文案優選池后，顯著提升了廣告效果。圖 7：直通車摘要改進效果在混剪工具中，受限于原有模型的長文案生成能力

332、，剪輯得到的視頻僅使用背景音樂，而缺乏商品解說。繪剪工作同樣如此。我們將大模型生成的長文案引入混剪和繪剪中，支持設計亮點、賣點講解、網紅推薦、買家體驗、凡爾賽文學、大促優惠等風格的文案解說，擴展了視頻生成能力，為廣告主提供了更全面的廣告內容。166|智能創意圖 8：智能文案引入繪剪和混剪4.3 新業務的擴展和探索更準、更好、更吸睛的文案生成在基礎的文案生成能力已經得到較大的滿足后，我們將目光放在了高質量文案的生成方面。相比于簡單的、平鋪直敘的產品解說，有著精致的開頭、形象化的表達、極強的感染力和號召力的視頻文案無疑更能得到廣告主和消費者的青睞。同時，優質文案的生成，也對文案的可控性有了更強的需

333、求，控制精準的、廣告主深度參與的文案生成也是一個很重要的命題?；诖?，我們對模型的口語化水平、高質量開場白、形象化描述、文案可控性等進行了增強訓練。我們篩選了高質量的商品解說視頻，通過ASR 獲取其文案，并通過 OCR、文本分類、大模型等對文案進行訂正和關鍵信息提取，同時使用重放策略，加強輸出和輸出之間的連續，增強可控性?；谏厦娴母倪M，我們對視頻文案進行了升級，使得生成文案更適合視頻解說，且更加的高質量。結合團隊積累的視頻相關技術，為廣告主提供了高質量的多模態創意。更可解釋、可合理的關鍵詞關鍵詞是廣告召回階段重要的一環，聯系了人、貨、詞。原有的關鍵詞來源相對局限，和商品強相關而與用戶意圖聯系不強。借助于大模型長上下文的信息總結能力，我們從用戶意圖和更廣泛的商品信息中，提取了關鍵詞，實現了對關鍵詞的升級和更新。大模型生成的關鍵詞，在來源上，從標題擴展到了商品屬性、商品詳情頁等；從語義上，是

相關圖表

本文主要介紹了阿里媽媽在廣告自動出價、召回/預估模型、強化學習、多模態信息處理等方面的技術實踐與創新。 1. 自動出價方面，阿里媽媽提出了AIGB（AI-Generated Bidding）模型，通過生成式模型捕捉歷史投放軌跡數據中的相關性，生成符合優化目標的出價策略，并在實際廣告平臺中取得了顯著效果。 2. 在召回/預估模型方面，阿里媽媽提出了基于原生圖文信息的多模態預估模型，通過對比學習獲得蘊含電商業務語義的多模態表征，并設計了SimTier和MAKE算法，有效提升了預估模型的性能。 3. 在強化學習方面，阿里媽媽從跟隨到引領，不斷探索新的算法，如Offline RL-based Bidding、Online RL-based Bidding等，以解決自動出價場景中的序列決策問題。 4. 在多模態信息處理方面，阿里媽媽提出了混合模態專家模型，通過特征融合和輸出融合的方式，將離散ID模態和圖文內容模態進行有效融合，提升了用戶興趣建模的能力。 5. 在優勢特征蒸餾方面，阿里媽媽提出了CLID（Calibration-compatible Listwise Distillation of Privileged Features）方法，通過設計準度兼容的listwise蒸餾損失，在提升模型排序能力的同時保持模型的準度。綜上，阿里媽媽在廣告智能決策領域進行了大量創新實踐，取得了顯著的業務效果，為業界提供了有價值的參考。

阿里媽媽技術如何利用生成式模型優化廣告自動出價？展示廣告多模態召回模型如何提升用戶興趣建模能力？優勢特征蒸餾如何同時提升預估模型的準度和排序能力？

相關報告

阿里媽媽：2024阿里媽媽技術年刊（304頁）.pdf

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站