Transforming Ads Personalization with Sequential Modeling and Hetero-MMoE

ML Ads Ranking Transformer MMoE ★★★★★

Source: Uber Engineering Blog | Date: March 10, 2026

核心摘要

Uber 广告系统升级:引入 Sequential User Features + Hetero-MMoE,显著提升广告个性化精度。

🚀 核心创新:
  • 用目标感知 Transformer 编码器保留用户行为时序信息
  • Hetero-MMoE 混合 MLP + DCN + CIN 专家网络,捕获高低阶特征交互
  • MLA 优化将复杂度从 O(N²) 降至 O(N×L)

为什么需要升级?

  • 旧架构问题: 静态聚合特征将丰富的时序行为flatten为统计摘要(总点击数、总曝光数),丢失了顺序、时效性和长期上下文
  • MMoE 局限: 传统 MLP 专家难以学习高阶跨特征交互,难以融合文本、图像、语义embedding等多模态输入

Sequential User Features

  • 事件序列: 每个用户交互历史构建为时间序列表
  • 特征: 商户UUID、菜系类型、时间(小时/星期几)、交互类型(点击/加购/下单)
  • Multi-hash Embedding: 用多个独立哈希函数将高基数特征映射到小 embedding 空间,参数效率高

Target-Aware Transformer Encoder

  • 将候选广告作为 Query,通过自注意力计算与用户历史事件的相关性分数
  • 模型聚焦用户交互序列中最相关的部分,捕捉长期用户意图
  • 引入 MLA (Multi-Head Latent Attention) 优化:使用固定大小的潜在 token 作为中介,两阶段注意力:Token→Latent→Token

Hetero-MMoE 框架

  • MLP 专家: 传统前馈网络,学习深度隐式特征交互
  • DCN 专家: Deep Cross Network,显式建模特征交叉
  • CIN 专家: Compressed Interaction Network,捕获高阶特征交互
  • 多任务学习同时优化 CTR 和 CTO (click-to-order)

架构图

完整流程:用户事件序列 → Multi-hash Embedding → Positional Encoding → Target-aware Transformer (MLA + FFN) → Hetero-MMoE (MLP/DCN/CIN Experts + Gating) → Task Towers (pCTR/pCTO)

原文链接

https://www.uber.com/blog/transforming-ads-personalization/