Transforming Ads Personalization with Sequential Modeling and Hetero-MMoE
核心摘要
Uber 广告系统升级:引入 Sequential User Features + Hetero-MMoE,显著提升广告个性化精度。
🚀 核心创新:
- 用目标感知 Transformer 编码器保留用户行为时序信息
- Hetero-MMoE 混合 MLP + DCN + CIN 专家网络,捕获高低阶特征交互
- MLA 优化将复杂度从 O(N²) 降至 O(N×L)
为什么需要升级?
- 旧架构问题: 静态聚合特征将丰富的时序行为flatten为统计摘要(总点击数、总曝光数),丢失了顺序、时效性和长期上下文
- MMoE 局限: 传统 MLP 专家难以学习高阶跨特征交互,难以融合文本、图像、语义embedding等多模态输入
Sequential User Features
- 事件序列: 每个用户交互历史构建为时间序列表
- 特征: 商户UUID、菜系类型、时间(小时/星期几)、交互类型(点击/加购/下单)
- Multi-hash Embedding: 用多个独立哈希函数将高基数特征映射到小 embedding 空间,参数效率高
Target-Aware Transformer Encoder
- 将候选广告作为 Query,通过自注意力计算与用户历史事件的相关性分数
- 模型聚焦用户交互序列中最相关的部分,捕捉长期用户意图
- 引入 MLA (Multi-Head Latent Attention) 优化:使用固定大小的潜在 token 作为中介,两阶段注意力:Token→Latent→Token
Hetero-MMoE 框架
- MLP 专家: 传统前馈网络,学习深度隐式特征交互
- DCN 专家: Deep Cross Network,显式建模特征交叉
- CIN 专家: Compressed Interaction Network,捕获高阶特征交互
- 多任务学习同时优化 CTR 和 CTO (click-to-order)
架构图
完整流程:用户事件序列 → Multi-hash Embedding → Positional Encoding → Target-aware Transformer (MLA + FFN) → Hetero-MMoE (MLP/DCN/CIN Experts + Gating) → Task Towers (pCTR/pCTO)