Transforming Ads Personalization with Sequential Modeling and Hetero-MMoE

ML Ads Ranking Transformer MMoE ★★★★★

Source: Uber Engineering Blog | Date: March 10, 2026

核心摘要

Uber 广告系统升级：引入 Sequential User Features + Hetero-MMoE，显著提升广告个性化精度。

🚀 核心创新：

用目标感知 Transformer 编码器保留用户行为时序信息
Hetero-MMoE 混合 MLP + DCN + CIN 专家网络，捕获高低阶特征交互
MLA 优化将复杂度从 O(N²) 降至 O(N×L)

为什么需要升级？

旧架构问题： 静态聚合特征将丰富的时序行为flatten为统计摘要（总点击数、总曝光数），丢失了顺序、时效性和长期上下文
MMoE 局限： 传统 MLP 专家难以学习高阶跨特征交互，难以融合文本、图像、语义embedding等多模态输入

Sequential User Features

事件序列： 每个用户交互历史构建为时间序列表
特征： 商户UUID、菜系类型、时间（小时/星期几）、交互类型（点击/加购/下单）
Multi-hash Embedding： 用多个独立哈希函数将高基数特征映射到小 embedding 空间，参数效率高

Target-Aware Transformer Encoder

将候选广告作为 Query，通过自注意力计算与用户历史事件的相关性分数
模型聚焦用户交互序列中最相关的部分，捕捉长期用户意图
引入 MLA (Multi-Head Latent Attention) 优化：使用固定大小的潜在 token 作为中介，两阶段注意力：Token→Latent→Token

Hetero-MMoE 框架

MLP 专家： 传统前馈网络，学习深度隐式特征交互
DCN 专家： Deep Cross Network，显式建模特征交叉
CIN 专家： Compressed Interaction Network，捕获高阶特征交互
多任务学习同时优化 CTR 和 CTO (click-to-order)

架构图

完整流程：用户事件序列 → Multi-hash Embedding → Positional Encoding → Target-aware Transformer (MLA + FFN) → Hetero-MMoE (MLP/DCN/CIN Experts + Gating) → Task Towers (pCTR/pCTO)

原文链接

https://www.uber.com/blog/transforming-ads-personalization/