Large-scale online deanonymization with LLMs

Privacy AI Security ⭐⭐⭐⭐
摘要
首次展示大型语言模型可被用于规模化在线去匿名化。只需给定匿名在线档案和对话,LLM即可高精度重新识别用户,匹配原本需要专业调查员数小时的工作。

核心亮点

  • 跨平台匹配能力:可将Hacker News用户与LinkedIn资料关联,或匹配Reddit不同社区的同一用户
  • 惊人的准确率:LLM方法达68%召回率@90%精确率,传统方法接近0%
  • 三种实验设置:HN→LinkedIn跨平台、Reddit电影社区用户匹配、同一用户时间分割匹配
  • 隐私威胁:在线匿名用户不再安全,威胁模型需要重新考虑

技术细节

与传统去匿名化方法(如Netflix奖数据集)需要结构化数据不同,该方法直接在任意平台的原始用户内容上工作。攻击流程包括:

  1. 提取身份相关特征
  2. 通过语义嵌入搜索候选匹配
  3. 对顶级候选进行推理验证,减少误报

安全影响

这项研究表明,LLM已经打破了在线匿名性的实际保护。未来隐私威胁模型需要考虑:

  • 匿名账户可能被轻松识别
  • 跨平台追踪变得更容易
  • 用户隐私保护需要新的技术手段

来源: arXiv 2602.16800 | 分类: cs.CR, cs.AI, cs.LG