Large-scale online deanonymization with LLMs
摘要
首次展示大型语言模型可被用于规模化在线去匿名化。只需给定匿名在线档案和对话,LLM即可高精度重新识别用户,匹配原本需要专业调查员数小时的工作。
首次展示大型语言模型可被用于规模化在线去匿名化。只需给定匿名在线档案和对话,LLM即可高精度重新识别用户,匹配原本需要专业调查员数小时的工作。
核心亮点
- 跨平台匹配能力:可将Hacker News用户与LinkedIn资料关联,或匹配Reddit不同社区的同一用户
- 惊人的准确率:LLM方法达68%召回率@90%精确率,传统方法接近0%
- 三种实验设置:HN→LinkedIn跨平台、Reddit电影社区用户匹配、同一用户时间分割匹配
- 隐私威胁:在线匿名用户不再安全,威胁模型需要重新考虑
技术细节
与传统去匿名化方法(如Netflix奖数据集)需要结构化数据不同,该方法直接在任意平台的原始用户内容上工作。攻击流程包括:
- 提取身份相关特征
- 通过语义嵌入搜索候选匹配
- 对顶级候选进行推理验证,减少误报
安全影响
这项研究表明,LLM已经打破了在线匿名性的实际保护。未来隐私威胁模型需要考虑:
- 匿名账户可能被轻松识别
- 跨平台追踪变得更容易
- 用户隐私保护需要新的技术手段
来源: arXiv 2602.16800 | 分类: cs.CR, cs.AI, cs.LG