Large-scale online deanonymization with LLMs

Privacy AI Security ⭐⭐⭐⭐

摘要
首次展示大型语言模型可被用于规模化在线去匿名化。只需给定匿名在线档案和对话，LLM即可高精度重新识别用户，匹配原本需要专业调查员数小时的工作。

            核心亮点
            跨平台匹配能力：可将Hacker News用户与LinkedIn资料关联，或匹配Reddit不同社区的同一用户
惊人的准确率：LLM方法达68%召回率@90%精确率，传统方法接近0%
三种实验设置：HN→LinkedIn跨平台、Reddit电影社区用户匹配、同一用户时间分割匹配
隐私威胁：在线匿名用户不再安全，威胁模型需要重新考虑

        

技术细节

与传统去匿名化方法（如Netflix奖数据集）需要结构化数据不同，该方法直接在任意平台的原始用户内容上工作。攻击流程包括：

提取身份相关特征
通过语义嵌入搜索候选匹配
对顶级候选进行推理验证，减少误报

安全影响

这项研究表明，LLM已经打破了在线匿名性的实际保护。未来隐私威胁模型需要考虑：

匿名账户可能被轻松识别
跨平台追踪变得更容易
用户隐私保护需要新的技术手段

来源: arXiv 2602.16800 | 分类: cs.CR, cs.AI, cs.LG