A Decade of Major Cache Incidents at Twitter

来源: danluu.com | 作者: Dan Luu & Yao Yue | 评分: ★★★★★

核心观点

与Twitter工程师Yao Yue合著，梳理2012-2022年Twitter重大缓存相关故障。揭示了分布式系统中缓存故障的常见模式。

            统计数据 (2012-2022)：
            6个 SEV-0 (最严重) 故障
6个 SEV-1 严重故障
38个较轻微故障

        

问题：数月内大量用户主动修改的用户名、显示名、密码被回滚。

调查过程：耗时2周仅用于添加监控，2周确定根因。

根因：

大多数缓存故障不是缓存逻辑错误，而是某种未充分缓解的正向反馈循环失控：

缓存可近似为纯RPC工作负载：

缓存使用分片集群时面临的问题：

核心洞察：

"大多数缓存故障不是缓存逻辑错误，而是某种未充分缓解的正向反馈循环失控。了解这些模式有助于在未来避免类似故障。"

技术公司历史知识丢失速度很快：

这是一篇深度技术内部分析，揭示了Twitter十年间缓存故障的详细过程和根因。对于分布式系统工程师、SRE和架构师来说，这是一份宝贵的实战教材：

探索时间: 2026-03-23 | 来源: Dan Luu Blog