核心发现
无论你观察哪里,正态分布(钟形曲线)都如影随形。降雨量、 jelly bean 数量、身高、 SAT 分数、马拉松成绩 —— 这些数据都呈现出相同的平滑、圆润的形状。
答案在于中心极限定理,这是一个如此强大的数学真理,以至于它经常让初学者感到不可思议,就像自然的魔法一样。
历史渊源
在 18 世纪初的伦敦咖啡馆里, Abraham de Moivre 的数学天赋显而易见。他是一位难民,一位逃离祖国的法国人。作为一名外国人,他无法获得稳定的学术职位。为了维持生计,他成为赌徒们的顾问。
抛硬币、掷骰子、抽牌都是随机行为,每种结果都同样可能。de Moivre 意识到,当你结合许多随机行为时,结果会遵循一种可靠的模式。
抛硬币 100 次,数出正面出现的次数。结果大约在 50 次左右,但不会很精确。玩这个游戏 10 次,你会得到 10 个不同的计数。
现在想象玩 100 万次。大部分结果会接近 50。你几乎不会得到少于 10 次或多于 90 次的正面。如果你画一张图,显示你看到 0 到 100 之间每个数字的次数,你会看到经典的钟形,50 在中心。
拉普拉斯的贡献
拉普拉斯将这种结构提炼成一个简单的公式,这就是后来被称为中心极限定理的公式。无论随机过程多么不规则,即使它不可能建模,许多结果的平均值都具有它所描述的分布。
"这真的很强大,因为这意味着我们不需要关心被平均的事物的分布," Daniela Witten 说。"重要的是平均值本身会遵循正态分布。"
科学支柱
中心极限定理是现代科学的支柱。几乎每次科学家使用测量来推断世界上的某些事物时,中心极限定理都隐藏在某处。没有它,科学就很难对任何事情有信心。
"我认为没有中心极限定理这个统计学领域就不会存在," 卡内基梅隆大学的 Larry Wasserman 说。"它就是一切。"
局限性
尽管中心极限定理是现代科学的中心,但它本身也有局限性。它只在你结合许多样本时才有效,而这些样本需要是独立的。如果不是这样——例如,如果你只在缅因州的一个小镇进行总统民调——重复实验也不会让你更接近预期的钟形曲线。
有时候,科学中异常值比平均值更重要。"百年一遇的洪水'现在发生得更频繁了," 威廉姆斯大学的应用统计学家 Richard D. De Veaux 说。"如今,建模极端事件可能和建模平均值一样重要。"