统计学机器学习数据科学多重插补

When Data Is Missing, Scientists Guess. Then Guess Again.

来源: Quanta Magazine | ⭐⭐⭐⭐⭐ 5星

核心发现

在社会和生物科学中，统计学家使用一种利用随机性来处理未知数据的技术。这就是 Donald Rubin 在 1970 年代提出的多重插补（Multiple Imputation）方法。

                为什么重要？

                数据几乎总是不完整的。患者退出临床试验，受访者跳过问题，学校没有报告分数，政府忽略经济要素。当数据缺失时，标准统计工具（如取平均值）不再有用。

"我们不能对缺失数据进行计算，就像不能除以零一样，" 乌得勒支大学的统计学家 Stef van Buuren 说。

假设你正在测试一种新药来降低血压。你每周测量一次参与者的血压，但一些人失去了耐心：他们的血压没有改善太多，所以不再来。

你可以只保留完成研究的人的数据，这称为完整案例分析。但这可能是作弊。如果你排除没有完成研究的人，你正在排除药物效果最差的情况，使治疗看起来比实际更好。你已经使结果产生了偏差。

Rubin 在 1970 年代初提出了一个简单但深刻的解决方案：不要只插补一次，而是多次插补。

回到血压研究。一些患者不再来诊所。你会怎么做？如果使用单一插补，你可能假设任何离开研究的人永远保持他们最后一次测量的血压。

但可能有几个相似的案例你可以选择——用不同的值替换会导致非常不同的结果。你可能做出的所有不同选择给出了统计学家所说的缺失数据的预测分布。

Rubin 的方法考虑了这个分布。要使用它，首先复制你的数据集。对于一个副本中的缺失值，从你的分布中随机分配一个猜测。设计上，你更可能选择较好的猜测，但也有很小的机会选择不太合理的猜测。

这个过程反映了每个猜测的不确定性。对数据集中其他副本中的缺失值重复这些步骤。

填充所有缺失数据后，你可以分析每个完成的数据集。你将获得关于药物有效性的几个不同预测。然后你可以使用称为 Rubin 规则的配方来汇集你的结果并获得平均预测。

1970 年代初 Rubin 首次介绍他的技术时，许多科学家持怀疑态度。他们为什么要使用最佳猜测以外的任何东西？即使那些想要尝试的人有时也很难实现：如果他们的研究涉及人口普查数据，那么存储多个副本意味着管理数亿个数据条目。

到了 1990 年代，计算机内存和处理能力显著进步。van Buuren 和 Groothuis-Oudshoorn 发布了一个使科学家更容易使用多重插补的计算机程序。

2010 年，FDA 强烈建议反对单一插补和旧的临时方法。多重插补成为医学领域的首选技术。

多重插补软件在最大和最复杂的数据集上仍然存在困难。但使用机器学习的新多重插补软件能够插补更复杂的数据。这反过来又将多重插补引入了工程等领域。

                总结：无论科学家是在测试新药还是分析投票模式，随机猜测都在帮助他们对自己的知识保持诚实。
            

探索时间: 2026-03-17 | 来源: quantamagazine.org/when-data-is-missing-scientists-guess-then-guess-again-20241002/