“探索缺失值”平台提供若干方法来帮助您标识和了解数据中的缺失值。还提供对缺失值进行多元插补的方法。这些插补方法假设数据随机缺失,这意味着缺失数据和非缺失数据之间的任何差异都不能用研究中其他变量的值来解释。若您怀疑缺失值不是随机缺失,则考虑使用“信息性缺失”过程,有若干平台都提供该过程。请参见《拟合线性模型》中的“信息性缺失”。
数据集中有缺失值可能影响使用数据作出的结论。例如,若有若干健康的参与者退出了纵向研究,而他们的数据之后一直缺失,则研究结果可能会向留下的不健康的个人偏倚。缺失数据值不仅必须要标识出来,还必须在执行进一步分析之前了解这些缺失数据值。
警告:插补缺失值后分析数据时一定要小心,因为结果可能有偏倚。最好制作原始数据表的副本,或将带有插补值的数据保存到新文件中。
图 22.1 探索缺失值的示例