「欠測値を調べる」プラットフォームでは、欠測値を調べる、いくつかの方法が用意されています。また、多変量の欠測値補完を行う手法もあります。この補完は、ランダムな欠測(MAR; Missing At Random)、つまり、「欠測データと非欠測データ間の差異は、観測されている他の変数では説明されない」という状態を前提にしています。ランダムな欠測(MAR)ではないと思われる場合は、多くのプラットフォームに備わっている[欠測値をカテゴリとして扱う]オプションの使用などを検討してください。『基本的な回帰モデル』の欠測値をカテゴリとして扱うを参照してください。
欠測値は、統計分析の結果に影響する場合があります。たとえば、もし寿命の調査において、多くの健康な人々のデータが欠測していると、それらを考慮せずに分析した結果は、寿命を短く見積もってしまう方向にバイアス(偏り)がかかります。統計分析を行う前には、欠測値があるかどうかだけではなく、どのような欠測が生じているかを理解しておかなければなりません。
注意: 欠測値を補完した後にデータを分析するときには注意が必要です。補完によってバイアスが生じる可能性があるからです。元のデータテーブルのコピーを作成しておくか、補完された値を含むデータを新しいファイルに保存することをお勧めします。
図22.1 「欠測値を調べる」プラットフォームの例