「応答のスクリーニング」プラットフォームは、応答変数や説明変数が多数ある場合に、それらに対する検定の処理を一度に行います。各応答変数に対する各説明変数の個別の検定を、一度に行います。このような統計処理には、主に2つの問題があります。1つは、統計的検定を何回も実行しなければならないので、検定の多重性という問題が生じます。もう1つは、外れ値や欠測値を処理しなければいけないということです。「応答のスクリーニング」は、これら2つの問題に対処しています。
「応答のスクリーニング」の機能は、独立したプラットフォームとして、または「モデルのあてはめ」プラットフォームの手法として呼び出すことができます。独立したプラットフォームとしては、表21.1に示すように、「二変量の関係」プラットフォームと同じ検定を実行します。「モデルのあてはめ」の手法としては、線形モデルやロジスティックモデルをあてはめて、各効果に対して検定を行います。
状況に応じた推測に対応するように、「応答のスクリーニング」には次の機能があります。
データテーブル
結果は、グラフだけではなく、データテーブルとしても出力されます。出力されたデータテーブルをもとに、検定結果をさらに検討したり、p値の大きさで並べ替えたり、特定の大きさ以下のp値を抜き出したり、いろいろなグラフを描いたりできます。このデータテーブルには、生のp値や、FDR調整したp値などの統計量が出力されます。
FDR
検定を何度も行うと、まったくの偶然だけで有意となってしまう確率が大きくなります。このため、生のp値を調整する必要があります。「応答のスクリーニング」では、FDR(False Discovery Rate;偽発見率)を制御するように、多重性の調整を行ったp値を算出します。偽発見率(FDR)とは、「有意とされた仮説の中における、実際には有意でない仮説の割合」の期待値です(Benjamini and Hochberg 1995, Westfall et al. 2011)。
実質的な差の検定
実質的には無意味なほど差が小さくても、標本サイズが大きくなると、統計的には有意にはなりやすくなり、「差がある」と判断してしまう可能性が高くなります。この問題に対処するため、差がどれぐらいの大きさあれば実質的に意味があるかを定義できます。そして、検定では、そこで指定された大きさ以上の差があると判定されたものだけが検出されます。
実質的な同等性の検定
多数のカテゴリカルな因子について群間比較する場合、各群の平均が実質的に同等である因子に着目する場合があります。そのような場合には、実質的に同等とみなす差を決めて、同等性の検定を行います。
大規模なデータはあまり綺麗ではなく、外れ値や欠測値を含む場合がよくあります。「応答のスクリーニング」では、外れ値や欠測値を処理するオプションがあります。こうした機能があるため、データの品質をあまり気にせずに、すぐに分析を行うことができます。
ロバスト推定
データに外れ値があると、推定値に対する標準誤差が大きくなり、有意になりにくくなる場合があります。[ロバスト]オプションを選択すると、Huber M推定が実行されます。このロバスト推定(頑健な推定)は、外れ値を手動で除外することなしに、その影響を少なくすることができます。
欠測値のオプション
「応答のスクリーニング」プラットフォームには、カテゴリカルな説明変数における欠測値をカテゴリとして扱うオプションがあります。
応答 |
因子 |
二変量の関係 |
説明 |
---|---|---|---|
連続尺度 |
カテゴリカル |
一元配置 |
分散分析 |
連続尺度 |
連続尺度 |
二変量 |
単回帰 |
カテゴリカル |
カテゴリカル |
分割表 |
カイ2乗 |
カテゴリカル |
連続尺度 |
ロジスティック |
単純ロジスティック回帰 |
「応答のスクリーニング」プラットフォームは、レポート(「応答のスクリーニング」レポート)とデータテーブル(「PValues」データテーブル)を生成します。「モデルのあてはめ」における[応答のスクリーニング]手法の場合は、レポート(「応答のスクリーニングのあてはめ」レポート)と2種類のデータテーブル(「PValues」と「Y Fits」)が生成されます。
JSLコマンドSummarize Y by Xは、「応答のスクリーニング」プラットフォームと同じ働きをしますが、プラットフォームのウィンドウは生成されません。『スクリプト構文リファレンス』のJSL関数を参照してください。