近年になり、1つの工業部品や生物検体について、多数の項目が1度に測定されるようになりました。このような大規模データを分析するには、新しい統計手法が必要です。多数の応答に対して統計的検定を行う場合には、それを考慮した適切な手法が必要です。
「応答のスクリーニング」プラットフォームは、応答変数や説明変数が多数ある場合に、それらに対する検定の処理を一度に行います。検定結果や要約統計量は、データテーブルとしても出力されるため、それらの結果をさらに検討できます。生のp値だけではなく、FDR(False Discovery Rate; 偽発見率)を制御するように調整されたp値も計算されます。FDRを考慮した多重性調整は、本当は差がないのに「差がある」と誤って判断してしまう確率を制御する手法です。なお、FDR調整p値をプロットするときには、解釈を簡単にするため、対数スケールが使われます。
大規模なデータはあまり綺麗ではなく、外れ値や欠測値を含む場合がよくあります。「応答のスクリーニング」では、外れ値や欠測値を処理するオプションがあります。ロバスト推定(頑健な推定)を使うと、外れ値からあまり影響を受けずに推定が行えます。欠測値に対するオプションを使用すれば、欠測値を計算に含めることができます。こうした機能があるため、データの品質をあまり気にせずに、すぐに分析を行うことができます。
実質的には無意味なほど差が小さくても、標本サイズが大きくなると、統計的有意にはなりやすくなり、差があると判断してしまう可能性が高くなります。「応答のスクリーニング」では、どの程度の大きさがあれば差が実質的に意味があるかを指定し、それに対する検定を行うことができます。また、指定した絶対値を上回る差がないことを、つまり、平均が実質的には等しいことを確認したい場合もあるでしょう。このような同等性検定も、「応答のスクリーニング」では実行できます。
図21.1 「応答のスクリーニング」プロットの例