公開日: 04/01/2021

応答のスクリーニング

大規模データにある多数の応答変数を検定する

近年になり、1つの工業部品や生物検体について、多数の項目が1度に測定されるようになりました。このような大規模データを分析するには、新しい統計手法が必要です。多数の応答に対して統計的検定を行う場合には、それを考慮した適切な手法が必要です。

「応答のスクリーニング」プラットフォームは、応答変数や説明変数が多数ある場合に、それらに対する検定の処理を一度に行います。検定結果や要約統計量は、データテーブルとしても出力されるため、それらの結果をさらに検討できます。生のp値だけではなく、FDR（False Discovery Rate; 偽発見率）を制御するように調整されたp値も計算されます。FDRを考慮した多重性調整は、本当は差がないのに「差がある」と誤って判断してしまう確率を制御する手法です。なお、FDR調整p値をプロットするときには、解釈を簡単にするため、対数スケールが使われます。

大規模なデータはあまり綺麗ではなく、外れ値や欠測値を含む場合がよくあります。「応答のスクリーニング」では、外れ値や欠測値を処理するオプションがあります。ロバスト推定（頑健な推定）を使うと、外れ値からあまり影響を受けずに推定が行えます。欠測値に対するオプションを使用すれば、欠測値を計算に含めることができます。こうした機能があるため、データの品質をあまり気にせずに、すぐに分析を行うことができます。

実質的には無意味なほど差が小さくても、標本サイズが大きくなると、統計的有意にはなりやすくなり、差があると判断してしまう可能性が高くなります。「応答のスクリーニング」では、どの程度の大きさがあれば差が実質的に意味があるかを指定し、それに対する検定を行うことができます。また、指定した絶対値を上回る差がないことを、つまり、平均が実質的には等しいことを確認したい場合もあるでしょう。このような同等性検定も、「応答のスクリーニング」では実行できます。

図21.1 「応答のスクリーニング」プロットの例

応答のスクリーニング

大規模データにある多数の応答変数を検定する

目次

「応答のスクリーニング」プラットフォームの概要

「応答スクリーニング」の例

「応答のスクリーニング」プラットフォームの起動

「応答のスクリーニング」レポート

FDR PValue Plot

FDR LogWorth by Effect Size

FDR LogWorth by RSquare

「PValues」データテーブル

「PValues」データテーブルの列

［ロバスト］オプションを選択した場合に追加される列

「PValues」データテーブルのスクリプト

「応答のスクリーニング」プラットフォームのオプション

平均のデータテーブル

［平均の比較を保存］オプションで保存されるデータテーブル

「モデルのあてはめ」の［応答のスクリーニング］手法

「モデルのあてはめ」での「応答のスクリーニング」の起動

「応答スクリーニングのあてはめ」レポート

「PValues」データテーブル

「Y Fits」データテーブル

「応答のスクリーニング」の別例

実質的な差や実質的な同等性に対する検定の例

「最大対数価値」オプションの例

ロバストなあてはめの例

［応答のスクリーニング］手法

「応答のスクリーニング」プラットフォームの統計的詳細

FDR（False Discovery Rate; 偽発見率）