この例では、標本サイズの小さいデータに対して、[小数の重み]オプション(ベイズ流のブートストラップ法)を使う利点を説明します。使用するデータは、7種類の異なる土壌ごとに3つのサンプルを採取し、応答Yを測定したものです。ここで、土壌「wabash」における平均に対する信頼区間を求めるとします。
各土壌について、3つしか測定値がないので、単純なブートストラップ法では、抽出されたブートストラップ標本に、土壌が「wabash」であるデータが1つも含まれない場合が出てきます。[小数の重み]オプションを使えば、各ブートストラップ標本において、常に「wabash」のデータが含まれます。
「wabash」の標本について、平均値の分布を2つのブートストラップ法で調べてみましょう。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Snapdragon.jmp」を開きます。
2. [分析]>[二変量の関係]を選択します。
3. 「Y」を選択し、[Y, 目的変数]をクリックします。
4. 「土壌」を選択し、[X, 説明変数]をクリックします。
5. [OK]をクリックします。
6. 「土壌によるYの一元配置分析」の赤い三角ボタンをクリックし、[平均/ANOVA]を選択します。
7. 「各水準の平均」レポートで、「平均」列を右クリックし、[ブートストラップ]を選択します。
8. 「ブートストラップ標本数」に「1000」と入力します。
9. (オプション)Figure 11.7の結果と一致させるには、「乱数シード値」に「12345」と入力します。
10. [OK]をクリックします。
図11.7 単純なブートストラップの結果
Figure 11.7において欠測値となっている個所は、そのときのブートストラップ標本の抽出において、該当する土壌タイプのデータ値が1つも選択されなかったことを意味します。
11. [分析]>[一変量の分布]を選択します。
12. 「wabash」を選択し、[Y, 列]をクリックします。
13. [OK]をクリックします。
図11.8 「wabash」の平均値の分布(ベイズ流ブートストラップ)
Figure 11.8は、「wabash」の平均値の分布を、単純なブートストラップ分析で求めた結果です。次の点に注意してください。
– 「要約統計量」レポートによると、ブートストラップを実行した結果、「wabash」の平均値を含む行数は、N = 961でした。これは、ブートストラップを1,000回実行し、そのうち39回では、「wabash」の3つの測定値がいずれもブートストラップ標本に選ばれなかったということを意味しています。
– 標本の平均値のヒストグラムは滑らかではなく、両端にピークの値があります。「wabash」の3つの値は、38.2, 37.8, 31.9です。分布の下端のピークは、31.9のみがブートストラップ標本に含まれた場合の結果です。分布の上端のピークは、38.2と37.8だけがブートストラップ標本に含まれた場合の結果です。
次に、ブートストラップ標本が無い状態になるのを回避するために、[小数の重み]オプション(ベイズ流のブートストラップ法)を使用してみましょう。
1. 「一元配置分析」レポートの「各水準の平均」レポートで、「平均」を右クリックし、[ブートストラップ]を選択します。
2. 「ブートストラップ標本数」に「1000」と入力します。
3. (オプション)Figure 11.9の結果と一致させるには、「乱数シード値」に「12345」と入力します。
4. [小数の重み]チェックボックスをオンにします。
5. [OK]をクリックします。
図11.9 ベイズ流ブートストラップによる結果
ベイズ流ブートストラップでは、結果のデータテーブルに欠測値はありません。各標本抽出において、「Snapdragon.jmp」データテーブルの21行がすべて含まれるように、ブートストラップの重みが設定されています。
6. [分析]>[一変量の分布]を選択します。
7. 「wabash」を選択し、[Y, 列]をクリックします。
8. [OK]をクリックします。
図11.10 「wabash」の平均値の分布(ベイズのブートストラップ)
ベイズ流のブートストラップ法による結果では、「wabash」の平均が、より滑らかに分布しています。1,000個のブートストラップ標本のすべてに、「wabash」の3つの測定値が含まれています。ベイズ流のブートストラップ法では、各標本抽出において、異なる小数の重みを適用して、「wabash」の標本平均を求めています。
「ブートストラップ信頼限界」レポートでは、平均値に対する両側95%信頼区間は、32.6396~37.8168となっています。