「モデルのあてはめ」プラットフォームの[標準最小2乗]手法を使って、変量効果モデルのパラメータを推定します。変量効果は二重の性質を持っています。一方では、ランダムにばらつくもので、誤差のように振る舞うという性質をもちます。もう一方では、変量効果の1つ1つの水準に注目すれば、固定効果のようでもあります。変量効果の1つ1つの水準を予測するとき、固定効果の各水準に対するパラメータ推定とは異なり、「平均が0の正規分布に従う」という情報も追加で用いることができます(なお、変量効果の分散はデータから推定されます)。平均0の正規分布に従っているという情報を用いることにより、変量効果の各水準に対する予測値は0に向かって縮小します。
変量効果の各水準に対する予測量は、BLUP(Best Linear Unbiased Predictor; 最良線形不偏予測量)と呼ばれています。研究者の間には、BLUPを重要な統計量とみなす意見と、手法の副産物として生じるだけでそれ自体はあまり意味がないとする意見があります。
BLUPは、固定効果のパラメータ推定値に比べて、ゼロに近い値になります。また、変量効果の最小2乗平均の推定にもBLUPが使われますが、変量効果の最小2乗平均は、固定効果の最小2乗平均よりも、全体平均に近い値になります。BLUPのこの性質を、縮小(shrinkage; 収縮)と言います。どれぐらい縮小するかは、その変量効果の分散の大きさと、その水準に属するデータ数によって決まります。分散が大きいときは、ほとんど縮小しません。分散が小さいときは、大きく縮小します。分散がゼロのときは、変量効果の各水準はゼロになるまで縮小します(変量効果の最小2乗平均は、全体平均まで縮小します)。分散が負になっているときは、縮小ではなく、拡大します。固定効果は、「分散が非常に大きい変量効果」と見なすこともできます。
また、該当する水準に属するデータ数が多いと、その水準のBLUPはあまり縮小しません。逆に、データ数が少ないと、大きく縮小します。データ数が無限大の場合は縮小せず、固定効果のときと同じ結果になります。BLUPは、個々の水準における情報と、水準全体の情報とを組み合わせて計算されます。
野球選手の打率データを例に、BLUPの縮小について考えましょう。野球選手のなかには、打率が高い選手もいれば、打率が低い選手もいます。選手を変量効果として考えた場合、その分散は選手の違いによるばらつきを表しています。ある選手の打率が非常に高くても(もしくは、非常に低くても)、出場回数が少なかったら、その結果はあまり信用できません。なぜなら、その打率は、限られた少ない打席数に基づいているからです。そこで、個人の打率を、選手全体の全体平均と組み合わせて考えれば、つまり、推定値を全体平均に向かって縮小させれば、その推定値はより信用できるものになるでしょう。なお、出場回数が多くて打席数が多い選手であれば、BLUPはあまり縮小せず、その選手の打率とほぼ同じになります。
このことを、例を使って確認してみましょう。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Baseball.jmp」を開きます。
2. [分析]>[モデルのあてはめ]を選択します。
3. 「打率」を選択し、[Y]をクリックします。
4. 「選手」を選択し、[追加]をクリックします。
5. 「モデル効果の構成」ボックスで「選手」を選択し、[属性]ポップアップメニューから[変量効果]を選択します。
6. [実行]をクリックします。
Table 4.3は、REML法による最小2乗平均と、EMS法(モーメント法)による最小2乗平均を示しています。EMS法のレポートにおける最小2乗平均は、BLUPではなく、選手ごとの単なる標本平均です。REML法のレポートでは、BLUPが使われます。REML法のレポートを見ると、打席数が3回しかないSuarezの最小2乗平均は、打席数の多い他の選手の推定値よりも全体平均に向かって縮小しています。
|
モーメント法 |
REML法 |
N |
---|---|---|---|
分散成分 |
0.01765 |
0.019648 |
|
Anderson Jones Mitchell Rodriguez Smith Suarez |
0.29500000 0.20227273 0.32333333 0.55000000 0.35681818 0.55000000 |
0.29640407 0.20389793 0.32426295 0.54713393 0.35702094 0.54436227 |
6 11 6 6 11 3 |
最小2乗平均 |
通常の標本平均と同じ |
標本平均から縮小 |
|