公開日: 09/19/2023

分岐基準の統計的詳細

「パーティション」プラットフォームでのノードの分岐は、「候補」レポートに表示される対数価値(logworth)の値に従って行われます。対数価値は次式で計算されます。

-log10(p値)

p値は、考えられる分岐候補の組み合わせ数を考慮した複雑な方法で調整されています。未調整のp値を用いると、水準数の多い説明変数に有利となります。また、その多重性を調整しようとして、Bonferroni調整のp値などを用いると、逆に、水準数の少ない説明変数を優先しぎます。JMPのパーティションで使われている調整p値は、それらに比べて公平な調整を行っています。この方法の詳細については、Sall(2002)を参照してください。

応答変数が連続尺度の場合は、分岐によって誤差平方和がどれぐらい減少するかが考慮されます。そして、各ノードの統計量としては平方和(SS; Sum of Squares)が報告されます。

選択された候補の平方和(SS)は次のように計算されます。

SStest = SSparent - (SSright + SSleft), この式でSSは s2(n - 1)

応答変数が連続尺度の場合は、統計量として差も報告されます。これは、親ノードから分岐した2つの子ノードにおける予測値の差です。

応答がカテゴリカルな場合は、G2(尤度比カイ2乗)がレポートに表示されます。これは(自然対数)エントロピーに2を掛けたもの、またはエントロピーの変化量に2を掛けたものとして計算されます。観測された応答水準に対する予測確率をpとすると、エントロピーはS -log(p)です。

選択された候補のG2は次のように計算されます。

G2 test = G2 parent - (G2 left + G2 right)

「パーティション」では、度数から計算される「割合」と、ゼロにならないように若干のバイアスを「割合」に加えた「確率」の2つが使われています。「確率」の方はゼロにならないよう工夫されているため、検証セットや除外したデータセットに対しても、その対数を計算でき、エントロピーR2乗も計算できます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).