「手法」のメニューから[一般化回帰]を選択すると、「分布」オプションが表示されます。ここで、応答Yの確率分布を指定できます。なお、「ゼロ強調」(ZI; Zero Inflated、ゼロ膨張)とは、Poisson分布や負の二項分布において、度数がゼロとなる確率を増やした分布のことを指します。用意されている応答Yの分布は、大まかに3つの種類(連続分布、離散分布、ゼロ強調分布)に分けられます。以下で、各オプションについて説明します。
応答Yが、平均μ、標準偏差σの正規分布に従っていると仮定されます。正規分布は対称な分布です。さまざまな分布において、標本サイズが大きい場合、その標本平均は正規分布に従います(中心極限定理)。μに対するリンク関数は、恒等関数です。つまり、Yの平均が、線形関数に等しいと仮定されます。
正規分布の尺度パラメータはσです。罰則を課さずに最小2乗推定した場合、尺度パラメータσの推定値は、RMSE(Root Mean Squared Error; 平均2乗誤差の平方根)です。このRMSEは、σ2に対する通常の不偏推定値の平方根です。打ち切りのあるデータを使わない限り、[一般化回帰]で正規分布をあてはめた結果は[標準最小2乗]のものと等しくなります。
第 “分布の統計的詳細”を参照してください。
応答Yが、位置パラメータμと尺度パラメータσのCauchy分布に従っていると仮定されます。Cauchy分布には、平均と標準偏差がありません。中央値とモードは共にμです。ほとんどのデータは、多くの場合Cauchy分布には従いません。ただし、外れ値の割合が大きいデータ(最大50%のものが外れ値となっているようなデータ)に対してロバストな回帰を実行するときには役立ちます。μに対するリンク関数は、恒等関数です。第 “分布の統計的詳細”を参照してください。
応答Yが、平均パラメータμの指数分布に従っていると仮定されます。指数分布は右に裾をひいた形状です。生存時間や連続するイベント間の時間をモデル化するのによく使用されます。μに対するリンク関数は対数です。第 “分布の統計的詳細”を参照してください。
応答Yが、平均パラメータμとばらつきパラメータσのガンマ分布に従っていると仮定されます。ガンマ分布には柔軟性があり、他のいくつかの分布と関係しています。たとえば、指数分布は、σ = μの場合のガンマ分布です。 また、カイ2乗分布もガンマ分布から導出することができます。μに対するリンク関数は対数です。第 “分布の統計的詳細”を参照してください。
応答Yが、平均パラメータμ、尺度パラメータσのWeibull分布に従っていると仮定されます。Weibull分布は柔軟で、生存時間やイベントが発生するまでの時間をモデル化するのによく使用されます。 μに対するリンク関数は、恒等関数です。第 “分布の統計的詳細”を参照してください。
応答Yが、平均パラメータμ、尺度パラメータσの対数正規分布に従っていると仮定されます。対数正規分布は右に裾をひいた形状です。生存時間や連続するイベントが発生するまでの時間をモデル化するのによく使用されます。μに対するリンク関数は、恒等関数です。第 “分布の統計的詳細”を参照してください。
応答Yが、平均パラメータμ、ばらつきパラメータσのベータ分布に従っていると仮定されます。ベータ分布の応答は、0より大きく1より小さい値で、割合や比率を表すのによく使用されます。μに対するリンク関数は、ロジット関数です。第 “分布の統計的詳細”を参照してください。
分位点回帰のあてはめでは、反復計算によって目的関数が最小化されます。分位点回帰の詳細については、Koenker and Hallock(2001)、Portnoy and Koenker(1997)を参照してください。
Coxの比例ハザードモデルは、生存時間データに対する回帰モデルです。ハザード関数が説明変数の乗法的な関数によって表されます。Coxの比例ハザードモデルでは、説明変数が生存時間に及ぼす影響を調べることができます。このモデルでは、ベースラインのハザード関数に説明変数を掛け合わせることで、ハザード関数を求めます。結果においては、説明変数ごとに、パラメータ推定値と標準誤差が計算されます。Cox比例ハザードモデルは、D. R. Cox(1972)によって提案されました。比例ハザードモデルの詳細については、Kalbfleisch and Prentice(2002)を参照してください。
メモ: 応答に同じ値がある場合は、Efronの尤度が使用されます。Efron(1977)を参照してください。この方法は、「モデルのあてはめ」プラットフォームの[比例ハザード]手法や「比例ハザードのあてはめ」プラットフォームで使用される方法とは異なります。
応答Yが、パラメータがnとpの二項分布に従っていると仮定します。二項分布における応答Yは、n回の独立した試行を行ったときの成功回数です。各試行内においては、成功確率pは一定です。この分布では、標本サイズを含む列も指定してください。標本サイズを含む列を指定しなかった場合には、標本サイズは1とみなされます。pに対するリンク関数は、ロジット関数です。2値の名義尺度の応答変数を選択した場合、使用できる分布は[二項]に限られます。第 “分布の統計的詳細”を参照してください。
–
|
JMPの「Samples/Scripts」フォルダにある「demoBetaBinomial.jsl」を実行すると、標本サイズnが20で成功確率がpである二項分布と、過分散パラメータがδであるベータ二項分布とを比較できます。
ベータ二項分布では、データの各行における標本サイズが2以上でなければいけません。そのため、標本サイズを含む列を必ず指定しなければなりません。標本サイズを含む列を指定するには、成功回数と試行回数が含まれた2つの連続尺度の列を、この順番でYに指定します。pに対するリンク関数はロジット関数です。第 “分布の統計的詳細”を参照してください。
応答Yが、名義尺度の多項分布に従っていると仮定します。多項分布は、応答変数の値が3水準以上であるときの分布です。応答変数は、名義尺度または順序尺度である必要があります。このモデルは、応答変数のそれぞれの水準ごとに、別々の切片パラメータと効果パラメータを推定します。応答変数がk水準の場合、モデルにはそれぞれk - 1個の切片パラメータと効果パラメータが含まれています。多項分布のリンク関数は、多項ロジットです。「統計的詳細」章の「名義尺度の応答」(481ページ)を参照してください。
応答Yが、順序尺度に対する多項分布に従っていると仮定します。応答変数は、順序尺度である必要があります。このモデルは、応答変数のそれぞれの水準ごとに切片パラメータを推定します。[順序ロジスティック]分布では、効果パラメータは応答変数のあらゆる水準にわたって共通です。[順序ロジスティック]分布のリンク関数は、順序ロジットです。「統計的詳細」章の「順序尺度の応答」(483ページ)を参照してください。
応答Yが、平均λのPoisson分布に従っていると仮定します。Poisson分布は、一定期間内に生じているイベントの回数などの度数データに対して、よく使われます。パラメータλに対するリンク関数は、対数です。なお、応答Yに整数以外の数値がある場合でも実行できます。第 “分布の統計的詳細”を参照してください。
応答Yが、平均μ、過分散パラメータσの負の二項分布に従っていると仮定されます。負の二項分布は通常、特定の失敗回数に達するまでの成功回数をモデル化するのに使われています。また、負の二項分布はガンマPoisson分布を別のパラメータ表現したものです。負の二項分布とガンマPoisson分布との関係の詳細については、『基本的な統計分析』の「一変量の分布」章を参照してください。
JMPの「Samples」フォルダ内の「Scripts」フォルダにある「demoGammaPoisson.jsl」を実行すると、平均λのPoisson分布と、平均λおよび過分散パラメータσのガンマPoisson分布とを比較できます。
μに対するリンク関数は対数です。なお、応答Yに整数以外の数値がある場合でも実行できます。第 “分布の統計的詳細”を参照してください。
応答Yが、パラメータp、n、およびゼロ強調パラメータπのゼロ強調二項分布に従っていると仮定されます。ベータ二項分布における応答Yは、n回の独立した試行を行ったときの成功回数です。各試行内においては、成功確率pは一定です。この分布では、標本サイズを含む列も指定してください。標本サイズを含む列を指定しなかった場合には、標本サイズは1とみなされます。pに対するリンク関数はロジット関数です。第 “分布の統計的詳細”を参照してください。
応答Yが、成功の確率p、試行回数n、過分散パラメータδ、ゼロ強調パラメータπの二項分布に従っていると仮定します。この分布は、ゼロ強調二項分布に過分散パラメータを追加したものです。ゼロ強調ベータ二項分布では、データの各行において、標本サイズが2以上でなければいけません。そのため、標本サイズを含む列を必ず指定しなければなりません。標本サイズを含む列を指定するには、成功回数と試行回数が含まれた2つの連続尺度の列を、この順番でYに指定します。pに対するリンク関数はロジット関数です。第 “分布の統計的詳細”を参照してください。
応答Yが、平均パラメータλ、ゼロ強調パラメータπのゼロ強調Poisson分布に従っていると仮定されます。ゼロ強調Poisson分布には、λとπという2つのパラメータがあります。パラメータλは、Poisson分布を表している部分における条件付き平均を表しています。πは、度数がゼロである割合を左右するパラメータです。λに対するリンク関数は、対数です。なお、応答Yにゼロが1つもない場合や、整数以外の数値がある場合でも実行できます。第 “分布の統計的詳細”を参照してください。
応答Yが、位置パラメータμ、過分散パラメータσ、ゼロ強調パラメータπの、ゼロ強調の負の二項分布に従っていると仮定されます。パラメータμは、負の二項分布を表している部分に関するパラメータです。μに対するリンク関数は対数です。なお、応答Yにゼロが1つもない場合や、整数以外の数値がある場合でも実行できます。第 “分布の統計的詳細”を参照してください。
応答Yが、平均パラメータμ、ゼロ強調パラメータπのゼロ強調ガンマ分布に従っていると仮定されます。ある場合においては、データにおける非ゼロの部分がガンマ分布に従っていると仮定できることもあるでしょう。たとえば、保険の請求における請求額は近似的にガンマ分布に従っていることがあります。ただし、請求がまったくない契約もあるので、データには多くのゼロが存在します。ゼロ強調ガンマ分布では、そのようなデータをゼロと非ゼロの応答に分けて分析する必要がなく、一度にモデル化します。パラメータμは、ガンマ分布を表している部分に関するパラメータです。μに対するリンク関数は対数です。第 “分布の統計的詳細”を参照してください。
各分布に対するYのデータタイプと尺度に、それぞれの分布について、応答Yに指定できる列のデータタイプと尺度を示します。
μ, σ
|
||
μ, σ
|
||
μ, σ
|
||
μ, σ
|
||
μ, σ
|
||
n, p
|
||
μ, σ
|
||
λ, π(ゼロ強調)
|
||
起動ウィンドウにおいて適切な分布を選択した後、[実行]ボタンをクリックすると、 「一般化回帰」レポートウィンドウが開きます。