「手法」のメニューから[一般化回帰]を選択すると、「分布」オプションが表示されます。ここで、応答Yの確率分布を指定できます。なお、「ゼロ強調」(ZI; Zero Inflated、ゼロ膨張)とは、Poisson分布や負の二項分布において、度数がゼロとなる確率を増やした分布のことを指します。用意されている応答Yの分布は、大まかに3つの種類(連続分布、離散分布、ゼロ強調分布)に分けられます。以下で、各オプションについて説明します。
注: 「モデルの指定」ウィンドウで複数のY変数を指定した場合、そのすべてで同じ分布を使用しなければなりません。1つの「一般化回帰」レポートで複数の応答変数に異なる分布をあてはめたい場合は、スクリプトを使用する必要があります。
正規
応答Yが、平均m、標準偏差sの正規分布に従っていると仮定されます。正規分布は対称な分布です。さまざまな分布において、標本サイズが大きい場合、その標本平均は正規分布に従います(中心極限定理)。mに対するリンク関数は、恒等関数です。つまり、Yの平均が、線形関数に等しいと仮定されます。
注: 正規分布を指定すると、推定方法として最尤法ではなく標準最小2乗法が使用されます。
正規分布の尺度パラメータはsです。罰則を課さずに最小2乗推定した場合、尺度パラメータsの推定値は、RMSE(Root Mean Squared Error; 平均2乗誤差の平方根)です。このRMSEは、s2に対する通常の不偏推定値の平方根です。打ち切りのあるデータを使わない限り、[一般化回帰]で正規分布をあてはめた結果は[標準最小2乗]のものと等しくなります。
注: ただし、[一般化回帰]手法で採用されている、名義尺度の変数に対するパラメータ化は、[標準最小2乗]で行われるものと異なります。そのため、名義尺度または順序尺度の効果を含むモデルでは、パラメータ推定値が異なる値になります。
分布の統計的詳細を参照してください。
Cauchy
応答Yが、位置パラメータmと尺度パラメータsのCauchy分布に従っていると仮定されます。Cauchy分布には、平均と標準偏差がありません。中央値とモードは共にmです。ほとんどのデータは、多くの場合Cauchy分布には従いません。ただし、外れ値の割合が大きいデータ(最大50%のものが外れ値となっているようなデータ)に対してロバストな回帰を実行するときには役立ちます。mに対するリンク関数は、恒等関数です。分布の統計的詳細を参照してください。
指数
応答Yが、平均パラメータmの指数分布に従っていると仮定されます。指数分布は右に裾をひいた形状です。生存時間や連続するイベント間の時間をモデル化するのによく使用されます。mに対するリンク関数は対数です。分布の統計的詳細を参照してください。
ガンマ
応答Yが、平均パラメータmとばらつきパラメータsのガンマ分布に従っていると仮定されます。ガンマ分布には柔軟性があり、他のいくつかの分布と関係しています。たとえば、指数分布は、s = mの場合のガンマ分布です。また、カイ2乗分布もガンマ分布から導出することができます。mに対するリンク関数は対数です。分布の統計的詳細を参照してください。
Weibull
応答Yが、平均パラメータm、尺度パラメータsのWeibull分布に従っていると仮定されます。Weibull分布は柔軟で、生存時間やイベントが発生するまでの時間をモデル化するのによく使用されます。mに対するリンク関数は、恒等関数です。分布の統計的詳細を参照してください。
対数正規
応答Yが、平均パラメータm、尺度パラメータsの対数正規分布に従っていると仮定されます。対数正規分布は右に裾をひいた形状です。生存時間や連続するイベントが発生するまでの時間をモデル化するのによく使用されます。mに対するリンク関数は、恒等関数です。分布の統計的詳細を参照してください。
ベータ
応答Yが、平均パラメータm、ばらつきパラメータsのベータ分布に従っていると仮定されます。ベータ分布の応答は、0より大きく1より小さい値で、割合や比率を表すのによく使用されます。mに対するリンク関数は、ロジット関数です。分布の統計的詳細を参照してください。
分位点回帰
分位点回帰は、指定された応答の条件付き分位点をモデル化します。分布の形状については仮定されません。[分位点回帰]を選択すると、[分布]メニューの下に「分位点」ボックスが表示されます。そこでモデル化したい分位点の累積確率を指定します。
たとえば、モデル指定のダイアログボックスで「分位点」に0.5(デフォルト)を指定した場合、分位点回帰は応答の条件付き中央値をモデル化します。分位点回帰は、応答の条件付き分位点を説明変数によってモデル化するときに使えます。分位点回帰は、誤差の分散が一定ではない分布をモデル化するときに、通常の最小2乗推定よりも優れています。
分位点回帰のあてはめでは、反復計算によって目的関数が最小化されます。分位点回帰の詳細については、Koenker and Hallock(2001)、Portnoy and Koenker(1997)を参照してください。
分位点回帰を選択した場合、「推定法」は[最尤法]に、「検証法」は[なし]に限定されます。
注: 分位点回帰のあてはめに時間がかかる場合は、進捗を示すバーが表示されます。進捗バーには、目的関数の相対的変化が表示されます。[現在の推定値を採用]をクリックすると、計算が停止され、その時点で最良のモデルを使ってパラメータ推定値のレポートが作成されます。
Cox比例ハザード
Coxの比例ハザードモデルは、生存時間データに対する回帰モデルです。ハザード関数が説明変数の乗法的な関数によって表されます。Coxの比例ハザードモデルでは、説明変数が生存時間に及ぼす影響を調べることができます。このモデルでは、ベースラインのハザード関数に説明変数を掛け合わせることで、ハザード関数を求めます。結果においては、説明変数ごとに、パラメータ推定値と標準誤差が計算されます。Cox比例ハザードモデルは、D. R. Cox(1972)によって提案されました。比例ハザードモデルの詳細については、Kalbfleisch and Prentice(2002)を参照してください。
[Cox比例ハザード]を選択した場合、使用できる「検証法」は[BIC]または[AICc]のみです。また、「推定法」として[リッジ]が選択できなくなります。
注: 応答に同じ値がある場合は、Efronの尤度が使用されます。Efron(1977)を参照してください。この方法は、「モデルのあてはめ」プラットフォームの[比例ハザード]手法や「比例ハザードのあてはめ」プラットフォームで使用される方法とは異なります。
二項
応答Yが、パラメータがnとpの二項分布に従っていると仮定します。二項分布における応答Yは、n回の独立した試行を行ったときの成功回数です。各試行内においては、成功確率pは一定です。この分布では、標本サイズを含む列も指定してください。標本サイズを含む列を指定しなかった場合には、標本サイズは1とみなされます。pに対するリンク関数は、ロジット関数です。2値の名義尺度の応答変数を選択した場合、使用できる分布は[二項]に限られます。分布の統計的詳細を参照してください。
「分布」で[二項]を選択した場合は、応答変数のデータが次のいずれかの形式になっていなければいけません。
– データが要約されていない場合:データが要約されていない場合は、2値データを含んでいる列1つを、応答として指定します。この列が名義尺度の場合は、水準の1つを「イベントを示す水準」に指定できます。
– データが要約されている場合:データが要約されていて、成功回数と失敗回数が2行にわたって保存されている場合も、2値データを含んでいる列1つを、応答として指定します。この列が名義尺度の場合は、水準の1つを「イベントを示す水準」に指定できます。そして、[度数]列に、各行の度数を含む列を指定します。
– データが要約されていて、度数が2列に含まれている場合:データが要約されていて、成功回数と試行回数の2列がある場合は、「Y」に対して、成功回数を含む列、次に試行回数を含む列の順に指定します。この場合、2列とも連続尺度でなければいけません。
注: [二項]分布を指定した場合、アウトラインのタイトルが「最尤法」ではなくて「ロジスティック回帰」となります。
ベータ二項
応答Yが、成功の確率p、試行回数n、過分散パラメータdのベータ二項分布に従っていると仮定します。ベータ二項分布は、二項分布で過分散が生じたときの分布です。
JMPの「Samples/Scripts」フォルダにある「demoBetaBinomial.jsl」を実行すると、標本サイズnが20で成功確率がpである二項分布と、過分散パラメータがdであるベータ二項分布とを比較できます。
ベータ二項分布では、データの各行における標本サイズが2以上でなければいけません。そのため、標本サイズを含む列を必ず指定しなければなりません。標本サイズを含む列を指定するには、成功回数と試行回数が含まれた2つの連続尺度の列を、この順番でYに指定します。pに対するリンク関数はロジット関数です。分布の統計的詳細を参照してください。
多項
応答Yが、名義尺度の多項分布に従っていると仮定します。多項分布は、応答変数の値が3水準以上であるときの分布です。応答変数は、名義尺度または順序尺度である必要があります。このモデルは、応答変数のそれぞれの水準ごとに、別々の切片パラメータと効果パラメータを推定します。応答変数がk水準の場合、モデルにはそれぞれk - 1個の切片パラメータと効果パラメータが含まれています。多項分布のリンク関数は、多項ロジットです。名義尺度の応答を参照してください。
順序ロジスティック
応答Yが、順序尺度に対する多項分布に従っていると仮定します。応答変数は、順序尺度である必要があります。このモデルは、応答変数のそれぞれの水準ごとに切片パラメータを推定します。[順序ロジスティック]分布では、効果パラメータは応答変数のあらゆる水準にわたって共通です。[順序ロジスティック]分布のリンク関数は、順序ロジットです。順序尺度の応答を参照してください。
注: [一般化回帰]の[順序ロジスティック]に対する切片パラメータ化は、「モデルのあてはめ」の[順序ロジスティック]手法のものとは異なります。[一般化回帰]の最初の切片項は、[順序ロジスティック]手法の最初の切片項に対応しています。しかし、[一般化回帰]における残りの切片項は、[順序ロジスティック]手法における、隣接する切片項の差になっています。
Poisson
応答Yが、平均lのPoisson分布に従っていると仮定します。Poisson分布は、一定期間内に生じているイベントの回数などの度数データに対して、よく使われます。パラメータlに対するリンク関数は、対数です。なお、応答Yに整数以外の数値がある場合でも実行できます。分布の統計的詳細を参照してください。
負の二項
応答Yが、平均m、過分散パラメータsの負の二項分布に従っていると仮定されます。負の二項分布は通常、特定の失敗回数に達するまでの成功回数をモデル化するのに使われています。また、負の二項分布はガンマPoisson分布を別のパラメータ表現したものです。負の二項分布とガンマPoisson分布との関係の詳細については、『基本的な統計分析』の一変量の分布を参照してください。
JMPの「Samples」フォルダ内の「Scripts」フォルダにある「demoGammaPoisson.jsl」を実行すると、平均lのPoisson分布と、平均lおよび過分散パラメータsのガンマPoisson分布とを比較できます。
mに対するリンク関数は対数です。なお、応答Yに整数以外の数値がある場合でも実行できます。分布の統計的詳細を参照してください。
ゼロ強調 二項
応答Yが、パラメータp、n、およびゼロ強調パラメータpのゼロ強調二項分布に従っていると仮定されます。ベータ二項分布における応答Yは、n回の独立した試行を行ったときの成功回数です。各試行内においては、成功確率pは一定です。この分布では、標本サイズを含む列も指定してください。標本サイズを含む列を指定しなかった場合には、標本サイズは1とみなされます。pに対するリンク関数はロジット関数です。分布の統計的詳細を参照してください。
ゼロ強調 ベータ二項
応答Yが、成功の確率p、試行回数n、過分散パラメータd、ゼロ強調パラメータpの二項分布に従っていると仮定します。この分布は、ゼロ強調二項分布に過分散パラメータを追加したものです。ゼロ強調ベータ二項分布では、データの各行において、標本サイズが2以上でなければいけません。そのため、標本サイズを含む列を必ず指定しなければなりません。標本サイズを含む列を指定するには、成功回数と試行回数が含まれた2つの連続尺度の列を、この順番でYに指定します。pに対するリンク関数はロジット関数です。分布の統計的詳細を参照してください。
ゼロ強調 Poisson
応答Yが、平均パラメータl、ゼロ強調パラメータpのゼロ強調Poisson分布に従っていると仮定されます。ゼロ強調Poisson分布には、lとπという2つのパラメータがあります。パラメータlに対するリンク関数は、対数です。πは、度数がゼロである割合を左右するパラメータです。λに対するリンク関数は、対数です。なお、応答Yにゼロが1つもない場合や、整数以外の数値がある場合でも実行できます。分布の統計的詳細を参照してください。
ゼロ強調 負の二項
応答Yが、位置パラメータm、過分散パラメータs、ゼロ強調パラメータpの、ゼロ強調の負の二項分布に従っていると仮定されます。パラメータmは、負の二項分布を表している部分に関するパラメータです。mに対するリンク関数は対数です。なお、応答Yにゼロが1つもない場合や、整数以外の数値がある場合でも実行できます。分布の統計的詳細を参照してください。
ゼロ強調 ガンマ
応答Yが、平均パラメータm、ゼロ強調パラメータpのゼロ強調ガンマ分布に従っていると仮定されます。ある場合においては、データにおける非ゼロの部分がガンマ分布に従っていると仮定できることもあるでしょう。たとえば、保険の請求における請求額は近似的にガンマ分布に従っていることがあります。ただし、請求がまったくない契約もあるので、データには多くのゼロが存在します。ゼロ強調ガンマ分布では、そのようなデータをゼロと非ゼロの応答に分けて分析する必要がなく、一度にモデル化します。パラメータmは、ガンマ分布を表している部分に関するパラメータです。mに対するリンク関数は対数です。分布の統計的詳細を参照してください。
表6.1に、それぞれの分布について、応答Yに指定できる列のデータタイプと尺度を示します。
分布 |
データタイプ |
尺度 |
その他 |
---|---|---|---|
正規 |
数値 |
連続尺度 |
|
Cauchy |
数値 |
連続尺度 |
|
指数 |
数値 |
連続尺度 |
正の数値 |
ガンマ |
数値 |
連続尺度 |
正の数値 |
Weibull |
数値 |
連続尺度 |
正の数値 |
対数正規 |
数値 |
連続尺度 |
正の数値 |
ベータ |
数値 |
連続尺度 |
0~1 |
分位点回帰 |
数値 |
連続尺度 |
|
Cox比例ハザード |
数値 |
連続尺度 |
0以上の数値 |
二項(要約していないもの) |
すべて |
すべて |
二値 |
二項(度数に要約) |
すべて |
すべて |
二値 |
二項(2列の度数に要約) |
数値 |
連続尺度 |
0以上の数値 |
ベータ二項 |
数値 |
連続尺度 |
0以上の数値 |
多項 |
すべて |
順序/名義尺度 |
|
順序ロジスティック |
すべて |
順序尺度 |
|
Poisson |
数値 |
すべて |
0以上の数値 |
負の二項 |
数値 |
すべて |
0以上の数値 |
ゼロ強調 二項 |
数値 |
すべて |
0以上の数値 |
ゼロ強調 ベータ二項 |
数値 |
すべて |
0以上の数値 |
ゼロ強調 Poisson |
数値 |
すべて |
0以上の数値 |
ゼロ強調 負の二項 |
数値 |
すべて |
0以上の数値 |
ゼロ強調 ガンマ |
数値 |
連続尺度 |
0以上の数値 |
これらの各分布で採用されているパラメータ化の詳細については、分布の統計的詳細を参照してください。表6.2には、各分布の概要を示します。
分布 |
パラメータ |
リンク関数 |
---|---|---|
正規 |
m, s |
|
Cauchy |
m, s |
|
指数 |
m |
|
ガンマ |
m, s |
|
Weibull |
m, s |
|
対数正規 |
m, s |
|
ベータ |
m |
|
二項 |
n, p |
|
ベータ二項 |
n, p, d |
|
Poisson |
l |
|
負の二項 |
m, s |
|
ゼロ強調 二項 |
n, p, p(ゼロ強調) |
|
ゼロ強調 ベータ二項 |
n, p, d, p(ゼロ強調) |
|
ゼロ強調 Poisson |
l,, p(ゼロ強調) |
|
ゼロ強調 負の二項 |
m, s, p(ゼロ強調) |
|
ゼロ強調 ガンマ |
m, s, p(ゼロ強調) |
起動ウィンドウにおいて適切な分布を選択した後、[実行]ボタンをクリックすると、「一般化回帰」レポートウィンドウが開きます。