[多重比較]オプションを用いると、ある群と別の群との平均を比較し、その差の信頼区間を求めることができます。多重比較法の目的は、全体において第1種の誤りを犯す確率が大きくなるので、多重性を調整することです。[多重比較]オプションでは、全体平均との比較(ANOM型の比較)や、コントロール群との比較(Dunnett型の比較)が行えます。また、すべてのペアを比較する検定として、TukeyのHSD検定とStudentのt検定が行えます。Studentのt検定においては同等性検定も行えます。同等性検定では、実質的にゼロとみなす差を指定する必要があります。
Studentのt検定は、1つ1つの比較の第1種の誤りしか制御しません。そのため、Studentのt検定は、「多重比較」の手法とは言えないでしょう。Studentのt検定以外の手法は、比較全体における第1種の誤りを制御します。言い換えると、Studentのt検定以外の手法は、p値や信頼区間の計算において、多重性を調整しています。
名義尺度や順序尺度の効果に対しては、[最小2乗平均の推定値]を使って比較するか、または[ユーザ定義の推定値]を使って特定の比較を定義できます。連続尺度の効果に対しては、[ユーザ定義の推定値]しか使えません。
ヒント: [最小2乗平均の推定値]は、連続尺度の効果には使えません。各水準の最小2乗平均を比較したいのであれば、そして、その因子の水準数が少ないのであれば、連続尺度ではなく、順序尺度(または名義尺度)にして再分析するのも1つの手でしょう。
図3.28は、[多重比較]オプションの設定パネルです。この例では、「Big Class.jmp」サンプルデータにて、「体重(ポンド)」を応答変数、「年齢」、「性別」、および「身長(インチ)」をモデル効果に指定しています。設定パネルでは、[最小2乗平均の推定値]と[ユーザ定義の推定値]という2種類のいずれかで、比較を指定できます。
このオプションは最小2乗平均を比較するもので、名義尺度または順序尺度の効果に対してだけ使えます。最小2乗平均は、他の効果を中立的な値に固定した時の応答の予測値です(最小2乗平均の定義については、最小2乗平均表を参照)。この比較を行うには、比較を行いたい効果を選択してください。図3.28では、「年齢」の[最小2乗平均の推定値]が指定されています。最小2乗平均プロットを表示するオプションがあります。最小2乗平均プロットのオプションを参照してください。
図3.28 [最小2乗平均の推定値]の起動ウィンドウ
図3.29は、[ユーザ定義の推定値]の設定を示しています。年齢の3水準と性別の2水準を選択しています。また、身長の2つの値をキーボードで入力しています。その後、[推定値の追加]ボタンをクリックすると、図のように、指定された水準を組み合わせたリストが表示されます。なお、この状態で、さらに推定値を指定し、[推定値の追加]ボタンを再度クリックし、「比較の推定値」リストにそれらを追加することもできます。
図3.29 [ユーザ定義の推定値]の起動ウィンドウ
[ユーザ定義の推定値]において、水準や値の指定が行われなかった効果は尺度に応じて次のように設定されます。
• 連続尺度の説明変数は、その説明変数における単純な標本平均に設定されます。
• 名義尺度および順序尺度の効果は、最初の水準に設定されます。
メモ: この節では、「平均を比較する」といった場合は、特に断らない限り、「最小2乗平均を比較する」または「ユーザ定義の推定値を比較する」ことを指します。
[最小2乗平均プロットの表示]オプションを選択すると、最小2乗平均プロットが描かれます。このオプションを選択した場合で、選択している効果が交互作用項である時には、交互作用プロットの作成に関するオプションのパネルが表示されます。このパネルで、重ね合わせる項を選択してください。交互作用プロットを選択しなかった場合には、すべての因子の水準を組み合わせた最小2乗プロットが描かれます。最小2乗平均プロットのオプションを参照してください。
比較したい推定値を指定したら、「比較の選択」の下で比較の種類を選択します。または、何も選択せずに[OK]をクリックします。
全体平均との比較 - ANOM
各水準の最小2乗平均を、それらの全体と比較します。この分析は、平均分析(ANOM; analysis of mean)と呼ばれている多重比較法です。
コントロール群との比較 - Dunnett
各水準の最小2乗平均を、コントロール水準の最小2乗平均と比較します。この分析は、Dunnettの検定と呼ばれている多重比較法です。
すべてのペアの比較 - TukeyのHSD検定
最小2乗平均のすべてのペアを比較します。その際、Tukey法による多重性調整を行います。
各ペアの比較 - Studentのt検定
最小2乗平均のすべてのペアを比較します。ただし、この方法では、Tukey法とは異なり、多重性の調整を行いません。
いずれかの比較を選択すると、レポートが表示されます。レポートの上部には、分位点(棄却値)などの詳細が表示されています。また、多重性の調整を行った検定については、その調整方法名が表示されます。さらに、[ユーザ定義の推定値]を指定した場合、比較する水準や固定する水準が表示されます。なお、指定がない場合、連続尺度の効果は標本平均に、名義尺度および順序尺度の効果は最初の水準に固定されます。
「比較の選択」リストから何も選択せずに[OK]をクリックした場合、「多重比較」レポートが開き、「最小2乗平均の推定値」または「ユーザ定義の推定値」表が表示されます。この状態でも、「多重比較」の赤い三角ボタンメニューから、前述した4つの比較のいずれも選択できます。以下では、用意されているレポートとオプションを説明します。
デフォルトでは、[多重比較]オプションは、起動ウィンドウで選択された推定値の種類に従って「最小2乗平均の推定値」または「ユーザ定義の推定値」レポートを表示します。この表は、設定ダイアログでいずれの比較を選択しなくても、常に表示されます。比較対象の各グループ(各水準)について、推定値、t値、信頼区間が表示されます。この表では次のことがわかります。
カテゴリカルな効果の水準
レポートの最初の列には、比較するグループ(水準)が示されています。この列の値は、分析されるグループを示します。
推定値
グループ平均(該当する水準の最小2乗平均)の推定値。
標準誤差
グループ平均の推定値に対する標準誤差。
自由度
グループ平均が0かどうかの検定の自由度。
下側95%
グループ平均の両側信頼区間の下限。「モデルのあてはめ」ウィンドウで[有意水準の設定]を選択することによって、信頼水準を変更することができます。
上側95%
グループ平均の両側信頼区間の上限。
t値
有意性検定のt値。この列は、レポートを右クリックし、[列]>[t値]を選択した場合のみ表示されます。
p値(Prob>|t|)
有意性検定のp値。この列は、レポートを右クリックし、[列]>[p値(Prob>|t|)]を選択した場合のみ表示されます。
算術平均
(「最小2乗平均の推定値」レポートにのみ表示されます。)各グループの算術平均。
N
(「最小2乗平均の推定値」レポートにのみ表示されます。)各グループの平均を計算するのに使用した標本サイズ。
メモ: t値とp値を表示するには、表内を右クリックし、[列]を選択します。
このオプションは、各グループの平均を、全体平均と比較します。また、全体平均との差の信頼区間を、表とグラフで示します。この手法は、平均分析(ANOM; analysis of means)と呼ばれます(Nelson, et al., 2005)。この比較では、各グループの平均を全体平均と比較するので、複数回の比較が行われます。平均分析では、複数回の比較で生じる多重性を調整しています。図3.30は、「Lipid Data.jmp」サンプルデータの例です。
平均分析は、分散分析と同じように思えるかもしれません。しかし、平均分析は、いくつかの水準のなかで、どのグループの平均が全体平均と異なるかを特定します。一方、分散分析のF検定は、いずれかのグループの平均が全体平均と異なっていることが分かるだけで、どのグループの平均が全体平均と異なっているかは特定できません。
「全体平均との比較」レポートの上部には、次のものが表示されます。
分位点
決定限界を計算するのに使用されるNelsonのh統計量。
自由度
信頼区間を算出する際に使用された自由度
平均
この「平均」は、グループの最小2乗平均の重み付け平均です。この重み付け平均は、グループの最小2乗平均における中立的な全体平均を表していると考えられます。
この重み付き平均の重みには、L(X′X)−1L′の対角要素の逆数が使われます。ここで、Lは、最小2乗平均を算出する係数からなる行列です。最小2乗平均については、SAS Institute Inc.(2020b)の「GLM Procedure」章を参照してください。
ユーザ定義の推定値でも、平均分析での全体平均は、同様に推定値の重み付き平均として定義されます。この場合、Lは推定値を算出する係数からなる行列になります。
調整方法
棄却値やp値を求めるために使用された計算手法。
Nelson
この方法は、正確な棄却値とp値を算出します。Nelson法は、推定値の間に相関がない場合だけに使えます。
Nelson-Hsu
Hsuの因子分析型近似法です(Hsu, 1992)。この方法は、棄却値とp値の近似値を算出します。Nelson法が使えないような状況で使用されます。
Sidak
Nelson法、Nelson‐Hsu法の計算が失敗した場合に使用されます。
技術的な詳細については、SAS Institute Inc.(2020b)の「GLM Procedure」章を参照してください。
「全体平均との比較」レポートメニューからは、次の3つのオプションが使用できます。
各グループの平均を、全体平均と比較します。次のような統計量が表示されます。
• 比較する水準
• 差 - 差の推定値
• 標準誤差 - 差の標準誤差
• 信頼区間の上限と下限
• t値 - 「差」を「標準誤差」で割った比
このグラフでは、各グループの平均が点でプロットされます。また、全体平均が水平線で描かれ、その上側と下側に決定限界が描かれます。あるグループの平均の点が、決定限界の外側にある場合、そのグループは平均分析において有意な差があります。グラフで使われている有意水準は、グラフの下に表示されます。
「全体平均との比較 グラフ」レポートのメニューには、次のオプションがあります。
要約レポートの表示
各グループの推定値、決定限界、および限界外を示した表を表示します。
表示オプション
グラフの見栄えを変更するためのいくつかのオプションがあります。
p値(Prob>|t|)を含む列を「全体平均との比較」レポートに追加します。バランスが取れていないデータや複雑な比較などでは積分が複雑になり、計算量が少なくてすむアルゴリズムで棄却値やp値を求められないときがあります。そのような場合は、Sidak法によって棄却値が計算されます(このとき、p値は計算されません)。
「Lipid Data.jmp」サンプルデータを例に見てみましょう。飲酒状況と心疾患既往歴を制御しながら、「喫煙歴」の4群のいずれかで、1日あたりの「コーヒーの摂取量」がその全体平均と異なっているかどうかを調べてみます。「コーヒーの摂取量 (カップ/日)」を応答とし、「喫煙歴」、「飲酒状況」および「心臓病歴」をモデル効果として指定します。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Lipid Data.jmp」を開きます。
2. [分析]>[モデルのあてはめ]を選択します。
3. 「コーヒーの摂取量 (カップ/日)」を選択し、Yをクリックします。
4. [喫煙歴]、[飲酒状況]、および[心臓病歴]を選択して[追加]をクリックします。
5. [実行]をクリックします。
6. 「応答 コーヒーの摂取量 (カップ/日)」の赤い三角ボタンをクリックし、[推定値]>[多重比較]を選択します。
7. 「効果の選択」リストから、[喫煙歴]を選択します。
8. 「比較の選択」リストから、[全体平均との比較 - ANOM]を選択します。
9. [OK]をクリックします。
図3.30の結果からわかるように、非喫煙者とたばこ喫煙者の最小2乗平均は、コーヒー摂取に関して全体平均とは有意に異なっています。
図3.30 レーティングの全体平均との比較
[コントロール群との比較 - Dunnettの検定]を選択すると、コントロール群(対照群)を指定するためのウィンドウが開きます。[最小2乗平均の推定値]を選択した場合は、選択した効果のすべての水準がリストに表示されます。[ユーザ定義の推定値]を選択した場合は、指定した効果の水準の組み合わせがリストに表示されます。
コントロール群を選択し、[OK]をクリックすると、「最小2乗法によるあてはめ」レポートに「コントロール群との比較」レポートが表示されます。このオプションは、指定された水準の平均をコントロール群の平均と比較します。また、コントロール群との差の信頼区間に関する表と、決定限界に関するグラフを作成します。p値や信頼区間の計算には、Dunnett法が使われます。Dunnett法は、コントロール群との比較の全体において、第1種の誤りを犯す確率を制御します(Hsu, 1996 and Westfall et al., 2011)があります。
Dunnett法での正確な計算ができない状況では、Hsuの因子分析型近似法が使われます(Hsu, 1992)。バランスが取れていないデータや複雑な比較などでは積分が複雑になり、棄却値やp値を求められないときがあります。そのような場合は、Sidak法によって棄却値が計算されます。
「コントロール群との比較」レポートの上部には、次のような情報が表示されます。
分位点
Dunnett検定の棄却値。
自由度
信頼区間を算出する際に使用された自由度。
コントロール群
指定されたコントロール群。効果を1つだけ選択した場合は、その効果の1つの水準がコントロール群とされます。2つ以上の効果の組み合わせを指定した場合は、水準の組み合わせたものがコントロール群とされます。
調整方法
棄却値やp値を求めるために使用された計算手法。
Dunnett
この方法は、正確な棄却値とp値を算出します。Dunett法は、推定値の間に相関がない場合だけに使えます。
Dunnett-Hsu
Hsuの因子分析型近似法です(Hsu, 1992)。この方法は、棄却値とp値の近似値を算出します。Dunnett法が使えないような状況で使用されます。
Sidak
Dunnett法、Dunnett‐Hsu法の計算が失敗した場合に使用されます。
技術的な詳細については、SAS Institute Inc.(2020b)の「GLM Procedure」章を参照してください。
「コントロール群との比較」レポートメニューからは、次の3つのオプションが使用できます。
各グループの平均を、コントロール群の平均と比較します。次のような統計量が表示されます。
• 比較する水準
• 差 - 差の推定値
• 標準誤差 - 差の標準誤差
• 信頼区間の上限と下限
• t値 - 「差」を「標準誤差」で割った比
このグラフでは、各グループの平均が点でプロットされます。また、コントロール群の平均が水平線で描かれ、その上側と下側に決定限界が描かれます。あるグループの平均の点が、決定限界の外側にある場合、そのグループはDunnett検定において有意な差があります。グラフで使われている有意水準は、グラフの下に表示されます。
「コントロール群との比較 グラフ」レポートのメニューには、次のオプションがあります。
要約レポートの表示
各グループの推定値、決定限界、および限界外を示した表を表示します。
表示オプション
グラフの見栄えを変更するためのいくつかのオプションがあります。
p値(Prob>|t|)を含む列を「コントロール群との比較」レポートに追加します。バランスが取れていないデータや複雑な比較などでは積分が複雑になり、計算量が少なくてすむアルゴリズムで棄却値やp値を求められないときがあります。そのような場合は、Sidak法によって棄却値が計算されます(このとき、p値は計算されません)。
すべてのペアを比較する検定として、「すべてのペアの比較 ‐ TukeyのHSD検定」と「各ペアの比較 ‐ Studentのt検定」(Hsu 1996; Westfall et al. 2011)があります。TukeyのHSD検定は、すべてのペアの比較に関して有意水準が保たれています(Hsu, 1996およびWestfall et al., 2011)。一方、Studentのt検定は、1つ1つの比較のみにしか有意水準が保たれていません。Studentのt検定を用いた場合、行った複数の比較のうちのいずれか1つで第1種の誤りを犯す確率は、設定した有意水準をかなり超えてしまいます。
「すべてのペアの比較 - TukeyのHSD検定」レポートの上部には、次のものが表示されます。
分位点
検定の棄却値。TukeyのHSD検定では、分位点はです。ここで、qはスチューデント化された範囲の分位点です。
自由度
検定や信頼区間を算出する際に使用された自由度。
調整方法
棄却値やp値を求めるために使用された計算手法。
Tukey
この方法は、正確な棄却値とp値を算出します。この方法は、推定値の間に相関がなく、かつ、推定値の分散が等しい場合にだけ使えます。バランスが取れているデータ(釣合い型データ)の場合には、この条件を満たしています。
Tukey-Kramer
この方法は、棄却値とp値の近似値を算出します。Tukey法が使えないような状況で使用されます。
技術的な詳細については、SAS Institute Inc.(2020b)の「GLM Procedure」章を参照してください。
一方、「各ペアの比較 ‐ Studentのt検定」レポートの上部には、t検定のDF(t検定で使用される自由度)および分位点(棄却値)が表示されます。
TukeyのHSD検定も、Studentのt検定も、水準のすべてのペアを比較します。それぞれのペアに対して、レポートには次の統計量が表示されます。
• 比較する水準
• 差 - 平均間の差の推定値
• 標準誤差 - 差の標準誤差
• t値 - 差がゼロかどうかの検定のt値
• p値(Prob > |t|) - 検定のp値
• 平均差に対する信頼区間の上限および下限
「ペア比較の散布図」は、すべてのペアについて、平均差の信頼区間を描いたグラフです。ディフォグラム(diffogram)や、平均-平均散布図(mean-mean scatterplot)などとも呼ばれています。(図3.32)。有意な差が分かるように、色分けされています。
図には、右上から左下に向けて対角線が描かれています。この対角線は、2つの平均が等しい座標を示します。各線分がペアごとの比較の信頼区間に対応しています。左上から右下に向けて描かれた線分は、平均の差の信頼区間を表しています。線分上の中点の座標は、グループの平均を表しています。これらの点にカーソルを置くと、グループ名と差の推定値を示したツールヒントが呼び出されます。線分が対角線に交わっている場合、統計的な有意差はありません。
ペア比較の散布図には次のオプションがあります。
参照線の表示
散布図上の各点に対して、参照線を表示します。散布図の点が多い場合、これは推奨できません。カーソルを点の上に置くとツールヒントに比較対象が表示されます。点が多い場合にはこちらを推奨いたします。
このオプションを選択すると、有意な差と有意ではない差を文字によって示すレポートが表示されます。このレポートでは、同じ文字でつながっていない水準は、有意差があります。同じ文字でつながっている水準は、有意ではありません。
このオプションはデータテーブルを作成し、効果の水準、接続文字、最小2乗平均、標準誤差、信頼区間の列を保存します。このデータテーブルには、「棒」というスクリプトも保存されます。このスクリプトは、最小2乗平均を棒グラフとして描き、それに信頼区間のバーを重ねたグラフを作成します。棒グラフにおいて、水準は最小2乗平均の降順に並べられます。
このオプションを選択すると、同等性検定が行われます。実質的に意味がある差の範囲内にあることを検証したい場合には、同等性検定が役立ちます。この検定においては、特定の閾値を指定し、その閾値内に母平均の差が収まっている場合には「母平均は実質的に等しい」と見なします。つまり、2つのグループの母平均の差が閾値以下である場合は、それらは同等であると見なします。
ダイアログで閾値を設定して分析を実行すると、「同等性検定」レポートが表示されます。指定した閾値は、レポートの上部に表示されます。レポートは、同等性検定の表とグラフで構成されます。同等性検定と信頼区間は、Studentのt分布に基づいて計算されています
メモ: JMPにおいて同等性検定が利用できるのは、Studentのt検定だけです。
同等性検定には、2回の片側検定法(TOST metod; Two One-Sided Tests metod)を用いています(Schuirmann, 1987)。この方法では、「真の差は、閾値を超えている」という帰無仮説を検定するために、プールした分散に基づく片側t検定を2回、行います。2回の検定が両方ともこの帰無仮説を棄却すれば、「母平均の差は、上限値と下限値のどちらの閾値も超えていない」とみなされます。したがって、母平均の差は実質的に等しいとみなされます。どちらか一方だけ棄却されたか、または、どちらの検定も棄却されなかった場合は、統計的に有意ではありません。
比較ごとに、次のような情報を含んだ「同等性検定」が作成されます。
• 差 - 平均の差の推定値
• 下限値 t値、上限値 t値 - 閾値の下限値および上限値に対する片側t検定のt値
• 下限値 p値、上限値 p値 - 片側t検定のp値
• 最大p値 - 2つの片側t検定のp値のうち大きいほうの値
• 平均の差に対する1−2α信頼区間の下限および上限
メモ: 同等性検定が利用できるのは、Studentのt検定だけです。
この散布図では、実質的な同等性に関して、有意な比較と有意でない比較を色分けして示します。このプロットは、ディフォグラム(diffogram)や、平均-平均散布図(mean-mean scatterplot)などとも呼ばれています。
図には、対角線と、影のついた帯が描かれます。対角線から帯までの距離が、実質的な差を表しています。線分上の中点の座標は、差の点推定値を表しています。対角線上に3つ目の軸があると見なすことができ、各線分は、差に対する1-2a信頼区間を表しています。これらの点にカーソルを置くと、グループ名と差の推定値を示したツールヒントが呼び出されます。対角線上の帯の中に完全に線分が含まれている場合、平均が実質的に同等であることを示しています。
メモ: 同等性検定の散布図が利用できるのは、Studentのt検定だけです。
同等性検定の散布図には次のオプションがあります。
参照線の表示
散布図上の点の参照線を表示します。散布図の点が多い場合、これは推奨できません。カーソルを点の上に置くとツールヒントに比較対象が表示されます。点が多い場合にはこちらを推奨いたします。
Studentの「各ペアの比較 ‐ Studentのt検定」レポートから「同等性検定」レポートを削除します。
「Lipid Data.jmp」サンプルデータを例に見てみましょう。性別(男性と女性)、年齢(25歳と35歳)、喫煙状況(非喫煙者と元喫煙者。それぞれ「喫煙歴」が「no」と「quit」)の組み合わせで構成される群について、平均身長における「コレステロール」の違いを調べてみます。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Lipid Data.jmp」を開きます。
2. [分析]>[モデルのあてはめ]を選択します。
3. 「コレステロール」を選択し、[Y]をクリックします。
4. [性別]、[年齢]、[身長]、[喫煙歴]を選択して、[追加]をクリックします。
5. [実行]をクリックします。
6. 「応答 コレステロール」の赤い三角ボタンをクリックし、[推定値]>[多重比較]を選択します。
7. 「推定値の種類」リストから[ユーザ定義の推定値]をクリックします。
8. 「性別の水準を選択」リストから[female](これはデフォルトで選択されているはずです)と[male]を選択します。
9. 「喫煙歴を選択」リストから、[no]と[quit]を選択します。
10. [年齢]リストで、最初の2つの行にぞれぞれ「25」、「35」を入力します。
[身長]というタイトルのリストには何も入力しないでください。[身長]の値が入力されていないので、多重比較レポートでは[身長]列の平均値が使用されます。
11. [推定値の追加]をクリックします。
指定したレベルで可能なすべての組み合わせが「比較の推定値」レポートに表示されます。
12. 「比較の選択」リストで、[すべてのペアの比較 - TukeyのHSD検定]を選択します。
これで、ウィンドウが図3.31のようになっていることを確認します。
図3.31 ユーザ定義の推定値を指定
13. [OK]をクリックします。
「すべてのペアの平均差」レポートを見ると、28個のペアの比較の中で2つが有意になっています。「ペア比較の散布図」(図3.32)では、これらの比較の信頼区間が赤色になっています。いずれかの点の上にカーソルを置いて、その点がどのペアの比較を表しているかを決定することができます。ツールヒントには、比較の2つの水準の間の差も含まれています。図3.32の2つの赤い点は、35歳の元喫煙者と25歳の非喫煙者を男女について比較している点を表しています。
図3.32 ユーザ定義の推定値のペア比較の散布図