分散分析のデータは、JMP以外の場面においては、1行に複数の観測値が含まれている形式で保存されているかもしれません。JMPでそのような形式のデータを分析するには、データを読み込んでから、各行が1つの観測値を含む形式に構成し直す必要があります。たとえば、スプレッドシート形式のデータがあるとしましょう。このスプレッド形式のデータには、3つの異なる製造ラインで作られた商品のデータが、3列に表示されています。これをJMPのデータテーブルに変更するには、各行が1個の商品のデータに対応するように、積み重ねた形式にする必要があります。
この例では、ファイル「Fill Weights.xlsx」を使用します。このファイルには、3つの異なる製造ラインから無作為抽出された箱入りシリアルの重さが含まれています。データの形式は、図のとおりです。
• 「ID」の列には、箱入りシリアルのIDが含まれています。
• 「Line」の列には、各製造ラインから抽出された箱入りシリアルの重さ(単位はオンス)が含まれています。
データの形式
箱入りシリアルの目標の重さは、12.5オンスです。調べたいのは、この3つの製造ラインがすべて目標を満たしているかどうかということですが、まずは、各製造ラインの平均値を比較してみることにします。各ラインの重さの平均を比較するには、一元配置分析を使用できます。
「一元配置」プラットフォームを使用するには、次の手順に従います。
1. データをJMPに読み込みます。データの読み込みを参照してください。
2. 各行が観測値を1個だけ含む形式になるように、データを構成し直します。このためには、箱入りシリアルのID、製造ラインの名前、重さの列を作成する必要があります。データの積み重ねを参照してください。
この例では、Microsoft ExcelのデータをJMPに読み込む2つの方法を紹介します。どちらかを選択するか、または両方とも試してみてください。
• [ファイル]>[開く]からMicrosoft Excelファイルを選択し、Excel読み込みウィザードを使ってデータを読み込みます。Excel読み込みウィザードを使ったデータの読み込みを参照してください。この方法は任意のExcelファイルに使用でき、便利です。
• Microsoft Excelのデータを、JMPのデータテーブルにコピー&ペーストします。Excelデータのコピー&ペーストを参照してください。小さなデータファイルの場合は、この方法を使用できます。
Microsoft Excelからデータを読み込む方法については、『JMPの使用法』のMicrosoft Excelファイルの読み込みを参照してください。
1. [ファイル]>[開く]を選択し、「Samples/Import Data」フォルダにある「Fill Weights.xlsx」を開きます。
Excel読み込みウィザードが表示されます。
2. 「列見出しの開始行」に「3」と入力します。
Excelファイルの1行目には表の説明が入力されており、2行目は空白です。列の見出しは3行目から始まります。
3. 「列見出しの行数」に「2」と入力します。
Excelファイルでは、3行目と4行目に列の見出しが含まれています。
4. [読み込み]をクリックします。
Excel読み込みウィザードで作成したJMPのデータテーブル
7行のデータが作成され、各行に3つのラインのデータが表示されています。また、3つの製造ラインそれぞれのIDと重みの列があり、全部で6列になっています。
IDの列名の「Weights」の部分は、不要であり、誤解を招く恐れがあります。ここで列名を変更することもできますが、データの積み重ねを行った後で列名を変更したほうが効率的です。
5. データの積み重ねに進みます。
1. Microsoft Excelでファイル「Fill Weights.xlsx」を開きます。
2. 表内の、「Weights」という見出し行以外の部分を選択します。
3. 右クリックして[コピー]を選択します。
4. JMPで[ファイル]>[新規作成]>[データテーブル]を選択します。
5. [編集]>[列名とともに貼り付け]を選択します。
[編集]>[列名とともに貼り付け]は、コピーした範囲に列名も含まれる場合に使用するオプションです。
[列名とともに貼り付け]で作成したJMPのデータテーブル
6. データの積み重ねに進みます。
1つのオブザベーションを1行に配置するには、[列の積み重ね]オプションを使用します。[列の積み重ね]オプションの詳細については、『JMPの使用法』の列の積み重ねを参照してください。
1. JMPのデータテーブルで、[テーブル]>[列の積み重ね]を選択します。
2. 6列すべてを選択し、[積み重ねる列]をクリックします。
3. [複数系列の積み重ね]チェックボックスをオンにします。
ここで積み重ねるのは、「ID」と「Line」の2つの系列です。「系列の数」はデフォルトで「2」に設定されているので、変更する必要はありません。また、各系列は隣接しておらず、ID、Line A、ID、Line B、ID、Line Cと、交互になっています。このため、[隣接]はオフのままにしておきます。
4. [行による積み重ね]をオフにします。
5. [欠測値の行を除外]をオンにします。
6. 「出力テーブル名」に「積み重ねたテーブル」と入力します。
7. [OK]をクリックします。
この新しいデータテーブルで、「データ」および「データ2」には、それぞれIDと重さが含まれています。
8. 「ラベル」列の見出しを右クリックし、[列の削除]を選択します。
「ラベル」に表示されている項目は、元のデータテーブルで箱のIDの見出しとして表示されていたものであり、ここでは不要です。
9. 列の見出しをダブルクリックし、次のように名前を変更します。
– 「データ」→「ID」
– 「ラベル 2」→「ライン」
– 「データ 2」→「重さ」
10. 「列」パネルで、「ID」の左側のアイコンをクリックし、[名義尺度]を選択します。
「ID」列の値は数値ですが、箱を識別する番号であるため名義尺度として扱う必要があります。この例では重大な支障はありませんが、列には常に適切な尺度を割り当てるようにしましょう。
11. ([ファイル]>[開く]を使ってExcelのデータを読み込んだ場合のみ)以下の手順を実行してください。
1. 「ライン」列の見出しをクリックして列を選択し、[列]>[再コード化]を選択します。
2. 「新しい値」の値を、図のように変更します。
列の値の再コード化
3. [完了]>[値の置換]をクリックします。
これで、JMPの分析に適した構造のデータテーブルが作成されました。1つの行は、1つの箱入りシリアルに対応しています。1列目には箱のID、2列目には製造ライン、3列目には重さが含まれています(図)。
再コード化したデータテーブル
ここでは、以下のことを行います。
• 一元配置の分散分析を実行し、3つの製造ラインの重さの平均値に差があるかどうかを検定する。
• 比較円を作成し、どのラインに差があるかを調べる。
• 点にIDのラベルを付ける。これは、箱の重さを測り直したり、詳しく調査したいときに便利です。
まず、「積み重ねたテーブル」がアクティブになっていることを確認します。
1. [分析]>[二変量の関係]を選択します。
2. 「重さ」を選択し、[Y, 目的変数]をクリックします。
3. 「ライン」を選択し、[X, 説明変数]をクリックします。
4. [OK]をクリックします。
5. 「ラインによる重さの一元配置分析」の赤い三角ボタンをクリックし、[平均/ANOVA]を選択します。
一元配置分析のプロットに表示されるひし形は、各製造ラインの平均値の95%信頼区間を示します。平均のひし形の外にある点は、外れ値のように見えますが、そうではありません。このことを確認するために、箱ひげ図を追加してみましょう。
6. 「ラインによる重さの一元配置分析」の赤い三角ボタンをクリックし、[表示オプション]>[箱ひげ図]を選択します。
すべての点は、箱ひげ図の境界線内に収まっており、外れ値ではないことがわかります。
7. データテーブルの「列」パネルで「ID」を右クリックし、[ラベルあり/ラベルなし]を選択します。
8. プロットの点の上にマウスを置くと、その点の「ID」、「ライン」、「重さ」の値が表示されます(図)。
9. 「ラインによる重さの一元配置分析」の赤い三角ボタンをクリックして、[平均の比較]>[すべてのペア,
TukeyのHSD検定]を選択します。
プロットの右側に比較円が表示されます。
10. 下の比較円をクリックします。
ラインごとの重さの一元配置分析
「分散分析」レポートによると、p値は0.0102となっており、この結果は「いずれかの平均が他の平均と異なっている」ことを示す証拠になっています。プロットにおいて、選択している「ラインC」の比較円は、赤で表示されています。「ラインB」の円は太いグレーで示されており、「ラインC」と「ライン B」の平均は0.05の有意水準で有意差があると言えます。「ラインA」と「ラインB」の平均には、統計的に有意な差は見られません。
一元配置分析プロットに表示される平均のひし形は、各製造ラインの平均値に対する95%信頼区間を示しています。「一元配置の分散分析」レポートの「各水準の平均」に、95%信頼区間の下限と上限が数値で示されています。どちらの結果からも、「ラインB」と「ラインC」の信頼区間に、目標値の12.5が含まれていないことがわかります(「ラインB」は目標値を上回っており、「ラインC」は下回っています)。この2つの製造ラインについては、重さが目標値と異なっている原因を調べ、対処する必要があります。