「一変量の分布」プラットフォームは、一変量に対する分析(ヒストグラムや要約統計量など)を行います。一変量という言葉は、2つ(二変量)または3つ以上(多変量)の変数ではなく、1つの変数だけが関与することを意味します。ただし、1つのウィンドウ内で、複数の変数のおける分布を調べることができます。各変数に対するレポートの内容は、カテゴリカル(名義または順序)変数か連続変数かによって異なります。
• カテゴリカル変数の場合、棒グラフが先頭に表示されます。この棒グラフには、順序変数や名義水準の各水準における度数を、棒で表示しています。レポートには、度数と割合が表示されます。
• 連続変数の場合、ヒストグラムと、外れ値の箱ひげ図が先頭に表示されます。ヒストグラムには、連続変数の値をグループ化して、そのグループごとの度数を棒で表示しています。レポートには、いくつかの分位点と要約統計量が表示されます。
データの分布を把握したら、続いてどのような分析を行うかを計画できます。
注: 「一変量の分布」プラットフォームの詳細については、『『基本的な統計分析』』の一変量の分布章を参照してください。
ここでは、健康的な食生活を送るため、シリアルの栄養価を調べることにしましょう。シリアルデータの一変量の分布を分析すれば、次のような疑問が解決できます。
• どのシリアルが最も食物繊維が多いか
• カロリーの中央値、最大値、最小値はどれくらいか
• 脂肪量の中央値はどれぐらいか
• どのシリアルが最も脂肪量が多いか
• データに外れ値はあるか
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Cereal.jmp」を開きます。
2. [分析]>[一変量の分布]を選択します。
3. Ctrlキーを押しながら「会社名」、「カロリー」、「脂肪」、「食物繊維」をクリックします。
4. [Y, 列]をクリックし、[OK]をクリックします。
図6.2 「会社」、「カロリー」、「脂肪」、「食物繊維」の分布
「食物繊維」の分布で、次のことを確認してください。
– 「食物繊維」の箱ひげ図を見ると、「Fiber One」と「All-Bran with Extra Fiber」に最も多くの食物繊維が含まれていることがわかります。これらのシリアルは、食物繊維に関して外れ値です。
「Cereal.jmp」の、「Fiber One」の行にはラベルが付けられています。このラベルにより、グラフ内のデータ点の横にシリアル名が表示されます。ラベル全体を見るには、一番右側の縦の境界線を右にドラッグします。ラベルのないデータ点の上にカーソルを置くと、「All Bran with Extra Fiber」のラベルが表示されます。
「脂肪」の分布で、次のことを確認してください。
– 「脂肪」の箱ひげ図で一番上のデータ点(xマーカー)の上にカーソルを置くと、「100% Nat. Bran Oats & Honey」が最も脂肪が多いことがわかります。
– 脂肪の「分位点」レポートを見ると、脂肪の中央値は1グラムです。
カロリーの「分位点」レポートで、次のことを確認してください。
– カロリーの最大値は250です。
– カロリーの最小値は50です。
5. 「会社名」のヒストグラムで、「Nabisco」の棒をクリックします。
図6.3 Nabiscoシリアルの一変量の分布
Nabiscoシリアルのカロリー、脂肪、および食物繊維がそれぞれのヒストグラムでも強調表示されます。これにより、Nabiscoシリアルのカロリー、脂肪、および食物繊維の分布をデータ全体で相対的に比較できます。たとえば、脂肪に関して見ると、Nabiscoのシリアルはデータ全体と比べて少な目になっていることがわかります。
6. 「食物繊維」の最後の棒の下をクリックして、すべての棒の選択を解除します。
7. 「食物繊維」のヒストグラムで、Shiftキーを押しながら値が8以上の棒をすべて選択します。
図6.4 食物繊維の多いシリアル
食物繊維の多いシリアルが「カロリー」と「脂肪」のヒストグラムでも強調表示されます。ヒストグラムはリンクされており、食物繊維の多いシリアルは脂肪が少ない傾向であることがわかります。
8. 「カロリー」ヒストグラムで、CtrlキーとShiftキーを押しながら200に近い棒をクリックして、それらの選択を解除します。
カロリーの高いシリアルがヒストグラムから除外されます。
図6.5 食物繊維が多くカロリーの低いシリアル
ヒント: 「一変量の分布」レポートを開いたままにしておきます。これは、後ほどクラスター分析で使用します。似たようなデータをグループにまとめる分析を参照してください。
結果を見ると、次の疑問に対する回答が得られます。
どのシリアルが最も食物繊維が多いか
「食物繊維」の箱ひげ図を見ると、「Fiber One」と「All-Bran with Extra Fiber」に最も多くの食物繊維が含まれていることがわかります。これら2つのシリアルは外れ値です。
カロリーの中央値、最大値、最小値はどれくらいか
「カロリー」のヒストグラムから、カロリーの範囲は50~275であることがわかります。カロリーの分位点から、カロリーの範囲は50~250であり、中央値は120であることがわかります。分布は一様ではありません。
脂肪量の中央値はどれぐらいか
脂肪の「分位点」レポートを見ると、脂肪の中央値は1グラムであることがわかります。
どのシリアルが最も脂肪量が多いか
脂肪の箱ひげ図から、100% Nat. Bran Oats & Honeyの脂肪量が最も多いことがわかります。このシリアルは外れ値です。
食物繊維を多く摂りたいのであれば、All-Bran with Extra FiberやFiber Oneを選ぶとよいでしょう。これらのシリアルは、カロリーと脂肪も少ないです。ほとんどのシリアルでは食事の脂肪量が大幅に増えてしまうことはありませんが、100% Nat. Bran Oats & Honeyは避けたほうが良さそうです。また、ほとんどのシリアルは脂肪が比較的少ないですが、カロリーが低いとは限らないこともわかりました。