散布図は、多変量のグラフの中で一番シンプルなものです。散布図によって、2つの連続変数の関係を判断したり、2つの連続変数に相関があるかどうかを検討できます。相関とは、2つの変数がどれぐらい関係しているかを示す指標です。2変数間の相関が強い場合、片方の変数が他方の変数に影響を与えている可能性があります。もしくは、第3の変数によって両変数が同じように影響を受けている可能性もあります。
図4.9 散布図の例
この例では、会社情報のサンプルデータ「Companies.jmp」を使用します。このデータには、数社の企業に関して、売上げと従業員数の情報が含まれています。
証券アナリストは、次の点を調査する必要があります。
• 売上と従業員数の間にどのような関係があるか
• 売上高は従業員数に比例して伸びるか
• 従業員数から平均売上高を予測できるか
回答を導き出すには、「売上($M)」と「従業員数」の散布図を使用します。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Companies.jmp」を開きます。
2. [分析]>[二変量の関係]を選択します。
3. 「売上($M)」を選択し、[Y, 目的変数]をクリックします。
4. 「従業員数」を選択し、[X, 説明変数]をクリックします。
図4.10 「二変量の関係」ウィンドウ
5. [OK]をクリックします。
図4.11 「売上($M)」と「従業員数」の散布図
図の右上に点がぽつんと1つあることから、1社だけ従業員数が多く、売上も抜きん出ていることがわかります。この1点が他のデータ点から離れているせいで、残りの企業における関係が分かりづらくなっています。次の手順に従って、図からこの点を削除し、図を作成し直します。
1. 該当する点をクリックして選択します。
2. [行]>[非表示かつ除外]を選択します。該当するデータ点が非表示になり、計算の対象から外されます。
注: 非表示と除外の違いは非常に重要です。点を非表示にした場合、その点はグラフから削除されますが、統計計算では引き続き使用されます。点を除外した場合は、この点は統計計算の対象から外されますが、グラフからは削除されません。点を除外し、さらに非表示にすると、すべての計算で対象外となり、すべてのグラフ上からも削除できます。
3. 外れ値を除外してプロットを再作成するには、「二変量の関係」の赤い三角ボタンをクリックし、メニューから[やり直し]>[分析のやり直し]を選択します。元のレポートウィンドウは閉じてもかまいません。
図4.12 外れ値を削除した散布図
更新後の散布図から、次のことがわかります。
• 売上と従業員数の間には関係がある。
データ点は特定のパターンを示しています。データ点は、グラフ上で無関係に散らばっているわけではありません。ほとんどのデータ点の近くを通る直線を対角線上に引くことができます。
• 売上高は従業員数に伴って増え、直線関係が成り立っている。
データ点の近くを通るような直線を引くと、左下から右上に伸びる直線になります。直線の傾きから、従業員数が増加すると(X軸の左から右に移動すると)、売上も増加する(Y軸の下から上に移動する)ことがわかります。ほとんどのデータ点の近くを直線が通っているため、これら2変数の関係は直線関係であると言えます。なお、データ点の近くを通る線が曲線になった場合でも、点にパターンがあるならば「関係がある」と言えますが、 その関係は「直線関係」ではありません。
• 従業員数から平均売上を予測できる。
散布図から、従業員数が増加すると、売上も概ね伸びていることがわかります。つまり、従業員数さえ分かれば、その企業の売上を予測できるでしょう。また、先ほどの直線に基づいて予測を行えるでしょう。直線による予測は正確ではありませんが、本当の売上を近似したものにはなるでしょう。
JMPの他のグラフと同様、散布図も対話型です。右下隅の点の上にカーソルを置くと、該当する行の番号と、X、Yの値が表示されます。
図4.13 点の上にカーソルを置く
点をクリックすると、データテーブルでも対応する行が強調表示されます。複数の点を選択するには、次のいずれかを実行します。
• クリックし、目的の点の周りを囲むようにカーソルをドラッグします。四角形の選択範囲内の点がすべて選択されます。
• なげなわツールを選択してから、マウスをクリックし、複数の点の周りを囲むようにドラッグします。なげなわツールでは、不規則な形状の領域を選択できます。