散布図

散布図とは?

散布図は、2つの連続変数の関係を示すものです。

散布図の使用方法

散布図は、関係を示すために使用されます。相関分析では、散布図は2つの変数間の線形関係の強さを示すのに役立ちます。回帰分析では、散布図に多くの場合、あてはめ線を追加します。品質管理では、散布図に仕様限界または参照線を含めることができます。

散布図は関係を示します

散布図は、1つの変数をx軸に、2つ目の変数をy軸に配置することにより、2つの連続変数がどのように関連しているかを示しています。

回帰の散布図では、y軸に応答変数が含まれ、x軸に入力変数が含まれます。

散布図の例

例1:増加する関係

図1の散布図は、増加する関係を示しています。x軸は会社の従業員数を示し、y軸は会社の利益を示します。散布図は、従業員数が増えると利益が増えることを示しています。従業員が少ない企業(グラフの左側)は利益が低く、従業員が多い企業は利益が高くなっています。企業の利益に影響を与える可能性のある変数は数多くあるため、これは非常に単純な例です。

図1:増加する関係を示す散布図

例2:減少する関係

図2の散布図は、減少する関係を示しています。x軸は、加工肉の種類ごとのナトリウムのグラム数を示しています。y軸はタンパク質1kg当たりのコストを示しています。散布図は、ナトリウム量が増加すると、タンパク質のコストが減少することを示しています。ナトリウム量が少ない肉(グラフの左側)はタンパク質のコストが高く、ナトリウム量が多い肉はタンパク質のコストが低くなります。これは理に適っています。塩を低品質の(したがって低コストの)肉に加えると、味が改善される一方で、ナトリウムの量が増えるからです。

図2:変数間の減少する関係を示す散布図

例3:関係のない場合

図3の散布図は、2つの変数間に関係がないことを示しています。x軸は、デニム生地を事前に洗濯する際の洗濯物の量を示しています。y軸は生地の摩耗の測定値を示します。散布図は、ランダムな点群を示しています。グラフの右側に沿って洗濯物の量が大きくなると、生地の摩耗がわずかに減少する場合があります。単回帰分析を使用してこの考えを確認できます。

図3:変数間に関係がないことを示す散布図

例4:曲線関係

図4の散布図は、2つの変数間の曲線関係を示しています。x軸は特定の国々の出生率を示し、y軸は死亡率を示しています。散布図は、出生率が25~30に達するまで減少する関係を示しています。その後、関係は増加に変わります。

図4:減少から増加に転じる、変数間の曲線関係を示す散布図

例5:散布図内の外れ値

データ内の異常値または外れ値は、散布図で目立ちます。

図5は、外れ値のある散布図を示していますが、図6は、外れ値のない同じデータを示しています。右上隅の1つの外れ値は、データを視覚化する散布図の性能に影響を与えます。散布図に外れ値がある場合は、調査して外れ値の原因を見つけることができます。外れ値がある場合とない場合の両方のデータを表示することをお勧めします。

図5:外れ値が存在する散布図
図6:外れ値のない散布図

散布図のカスタマイズ

色とマーカーを使用して、散布図に他の変数の詳細を追加したり、仕様限界などを示す参照線を追加したりできます。 

色とマーカーの使用

図7は、116モデルの自動車の重量と馬力の散布図です。

図7:車の馬力と重量の増加する関係を示す散布図

この基本となる散布図から、増加する関係が見て取れます。重い車はより大きい馬力を持っていて、軽い車はより小さい馬力を持っています。

車の原産国は米国、日本などで、車種はスポーツ、コンパクト、小型、中型、大型のいずれかで指定されています。基本となる散布図は、これら2つの変数に色とマーカーを使用することで拡張できます。

図8の散布図では、色を使用して、原産国の3つの値のデータ点を区別しています。

図8:図7と同じ散布図で、国ごとに色分けして値の違いを表示しています

馬力が225を超える車が日本または米国製であることは容易に理解できます。最も低馬力の車には、米国製の車は含まれていません。

車の種類ごとに異なるマーカーを追加することもできます。

図9:図7と同じ散布図で、国ごとに色分けして、車の種類ごとにマーカーを付けてカスタマイズしています

馬力が200馬力以上の車は、正方形と丸で示されているように、ミディアムまたはスポーツです。馬力が最も低い車はすべて小型車で、上向きの三角形で示されています。チャート上部の緑色のひし形で示されているように、一番重い車は米国製の大型車ですが、この車の馬力は平均的です。

データを表示する際に色、マーカー、またはその両方を使用して、散布図に次元を追加する方法を確かめてみてください。

参照線を追加する

参照線は、散布図に追加すると便利です。重量制限が4,000ポンドの古い木製の橋を、どの車が渡れないかを知る必要があるとします。図10の散布図には、関連性を説明する注釈付きの参照線があります。

図10:図9と同じ散布図に、重量変数の上限である4000を表す参照線が追加されています

図11は、同じ散布図で、古い橋を渡ることができない4台の車にラベルを付けています。

図11:図10と同じ散布図で、重量上限を超えている4つの点にラベルを付けています

仕様限界の追加

多くの状況では、変数には仕様限界があります。図2の肉のデータで、学校の食堂の購買担当者は、ナトリウムが最低300g以上、目標が450g、上限が600gの肉を購入する必要があるとします。図12は、これらの仕様限界がある散布図を示しています。

図12:仕様限界が表示された散布図

これらの行が追加されたことで、学校の食堂で購入できない加工肉の種類が4つあることが簡単にわかります。図13に示すように、これらの点にラベルと色を追加して、詳細を記載できます。購入者はこのグラフを共有して、一部の肉を選択できない理由を示すことができます。

図13:図12と同じ散布図で、仕様限界の外の点にラベルを追加しています

散布図行列

散布図行列は、複数の変数がどのように関連しているかを示すことができます。すべての二変数間の組み合わせをプロットした後、行列を用いて複数の変数間の関係を表して、どの関係が重要そうかを明らかにすることができます。行列は、複数の散布図の外れ値を特定することもできます。

図14は、さまざまなモデルの自動車のデータの散布図行列を示しています。散布図は、図9-11と同じ色とマーカーを使用しています。左端の列の最初の散布図は、重さと最小回転半径の関係を示しています。行列の上三角と下三角は互いに鏡像になっています。

図14:カスタマイズされた色とマーカーを使用した散布図行列

行列は、すべての二変数間の組み合わせが増加する関係であることを示しています。

JMPを使用すると、散布図行列に情報を追加できます。例えば、対角線上に各変数のヒストグラムを表示できます。上三角形の散布図を、変数の各ペアの相関に置き換えることもできます。図15の散布図行列は、これらのカスタマイズを示しています。右側の凡例には、相関のヒートマップがあり、濃い赤は二変数間の強い正の相関を示しています。

図15:ヒストグラムと変数間の相関を表示した散布図行列

この行列を見ると、排気量のヒストグラムに外れ値がありそうなことも分かります。

JMPを使用すると、各散布図の確率楕円など、さらに多くの情報を行列に追加して、複数の次元で外れ値を確認できます。図16は、1つの散布図で外れ値を選択すると、他のすべての散布図で外れ値がどのように強調表示されるかを示しています。

図16:重量と最小回転半径の散布図で外れ値を選択した散布図行列

図16の散布図行列は、個々の散布図の確率楕円を示しています。赤い円にはデータの約95%が含まれています。円の外側の点を調べて、それらが多変量の外れ値であるかどうかを確認することができます。図16では、重量と最小回転半径の散布図で外れ値となっている青い円が1つ選択されています。この点が外れ値になっている散布図は他にもありますが、すべてではありません。排気量と馬力の散布図では、この点が確率楕円の中央で強調表示されています。

点の選択を解除すると、図17に示すように、すべての点が同じ明るさで表示されます。排気量と馬力の散布図の確率楕円から、排気量のヒストグラムに外れ値がある理由が見えてきます。散布図の右側の楕円の外側にいくつかの点があります。色は、これらすべての点が米国製の車からのものであることを示していますが、マーカーは、車がスポーツ、中型、または大型のいずれかであることを示しています。色とマーカーを説明する注釈を付けると、散布図行列がさらに良くなる可能性があります。

図17:排気量と馬力の散布図で興味深い外れ値を示す散布図行列

データが手元にある場合、散布図行列を使用して、同時に多くの変数を探索できます。

散布図とデータの種類

連続尺度データ:散布図に適しています

連続尺度データは、多くの可能な値を持つスケールで測定されるため、散布図に適しています。連続尺度データの例は次のとおりです。

  • 経過時間
  • 血圧
  • 重み
  • 温度
  • 速度

 

カテゴリカルデータまたは名義尺度データ:棒グラフを使用

カテゴリカルデータまたは名義尺度データは、特定の値を持つスケールで測定されるため、散布図に適していません。代わりに、棒グラフを使用してください。

カテゴリカルデータを使用すると、標本はグループに分割されることが多く、応答の順序が定義されている場合があります。例えば、「まったくそう思わない」から「非常にそう思う」までのスケールで意見を述べるように求められる調査では、回答はカテゴリカルです。

名義尺度データの場合、標本もグループに分けられますが、特定の順序はありません。居住国は名義尺度変数の一例です。国の略語を使用することも、数字を使用して国名をコーディングすることもできます。いずれにせよ、データのさまざまなグループに名前を付けるだけです。

カテゴリカル変数または名義尺度変数を使用して、散布図をカスタマイズできます。これらの変数の水準に異なる色またはマーカーを割り当てることができます。