散布図
散布図は関係を示します
散布図は、1つの変数をx軸に、2つ目の変数をy軸に配置することにより、2つの連続変数がどのように関連しているかを示しています。
回帰の散布図では、y軸に応答変数が含まれ、x軸に入力変数が含まれます。
散布図の例
例1:増加する関係
図1の散布図は、増加する関係を示しています。x軸は会社の従業員数を示し、y軸は会社の利益を示します。散布図は、従業員数が増えると利益が増えることを示しています。従業員が少ない企業(グラフの左側)は利益が低く、従業員が多い企業は利益が高くなっています。企業の利益に影響を与える可能性のある変数は数多くあるため、これは非常に単純な例です。
例2:減少する関係
図2の散布図は、減少する関係を示しています。x軸は、加工肉の種類ごとのナトリウムのグラム数を示しています。y軸はタンパク質1kg当たりのコストを示しています。散布図は、ナトリウム量が増加すると、タンパク質のコストが減少することを示しています。ナトリウム量が少ない肉(グラフの左側)はタンパク質のコストが高く、ナトリウム量が多い肉はタンパク質のコストが低くなります。これは理に適っています。塩を低品質の(したがって低コストの)肉に加えると、味が改善される一方で、ナトリウムの量が増えるからです。
例3:関係のない場合
図3の散布図は、2つの変数間に関係がないことを示しています。x軸は、デニム生地を事前に洗濯する際の洗濯物の量を示しています。y軸は生地の摩耗の測定値を示します。散布図は、ランダムな点群を示しています。グラフの右側に沿って洗濯物の量が大きくなると、生地の摩耗がわずかに減少する場合があります。単回帰分析を使用してこの考えを確認できます。
例4:曲線関係
図4の散布図は、2つの変数間の曲線関係を示しています。x軸は特定の国々の出生率を示し、y軸は死亡率を示しています。散布図は、出生率が25~30に達するまで減少する関係を示しています。その後、関係は増加に変わります。
例5:散布図内の外れ値
データ内の異常値または外れ値は、散布図で目立ちます。
図5は、外れ値のある散布図を示していますが、図6は、外れ値のない同じデータを示しています。右上隅の1つの外れ値は、データを視覚化する散布図の性能に影響を与えます。散布図に外れ値がある場合は、調査して外れ値の原因を見つけることができます。外れ値がある場合とない場合の両方のデータを表示することをお勧めします。
散布図のカスタマイズ
色とマーカーを使用して、散布図に他の変数の詳細を追加したり、仕様限界などを示す参照線を追加したりできます。
色とマーカーの使用
図7は、116モデルの自動車の重量と馬力の散布図です。
この基本となる散布図から、増加する関係が見て取れます。重い車はより大きい馬力を持っていて、軽い車はより小さい馬力を持っています。
車の原産国は米国、日本などで、車種はスポーツ、コンパクト、小型、中型、大型のいずれかで指定されています。基本となる散布図は、これら2つの変数に色とマーカーを使用することで拡張できます。
図8の散布図では、色を使用して、原産国の3つの値のデータ点を区別しています。
馬力が225を超える車が日本または米国製であることは容易に理解できます。最も低馬力の車には、米国製の車は含まれていません。
車の種類ごとに異なるマーカーを追加することもできます。
馬力が200馬力以上の車は、正方形と丸で示されているように、ミディアムまたはスポーツです。馬力が最も低い車はすべて小型車で、上向きの三角形で示されています。チャート上部の緑色のひし形で示されているように、一番重い車は米国製の大型車ですが、この車の馬力は平均的です。
データを表示する際に色、マーカー、またはその両方を使用して、散布図に次元を追加する方法を確かめてみてください。
参照線を追加する
参照線は、散布図に追加すると便利です。重量制限が4,000ポンドの古い木製の橋を、どの車が渡れないかを知る必要があるとします。図10の散布図には、関連性を説明する注釈付きの参照線があります。
図11は、同じ散布図で、古い橋を渡ることができない4台の車にラベルを付けています。
仕様限界の追加
多くの状況では、変数には仕様限界があります。図2の肉のデータで、学校の食堂の購買担当者は、ナトリウムが最低300g以上、目標が450g、上限が600gの肉を購入する必要があるとします。図12は、これらの仕様限界がある散布図を示しています。
これらの行が追加されたことで、学校の食堂で購入できない加工肉の種類が4つあることが簡単にわかります。図13に示すように、これらの点にラベルと色を追加して、詳細を記載できます。購入者はこのグラフを共有して、一部の肉を選択できない理由を示すことができます。
散布図行列
散布図行列は、複数の変数がどのように関連しているかを示すことができます。すべての二変数間の組み合わせをプロットした後、行列を用いて複数の変数間の関係を表して、どの関係が重要そうかを明らかにすることができます。行列は、複数の散布図の外れ値を特定することもできます。
図14は、さまざまなモデルの自動車のデータの散布図行列を示しています。散布図は、図9-11と同じ色とマーカーを使用しています。左端の列の最初の散布図は、重さと最小回転半径の関係を示しています。行列の上三角と下三角は互いに鏡像になっています。
この行列を見ると、排気量のヒストグラムに外れ値がありそうなことも分かります。
JMPを使用すると、各散布図の確率楕円など、さらに多くの情報を行列に追加して、複数の次元で外れ値を確認できます。図16は、1つの散布図で外れ値を選択すると、他のすべての散布図で外れ値がどのように強調表示されるかを示しています。
図16の散布図行列は、個々の散布図の確率楕円を示しています。赤い円にはデータの約95%が含まれています。円の外側の点を調べて、それらが多変量の外れ値であるかどうかを確認することができます。図16では、重量と最小回転半径の散布図で外れ値となっている青い円が1つ選択されています。この点が外れ値になっている散布図は他にもありますが、すべてではありません。排気量と馬力の散布図では、この点が確率楕円の中央で強調表示されています。
点の選択を解除すると、図17に示すように、すべての点が同じ明るさで表示されます。排気量と馬力の散布図の確率楕円から、排気量のヒストグラムに外れ値がある理由が見えてきます。散布図の右側の楕円の外側にいくつかの点があります。色は、これらすべての点が米国製の車からのものであることを示していますが、マーカーは、車がスポーツ、中型、または大型のいずれかであることを示しています。色とマーカーを説明する注釈を付けると、散布図行列がさらに良くなる可能性があります。
データが手元にある場合、散布図行列を使用して、同時に多くの変数を探索できます。
散布図とデータの種類
連続尺度データ:散布図に適しています
連続尺度データは、多くの可能な値を持つスケールで測定されるため、散布図に適しています。連続尺度データの例は次のとおりです。
- 経過時間
- 血圧
- 重み
- 温度
- 速度
カテゴリカルデータまたは名義尺度データ:棒グラフを使用
カテゴリカルデータまたは名義尺度データは、特定の値を持つスケールで測定されるため、散布図に適していません。代わりに、棒グラフを使用してください。
カテゴリカルデータを使用すると、標本はグループに分割されることが多く、応答の順序が定義されている場合があります。例えば、「まったくそう思わない」から「非常にそう思う」までのスケールで意見を述べるように求められる調査では、回答はカテゴリカルです。
名義尺度データの場合、標本もグループに分けられますが、特定の順序はありません。居住国は名義尺度変数の一例です。国の略語を使用することも、数字を使用して国名をコーディングすることもできます。いずれにせよ、データのさまざまなグループに名前を付けるだけです。
カテゴリカル変数または名義尺度変数を使用して、散布図をカスタマイズできます。これらの変数の水準に異なる色またはマーカーを割り当てることができます。