산점도
관계를 보여주는 산점도
산점도에서는 한 변수를 X축에, 두 번째 변수를 Y축에 배치하여 두 연속형 변수의 상관관계를 보여줍니다.
회귀에 대한 산점도에서는 Y축에 반응 변수, X축에 입력 변수가 각각 배치됩니다.
산점도 예
예제 1: 증가 관계
그림 1의 산점도는 증가하는 관계를 보여줍니다. X축은 회사의 직원 수를 나타내고, Y축은 회사의 수익을 표시합니다. 산점도를 보면 직원 수가 증가할수록 수익이 증가합니다. 직원 수가 적은 회사(그래프 왼쪽)의 수익은 낮고, 직원이 많은 회사의 수익은 높습니다. 회사의 수익에 영향을 미칠 수 있는 변수는 많이 있기 때문에 이것은 매우 간단한 예입니다.
예제 2: 증가 관계
그림 2의 산점도는 감소하는 관계를 보여줍니다. X축은 가공육의 종류별 나트륨 함량(g)을 보여주고, Y축은 단백질의 킬로그램당 원가를 보여줍니다. 이 산점도에서 나트륨이 증가할수록 단백질 원가가 감소하는 것으로 나타납니다. 나트륨 함량이 적은 가공육의 단백질 원가는 높고(그래프의 왼쪽 부분), 나트륨 함량이 높은 가공육의 단백질 원가는 낮습니다. 이러한 결과는 당연한데, 그 이유는 품질이 낮은(따라서 원가도 낮은) 가공육은 맛을 개선하기 위해 소금을 첨가할 수 있고, 그로 인해 나트륨 함량도 증가하기 때문입니다.
예제 3: 상관관계 없음
그림 3의 산점도에서는 두 변수 간에 상관관계가 없습니다. X축은 프리워싱 시 데님 원단의 투입량을 나타내고, Y축은 측정된 면사 마모도를 나타냅니다. 산점도에는 랜덤 점들의 구름이 나타납니다. 그래프 오른쪽을 보면 투입량이 증가함에 따라 면사 마모도가 약간 감소하는 것처럼 보일 수도 있는데, 단순 선형 회귀를 이용하여 이러한 개념을 확인할 수 있습니다.
예제 4: 비선형 관계
그림 4의 산점도는 두 변수 사이 비선형 관계를 보여줍니다. X축은 한 국가 그룹의 출생률을 보여주고, Y축은 사망률을 보여줍니다. 이 산점도에서 25 - 30 사이 출생률까지 감소하는 관계를 보여줍니다. 그 시점 이후에는 증가하는 관계로 바뀝니다.
예제 5: 산점도에서 이상치
데이터에서 비정상적인 점 또는 이상치는 산점도에서 두드러지게 나타납니다.
그림 5는 이상치가 있는 산점도이고, 그림 6의 산점도는 이상치 없이 동일한 데이터를 보여줍니다. 오른쪽 맨 위에 있는 하나의 이상치가 산점도에서 데이터의 시각화에 영향을 미칩니다. 산점도에 비정상적인 데이터 점이 나타날 때 조사하여 이상치의 사유를 밝힐 수 있습니다. 이상치를 포함시키거나 제외시키고 데이터를 표시할 수 있습니다.
산점도 사용자 정의
여러 색상과 표식을 사용하여 다른 변수에 대한 상세 정보뿐만 아니라 규격 한계 등을 나타내는 참조선을 산점도에 추가할 수 있습니다.
다양한 색상 및 표식 사용
그림 7은 차량 116개 모델에 대한 중량-마력 관계 산점도입니다.
기본 산점도에서 증가하는 관계가 나타납니다. 무거운 차량의 마력은 크고, 가벼운 차량의 마력은 작습니다.
차량의 원산지는 미국, 일본 또는 기타 국가로 지정되고, 차량의 종류는 스포츠, 컴팩트, 소형, 중형 또는 대형으로 지정됩니다. 이러한 두 변수에 다른 여러 색상과 표식을 사용하여 기본 산점도의 시각화 효율을 높일 수 있습니다.
그림 8의 산점도는 세 원산지 값들의 데이터 점을 색상으로 구분하여 보여줍니다.
225 마력 이상 차량의 원산지는 일본이나 미국이라는 점을 쉽게 알 수 있습니다. 최저 마력의 차량에는 미국산 차량이 없습니다.
차종별로 다른 마커도 추가할 수 있습니다.
200 마력 이상의 차량은 정사각형과 원으로 표시된 중형이나 스포츠 모델입니다. 최저 마력의 차량들은 모두 소형 차량으로, 상향 삼각형으로 표시되어 있습니다. 대형 차량은 모두 미국에서 제조되었으며 차트 상단부에 녹색 다이아몬드로 표시되며, 평균 마력 값을 갖습니다.
데이터로 산점도를 생성할 때 색상이나 표식 또는 두 가지 모두를 사용하여 치수를 산점도에 추가할 방법을 고려해보십시오.
참조선 추가
참조선은 산점도에 추가할 수 있는 유용한 도구입니다. 중량 한도가 4,000 파운드인 오래된 목재 다리를 건너갈 수 없는 차량이 무엇인지 알아야 한다고 가정해보십시오. 그림 10의 산점도에 적합성을 설명하는 주석이 첨가된 참조선이 있습니다.
그림 11은 동일한 산점도에 오래된 다리를 통과할 수 없는 네 종류 차량 라벨을 추가하여 보여줍니다.
규격 한계 추가
많은 경우에 변수에 대한 규격 한계가 지정되어 있습니다. 그림 2의 육류 데이터를 이용하여 학교 식당 구매자는 최소 한도 300g, 목표량 450g, 최대 한도 600g의 나트륨 함량 육류를 구매해야 합니다. 그림 12는 이러한 규격 한계가 추가된 산점도입니다.
이러한 선을 추가하면 학교 식당의 식재료로 구매할 수 없는 가공육이 네 종류임이 쉽게 확인됩니다. 그림 13과 같이 해당 점에 대한 라벨과 색상을 추가하여 추가 정보를 제공할 수도 있습니다. 구매자는 이 그래프를 제시하여 일부 육류가 선택에서 제외되는 이유를 보여줄 수 있습니다.
산점도 행렬
산점도 행렬은 여러 변수들의 관계 양상을 보여줄 수 있습니다. 변수들의 모든 이원 조합 그래프를 생성한 후, 행렬에서 변수 간 관계를 표시하여 중요도가 높을 수 있는 관계를 강조해서 나타낼 수 있습니다. 행렬을 통해 여러 산점도에서도 이상치를 찾아낼 수 있습니다.
그림 14는 다양한 차량 모델의 데이터에 대한 산점도 행렬을 보여줍니다. 산점도에서 그림 9-11에서와 동일한 색상과 표식을 사용합니다. 맨 왼쪽 열의 첫 번째 산점도는 중량과 선회권 사이 관계를 보여줍니다. 행렬의 위쪽 삼각형과 아래쪽 삼각형은 서로 거울입니다.
이 행렬은 이동거리 히스토그램에서 가능한 이상치들도 보여줍니다.
JMP를 사용하면 각 산점도의 밀도 타원 등의 추가 정보를 행렬에 추가하여 여러 차원에서 이상치를 볼 수 있습니다. 그림 16은 한 산점도에서 이상치를 선택할 때 나머지 산점도에서 어떻게 이상치가 강조되어 나타나는지 보여줍니다.
그림 16의 산점도 행렬은 개별 산점도 내 밀도 타원을 보여줍니다. 데이터의 95% 정도가 빨간색 원 안에 있습니다. 원 밖의 점들을 연구하여 다변량 이상치인지 여부를 확인할 수 있습니다. 그림 16에서, 중량-선회권 산점도의 이상치인 파란색 원 한 개가 선택되었습니다. 나머지 산점도들을 보면, 이 점이 이상치인 경우도 있고 그렇지 않는 경우도 있습니다. 이동거리-마력 산점도에서는 밀도 타원의 중심에서 이 점이 강조되어 나타납니다.
점의 선택을 취소하면 그림 17과 같이 모든 점이 동일한 밝기로 나타납니다. 이동거리-마력 산점도의 밀도 타원에서 가능한 이상치 사유가 이동거리 히스토그램에 나타납니다. 산점도 오른쪽의 타원 밖에 점이 여러 개 있습니다. 색상을 통해 이러한 점은 모두 미국산 차량에서 나온 것이 아님을 알 수 있고, 표식을 통해 해당 차량은 스포티, 중형 또는 대형 차량임을 알 수 있습니다. 색상과 표식을 설명하는 주석으로 행렬을 더욱 개선할 수 있습니다.
사용자 데이터에 대해서도 산점도 행렬을 사용하여 많은 변수를 동시에 탐색할 수 있습니다.
산점도와 데이터 유형
연속형 데이터: 산점도에 적합
연속형 데이터는 가능한 값들이 무수히 많은 척도로 측정되므로 연속형 데이터에는 산점도가 적합합니다. 다음은 연속형 데이터의 몇 가지 예입니다.
- 연령
- 혈압
- 가중치
- 온도
- 속도
범주형 또는 명목형 데이터: 막대 차트 사용
산점도는 특정 값들이 정해진 척도로 측정되는 범주형 또는 명목형 데이터에 적합하지 않습니다. 막대 차트 를 대신 사용합니다.
범주형 데이터의 경우, 표본이 대개 여러 그룹으로 나뉘며 반응 순서가 정의될 수 있습니다. 예를 들어, "매우 비동의"부터 "매우 동의"까지 척도로 의견을 묻는 설문조사에서 응답자의 반응은 범주형입니다.
명목형 데이터에서도 표본을 여러 그룹으로 나누지만 특정 순서는 없습니다. 명목형 변수의 한 가지 예로 거주 국가를 들 수 있습니다. 국가 약칭을 사용하거나 숫자를 사용하여 국가 이름을 코드로 지정할 수 있습니다. 어느 방식으로든 여러 데이터 그룹의 이름만 지정하면 됩니다.
범주형 또는 명목형 변수를 사용하여 산점도를 사용자에 맞게 정의할 수 있습니다. 변수의 수준별로 각기 다른 색상이나 표식을 지정할 수 있습니다.