선 그래프

선 그래프

선 그래프는 시간 경과에 따른 연속형 변수의 변동을 보여줍니다. 선 그래프를 선 차트, 추세도, 런 차트 또는 시계열도라고도 합니다.

시간 경과에 따른 변동을 보여주는 선 그래프

선 그래프는 시간이 지나면서 연속형 변수가 변하는 양상을 보여줍니다. 시간을 측정하는 변수는 X축에 표시됩니다. 연속형 변수는 Y축에 표시됩니다.

선 그래프 예제

예제 1: 기본 선 그래프

그림 1의 그래프는 시간이 흐르면서 일정 시점에서 측정한 앵무새의 무게 변동을 보여줍니다. 데이터 점과 선이 모두 표시되는데 점을 생략할 수도 있습니다. 무게 축은 데이터에 적합합니다. 유용한 축 라벨도 있습니다. 이 그래프를 이용해 그램 단위로 측정한 앵무새의 무게가 시간이 지남에 따라 변동되는 양상을 시각화할 수 있습니다.

그림 1: 시간 경과에 따른 무게 변동을 보여주는 기본 선 그래프

품질 관리 분야에서는 위 그래프와 같은 기본 선 그래프를 런 차트라고 합니다. Y축에는 변수 값에 대한 "시간 경과에 따른 실행" 데이터가 표시됩니다.

예제 2: 결측값 고려

그림 2의 선 그래프에서도 앵무새 무게 데이터를 사용합니다. 이번에는 예정한 대로 몇 일간 앵무새의 무게를 재지 않았습니다. 선 그래프에서 결측값 구간은 연결이 끊어집니다. 또한 주석을 추가하여 선 그래프에 결측값이 있다는 사실을 강조했습니다. 다른 방법으로, 결측값을 통과해 연결하거나 결측값 간 연결에 점선을 사용할 수도 있습니다. 결측값이 있다는 사실과 그래프에 결측값을 표시할 방법을 아는 것이 중요합니다.

그림 2: 결측값이 있는 선 그래프

예제 3: 선 그래프 대신 회귀를 사용해야 하는 경우

그림 3의 그래프는 두 연속형 변수에 대한 산점도입니다. X축은 무게를 보여주고 Y축은 수면 시간을 보여줍니다. 선과 연결된 점들도 그래프에 나타나지만 올바르지는 않습니다. 점들은 다양한 동물 종에 대한 데이터로, 시간 경과에 따른 변동을 보여주는 관계성은 없습니다. 그림 4의 그래프는 단순 선형 회귀를 이용한 산점도로, 이러한 데이터를 표시하기에 적합한 방법입니다.

그림 3: 선 그래프의 부적절한 사용
그림 4: 선형 회귀를 사용하여, 그림 3의 선 그래프보다 유용한 산점도

예제 4: Y축 척도 고려

선 그래프를 포함하여 어떤 그래프를 작성하든 척도를 알아야 합니다. 예를 들어, 예전에는 많은 교재에서 Y축에 0을 넣도록 권장했습니다. 오늘날에는 데이터에 적합한 경우에만 0을 사용하도록 안내하는 것이 일반적입니다. 그림 5는 몇 년 동안에 걸쳐 4사분기에 호주의 호텔 객실 이용율에 대한 변천사 데이터를 보여줍니다. Y축은 0에서 시작하는 과거의 보편적 방식을 따릅니다. 이러한 접근 방식의 문제는 연도별 차이에 대한 시각적 효과를 최소화한다는 것입니다. 그림 5와 6을 비교해보십시오. 그림 6에서는 Y축 범위에 더 합리적인 값 집합을 사용하므로 2006년에 최고치를 기록한 것을 쉽게 알 수 있습니다. 대부분의 소프트웨어 도구는 주어진 데이터에 적합한 Y축을 자동으로 생성합니다. 일부 소프트웨어에서는 사용자가 축을 바꿀 수도 있습니다.

그림 5: Y축에 0이 포함된 선 그래프
그림 6: Y축에 0이 포함되지 않아 연도 간 차이가 더 쉽게 구별되는 그래프

예제 5: 다양한 범주와 여러 개의 선

선 그래프에 여러 개의 선이 포함될 수 있습니다. 그림 7의 그래프는 2006년(스마트폰이 처음 출시된 시기)부터 2011년까지 스마트폰 운영 체제의 시장 점유율 데이터 기록을 보여줍니다. 각 선은 시간 경과에 따른 운영 체제별 변동을 보여줍니다. 

그림 7: 단일 선 그래프에 각기 다른 색상으로 구분된 여러 개의 선

여러 개의 선을 사용하여 선 그래프를 생성할 때 그래프를 공유하고 보는 방법에 따라 사용하는 색상을 고려해야 합니다. 항상 컬러로 표시될까요? 혹은 흑백으로 나타날까요? 컬러 인쇄가 아닐 경우, 색상들이 확실히 구분되는지 확인해야 합니다. 색상으로 구분하는 대신 서로 다른 선 스타일을 사용하는 방법도 있습니다. 선이 몇 개뿐일 때는 범례가 유용할 수 있지만 그래프에 선이 많을 때는 유용성이 떨어집니다. 하지만 그래프의 다른 선들을 정의하기 위해 또 하나의 변수를 사용할 때는 범례가 유용합니다. 

그림 7의 선 그래프에서는 시간이 지남에 따라 시장 점유율이 증가한 두 운영 체제를 2개의 실선으로 보여줍니다.  두 색상은 흑백으로 인쇄해도 쉽게 구별될 정도로 서로 다릅니다. 그래프에서 시간이 지남에 따라 시장 점유율이 감소한 두 운영 체제는 2개의 점선으로 나타납니다. 그래프는 왼쪽 위 모서리에 범례도 표시되어 있습니다.

선 그래프와 데이터 유형

선 그래프에서 X축의 변수는 시간을 정의합니다. 대부분의 소프트웨어 도구는 이 변수를 연속형 변수로 저장합니다.

연속형 데이터: 선 그래프에 적합

선 그래프의 Y축에는 연속형 데이터가 적합한데, 그 이유는 연속형 데이터는 가능한 값들이 무수히 많은 척도로 측정되기 때문입니다. 다음은 연속형 데이터의 몇 가지 예입니다.

  • 연령
  • 혈압
  • 가중치
  • 온도
  • 속도

위의 모든 예에서 시간이 지남에 따른 변수의 변동을 시각화하기에 적합한 그래픽 도구는 선 그래프입니다.

범주형 또는 명목형 데이터: 또 하나의 차트 유형 선택

범주형 또는 명목형 데이터는 특정 값들이 정해진 척도로 측정되므로 이러한 데이터에는 선 그래프가 적합하지 않습니다.

범주형 데이터의 경우, 표본이 대개 여러 그룹으로 나뉘며 반응 순서가 정의될 수 있습니다. 예를 들어, "매우 비동의"부터 "매우 동의"까지 척도로 의견을 묻는 설문조사에서 응답자의 반응은 범주형입니다.

명목형 데이터에서도 표본을 여러 그룹으로 나누지만 특정 순서는 없습니다. 명목형 변수의 한 가지 예로 거주 국가를 들 수 있습니다. 국가 약칭을 사용하거나 숫자를 사용하여 국가 이름을 코드로 지정할 수 있습니다. 어느 방식으로든 여러 데이터 그룹의 이름만 지정하면 됩니다.

그림 7과 같이, 범주형 또는 명목형 변수를 그룹화 변수로 사용하여 선을 여러 개 생성하는 방식으로 여러 개의 그룹을 선 그래프에 추가할 수 있습니다.