그래프 유형

다음은 탐색적 데이터 분석(EDA)에 사용할 수 있는 여러 가지 유형의 그래프 목록입니다. 각 그래프를 클릭하면 해당 유형 그래프의 예, 그래프에 사용되는 변수, 그래프의 용도에 대한 설명이 나타납니다.

히스토그램

  • 변수의 개수: 1
  • 데이터의 형태 또는 분포를 표시하며, 이상치를 찾아내는 데 유용할 수 있습니다.
  • 히스토그램에 대해 자세히 알아보십시오.
그림 1: 히스토그램

병렬 히스토그램

  • 변수의 개수: 2
  • 데이터 그룹의 형태 또는 분포를 표시하며, 이상치를 찾아내는 데 유용할 수 있습니다.
그림 2: 변수 2개의 병렬 히스토그램

막대 차트

  • 변수의 개수: 1
  • 범주형 변수에 대한 값의 빈도 개수를 표시합니다. 세로(그림 3 참조) 또는 가로로 나타날 수 있습니다.
  • 막대 차트에 대해 자세히 알아보십시오.
그림 3: 개수를 보여주는 막대 차트

그룹 막대 차트

  • 변수 개수: 2개 이상. 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
  • 다른 변수에 의해 정의된 그룹에 대한 막대 차트를 표시합니다. 그룹화 막대 차트에는 그룹화 변수의 수준별로 별도의 차트가 표시됩니다.
그림 4: 그룹 막대 차트

누적 막대 차트

  • 변수 개수: 2개 이상. 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
  • 다른 변수에 의해 정의된 그룹에 대한 막대 차트를 표시합니다. 누적 막대 차트에는 그룹화 변수의 수준별로 막대가 한 개씩 표시됩니다. 또 다른 변수의 개수에 해당하는 색상 또는 패턴이 각 막대에 누적됩니다.
그림 5: 그룹화 변수의 수준별로 막대를 하나씩 보여주는 누적 막대 차트

파레토 차트

  • 변수의 개수: 1
  • 변수별로 정렬된 빈도 개수가 표시됩니다. "핵심 지표"를 강조 표시하는 데 유용합니다. 막대 차트의 일종인 파레토 차트에는 대개 누적 백분율 곡선이 포함됩니다.
  • 파레토 차트에 대해 자세히 알아보십시오.
그림 6: 변수에 대한 정렬된 빈도 개수를 보여주는 파레토 차트

팩형 막대 차트

  • 변수의 개수: 1
  • 변수별로 정렬된 빈도 개수가 표시됩니다. 특히 범주가 많을 때 파레토 차트 대신 사용합니다. "핵심 지표"를 강조 표시하는 데 유용합니다.
  • 팩형 막대 차트에 대해 자세히 알아보십시오.
그림 7: 많은 범주에 걸쳐 변수에 대한 정렬된 빈도 개수를 보여주는 팩형 막대 차트

모자이크 그림

  • 변수의 개수: 2개 이상
  • 범주형 변수 사이에 가능한 관계를 보여줍니다. 잘못 입력한 범주와 같은 데이터 오류를 찾는 데 유용합니다. X 축에 둘 이상의 변수를 표시하는 특수 유형의 누적 막대 차트입니다.
  • 모자이크 그림에 대해 자세히 알아보십시오.
그림 18: 범주형 변수 사이에 가능한 관계를 보여주는 모자이크 그림

트리맵

  • 변수의 개수: 2개 이상
  • 변수 사이에 가능한 관계를 보여줍니다. 여러 가지 변수별 색상, 순서 및 크기를 표시하는 특별한 유형의 누적 막대 차트입니다
  • 트리맵에 대해 자세히 알아보십시오.
그림 18: 변수 사이 관계를 보여주는 트리맵

상자 그림

  • 변수의 개수: 1
  • 데이터의 분포를 표시합니다. 상자의 일부에 25번째 백분위수, 중앙값(50 번째 백분위수), 75번째 백분위수를 나타납니다. 데이터에 따라 수염이 최소값과 최대값을 보여줍니다. 이상치들은 수염을 벗어나서 나타납니다. 데이터 오류를 찾고 하나의 변수를 탐색하는 데 사용됩니다.
  • 상자 그림에 대해 자세히 알아보십시오.
그림 10: 상자 그림

병렬 상자 그림

  • 변수 개수: 2개 이상. 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
  • 다른 변수에 의해 정의된 그룹에 대한 상자 그림을 표시합니다. 데이터 오류를 찾고 두 개 이상의 변수를 탐색하는 데 사용됩니다.
그림 11: 2개 이상의 변수를 탐색하는 데 사용되는 병렬 상자 그림

정규 분위수 그림

  • 변수의 개수: 1
  • 변수가 정규 분포를 따른다는 가정이 타당한지 여부를 판별합니다.
그림 12: 변수가 정규 분포인지 여부를 판별하는 데 사용되는 정규 분위수 그림

선 그래프

  • 변수의 개수: 2
  • 시간 경과에 따른 변동을 보여줍니다. X 축에는 시간 기준으로 정렬된 값이 있어야 합니다. 선 차트 또는 런 차트라고도 하는 선 그래프는 이상치를 찾는 데 유용합니다.
  • 선 그래프에 대해 자세히 알아보십시오.
그림 13: 시간 경과에 따른 변동을 보여주는 선 그래프

범주 표시 선 그래프

  • 변수 개수: 2개 이상. 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
  • 다른 변수에 의해 정의된 그룹에 대한 여러 개의 선 그래프를 표시합니다. 시간 경과에 따른 여러 가지 변수의 변화를 파악하고 이상치를 찾는 데 사용됩니다.
그림 14: 여러 변수의 시간 경과에 따른 변동 양상을 파악하는 데 사용되는 범주 표시 선 그래프

산점도

  • 변수 개수: 2개 이상. 색상 및 마커 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
  • 두 변수 사이 가능한 관계를 표시하고 이상치를 구별해줍니다. 다른 변수에 대한 색상 및/또는 마커를 추가하면 EDA에 도움이 될 수 있습니다. 참조선 또는 규격 한계를 추가하면 이상치를 찾아내는 데 도움이 될 수 있습니다.
  • 산점도에 대해 자세히 알아보십시오.
그림 15: 두 변수 사이에 가능한 관계를 보여주는 산점도

산점도 행렬

  • 변수의 개수: 다수
  • 모든 이원 조합을 살펴보면서 여러 변수 사이에 가능한 관계를 표시합니다. 추가할 수 있는 그래프: 이상치를 찾아내기 위한 변수별 히스토그램, 다차원 이상치를 찾아내기 위한 산점도별 밀도 타원, 가능한 관계를 규명하기 위한 상관관계 히트맵 등을 추가할 수 있습니다.
그림 16: 여러 변수 사이에 가능한 관계를 보여주는 산점도 행렬

파이 차트

  • 변수의 개수: 1개 이상
  • 변수에 대한 전체 대비 부분 관계를 표시합니다. 여러 가지 파이 차트에 대한 범주를 추가하는 것이 하나의 파이 차트보다 유용합니다. 변수가 하나뿐일 때 막대 차트를 사용하면 값들의 미세한 차이를 쉽게 구별할 수 있습니다.
  • 파이 차트에 대해 자세히 알아보십시오.
그림 17: 변수에 대한 전체 대비 부분 관계를 보여주는 파이 차트

히트맵

  • 변수의 개수: 2개 이상
  • 변수 사이에 가능한 관계를 보여줍니다. 시간이 흐르면서 변동이 있는 데이터에 가장 자주 사용됩니다. 색상을 사용하여 변수 간의 관계를 탐색합니다.
  • 히트맵에 대해 자세히 알아보십시오.
그림 18: 변수 사이에 가능한 관계를 보여주는 히트맵

줄기-잎 그림

  • 변수의 개수: 1
  • 데이터의 형태를 보여주고, 이상치를 확인해줍니다. 컴퓨터가 보급되기 전에는 더 널리 사용되었고, 지금도 히스토그램은 자주 사용되고 있습니다.
그림 19: 데이터의 형태를 보여주고 이상치를 나타내주는 줄기-잎 그림