그래프 유형
다음은 탐색적 데이터 분석(EDA)에 사용할 수 있는 여러 가지 유형의 그래프 목록입니다. 각 그래프를 클릭하면 해당 유형 그래프의 예, 그래프에 사용되는 변수, 그래프의 용도에 대한 설명이 나타납니다.
히스토그램
- 변수의 개수: 1
- 데이터의 형태 또는 분포를 표시하며, 이상치를 찾아내는 데 유용할 수 있습니다.
- 히스토그램에 대해 자세히 알아보십시오.
병렬 히스토그램
- 변수의 개수: 2
- 데이터 그룹의 형태 또는 분포를 표시하며, 이상치를 찾아내는 데 유용할 수 있습니다.
막대 차트
- 변수의 개수: 1
- 범주형 변수에 대한 값의 빈도 개수를 표시합니다. 세로(그림 3 참조) 또는 가로로 나타날 수 있습니다.
- 막대 차트에 대해 자세히 알아보십시오.
그룹 막대 차트
- 변수 개수: 2개 이상. 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
- 다른 변수에 의해 정의된 그룹에 대한 막대 차트를 표시합니다. 그룹화 막대 차트에는 그룹화 변수의 수준별로 별도의 차트가 표시됩니다.
누적 막대 차트
- 변수 개수: 2개 이상. 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
- 다른 변수에 의해 정의된 그룹에 대한 막대 차트를 표시합니다. 누적 막대 차트에는 그룹화 변수의 수준별로 막대가 한 개씩 표시됩니다. 또 다른 변수의 개수에 해당하는 색상 또는 패턴이 각 막대에 누적됩니다.
파레토 차트
- 변수의 개수: 1
- 변수별로 정렬된 빈도 개수가 표시됩니다. "핵심 지표"를 강조 표시하는 데 유용합니다. 막대 차트의 일종인 파레토 차트에는 대개 누적 백분율 곡선이 포함됩니다.
- 파레토 차트에 대해 자세히 알아보십시오.
팩형 막대 차트
- 변수의 개수: 1
- 변수별로 정렬된 빈도 개수가 표시됩니다. 특히 범주가 많을 때 파레토 차트 대신 사용합니다. "핵심 지표"를 강조 표시하는 데 유용합니다.
- 팩형 막대 차트에 대해 자세히 알아보십시오.
모자이크 그림
- 변수의 개수: 2개 이상
- 범주형 변수 사이에 가능한 관계를 보여줍니다. 잘못 입력한 범주와 같은 데이터 오류를 찾는 데 유용합니다. X 축에 둘 이상의 변수를 표시하는 특수 유형의 누적 막대 차트입니다.
- 모자이크 그림에 대해 자세히 알아보십시오.
트리맵
- 변수의 개수: 2개 이상
- 변수 사이에 가능한 관계를 보여줍니다. 여러 가지 변수별 색상, 순서 및 크기를 표시하는 특별한 유형의 누적 막대 차트입니다
- 트리맵에 대해 자세히 알아보십시오.
상자 그림
- 변수의 개수: 1
- 데이터의 분포를 표시합니다. 상자의 일부에 25번째 백분위수, 중앙값(50 번째 백분위수), 75번째 백분위수를 나타납니다. 데이터에 따라 수염이 최소값과 최대값을 보여줍니다. 이상치들은 수염을 벗어나서 나타납니다. 데이터 오류를 찾고 하나의 변수를 탐색하는 데 사용됩니다.
- 상자 그림에 대해 자세히 알아보십시오.
병렬 상자 그림
- 변수 개수: 2개 이상. 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
- 다른 변수에 의해 정의된 그룹에 대한 상자 그림을 표시합니다. 데이터 오류를 찾고 두 개 이상의 변수를 탐색하는 데 사용됩니다.
정규 분위수 그림
- 변수의 개수: 1
- 변수가 정규 분포를 따른다는 가정이 타당한지 여부를 판별합니다.
선 그래프
- 변수의 개수: 2
- 시간 경과에 따른 변동을 보여줍니다. X 축에는 시간 기준으로 정렬된 값이 있어야 합니다. 선 차트 또는 런 차트라고도 하는 선 그래프는 이상치를 찾는 데 유용합니다.
- 선 그래프에 대해 자세히 알아보십시오.
범주 표시 선 그래프
- 변수 개수: 2개 이상. 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
- 다른 변수에 의해 정의된 그룹에 대한 여러 개의 선 그래프를 표시합니다. 시간 경과에 따른 여러 가지 변수의 변화를 파악하고 이상치를 찾는 데 사용됩니다.
산점도
- 변수 개수: 2개 이상. 색상 및 마커 그룹을 정의하는 데 사용되는 변수의 개수에 따라 결정됩니다.
- 두 변수 사이 가능한 관계를 표시하고 이상치를 구별해줍니다. 다른 변수에 대한 색상 및/또는 마커를 추가하면 EDA에 도움이 될 수 있습니다. 참조선 또는 규격 한계를 추가하면 이상치를 찾아내는 데 도움이 될 수 있습니다.
- 산점도에 대해 자세히 알아보십시오.
산점도 행렬
- 변수의 개수: 다수
- 모든 이원 조합을 살펴보면서 여러 변수 사이에 가능한 관계를 표시합니다. 추가할 수 있는 그래프: 이상치를 찾아내기 위한 변수별 히스토그램, 다차원 이상치를 찾아내기 위한 산점도별 밀도 타원, 가능한 관계를 규명하기 위한 상관관계 히트맵 등을 추가할 수 있습니다.
파이 차트
- 변수의 개수: 1개 이상
- 변수에 대한 전체 대비 부분 관계를 표시합니다. 여러 가지 파이 차트에 대한 범주를 추가하는 것이 하나의 파이 차트보다 유용합니다. 변수가 하나뿐일 때 막대 차트를 사용하면 값들의 미세한 차이를 쉽게 구별할 수 있습니다.
- 파이 차트에 대해 자세히 알아보십시오.
히트맵
- 변수의 개수: 2개 이상
- 변수 사이에 가능한 관계를 보여줍니다. 시간이 흐르면서 변동이 있는 데이터에 가장 자주 사용됩니다. 색상을 사용하여 변수 간의 관계를 탐색합니다.
- 히트맵에 대해 자세히 알아보십시오.
줄기-잎 그림
- 변수의 개수: 1
- 데이터의 형태를 보여주고, 이상치를 확인해줍니다. 컴퓨터가 보급되기 전에는 더 널리 사용되었고, 지금도 히스토그램은 자주 사용되고 있습니다.