데이터를 그래프로 생성하거나 시각화하는 것은 모든 데이터 분석에 중요하며 항상 통계 검정 또는 모형 구축 전에 수행되어야 합니다. 데이터 시각화가 데이터 분석 프로세스의 초기 단계에 이루어져야 하는 이유를 분명하게 파악하려면 다음 예를 참조하십시오.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Anscombe.jmp(F. J. Anscombe(1973), American Statistician, 27, 17-21)를 엽니다.
이 데이터는 4쌍의 X 및 Y 변수로 구성되어 있습니다.
2. 테이블 패널에서 The Quartet 스크립트 옆의 녹색 삼각형을 클릭합니다.
이 스크립트는 X로 Y 적합을 사용하여 각 변수 쌍에 대한 단순 선형 회귀를 생성합니다. 점 표시 옵션이 해제되어 있으므로 산점도에서 어떤 데이터도 볼 수 없습니다. 그림 5.2에서는 각 회귀에 대한 모형 적합 및 기타 요약 정보를 보여 줍니다.
그림 5.2 네 가지 모형
네 가지 모형과 R² 값이 거의 동일하다는 것에 유의하십시오. 각 사례에서 적합 모형은 기본적으로 Y = 3 + 0.5X이며 R² 값은 기본적으로 0.66입니다. 데이터 분석에서 위의 요약 정보만 고려하면 각 사례의 X와 Y 간 관계가 동일하다고 결론 내릴 수 있습니다. 그러나 이 시점에는 데이터를 시각화하지 않았습니다. 결론이 잘못되었을 수도 있습니다.
1. Ctrl 키를 누릅니다.
2. "이변량 적합" 중 하나의 옆에 있는 빨간색 삼각형을 클릭하고 점 표시를 선택합니다.
그림 5.3 점이 추가된 산점도
산점도는 관계를 나타내는 선이 같더라도 X와 Y 간의 관계가 네 쌍에서 동일하지 않음을 보여 줍니다.
• 산점도 1은 선형 관계를 나타냅니다.
• 산점도 2는 비선형 관계를 나타냅니다.
• 산점도 3은 하나의 이상치를 제외하고 선형 관계를 나타냅니다.
• 산점도 4에서는 한 점을 제외하고 x = 8에 모든 데이터가 있습니다.
이 예는 통계만을 기반으로 한 결론이 부적절할 수 있음을 보여 줍니다. 모든 데이터 분석의 초기 단계에는 데이터를 시각적으로 탐색하는 과정이 있어야 합니다.