탐색적 데이터 분석
탐색적 데이터 분석이란?
탐색적 데이터 분석(EDA)에는 그래픽과 시각화를 이용하여 데이터 집합을 탐색하고 분석하는 일이 포함됩니다. 목표는 통계적 가설을 확인하는 것이 아니라 탐색, 조사 및 통찰에 있습니다.
어떤 경우에 사용하는가?
탐색적 데이터 분석은 데이터 집합을 탐색할 수 있는 매우 유용한 방법입니다. 계획된 분석을 수행하는 것이 목표일 때에도 데이터 정리, 부분군 분석 또는 단순히 보다 정확히 데이터를 통찰하기 위한 목적으로 EDA를 사용할 수 있습니다. 데이터 분석의 중요한 초기 단계는 데이터를 그래프로 표시하는 것입니다.
탐색적 데이터 분석 정의
수치 요약과 시각화를 사용하여 데이터를 탐색하고 변수 간 잠재적 관계를 찾아내는 프로세스를 탐색적 데이터 분석(EDA)이라고 합니다.
탐색적 데이터 분석은 요약 통계와 그래픽 도구를 사용하여 데이터와 데이터의 의미를 이해하는 조사 방법입니다.
EDA를 사용하면 데이터에서 이상치 또는 비정상적인 관측치와 같은 이상 징후를 찾아내고, 패턴을 발견하고 변수 간 잠재적 관계를 파악하여 나중에 보다 공식적인 통계 방법을 사용하여 검정할 수 있는 흥미로운 질문이나 가설을 세울 수 있습니다.
탐색적 데이터 분석은 탐정 업무와 유사합니다. 해결하려는 문제의 잠재적인 근본 원인을 찾도록 유도해줄 수 있는 단서와 통찰력을 탐색하는 것입니다. 한 번에 한 개, 한 번에 두 개 또는 한 번에 여러 개의 변수를 탐색할 수 있습니다.
EDA에는 평균, 표준편차와 같은 요약 통계량 표가 포함되어 있지만 사람들은 대부분 그래프에 집중합니다.다양한 그래프와 탐색 도구를 사용하여 데이터가 안내하는 곳으로 따라갑니다. 하나의 그래프나 분석에서 유용한 정보를 찾지 못하면 다른 관점에서 데이터를 탐색합니다.
EDA는 탐색을 수반하므로 반복적입니다. 데이터에 관한 다양한 측면을 여러 가지 그래프에서 파악할 수 있습니다. 기본적인 목표는 다음 사항을 이해하는 것입니다.
- 데이터 집합의 변수 분포. 즉, 데이터의 형태가 어떠한가? 분포가 왜도 상태인가? 봉분형인가? 아니면 양봉형인가?
- 변수 간 관계.
- 데이터 품질 문제를 나타내거나 흥미로운 사실을 통찰하도록 유도할 이상치 또는 비정상 점이 데이터에 존재하는지 여부.
- 데이터에 시간 경과에 따른 패턴이 있는지 여부.