정규 분포
정규 분포에서 표집하지 않은 데이터는 어떻게 하는가?
정규 분포는 모집단에 대한 값의 이론적 분포입니다. 그래프에 표시할 때 종형 곡선이라고도 하는 정규 분포를 갖는 데이터는 중앙 값 주위에 누적되는 경향이 있습니다. 중심 위와 아래의 값의 빈도는 대칭적으로 감소합니다.
정규 분포는 어떻게 사용되나요?
많은 통계 분석 방법에서는 데이터가 정규 분포를 따른다고 가정합니다. 그렇지 않은 경우 분석이 정확하지 않을 수 있습니다.
내 데이터가 '정상'인지 확인할 수 있나요?
예. 간단한 육안 검사를 할 수 있습니다. 대부분의 통계 소프트웨어는 공식적인 통계 검정을 수행합니다.
정규 분포 정의
통계 소프트웨어를사용하여 정규성을 평가하는 방법 보기
- JMP를 다운로드하여 소프트웨어에 포함된 샘플 데이터를 사용해 보세요.
- 더 많은 JMP 자습서를 보려면 JMP 학습 라이브러리를 방문하십시오.
정규 분포는 모집단에 대한 값의 이론적 분포이며 정확한 수학적 정의가 있습니다. 정규 분포의 표본인 데이터 값을 "정규적으로 분포되었다"고 합니다. 복잡한 수학을 다루는 대신 정규 분포의 유용한 특성과 분석에서 중요한 이유에 대해 알아보겠습니다.
첫째, 정규 분포를 중요시하는 이유는?
- 많은 측정값은 정규 분포를 따르거나 이에 가깝습니다. 키, 몸무게, 심박수 등이 이러한 예에 해당합니다. 참고로 이 모든 측정값은 가능한 값들이 많은 척도로 측정됩니다.
- 많은 측정 평균은 정규 분포를 따르거나 이에 가깝습니다. 예를 들어 일일 통근 시간은 정규 분포를 따르지 않을 수 있습니다. 그러나 일일 통근 시간의 월 평균은 정규 분포를 따르는 경향이 있습니다.
- 많은 통계 방법은 데이터의 정규 분포 여부에 따라 달라집니다. 이 경우 "데이터가 정규 분포를 따른다고 가정"하거나 "정규성을 가정한다"고 명시되어 있습니다.
데이터 값 집합에 대해 처음으로 수행해야 할 작업 중 하나는 데이터의 형태를 살펴보는 것입니다. 정규 분포의 모양은 대칭형입니다. 분포도의 그림은 땅에 놓인 종처럼 보이기 때문에 종형 곡선이라고도 합니다.
아래 그림 1은 이론적 정규 분포(파란색 곡선)와 함께 일련의 표본 데이터 값에 대한 히스토그램을 보여줍니다. 히스토그램은 데이터 값의 빈도를 보여주는 일종의 막대 차트입니다. 데이터가 곡선과 정확히 일치하지 않는 것을 확인할 수 있는데, 이는 흔한 일입니다. 실제로 이론적 정규 분포와 정확히 일치하는 데이터를 보면 여러 질문을 해야 합니다. 실제 데이터가 분포와 정확히 일치하는 경우는 거의 없습니다.
기능 요약
정규 분포의 특징은 다음과 같습니다.
- 이는 평균과 표준편차로 완전히 정의됩니다.
- 평균, 중앙값, 최빈값이 모두 동일합니다.
- 대칭형입니다.
- 종 모양입니다.
각 기능은 중요하며, 데이터에 관한 정보를 알려줍니다. 자세히 살펴보겠습니다.
1. 평균과 표준편차로 완전히 정의됨
특정 정규 분포를 파악하려면 평균과 표준편차라는 두 가지 값만 있으면 됩니다. (정규 분포를 따르는 데이터의 평균과 표준편차의 관계를 더 자세히 알아보려면 경험적 규칙에 관한 내용을 읽어보세요.)
평균과 표준편차를 정규 분포의 모수라고 합니다. 모든 분포에는 모수가 있으며, 일부 분포에는 3개 이상의 모수가 있습니다. 어떤 상황에서도 모수는 특정 분포를 정의합니다.
정규 분포 곡선의 몇 가지 예를 살펴보겠습니다.
그림 2는 각각 평균이 30으로 동일한 두 개의 정규 분포를 나타냅니다. 파란색으로 표시된 더 얇고 긴 분포의 표준편차는 5입니다. 주황색으로 표시된 더 넓고 짧은 분포의 표준편차는 10입니다.
그림 3 역시 표준편차가 5인 두 개의 정규 분포를 나타냅니다. 주황색으로 표시된 왼쪽 정규 분포의 평균은 20이고 파란색으로 표시된 오른쪽 정규 분포의 평균은 40입니다.
그림 4도 두 개의 정규 분포를 나타냅니다. 주황색으로 표시된 분포의 평균은 30이고 표준편차는 10입니다. 파란색 분포의 평균은 40이고 표준편차는 5입니다.
2. 평균 = 중앙값 = 최빈값
평균, 중앙값 및 최빈값은 데이터 값 집합의 중심을 측정하는 세 가지 방법입니다. 실제 정규 분포의 경우 이 세 가지는 동일합니다. 실제로 데이터는 정규에 가까울 수 있습니다. 평균, 중앙값과 최빈값은 서로 매우 가깝지만 동일하지는 않습니다.
3. 대칭형
정규 분포는 대칭형입니다. 그래프를 평균에서 반으로 접는다고 생각해보면 양쪽이 서로 동일할 것입니다.
4. 종형
정규 분포는 위의 예에서 볼 수 있듯이 중앙에 돌출점이 한 개 있는 종형입니다.
그림 6은 정규 분포가 아닌 분포를 나타냅니다. 여기에는 돌출점이 한 개가 아니라 두 개 있습니다. 돌출점이 두 개 있는 분포는 데이터에 서로 다른 그룹이 섞여 있음을 나타낼 수 있습니다. 예를 들어, 심박수는 일반적으로 정규 분포를 따릅니다. 하지만 여러분이 모르는 사이에 데이터에 운동선수와 활동적이지 않은 사람이라는 두 그룹의 안정시 심박수가 포함되었다고 가정해 보겠습니다. 이 경우 아래와 같은 양봉형 분포가 나타날 수 있습니다.
정규가 아니면 비정규인가?
데이터가 "정규"가 아니라면 비정규라는 뜻일까요? 아닙니다. 그렇다면 데이터가 나쁘다는 뜻일까요? 아닙니다. 데이터 유형에 따라 기본 분포가 달라집니다.
가능한 이론적 분포는 여러 가지가 있습니다. 많은 통계 방법은 정규 분포에서 나오는 데이터에 의존합니다. 그렇지 않은 경우 다른 방법을 사용할 수 있습니다.
실제로는 데이터가 "거의 정규"인 경우가 많습니다. 몇 가지 간단한 시각적 도구를 활용하여 정규성을 확인할 수 있으며, 대부분의 소프트웨어 패키지에는 정규성을 테스트하기 위한 공식적인 통계 검정이 있습니다.
정규 분포를 따르지 않는 데이터의 예로는 무엇이 있을까요?
- 6면 주사위 던지기
- 동전 뒤집기
- 제조 공정에서의 합격/불합격 검사
- 줄을 서서 기다리는 시간
- 배터리 또는 기타 전자 제품이 고장나기까지 걸리는 시간
- 인터넷에 게시된 동영상의 파일 크기
예가 정규 분포를 따르지 않더라도 이러한 유형의 데이터를 분석할 방법이 있습니다.
정규성을 확인하기 위한 시각적 도구
히스토그램 사용
위에서 언급했듯이 히스토그램은 연속형 변수를 나타내는 특수한 유형의 빈도 막대 차트입니다. 이 차트는 데이터가 일반적인 종형 곡선을 따르는지 여부를 확인하는 데 도움이 됩니다. 일부 소프트웨어 패키지에서는 시각적 비교를 위해 히스토그램에 정규 곡선을 추가할 수도 있습니다.
그림 7은 정규 분포를 따르지 않은 데이터에 대한 히스토그램의 예를 나타냅니다.
정규성을 시각적으로 확인하기 위해 히스토그램을 볼 때 차트에서 다음을 살펴보세요.
- 극단값이 있는지 여부
- 양쪽이 거의 같은 대칭형 곡선을 따르는지 여부
- 종 모양인지 여부
보시다시피 그림 7의 차트는 극단값이 있고, 대칭이 아니며 종 모양도 아닙니다.
상자 그림 사용
정규 분포의 상자 그림은 평균이 중앙값과 동일하다는 것을 보여줍니다. 또한 이 그림은 데이터에 극단값이 없음을 나타냅니다. 데이터는 대칭형입니다.
아래 그림 8과 9의 두 상자 그림을 살펴보세요. 그림 8의 데이터는 거의 정규 분포를 따릅니다. 그림 9의 데이터는 정규 분포를 따르지 않습니다.
정규성을 시각적으로 확인하기 위해 상자 그림을 볼 때 그림에 다음이 나타나는지 확인하세요.
- 극단값 여부. 그림 9의 비정규 분포를 나타내는 그림은 3개의 이상치를 빨간색 점으로 보여줍니다. 그림 8의 정규에 가까운 분포를 나타내는 그림은 이상치를 보여주지 않습니다.
- 대칭형 여부. 정규에 가까운 분포를 나타내는 그림(그림 8)은 대칭형이지만, 비정규 분포를 나타내는 그림(그림 9)은 그렇지 않습니다.
- 평균과 중앙값이 거의 동일합니다. 이 상자 그림에서 상자의 검은색 가로 중심선은 중앙값이며, 파란색 선은 평균입니다. 그림 8의 정규 분포에 가까운 분포의 경우, 평균을 나타내는 파란색 선은 상자 가운데의 중앙값을 나타내는 선과 거의 동일합니다.
정규 분위수 그림 사용
정규 분위수 그림은 정규 분포를 종형 곡선이 아닌 직선으로 표시합니다. 정규 데이터의 경우 데이터 값이 직선에 가까워집니다. 비정규 데이터의 경우 데이터 값이 직선을 벗어납니다. 그림의 데이터 패턴은 데이터가 정규 분포를 따르지 않는 이유를 이해하는 데 도움이 될 수 있습니다.
그림 10은 정규 분포에서 가져온 데이터에 대한 정규 분위수 그림을 나타냅니다. 대다수의 데이터 값이 빨간색 실선 근처에 있는 것을 확인할 수 있습니다. 또한 데이터 값도 모두 빨간색 점선 신뢰 경계 내에 있습니다.
그림 11은 정규 분포를 따르지 않는 데이터를 나타냅니다. 데이터 값 중 일부는 빨간색 실선 근처에 있지만 대부분은 그렇지 않습니다. 일부 데이터 값은 빨간색 점선으로 표시된 신뢰도 경계 밖에 있습니다. 오른쪽 상단에는 극단값도 몇 개 있습니다.
대부분의 통계 소프트웨어는 정규 분위수 그림을 생성합니다. 정규성에 대한 정규 분위수 그림을 볼 때 데이터에 대해 다음을 확인하세요.
- 극단값이 있는지 여부
- 대부분 정규 분포를 나타내는 선을 따름
- 대부분의 경우 신뢰 경계 내에 있음
정규 분포 사용이 적합한 경우
연속형 데이터: 적합
정규 분포는 연속형 데이터에 적합합니다. 이러한 데이터는 가능한 값들이 많은 척도로 측정되기 때문입니다. 다음은 연속형 데이터의 몇 가지 예입니다.
- 연령
- 혈압
- 가중치
- 온도
- 속도
이러한 모든 예에서 정규 분포를 가정하는 방법을 사용하는 것이 합리적입니다. 그러나 모든 연속형 데이터가 정규 분포를 따르는 것은 아닙니다. 정규성을 가정하는 방법을 적용하기 전에 데이터를 그림으로 나타내고 데이터가 무엇을 나타내는지 생각해 보세요.
순서형 또는 명목형 데이터: 부적합
가능한 값이 몇 개뿐인 척도로 측정되는 순서형 또는 명목형 데이터에는 정규 분포가 적합하지 않습니다.
순서형 데이터의 경우, 표본이 여러 그룹으로 나뉘며 특정한 반응 순서가 있습니다. 예를 들어, "매우 비동의"부터 "매우 동의"까지 척도로 의견을 묻는 설문조사에서 응답자의 반응은 순서형입니다.
명목형 데이터에서도 표본을 여러 그룹으로 나누지만 특정 순서는 없습니다. 이의 두 가지 예는 생물학적 성별과 거주 국가입니다. 표본에서 남성에 M을 사용하고 여성에 F를 사용하거나 0과 1을 사용할 수 있습니다. 국가의 경우, 국가 약칭을 사용하거나 숫자를 사용하여 국가 이름을 코드로 지정할 수 있습니다. 이 데이터에 숫자를 사용하더라도 정규 분포를 사용하는 것은 합리적이지 않습니다.
기타 주제
정규성 검정
대다수의 통계 소프트웨어 패키지에는 정규성에 대한 공식 검정이 포함되어 있습니다. 이러한 검정은 데이터가 정규 분포에서 나온다고 가정합니다. 이후 검정 활동에서는 데이터를 활용하여 이 가정이 합리적인지 여부를 확인합니다.
t-분포 사용
정규 분포는 이론적 분포이며, 모집단 평균과 모집단 표준편차에 의해 완전히 정의됩니다.
실제로는 이 두 통계량에 대한 모집단 값을 거의 알 수 없습니다.
t-분포는 정규 분포와 매우 유사합니다. 이 분포는 표본 평균과 표본 표준편차를 사용합니다. t-분포는 이러한 추정값을 사용하므로, 완전히 정의하려면 모수가 하나 더 필요합니다.
추가적인 모수는 자유도이며, 이는 표본 크기에서 1을 뺀 것입니다. n이 표본 크기라면 자유도는 n--1로 표시됩니다. 이를 기억하는 간단한 방법은 t-분포가 자유도에 있어 일종의 "수정 계수"를 가진다는 것을 아는 것입니다. 이 수정 계수는 분포가 알 수 없는 모집단 값 대신 표본 평균과 표본 표준편차를 기반으로 한다는 사실을 설명하는 데 도움이 됩니다.