경험적 규칙
경험적 규칙 정의
정규 데이터가 있는 경우, 경험적 규칙을 활용하면 이를 빠르게 이해할 수 있습니다. 이 규칙을 "68-95-99.7% 규칙" 또는 "3 시그마 규칙"이라고도 합니다. 이 규칙은 평균의 표준편차 1개, 2개 또는 3개 내에 있는 데이터의 비율을 설명합니다.
이는 그림 1의 정규 분포 그래프를 참고하면 더 쉽게 이해할 수 있습니다. 그래프의 중심(X축의 0)은 데이터의 평균을 나타냅니다. 주황색 수직 점선은 평균에서 표준편차 1개, 2개, 3개에 그려진 것입니다.
데이터의 약 68%가 평균의 표준편차 1개 내에 있는 것을 확인할 수 있습니다. 정규 분포는 이론적인 모집단 분포라는 점을 기억하세요. 모집단 표준편차에 사용되는 기호는 s입니다.간혹 이 규칙은 "데이터의 68%가 평균으로부터 ±s 내에 있다."라고 쓰입니다.
마찬가지로 데이터의 약 95%가 평균의 표준편차 2개 내에 속한다는 것을 알 수 있습니다. 이는 흔히 “데이터의 95%가 평균으로부터 ±2s 내에 있다”라고 쓰입니다.
마지막으로, 데이터의 약 99.7%가 평균의 표준편차 3개 내에 있습니다. 이는 흔히 “데이터의 99.7%가 평균으로부터 ±3s 내에 있다”라고 쓰입니다.
실제로는 실제 모집단 평균이나 모집단 표준편차를 알기가 어려우며, 대신 표본 평균과 표본 표준편차를 사용하여 추정한 다음 이 규칙을 사용합니다.
경험적 규칙을 사용하는 방법
데이터를 분석할 때 경험적 규칙을 어떻게 적용할 수 있을까요? 데이터가 정규 분포를 따른다는 가정 하에, 경험적 규칙을 활용하면 측정된 결과가 특정 범위에 속할 가능성을 예측할 수 있습니다. 평균의 다양한 표준편차에서 발생하는 결과의 비율이 경험적 규칙에 의해 설명된 기대 비율에서 벗어난다는 사실을 발견했다면 이는 뭔가 잘못되었을 수 있다는 귀중한 단서입니다.
이를 설명할 수 있는 한 가지 가정은 데이터에 상당한 이상치가 있다는 것입니다. 예를 들어, 데이터가 제조된 품목의 특정 목표 사양(예: 밀리미터 단위의 치수)의 측정값으로 구성된 경우, 제조 공정이 제대로 제어되지 않아 주의가 필요하다는 의미일 수 있습니다.
또는 여러 가지 이유로 표본이 전체 모집단을 제대로 대표하지 못하거나 표본 크기가 너무 작기 때문일 수 있습니다.