분포 플랫폼은 히스토그램, 추가 그래프 및 보고서를 사용하여 단일 변수(단변량 분석)의 분포를 보여 줍니다. 단변량이란 관련 변수가 두 개(이변량) 또는 여러 개(다변량)가 아니라 하나뿐임을 의미합니다. 그러나 단일 보고서에서 여러 개별 변수의 분포를 검토할 수도 있습니다. 각 변수의 보고서 내용은 변수가 범주형(명목형 또는 순서형)인지 연속형인지에 따라 달라집니다.
• 범주형 변수의 경우 초기 그래프는 히스토그램입니다. 히스토그램에는 순서형 또는 명목형 변수의 각 수준에 대한 막대가 표시됩니다. 보고서에는 개수와 비율이 표시됩니다.
• 연속형 변수의 경우 초기 그래프에는 히스토그램과 이상치 상자 그림이 표시됩니다. 히스토그램에는 연속형 변수의 그룹화된 값에 대한 막대가 표시됩니다. 보고서에는 선택한 사분위수와 요약 통계량이 표시됩니다.
데이터가 어떻게 분포되어 있는지 알게 되면 적절한 유형의 분석을 계획할 수 있습니다.
참고: 분포 플랫폼에 대한 자세한 내용은 기본 분석의 에서 확인하십시오.
더 건강한 음식을 먹을 수 있도록 시리얼의 영양가를 확인하려고 합니다. 시리얼 데이터의 분포를 분석하면 다음 질문에 대한 답을 얻을 수 있습니다.
• 어떤 시리얼이 섬유질이 가장 많습니까?
• 평균, 최소 및 최대 칼로리는 얼마입니까?
• 지방 함량의 중앙값은 얼마입니까?
• 어떤 시리얼이 가장 많은 지방을 함유하고 있습니까?
• 데이터에 이상치가 있습니까?
1. 도움말 > 샘플 데이터 폴더를 선택하고 Cereal.jmp를 엽니다.
2. 분석 > 분포를 선택합니다.
3. Ctrl 키를 누른 채로 Manufacturer, Calories, Fat 및 Fiber를 클릭합니다.
4. Y, 열을 클릭한 후 확인을 클릭합니다.
그림 6.2 Manufacturer, Calories, Fat 및 Fiber 분포
"Fiber" 분포에서는 다음을 확인할 수 있습니다.
– "Fiber" 상자 그림에 표시된 것처럼 "Fiber One"과 "All-Bran with Extra Fiber"가 가장 많은 섬유질을 함유하고 있습니다. 이들 시리얼은 섬유질 함량에 있어서 이상치입니다.
Cereal.jmp에서 "Fiber One"이 포함된 행에는 라벨이 있습니다. 이 라벨은 그래프의 데이터 점 옆에 시리얼 이름을 표시합니다. 전체 라벨을 표시하려면 맨 오른쪽 세로 경계선을 오른쪽으로 드래그하십시오. 라벨이 없는 데이터 점을 커서로 가리키면 "All Bran with Extra Fiber"가 표시됩니다.
"Fat" 분포에서는 다음을 확인할 수 있습니다.
– "Fat" 상자 그림에서 맨 위 데이터 점(x 표식)을 커서로 가리키면 "100% Nat. Bran Oats & Honey"가 지방 함량이 가장 높음을 알 수 있습니다.
– "Fat"의 "분위수" 보고서에서 지방 함량의 중앙값은 1g입니다.
"Calories"의 "분위수" 보고서에서는 다음을 확인할 수 있습니다.
– 최대 칼로리는 250입니다.
– 최소 칼로리는 50입니다.
5. "Manufacturer" 히스토그램에서 "Nabisco" 막대를 클릭합니다.
그림 6.3 Nabisco 시리얼의 분포
"Nabisco" 시리얼의 칼로리("Calories"), 지방("Fat") 및 섬유질("Fiber") 분포가 다른 히스토그램에서 강조 표시됩니다. "Nabisco" 시리얼의 칼로리, 지방 및 섬유질 분포를 전체 데이터의 칼로리, 지방 및 섬유질 분포와 비교해서 볼 수 있습니다. 예를 들어 "Nabisco" 시리얼의 지방 분포는 전체 데이터의 지방 분포보다 낮습니다.
6. 마지막 "Fiber" 막대 아래를 클릭하여 모든 막대를 선택 취소합니다.
7. Shift 키를 누른 상태로 "Fiber" 히스토그램에서 값이 8보다 큰 모든 히스토그램 막대를 클릭합니다.
그림 6.4 섬유질이 많은 시리얼
섬유질이 가장 많은 시리얼이 "Calories" 및 "Fat" 히스토그램에서 강조 표시됩니다. 히스토그램이 연결되어 있기 때문에 섬유질이 많은 시리얼 중 일부는 지방도 적다는 것을 알 수 있습니다.
8. Ctrl 키와 Shift 키를 누른 상태로 "Calories" 히스토그램에서 값이 200 또는 그 근처에 있는 두 개의 막대를 선택 취소합니다.
칼로리가 높은 시리얼이 히스토그램에서 제거됩니다.
그림 6.5 고섬유질 저지방 시리얼
팁: "분포" 보고서를 열어 두십시오. 나중에 군집 분석에서 사용할 것입니다. 자세한 내용은 군집화 플랫폼에서 유사 값 분석에서 확인하십시오.
결과를 살펴보면 다음 질문에 대한 답을 얻을 수 있습니다.
어떤 시리얼이 섬유질이 가장 많습니까?
"Fiber" 상자 그림에서 "All-Bran with Extra Fiber"와 "Fiber One"이 가장 많은 섬유질을 함유하고 있음을 알 수 있습니다. 이 두 시리얼은 이상치입니다.
평균, 최소 및 최대 칼로리는 얼마입니까?
"Calories" 히스토그램에서 칼로리가 50에서 275 사이임을 알 수 있습니다. "Calories"의 "분위수"에서는 칼로리가 50에서 250 사이이며, 칼로리의 중앙값이 120임을 알 수 있습니다. 이 분포는 균등하지 않습니다.
지방 함량의 중앙값은 얼마입니까?
"Fat"의 "분위수" 보고서에서 지방 함량의 중앙값이 1g임을 알 수 있습니다.
어떤 시리얼이 가장 많은 지방을 함유하고 있습니까?
"Fat" 상자 그림에서 "100% Nat. Bran Oats & Honey"가 지방 함량이 가장 높음을 알 수 있습니다. 이 시리얼은 이상치입니다.
섬유질 섭취량을 늘리기 위해 "All-Bran with Extra Fiber"와 "Fiber One"을 먹어 보기로 결정했습니다. 이들 시리얼은 칼로리와 지방 함량이 낮습니다. 대부분의 시리얼이 지방 섭취량을 크게 늘리지 않지만, 지방 함량이 높은 "100% Nat. Bran Oats & Honey"는 피하기로 했습니다. 또한 대부분의 시리얼이 지방 함량이 비교적 적지만 칼로리가 반드시 낮은 것은 아닙니다.