“分布”平台使用直方图、其他图形和报表演示单个变量的分布(一元分析)。一元一词就是意味着仅涉及一个变量而不是两个(二元)或许多(多元)变量。不过,您可以在一个报表中检查若干个单个变量的分布。根据该变量是类别变量(名义型或有序型)还是连续变量,变量的报表内容会发生变化。
• 对于分类变量,初始图形是一个直方图。直方图为名义型或有序型变量的每个水平显示一个直条。报表显示计数和比例。
• 对于连续变量,初始图形显示一个直方图和一个离群值箱线图。直方图为分到一组的连续变量值显示一个直条。报表显示选定的分位数和汇总统计量。
一旦了解数据如何分布,您就可以计划下一步应采取的适当分析类型。
注意:有关“分布”平台的详细信息,请参见《基本分析》中的分布。
您想要查看谷物早餐的营养价值,让自己的饮食更加健康。分析谷物早餐数据的分布将揭示以下问题的答案:
• 哪些谷物早餐膳食纤维含量最高?
• 平均、最小和最大的卡路里值是多少?
• 脂肪含量的中位数是多少?
• 哪种谷物早餐脂肪含量最高?
• 数据中有离群值吗?
1. 选择帮助 > 样本数据库,然后打开 Cereal.jmp。
2. 选择分析 > 分布。
3. 按 Ctrl 键并点击制造商、卡路里、脂肪和膳食纤维。
4. 点击 Y,列,然后点击确定。
图 6.2 “制造商”、“卡路里”、“脂肪”和“膳食纤维”的分布
在“膳食纤维”分布中,请注意以下几点:
‒ 如“膳食纤维”箱线图所示,Fiber One 和 All-Bran with Extra Fiber 含有的膳食纤维最高。这些谷物早餐属于膳食纤维含量中的离群值。
Cereal.jmp 中包含 Fiber One 的行添加了标签。该标签在图形中的数据点旁显示谷物早餐的名称。要查看整个标签,需将最右侧的竖边框向右拖。将鼠标悬停于未加标签的数据点上方可看到“All Bran with Extra Fiber”。
在“脂肪”分布中,请注意以下几点:
‒ 将鼠标悬停于“脂肪”箱线图最顶部数据点(x 标记)的上方,可看到 100% Nat. Bran Oats & Honey 脂肪含量最高。
‒ 在“分位数”报表中,脂肪含量的中位数为 1 克。
在“卡路里分位数”报表中,请注意以下几点:
‒ 卡路里最大值为 250。
‒ 卡路里最小值为 50。
5. 在“制造商”直方图中,点击 Nabisco 对应的直条。
图 6.3 Nabisco 谷物早餐的分布
Nabisco 谷物早餐的“卡路里”、“脂肪”和“膳食纤维”分布在其他直方图中被突出显示。您可以查看 Nabisco 谷物早餐的“卡路里”、“脂肪”和“膳食纤维”如何分布(相对于整体数据的“卡路里”、“脂肪”和“膳食纤维”分布)。例如,Nabisco 谷物早餐的“脂肪”分布看起来低于整体数据的“脂肪”分布。
6. 在最后一个“膳食纤维”直条下面点击,撤销选择所有直条。
7. 按 Shift 键并点击“膳食纤维”直方图中值在 8 以上的所有直方图直条。
图 6.4 膳食纤维含量高的谷物早餐
膳食纤维含量最高的谷物早餐在“卡路里”和“脂肪”直方图中被突出显示。由于各个直方图相互链接,所以要注意,有些膳食纤维含量高的谷物早餐的脂肪含量也较低。
8. 按 Ctrl 键和 Shift 键,并撤销选择“卡路里”直方图中值为 200 或接近 200 的两个直条。
将从直方图中去除卡路里含量高的谷物早餐。
图 6.5 膳食纤维含量高且卡路里含量低的谷物早餐
提示:让“分布”报表保持打开状态,之后在聚类分析中您会用到它。请参见在“聚类”平台中分析相似值。
查看这些结果,您可以回答以下问题:
哪些谷物早餐膳食纤维含量最高?
“膳食纤维”箱线图显示 All-Bran with Extra Fiber 和 Fiber One 的膳食纤维含量最高。这两种谷物早餐是离群值。
平均、最小和最大的卡路里值是多少?
“卡路里”直方图显示卡路里值介于 50 到 275 之间。“卡路里分位数”显示卡路里值介于 50 到 250 之间,卡路里中位数为 120。该分布不均匀。
脂肪含量的中位数是多少?
“脂肪分位数”报表显示脂肪含量的中位数为 1 克。
哪种谷物早餐脂肪含量最高?
“脂肪”箱线图显示 100% Nat. Bran Oats & Honey 脂肪含量最高。该谷物早餐为离群值。
为了增加您饮食中的膳食纤维含量,您决定尝试 All-Bran with Extra Fiber 和 Fiber One,这些谷物早餐的卡路里和脂肪含量更低。多数谷物早餐都不会大量提高饮食中脂肪的含量,但您计划避免食用脂肪含量较高的 100% Nat. Bran Oats & Honey。尽管多数谷物早餐脂肪含量相对较低,但它们的卡路里不一定低。