本例使用 Grocery Purchases.jmp 样本数据表,其中包含一家杂货店报告的交易数据。该数据表列出 1001 个客户购买的商品项,为每一个客户都分配了唯一的客户 ID。您想要探索项之间的关联以辨识客户行为模式。
1. 选择帮助 > 样本数据库,然后打开 Grocery Purchases.jmp。
2. 选择分析 > 筛选 > 关联分析。
3. 选择产品并点击项。
4. 选择客户 ID 并点击 ID。
5. 点击确定。
默认情况下,“规则”报表按置信度降序排序。不过,具有极高置信度的关联规则还往往在条件集中具有较高的项数。由于您想要查看具有较小条件集的关联规则,请按照置信度对报表排序,但按照升序排序。
6. 在“规则”报表中右击并选择按列排序。
随即显示“选择列”窗口。
7. 选择置信度,然后选中“升序”选项。
8. 点击确定。
图 25.2 “关联分析”报表
9. 在报表中向下滚动到置信度值为 58% 的位置。
“规则”报表表中有一个条目指示 58% 的客户在购买了鳄梨的同时也购买了洋蓟。提升值为 1.908,这指示存在可能的依赖性。您想要验证有很大一部分交易都会同时出现鳄梨和洋蓟。
10. 点击“频繁项集”旁边的展开图标。
图 25.3 “频繁项集”报表
“频繁项集”报表显示 36% 的客户购买了鳄梨。图 25.2 中的“规则”报表显示这些客户中有 58% 的客户也购买了洋蓟。由于较大一部分客户都存在该行为,杂货店管理人员可以使用该信息战略性地对鳄梨和洋蓟进行位置摆放。
您还决定查看具有最高提升值的关联规则。
11. 在“规则”报表表中右击并选择按列排序。
随即显示“选择列”窗口。
12. 选择提升度并点击确定。
“规则”表按照提升值降序排列。请注意,第二个关联规则的提升值为 5.642,置信度为 83%。您想要验证条件集 {chicken, ice cream} 和结果项集 {Coke, sardines} 都具有足够的支持度。
13. 在“频繁项集”报表中右击并选择按列排序。
随即显示“选择列”窗口。
14. 选择项集,然后选中“升序”选项。
15. 点击确定。
“频繁项集”表按项集的字母顺序排序。在列表中滚动浏览,直到看到条件项集 {chicken, ice cream} 的支持度为 14%。结果项集 {Coke, sardines} 的支持度为 15%。该关联规则有较高的提升值,但和您查看的第一个关联规则比,其表示的交易要少的多。