在模型中输入名义型建模类型的列时,JMP 在内部将其表示为一组连续指标变量。每个变量仅采用值 –1、0 和 1。(请注意,该编码是使用指标变量对名义型变量编码的众多方法之一。)若名义型列包含 n 个水平,则需要 n-1 个这样的指标变量来表示该列。(需要 n-1 个指标变量的直接原因是:与名义型列关联的主效应具有 n-1 个自由度。)名义型因子中提供了完整的详细信息。
提示:通过从主报表的红色小三角菜单中选择“保存列”>“保存编码表”,您可以查看编码。请参见保存编码表。
假定您有一个包含四个水平的名义型列。以 Cholesterol.jmp 样本数据表中的治疗列为例。治疗列包含四个水平:A、B、Control 和 Placebo。前三个水平中分别由一个指标变量表示。这些指标变量名为“治疗[A]”、“治疗[B]”和“治疗[Control]”。
给定水平的指标变量为该水平分配值 1,为最后一个水平分配 –1,为其余水平分配 0。Table 3.1显示了本例中的“治疗[A]”、“治疗[B]”和“治疗[Control]”指标变量的定义。例如,考虑指标变量“治疗[A]”。如Table 3.1所示,该变量按如下方式分配值:
• 值 1 分配给治疗 = A 的行
• 值 0 分配给治疗 = B 或 = Control 的行
• 值 -1 分配给治疗 = Placebo 的行
分配给行的治疗 |
治疗[A] |
治疗[B] |
治疗[Control] |
---|---|---|---|
A |
1 |
0 |
0 |
B |
0 |
1 |
0 |
Control |
0 |
0 |
1 |
Placebo |
-1 |
-1 |
-1 |
水平的顺序由“值顺序”列属性决定(若已经分配该属性),或由 JMP 指定的默认排序决定。通常,默认排序对数字而言即数值排序顺序,对字符数据而言即字母数字排序顺序。不过,特定的分类值(如月份名称)会默认以适当顺序排序。有关值排序的详细信息,请参见《使用 JMP》中的值顺序。
这些变量用于对模型进行参数化。它们一般不显示在数据表中,但这些变量的估计系数在“参数估计值”和其他报表中提供。尽管也可以使用其他很多编码方法,但该编码已证实是一种实用且可解释的方法。
有关名义型效应的编码的信息,请参见有序型因子。