在“模型筛选”平台中,“决策阈值”报表支持您探索二值分类模型的阈值。对于验证方法指定的每个模型数据集,都有一个“决策阈值”报表。模型数据集可以是训练集、训练和验证集,或是训练、验证和测试集。每个“决策阈值”报表都包含拟合概率分布图、分类条形图和混淆矩阵。所有这些都按照模型适合,折、试验和分类水平来排列。该报表还包含一个关于分类准确性测度的选项卡式部分和一个用于设置收益矩阵的选项。该报表随着您调整概率阈值而更新。
拟合概率的分布或模型得分支持您查看每个单独的模型拟合如何在两个类之间进行区分。图上的垂直线表示概率阈值,该阈值确定每个观测的分类。默认情况下,概率阈值为 0.5。可以通过拖动垂直线或点击概率阈值并输入新值来更改概率阈值。这将更改整个“决策阈值”报表中的概率阈值。概率阈值的值必须介于 0 和 1 之间。
分类条形图显示当前阈值下响应变量的每个水平的分类计数。绿条表示分类正确的观测;红条表示分类错误的观测。
混淆矩阵(也称为列联表)显示了每个单独的模型拟合的实际和预测响应的双向分类。同时还显示混淆率矩阵。比率等于混淆矩阵中的值除以行合计。
阈值-错误分类
显示了按概率阈值划分的误分类计数图和按概率阈值划分的误分类率图。对于每个单独的模型拟合,每个图都包含两条曲线。低响应类别的曲线为实线,高响应类别的曲线为虚线。两条曲线在阈值处相交,从而为每个响应水平生成等误分类,计数或比率。每个图上还有一条垂直线,表示当前概率阈值。可以通过拖动垂直线来更改概率阈值。这将更改整个报表中的概率阈值。
对应部分-错误分类
显示对应部分(按等级排名的得分)-误分类计数或比率图。对于每个单独的模型拟合,每个图都包含两条曲线。低响应类别的曲线为实线,高响应类别的曲线为虚线。
阈值-正确分类
显示概率阈值-正确计数图和概率阈值-真实比率图。对于每个单独的模型拟合,每个图都包含两条曲线。低响应类别的曲线为虚线,高响应水平的曲线为实线。两条曲线在阈值处相交,从而为每个响应生成等正确分类,计数或比率。每个图上还有一条垂直线,表示当前概率阈值。可以通过拖动垂直线来更改概率阈值。这将更改整个报表中的概率阈值。
对应部分-正确分类
显示对应部分(按等级排名的得分)-真实分类计数或比率图。对于每个单独的模型拟合,每个图都包含两条曲线。低响应类别的曲线为虚线,高响应类别的曲线为实线。
阈值 - 收益
(仅当指定收益矩阵时才可用。)显示概率阈值-平均收益图。每个单独的模型拟合都有一条曲线,还有一条表示当前概率阈值的垂直线。图旁边还会显示指定的收益矩阵。
量度
显示每个模型的分类准确性量度表。提供图例,用来描述如何计算每列中的量度。
注意:两个不太常见的分类准确性量度分别为 F1 和 MCC。F1 得分是准确率和召回率或灵敏度的组合。另一种计算 F1 的方法为:2(准确率 × 灵敏度)/(准确率 + 灵敏度)。Mathews 相关系数 (MCC) 相当于为两个二值变量估计的 Pearson 相关系数。请参见《多元方法》中的“Pearson 乘积矩相关系数的统计详细信息”。
支持您将成本分配到不希望的结果,将收益分配到希望的结果。请参见“指定收益矩阵”。若在“收益矩阵”窗口中更改概率阈值并点击“确定”,则会使用该值作为概率阈值更新“决策阈值”报表。