[ROC曲線]オプションはカテゴリカルな応答変数に対してのみ使用できます。受診者動作特性(ROC; Receiver Operating Characteristic)曲線は、応答変数の水準を予測確率で並べ替えて、モデルの予測精度を見るものです。ROC曲線については、『基本的な統計分析』のROC曲線で紹介されています。
応答変数がカテゴリカルな場合のパーティションでは、その予測値は0~1です。その予測値に対して、特定の閾値を設定して、各データ行を陽性/陰性に分類することを考えます。たとえば、閾値を0.5としたら、予測値が0.5以上ならば「陽性」、0.5未満ならば「陰性」に分類することになります。この閾値を変化すると陽性/陰性に正しく分類される個数が変化しますが、その分類にはトレードオフがあります。
すべての閾値に対して、次のような統計量を求めることにより、ROC曲線は描かれます。
• 感度(sensitivity)は、真陽性の割合です。「真陽性」とは、イベントが生じているものが、「陽性」と正しく分類されることを指します。
• 特異度(specifity)は、真陰性の割合です。「真陰性」とは、イベントが生じていないものが、「陰性」と正しく分類されることを指します。
ROC曲線は「1-特異度」に対して「感度」をプロットしたものです。n個の分岐を持つパーティションモデルにはn+1個の予測値があります。そのとき、ROC曲線はn+1本の線分で構成されます。
応答変数が3水準以上の場合には、1つの水準と、その水準以外のすべての水準とを比較したROC曲線が描かれます。各ROC曲線は、該当の応答水準を「陽性」としたときのものです。なお、2水準の場合には、ある水準を「陽性」と考えたROC曲線は、もう一方の水準を「陽性」と考えたROC曲線と、左上から右下への対角線で対称なものになっています。
図4.17 3水準のときのROC曲線
予測値が大きい順に並び替えたときに、応答変数の実測値が完全に予測されていればまず、「陽性」に対応した水準が先に位置して、その後に「陰性」に対応した水準が続きます。この場合、ROC曲線はまず上方向へ垂直に直進し、そして、右方向へ水平に直進します。逆に、モデルが応答をうまく予測できていない場合には、左下から右上にかけての斜めの対角線上にROC曲線はプロットされます。
実際のデータにおいては、ROC曲線は対角線の上側にプロットされます。なお、曲線の下の面積(AUC; Area Under Curve)はモデルの適合度を示します。AUCが1の場合は完全に適合していることを意味します。AUCが0.5に近い値の場合は、モデルによる予測がうまくいっていないことを示します。
応答に3水準以上の場合は、ROC曲線を描くと、曲線の下の面積(AUC)が最も大きい応答水準を知ることができます。