[リフトチャート]は、ROC曲線とは別の角度から、モデルの予測精度を描いたものです。リフトチャートは、データの部分ごとのリフト値をプロットしたものです。一意な予測確率値ごとにリフト値が求められます。予測確率が特定の閾値以上になっているデータ行の、全体に対する割合が、リフトチャートの横軸です。縦軸にプロットされるリフト値は、イベントを示す水準を実測値としてもつデータ行だけにおいて、予測確率が特定の閾値以上になっているデータ行の、全体に対する割合です。
メモ: 小さなモデルの場合、大部分が同じ予測確率になっていることがあります。その予測確率が最も大きな予測確率である場合、リフトチャートは割合がゼロから始まりません。たとえば、Figure 4.10における下側のリフトチャートは、割合がゼロから始まっていません。
図4.10 リフトチャート
図4.11 リフトチャートのリフト表
Figure 4.11は、Figure 4.10のリフトチャートのうち「High」に対するものの「リフト」と「割合」の計算を示したものです。あてはめられたパーティションのモデルは、応答「Y 2値」を予測するためのもので、5つの分岐を持ちます。その「Y 2値」列には、「Low」と「High」の2水準があります。このリフトチャートは、309行のデータに基づいています。観測された応答が「High」のデータは83行あり、それは全体の27%(= 83/309)となっています。
• Prob High: 「High」水準に対する5つのユニークな予測確率。
• N > Prob High: 「Prob High」以上の予測確率を持つ観測数。
• Portion: 「N > Prob High」を309で割った値。ここで、309は観測の総数。
• N High in Portion: 予測確率が閾値以上のグループのなかで「High」を実測値としてもつ観測数。
• Portion High: 「N High in Portion」を「N > Prob High」で割った値。
• Lift: 「Portion High」を、全体での応答水準の割合0.27で割った値。
リフト値は、モデルから求められた予測確率が大きいもので構成されたグループの「High」の割合が、データ全体での「High」の割合と比べてどれだけ大きくなっているかを示しています。データの最初の6%に対するリフト値は3.72です。つまり、このモデルの予測値が大きい上位6%を選び出すと、全体から6%のグループを無作為抽出したときよりも、応答が「High」になっている人の人数は3.72倍になっています。