「モデルのスクリーニング」プラットフォームの「分類の閾値」レポートでは、2値分類について、確率の閾値を探索できます。「分類の閾値」レポートは、検証法で指定された各データセットに対してそれぞれ1つずつ表示されます。たとえば、「学習」だけ、「学習」・「検証」、または、「学習」・「検証」・「テスト」のセットです。各「分類の閾値」レポートには、それぞれ予測確率の分布を描いたグラフ、分類の棒グラフ、および混同行列があります。どのレポートも、モデルのあてはめ、および、分割・試行・クラス水準で整理されています。また、このレポートには、分類精度の指標に関するタブと、利益行列を設定するためのオプションもあります。このレポートは、予測確率に対する閾値を調整すると更新されます。
最初のグラフでは、各モデルのあてはめにおいて、2つのクラス間で予測確率の分布(つまり、スコアの分布)がどのように異なるかを確認できます。グラフ内における縦線は、各観測を分類するのに用いる、予測確率に対する閾値を表します。デフォルトの閾値は0.5です。閾値は、縦線をドラッグするか、または[確率の閾値]をクリックし、新しい値を入力することで変更できます。これによって、「分類の閾値」レポート全体における閾値が変わります。閾値は0から1までの値でなければなりません。
分類の棒グラフには、現在の閾値における応答変数の各水準に対する度数が表示されます。緑色の棒は正しく分類された観測数を、赤色の棒は誤って分類された観測数を表します。
混同行列は、応答の実測値と予測値を2元度数表(2元分割表)にまとめたものです。また、混同率行列も表示されます。混同率行列での割合は、混同行列を行和で割った値です。
閾値と誤分類
このタブには、確率閾値に対する誤分類数および誤分類率のプロットが表示されています。各プロットには、モデルごとに2つの曲線が描かれています。応答カテゴリが「Low」の曲線は実線で、応答カテゴリが「High」の曲線は破線で描かれています。これら2つの曲線は、各応答水準の誤分類数または誤分類率が等しくなる閾値のところで交わっています。また、各グラフには、現在の確率閾値を表している縦線も描かれています。確率閾値はこの縦線をドラッグして変更できます。これによって、レポート全体における確率閾値が変わります。
割合と誤分類
このタブには、予測確率を並び替えたデータでの割合に対する誤分類数および誤分類率のプロットが表示されています。各プロットには、モデルごとに2つの曲線が描かれています。応答カテゴリが「Low」の曲線は実線で、応答カテゴリが「High」の曲線は破線で描かれています。
閾値と正分類
このタブには、確率閾値に対する正分類数および正分類率のプロットが表示されています。各プロットには、モデルごとに2つの曲線が描かれています。応答カテゴリが「Low」の曲線は実線で、応答カテゴリが「High」の曲線は破線で描かれています。これら2つの曲線は、各応答水準の正分類数または正分類率が等しくなる閾値のところで交わっています。また、各グラフには、現在の確率閾値を表している縦線も描かれています。確率閾値はこの縦線をドラッグして変更できます。これによって、レポート全体における確率閾値が変わります。
割合と正分類
このタブには、予測確率を並び替えたデータでの割合に対する正分類数および正分類率のプロットが表示されています。各プロットには、モデルごとに2つの曲線が描かれています。応答カテゴリが「Low」の曲線は実線で、応答カテゴリが「High」の曲線は破線で描かれています。
閾値と利益
(利益行列を指定した場合にのみ表示されます。)このタブには、確率閾値に対する平均利益のプロットが表示されています。各モデルに対してそれぞれ1つの曲線と、現在の確率閾値を表す縦線が描かれます。指定された利益行列もプロットの横に表示されます。
評価指標
このタブには、各モデルの分類精度を表す指標の表が表示されます。凡例には、各列の指標の計算方法が示されます。
メモ: F1とMCCという2つの分類精度指標はあまり一般的ではありません。F1スコアは、適合率と再現率または感度の組み合わせです。F1を計算する別の方法は、2(適合率 × 感度)/(適合率 + 感度)です。MCC(Mathews相関係数)は、2つの二値変数に対して計算されたPearson相関係数に相当します。Pearsonの積率相関の統計的詳細を参照してください。
望ましくない結果に損失(cost)を、望ましい結果に利益(profit)を割り当てることができます。利益行列の指定を参照してください。「利益行列」ウィンドウで確率閾値を変更し、[OK]をクリックすると、「分類の閾値」レポートはその値を確率閾値として更新されます。