「K近傍法」レポートには、各応答変数に対して個別のレポートが含まれています。それぞれの応答変数のレポートには、その応答変数に対してあてはめられたモデルについての情報が含まれています。この情報には、「モデル選択」レポートと、あてはめられたK近傍モデルそれぞれの要約情報が含まれています。結果は、学習セットと検証セットに分かれています(検証セットの表が表示されるのは、検証セットを使用している場合のみです)。
「モデル選択」レポートは、応答変数がカテゴリカルな場合には誤分類率が、応答変数が連続尺度の場合にはRASE(平均平方誤差の平方根; Root Average Squared Error)が、K個までのモデルに対してプロットされます。デフォルトで、予測精度が最も良いモデルのKの位置に、スライダが置かれます。スライダをドラッグして、レポートのK値を変更できます。
算出される統計量は、応答変数の尺度によって異なります。要約表の各行は、K近傍モデルに対する結果になっています。モデルは、1個から起動ウィンドウの[近傍点の個数, K]として指定した個数までの、K近傍モデルがあてはめられます。
連続尺度の応答変数に関する「K近傍法」レポートには、デフォルトで、「モデル選択」グラフに加え、要約表が含まれています。
アスタリスクがついているのは、RASE(平均平方誤差の平方根; Root Average Squared Error)が最小となっているK近傍モデルです。応答変数が連続尺度の場合には、以下の統計量が算出されます。
K
モデルに使用された近傍点の個数。Kの値として、1個から[近傍点の個数, K]で指定した個数までのモデルがあてはめられます。
度数
標本サイズ(観測数)。
R2乗
該当モデルのR2乗値。
RASE
該当モデルの平均平方誤差の平方根(Root Average Squared Error)。RASEが最小となっているモデルにはアスタリスクがつきます。なお、RASEが同じで最小となっているモデルが複数ある場合は、Kが最小であるモデルにアスタリスクがつきます。
SSE
該当モデルの誤差平方和(Sum of Squared Errors)。
カテゴリカルな応答変数に関する「K近傍法」レポートには、デフォルトで、「モデル選択」グラフに加え、要約表・混同行列・モザイク図が含まれています。
アスタリスクがついているのは、誤分類率が最小となっているK近傍モデルです。カテゴリカルな応答の要約表には、以下の統計量が算出されています。
K
モデルに使用された近傍点の個数。Kの値として、1個から[近傍点の個数, K]で指定した個数までのモデルがあてはめられます。
度数
標本サイズ(観測数)。
R2乗
該当モデルのエントロピーR2乗。
誤分類率
該当モデルによって誤分類されたデータ行の割合。誤分類されている度数を、全度数で割ったものです。誤分類率の最小となっているモデルにはアスタリスクがつきます。誤分類率が同じで最小となっているモデルが複数ある場合は、Kが最小であるモデルにアスタリスクがつきます。
誤分類
該当モデルによって誤分類された観測数。
デフォルトでは、誤分類率が最小になっているモデルの「混同行列」レポートが表示されます。誤分類率が同じで最小となっているモデルが複数ある場合は、Kの値が最小であるモデルのレポートが表示されます。「混同行列」レポートには、混同行列と混同率行列が含まれます。混同行列は、応答変数の実測値と予測値を2元度数表にまとめたものです。混同率行列は、混同行列の度数を行合計で割ったものです。検証を使用した場合は、検証セットとテストセットの混同行列と混同率行列が表示されます。モデルを評価するときは、「混同行列」レポートおよび誤分類率を参考にしてください。
ヒント: 「モデル選択」グラフでスライダの位置を変更すると、選択したKの値に応じた「混同行列」レポートが追加で表示されます。この追加のレポートは、デフォルトの最良モデルの混合行列の下に表示されるので、それらを比較できます。
デフォルトでは、混同行列は誤分類率が最小になっているモデルのモザイク図が表示されます。誤分類率が同じで最小となっているモデルが複数ある場合は、Kの値が最小であるモデルのモザイク図が表示されます。モザイク図は、棒グラフを積み重ねたもので、それぞれの矩形はそのグループの度数に比例します。モザイク図の詳細については、『基本的な統計分析』のモザイク図を参照してください。検証セットやテストセットを使用した場合、その検証セットと検定セットのモザイク図も表示されます。
ヒント: 「モデル選択」グラフでスライダの位置を変更すると、選択したKの値に対するモザイク図に更新されます。