「K近傍法」プラットフォームを起動するには、[分析]>[予測モデル]>[K近傍法]を選択します。
図7.4 「K近傍法」の起動ウィンドウ
「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。
「K近傍法」の起動ウィンドウには、以下のオプションがあります。
Y, 目的変数
分析したい目的変数(応答変数)。
メモ: 「K近傍法」プラットフォームは、たとえ応答変数がない場合でも、隣り合う測定値間の距離を判断するためのユーティリティとして使用できます。応答変数を指定しなかった場合は、空白のレポートが表示されます。ただし、赤い三角ボタンのメニューにある[近傍行の保存]や[近傍距離の保存]のオプションは使用できます。
X, 説明変数
モデルに含める説明変数。
検証
検証セットを定義する数値列。この列には最大3つの異なる値が含まれていなければなりません。
– 検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。
– 水準が3つの場合は、値が小さいものから順に、学習セット・検証セット・テストセットとして使われます。
– 検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。
「K近傍法」プラットフォームでは、検証列を使ってモデルを学習・調整するか、またはモデルを学習・調整・評価します。検証については、JMPのモデル化での検証を参照してください。
「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。検証列を作成する方法の詳細については、検証列の作成を参照してください。
By
別々に分析を行いたいときに、そのグループ分けをする変数を指定します。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに別々のレポートが作成されます。
検証データの割合
データ全体のうち検証セットに割り振るデータの割合です。
近傍点の個数, K
近傍点の最大数。1個の近傍点から、Kに指定した個数の近傍点までのモデルがあてはめられます。
メモ: 近傍点の最大数Kは、学習セットの行数から1を引いた値以下でなければなりません。許容される最大数Kより大きな値をKに指定した場合は、警告が表示されます。
カテゴリバイアス
カテゴリカルな応答の確率予測値が常に正となるように、調整パラメータを指定します。ゼロの度数がないようにするために、バイアス値の割合が観測値の度数に追加されます。この手順により、ゼロの対数の計算が回避され、あてはめられた確率が常に正になります。カテゴリバイアスの値は0~1の間でなければなりません。デフォルト値は0.5です。
乱数シード値の設定
応答変数が名義尺度や順序尺度の場合で、近傍にあるカテゴリの個数が同数のときには、乱数によってそれらのうちのいずれかのカテゴリに分類されます。そのときに用いる乱数のシード値を設定します。また、検証セットの割合を指定した場合には、ここで指定した乱数シード値が、検証セットに抽出する行を決める乱数のシード値として使われます。実行する分析を後でも再現したい場合には、乱数シード値を指定してください。乱数シード値を設定してスクリプトを保存する場合、シード値はスクリプト内に自動的に保存されます。