「K近傍法」プラットフォームの起動

「K近傍法」プラットフォームを起動するには、［分析］>［予測モデル］>［K近傍法］を選択します。

図7.4 「K近傍法」の起動ウィンドウ

「K近傍法」の起動ウィンドウ

「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。

「K近傍法」の起動ウィンドウには、以下のオプションがあります。

Y, 目的変数

分析したい目的変数（応答変数）。

メモ: 「K近傍法」プラットフォームは、たとえ応答変数がない場合でも、隣り合う測定値間の距離を判断するためのユーティリティとして使用できます。応答変数を指定しなかった場合は、空白のレポートが表示されます。ただし、赤い三角ボタンのメニューにある［近傍行の保存］や［近傍距離の保存］のオプションは使用できます。

X, 説明変数

モデルに含める説明変数。

検証

検証セットを定義する数値列。この列には最大3つの異なる値が含まれていなければなりません。

– 検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。

– 水準が3つの場合は、値が小さいものから順に、学習セット・検証セット・テストセットとして使われます。

– 検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。

「K近傍法」プラットフォームでは、検証列を使ってモデルを学習・調整するか、またはモデルを学習・調整・評価します。検証については、JMPのモデル化での検証を参照してください。

「列の選択」リストで列を選択せず、［検証］ボタンをクリックすると、データテーブルに検証列を新規作成することができます。検証列を作成する方法の詳細については、検証列の作成を参照してください。

別々に分析を行いたいときに、そのグループ分けをする変数を指定します。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに別々のレポートが作成されます。

検証データの割合

データ全体のうち検証セットに割り振るデータの割合です。

近傍点の個数, K

近傍点の最大数。1個の近傍点から、Kに指定した個数の近傍点までのモデルがあてはめられます。

メモ: 近傍点の最大数Kは、学習セットの行数から1を引いた値以下でなければなりません。許容される最大数Kより大きな値をKに指定した場合は、警告が表示されます。

カテゴリバイアス

カテゴリカルな応答の確率予測値が常に正となるように、調整パラメータを指定します。ゼロの度数がないようにするために、バイアス値の割合が観測値の度数に追加されます。この手順により、ゼロの対数の計算が回避され、あてはめられた確率が常に正になります。カテゴリバイアスの値は0～1の間でなければなりません。デフォルト値は0.5です。

乱数シード値の設定

応答変数が名義尺度や順序尺度の場合で、近傍にあるカテゴリの個数が同数のときには、乱数によってそれらのうちのいずれかのカテゴリに分類されます。そのときに用いる乱数のシード値を設定します。また、検証セットの割合を指定した場合には、ここで指定した乱数シード値が、検証セットに抽出する行を決める乱数のシード値として使われます。実行する分析を後でも再現したい場合には、乱数シード値を指定してください。乱数シード値を設定してスクリプトを保存する場合、シード値はスクリプト内に自動的に保存されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).