予測モデルおよび発展的なモデル > K近傍法 > 「K近傍法」プラットフォームの起動
公開日: 11/25/2021

Image shown here「K近傍法」プラットフォームの起動

「K近傍法」プラットフォームを起動するには、[分析]>[予測モデル]>[K近傍法]を選択します。

図7.4 「K近傍法」の起動ウィンドウ 

K Nearest Neighbors Launch Window

「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。

「K近傍法」の起動ウィンドウには、以下のオプションがあります。

Y, 目的変数

分析したい目的変数(応答変数)。

メモ: 「K近傍法」プラットフォームは、たとえ応答変数がない場合でも、隣り合う測定値間の距離を判断するためのユーティリティとして使用できます。応答変数を指定しなかった場合は、空白のレポートが表示されます。ただし、赤い三角ボタンのメニューにある[近傍行の保存]や[近傍距離の保存]のオプションは使用できます。

X, 説明変数

モデルに含める説明変数。

検証

検証セットを定義する数値列。この列には最大3つの異なる値が含まれていなければなりません。

検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。

水準が3つの場合は、値が小さいものから順に、学習セット、検証セット、テストセットとして使われます。

検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。

「K近傍法」プラットフォームでは、検証列を使ってモデルを学習・調整するか、またはモデルを学習・調整・評価します。検証については、JMPのモデル化での検証を参照してください。

「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。「検証列の作成」ユーティリティの詳細については、検証列の作成を参照してください。

By

別々に分析を行いたいときに、そのグループ分けをする変数を指定します。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに別々のレポートが作成されます。

検証データの割合

データ全体のうち検証セットに割り振るデータの割合です。

近傍点の個数, K

近傍点の最大数。1個の近傍点から、Kに指定した個数の近傍点までのモデルがあてはめられます。

メモ: 近傍点の最大数Kは、学習セットの行数から1を引いた値以下でなければなりません。許容される最大数Kより大きな値をKに指定した場合は、警告が表示されます。

カテゴリバイアス

カテゴリカルな応答の確率予測値が常に正となるように、調整パラメータを指定します。デフォルトのカテゴリバイアスは0.5です。

乱数シード値の設定

応答変数が名義尺度や順序尺度の場合で、近傍にあるカテゴリの個数が同数のときには、乱数によってそれらのうちのいずれかのカテゴリに分類されます。そのときに用いる乱数のシード値を設定します。また、検証セットの割合を指定した場合には、ここで指定した乱数シード値が、検証セットに抽出する行を決める乱数のシード値として使われます。実行する分析を後でも再現したい場合には、乱数シード値を指定してください。乱数シード値を設定してスクリプトを保存する場合、シード値はスクリプト内に自動的に保存されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).