予測モデルおよび発展的なモデル > ブートストラップ森 > 「ブートストラップ森」プラットフォームの起動
公開日: 09/19/2023

ここに画像を表示「ブートストラップ森」プラットフォームの起動

「ブートストラップ森」プラットフォームを起動するには、[分析]>[予測モデル]>[ブートストラップ森]を選択します。

図5.7 「ブートストラップ森」起動ウィンドウ 

「ブートストラップ森」起動ウィンドウ

「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。

「ブートストラップ森」プラットフォームの起動ウィンドウには、以下のオプションがあります。

Y, 目的変数

分析したい目的変数(応答変数)。

X, 説明変数

モデルに含める説明変数。

重み

分析において各行の重みとして使用される数値を含む列。

度数

分析において各行の度数として使用される数値を含む列。

検証

検証セットを定義する数値列。この列には最大3つの異なる値が含まれていなければなりません。

検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。

水準が3つの場合は、値が小さいものから順に、学習セット・検証セット・テストセットとして使われます。

検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。

「ブートストラップ森」プラットフォームでは、検証列を使ってモデルを学習・調整するか、またはモデルを学習・調整・評価します。検証については、JMPのモデル化での検証を参照してください。

「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。検証列を作成する方法の詳細については、検証列の作成を参照してください。

By

別々に分析を行いたいときに、そのグループ分けをする変数を指定します。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに別々のレポートが作成されます。

手法

パーティションの手法として、[ディシジョンツリー]・[ブートストラップ森]・[ブースティングツリー]・[K近傍法]・[単純Bayes]を選択できます。[ディシジョンツリー]以外の手法は、JMP Proでのみ利用できます。

これらの手法の詳細については、パーティションブースティングツリーK近傍法、および単純 Bayesを参照してください。

検証データの割合

データ全体のうち検証セットに割り振るデータの割合です。

欠測値をカテゴリとして扱う

説明変数がカテゴリカルな場合、このチェックボックスをオンにすると、分析において、欠測値が1つのカテゴリとして扱われます。説明変数が連続尺度の場合は、欠測値が同一の数値を持つものとして扱われます。ROC曲線を参照してください。

順序尺度列の順序を保つ

このチェックボックスをオンにすると、順序尺度の列において、順序を保つ分岐だけが考慮されるようになります。

ここに画像を表示設定ウィンドウ

「ブートストラップ森の指定」ウィンドウでは、行数と項数、森の詳細、複数のあてはめ、および再現性を指定できます。「ブートストラップ森」起動ウィンドウで[OK]をクリックすると、「ブートストラップの森の指定」ウィンドウが表示されます。

図5.8 「ブートストラップの森の指定」ウィンドウ 

「ブートストラップの森の指定」ウィンドウ

ここに画像を表示指定パネル

行数

データテーブルの行数。

項の数

説明変数として指定された列の数。

ここに画像を表示「森」パネル

森におけるツリーの数

作成されるツリーの総数。

1分岐あたりに抽出される項の数

各分岐において、分岐の候補として検討される説明変数の個数。分岐ごとに、分岐の候補としてここに指定した個数だけ、無作為に説明変数が抽出されます。

ブートストラップ抽出率

各ツリーの作成時に抽出するデータ行の割合(抽出方法は復元抽出です)。ツリーごとに新しく無作為抽出が行われます。

ツリーあたりの最小分岐数

各ツリーで行う分岐の最小数。

ツリーあたりの最大分岐数

各ツリーで行う分岐の最大数。

分岐の最小サイズ

分岐候補を求めるのに必要とするデータ行の最低数。

早期打ち切り

(検証セットを使用している場合のみ。)このオプションを選択すると、追加のツリーを成長させ続けても検証データの適合度統計量がこれ以上改善されない時点で、処理が打ち切られます。この適合度統計量には、応答変数がカテゴリカルな場合には検証セットの「エントロピーR2乗」値が、応答変数が連続尺度の場合には検証セットの「R2乗」値が使われます。このオプションを選択しなかった場合は、指定されたツリー数に達するまで処理が続行されます。

ここに画像を表示「複数のあてはめ」パネル

項数に対する複数のあてはめ

このオプションを選択すると、複数の「1分岐あたりに抽出される項の数」に対してブートストラップ森が作成されます。レポート全体に表示される結果は、応答変数がカテゴリカルな場合は検証セットの「エントロピーR2乗」値が最大となっているモデルで、応答変数が連続尺度の場合は検証セットの「R2乗」値が最大となっているモデルです。

下限は、「1分岐あたりに抽出される項の数」で指定されている値です。上限は、次のオプションで指定されている値です。

項の最大数

1つの分岐に対して考慮される項の最大数。

調整計画テーブルを使用する

ブートストラップ森の設定値を含むデータテーブルを選択するためのウィンドウが表示されます。このような設定が含まれたデータテーブルのことを、JMPでは「調整計画テーブル」と呼んでいます。この調整計画テーブルには、指定したい各オプションにつき1つの列が含まれています。そして、1つ1つのブートストラップ森モデルの設定値を含んだものが、1行ずつで構成されています。調整計画テーブルでオプションが指定されていない設定は、デフォルト値が使用されます。

JMPは、指定された調整計画テーブルの1行につき1つのブートストラップ森モデルを作成します。調整計画テーブルで複数のモデルが指定されている場合、「検証セットでのモデル要約」レポートには各モデルのR2乗値がリストされます。レポート全体には、R2乗値が最も大きいモデルの結果が表示されます。

調整計画テーブルは実験計画の機能を使って作成してもよいでしょう。調整計画テーブルには、以下の列名をもつ列を含めてください(列の順番は任意です)。列名を英語で指定する場合には、大文字と小文字が区別されます。

ツリー数(Number Trees)

項の数(Number Terms)

ブートストラップの抽出割合(Portion Bootstrap)

ツリーあたりの最小分岐数(Minimum Splits per Tree)

ツリーあたりの最大分岐数(Maximum Splits per Tree)

分岐の最小サイズ(Minimum Size Split)

ここに画像を表示「再現性」パネル

マルチスレッドをオフにする

このオプションを選択すると、すべての計算が1つのスレッドで実行されます。

乱数シード値

分析を再実行したときに同じ結果を再現したい場合は、ここにゼロ以外の乱数シード値を指定してください。「乱数シード値」はデフォルトではゼロが指定されており、同じ結果が再現できないように設定されています。分析をスクリプトに保存するとき、ここに入力した乱数シード値がスクリプトに保存されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).