予測モデルおよび発展的なモデル > ブートストラップ森 > 「ブートストラップ森」プラットフォームの起動

公開日: 11/25/2021

「ブートストラップ森」プラットフォームの起動

「ブートストラップ森」プラットフォームを起動するには、［分析］>［予測モデル］>［ブートストラップ森］を選択します。

起動ウィンドウ

図5.7 「ブートストラップ森」起動ウィンドウ

Bootstrap Forest Launch Window

「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。

「ブートストラップ森」プラットフォームの起動ウィンドウには、以下のオプションがあります。

Y, 目的変数

分析したい目的変数（応答変数）。

X, 説明変数

モデルに含める説明変数。

重み

分析において各行の重みとして使用される数値を含む列。

度数

分析において各行の度数として使用される数値を含む列。

検証

検証セットを定義する数値列。この列には最大3つの異なる値が含まれていなければなりません。

– 検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。

– 水準が3つの場合は、値が小さいものから順に、学習セット、検証セット、テストセットとして使われます。

– 検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。

「ブートストラップ森」プラットフォームでは、検証列を使ってモデルを学習・調整するか、またはモデルを学習・調整・評価します。検証については、JMPのモデル化での検証を参照してください。

「列の選択」リストで列を選択せず、［検証］ボタンをクリックすると、データテーブルに検証列を新規作成することができます。「検証列の作成」ユーティリティの詳細については、検証列の作成を参照してください。

別々に分析を行いたいときに、そのグループ分けをする変数を指定します。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに別々のレポートが作成されます。

手法

パーティションの手法として、［ディシジョンツリー］・［ブートストラップ森］・［ブースティングツリー］・［K近傍法］・［単純Bayes］を選択できます。［ディシジョンツリー］以外の手法は、JMP Proでのみ利用できます。

［ブートストラップ森］以外の手法の詳細については、パーティション、ブースティングツリー、K近傍法、および単純 Bayesを参照してください。

検証データの割合

データ全体のうち検証セットに割り振るデータの割合です。

欠測値をカテゴリとして扱う

説明変数がカテゴリカルな場合、このチェックボックスをオンにすると、分析において、欠測値が1つのカテゴリとして扱われます。説明変数が連続尺度の場合は、欠測値が同一の数値を持つものとして扱われます。欠測値をカテゴリとして扱うを参照してください。

順序尺度列の順序を保つ

このチェックボックスをオンにすると、順序尺度の列において、順序を保つ分岐だけが考慮されるようになります。

設定ウィンドウ

起動ウィンドウで［OK］をクリックすると、「ブートストラップの森の指定」ウィンドウが表示されます。

図5.8 「ブートストラップの森の指定」ウィンドウ

Bootstrap Forest Specification Window

指定パネル

行数

データテーブルの行数。

項の数

説明変数として指定された列の数。

「森」パネル

森におけるツリーの数

作成されるツリーの総数。

1分岐あたりに抽出される項の数

各分岐において、分岐の候補として検討される説明変数の個数。分岐ごとに、分岐の候補としてここに指定した個数だけ、無作為に説明変数が抽出されます。

ブートストラップ抽出率

各ツリーの作成時に抽出するデータ行の割合（抽出方法は復元抽出です）。ツリーごとに新しく無作為抽出が行われます。

ツリーあたりの最小分岐数

各ツリーで行う分岐の最小数。

ツリーあたりの最大分岐数

各ツリーで行う分岐の最大数。

分岐の最小サイズ

分岐候補を求めるのに必要とするデータ行の最低数。

早期打ち切り

（検証セットを使用している場合のみ。）このオプションを選択すると、追加のツリーを成長させ続けても検証データの適合度統計量がこれ以上改善されない時点で、処理が打ち切られます。この適合度統計量には、応答変数がカテゴリカルな場合には検証セットの「エントロピーR2乗」値が、応答変数が連続尺度の場合には検証セットの「R2乗」値が使われます。このオプションを選択しなかった場合は、指定されたツリー数に達するまで処理が続行されます。

「複数のあてはめ」パネル

項数に対する複数のあてはめ

このオプションを選択すると、複数の「1分岐あたりに抽出される項の数」に対してブートストラップ森が作成されます。レポート全体に表示される結果は、応答変数がカテゴリカルな場合は検証セットの「エントロピーR2乗」値が最大となっているモデルで、応答変数が連続尺度の場合は検証セットの「R2乗」値が最大となっているモデルです。

下限は、「1分岐あたりに抽出される項の数」で指定されている値です。上限は、次のオプションで指定されている値です。

項の最大数

1つの分岐に対して考慮される項の最大数。

調整計画テーブルを使用する

ブートストラップ森の設定値を含むデータテーブルを選択するためのウィンドウが表示されます。このような設定が含まれたデータテーブルのことを、JMPでは「調整計画テーブル」と呼んでいます。この調整計画テーブルには、指定したい各オプションにつき1つの列が含まれています。そして、1つ1つのブートストラップ森モデルの設定値を含んだものが、1行ずつで構成されています。調整計画テーブルでオプションが指定されていない設定は、デフォルト値が使用されます。

JMPは、指定された調整計画テーブルの1行につき1つのブートストラップ森モデルを作成します。調整計画テーブルで複数のモデルが指定されている場合、「検証セットでのモデル要約」レポートには各モデルのR2乗値がリストされます。レポート全体には、R2乗値が最も大きいモデルの結果が表示されます。

調整計画テーブルは実験計画の機能を使って作成してもよいでしょう。調整計画テーブルには、以下の列名をもつ列を含めてください（列の順番は任意です）。列名を英語で指定する場合には、大文字と小文字が区別されます。

– ツリー数（Number Trees）

– 項の数（Number Terms）

– ブートストラップの抽出割合（Portion Bootstrap）

– ツリーあたりの最小分岐数（Minimum Splits per Tree）

– ツリーあたりの最大分岐数（Maximum Splits per Tree）

– 分岐の最小サイズ（Minimum Size Split）

「再現性」パネル

マルチスレッドをオフにする

このオプションを選択すると、すべての計算が1つのスレッドで実行されます。

乱数シード値

分析を再実行したときに同じ結果を再現したい場合は、ここにゼロ以外の乱数シード値を指定してください。「乱数シード値」はデフォルトでゼロ、つまり同じ結果を再現しないように設定されています。分析をスクリプトに保存するとき、ここに入力した乱数シード値がスクリプトに保存されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).