「Lipid Data.jmp」データテーブルは、カリフォルニア州の、ある病院で収集された、95人の患者に関する血液測定値・身体測定値・質問票データです。この例では、モデルの検証に用いることができる検証列を作成してみます。
1.
|
[ヘルプ]>[サンプルデータライブラリ]を選択し、「Lipid Data.jmp」を開きます。
|
2.
|
[分析]>[一変量の分布]を選びます。
|
3.
|
「性別」に[Y, 列]を割り当てます。[OK]をクリックします。
|
「Lipid Data.jmp」での「性別」の分布は、データ内の「性別」の分布を示しています。被験者の男性と女性の割合は同じではないことに注目してください。女性のデータのほうが少ないので、検証セットと学習セット全体では性別のバランスをとる必要があります。
4.
|
[分析]>[予測モデル]>[検証列の作成]を選択します。
|
5.
|
[層化無作為抽出]をクリックします。
|
6.
|
検証データを層化抽出する際に層とする列として、「性別」を選択します。
|
7.
|
[OK]をクリックします。
|
8.
|
[分析]>[二変量の関係]を選びます。
|
9.
|
「検証」を[Y, 目的変数]に、「性別」を[X, 説明変数]に割り当てます。
|
10.
|
[OK]をクリックします。
|
図3.16 検証セットと学習セットにおける性別の分布
検証セットと学習セットにおける性別の分布は、検証セットと学習セットにおける「性別」の分布を示しています。男性と女性それぞれの約75%が学習セットに、男性と女性それぞれの約25%が検証セットに含まれていることがわかります。