[カテゴリ化の計算式の作成]オプションによって、連続データをいくつかのグループに分割できます(いくつかのビンにカテゴリ化できます)。カテゴリ化したい列を1列または複数列選択して、[列]>[ユーティリティ]>[カテゴリ化の計算式の作成]を選択します。いくつかの棒(ビン)で構成されたヒストグラムと値ラベルの凡例が表示されます。また、カットポイントを定義するためのオプションを含む赤い三角ボタンのメニューも表示されます。カットポイントを追加・削除したり、ビンのサイズを調整したりするには、いくつかの方法があります。
• ヒストグラム内を右クリックして、カットポイントを追加・削除できます。
• ヒストグラム内の縦の棒をクリックしてドラッグすることで、ビンのサイズを調整できます。
• カットポイントの値ラベルの横にあるボックスに値を入力して、カットポイント値を編集したり、ビンのサイズを調整したりできます。
• 「値ラベル」の凡例の上にある追加ボタンや削除ボタンを使って、行を追加・削除できます。これは、カットポイントを追加・削除するのと同じことです。
• 元に戻すボタンややり直しボタンを使って、ビンの設定に対して行った操作を元に戻したり、やり直したりできます。
カットポイントの計算式列をデータテーブルに追加するためのオプションもあります。
「カテゴリ化」ウィンドウのヒストグラム内を右クリックすると、以下のオプションを選択できます。
カットポイントの追加
カットポイントの線を、ヒストグラム内のクリックした場所に追加します。
カットポイントの削除
カットポイントの線を削除します。このオプションは、既存のカットポイントを右クリックした場合にのみ使用できます。
度数の表示
棒の上に配置された度数の表示と非表示を切り替えます。
パーセントの表示
棒の上に配置されたパーセントの表示と非表示を切り替えます。
サブセット
現在の選択に基づいてサブセットのデータテーブルを作成します。
塗りのパターン
ヒストグラムの棒の塗りつぶしパターンを指定します。
「カットポイント」の赤い三角ボタンのメニューには、以下のオプションがあります。
等しい幅でカテゴリ化
開始(オフセット)とビンの幅を指定します。JMPは、可能な最大値を超えるところまで表を埋めます。たとえば、オフセットが50、幅が10、最大のデータ値が95の場合、ビンは50, 60, 70, 80, 90, 100のようになります。
ビンの数でカテゴリ化
開始・終了・ビン数を指定します。開始から終了までの間のスペースが、ビン数で均等に割られます。ビン数を変更すると、ウィンドウ内で報告されるビンの幅も自動的に更新されます。
パーセント点によるカテゴリ化
1~50の間でパーセント値を指定します。データの範囲がその分位点で割られます。たとえば、パーセント点を20に指定した場合は、等しい重みをもつ5つのビンが作成されます。
平均/標準偏差によるカテゴリ化
ウィンドウでの選択内容に基づき、ビンのカットポイントを、データの平均に、標準偏差の1倍、2倍、3倍をプラスマイナスしたところに設定します。
Jenksの自然分類によるカテゴリ化
ビン数を指定することで、各ビン内の分散が最小かつビン間の分散が最大になるように、ビンのカットポイントを作成します。
ビンのラベル
データ値の変わりに値ラベルを表示するかどうかを指定します。
値ラベルの使用
ビンを定義する新しい計算式列に、値ではなく、ラベルを表示します。
範囲ラベルの使用
ラベルに各範囲の下限値と上限値を含めます。
ラベルなし
ラベルとして下限値を使用します。
文字
文字データタイプを適用します。この計算式はラベルを生成します。
値ラベルを参照してください。
ヒント: ほとんどのプラットフォームで値ラベルを使用することをお勧めします。範囲ラベルは多くのプラットフォームでサポートされていません。「カテゴリカル」プラットフォームでは、範囲ラベルではなく、値ラベルを使用しなければなりません。軸によって、範囲ラベルの方が値を識別しやすいケースがあります。そのような場合は、軸のオフセットや幅を調整することもできます。
ビンのラベルスタイル
表内で値ラベルや文字出力をどのように表示するかを定義するプリセットを指定します。
下限−上限
値ラベルを、各ビンの下限値と上限値で定義します。「下限−上限」の形式で表示されます。
下限~上限
値ラベルを、各ビンの下限値と上限値で定義します。「下限~上限」の形式で表示されます。
下限, 上限
値ラベルを、各ビンの下限値と上限値で定義します。「下限, 上限」の形式で表示されます。
下限−上限-1 (整数)
値ラベルを、各ビンの下限値と上限値から1を引いた値で定義します。「下限−上限-1」の形式で表示されます。
下限~上限-1 (整数)
値ラベルを、各ビンの下限値と上限値から1を引いた値で定義します。「下限~上限-1」の形式で表示されます。
[下限, 上限) (数学的)
値ラベルを、数学的な半開区間の表現(下限値は範囲に含め、上限値は含めないという表現)で定義します。たとえば、範囲が[50,60)の場合、50という値はこのビンに含まれますが、60という値は含まれません。
下限
値ラベルを、各ビンの下限値で定義します。
中間点
値ラベルを、各ビンの中間点で定義します。
整数のシーケンス
値ラベルを、連続した整数の通し番号で定義します。「整数のシーケンスのラベル」ウィンドウで、開始値となる整数を定義します。
アルファベット 大文字
値ラベルを、アルファベット順の大文字として定義します。
アルファベット 小文字
値ラベルを、アルファベット順の小文字として定義します。
カスタム
独自の値ラベルを設定できます。
列の形式
値ラベルの形式を指定します。デフォルトでは、その列の形式が適用されます。しかし、この設定を上書きしたいこともあるでしょう(たとえば、形式を米国ドルに変更したいような場合)。この設定は、列を「最適」などの形式にしたいが、ビンに小数点以下の桁を含めたくないような場合に特に便利です。すべての値ラベルを編集しなくても、形式を指定するだけで済みます。
ヒストグラム
棒の上に度数またはパーセント値が表示されるように指定します。
点の表示
棒の下に配置される、観測されたデータ点の表示と非表示を切り替えます。
軸のスケールを変更
軸を元のスケールに戻します。
前回の設定
「カテゴリ化」ウィンドウに、前回行った操作の設定値を自動的に入力します。
すべてXと同じ設定で作成
(複数の列が選択されている場合にのみ表示)最初の列(X)に対する選択内容を、ダイアログ内の残りの列にも適用します。
計算列の作成
計算列を作成し、ウィンドウを閉じます。
ヒント: いったん計算列が作成されると、その計算式は列見出しを右クリックし、[カテゴリ化の計算式の編集]を選択することで編集できます。このとき、「カテゴリ化」ウィンドウが再び開きます。カテゴリ化の計算式列を更新するには、カットポイントを編集し、[列の更新]をクリックします。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Big Class.jmp」を開きます。
2. 「身長(インチ)」列を選択します。
3. [列]>[ユーティリティ]>[カテゴリ化の計算式の作成]を選択します。
値の範囲は「X-X」として表示したいので、[ビンのラベルスタイル]での範囲設定は[下限-上限]のままにしておきます。
4. 「カットポイント」の赤い三角ボタンをクリックし、[等しい幅でカテゴリ化]を選択します。
5. 表示されるウィンドウで、「オフセット」を「-0.5」に変更します。
ヒント: 整数データの場合、オフセットを「-0.5」に設定すると、境界線上にある値がどちらのカテゴリに分類されるかが分かりやすくなります。この例では、例えば59.5から64.5までのビンには、59と65は含まれないことがはっきり分かります。
6. 「幅」は「5」に設定したままにします。
7. [OK]をクリックします。
8. ビンの値の範囲は表示しておきたいので、[ビンのラベル]は[値ラベルの使用]を選択したままにします。
図4.39 設定後の「カテゴリ化」ウィンドウ
9. [計算列の作成]をクリックします。
「カテゴリ化 身長(インチ)」という列が「Big Class.jmp」データテーブルに追加されます。
10. 計算式を確認するには、「カテゴリ化 身長(インチ)」列を右クリックして[計算式]を選択します。
図4.40 計算式