メモ: 複数の列の中で類似した値を再コード化する必要がある場合は、[列]>[列属性の一括設定]の[再コード化]オプションを使用します。詳細については、「列情報ウィンドウ」章の「列属性の一括設定」(274ページ)を参照してください。
1.
|
[ヘルプ]>[サンプルデータライブラリ]を選択し、「Companies.jmp」を開きます。
|
2.
|
「タイプ」列の列見出しをクリックし、選択します。
|
3.
|
[列]>[再コード化]を選択します。
|
デフォルトでは[列の新規作成]が選択されていて、再コード化した値は新しい列に入れられます。新しい列には「タイプ 2」という名前がつきます。
4.
|
「再コード化」ウィンドウで、「新しい値」ボックスに任意の値を入力します。この例では、「Computer」行に「Technical」と入力し、「Pharmaceutical」行に「Drug」と入力します。
|
図4.40 「再コード化」ウィンドウ
•
|
データテーブルに値ラベルが含まれる場合、ラベルは「再コード化」ウィンドウの「新しいラベル」という列に表示されます。ラベルを編集すると、「値ラベル」列プロパティも変更されます。[値を値ラベルで置換]を選択して「新しい値」列のデータを変更することもできます。
|
•
|
データタイプが「数値」の列に、数値でない値を入力した場合、データタイプを「文字」に変換するかどうかを確認するメッセージが表示されます。[はい]をクリックすると、列が変換され、新しい値が表示されます。[いいえ]をクリックした場合は、数値列のままになり、欠測値が表示されます。
|
データの再コード化が終わったら、[完了]をクリックします。次のようなオプションが表示されます。
特定の値を検索します。下向きの矢印をクリックして検索オプションを選択します。各オプションの詳細については、第 “検索フィルタオプション”を参照してください。フィルタには、正規表現を使用することもできます。
複数の値が選択されている場合に使用可能です。[グループ化]は、選択されている値を同じグループに含めます。グループ化する前に値を編集した場合、編集した値が「新しい値」列におけるグループを代表する文字列となります。そうでない場合は、出現頻度の最も高い値が代表する文字列となります。
項目の前後および項目内の重複した余分なスペース文字を削除します。つまり、2つ以上の連続したスペースが挿入されている場合、[スペースの整理]コマンドによってスペースが1つになります。
項目を分割する場所を指定します。たとえば、カンマで分割するよう指定し、データが「first, second, third」であった場合、[最初の出現]を指定すると「second, third」になります。[最後の出現]を指定すると「third」になります。
例については、第 “カンマで分割する例”を参照してください。
選択した値を右クリックすると、グループを代表する文字列を選択できます。[...にグループ化]コマンドを選択すると、データテーブルで最も出現頻度が高い「古い値」と、対応する「新しい値」を表示します(ただし、古い値と新しい値が異なる場合)。メニューには最初の8つが表示され、その中から選択されたものがグループを代表する文字列として使用されます。
2つの値が選択されている場合、[新しい値を交換]を実行すると、1つ目の値の新しい値と、2つ目の値の新しい値が入れ替わります。
グループ内の1つの値を右クリックし、[代表する文字列に指定]を選択すると、その値が「新しい値」になります。
グループ化の精度を高めるために、[類似の値をグループ化]にある次のオプションを指定することができます。
1.
|
[ヘルプ]>[サンプルデータライブラリ]を選択し、「Candy Bars.jmp」を開きます。
|
2.
|
「名前」列を選択します。
|
3.
|
[列]>[再コード化]を選択します。
|
4.
|
赤い三角ボタンのメニューから、[類似の値をグループ化]を選択します。
|
5.
|
[異なる文字の最大数]オプションを選択し、「6」を入力します。
|
6.
|
[OK]をクリックします。
|
図4.41 異なる文字の数でグループ化
この例では、グループ化した値は、互いに異なる文字が6文字以下となっています。「新しい値」列に表示されている値は、再コード化したデータテーブルの中でのグループ化された値を代表するものです。
7.
|
「Almond Roca」を右クリックして[代表する文字列に指定]を選択すると、この新しい値をグループ内の代表的な文字列に変更することができます。
|
図4.42 代表する文字列に指定
グループから値を削除するには、削除する値を右クリックし、[グループから削除]を選択します。
8.
|
[再コード化]をクリックし、再コード化したデータでテーブル内の元のデータを置換します。
|
1.
|
[ヘルプ]>[サンプルデータライブラリ]を選択し、「Candy Bars.jmp」を開きます。
|
2.
|
「名前」列を選択します。
|
3.
|
[列]>[再コード化]を選択します。
|
4.
|
赤い三角ボタンのメニューから、[類似の値をグループ化]を選択します。
|
5.
|
[異なる文字の割合]を選択し、「.5」を入力します。
|
6.
|
[OK]をクリックします。
|
図4.43 異なる文字の割合でグループ化
7.
|
赤い三角ボタンのメニューから[再コード化]を選択し、再コード化したデータをデータテーブルの新しい列に保存します。
|
「Aircraft Incidents.jmp」サンプルデータテーブルには、都市名と州名をカンマで区切って保存している列があります。値をカンマで分割し、列を再コード化して州名だけの列にしてみましょう。
1.
|
[ヘルプ]>[サンプルデータライブラリ]を選択し、「Aircraft Incidents.jmp」を開きます。
|
2.
|
「場所」列を選択し、[列]>[再コード化]を選択します。
|
3.
|
赤い三角ボタンのメニューから[分割]を選択します。
|
4.
|
[テキスト]を選択し、「分割テキスト」の隣にカンマを入力します。
|
5.
|
デフォルトで設定されている[最初の出現]をそのまま使用します。このデータでは、州名がカンマの後の最初の出現です。
|
6.
|
[後ろのテキスト]を選択し、列の値を州名だけにします。
|
7.
|
デフォルトで設定されている[マッチするものがない場合はテキストを保持する]をそのまま使用します。一致するものがないテキストが削除されないようにするためです。
|
8.
|
[OK]をクリックします。
|
図4.44 都市名, 州名の再コード化
2.
|
リストから計算列の新規作成を選択します。
|
3.
|
[再コード化]をクリックします。
|
4.
|
計算式の設定された列を右クリックし、[計算式]を選択します。
|
この例では、「性別」列が再コード化されています。
図4.45 再コード化した列
この例では、「gender」列を再コード化します。
図4.46 「gender」列の再コード化
7.
|
「gender」列を右クリックし、[選択した部分式のインスタンスをすべて置換]を選択します。
|
「性別」の両方のインスタンスが「gender」で置換されます。
図4.47 インスタンスをすべて置換