データの再コード化

このバージョンのヘルプはこれ以降更新されません。最新のヘルプは https://www.jmp.com/support/help/ja/15.2 からご覧いただけます。

JMPの使用法 • データの入力と編集 • データの再構成 • データの再コード化

•

データの再コード化

再コード化ツールを使うと、列内のすべての値を一度に変更することができます。たとえば、コンピュータ会社と製薬会社の売り上げを比較するとしましょう。現在使っている会社ラベルは、「Computer」（コンピュータ）と「Pharmaceutical」（製薬）です。これを、「Technical」（技術）と「Drug」（薬）に変更します。データに含まれる32行すべてで値を変更するのは、面倒で非効率的な上に、エラーの生じやすい作業です。数がもっと多い場合はなおさらです。このようなケースでは、再コード化が効率的です。

メモ: 複数の列の中で類似した値を再コード化する必要がある場合は、［列］>［列属性の一括設定］の［再コード化］オプションを使用します。詳細については、「列情報ウィンドウ」章の「列属性の一括設定」（274ページ）を参照してください。

1.

［ヘルプ］>［サンプルデータライブラリ］を選択し、「Companies.jmp」を開きます。

2.

「タイプ」列の列見出しをクリックし、選択します。

3.

［列］>［再コード化］を選択します。

デフォルトでは［列の新規作成］が選択されていて、再コード化した値は新しい列に入れられます。新しい列には「タイプ 2」という名前がつきます。

4.

「再コード化」ウィンドウで、「新しい値」ボックスに任意の値を入力します。この例では、「Computer」行に「Technical」と入力し、「Pharmaceutical」行に「Drug」と入力します。

図4.40 「再コード化」ウィンドウ

すべてのセルが自動的に新しい値に変わります。

メモ:

•

データテーブルに値ラベルが含まれる場合、ラベルは「再コード化」ウィンドウの「新しいラベル」という列に表示されます。ラベルを編集すると、「値ラベル」列プロパティも変更されます。［値を値ラベルで置換］を選択して「新しい値」列のデータを変更することもできます。

•

データタイプが「数値」の列に、数値でない値を入力した場合、データタイプを「文字」に変換するかどうかを確認するメッセージが表示されます。［はい］をクリックすると、列が変換され、新しい値が表示されます。［いいえ］をクリックした場合は、数値列のままになり、欠測値が表示されます。

再コード化のオプション

データの再コード化が終わったら、［完了］をクリックします。次のようなオプションが表示されます。

列の新規作成

新しい列を作成して、変更されたデータを保存します。元の列はそのまま維持されます。

計算列の新規作成

新しい列を作成して、変更された値を計算式として保存します。データテーブル内の元の列で値を変更すると、計算式が自動的にその列の値も更新します。

すべての変更を元のデータ列に適用します。

「再コード化」ウィンドウには、他に次のようなオプションがあります。

ウィンドウに最後に加えた変更が取り消されます。

ウィンドウに最後に加えた変更を再び適用します。

特定の値を検索します。下向きの矢印をクリックして検索オプションを選択します。各オプションの詳細については、第 “検索フィルタオプション”を参照してください。フィルタには、正規表現を使用することもできます。

グループを表示する

グループ化しているものも、グループ化していないものと同様に値を表示するには、オフにします。デフォルトでオンになっています。

グループ化されているものだけを表示

再コード化した値のうち、グループ化されているものだけを表示します。

グループ化されていないものだけを表示

グループ化されていない値だけを表示します。

グループ化

複数の値が選択されている場合に使用可能です。［グループ化］は、選択されている値を同じグループに含めます。グループ化する前に値を編集した場合、編集した値が「新しい値」列におけるグループを代表する文字列となります。そうでない場合は、出現頻度の最も高い値が代表する文字列となります。

再コード化の赤い三角ボタンのメニューオプション

「再コード化」ウィンドウの赤い三角ボタンをクリックすると、メニューに次のオプションが表示されます。

単語の最初の文字を大文字に変換

各単語の1文字目を大文字、残りの文字を小文字に変換します。

大文字に変換

値を大文字に変換します。

小文字に変換

値を小文字に変換します。

タブやスペースが列の値として読み込まれてしまうこともよくあります。次のコマンドを使って、これらの文字を削除します。

先頭と末尾のスペースを削除

最初および最後のスペースを削除します。たとえば、Johnの前後に余分なスペースが入っている場合、このコマンドによって削除されます。

スペースの整理

項目の前後および項目内の重複した余分なスペース文字を削除します。つまり、2つ以上の連続したスペースが挿入されている場合、［スペースの整理］コマンドによってスペースが1つになります。

句読点の削除

文字列中の句読点、特殊文字（引用符、アンパサンドなど）を削除します。

文字列の置換

指定した文字のインスタンスをすべて新しい文字列に置き換えるか、または削除します。置換には、正規表現も使用できます。

値をどこで分割するかを指定します。

分割の区切り文字

分割するための区切り文字を指定します。

項目を分割する場所を指定します。たとえば、カンマで分割するよう指定し、データが「first, second, third」であった場合、［最初の出現］を指定すると「second, third」になります。［最後の出現］を指定すると「third」になります。

マッチした項目の前と後ろのどちらのテキストを保持したいかを指定します。

マッチするものがない場合はテキストを保持する

マッチするものがない場合、値が削除されてしまうのを防ぎます。

例については、第 “カンマで分割する例”を参照してください。

データを値に従ってグループ化するには、次のコマンドを使用します。

値を、最初の語に従ってグループ化します。たとえば、「John Smith」と「John Adams」という値があった場合、このコマンドによって両方が「John」というグループにまとめられます。

値を、最後の語に従ってグループ化します。

最初の語以外すべて

最初の語を除き、残りの値に従って値をグループ化します。

最後の語以外すべて

最後の語を除き、残りの値に従って値をグループ化します。

類似の値をグループ化

指定した方法でデータをグループ化することができます。グループ化オプションの中から任意のものを選択します。詳細については、第 “再コード化のグループ化オプション”を参照してください。

値ラベルの追加

各値に値ラベルを割り当てることができます。

値を値ラベルで置換

値を、指定した値ラベルで置換します。

以下のオプションも用意されています。

前回の設定

「再コード化」ウィンドウで前に加えた変更を再び適用します。

ウィンドウをデフォルトの状態に戻します。

スクリプト

「再コード化」スクリプトの読み込み、マージ、保存を行うオプションを表示します。

–

ファイルから読み込み: 前に再コード化に使用したJSLスクリプトを読み込みます。同じスクリプトを別のデータで実行し、再コード化します。

–

データテーブルから読み込み: データテーブルに保存したJSLスクリプトを読み込みます。

–

再コード化結果列からの読み込み: 選択した列（通常は、前に再コード化した結果が保存されている列）からデータを読み込みます。

–

ファイルに保存: 「再コード化」の変更をJSLスクリプトに保存します。このオプションを選択すると、ファイルに名前を付けてから保存するためのウィンドウが表示されます。

–

データテーブルに保存: 「再コード化」スクリプトを現在のデータテーブルに保存します。編集後のデータを新しい列に入れるか、元のデータに上書きするかを確認するメッセージが表示されます。データテーブルを再コード化していて、そのデータを後で使用するつもりであれば、元のデータが失われないように新しい列を作成した方が安全です。

–

データテーブルスクリプトとマージ: 「再コード化」ウィンドウで加えた変更を、データテーブルに保存されている現在の「再コード化」スクリプトにマージします。スクリプトが複数ある場合は、データのマージ先のスクリプトを選択するためのウィンドウが表示されます。

–

スクリプトウィンドウに保存: スクリプトウィンドウに「再コード化」スクリプトを保存します。

計算式デポに発行

再コード化スクリプトを計算式デポに発行し、コードを他のスクリプトで再利用できるようにします。

再コード化の右クリックで表示されるオプション

「再コード化」ウィンドウで値を右クリックすると、次のようなオプションが表示されます。

別の値にグループ化

選択されているデータに新しい値を指定することができます。

...にグループ化

選択した値を右クリックすると、グループを代表する文字列を選択できます。［...にグループ化］コマンドを選択すると、データテーブルで最も出現頻度が高い「古い値」と、対応する「新しい値」を表示します（ただし、古い値と新しい値が異なる場合）。メニューには最初の8つが表示され、その中から選択されたものがグループを代表する文字列として使用されます。

新しい値を交換

2つの値が選択されている場合、［新しい値を交換］を実行すると、1つ目の値の新しい値と、2つ目の値の新しい値が入れ替わります。

グループから削除

値をグループ化した後、1つの値または複数の値を右クリックし、グループから削除することができます。

代表する文字列に指定

グループ内の1つの値を右クリックし、［代表する文字列に指定］を選択すると、その値が「新しい値」になります。

類似の値をグループ化

1つの値を右クリックし、似た値を見つけます。「グループ化オプション」ウィンドウが開きます。以下の「グループ化オプション」を参照してください。

再コード化のグループ化オプション

グループ化の精度を高めるために、［類似の値をグループ化］にある次のオプションを指定することができます。

大文字/小文字を無視

値の大文字と小文字の区別が無視されます。

印刷不可能な文字を無視

印刷不可能な文字が無視されます。一部のデータには、コンピュータだけが読み取れる印刷不可能な文字（ファイル区切り文字など）が含まれています。

スペースを無視

スペースが無視されます。

句読点などを無視

句読点が無視されます。

文字編集を許可

類似の値をグループ化するときに、文字を新しい値で置き換えることが可能になります。

異なる文字の割合

値が、異なる文字の割合に応じてグループ化されます。たとえば、「0.25」と入力すると、最大で25%が異なる値がグループ化されます。

異なる文字の最大数

値が、隣接していない異なる文字の最大数に従ってグループ化されます。たとえば、「5」を入力すると、異なる文字が5個以下の値がグループ化されます。

検索フィルタオプション

検索ボックス横の下向き矢印ボタンをクリックして、検索を絞り込みます。

指定の単語を含む

指定した単語を一部に含む項目を返します。「ease oom」を検索すると、「Release Zoom」のようなメッセージは返されますが、「Partial Least Squares」は返されません。

指定の句を含む

指定した文字列を完全に含む項目を返します。「text box」を検索すると、「text」のすぐ後に「box」（「Context Box」と「Text Box」など）を含む文字列を返します。

指定した句で始まる

指定した文字列で始まる項目を返します。

指定した句で終わる

指定した文字列で終わる項目を返します。

句全体が一致する

指定した文字列全体で構成されている項目を返します。「text box」を検索すると、「text box」となっている文字列だけを返します。

検索ボックスでは、ワイルドカード（*）とピリオド（.）を使用できます。「get.*name」を検索すると、「get」の後に1つ以上の単語を含む文字列を検索します。「Get Color Theme Names」、「Get Name Info」、「Get Effect Names」などが返されます。

結果を逆にする

指定した検索条件に一致しない項目を返します。

すべての単語が一致する

指定したすべての単語を含む項目を返します。「t test」を検索すると、検索文字列のどちらか一方、または両方を含む、「Pat Test」、「Shortest Edit Script」、「Paired t test」などの文字列を返します。

大文字/小文字を無視

検索基準で大文字と小文字を区別しません。

語全体が一致する

「すべての単語が一致する」の設定に基づいて、指定した単語全体を含む項目を返します。「data filter」を検索する場合、「すべての単語が一致する」も選択されていると、「data」と「filter」の両方を含む文字列が返されます。

異なる文字に従ったグループ化の例

類似の値を、異なる文字の数に従ってグループ化することができます。

1.

［ヘルプ］>［サンプルデータライブラリ］を選択し、「Candy Bars.jmp」を開きます。

2.

「名前」列を選択します。

3.

［列］>［再コード化］を選択します。

4.

赤い三角ボタンのメニューから、［類似の値をグループ化］を選択します。

5.

［異なる文字の最大数］オプションを選択し、「6」を入力します。

これで、異なる文字が最大6文字の値がグループにまとめられます。

6.

［OK］をクリックします。

図4.41 異なる文字の数でグループ化

この例では、グループ化した値は、互いに異なる文字が6文字以下となっています。「新しい値」列に表示されている値は、再コード化したデータテーブルの中でのグループ化された値を代表するものです。

7.

「Almond Roca」を右クリックして［代表する文字列に指定］を選択すると、この新しい値をグループ内の代表的な文字列に変更することができます。

図4.42 代表する文字列に指定

グループから値を削除するには、削除する値を右クリックし、［グループから削除］を選択します。

8.

［再コード化］をクリックし、再コード化したデータでテーブル内の元のデータを置換します。

異なる文字の割合に従ったグループ化の例

類似の値を、異なる文字の割合に従ってグループ化することができます。

1.

［ヘルプ］>［サンプルデータライブラリ］を選択し、「Candy Bars.jmp」を開きます。

2.

「名前」列を選択します。

3.

［列］>［再コード化］を選択します。

4.

赤い三角ボタンのメニューから、［類似の値をグループ化］を選択します。

5.

［異なる文字の割合］を選択し、「.5」を入力します。

6.

［OK］をクリックします。

これで、異なる文字が50%以下の値がグループにまとめられます。言い換えれば、50%以上の文字が共通している値がグループを形成します。異なる文字の割合は、2つの値の間で、各値の合計文字数と一意の文字の合計数を比較して求めます。

図4.43 異なる文字の割合でグループ化

7.

赤い三角ボタンのメニューから［再コード化］を選択し、再コード化したデータをデータテーブルの新しい列に保存します。

新しい列を作成することで、元のデータが維持されます。

カンマで分割する例

「Aircraft Incidents.jmp」サンプルデータテーブルには、都市名と州名をカンマで区切って保存している列があります。値をカンマで分割し、列を再コード化して州名だけの列にしてみましょう。

1.

［ヘルプ］>［サンプルデータライブラリ］を選択し、「Aircraft Incidents.jmp」を開きます。

2.

「場所」列を選択し、［列］>［再コード化］を選択します。

3.

赤い三角ボタンのメニューから［分割］を選択します。

4.

［テキスト］を選択し、「分割テキスト」の隣にカンマを入力します。

5.

デフォルトで設定されている［最初の出現］をそのまま使用します。このデータでは、州名がカンマの後の最初の出現です。

6.

［後ろのテキスト］を選択し、列の値を州名だけにします。

7.

デフォルトで設定されている［マッチするものがない場合はテキストを保持する］をそのまま使用します。一致するものがないテキストが削除されないようにするためです。

8.

［OK］をクリックします。

州名が一致するエントリが再コード化されます。

図4.44 都市名, 州名の再コード化

再コード化した値を別の列に適用する例

列を再コード化した場合、再コード化した値をスクリプトに保存することができます。スクリプトを読み込むか、または実行すると、元の列を再び再コード化できます。

ここでは、同じ値を持つ別の列を再コード化したいとしましょう。それには、再コード化した値をまず計算式列に保存し、計算式に編集を加えます。

1.

「再コード化」ウィンドウの「新しい値」列で再コード化した値を指定します。

2.

リストから計算列の新規作成を選択します。

3.

［再コード化］をクリックします。

4.

計算式の設定された列を右クリックし、［計算式］を選択します。

5.

計算式の中で、再コード化した列を選択します。

この例では、「性別」列が再コード化されています。

図4.45 再コード化した列

6.

「列」リストで、最コード化したい列を選択します。

この例では、「gender」列を再コード化します。

図4.46 「gender」列の再コード化

7.

「gender」列を右クリックし、［選択した部分式のインスタンスをすべて置換］を選択します。

「性別」の両方のインスタンスが「gender」で置換されます。

図4.47 インスタンスをすべて置換