JMPの「データテーブルの比較」機能は、開かれている2つのデータテーブルを比較し、データ・スクリプト・テーブル変数・列名・列プロパティ・列属性の相違点をレポートします。「データテーブルの比較」ウィンドウの上部には、各データテーブルの列数と行数が表示されます。以下の例では、「Popcorn Trials.jmp」と「Popcorn.jmp」のサンプルデータテーブルを比較しています。
図4.22 データテーブルに関する基本情報
同じ名前の列は自動的に照合されます。対応する各列間に線が引かれます。2つの列を手動でリンクすることもできます。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Popcorn.jmp」と「Popcorn Trials.jmp」を開きます。
2. 「Popcorn Trials.jmp」を表示し、[テーブル]>[データテーブルの比較]を選択します。
3. 「対象のテーブル」リストで「Popcorn.jmp」を選択します。
「比較」リストでは、「Popcorn Trials.jmp」が自動的に選択されます。
4. 「列の対応」パネルで、「収率」と「収率1」を選択し、[リンク]をクリックします。
図4.23 手動でリンクした列
名前が同じ列は自動的にリンクされます。
メモ: データの比較アイコンをクリックしても、リンクされている列は比較されません。列のペアの値は結果に表示されますが、その比較は行われません。
5. [比較]をクリックします。
結果が「データ」レポートに表示されます。
図4.24 列の比較
最初の8行は同じなので表示されません。残りの行(青で表示)は、2つ目のテーブルである「Popcorn.jmp」にしかありません。
6. 「データ」レポートで、[違いのない行を表示しない]の選択を解除します。
図4.25 違いのない行を表示する
データテーブルの最初の8行は違いがないため、これらの行が表示されます。
7. [違いのない列を表示しない]の選択を解除します。
図4.26 違いのない列を表示する
両方のデータテーブルにある列のうち、同じデータを含んでいるものが表示されます。この方法を使うと、照合しているデータの背景を把握しやすくなります。
メモ: セル内のデータが完全に表示されていない場合は、そのテキストを選択すると、データ全体が「セルのデータ」ボックスに表示されます。
フレキシブルな行の対応
データを揃える共通の行を検索します。このオプションは、比較するデータテーブルが小さく、それらがほとんど同じであると考えられる場合に使用します。
行番号
1行ずつ比較します。このオプションは、行が同順に並んでいることがすでにわかっている場合に使用します。この比較は、他のオプションに比べ、かなり短時間で行うことができます。そのため、デフォルトで[フレキシブルな行の対応]が選択されていても、比較に時間がかかりすぎる場合は、このオプションを選択すると良いかもしれません。
ID列の使用
選択したID列を使用して行を比較します。データテーブル内の行がID列の値によって一意に識別されます。データテーブルが大きい場合や並び順が異なる場合、あるいはデータテーブルに欠測値が含まれている場合には、このオプションの使用を検討してください。複数の列を選択できます。
欠測値を無視
欠測データを無視します。
相対誤差を許容
数値データの相対誤差を指定します。数値は、指定した相対誤差内であれば等価と見なされます。相対誤差が小さいほど、比較は精確になります。
大文字/小文字を無視
テキストを比較するときに大文字と小文字を区別しません。
スペースを無視
テキストを比較するときにスペースを無視します。
ファジー比較の差を表示
ほぼ同じ数値データや文字列データの差を表示します。「相対誤差」フィールドの値と連動して、些細な差異を削除します。
違いのない列を表示しない
照合に使ったすべての列の表示と非表示を切り替えます。
違いのない行を表示しない
対応するデータを含む行の表示と非表示を切り替えます。
テーブルスクリプトやテーブル変数内の相違点を見るには、赤い三角ボタンをクリックし、[テーブルプロパティの比較]を選択します。Figure 4.27は、テーブル変数とテーブルスクリプトが異なることを示しています。変数全体またはスクリプト全体を見たい場合は、その行を選択すると、選択されたメタデータが表示されます。
この例では、ノートの内容がデータテーブル間で異なっており、参照変数とスクリプトは「Popcorn.jmp」にしかありません。「ノート」変数が選択されているので、両方のデータテーブルの「ノート」変数の内容が「選択されたメタデータ」ボックスに表示されています。赤い陰影の領域は、そのテキストが「Popcorn.jmp」にしかないことを示しています。青い陰影の領域は、そのテキストが「Popcorn Trials.jmp」にしかないことを示しています。
図4.27 異なるテーブル変数
各データテーブルの名前と各「ノート」変数の(差異だけではなく)内容全体を表示するには、[差を表示する]の選択を解除します。
「最短の共通文字列」は、文字列を共通の文字列だとして判断するのに(2つのファイル間で)同じでなければならない最小の連続文字数です。両方のファイルで共通だと判断された文字列には、背景色がありません。一般に、極端に短い文字列が共通として表示されても役には立ちません。それを防ぐために、この最短の共通文字列は「3」に設定されています。たとえば、最短の共通文字列を「1」に設定した場合、これは両方のファイルにある任意の1文字が照合の対象となります。その結果、数多くの短い文字列が共通のテキストであるとみなされてしまい、違いが読み取りにくくなります。
列属性(「ノート」や「値の色」など)の違いを見るには、赤い三角ボタンをクリックし、[列の属性とプロパティの比較]を選択します。
Figure 4.28は、列のノートが「Popcorn.jmp」と「Popcorn Trials.jmp」とで異なることを示しています。「収率1/収率」列が選択されているため、「選択されたメタデータ」ボックスでは、そのノートの内容全体と2つのノート間の違いを確認できます。
図4.28 列の属性とプロパティの比較