この例では、ペットに関するアンケートへの回答を分析してみましょう。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Pet Survey.jmp」を開きます。
2. [分析]>[テキストエクスプローラ]を選択します。
3. 「質問への回答」を選択し、[テキスト列]ボタンをクリックします。
4. 「言語」から[英語]を選択します。
5. [OK]をクリックします。
「テキストエクスプローラ」レポートの最初の画面の例
このデータには、194文書、異なる単語が372単語あることが先頭の情報からわかります。また、トークンの総数は1921個です。もっとも頻繁に使用されている単語は「cat」で、55回出現しています。
6. 「「質問への回答」のテキストエクスプローラ」の赤い三角ボタンをクリックし、[単語のオプション]>[語幹抽出]>[すべての単語]を選択します。
7. 「句」のリストから「cat food」と「dog food」を選択して右クリックし、[句の追加]を選択します。
「cat food」と「dog food」が「単語」リストに追加されます。
8. 「単語」リストをスクロールダウンして、「cat food」と「dog food」があることを確認します。
それぞれ4回ずつ出現していることがわかります。
「単語」リストを編集後にスクロール
「句」リストの「cat food」と「dog food」は、このレポートでは単語として扱うことにしたため、グレーで表示されます。
この後の手順は、JMP Proでのみ実行できます。
9. 「「質問への回答」のテキストエクスプローラ」の赤い三角ボタンをクリックし、[潜在意味分析, 特異値分解]を選択します。
10. デフォルト値をそのままにして、[OK]をクリックします。
2つの特異値分解プロットが表示されます。左のプロットには、文書空間の最初の2つの特異ベクトルが表示されています。右のプロットには、単語空間の最初の2つの特異ベクトルが表示されています。
特異値分解プロット
11. 左の特異値分解プロットの、一番右側にある3つの点を選択します。
この3つの回答は、他の回答から離れてクラスターを形成しています。このクラスターを詳しく調べるために、質問への回答文を読んでみましょう。
12. 左の特異値分解プロットの上にある[テキストの表示]をクリックします。
選択した文書のテキスト
ウィンドウが開き、選択した3つの文書のテキストが表示されます。これらの回答は、「funny」、「cat」、「video」という単語が組み合わせて使われているという点で、共通しています。また、3つの文書は、第1次元の特異ベクトルが他の文書よりも大きい正の値を取っており、第1次元において他の文書と異なることを示唆しています。
特異ベクトルについてさらに詳しく分析すると、その次元が何を表しているのかがわかる可能性があります。たとえば、プロットの右端のほうにある回答の多くが、猫に関する内容であるのに対し、左端のほうにある回答の多くは、犬に関する内容です。したがって、第1次元の特異ベクトルは、回答における猫と犬の違いを抽出していると言えます。