基本的な統計分析 > テキストエクスプローラ > 「テキストエクスプローラ」プラットフォームの例
公開日: 04/01/2021

「テキストエクスプローラ」プラットフォームの例

この例では、ペットに関するアンケートへの回答を分析してみましょう。

1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Pet Survey.jmp」を開きます。

2. [分析]>[テキストエクスプローラ]を選択します。

3. 「質問への回答」を選択し、[テキスト列]ボタンをクリックします。

4. 「言語」から[英語]を選択します。

5. [OK]をクリックします。

「テキストエクスプローラ」レポートの最初の画面の例 

Image shown here

このデータには、194文書、異なる単語が372単語あることが先頭の情報からわかります。また、トークンの総数は1921個です。もっとも頻繁に使用されている単語は「cat」で、55回出現しています。

6. 「「質問への回答」のテキストエクスプローラ」の赤い三角ボタンをクリックし、[単語のオプション]>[語幹抽出]>[すべての単語]を選択します。

7. 「句」のリストから「cat food」「dog food」を選択して右クリックし、[句の追加]を選択します。

「cat food」と「dog food」が「単語」リストに追加されます。

8. 「単語」リストをスクロールダウンして、「cat food」と「dog food」があることを確認します。

それぞれ4回ずつ出現していることがわかります。

「単語」リストを編集後にスクロール 

Image shown here

「句」リストの「cat food」と「dog food」は、このレポートでは単語として扱うことにしたため、グレーで表示されます。

Image shown hereこの後の手順は、JMP Proでのみ実行できます。

9. Image shown here「「質問への回答」のテキストエクスプローラ」の赤い三角ボタンをクリックし、[潜在意味分析, 特異値分解]を選択します。

10. Image shown hereデフォルト値をそのままにして、[OK]をクリックします。

2つの特異値分解プロットが表示されます。左のプロットには、文書空間の最初の2つの特異ベクトルが表示されています。右のプロットには、単語空間の最初の2つの特異ベクトルが表示されています。

特異値分解プロット 

Image shown here

11. Image shown here左の特異値分解プロットの、一番右側にある3つの点を選択します。

この3つの回答は、他の回答から離れてクラスターを形成しています。このクラスターを詳しく調べるために、質問への回答文を読んでみましょう。

12. Image shown here左の特異値分解プロットの上にある[テキストの表示]をクリックします。

選択した文書のテキスト 

Image shown here

ウィンドウが開き、選択した3つの文書のテキストが表示されます。これらの回答は、「funny」、「cat」、「video」という単語が組み合わせて使われているという点で、共通しています。また、3つの文書は、第1次元の特異ベクトルが他の文書よりも大きい正の値を取っており、第1次元において他の文書と異なることを示唆しています。

特異ベクトルについてさらに詳しく分析すると、その次元が何を表しているのかがわかる可能性があります。たとえば、プロットの右端のほうにある回答の多くが、猫に関する内容であるのに対し、左端のほうにある回答の多くは、犬に関する内容です。したがって、第1次元の特異ベクトルは、回答における猫と犬の違いを抽出していると言えます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).