テキストの統計分析に関するオプション

基本的な統計分析 > テキストエクスプローラ > 「テキストエクスプローラ」プラットフォームのオプション > テキストの統計分析に関するオプション

公開日: 09/19/2023

テキストの統計分析に関するオプション

「テキストエクスプローラ」レポートの赤い三角ボタンで用意されているオプションのうち、統計分析に関するものには以下のものがあります。

潜在クラス分析

2値の文書単語行列に対して潜在クラス分析を行います。なお、分析の計算には、疎な行列に対する数値計算ルーチンが使用されています。潜在クラス分析を参照してください。

このオプションを選択すると、「設定」ウィンドウが開き、以下のオプションが表示されます。

単語の最大数

潜在クラス分析に含める単語の最大数。

単語の最小度数

潜在クラス分析に含める単語の最小出現頻度。

クラスターの数

潜在クラス分析におけるクラスターの個数。

潜在意味分析, 特異値分解

文書単語行列に対して、決められた次元までの特異値分解を実行します。潜在意味分析（特異値分解）を参照してください。

判別分析

文書単語行列に基づき、各文書がどのグループまたはカテゴリに属するのかを予測します。線形判別分析を参照してください。

単語選択分析

特定の応答変数をどの単語が最もよく説明するかを分析します。単語選択分析は、応答変数が何かしらの評価である場合の感情分析にも役立ちます。単語選択分析を参照してください。

感情分析

（「言語」オプションを英語に設定した場合にのみ使用可能）辞書に登録されている感情語を文書から抜き出し、各文書における肯定的感情、否定的感情、全体的感情をスコアリングします。感情分析を参照してください。

特異値分解の設定ウィンドウ

「テキストエクスプローラ」プラットフォームの統計分析は、文書単語行列（DTM; Document-Term Matrix）に対して行われます。文書単語行列の各列は、単語リストに含まれている各単語に対応しています（ただし、列数の最大値は、「単語の最大数」で指定したものです）。文書単語行列の各行は、1つの文書に対応しています（JMPデータテーブルにおけるテキスト列の1セルが、1文書に対応しています）。文書単語行列の各要素をどのように算出するかは、「設定」ウィンドウにて指定します。

Figure 12.10に、特異値分解の「設定」ウィンドウを示します。「テキストエクスプローラ」の赤い三角ボタンから、文書単語行列の特異値分解を実行するオプションを選択すると、「設定」ウィンドウが開き、以下のオプションが表示されます。

単語の最大数

特異値分解に含める単語の最大数。

単語の最小度数

特異値分解に含める単語の最小出現頻度。

重み

文書単語行列の要素を算出する方法。この方法については、文書単語行列の設定ウィンドウを参照してください。

特異ベクトルの数

特異値分解で求める特異ベクトルの個数。デフォルト値は100です。ただし、文書数または単語数が100を下回るときは、その値がデフォルト値になります。

中心化と尺度化

文書単語行列を中心化や尺度化するか否かを指定します。［中心化と尺度化］、［中心化］、または［中心化しない］のいずれかを選択します。デフォルトでは、中心化と尺度化の両方が適用されます。

図12.10 特異値分解の「設定」ウィンドウ

特異値分解の「設定」ウィンドウ

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).