「テキストエクスプローラ」レポートの赤い三角ボタンで用意されているオプションのうち、統計分析に関するものには以下のものがあります。
潜在クラス分析
2値の文書単語行列に対して潜在クラス分析を行います。なお、分析の計算には、疎な行列に対する数値計算ルーチンが使用されています。潜在クラス分析を参照してください。
このオプションを選択すると、「設定」ウィンドウが開き、以下のオプションが表示されます。
単語の最大数
潜在クラス分析に含める単語の最大数。
単語の最小度数
潜在クラス分析に含める単語の最小出現頻度。
クラスターの数
潜在クラス分析におけるクラスターの個数。
潜在意味分析, 特異値分解
文書単語行列に対して、決められた次元までの特異値分解を実行します。潜在意味分析(特異値分解)を参照してください。
判別分析
文書単語行列に基づき、各文書がどのグループまたはカテゴリに属するのかを予測します。判別分析を参照してください。
「テキストエクスプローラ」プラットフォームの統計分析は、文書単語行列(DTM; Document-Term Matrix)に対して行われます。文書単語行列の各列は、単語リストに含まれている各単語に対応しています(ただし、列数の最大値は、「単語の最大数」で指定したものです)。文書単語行列の各行は、1つの文書に対応しています(JMPデータテーブルにおけるテキスト列の1セルが、1文書に対応しています)。文書単語行列の各要素をどのように算出するかは、「設定」ウィンドウにて指定します。
図に、特異値分解の「設定」ウィンドウを示します。「テキストエクスプローラ」の赤い三角ボタンから、文書単語行列の特異値分解を実行するオプションを選択すると、「設定」ウィンドウが開き、以下のオプションが表示されます。
単語の最大数
特異値分解に含める単語の最大数。
単語の最小度数
特異値分解に含める単語の最小出現頻度。
重み
文書単語行列の要素を算出する方法。この方法については、文書単語行列の設定ウィンドウを参照してください。
特異ベクトルの数
特異値分解ベクトルの個数。デフォルト値は100です。ただし、文書数または単語数が100を下回るときは、その値がデフォルト値になります。
中心化と尺度化
文書単語行列を中心化や尺度化するか否かを指定します。[中心化と尺度化]、[中心化]、または[中心化しない]のいずれかを選択します。デフォルトでは、中心化と尺度化の両方が適用されます。
特異値分解の「設定」ウィンドウ