判別分析は、文書単語行列の列に基づき、各文書がどのグループまたはカテゴリに属するのかを予測します。具体的には、各文書が1つの応答列のどのカテゴリに分類されるのかを予測します。[判別分析]オプションを使用する場合、カテゴリやグループを含む応答列を選択する必要があります。各文書がどのグループに属するのかは、文書単語行列の列に基づいて予測されます。判別分析の詳細については、『多変量分析』の判別分析を参照してください。
「テキストエクスプローラ」プラットフォームの判別分析は、中心化した文書単語行列の特異値分解を基にしています。応答列の各グループのグループ平均を使って文書単語行列が中心化されます。文書単語行列が疎であることを活用しているため、「判別分析」プラットフォームより高速です。
「テキストエクスプローラ」プラットフォームの[判別分析]は、文書単語行列に対して行われます。文書単語行列の各列は、単語リストに含まれている各単語に対応しています(ただし、列数の最大値は、「単語の最大数」で指定したものです)。文書単語行列の各行は、1つの文書に対応しています(JMPデータテーブルにおけるテキスト列の1セルが、1文書に対応しています)。文書単語行列の要素をどのように算出するかは、「設定」ウィンドウにて指定します。
「テキストエクスプローラ」の赤い三角ボタンのメニューから[判別分析]オプションを選択すると、「設定」ウィンドウが開き、以下のオプションが表示されます。
単語の最大数
判別分析に含める単語の最大数。
単語の最小度数
判別分析に含める単語の最小度数。
重み
文書単語行列の要素を算出する方法。この方法については、文書単語行列の設定ウィンドウを参照してください。
特異ベクトルの数
判別分析に含める特異ベクトルの数。デフォルト値は100です。ただし、文書数または単語数が100を下回るときは、その値がデフォルト値になります。
「テキストエクスプローラ」プラットフォームの「判別分析」レポートでは、デフォルトで「分類の要約」と「判別スコア」という2つのレポートが開かれます。その他のレポートは、デフォルトでは閉じています。
「判別分析」レポートには、以下のレポートが含まれます。
単語の平均
判別分析に使用された単語の表が表示されます。単語は、文書単語行列の列に対応しています。この表には、各単語の各グループにおける平均、全体平均、および群内標準偏差が含まれます。
各グループ平均への距離の2乗
各文書の、各グループへのMahalanobisの距離の2乗を示します。
Mahalanobisの距離の詳細については、『多変量分析』の外れ値分析を参照してください。
各グループに属する確率
文書がそれぞれのグループに属する確率を示します。
分類の要約
判別スコアの要約レポート。「判別分析」プラットフォームの「スコアの要約」レポートに対応します。
判別スコア
各文書に対して予測された分類や、他の関連データが表示されます。「判別分析」プラットフォームの「判別スコア」レポートに対応します。
「判別分析」レポートの赤い三角ボタンをクリックすると、以下のオプションが表示されます。
正準プロット
正準スコアをプロットしたグラフの表示/非表示を切り替えます。正準スコアは、分析変数の線形結合のなかで、グループを最も分離するものです。応答変数に3つ以上の水準があるときは、正準座標の数を指定しなければなりません。3以上に指定すると、正準プロットの行列が生成されます。
確率の保存
データテーブルの新しい列に、各グループに属する確率を保存します。確率が最も高いグループを示す列も作成されます。「最尤 <応答変数の名前>」の列には、このモデルで確率が最も確率の高い水準が含まれます。
確率の各列には、該当の文書がその応答水準に属する事後確率が含まれます。また、確率の各列には、「応答確率」列プロパティが保存されます。「応答確率」列プロパティの詳細については、『JMPの使用法』の列プロパティを参照してください。
確率の計算式の保存
データテーブルの新しい列に、各グループに属する事後確率を求める計算式を保存します。最初の列には、各グループに属する事後確率を求める計算式を保存します。この計算式では、Text Score()関数が使われます。各グループに属する事後確率の列と、応答の予測値の列も作成されます。
正準スコアの保存
データテーブルの新しい列に正準スコアを保存します。正準空間とは、グループを互いにもっとも遠くに分ける空間です。k番目の正準スコアの列名は、「正準<k>」となります。
削除
「テキストエクスプローラ」レポートウィンドウから、「判別分析」レポートを削除します。