公開日: 09/19/2023

線形判別分析

「テキストエクスプローラ」プラットフォームの判別分析は、文書単語行列の列に基づき、各文書がどのグループまたはカテゴリに属するのかを予測します。具体的には、各文書が1つの応答列のどのカテゴリに分類されるのかを予測します。［判別分析］オプションを使用する場合、カテゴリやグループを含む応答列を選択する必要があります。各文書がどのグループに属するのかは、文書単語行列の列に基づいて予測されます。判別分析の詳細については、『多変量分析』の判別分析を参照してください。

「テキストエクスプローラ」プラットフォームの判別分析は、中心化した文書単語行列の特異値分解を基にしています。応答列の各グループのグループ平均を使って文書単語行列が中心化されます。文書単語行列が疎であることを活用しているため、「判別分析」プラットフォームより高速です。

判別分析の「設定」ウィンドウ

「テキストエクスプローラ」プラットフォームの［判別分析］オプションは、文書単語行列に対して行われます。文書単語行列の各列は、単語リストに含まれている各単語に対応しています（ただし、列数の最大値は、「単語の最大数」で指定したものです）。文書単語行列の各行は、1つの文書に対応しています（JMPデータテーブルにおけるテキスト列の1セルが、1文書に対応しています）。文書単語行列の要素をどのように算出するかは、「設定」ウィンドウにて指定します。

「テキストエクスプローラ」の赤い三角ボタンのメニューから［判別分析］オプションを選択すると、「設定」ウィンドウが開き、以下のオプションが表示されます。

単語の最大数

判別分析に含める単語の最大数。

単語の最小度数

判別分析に含める単語の最小度数。

重み

文書単語行列の要素を算出する方法。この方法については、文書単語行列の設定ウィンドウを参照してください。

特異ベクトルの数

判別分析に含める特異ベクトルの数。デフォルト値は100です。ただし、文書数または単語数が100を下回るときは、その値がデフォルト値になります。

「判別分析」レポート

「テキストエクスプローラ」プラットフォームの「判別分析」レポートでは、デフォルトで「分類の要約」と「判別スコア」という2つのレポートが開かれます。その他のレポートは、デフォルトでは閉じています。

「判別分析」レポートには、以下のレポートが含まれます。

単語の平均

判別分析に使用された単語の表が表示されます。単語は、文書単語行列の列に対応しています。この表には、各単語の各グループにおける平均、全体平均、および群内標準偏差が含まれます。

各グループ平均への距離の2乗

各文書の、各グループへのMahalanobis距離の2乗を示します。
Mahalanobis距離の詳細については、『多変量分析』の外れ値分析を参照してください。

各グループに属する確率

文書がそれぞれのグループに属する確率を示します。

分類の要約

判別スコアの要約レポート。「判別分析」プラットフォームの「スコアの要約」レポートに対応します。

判別スコア

各文書に対して、予測された分類などの結果が表示されます。「判別分析」プラットフォームの「判別スコア」レポートと同じ内容です。

「判別分析」レポートのオプション

「テキストエクスプローラ」プラットフォームの「判別分析」レポートの赤い三角ボタンをクリックすると、以下のオプションが表示されます。

正準プロット

正準スコアをプロットしたグラフの表示／非表示を切り替えます。正準スコアは、分析変数の線形結合のなかで、グループを最も分離するものです。応答変数に3つ以上の水準があるときは、正準座標の数を指定しなければなりません。3以上に指定すると、正準プロットの行列が生成されます。

確率の保存

データテーブルの新しい列に、各グループに属する確率を保存します。事後確率が最も高いグループを示す列も作成されます。「最尤 <応答変数の名前>」の列には、最も事後確率の高い水準が含まれます。

確率の各列には、該当の文書がその応答水準に属する事後確率が含まれます。また、確率の各列には、「応答確率」列プロパティが保存されます。「応答確率」列プロパティの詳細については、『JMPの使用法』のJMPの列プロパティを参照してください。

確率の計算式を保存

データテーブルの新しい列に、各グループに属する事後確率を求める計算式を保存します。最初の列には、各グループに属する事後確率を求める計算式を保存します。この計算式では、Text Score()関数が使われます。各グループに属する事後確率の列と、応答の予測値の列も作成されます。

正準スコアの保存

データテーブルの新しい列に正準スコアを保存します。正準スコアは、分析変数の線形結合のなかで、グループを最も分離するものです。k番目の正準スコアの列名は、「正準<k>」となります。

削除

「テキストエクスプローラ」レポートウィンドウから、「判別分析」レポートを削除します。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).