「テキストエクスプローラ」プラットフォームの単語選択分析では、特定の応答変数を最もよく説明する単語を特定します。具体的には、「一般化回帰」プラットフォームで、文書単語行列に対して変数選択を実行することによって、特定の応答変数に最も影響を与えている単語を見つけます。感情分析と同様に、2値などの応答変数に対して分析を実行できます。あてはめられたモデルは、指定した応答変数の列に対して、適切な応答変数の分布を使用します。
ヒント: 単語選択分析の例については、[ヘルプ]>[サンプルデータフォルダ]を選択し、「Chips.jmp」を開いて、「テキストエクスプローラ: 単語の選択」スクリプトを実行してください。
「単語選択分析」レポートの「設定」では、応答列の選択や、応答のイベントを示す水準の指定、モデルの設定の調整を行えます。モデルの設定を指定したら、[実行]ボタンをクリックしてモデルを実行します。すると、あてはめられたモデルが「要約」レポートに表示されます。単語選択分析の「要約」レポートを参照してください。
応答列を選択すると、「イベントを示す水準」アウトラインが表示されます。
• 応答列が名義尺度である場合は、ロジスティック回帰モデルにおける「イベントを示す水準」を選択してください。「イベントを示す水準」のグループと、他のすべての水準を併合したグループとのオッズ比に対するロジスティック回帰モデルがあてはめられます。
• 応答列が順序尺度である場合、その応答列の全水準がデフォルトでモデルに含められます。モデルから特定の水準を除外するには、ローカルデータフィルタを使ってその除外する水準を選択してください。モデルに含めた水準は数値として扱われ、正規分布でモデル化されます。
メモ: 応答列が順序尺度である場合、応答列のデータタイプが数値でる場合のみ、単語選択分析を行えます。
• 応答列が連続尺度である場合、モデルから除外したい応答の値があるときは、ローカルデータフィルタのヒストグラムを使って、それらの除外したい応答の値を選択してください。応答列の値は、正規分布でモデル化されます。
• 応答列の尺度が「多重応答」である場合、応答の水準のうちの1つまたは複数を、2値のロジスティック回帰モデルのイベントを示す水準として選択してください。複数の水準を選択した場合、それらの水準のいずれかが応答列に含まれていれば、その文書は「イベントを示す水準」に属すると見なされます。なお、[ANDで組み合わせる]オプションを選択すると、選択した水準すべてが応答列に含まれることが、「イベントを示す水準」にその文書が属するための条件となります。
デフォルトでは、一般化回帰モデルの推定法として[弾性ネット]、検証法として[AICc]が使用され、早期停止が許可されています。この設定は、「モデルの設定」アウトラインで変更できます。『基本的な回帰モデル』の一般化回帰モデルを参照してください。
メモ: 「テキストエクスプローラ」の起動ウィンドウで検証列を指定した場合、「単語選択分析」レポートの一般化回帰プラットフォームでは、検証法として[検証列]が使用されます。
「単語の設定」では、回帰モデルで使用する文書単語行列を定義します。重みを用いる方法や、文書単語行列の列として含める単語の最大数を変更できます。なお、コーパスでの出現回数が10回未満の単語は、モデル用の文書単語行列には含められません。文書単語行列のオプションの詳細については、文書単語行列の設定ウィンドウを参照してください。
「テキストエクスプローラ」プラットフォームで単語選択分析を実行すると、「単語選択分析」レポートの下に3つのレポートが表示さます。「設定」レポートには、一般化回帰の設定項目が表示されます。単語選択分析の設定を参照してください。単語選択分析を実行するたびに、「設定」レポートの下に「一般化回帰」レポートが作成されます(デフォルトで閉じられています)。『基本的な回帰モデル』の一般化回帰モデルを参照してください。一番下に、「要約」レポートがあります。
図12.12 「単語選択分析」レポート
「要約」レポートには、「モデルの比較」表、要約表およびヒストグラム、文書スコアの表、単語スコアの表、テキストボックスが表示されます。
「モデルの比較」表の各行には、あてはめられたモデルが表示されます。その下には、現在選択されているモデルの結果が表示されます。
要約表には、文書の度数と平均スコアが、すべての文書およびモデルから得た応答の予測値ごとに表示されます。「平均寄与」は、文書スコアの表に示されている寄与値の平均です。「要約」レポートのヒストグラムには、文書の全体的な寄与値の分布が表示されます。このヒストグラムは対話的に操作できます。棒をクリックすると、文書スコアの表でその文書が強調表示されます。
文書スコアの表には、各文書の肯定的な寄与、否定的な寄与と、予測値、実測値が表示されます。この予測値は、応答変数の分布が二項分布の場合は、文書が「イベントを示す水準」である確率になります。応答変数の分布が正規分布の場合は、各文書にあてはめられたモデルから求められる予測値になります。この表で行を選択すると、表の下のテキストボックスにその文書のテキストが表示されます。
単語スコアの表には、あてはめたモデルによって選択された単語と、そのモデル係数、対数価値、コーパス内での出現回数が表示されます。この表で行を選択すると、表の下のテキストボックスにその文書のテキストが表示されます。
このテキストボックスには、文書スコアの表で文書を選択したときはその文書のテキストが、単語スコアの表で単語を選択したときはその単語を含む文書が表示されます。
「テキストエクスプローラ」プラットフォームの「単語選択分析」の赤い三角ボタンをクリックすると、以下のオプションが表示されます。
文書のスコアを保存
(「要約」レポートで一般化回帰モデルがあてはめられた後にのみ使用可能)文書スコアの列を、データテーブルに追加します。各文書の肯定的な寄与、否定的な寄与、および予測値が、新しい列として追加されます。
単語スコアの文書単語行列を保存
(「要約」レポートで一般化回帰モデルがあてはめられた後にのみ使用可能)現在選択されている分析で使われている単語の列を、データテーブルに追加します。「単語選択分析」レポートの「単語の設定」で指定した重みの方法で計算された単語のスコアが、新しい列として追加されます。
各予測を計算式として保存
(「要約」レポートで一般化回帰モデルがあてはめられた後にのみ使用可能)現在選択されている分析の予測式を、データテーブルに新しい列として追加します。
単語クラウドの表示
「要約」レポートにおいて、単語クラウドの表示/非表示を切り替えます。単語クラウドは、現在選択されている分析のモデル係数に基づいて表示されます。係数の絶対値が単語の大きさに、係数の符号が単語の色に反映されます。
削除
「テキストエクスプローラ」レポートウィンドウから「単語選択分析」レポートを削除します。