「テキストエクスプローラ」レポートの赤い三角ボタンには、新たなデータテーブルを保存したり、既存のデータテーブルに新たな列を保存したり、または、列プロパティに情報を保存したりするための以下のオプションが含まれています。
文書単語行列の保存
文書単語行列の各列を、データテーブルの列に保存します(列数の最大値は、「単語の最大数」に指定した数によって決まります)。
積み重ねた文書単語行列の保存
文書単語行列を、積み重ねた形式でJMPデータテーブルに保存します。この積み重ねた形式のデータテーブルは、「アソシエーション分析」プラットフォームで分析を行いたい場合に適しています。『予測モデルおよび発展的なモデル』のアソシエーション分析を参照してください。「テキストエクスプローラ」の起動ウィンドウでID変数を指定した場合は、このIDによって、単語が元のテキストデータテーブルのどの行からきたのかを識別できます。積み重ねたテーブルには、アソシエーション分析を起動するスクリプトも含まれています。
文書単語行列の計算式の保存
尺度の形式がベクトルである計算式を、データテーブルの列に保存します。ベクトルのサイズは、[単語の最大数]、[単語の最小度数]、および[重み]にユーザが指定した値によって決まります。列の計算式には、JSL関数のText Score()が使用されます。この関数の詳細については、[ヘルプ]>[スクリプトの索引]を参照してください。
単語テーブルの保存
「単語と句のリスト」における単語リストのデータテーブルを作成します。このデータテーブルには、各単語、各単語の出現回数、そして、各単語を含む文書数が含まれます。このオプションを選択してデータテーブルを作成した後に、[列による単語のスコア]を選択すると、そのテーブルにスコアの列が追加されます。
列による単語のスコア
指定した列の値に基づいて単語のスコアを計算し、データテーブルに保存します。各単語のスコアは、指定した列の各値に、単語の出現頻度に基づく重み付けをしたうえで、平均値をとったものです。このオプションを選択する前に、[単語テーブルの保存]を選択してデータテーブルがすでに作成されている場合は、そのデータテーブルにスコアの列が追加されます。それ以外の場合は、単語テーブルが自動的に新規作成されます。指定した列が連続変数でない場合は、その列の水準ごとに、スコアの列が作成されます。
「テキストエクスプローラ」レポートの赤い三角ボタンから[文書単語行列の保存]または[文書単語行列の計算式の保存]を選択すると、設定ウィンドウが開き、以下のオプションが表示されます。
単語の最大数
文書単語行列に含める単語の最大数。
単語の最小度数
文書単語行列に含める単語の最小出現頻度。
重み
文書単語行列の要素を算出する方法。
以下のオプションがあります。
2値
各文書において、該当の単語が1つでもある場合は1を、1つもない場合は0を割り当てます。これがデフォルトの重みとなります(特異値分解をそれ以前に実行した場合は、そのときに指定した値が表示されます)。
3値
各文書において、該当の単語が2つ以上ある場合には2、1つしかない場合は1、1つもない場合は0を割り当てます。
度数
各文書内の単語の出現頻度を割り当てます。
度数の対数
log10( 1 + x )を割り当てます(xは各文書内の単語の出現頻度)。
TF IDF
TF * log10( nDoc / nDocTerm )を割り当てます。“TF IDF”は、単語度数(term frequency)と文書度数の逆数(inverse document frequency)の略です。これは、特異値分解におけるデフォルトの重みです。計算式の各項の定義は以下のとおりです。
TF = 文書内における単語の出現頻度
nDoc = コーパスに含まれる文書の数
nDocTerm = その単語を含む文書の数
メモ: 特異値分解を実行した後に[文書単語行列の保存]または[文書単語行列の計算式の保存]を選択した場合、これらの「設定」ウィンドウには、直前に行った特異値分解で指定した値が表示されます。