「テキストエクスプローラ」プラットフォームを起動するには、[分析]>[テキストエクスプローラ]を選択します。
図12.6 「テキストエクスプローラ」起動ウィンドウ
「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。「テキストエクスプローラ」起動ウィンドウには、以下のオプションがあります。
テキスト列
テキストデータを含む列を割り当てます。複数の列を指定した場合には、列ごとに別々の分析が実行されます。
検証
JMP Proでは、検証列を選択することができます。「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。検証列を作成する方法の詳細については、『予測モデルおよび発展的なモデル』の検証列の作成を参照してください。
検証列を指定すると、文書単語行列の計算には影響しませんが、潜在クラス分析、潜在意味分析、トピック分析、判別分析で学習セットのみが使用されるようになります。検証列は、[単語選択分析]オプションで実行される一般化回帰における検証法として使われます。
ID
[積み重ねた文書単語行列の保存]オプションによって保存されるデータテーブルにおいてIDとなる列を指定します。このデータテーブルは、アソシエーション分析を行うのに適しています。また、「潜在クラス分析」レポートでIDとなる列を指定するためにも使えます。
By
指定した列の水準ごとにレポートが作成されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに個別のレポートが作成されます。
メモ: By変数を指定した場合、[Regexのカスタマイズ]オプションの設定はBy変数の全水準に適用されます。
言語
テキスト処理に使用する言語を指定します。これは、語幹抽出、および、ストップワード・再コード化・句のビルトインリストに影響します。JMPを実行している言語と同じ言語でなくても構いません。特に設定を変更しない限り、JMPの「表示言語」と同じ言語に設定されます。
句あたりの最大単語数
句リストの句を構成するときの、1句あたりに含める単語数の最大値を指定します。
句の最大数
句のリストにおける上限を指定します。ここに指定された上限以下の出現回数をもつ句のみが、句のリストに表示されます。
単語あたりの最小文字数
1単語あたりに含める文字数の最小値を指定します。
単語あたりの最大文字数
1単語あたりに含める文字数の最大値(最大2000まで)を指定します。
語幹抽出
(英語・ドイツ語・スペイン語・フランス語・イタリア語のいずれかに「言語」オプションを設定した場合にのみ使用可能)先頭が同じで末尾が異なる語を同じとみなすかどうかを指定します。次のオプションがあります。
しない
語幹抽出を行いません。
同じ語幹の単語
1つの語幹から2つ以上の単語に派生しているもののみ、同じ語幹にまとめます。
すべての単語
派生している単語がないものを含め、すべての単語を語幹にまとめます。
メモ: 語幹抽出のオプションは、単語リストに追加された句にも適用されます。この処理では、句に含まれる各単語に語幹抽出を行い、その語幹抽出によって同じになる句は1つにまとめられます。たとえば、「dogs bark」、「dog barks」という句は、両方とも「dog·bark」という1つの句にまとめられます。語幹抽出のオプションが選択されている場合、単語リストから句を削除することはできません。
トークン化
(英語・ドイツ語・スペイン語・フランス語・イタリア語のいずれかに「言語」オプションを設定した場合にのみ使用可能)句を単語(トークン)に分解する方法を指定します。トークン化には、次のオプションがあります。
Regex
予め用意されているデフォルトの正規表現(ビルトインの正規表現)によって、テキストを構文解析します。ビルトインの正規表現を追加、削除、または編集したい場合は、[Regexのカスタマイズ]オプションを選択してください。正規表現エディタでのRegexのカスタマイズを参照してください。
基本ワード
一般的によく使用される区切り文字に基づいて、単語を抽出します。この区切り文字には、スペース・タブ・改行文字のほか、英語での句読点の多くが含まれています。単語として数字も含めたい場合は、[数字を単語として扱う]オプションを選択してください。このオプションを選択しなかった場合、区切り文字に基づいて抽出された単語のうち、数字のみのものは除外されます。
ヒント: デフォルトの区切り文字を表示するには、「トークン化」で[基本ワード]を指定してレポートを作成し、「テキストエクスプローラ」レポートの赤い三角ボタンから[表示オプション]>[区切り文字の表示]を選択します。
Regexのカスタマイズ
(「トークン化」で[Regex]を指定したときのみ有効)「テキストエクスプローラ 正規表現エディタ」ウィンドウで、正規表現の設定を編集できます。特殊な単語に対応するには、このオプションを使用します。たとえば、電話番号や、文字と数字から構成される単語を抽出するように設定できます。[Regexのカスタマイズ]オプションを使用するのは、デフォルトの正規表現の結果が望ましくない場合のみにしてください。たとえば、デフォルトの正規表現で識別できない構造がテキストに含まれている場合などに使用してください。正規表現エディタでのRegexのカスタマイズを参照してください。
数字を単語として扱う
(「トークン化」で[基本ワード]を指定したときのみ有効)数字を単語として抽出します。このオプションを選択すると、数字の単語については、「単語あたりの最小文字数」の設定は無視されます。
起動ウィンドウで[OK]をクリックすると、[Regexのカスタマイズ]を選択している場合は、「テキストエクスプローラ 正規表現エディタ」ウィンドウが表示されます。そうでない場合は、「テキストエクスプローラ」レポートが表示されます。
メモ: テキスト処理では、アルファベットの大文字と小文字は区別されません。テキスト全体が内部で小文字に変換されてから、トークン化や分析が行われます。正規表現処理や、「テキストエクスプローラ」レポートに出力される単語の集計処理にも、小文字に変換されたテキストが使用されます。