「テキストエクスプローラ」プラットフォームを起動するには、[分析]>[テキストエクスプローラ]を選択します。
図12.6 「テキストエクスプローラ」起動ウィンドウ
JMP Proでは、検証列を入力することができます。「列の選択」リストから列を選択しないで[検証]ボタンをクリックすると、データテーブルに検証列を追加することができます。「検証列の作成」ユーティリティの詳細については、『予測モデルおよび発展的なモデル』の「モデル化ユーティリティ」章を参照してください。
(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定した場合にのみ使用可能)先頭が同じで末尾が異なる語を同じとみなすかどうかを指定します。次のオプションがあります。
予め用意されているデフォルトの正規表現(ビルトインの正規表現)によって、テキストを構文解析します。ビルトインの正規表現を追加、削除、または編集したい場合は、[Regexのカスタマイズ]オプションを選択してください。第 “Regexのカスタマイズ:正規表現エディタ”を参照してください。
一般的によく使用される区切り文字に基づいて、単語を抽出します。この区切り文字には、スペース、タブ、改行文字のほか、英語での句読点の多くが含まれています。単語として数字も含めたい場合は、[数値を単語として扱う]オプションを選択してください。このオプションを選択しなかった場合、区切り文字に基づいて抽出された単語のうち、数字のみのものは除外されます。
ヒント: デフォルトの区切り文字を表示するには、「トークン化」で[基本ワード]を指定してレポートを作成し、「テキストエクスプローラ」レポートの赤い三角ボタンから[表示オプション]>[区切り文字の表示]を選択します。
(「トークン化」で[Regex]を指定したときのみ有効)「テキストエクスプローラ 正規表現エディタ」ウィンドウで、正規表現の設定を編集できます。特殊な単語に対応するには、このオプションを使用します。たとえば、電話番号や、文字と数字から構成される単語を抽出するように設定できます。[Regexのカスタマイズ]オプションを使用するのは、デフォルトの正規表現の結果が望ましくない場合のみにしてください。たとえば、デフォルトの正規表現で識別できない構造がテキストに含まれている場合などに使用してください。第 “Regexのカスタマイズ:正規表現エディタ”を参照してください。
起動ウィンドウで[OK]をクリックすると、[Regexのカスタマイズ]を選択している場合は、「テキストエクスプローラ 正規表現エディタ」ウィンドウが表示されます。そうでない場合は、「テキストエクスプローラ」レポートが表示されます。