公開日: 04/01/2021

テキストの前処理オプション

「テキストエクスプローラ」レポートの赤い三角ボタンで用意されているオプションのうち、テキストを前処理するものには以下のものがあります。

表示オプション

レポートの表示内容を制御するサブメニューが表示されます。

ワードクラウドの表示

「ワードクラウド」レポートの表示/非表示を切り替えます。「ワードクラウド」レポートの赤い三角ボタンをクリックすると、ワードクラウドのレイアウトやフォントを変更するメニューが表示されます。「ワードクラウド」のオプションを参照してください。

ワードクラウドの幅は、インタラクティブに変更できます。幅を変更すると、自動的に高さが調整されます。「単語」リストの単語と、ワードクラウドの単語はリンクしています。

単語リストの表示

単語リストの表示/非表示を切り替えます。

句リストの表示

句リストの表示/非表示を切り替えます。

単語と句のオプションの表示

単語と句のポップアップメニューのオプションを、「単語と句のリスト」レポート内に表示します。単語と句のリストを参照してください。

要約の表示

要約表の表示/非表示を切り替えます。要約レポートを参照してください。

ストップワードの表示

分析に使用したストップワードリストの表示/非表示を切り替えます。プラットフォームを起動した最初には、予め用意されているストップワード(ビルトインのストップワード)が使用されます。ストップワードを追加するには、「単語」リストから単語を右クリックし、ポップアップメニューから[ストップワードの追加]を選択します。[単語のオプション]から開く管理ウィンドウを参照してください。

再コード化の表示

再コード化された単語リストの表示/非表示を切り替えます。[単語のオプション]から開く管理ウィンドウを参照してください。

指定した句の表示

ユーザによって単語に指定された句のリストの表示/非表示を切り替えます。[単語のオプション]から開く管理ウィンドウを参照してください。

語幹の例外の表示

(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定した場合にのみ使用可能)語幹抽出の例外リストの表示/非表示を切り替えます。[単語のオプション]から開く管理ウィンドウを参照してください。

区切り文字の表示

(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定し、「トークン化」オプションで[基本ワード]を選択した場合にのみ使用可能)トークン化の方法として「基本ワード」を使用したときの区切り文字の表示/非表示を切り替えます。区切り文字のセットを変更するには、JSLでAdd Delimiters()またはSet Delimiters()メッセージを使用してください。

語幹レポートの表示

(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定し、「語幹抽出」オプションを[しない]以外に設定した場合にのみ使用可能)「語幹抽出」レポートの表示/非表示を切り替えます。このレポートには、語幹抽出の結果が2つの形式で表示されます。左の表には、語幹に対して、その語幹に該当する単語が表示されます。右の表には、単語に対して、その単語の語幹が表示されます。

選択されている行を表示

ウィンドウが開き、現在選択している行の文書のテキストが表示されます。

表に対してフィルタを設定

検索フィルタの表示/非表示をまとめて切り替えます。検索フィルタが表示されるのは、「ストップワード」表、「指定した句」表、「語幹の例外」表、「単語」リスト、「句」リスト、「語幹抽出」レポート内の表です。フィルタツールの詳細については、検索フィルタのオプションを参照してください。

単語のオプション

単語リストに関連するサブメニューが表示されます。

語幹抽出

(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定した場合にのみ使用可能)語幹抽出のオプションについては、「テキストエクスプローラ」プラットフォームの起動を参照してください。

ビルトインのストップワードを含める

トークン化において、JMPで予め用意されているストップワードを用いるかどうかを指定します。

ビルトインの句を含める

JMPで予め用意されている句を単語リストに含めるかどうかを指定します。

ストップワードの管理

ストップワードの追加や削除を行うウィンドウを表示します。保存場所(スコープ)として、「ユーザ」、「列」、または「ローカル」があります。「ローカルの例外」では、いずれかの保存場所で指定されたストップワードをローカルでは除外することができます。[単語のオプション]から開く管理ウィンドウを参照してください。

再コード化の管理

再コード化する単語の追加や削除を行うウィンドウを表示します。保存場所(スコープ)として、「ユーザ」、「列」、または「ローカル」があります。「ローカルの例外」では、いずれかの保存場所で指定された再コード化をローカルでは除外することができます。[単語のオプション]から開く管理ウィンドウを参照してください。

句の管理

単語として扱う句の追加や削除を行うウィンドウを表示します。保存場所(スコープ)として、「ユーザ」、「列」、または「ローカル」があります。「ローカルの例外」では、いずれかの保存場所で指定された句をローカルでは除外することができます。[単語のオプション]から開く管理ウィンドウを参照してください。

語幹の例外の管理

(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定した場合にのみ使用可能)語幹抽出の例外とする単語の追加や削除を行うウィンドウを表示します。保存場所(スコープ)として、「ユーザ」、「列」、または「ローカル」があります。「ローカルの例外」では、いずれかの保存場所で指定された語幹抽出の例外をローカルでは除外することができます。[単語のオプション]から開く管理ウィンドウを参照してください。

構文解析のオプション

構文解析の方法やトークン化に関連するサブメニューが表示されます。

トークン化

(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定した場合にのみ使用可能)トークン化のオプションについては、「テキストエクスプローラ」プラットフォームの起動を参照してください。

Regexのカスタマイズ

(「トークン化」オプションで[Regex]を選択した場合にのみ使用可能)正規表現(regular expression)をカスタマイズするウィンドウを表示します。現在の「テキストエクスプローラ」レポートに適用する正規表現の設定を編集できます。

注: プラットフォームの起動ウィンドウでBy変数を指定したときは、「Regexのカスタマイズ」オプションの設定は、By変数の全水準に自動的に適用されます。

数字を単語として扱う

(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定し、「トークン化」オプションで[基本ワード]を選択した場合にのみ使用可能)数字を単語としてトークン化します。このオプションを指定すると、数字については「単語あたりの最小文字数」の設定は無視されます。

「ワードクラウド」のオプション

「ワードクラウド」レポートの赤い三角ボタンをクリックすると、以下のオプションが表示されます。

レイアウト

ワードクラウド中の単語の並べ方を指定します。デフォルトは[度数順]です。

度数順

単語の出現頻度順に、左から右へと表示します。

アルファベット順

単語のアルファベット順に、左から右へと表示します。

中心化

単語を雲状に表示します。表示されている単語の大きさは出現頻度を表しています。

色分け

ワードクラウド中の単語の色を指定します。デフォルトは[なし]です。

なし

「単語」リストと同じ色を付けます。

一様色

すべての単語に同じ色を付けます。この色は、凡例から変更できます。

グレー濃淡

単語にグレーの濃淡を付けます。

任意の色

単語にさまざまな色を付けます。この色は、凡例から変更できます。

列の値による色分け...

単語の色として、グラデーションがある色を用います。このグラデーションは、[列による単語のスコア]で計算されるスコアに基づいています。色と濃淡は、凡例から変更できます。

フォント

単語のフォント、スタイル、サイズを指定します。

凡例の表示

凡例の表示/非表示を切り替えます。

[単語のオプション]から開く管理ウィンドウ

句、ストップワード、再コード化、および語幹の例外に関する情報は、保存場所(スコープ)を指定することができます。これらの情報が保存される場所は、それぞれ異なり、「ユーザ」はテキストエクスプローラのユーザライブラリに、「プロジェクト」は現在のプロジェクトに、「列」は分析対象列の列プロパティに、「ローカル」はプラットフォームのスクリプトに、それぞれ保存されます。特定の「テキストエクスプローラ」レポートの定義や例外をローカルとして保存するには、そのレポートを作成するスクリプトにそれらの設定を保存してください。

[単語のオプション]から、ストップワード、再コード化、句、語幹の例外を管理するウィンドウを開くことができます。これら4つのウィンドウの構成はほぼ同じです。に、「ストップワードの管理」ウィンドウを示します。「句の管理」と「語幹の例外の管理」ウィンドウは、このウィンドウと同じです。「再コード化の管理」ウィンドウは、少し異なります。再コード化の管理を参照してください。

「ストップワードの管理」ウィンドウ 

Image shown here

ストップワードの管理

「ストップワードの管理」ウィンドウには、ストップワードのリストが保存場所(スコープ)ごとに表示されます。各リストの下には、テキストボックスと追加ボタンがあり、これらによって独自のストップワードを追加できます。また、ストップワードを別の保存場所にドラッグして移動したり、コピー&ペーストしたりできます。ウィンドウの最下部にある2つのボタンを使えば、選択した項目を左隣りまたは右隣りの保存場所に移すことができます。選択した項目を現在の保存場所から削除するには、[×]ボタンをクリックします。既存の項目を編集するには、その項目をダブルクリックして、テキストを変更します。

言語

JMPで予め準備されているストップワード(ビルトインのストップワード)と、どのユーザライブラリに保存するかについて、言語を指定します。なお、[項目の適用]を選択した場合は、変更内容がマスターのユーザライブラリに保存されます。言語の設定は、「ビルトイン」、「ユーザ」、「プロジェクト」のストップワードにのみ適用されます。

ビルトイン(ロック)

指定された言語について、予め準備されているストップワードが一覧表示されています。ここに表示されているストップワードをローカルでは除外したい場合は、「ローカルの例外」に移します。

ユーザ

指定された言語のユーザライブラリに含まれるストップワードが一覧表示されています。

プロジェクト

(プロジェクトからテキストエクスプローラを起動し、そのプロジェクトに「TextExplorer」という名前のフォルダが含まれる場合にのみ、表示されます)現在のプロジェクトに含まれる、指定された言語のストップワードが表示されます。

テキスト列の列プロパティ「ストップワード」に含まれるストップワードが一覧表示されています。

ローカル

ローカルのストップワードが一覧表示されています。テキストエクスプローラを起動するときに、JSLにおいてローカルの例外を指定することもできます。ローカルのストップワードは、現在の「テキストエクスプローラ」レポートでのみ適用されます。

ローカルの例外

現在の「テキストエクスプローラ」プラットフォームで、例外的に除外するストップワードが一覧表示されています。テキストエクスプローラを起動するときに、JSLにおいてローカルの例外を指定することもできます。「ローカルの除外」にリストされた単語は、他のいずれかの保存場所で指定されたストップワードを無効にします。

読み込み

ストップワードをテキストファイルから読み込みます。読み込まれたストップワードは、クリップボードにコピーされます。クリップボードから、「ビルトイン」以外のいずれかのリストボックスに貼り付けてください。

書き出し

ストップワードを、クリップボードやテキストファイルに書き出します。「書き出し」ウィンドウが表示されるので、書き出したいストップワードの保存場所を選択し、書き出し先を指定します。

ユーザライブラリファイルは、TextExplorerディレクトリに保存されます。このディレクトリの場所は、次のとおりです。

Windows: "C:¥Users¥<ユーザ名>¥AppData¥Roaming¥SAS¥JMP¥TextExplorer¥<言語>¥"

macOS: "/Users/<ユーザ名>/Library/Application Support/JMP/TextExplorer/<言語>/"

マスターユーザライブラリファイルは、TextExplorerディレクトリのすぐ下に保存されます。このファイルは、言語に関わらず共通です。

プロジェクトのファイルは、そのプロジェクトの「TextExplorer」フォルダに保存されます。

[OK]をクリックすると、「ユーザ」に加えた変更はユーザライブラリに、「プロジェクト」に加えた変更はプロジェクトに、「列」に加えた変更は列プロパティに、それぞれ保存されます。「ローカル」と「ローカルの例外」に指定した項目は、「テキストエクスプローラ」レポートにおいて保存されたスクリプトにだけ保存されます。

ストップワードをユーザライブラリに保存すると、「stopwords.txt」というファイルが作成されます。また、列プロパティに保存すると、「ストップワード」という列プロパティが作成されます。

再コード化の管理

「再コード化の管理」ウィンドウの構成は、「ストップワードの管理」ウィンドウと少し異なり、各リストの下に、2つのテキストボックスが表示されます。上のボックスに指定した古い値が、下のボックスに指定した新しい値に再コード化されます。

再コード化情報をユーザライブラリに保存すると、「recodes.txt」というファイルが作成されます。また、列プロパティに保存すると、「再コード化」という列プロパティが作成されます。

句の管理

句をユーザライブラリに保存すると、「phrases.txt」というファイルが作成されます。また、列プロパティに保存すると、「句」という列プロパティが作成されます。

語幹の例外の管理

語幹の例外をユーザライブラリに保存すると、「stemExceptions.txt」というファイルが作成されます。また、列プロパティに保存すると、「語幹の例外」という列プロパティが作成されます。

注: 「語幹の例外の管理」ウィンドウで「ローカルの例外」に指定された単語は、語幹の例外から除外され語幹抽出処理の対象となります。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).