公開日: 04/01/2021

単語と句のリスト

「単語と句のリスト」レポートには、トークン化が行われた後の単語と句の一覧が表示されます。このレポートの例については、を参照してください。「単語」リストの「度数」は、コーパス中のその単語の出現頻度です。「句」リストの「度数」は、コーパス中のその句の出現頻度です。「N」は、句を構成する単語数です。

デフォルトでは、「単語」リストは出現頻度の降順に並べられます。出現頻度が同じ単語は、アルファベット順に並べられます。「句」リストも出現頻度の降順に並べられます。出現頻度が同じ句は、「N」の降順に並べられます。出現頻度とNの両方が同じ句は、アルファベット順に並べられます。両リストとも、アルファベット順に並べ替えるオプションが用意されています。

「句」リストには、起動ウィンドウで設定した[句あたりの最大単語数][句の最大数]が反映されています。なお、データテーブルに1度しか登場しない句は、このリストに表示されません。

指定した句を1つの単語として扱うこともできます。単語として扱われる句は、それが指定された保存場所(スコープ)ごとに、「句」リストで色分けされます()。句を単語として登録するときの保存場所については、[単語のオプション]から開く管理ウィンドウを参照してください。

単語に指定された句の色

保存場所

ビルトイン

ユーザライブラリ

プロジェクト

列プロパティ

オレンジ

ローカル

グレー

単語と句のオプションメニュー

「単語と句のリスト」の各表で、一番左の列を右クリックすると、オプションが表示されます。各表をデータテーブルとして保存するには、「度数」列を右クリックして、[データテーブルに出力]を選択します。

「単語」リストのポップアップメニュー

「単語」リストを右クリックすると、以下のポップアップメニューが表示されます。

行の選択

データテーブルで、選択された単語を含む行を選択します。

テキストの表示

選択された単語を含む文書を表示します。

注: デフォルトでは、最初の10,000個の文書が表示されます。文書数が10,000個を超える場合は、文書数を増やすためのウィンドウが表示されます。

アルファベット順

単語の順序を、アルファベット順に切り替えます。オフにすると、度数の降順に戻ります。

コピー

選択された単語をクリップボードにコピーします。

選択された単語に色を付けます。

ラベル

単語の特異値分解プロットで、選択された単語に対応する点にラベルを付けます。

この単語を含む句を選択

選択された単語を含む句を、「句」リストから選択します。

指示変数の保存

選択された単語ごとに指示変数の列を作成し、データテーブルに保存します。指示変数の値は、その単語を含む文書は1、含まない文書は0になります。

計算式の保存

選択された単語ごとに計算式列を作成し、データテーブルに保存します。計算式の値は、その単語を含む文書は1、含まない文書は0になります。新しい文書に対してこの計算式を使うと便利です。

再コード化

1つまたは複数の単語の値を変更します。単語を選択してから、このオプションを選択してください。このオプションを選択すると、「再コード化」ウィンドウが表示されます。『JMPの使用法』のデータの再コード化を参照してください。

ストップワードの追加

選択された単語をストップワードに追加し、単語リストから削除します。この操作を行うと、句のリストも更新されます。

語幹の例外の追加

(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定した場合にのみ使用可能)選択された単語を、語幹抽出の例外リストに追加します。

句の削除

(「単語」リストから句を選択したときのみ使用可能)選択した句を「単語」リストから削除します。また、単語の「度数」列も更新します。

フィルタの表示

「単語」リストの上の検索フィルタの表示/非表示を切り替えます。検索フィルタのオプションを参照してください。

データテーブルに出力

レポートの表から、JMPデータテーブルを作成します。

連結したデータテーブルの作成

レポート上の選択された表と同じ種類の表を連結していき、1つのJMPデータテーブルを作成します。

「句」リストのポップアップメニュー

「句」リストを右クリックすると、以下のポップアップメニューが表示されます。

行の選択

データテーブルで、選択された句を含む行を選択します。

テキストの表示

選択された句を含む文書を表示します。

指示変数の保存

選択された句ごとに指示変数の列を作成し、データテーブルに保存します。指示変数の値は、その句を含む文書は1、含まない文書は0になります。

アルファベット順

句の順序を、アルファベット順に切り替えます。オフにすると、度数の降順に戻ります。

コピー

選択された句をクリップボードにコピーします。

この句を含むものを選択

選択された句を含む、それより長い句を、「句」リストから選択します。

この句に含まれたものを選択

選択された句に含まれる、それより短い句と単語を、「句」リストと「単語」リストから選択します。

句の追加

選択された句を「単語」リストに追加し、「度数」列とともに更新します。

ストップワードの追加

選択された句をストップワードに追加します。この操作を行うと、単語リストも更新されます。

フィルタの表示

「句」リストの上の検索フィルタの表示/非表示を切り替えます。検索フィルタのオプションを参照してください。

データテーブルに出力

レポートの表から、JMPデータテーブルを作成します。

連結したデータテーブルの作成

レポート上の選択された表と同じ種類の表を連結していき、1つのJMPデータテーブルを作成します。

検索フィルタのオプション

検索ボックス横の下向き矢印ボタンをクリックして、検索を絞り込みます。

指定の単語を含む

指定した単語を一部に含む項目を返します。「ease oom」を検索すると、「Release Zoom」のような文字列を返します。

指定の句を含む

指定した文字列を完全に含む項目を返します。「text box」を検索すると、「text」のすぐ後に「box」(「Context Box」と「Text Box」など)を含む文字列を返します。

指定の句で始まる

指定した文字列で始まる項目を返します。

指定の句で終わる

指定した文字列で終わる項目を返します。

句全体が一致する

指定した文字列全体で構成されている項目を返します。「text box」を検索すると、「text box」となっている文字列だけを返します。

正規表現

検索ボックスでは、ワイルドカード(*)とピリオド(.)を使用できます。「get.*name」を検索すると、「get」の後に1つ以上の単語を含む文字列を検索します。「Get Color Theme Names」、「Get Name Info」、「Get Effect Names」などが返されます。

結果を逆にする

指定した検索条件に一致しない項目を返します。

すべての単語が一致する

指定したすべての単語を含む項目を返します。「t test」を検索すると、検索文字列のどちらか一方、または両方を含む、「Pat Test」、「Shortest Edit Script」、「Paired t test」などの文字列を返します。

大文字/小文字を無視

検索基準で大文字と小文字を区別しません。

語全体が一致する

「すべての単語が一致する」の設定に基づいて、指定した単語全体を含む項目を返します。「data filter」を検索する場合、「すべての単語が一致する」も選択されていると、「data」と「filter」の両方を含む文字列が返されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).