単語と句のリスト

基本的な統計分析 > テキストエクスプローラ > 「テキストエクスプローラ」レポート > 単語と句のリスト

公開日: 09/19/2023

単語と句のリスト

「テキストエクスプローラ」レポートの「単語と句のリスト」レポートには、トークン化が行われた後の単語と句の一覧が表示されます。このレポートの例については、Figure 12.8を参照してください。「単語」リストの「度数」は、コーパス中のその単語の出現頻度です。「句」リストの「度数」は、コーパス中のその句の出現頻度です。「N」は、句を構成する単語数です。

デフォルトでは、「単語」リストは出現頻度の降順に並べられます。出現頻度が同じ単語は、アルファベット順に並べられます。「句」リストも出現頻度の降順に並べられます。出現頻度が同じ句は、「N」の降順に並べられます。出現頻度とNの両方が同じ句は、アルファベット順に並べられます。両リストとも、アルファベット順に並べ替えるオプションが用意されています。

「句」リストには、起動ウィンドウで設定した［句あたりの最大単語数］と［句の最大数］が反映されています。なお、データテーブルに1度しか登場しない句は、このリストに表示されません。

指定した句を1つの単語として扱うこともできます。単語として扱われる句は、それが指定された保存場所（スコープ）ごとに、「句」リストで色分けされます（Table 12.1）。句を単語として登録するときの保存場所については、［単語のオプション］から開く管理ウィンドウを参照してください。

表12.1 単語に指定された句の色
保存場所	色
ビルトイン	赤
ユーザライブラリ	緑
プロジェクト	青
列プロパティ	オレンジ
ローカル	グレー

単語と句のオプションメニュー

「単語と句のリスト」の各表で、一番左の列を右クリックすると、オプションが表示されます。各表をデータテーブルとして保存するには、「度数」列を右クリックして、［データテーブルに出力］を選択します。

「単語」リストのポップアップメニュー

「単語」リストを右クリックすると、以下のポップアップメニューが表示されます。

行の選択

データテーブルで、選択された単語を含む行を選択します。

テキストの表示

選択された単語を含む文書を表示します。

メモ: デフォルトでは、最初の10,000個の文書が表示されます。文書数が10,000個を超える場合は、文書数を増やすためのウィンドウが表示されます。

アルファベット順

単語リストの並び順を指定します。このオプションが選択されている場合、単語はアルファベット順に並べられます。このオプションが選択されていない場合、単語は度数の降順で並べられます。

数値の順序

（［アルファベット順］を選択した場合にのみ使用可能）単語リストの並び順を指定します。このオプションが選択されている場合、並び替え対象項目がテキスト部分と数値部分に分割されてから、数値部分の数字の順番で並べられます。［数値の順序］オプションの並び替え規則については、『JMPの使用法』の数値の順序を参照してください。

コピー

選択された単語をクリップボードにコピーします。

色

選択された単語に色を付けます。

ラベル

単語の特異値分解プロットで、選択された単語に対応する点にラベルを付けます。

この単語を含む句を選択

選択された単語を含む句を、「句」リストから選択します。

指示変数の保存

選択された単語ごとに指示変数の列を作成し、データテーブルに保存します。指示変数の値は、その単語を含む文書は1、含まない文書は0になります。

計算式の保存

選択された単語ごとに計算式列を作成し、データテーブルに保存します。計算式の値は、その単語を含む文書は1、含まない文書は0になります。新しい文書に対してこの計算式を使うと便利です。

再コード化...

1つまたは複数の単語の値を変更します。単語を選択してから、このオプションを選択してください。このオプションを選択すると、「再コード化」ウィンドウが表示されます。『JMPの使用法』の列内のデータの再コード化を参照してください。

ストップワードの追加

選択された単語をストップワードに追加し、単語リストから削除します。この操作を行うと、句のリストも更新されます。

メモ: 語幹をストップワードとして追加すると、その語幹に対応するトークンすべてがストップワードとして追加されます。

語幹の例外の追加

（英語・ドイツ語・スペイン語・フランス語・イタリア語のいずれかに「言語」オプションを設定した場合にのみ使用可能）選択された単語を、語幹抽出の例外リストに追加します。

句の削除

（語幹抽出の方法を［しない］に設定し、「単語」リストから句を選択したときのみ使用できます。）選択した句を「単語」リストから削除します。また、単語の「度数」列も更新します。

メモ: 句が感情句として追加されている場合、現在の「感情分析」レポートの感情語のリストからもその句が削除されます。

ここに画像を表示感情の追加

（現在のレポートウィンドウで「感情分析」レポートが開かれている場合にのみ使用可能）選択した単語を、現在の「感情分析」レポートの感情語のリストに追加します。

メモ: 語幹を感情語として追加すると、その語幹に対応するトークンすべてが感情語として追加されます。

フィルタの表示

「単語」リストの上の検索フィルタの表示／非表示を切り替えます。検索フィルタのオプションを参照してください。

データテーブルに出力

レポートの表から、JMPデータテーブルを作成します。

連結したデータテーブルの作成

現在の表と同じ種類である複数の表を連結して、1つのJMPデータテーブルを作成します。

「句」リストのポップアップメニュー

「句」リストを右クリックすると、以下のポップアップメニューが表示されます。

行の選択

データテーブルで、選択された句を含む行を選択します。

テキストの表示

選択された句を含む文書を表示します。

指示変数の保存

選択された句ごとに指示変数の列を作成し、データテーブルに保存します。指示変数の値は、その句を含む文書は1、含まない文書は0になります。

アルファベット順

句リストの並び順を指定します。このオプションが選択されている場合、句はアルファベット順に並べられます。このオプションが選択されていない場合、句は度数の降順で並べられます。

数値の順序

（［アルファベット順］を選択した場合にのみ使用可能）句リストの並び順を指定します。このオプションが選択されている場合、並び替え対象項目がテキスト部分と数値部分に分割されてから、数値部分の数字の順番で並べられます。［数値の順序］オプションの並び替え規則については、『JMPの使用法』の数値の順序を参照してください。

コピー

選択された句をクリップボードにコピーします。

この句を含むものを選択

選択された句を含む、それより長い句を、「句」リストから選択します。

この句に含まれたものを選択

選択された句に含まれる、それより短い句と単語を、「句」リストと「単語」リストから選択します。

句の追加

選択された句を「単語」リストに追加し、「度数」列とともに更新します。

ストップワードの追加

選択された句をストップワードに追加します。この操作を行うと、単語リストも更新されます。

ここに画像を表示感情句の追加

（現在のレポートウィンドウで「感情分析」レポートが開かれている場合にのみ使用可能）選択された句を、「単語」リストと、現在の「感情分析」レポートの感情語リストに追加します。

フィルタの表示

「句」リストの上の検索フィルタの表示／非表示を切り替えます。検索フィルタのオプションを参照してください。

データテーブルに出力

レポートの表から、JMPデータテーブルを作成します。

連結したデータテーブルの作成

現在の表と同じ種類である複数の表を連結して、1つのJMPデータテーブルを作成します。

検索フィルタのオプション

検索ボックス横の下向き矢印ボタンをクリックして、検索を絞り込みます。

指定の単語を含む

指定した単語を一部に含む項目を返します。「ease oom」を検索すると、「Release Zoom」のような文字列を返します。

指定の句を含む

指定した文字列を完全に含む項目を返します。「text box」を検索すると、「text」のすぐ後に「box」（「Context Box」と「Text Box」など）を含む文字列を返します。

指定の句で始まる

指定した文字列で始まる項目を返します。

指定の句で終わる

指定した文字列で終わる項目を返します。

句全体が一致する

指定した文字列全体で構成されている項目を返します。「text box」を検索すると、「text box」となっている文字列だけを返します。

正規表現

検索ボックスでは、ワイルドカード（*）とピリオド（.）を使用できます。「get.*name」を検索すると、「get」の後に1つ以上の単語を含む文字列を検索します。「Get Color Theme Names」、「Get Name Info」、「Get Effect Names」などが返されます。

結果を逆にする

指定した検索条件に一致しない項目を返します。

すべての単語が一致する

指定したすべての単語を含む項目を返します。「t test」を検索すると、検索文字列のどちらか一方、または両方を含む、「Pat Test」、「Shortest Edit Script」、「Paired t test」などの文字列を返します。

大文字/小文字を無視

検索基準で大文字と小文字を区別しません。

語全体が一致する

「すべての単語が一致する」の設定に基づいて、指定した単語全体を含む項目を返します。「data filter」を検索する場合、「すべての単語が一致する」も選択されていると、「data」と「filter」の両方を含む文字列が返されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).