「単語と句のリスト」レポートには、トークン化が行われた後の単語と句の一覧が表示されます。このレポートの例については、図を参照してください。「単語」リストの「度数」は、コーパス中のその単語の出現頻度です。「句」リストの「度数」は、コーパス中のその句の出現頻度です。「N」は、句を構成する単語数です。
デフォルトでは、「単語」リストは出現頻度の降順に並べられます。出現頻度が同じ単語は、アルファベット順に並べられます。「句」リストも出現頻度の降順に並べられます。出現頻度が同じ句は、「N」の降順に並べられます。出現頻度とNの両方が同じ句は、アルファベット順に並べられます。両リストとも、アルファベット順に並べ替えるオプションが用意されています。
「句」リストには、起動ウィンドウで設定した[句あたりの最大単語数]と[句の最大数]が反映されています。なお、データテーブルに1度しか登場しない句は、このリストに表示されません。
指定した句を1つの単語として扱うこともできます。単語として扱われる句は、それが指定された保存場所(スコープ)ごとに、「句」リストで色分けされます(表)。句を単語として登録するときの保存場所については、[単語のオプション]から開く管理ウィンドウを参照してください。
保存場所 |
色 |
---|---|
ビルトイン |
赤 |
ユーザライブラリ |
緑 |
プロジェクト |
青 |
列プロパティ |
オレンジ |
ローカル |
グレー |
「単語と句のリスト」の各表で、一番左の列を右クリックすると、オプションが表示されます。各表をデータテーブルとして保存するには、「度数」列を右クリックして、[データテーブルに出力]を選択します。
「単語」リストを右クリックすると、以下のポップアップメニューが表示されます。
行の選択
データテーブルで、選択された単語を含む行を選択します。
テキストの表示
選択された単語を含む文書を表示します。
注: デフォルトでは、最初の10,000個の文書が表示されます。文書数が10,000個を超える場合は、文書数を増やすためのウィンドウが表示されます。
アルファベット順
単語の順序を、アルファベット順に切り替えます。オフにすると、度数の降順に戻ります。
コピー
選択された単語をクリップボードにコピーします。
色
選択された単語に色を付けます。
ラベル
単語の特異値分解プロットで、選択された単語に対応する点にラベルを付けます。
この単語を含む句を選択
選択された単語を含む句を、「句」リストから選択します。
指示変数の保存
選択された単語ごとに指示変数の列を作成し、データテーブルに保存します。指示変数の値は、その単語を含む文書は1、含まない文書は0になります。
計算式の保存
選択された単語ごとに計算式列を作成し、データテーブルに保存します。計算式の値は、その単語を含む文書は1、含まない文書は0になります。新しい文書に対してこの計算式を使うと便利です。
再コード化
1つまたは複数の単語の値を変更します。単語を選択してから、このオプションを選択してください。このオプションを選択すると、「再コード化」ウィンドウが表示されます。『JMPの使用法』のデータの再コード化を参照してください。
ストップワードの追加
選択された単語をストップワードに追加し、単語リストから削除します。この操作を行うと、句のリストも更新されます。
語幹の例外の追加
(「言語」オプションを英語、ドイツ語、スペイン語、フランス語、イタリア語のいずれかに設定した場合にのみ使用可能)選択された単語を、語幹抽出の例外リストに追加します。
句の削除
(「単語」リストから句を選択したときのみ使用可能)選択した句を「単語」リストから削除します。また、単語の「度数」列も更新します。
フィルタの表示
「単語」リストの上の検索フィルタの表示/非表示を切り替えます。検索フィルタのオプションを参照してください。
データテーブルに出力
レポートの表から、JMPデータテーブルを作成します。
連結したデータテーブルの作成
レポート上の選択された表と同じ種類の表を連結していき、1つのJMPデータテーブルを作成します。
「句」リストを右クリックすると、以下のポップアップメニューが表示されます。
行の選択
データテーブルで、選択された句を含む行を選択します。
テキストの表示
選択された句を含む文書を表示します。
指示変数の保存
選択された句ごとに指示変数の列を作成し、データテーブルに保存します。指示変数の値は、その句を含む文書は1、含まない文書は0になります。
アルファベット順
句の順序を、アルファベット順に切り替えます。オフにすると、度数の降順に戻ります。
コピー
選択された句をクリップボードにコピーします。
この句を含むものを選択
選択された句を含む、それより長い句を、「句」リストから選択します。
この句に含まれたものを選択
選択された句に含まれる、それより短い句と単語を、「句」リストと「単語」リストから選択します。
句の追加
選択された句を「単語」リストに追加し、「度数」列とともに更新します。
ストップワードの追加
選択された句をストップワードに追加します。この操作を行うと、単語リストも更新されます。
フィルタの表示
「句」リストの上の検索フィルタの表示/非表示を切り替えます。検索フィルタのオプションを参照してください。
データテーブルに出力
レポートの表から、JMPデータテーブルを作成します。
連結したデータテーブルの作成
レポート上の選択された表と同じ種類の表を連結していき、1つのJMPデータテーブルを作成します。
検索ボックス横の下向き矢印ボタンをクリックして、検索を絞り込みます。
指定の単語を含む
指定した単語を一部に含む項目を返します。「ease oom」を検索すると、「Release Zoom」のような文字列を返します。
指定の句を含む
指定した文字列を完全に含む項目を返します。「text box」を検索すると、「text」のすぐ後に「box」(「Context Box」と「Text Box」など)を含む文字列を返します。
指定の句で始まる
指定した文字列で始まる項目を返します。
指定の句で終わる
指定した文字列で終わる項目を返します。
句全体が一致する
指定した文字列全体で構成されている項目を返します。「text box」を検索すると、「text box」となっている文字列だけを返します。
正規表現
検索ボックスでは、ワイルドカード(*)とピリオド(.)を使用できます。「get.*name」を検索すると、「get」の後に1つ以上の単語を含む文字列を検索します。「Get Color Theme Names」、「Get Name Info」、「Get Effect Names」などが返されます。
結果を逆にする
指定した検索条件に一致しない項目を返します。
すべての単語が一致する
指定したすべての単語を含む項目を返します。「t test」を検索すると、検索文字列のどちらか一方、または両方を含む、「Pat Test」、「Shortest Edit Script」、「Paired t test」などの文字列を返します。
大文字/小文字を無視
検索基準で大文字と小文字を区別しません。
語全体が一致する
「すべての単語が一致する」の設定に基づいて、指定した単語全体を含む項目を返します。「data filter」を検索する場合、「すべての単語が一致する」も選択されていると、「data」と「filter」の両方を含む文字列が返されます。