「テキストエクスプローラ」レポートの「単語と句のリスト」レポートには、トークン化が行われた後の単語と句の一覧が表示されます。このレポートの例については、Figure 12.8を参照してください。「単語」リストの「度数」は、コーパス中のその単語の出現頻度です。「句」リストの「度数」は、コーパス中のその句の出現頻度です。「N」は、句を構成する単語数です。
デフォルトでは、「単語」リストは出現頻度の降順に並べられます。出現頻度が同じ単語は、アルファベット順に並べられます。「句」リストも出現頻度の降順に並べられます。出現頻度が同じ句は、「N」の降順に並べられます。出現頻度とNの両方が同じ句は、アルファベット順に並べられます。両リストとも、アルファベット順に並べ替えるオプションが用意されています。
「句」リストには、起動ウィンドウで設定した[句あたりの最大単語数]と[句の最大数]が反映されています。なお、データテーブルに1度しか登場しない句は、このリストに表示されません。
指定した句を1つの単語として扱うこともできます。単語として扱われる句は、それが指定された保存場所(スコープ)ごとに、「句」リストで色分けされます(Table 12.1)。句を単語として登録するときの保存場所については、[単語のオプション]から開く管理ウィンドウを参照してください。
保存場所 |
色 |
---|---|
ビルトイン |
赤 |
ユーザライブラリ |
緑 |
プロジェクト |
青 |
列プロパティ |
オレンジ |
ローカル |
グレー |
「単語と句のリスト」の各表で、一番左の列を右クリックすると、オプションが表示されます。各表をデータテーブルとして保存するには、「度数」列を右クリックして、[データテーブルに出力]を選択します。
「単語」リストを右クリックすると、以下のポップアップメニューが表示されます。
行の選択
データテーブルで、選択された単語を含む行を選択します。
テキストの表示
選択された単語を含む文書を表示します。
メモ: デフォルトでは、最初の10,000個の文書が表示されます。文書数が10,000個を超える場合は、文書数を増やすためのウィンドウが表示されます。
アルファベット順
単語リストの並び順を指定します。このオプションが選択されている場合、単語はアルファベット順に並べられます。このオプションが選択されていない場合、単語は度数の降順で並べられます。
数値の順序
([アルファベット順]を選択した場合にのみ使用可能)単語リストの並び順を指定します。このオプションが選択されている場合、並び替え対象項目がテキスト部分と数値部分に分割されてから、数値部分の数字の順番で並べられます。[数値の順序]オプションの並び替え規則については、『JMPの使用法』の数値の順序を参照してください。
コピー
選択された単語をクリップボードにコピーします。
色
選択された単語に色を付けます。
ラベル
単語の特異値分解プロットで、選択された単語に対応する点にラベルを付けます。
この単語を含む句を選択
選択された単語を含む句を、「句」リストから選択します。
指示変数の保存
選択された単語ごとに指示変数の列を作成し、データテーブルに保存します。指示変数の値は、その単語を含む文書は1、含まない文書は0になります。
計算式の保存
選択された単語ごとに計算式列を作成し、データテーブルに保存します。計算式の値は、その単語を含む文書は1、含まない文書は0になります。新しい文書に対してこの計算式を使うと便利です。
再コード化...
1つまたは複数の単語の値を変更します。単語を選択してから、このオプションを選択してください。このオプションを選択すると、「再コード化」ウィンドウが表示されます。『JMPの使用法』の列内のデータの再コード化を参照してください。
ストップワードの追加
選択された単語をストップワードに追加し、単語リストから削除します。この操作を行うと、句のリストも更新されます。
メモ: 語幹をストップワードとして追加すると、その語幹に対応するトークンすべてがストップワードとして追加されます。
語幹の例外の追加
(英語・ドイツ語・スペイン語・フランス語・イタリア語のいずれかに「言語」オプションを設定した場合にのみ使用可能)選択された単語を、語幹抽出の例外リストに追加します。
句の削除
(語幹抽出の方法を[しない]に設定し、「単語」リストから句を選択したときのみ使用できます。)選択した句を「単語」リストから削除します。また、単語の「度数」列も更新します。
メモ: 句が感情句として追加されている場合、現在の「感情分析」レポートの感情語のリストからもその句が削除されます。
感情の追加
(現在のレポートウィンドウで「感情分析」レポートが開かれている場合にのみ使用可能)選択した単語を、現在の「感情分析」レポートの感情語のリストに追加します。
メモ: 語幹を感情語として追加すると、その語幹に対応するトークンすべてが感情語として追加されます。
フィルタの表示
「単語」リストの上の検索フィルタの表示/非表示を切り替えます。検索フィルタのオプションを参照してください。
データテーブルに出力
レポートの表から、JMPデータテーブルを作成します。
連結したデータテーブルの作成
現在の表と同じ種類である複数の表を連結して、1つのJMPデータテーブルを作成します。
「句」リストを右クリックすると、以下のポップアップメニューが表示されます。
行の選択
データテーブルで、選択された句を含む行を選択します。
テキストの表示
選択された句を含む文書を表示します。
指示変数の保存
選択された句ごとに指示変数の列を作成し、データテーブルに保存します。指示変数の値は、その句を含む文書は1、含まない文書は0になります。
アルファベット順
句リストの並び順を指定します。このオプションが選択されている場合、句はアルファベット順に並べられます。このオプションが選択されていない場合、句は度数の降順で並べられます。
数値の順序
([アルファベット順]を選択した場合にのみ使用可能)句リストの並び順を指定します。このオプションが選択されている場合、並び替え対象項目がテキスト部分と数値部分に分割されてから、数値部分の数字の順番で並べられます。[数値の順序]オプションの並び替え規則については、『JMPの使用法』の数値の順序を参照してください。
コピー
選択された句をクリップボードにコピーします。
この句を含むものを選択
選択された句を含む、それより長い句を、「句」リストから選択します。
この句に含まれたものを選択
選択された句に含まれる、それより短い句と単語を、「句」リストと「単語」リストから選択します。
句の追加
選択された句を「単語」リストに追加し、「度数」列とともに更新します。
ストップワードの追加
選択された句をストップワードに追加します。この操作を行うと、単語リストも更新されます。
感情句の追加
(現在のレポートウィンドウで「感情分析」レポートが開かれている場合にのみ使用可能)選択された句を、「単語」リストと、現在の「感情分析」レポートの感情語リストに追加します。
フィルタの表示
「句」リストの上の検索フィルタの表示/非表示を切り替えます。検索フィルタのオプションを参照してください。
データテーブルに出力
レポートの表から、JMPデータテーブルを作成します。
連結したデータテーブルの作成
現在の表と同じ種類である複数の表を連結して、1つのJMPデータテーブルを作成します。
検索ボックス横の下向き矢印ボタンをクリックして、検索を絞り込みます。
指定の単語を含む
指定した単語を一部に含む項目を返します。「ease oom」を検索すると、「Release Zoom」のような文字列を返します。
指定の句を含む
指定した文字列を完全に含む項目を返します。「text box」を検索すると、「text」のすぐ後に「box」(「Context Box」と「Text Box」など)を含む文字列を返します。
指定の句で始まる
指定した文字列で始まる項目を返します。
指定の句で終わる
指定した文字列で終わる項目を返します。
句全体が一致する
指定した文字列全体で構成されている項目を返します。「text box」を検索すると、「text box」となっている文字列だけを返します。
正規表現
検索ボックスでは、ワイルドカード(*)とピリオド(.)を使用できます。「get.*name」を検索すると、「get」の後に1つ以上の単語を含む文字列を検索します。「Get Color Theme Names」、「Get Name Info」、「Get Effect Names」などが返されます。
結果を逆にする
指定した検索条件に一致しない項目を返します。
すべての単語が一致する
指定したすべての単語を含む項目を返します。「t test」を検索すると、検索文字列のどちらか一方、または両方を含む、「Pat Test」、「Shortest Edit Script」、「Paired t test」などの文字列を返します。
大文字/小文字を無視
検索基準で大文字と小文字を区別しません。
語全体が一致する
「すべての単語が一致する」の設定に基づいて、指定した単語全体を含む項目を返します。「data filter」を検索する場合、「すべての単語が一致する」も選択されていると、「data」と「filter」の両方を含む文字列が返されます。