テキスト処理は、トークン化、句の抽出、単語の抽出という3つの段階に分けられます。
この段階では次の処理が実行されます。
1. テキストを小文字に変換します。
2. [基本ワード]によるトークン化、または正規表現([Regex])に基づくトークン化を実行し、文字をトークンに分けます。
3. 指定された再コード化の定義に従って、トークンを再コード化します。再コード化は、語幹抽出の前に行われることに注意してください。
この段階では、コーパス(文書の集合)に出現する句を抽出します。抽出された句を1つの単語として単語リストに追加することもできます。句の先頭または末尾にストップワードがくることはありませんが、句の途中に含めることはできます。
この段階では、前の段階で抽出されたトークンと句の情報に基づいて、単語リストを作成します。
各トークンについて、次の処理を行います。
1. 起動ウィンドウで指定された、単語あたりの最小文字数および最大文字数の条件を満たしているかどうかをチェックします。数字のみのトークンは、この処理から除外されます。
2. トークンを単語として見なせるかどうかをチェックします。トークン化の方法として[基本ワード]を選択した場合は、少なくとも1文字のアルファベットまたはユニコード文字が含まれていることが条件となります。数字のみのトークンは、この処理から除外されます。[Regex]を選択した場合は、正規表現(regular expression)を使用して、トークンを構成する文字を識別します。
3. トークンがストップワードでないかどうかをチェックします。
4. 語幹抽出およびその例外を適用します。
ある句を1つの単語として単語リストに追加すると、次の処理が行われます。
1. 句を単語リストに追加します。このとき、句に含まれる各単語に対して、単語に対して行われた語幹抽出と同じ語幹抽出を行います。その語幹抽出で同じになった句がある場合は、単語リストにて1つにまとめられます。
2. 追加された句に含まれる単語に関して、その単語単体での出現頻度を、該当の句に含まれている分だけ減らします。