テキスト分析では、独自の用語が使用されます。単語(term, token)はテキストを構成する最小単位で、文章におけるワード(word)のようなものです。単語を定義する方法は、正規表現の使用をはじめ、多数の方法があります。テキストを単語に分解することを、トークン化(tokenization)と呼びます。
•
|
句は少数の単語から構成されます。このプラットフォームには、句を単語として扱うオプションも用意されています。
|
•
|
文書は単語の集合です。JMPのデータテーブルでは、テキスト列に含まれる各行の非構造化テキストが、1つの文書に対応します。
|
•
|
コーパスは複数の文書の集合を指します。
|
通常は、いくつかの単語を除外して分析したほうがよいでしょう。これらの除外する単語は、「ストップワード」と呼ばれます。「テキストエクスプローラ」プラットフォームには、いくつかのストップワードが予め定義されていますが、分析者が自分でストップワードを追加することもできます。ストップワードは、単語としては除外されますが、句の中には含まれていても構いません。
語幹抽出とは、単語の語尾の変化を取り除き、語幹が共通する単語をまとめる処理のことを指します。たとえば、「jump」、「jumped」、「jumping」は、すべて「jump」として扱われます。JMPで行われる語幹抽出は、文字列処理言語のSnowballで使われている方法と似ています。句に対しては、単語単体に対する語幹抽出と同じように、句に含まれる各単語を語幹抽出します。
「テキストエクスプローラ」プラットフォームでは、テキスト分析にbag of words(単語の袋)というアプローチを採用し ています。このアプローチでは、句における構成を除き、語順は考慮されません。分析は、単語の出現頻度だけに基づいて行われます。
正規表現(Regex)、ストップワード、再コード化、語幹抽出などの整理(キュレーティング)を行って単語リストを作成したら、その整理した単語リストに対して統計分析を行ってください。このプラットフォームでは、文書単語行列(DTM; Document-Term Matrix)に対する統計分析を行えます。文書単語行列の各行は、1つの文書に対応しています(JMPデータテーブルにおけるテキスト列の1セルが、1文書に対応しています)。文書単語行列の各列は、整理した後の各単語に対応しています。文書単語行列に対する統計分析では、語順を無視する bag of words アプローチを採用しています。もっとも単純な場合では、文書単語行列は、単語の出現頻度となっています。それ以外の重みを用いる方法もいくつかあり、これについては第 “保存オプション”で説明します。
このプラットフォームの統計分析では、最初に文書単語行列に対して特異値分解(SVD; Singular Value Decomposition)を実行します。これにより、単語情報に関するデータの次元を減らすことができます。特異値分解については、『多変量分析』の付録「統計的詳細」を参照してください。また、階層型クラスター分析によって、単語や文書をクラスタリングできます。クラスター分析によって、似たような単語や文書をグループにまとめることができます。