「テキストエクスプローラ」プラットフォームの別例

この例では、国家運輸安全委員会による、2001年に米国で発生した航空機のインシデントレポートを使用します。まず、事故原因の調査結果に関する記述を分析します。次に、トピックごとに分類してみて、各トピックの内容を探ります。

1. ［ヘルプ］>［サンプルデータライブラリ］を選択し、「Aircraft Incidents.jmp」を開きます。

2. ［行］>［列の値による色/マーカー分け］を選択します。

3. 列のリストで「死亡者」を選択し、［OK］をクリックします。

致命的な事故の行が、赤で示されます。

4. ［分析］>［テキストエクスプローラ］を選択します。

5. 「列の選択」リストで「事故原因」を選択し、［テキスト列］をクリックします。

6. 「言語」から［英語］を選択します。

7. 「言語」として［英語］を選択した後、「語幹抽出」リストから［すべての単語］を選択します。

8. 「トークン化」リストから［基本ワード］を選択します。

9. ［OK］をクリックします。

図12.14 「事故原因」のテキストエクスプローラ

Text Explorer Report for Narrative Cause

レポートによると、約51,000個のトークンと、約1,900個の異なる単語が含まれていることがわかります。

10. 「単語」リストの「pilot」を右クリックし、［行の選択］を選択します。

データテーブルで選択されている行数を見ると、インシデントレポートに「pilot」を含む単語が1,300回以上出現していることがわかります。

11. 「pilot」を右クリックして、［ストップワードの追加］を選択します。

「pilot」を含む単語は、他の単語より頻繁に出現しているため、文書間の違いを読み取るためには役立ちません。「pilot」を語幹とするすべての単語が、ストップワードに追加されます。

Image shown here この後の手順は、JMP Proでのみ実行できます。

12. Image shown here 「「事故原因」のテキストエクスプローラ」の赤い三角ボタンをクリックし、［潜在意味分析, 特異値分解］を選択します。

これは、特異値分解の結果を回転するトピック分析を行う前の、最初のステップです。

13. Image shown here 「設定」ウィンドウで、「単語の最小度数」に「50」と入力します。

約51,000個の全トークン中、少なくとも0.1%の割合を占める単語を抽出します。

14. Image shown here ［OK］をクリックします。

図12.15 事故原因の特異値分解プロット

SVD Plots for Narrative Cause

文書の特異値分解プロットでは、「fatal」と「non-fatal」の違いはあまり見られません。

15. Image shown here 「特異値分解（中心化・尺度化, TF IDF）」の赤い三角ボタンをクリックし、［トピック分析, 特異値分解を回転］を選択します。

単語のグループから形成されるトピックを表示します。

16. Image shown here 「トピックの個数」に「5」と入力します。

17. Image shown here ［OK］をクリックします。

図12.16 「事故原因」のトピック別上位負荷量

Top Loadings by Topics for Narrative Cause

各トピック中の負荷量が高い単語は、インシデントレポートの主題を見極める手がかりとなります。

たとえばトピック1では、「power」、「loss」、「engine」という単語が高い負荷量を記録しており、エンジンの出力低下に起因する事故を示唆しています。これは、「loss of engine power」という句が、インシデントレポート全体に273回出現しているのに対応しています。

トピック2では、「low」、「dark」といった単語が高い負荷量を記録しており、暗さや低空と関連する事故を示唆しています。

この後にも、様々な分析が考えられます。テキスト分析は、反復的なプロセスです。トピック情報を参考に、ストップワードを追加したり、特定の句を単語に指定したりするなどして、単語リストを整理してもよいでしょう。また、文書単語行列・主成分スコア（左特異ベクトル）・回転した主成分スコアをデータテーブルに保存して、JMPの他のプラットフォームで分析を進めてもよいでしょう。そのとき、テキスト分析で得られた情報と、データにある他の情報との関係を調べてみてもよいでしょう。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).