Statistical Thinking for Industrial Problem Solving

無料のオンライン統計コース

予測モデルとテキストマイニング

データと統計手法に基づいて、「現在の工程(プロセス)や環境において、次に何が起こるか?」を予測することを、「予測モデリング」と言います。

このモジュールでは、予測モデルを作成するのに使われているいくつかの方法を学習します。過剰学習(オーバーフィッティング)を回避する方法、最良なモデルを選択する方法、そして、予測モデルとしての線形重回帰やロジスティック重回帰などを学びます。さらに、罰則付き回帰モデル・ディシジョンツリー(決定木)・ニューラルネットワークについても学習します。最後に、アンケートの自由回答などのテキストデータから、情報や意味を抽出する方法を学びます。

このモジュールで扱う具体的なトピック:

予測モデルの基礎

  • 予測モデルの概要
  • 過学習とモデル検証
  • モデル性能の評価: 回帰モデル
  • モデル性能の評価: 分類モデル
  • 受診者動作特性(ROC)曲線

デシジョンツリー

  • ディシジョンツリーの概要
  • 分類木
  • 回帰木
  • 検証データを使用したディシジョンツリー
  • ブートストラップ森

ニューラルネットワーク

  • ニューラルネットワークとは?
  • ニューラルネットワークの解釈
  • ニューラルネットワークに基づく予測モデル

一般化回帰

  • 一般化回帰の概要
  • 最尤推定法
  • 罰則付き回帰の概要

モデルの比較と選択

  • 予測モデルの比較

テキストマイニングの概要

  • テキストマイニングの概要
  • テキストデータの処理
  • 単語リストの作成
  • テキストデータの視覚化と探索
  • テキストデータの統計分析