「パーティション」プラットフォームは、説明変数と目的変数の関係に従ってデータを再帰的に分割し、ディシジョンツリー(決定木)を作成します。パーティションにはいろいろな種類があり、ディシジョンツリー(決定木)、CARTTM、CHAIDTM、C4.5、C5などの名前で呼ばれています。パーティションはよく、以下のような理由からデータマイニング手法とみなされています。
• 事前にモデルを用意しなくても変数の関係が検討できる
• 膨大なデータを容易に処理することができる
• 結果が解釈しやすい
パーティションのよく知られた利用としては、病気を診断するルールをデータから作成することです。多数の患者に対する症状と診断結果をデータとして与えられれば、パーティションを使って新しい患者の診断に役立つ階層的な質問を生成できます。
説明変数にも、連続尺度とカテゴリカルの両方を使用できます。説明変数が連続尺度の場合は、分岐値に基づいて分岐が行われ、分岐値を境として上と下に標本が分かれます。説明変数がカテゴリカルの場合は、標本が2つのグループに分けられます。
また、応答変数は、連続尺度とカテゴリカル(名義/順序尺度)のどちらでもかまいません。応答変数が連続尺度の場合は、応答値の平均があてはめられ、誤差平方和を最小にするように分岐していきます。応答変数がカテゴリカルな場合は、あてはめた値が応答変数の水準の確率になり、残差対数尤度カイ2乗を最小にするように分岐していきます。
分岐基準の詳細は、「パーティション」プラットフォームの統計的詳細を参照してください。
対話的パーティショニングの詳細については、Hawkins and Kass(1982)およびKass(1980)を参照してください。