この例では、「潜在クラス分析」プラットフォームを使って、米国の高校生を対象に行われた、2005年の調査データを分析します。この調査では、リスク行動に関するさまざまな質問が問われました。
この例では、12個の質問に対する回答に基づいて生徒をクラスターに分けるために、潜在クラス分析をあてはめています。なお、元データは3つ以上の選択肢だったのですが、「Yes」/「No」の2水準データに変換しています。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Health Risk Survey.jmp」を開きます。
2. Health Risk Surveyデータテーブルで、「潜在クラス分析の起動」というスクリプトの横にある緑の三角ボタンをクリックします。
このスクリプトは、「潜在クラス分析」ウィンドウを開き、分析対象の12列を[Y]に指定します。
注: メニューから「潜在クラス分析」プラットフォームを起動するには、[分析]>[クラスター分析]>[潜在クラス分析]を選択します。
3. 「最大個数」の横のボックスに「5」と入力します。
この指定により、クラスター数が3~5個の潜在クラスモデルがあてはめられます。
4. [OK]をクリックします。
図15.2 「クラスター要約」レポート
「潜在クラス分析」アウトラインには、「クラスターの比較」レポートと3個の独立した「潜在クラスモデル」レポートが含まれます。「潜在クラスモデル」レポートには、クラスター数が3個、4個、および5個のモデルが表示されています。「クラスターの比較」レポートは、5個のクラスターのあるモデルのBICとAICが最小で、3つのうちで最適なモデルであることを示しています。このクラスター数が5個であるモデルを詳しく見ていきましょう。
5. 「潜在クラスモデル(クラスター数: 5個)」レポートで、パラメータ推定値の下の棒グラフを確認します。次のような検証が行われます。
– クラスター1は、ほぼすべてのリスク行動について「No」と回答している。
– クラスター2は、13歳未満で行ったリスク行動について「Yes」と回答した割合が多い。
– クラスター3は、「過去30日間で飲酒運転した」と「過去30日間で5杯以上アルコールを飲んだ」に「Yes」と回答した割合が多い。
– クラスター4は、13歳未満で行ったリスク行動以外のほとんどのリスク行動について「Yes」と回答した割合が多い。
– クラスター5は、ほとんどのリスク行動について「Yes」と回答した割合が最も多い。
これらの情報を使って、クラスターにわかりやすい名前をつけましょう。
6. 「潜在クラスモデル(クラスター数: 5個)」レポートの横の赤い三角ボタンをクリックし、[クラスター名の変更]を選択します。
– クラスター1に「低リスク」と入力します。
– クラスター2に「早期リスクテイカー」と入力します。
– クラスター3に「飲酒」と入力します。
– クラスター4に「後期高リスク」と入力します。
– クラスター5に「高リスク」と入力します。
7. [OK]をクリックします。
8. JMPの警告ウィンドウで[OK]をクリックします。
注: 新しいクラスター名はスクリプトに保存されません。
図15.3 「パラメータ推定値」レポートの一部
図15.3は、最初の8個の変数のパラメータ推定値を示しています。レポートには、新しいクラスター名が表示されています。
次に、生徒の「学年」ごとに、どのクラスターが多いかを比較してみましょう。
9. 「潜在クラス分析(クラスター数: 5個)」レポートの横の赤い三角ボタンをクリックし、[混合計算式とクラスター計算式を保存]を選択します。
10. [グラフ]>[グラフビルダー]を選択します。
11. 「学年」を[X]ゾーンに指定します。
12. 「最尤クラスター 計算式」を[Y]ゾーンに指定します。
13. 「モザイク」アイコンを選択します。
14. [終了]をクリックします。
図15.4 クラスターメンバーと「学年」の水準のモザイク図
ほとんどの回答者が「低リスク」のクラスターに含まれていることがわかります。また、「飲酒」という名前のクラスは、学年が上がるにつれて回答者が多くなっています。