データからグラフを作成する(視覚化する)ことは、あらゆるデータ分析において重要であり、統計的検定やモデル構築の前に必ず行う必要があります。データ分析のはじめにデータを視覚化する必要がある理由を、次の例によって明らかにしましょう。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Anscombe.jmp」(F. J.Anscombe (1973), American Statistician, 27, 17-21)を開きます。
4組のX変数とY変数のデータが記録されています。
2. テーブルパネルの「カルテット」スクリプトの横にある緑の三角ボタンをクリックします。
「二変量の関係」によって、変数の各組に対して単回帰直線が描かれます。[点の表示]オプションはオフになっているため、散布図にデータは表示されていません。Figure 5.2には、回帰直線ごとに、モデルのあてはめ結果とその他の要約情報が示されています。
図5.2 4つのモデル
4つの全モデルにおいて、パラメータ推定値およびR2乗値がほぼ一致している点に注目してください。各組であてはめたモデルは、いずれも、ほぼY = 3 + 0.5Xであり、R2乗値はどれも約0.66となっています。データを分析する時に上記のような要約情報だけしか調べなかったら、おそらく、XとYの関係はどの組でも同じという結論にたどりつくでしょう。しかし、この時点では、まだデータを視覚化していません。その結論は誤っているかもしれません。
1. Ctrlキーを押したままにします。
2. いずれかの「二変量の関係」の赤い三角ボタンをクリックし、メニューから[点の表示]を選択します。
図5.3 点を表示した散布図
4本の直線だけを見ると、XとYの関係はすべての組で同じように見えます。しかし、データ点を見ると関係は各組で異なっていることがわかります。
• 第1組は、直線関係を表しています。
• 第2組は、非線形関係を表しています。
• 第3組は、直線関係を表していますが、外れ値が1 つあります。
• 第4組は、1つの点を除く全データが、x = 8の位置に集中しています。
この例から、要約統計量だけから下した結論は不適切になる可能性があることが分かります。データを視覚化して検討する作業は、どのようなデータ分析においても、初期の段階で行う必要があります。