信頼できる統計量を得るためには、使用する統計手法の真価と限界を正しく把握していることが大切です。統計手法はただのツールにすぎません。知識が不十分なために統計的仮定を満たしていないモデルを選択したり、データに問題があったりすると、どの手法を使っても正しい結果を得られません。
ほとんどの統計量は、正しいモデルが選択されているという仮定に基づいています。モデルから得た統計量を検討するときは、不適切なモデルを選んでいるかもしれないことを常に考慮する必要があります。
統計的検定の多くは、絶対的な意味でモデルを評価するわけではありません。有意度の検定統計量が表すのは、そのモデルが他の縮小モデル(平均など)よりはよくあてはまっている、ということに過ぎません。統計量を見るとそのモデルがデータによくあてはまっているようでも、それが実際のモデルについてすべてを説明しているわけではありません。
多くの場合、統計分析はその結果を信じ込むことではなく、何らかの発見への糸口をもたらすことに価値があるでしょう。発見を確証的なものへと高めるには、さらなる実験や試験が必要かもしれません。そうでなければ、自分に都合よく、データを解釈しているだけなのかもしれません。
たとえば、たくさんの実験や試験を行えば、そのうちの約5%は、たとえ効果がなくても統計的に有意となります。また、(正しいモデルをデータにあてはめて統計的検定するのではなく)試行錯誤しながらモデル選択を行った場合、統計的な有意水準は正しいものではなくなります。データにおける誤差がモデル選択に影響を与え、選択したモデルを過大評価してしまうかもしれません。
モデルの妥当性を評価するためのいろいろな手法やパターンのうち、一部をここで紹介します。
• あてはまりの悪さ(LOF; Lack of Fit)検定は、モデルの妥当性を因子の飽和モデルと比較して調べるものです。「モデルのあてはめ」プラットフォームでは、非飽和モデルに反復されたxの値があるときに、自動的にあてはまりの悪さ(LOF)検定が行われます。
• 応答変数が連続尺度である場合に、誤差の分布に関する仮定が満たされていることを確認するには、「モデルのあてはめ」プラットフォームで残差プロットやスチューデント化された残差のプロットを見てください。もう1つの方法は、まずプラットフォームのポップアップメニューから[保存]コマンドを選択し、残差をデータテーブルの列に保存します。次に、これらの列で[分析]>[一変量の分布]を実行し、正規分位点プロットを検討したり、ヒストグラムに正規分布の密度曲線を描いたりしてください。データから計算された残差は完全には互いに独立していませんが、正規分布から大きく逸脱しているかどうかはだいたい識別できます。
• 応答変数が連続尺度である場合における万能な診断ツールは、てこ比プロット(leverage plot)です。てこ比プロットは、各点が各仮説検定に及ぼす影響力を表示したものです。データの中に誤って測定された値があると思われるとき、てこ比プロットを見れば、検定がその1つの点に大きく影響を受けているかどうかがわかります。
• 外れ値が存在するかどうかを調べることも、大切です。一変量の外れ値は、「一変量の分布」プラットフォームで調べられます。二変量の外れ値は、「二変量の関係」の散布図と「多変量の相関」の散布図行列で調べられます。三変量の外れ値は[グラフ]>[三次元散布図]で作成した3次元プロットで見ることができます。より高次の外れ値は、主成分分析または三次元散布図で見るか、「多変量の相関」プラットフォームでMahalanobisの距離やジャックナイフ法による距離をプロットすると見つかります。
統計に関する文献では、特殊なノンパラメトリックな手法や頑健性のある手法が取り上げられていますが、JMPでは現在、そのうちのわずかしか採用していません。これらの手法には、分布に関して多くの仮定を必要としない(つまり、ノンパラメトリックである)というのに加えて、外れ値に対して頑健だという長所があります。しかし、ノンパラメトリックな手法は、より一般的な手法へとは拡張しづらく、また、小標本の検定統計量の確率を計算するのに非常に時間がかかることがあります。
線形順位検定に興味があり、正規近似ができるほどデータが大標本である場合には、データを順位に変換して分析することにより、Wilcoxon検定やKruskal-Wallis検定に相当する検定を行うことができます。
連続尺度の応答変数に対して、正規性の仮定が怪しい場合は、連続尺度から順序尺度に変更する方法もあります。結果をグラフに表すのが難しくなり、検出力も落ちてしまいますが、正規分布に従っていないことに対しては安全になります。