迴歸模型假設

我們使用線性迴歸為反應變數和預測因子之間的關係建立模型時,會先做幾個假設。這些假設基本上是我們就模型估計值進行推論,或使用模型做預測前,必須達到的條件。

  • 真實的關係為線性
  • 誤差為常態分佈
  • 誤差的變異數齊一性 (或迴歸線周圍的變異數相等)。
  • 觀測值具獨立性

因為要擬合線性模型,我們會假設關係實際上為線性,而誤差或殘差會沿著真實的迴歸線隨機波動。我們假設反應變數中的變異性不會隨著預測因子值增加而上升。這是變異數相等的假設。

我們也假設這些觀察值彼此各自獨立。處理時間序列資料時,也就是說資料具備自然時間順序時,序列觀察值的相關性或自我相關性可能會造成問題。

要如何檢查迴歸假設呢?我們會檢視擬合迴歸線後留下的變異性,並將殘差繪製成圖表,並尋找是否有任何異常模式。

若線性模型合理,殘差便會有以下特性

  • 有固定的變異數
  • 大約趨近於常態分佈 (平均數為 0)
  • 各自獨立。

分析殘差時,最實用的圖表為預測殘差圖。這是我們根據對應預測值繪製的殘差值圖表。

若滿足假設,我們會看到殘差隨機分佈在 0 的中心線周圍,且沒有明顯的規律。殘差看起來像是以 0 為中心、沒有結構的一團點。

若有非隨機規律,規律的本質可以找出模型的潛在問題。

舉例來說,若殘差中有曲率,則很可能反應變數與預測因子之間的關係有模型未能解釋的曲率。線性模型無法充分說明預測因子與反應變數之間的關係。

在此範例中,線性模型系統性地高估某些值 (殘差為負數),並低估其他值 (殘差為正數)。

若殘差隨著預測值增加而擴大,就是所謂的變異數不齊一性。這表示反應變數的變異數隨著預測值增加而改變。

這某部分來說是個問題,因為誤差較大的觀察值結果對於擬合模型的拉力或影響力會較大。

離群值也可能導致異常規律。離群值對於擬合迴歸線有重大影響。

在此範例中,我們有一個明顯的離群值。許多較低預測值的殘差為正數 (這些位於代表 0 的中心線上方),而許多較高預測值的殘差為負數。

極端的離群值通常會使迴歸線傾斜。因此,模型無法妥善預測眾多觀察值結果。

除了殘差與預測圖外,我們還可以使用其他殘差圖來檢查迴歸假設。我們可以使用殘差直方圖與殘差的常態機率圖來評估殘差是否趨近於常態分佈。然而,除非殘差遠超過常態分佈,或有明顯的規律,我們通常不必過度擔心常態性。

請注意,我們會檢查殘差是否具常態性,但不需要檢查原始資料的常態性。我們的反應變數與預測因子變數不需要為常態分佈,也可以擬合線性迴歸模型。

若資料屬於時間序列資料,也就是按時間順序收集的資料,我們可以運用一段時間的殘差圖來判斷是否達到獨立性假設。然而,除非資料按時間排序,否則通常不需要這麼做。

如果在殘差中發現問題怎麼辦?

我們要如何解決這些問題?根據問題的本質,我們可以運用不同策略。舉例來說,我們可以建立更複雜的模型,例如多項式模型,以解決曲率問題。或者我們也可以應用資料轉換,以解決常態性問題。或者,我們也可以分析潛在離群值,然後判斷處理離群值的最佳方法。

大多數時候,這些議題都超出 SKP 的範圍,若您遇到這類狀況,我們建議您諮詢相關主題的專家。然而,我們會在下一段落中探討解決曲率問題的做法。

讓我們回到清潔零件範例。 我們將清除的模型擬合為 OD 函數。

二變量圖表有助於我們判斷線性模型是否合理。這些觀察值會圍繞著擬合線隨機分佈,因此沒有任何說明線性模型不充分的明顯規律。

讓我們看看殘差圖。在預測圖的殘差中,我們看到殘差隨機分佈在 0 的中心線周圍,且沒有明顯的非隨機規律。然而,雖然殘差的直方圖看起來沒有非常符合常態分佈,殘差的常態分位數圖也沒有任何證據證明應該否定常態性假設。

按列述的殘差圖也未顯示任何明顯規律,因此我們沒有理由認為殘差之間有相關。

因為已達到我們的迴歸假設,所以我們可以繼續解讀迴歸輸出,並根據模型估計值進行推論。在接下來的段落中,我們將瞭解如何執行殘差分析與解讀迴歸結果。