曲線擬合

擬合曲率模型

在此範例中,一顆球原為靜止狀態,在 0 秒時於 400 公分高處落下。感應器在不同時間記錄球落下的距離 (單位為公分)。

您會如何說明這兩個變數間的關係?

我們擬合迴歸模型,以距離 (公分) 為反應、時間 (秒) 為預測因子。

直線能多清楚說明這兩個變數間的關係?

兩個變數的關係似乎有直線無法捕捉的曲率。部分點於線上方對稱;其他則位於線下方。

然而,我們經常傾向忽略圖表輸出,而先檢視統計資料輸出。

請注意,模型與線性斜率係數兩者皆高度顯著,且距離 (公分) 超過 95% 的變異數可由時間 (秒) 解釋。

但我們應該使用此模型進行預測嗎?最好的實務做法是在解讀統計資料輸出前,檢視資料圖表的呈現結果與殘差。讓我們看看殘差圖。

請注意殘差圖中的曲線規律。圖表顯示擬合線型模型後,殘留的變異。在此範例中,圖表放大我們在雙變量圖表中觀察到的細微規律。殘差圖也能讓我們進一步瞭解如何改善模型。在此案例中,我們可能需要更複雜的模型:一個能夠處理我們所觀察到之曲率的模型。

為說明此曲率,我們可能需將二階多項式模型擬合至資料。在此範例中,多項式模型更能說明時間 (秒)距離 (公分) 之間的關係。

預測圖表的殘差現在看起來效果更好。圖表沒有明顯規律,且殘差似乎沿著 0 散佈。

檢視 RSquare,我們會發現模型幾乎能解釋反應的所有變異。模型仍高度顯著,且參數估計值表格中多了一個項,也就是二次效應。線性項與二次效應皆高度顯著。

因此,就算我們初步的線性模型具有顯著性,加入二次效應後也能進一步改善模型。請注意,因為是以線性方式加入二次效應,此模型仍為線性模型。

距離 (公分) = -125.3911 + 492.0476*時間 (秒) + 486.55399*(時間 (秒)-0.51619)2

在此模型中,請注意二次項的寫法。時間 (秒) 寫為 (時間 (秒) -0.51619)2。這表示已將多項式中心化,透過減去平均數將時間 (秒) 值「中心化」。

中心化多項式是以高階項擬合線性模型時使用的標準技術。使用此技術會得到相同的模型預測,但在估計模型係數時的表現更好。

在此範例中,殘差分析指出了問題,擬合多項式模型更為合理。在真實世界的大多數情況中,若資料有不尋常的規律,擬合最佳的模型並不會如此直接了當。

舉例來說,您可能會需要轉換反應或預測因子。或者您可能會缺少其他能解釋關係的效應。您應運用對行業的知識以及問題的相關背景資訊,決定如何繼續分析。