四個散佈圖
簡單線性迴歸
什麼是簡單線性迴歸?
簡單線性迴歸用於建立兩個連續變數關係的模型。通常目標是根據輸入 (或預測因子) 變數值預測輸出 (或反應) 變數值。
何時該使用迴歸
我們通常會對於多個變數之間的關係感興趣。散佈圖與散佈圖矩陣可用於探索兩兩變數的潛在關係。相關性有助我們測量兩兩變數之間的線性關聯,但無法告訴我們其背後更複雜的關係。例如:若關係為曲線,相關性可能趨近於 0。
您可以使用迴歸分析來更正式地瞭解變數間的關係。在迴歸分析以及建立統計模型方面,我們希望為輸出變數或反應變數,以及一個或多個輸入變數或因子之間的關係建立模型。
根據背景資訊,輸出變數很可能被視為相依變數、結果,或單純為 Y 變數;而輸入變數則可能為解釋變數、效應、預測因子或 X 變數。
我們可以使用迴歸分析與迴歸模型的結果,判斷哪些變數對反應有效果,或有助於解釋反應。這又稱為解釋模型。
我們也可以使用迴歸分析,根據重要預測因子的值來預測反應變數值。這通常稱為預測模型。或者,我們也可以使用迴歸模型進行最佳化,判斷最佳化反應的因子配置。我們的最佳化目標為尋找能導向最大反應或最小反應的配置。或者目標可能是達到特定可接受區間內的目標。
舉例來說,我們可能想試圖改善製程產量。
- 我們可以使用迴歸分析來判斷哪些變數可促成高產量。
- 我們可能有興趣根據預測因子的指定值,為未來的製作流程預測產量,或者
- 我們可能想找出能促成最佳產量的因子配置。
我們也可能運用從迴歸模型取得的知識來設計實驗,以調整製程知識,並促進改善。
線性迴歸範例
以我們想清潔金屬零件的範例來說明。
我們有 50 個內部直徑、外部直徑與寬度不同的零件。各零件會使用三種類型的容器之一進行清潔。我們透過零件上的懸浮微粒測量清潔效果,並在零件接受清潔前後測量。我們想瞭解的反應是清潔力。這是清潔前與清潔後測量結果的差異。
我們想瞭解內部直徑、外部直徑、零件寬度與容器類型對於清潔度的影響,但我們也想瞭解這些效應的本質。用來連結預測因子與反應的關係為統計模型,或者更明確來說,是一個迴歸模型。
迴歸一詞說明一系列用於將反應建立為預測因子函數模型的技術。我們在此討論中唯一考慮的迴歸模型為線性模型。
下方為清潔資料的線性模型範例。
在此模型中,若外部直徑增加 1 單位,而寬度固定,清潔程度會增加 1.2 單位。同樣的,若零件寬度增加 1 單位,而外部直徑固定,清潔程度會增加 0.2 單位。此模型讓我們能夠預測指定外部直徑與寬度零件的懸浮微粒清潔程度。
例如:外部直徑為 5,寬度為 3 的零件,預測清潔程度為 16.6 單位。在此範例中,我們有兩個連續預測因子。當使用不只一個預測因子時,此流程稱為多重線性迴歸。
只使用一個連續預測因子時,我們將此模型流程稱為簡單線性迴歸。在此討論中剩下的部分,我們將聚焦於簡單線性迴歸。
散佈圖顯示,清潔程度與 OD (外部直徑) 有強烈的正向關係。為了瞭解是否能以 OD 作為估計清潔程度的預測因子,我們擬合了一條迴歸線。擬合線估計指定固定 OD 值零件的懸浮微粒清潔程度平均數。截距值為 4.099,而斜率係數則為 0.528。截距是迴歸線的錨點,估計當外部直徑為 0 時的清潔程度。因為直徑不能為 0,所以該截距並非我們直接想瞭解的資訊。
斜率係數會估計外部直徑增加 1 單位時,清潔程度平均增加的量。也就是說,外部直徑每增加 1 單位,清潔程度平均就會增加 0.528 單位。
簡單線性迴歸模型
在上述範例中,我們收集了 50 個零件的資料。我們擬合迴歸模型,將清除當成零件的 OD 函數進行預測。然而,若我們已採樣不同的 50 組零件,並使用這些資料擬合迴歸線了呢?這會產生相同的迴歸方程式嗎?擬合迴歸線來觀察資料時,我們的目的是嘗試預測變數之間真正的未知關係。擬合迴歸方程式只是估計真實線性模型的一種方法。事實上,真正的線性模型為未知。
在簡單線性迴歸中,我們假設針對固定值的預測因子 X,反應變數 Y 的平均數為 X 的線性函數。我們透過此處的方程式表示此未知線性函數,這裡的 b0 為截距,b1 則為斜率。我們用來擬合資料的迴歸線是未知函數的估計值。
擬合線的方程式可透過以下方程式表示:
在這裡,b0 與 b1 分別為beta0 與beta 1 的估計值。標記 $ \hat{Y} $ (在此情況下 Y = 清除) 表示反應變數來自資料的估計值,而非實際觀察結果。在清潔零件範例中,截距 b0 為 4.099,而斜率 b1 則為 0.528。
若我們選擇零件的不同樣本,擬合線也會有所不同。為了說明,我們使用 JMP 範例指令碼目錄中的示範迴歸教學課程。
迴歸與變異數分析
讓我們來比較一下迴歸與變異數分析。在簡單線性迴歸中,反應變數與預測因子皆為連續資料。在變異數分析中,反應變數為連續資料,但預測因子或因子為名目資料。結果在統計上有關連性。在兩種情況下,我們都在建立一般線性模型,但分析的目標不同。
迴歸給予我們統計模型,讓我們能夠預測不同預測因子值的反應,包含不在原始資料中的預測因子值也能代入。
變異數分析則為不同類別因子測量反應平均數的位移。因此,通常會用來比較不同水準間因子的平均數。