Einfaktorielle ANOVA
Was ist eine einfaktorielle ANOVA?
Eine einfaktorielle Varianzanalyse (ANOVA) ist eine statistische Methode zum Testen der Mittelwerte von drei oder mehr Gruppen auf Differenzen.
Wie wird eine einfaktorielle ANOVA verwendet?
Eine einfaktorielle ANOVA wird normalerweise verwendet, wenn eine einzelne unabhängige Variable, oder Faktor, vorhanden ist, und wenn das Ziel ist, zu untersuchen, ob Veränderungen oder verschiedene Stufen dieses Faktors einen messbaren Effekt auf eine abhängige Variable haben.
Welche Einschränkungen sind zu berücksichtigen?
Eine einfaktorielle ANOVA kann nur zur Untersuchung eines einzelnen Faktors und einer einzelnen abhängigen Variablen verwendet werden. Werden die Mittelwerte von drei oder mehr Gruppen verglichen, lässt sich damit ermitteln, ob mindestens ein Mittelwertpaar signifikant unterschiedlich ist; jedoch erfahren wir nicht, welches Paar. Zudem muss die abhängige Variable in jeder Gruppe normalverteilt sein und die Variabilität innerhalb der Gruppen muss über alle Gruppen hinweg ähnlich sein.
Einfaktorielle ANOVA ist ein Test auf Differenzen innerhalb der Gruppenmittelwerte
Eine einfaktorielle ANOVA ist eine statistische Methode zum Testen der Nullhypothese (H0), dass drei oder mehr Populationsmittelwerte gleich sind gegen die alternative Hypothese (Ha), dass mindestens ein Mittelwert sich vom Rest unterscheidet. Unter Verwendung der formellen Notation für statistische Hypothesen schreiben wir für k Mittelwerte:
$ H_0:\mu_1=\mu_2=\cdots=\mu_k $
$ H_a:\mathrm{Nicht\mathrm{\ }alle\ Mittelwerte\ sind\ gleich} $
wobei $\mu_i$ der Mittelwert der unabhängigen Variablen für die i-te Stufe des Faktors ist.
Sie denken sich vielleicht: In Ordnung, aber in welchen Situationen müsste ich feststellen, ob die Mittelwerte mehrerer Populationen gleich oder unterschiedlich sind? Ein häufiges Szenario ist, dass Sie vermuten, dass eine bestimmte unabhängige Prozessvariable sich auf ein wichtiges Ergebnis dieses Prozesses auswirkt. Zum Beispiel haben Sie vielleicht den Verdacht, dass unterschiedliche Fertigungslose, Mitarbeiter oder Rohmaterialchargen die Leistung (ein Qualitäts-Maßstab) eines Produktionsprozesses beeinflussen.
Um Ihren Verdacht zu bestätigen, könnten Sie den Prozess unter Verwendung von drei oder mehr Variationen (Stufen) dieser unabhängigen Variablen (Faktor) ablaufen lassen und anschließend eine Stichprobe an Beobachtungen aus den Ergebnissen jedes Laufs nehmen. Falls Sie beim Vergleich der Mittelwerte aus jeder Gruppe von Beobachtungen mittels einer ANOVA Differenzen feststellen, dann (vorausgesetzt, Sie haben alles richtig gemacht!) haben Sie den Beweis, dass Ihr Verdacht stimmte – der Faktor, den Sie untersucht haben, scheint eine Rolle für das Ergebnis zu spielen!
Beispiel für eine einfaktorielle ANOVA
Sehen wir uns ein Beispiel für eine einfaktorielle ANOVA genauer an. Stellen Sie sich vor, Sie arbeiten für ein Unternehmen, das ein Klebegel herstellt, das in kleinen Gefäßen verkauft wird. Die Viskosität des Gels ist wichtig: ist es zu dick, ist es schwer auftragbar; ist es zu dünn, gibt es Einbußen bei der Haftfestigkeit. Sie haben Beschwerden von einigen unzufriedenen Kunden erhalten, dass die Viskosität Ihres Klebstoffes nicht so gleichbleibend ist wie zuvor. Ihr Vorgesetzter hat Sie gebeten, dies zu untersuchen.
Sie entscheiden, dass es als erster Schritt sinnvoll wäre, die durchschnittliche Viskosität der letzten fünf Fertigungslose zu untersuchen. Falls Sie Differenzen zwischen den Losen finden, würde dies vermutlich bestätigen, dass tatsächlich ein Problem besteht. Es könnte Ihnen ebenfalls helfen, Hypothesen über Faktoren zu entwickeln, die Inkonsistenzen zwischen Losen verursachen könnten.
Sie messen die Viskosität mithilfe eines Instruments, das eine in das Klebstoffgefäß getauchte Spindel rotieren lässt. Dieser Test ergibt eine Messgröße namens Drehmomentwiderstand. Sie testen je fünf Gefäße, die zufällig aus jedem der fünf letzten Lose ausgewählt wurden. Sie erhalten den Drehmomentwiderstands-Messwert für jedes Gefäß und stellen die Daten in einem Diagramm dar.
In dem Diagramm beobachten Sie, dass die Drehmoment-Messwerte der Gefäße aus Los 3 niedriger sind als die Drehmoment-Messwerte der Stichproben aus den anderen Losen. Nachdem Sie die Mittelwerte aus allen Ihren Messwerten berechnet haben, sehen Sie, dass der Mittelwert des Drehmoments für Los 3 bei 26,77 liegt – wesentlich geringer als die anderen vier Lose, deren Mittelwert etwa 30 beträgt.
Tabelle 1: Mittelwert der Drehmoments-Messwerte von fünf getesteten Losen Klebstoff
Los-Nr. | N | Mittelwert |
---|---|---|
1 | 5 | 29,65 |
2 | 5 | 30,43 |
3 | 5 | 26,77 |
4 | 5 | 30,42 |
5 | 5 | 29,37 |
Die ANOVA-Tabelle
ANOVA-Ergebnisse werden normalerweise in einer ANOVA-Tabelle angezeigt. Eine ANOVA-Tabelle beinhaltet:
- Quelle: die Variationsquellen einschließlich des zu untersuchenden Faktors (in unserem Fall, das Los), Fehler und Summe.
- FG: Freiheitsgrade für jede Variationsquelle.
- Quadratsumme: Summe der Quadrate (SQ) für jede Variationsquelle sowie die Summe aus allen Quellen.
- Mittleres Quadrat: Summe der Quadrate geteilt durch die zugehörigen Freiheitsgrade.
- F-Wert: das mittlere Quadrat des Faktors (Los) geteilt durch das mittlere Quadrat des Fehlers.
- Wahrsch. > F: der p-Wert.
Tabelle 2: ANOVA-Tabelle mit Ergebnissen aus unseren Drehmohment-Messwerten
Quelle | Freiheitsgrade | Summe Quadrate | Mittlere Quadrate | F-Wert | Wahrsch. > F |
---|---|---|---|---|---|
Los | 4 | 45,25 | 11,31 | 6,90 | 0,0012 |
Fehler | 20 | 32,80 | 1,64 | ||
Summe | 24 | 78,05 |
Wir erklären weiter unten, wie die Komponenten dieser Tabelle abgeleitet werden. Ein wesentliches Element dieser Tabelle, auf das wir uns zuerst konzentrieren, ist der p-Wert. Der p-Wert wird verwendet, um auszuwerten, ob die Nullhypothese zutrifft, dass alle Mittelwerte gleich sind. In unserem Beispiel beträgt der p-Wert (Wahrsch. > F) 0,0012. Dieser geringe p-Wert kann als Beweis dienen, dass die Mittelwerte nicht alle gleich sind. Unsere Stichproben liefern den Beweis dafür, dass zwischen den Drehmomentwiderstands-Mittelwerten von einem oder mehreren der fünf Lose eine Differenz besteht.
Was ist ein p-Wert?
Der p-Wert ist eine Wahrscheinlichkeit, die zum Testen von Hypothesen verwendet wird. Das Ziel von Hypothesentests ist es, festzustellen, ob genügend Anhaltspunkte vorliegen, um eine bestimmte Hypothese über Ihre Daten zu stützen. Erinnern Sie sich, dass wir bei einer ANOVA zwei Hypothesen formulieren: die Nullhypothese, dass alle Mittelwerte gleich sind, und die alternative Hypothese, dass nicht alle Mittelwerte gleich sind.
Da wir nur zufällige Stichproben von Daten untersuchen, die aus ganzen Populationen entnommen wurden, besteht das Risiko, dass die Mittelwerte unserer Stichproben nicht repräsentativ für die vollständigen Populationen sind. Der p-Wert liefert uns eine Möglichkeit, dieses Risiko zu quantifizieren. Er ist die Wahrscheinlichkeit, dass eine auftretende Variabilität in den Mittelwerten Ihrer Stichprobendaten das Ergebnis reinen Zufalls ist; genauer gesagt, ist er die Wahrscheinlichkeit, mindestens so große Varianzen in den Stichprobenmittelwerten zu beobachten wie die, die Sie gemessen haben, obwohl in Wirklichkeit die Nullhypothese (die Mittelwerte der vollständigen Population sind tatsächlich gleich) wahr ist.
Ein kleiner p-Wert würde dazu führen, dass Sie die Nullhypothese ablehnen. Ein typischer Schwellenwert für die Ablehnung einer Nullhypothese ist 0,05. Das heißt, wenn Sie einen p-Wert von weniger als 0,05 erhalten, würden Sie die Nullhypothese zugunsten der alternativen Hypothese ablehnen, dass mindestens ein Mittelwert anders als der Rest ist.
Auf Grundlage dieser Ergebnisse entscheiden Sie sich, Los 3 für weitere Tests zurückzubehalten. In Ihrem Bericht würden Sie beispielsweise schreiben: Es wurde das Drehmoment von je fünf Gefäßen des Produkts aus jedem der letzten fünf Fertigungslose gemessen. Eine ANOVA-Analyse ergab, dass die Beobachtungen eine Differenz der Drehmoment-Mittelwerte zwischen den Losen unterstützen (p = 0,0012). Ein Diagramm zeigt, dass Los 3 im Vergleich zu den anderen vier Losen einen geringeren Drehmoment-Mittelwert (26,77) aufwies. Wir werden Los 3 zur weiteren Auswertung zurückbehalten.
Denken Sie daran, ein ANOVA-Test teilt Ihnen nicht mit, welcher Mittelwert sich von den anderen unterscheidet und dies ist (anders als in unserem Beispiel) nicht immer aus einem Diagramm ersichtlich. Eine Methode, Fragen zu spezifischen Arten von Differenzen zu beantworten, ist ein Mehrfachtest. Um beispielsweise Gruppenmittelwerte mit dem Gesamtmittelwert zu vergleichen, können Sie eine Mittelwertanalyse (ANOM) verwenden. Um einzelne Mittelwertpaare zu vergleichen, können Sie den Tukey-Kramer Test verwenden.
Berechnung der einfaktoriellen ANOVA
Betrachten wir nun unser Beispiel für Drehmoment-Messwerte genauer. Erinnern Sie sich, dass wir fünf Lose Material hatten. Aus jedem Los wählten wir zufällig fünf Gefäße zum Test aus. Dies nennt man einfaktorielles Design. Der eine Faktor, das Los, hat fünf Stufen. Jede Stufe wird fünf Mal wiederholt (getestet). Die Ergebnisse des Tests sind unten aufgeführt.
Tabelle 3: Drehmoment-Messwerte nach Los
Los 1 | Los 2 | Los 3 | Los 4 | Los 5 | |
---|---|---|---|---|---|
Gefäß 1 | 29,39 | 30,63 | 27,16 | 31,03 | 29,67 |
Gefäß 2 | 31,51 | 32,10 | 26,63 | 30,98 | 29,32 |
Gefäß 3 | 30,88 | 30,11 | 25,31 | 28,95 | 26,87 |
Gefäß 4 | 27,63 | 29,63 | 27,66 | 31,45 | 31,59 |
Gefäß 5 | 28,85 | 29,68 | 27,10 | 29,70 | 29,41 |
Mittelwert | 29,65 | 30,43 | 26,77 | 30,42 | 29,37 |
Um die Berechnungen nachzuvollziehen, die der oben stehenden ANOVA-Tabelle (Tabelle 2) zugrunde liegen, legen wir zunächst die folgenden Definitionen fest:
$n_i$ = Anzahl der Beobachtungen für Behandlung $i$ (in unserem Beispiel, Los $i$)
$N$ = Gesamtanzahl der Beobachtungen
$Y_{ij}$ = Die j-te Beobachtung an der i-ten Behandlung
$\overline{Y}_i$ = Der Stichprobenmittelwert für die i-te Behandlung
$\overline{\overline{Y}}$ = Der Mittelwert aller Beobachtungen (Gesamtmittelwert)
Summe Quadrate
Unter Berücksichtigung dieser Definitionen beginnen wir mit der Spalte „Summe Quadrate“ aus der ANOVA-Tabelle. Die Summe der Quadrate bietet uns einen Weg, die Variabilität innerhalb eines Datensatzes zu quantifizieren, indem wir uns auf die Differenz zwischen den einzelnen Datenpunkten und dem Mittelwert aller Datenpunkte innerhalb dieses Datensatzes konzentrieren. Die unten stehende Formel teilt die Gesamtvariabilität in zwei Teile: die Variabilität aufgrund des Modells oder der Faktorstufen und die Variabilität aufgrund von zufälligen Fehlern.
$$ \sum_{i=1}^{a}\sum_{j=1}^{n_i}(Y_{ij}-\overline{\overline{Y}})^2\;=\;\sum_{i=1}^{a}n_i(\overline{Y}_i-\overline{\overline{Y}})^2+\sum_{i=1}^{a}\sum_{j=1}^{n_i}(Y_{ij}-\overline{Y}_i)^2 $$
$$ SS(Total)\; = \;SS(Factor)\; + \;SS(Error) $$
Diese Gleichung mag zwar kompliziert erscheinen, aber sie ist leichter verständlich, wenn wir uns auf die einzelnen Elemente konzentrieren. Die unten stehende Tabelle 4 führt die einzelnen Komponenten der Formel auf und entwickelt sie zu den quadrierten Termen, die die Summe der Quadrate ergeben. Die erste Datenspalte ($Y_{ij}$) enthält die Drehmoment-Messwerte, die wir oben in Tabelle 3 zusammengetragen hatten.
Eine andere Art, Quellen für Variabilität zu betrachten: Variation zwischen und innerhalb von Gruppen
Erinnern Sie sich, dass in unserer oben stehenden ANOVA-Tabelle (Tabelle 2) die Spalte Quelle zwei Variationsquellen aufführt: Faktor (in unserem Beispiel: Los) und Fehler. Eine andere Art, diese beiden Quellen zu betrachten, ist Variation zwischen Gruppen (dies entspricht Variation aufgrund des Faktors oder der Behandlung) und Variation innerhalb von Gruppen (dies entspricht Variation aufgrund von Zufall oder Fehler). Unter Verwendung dieser Terminologie heißt das also, unsere Formel für die Summe der Quadrate berechnet im Grunde die Summe der Variation aufgrund von Differenzen zwischen den Gruppen (der Behandlungseffekt) und der Variation aufgrund von Differenzen innerhalb der einzelnen Gruppen (unerklärte, zufallsbedingte Differenzen).
Tabelle 4: Berechnung der Summe der Quadrate
Los | $Y_{ij} $ | $\overline{Y}_i $ | $\overline{\overline{Y}}$ | $\overline{Y}_i-\overline{\overline{Y}}$ | $Y_{ij}-\overline{\overline{Y}}$ | $Y_{ij}-\overline{Y}_i $ | $(\overline{Y}_i-\overline{\overline{Y}})^2 $ | $(Y_{ij}-\overline{Y}_i)^2 $ | $(Y_{ij}-\overline{\overline{Y}})^2 $ |
---|---|---|---|---|---|---|---|---|---|
1 | 29,39 | 29,65 | 29,33 | 0,32 | 0,06 | -0,26 | 0,10 | 0,07 | 0,00 |
1 | 31,51 | 29,65 | 29,33 | 0,32 | 2,18 | 1,86 | 0,10 | 3,46 | 4,75 |
1 | 30,88 | 29,65 | 29,33 | 0,32 | 1,55 | 1,23 | 0,10 | 1,51 | 2,40 |
1 | 27,63 | 29,65 | 29,33 | 0,32 | -1,70 | -2,02 | 0,10 | 4,08 | 2,89 |
1 | 28,85 | 29,65 | 29,33 | 0,32 | -0,48 | -0,80 | 0,10 | 0,64 | 0,23 |
2 | 30,63 | 30,43 | 29,33 | 1,10 | 1,30 | 0,20 | 1,21 | 0,04 | 1,69 |
2 | 32,10 | 30,43 | 29,33 | 1,10 | 2,77 | 1,67 | 1,21 | 2,79 | 7,68 |
2 | 30,11 | 30,43 | 29,33 | 1,10 | 0,78 | -0,32 | 1,21 | 0,10 | 0,61 |
2 | 29,63 | 30,43 | 29,33 | 1,10 | 0,30 | -0,80 | 1,21 | 0,64 | 0,09 |
2 | 29,68 | 30,43 | 29,33 | 1,10 | 0,35 | -0,75 | 1,21 | 0,56 | 0,12 |
3 | 27,16 | 26,77 | 29,33 | -2,56 | -2,17 | 0,39 | 6,55 | 0,15 | 4,71 |
3 | 26,63 | 26,77 | 29,33 | -2,56 | -2,70 | -0,14 | 6,55 | 0,02 | 7,29 |
3 | 25,31 | 26,77 | 29,33 | -2,56 | -4,02 | -1,46 | 6,55 | 2,14 | 16,16 |
3 | 27,66 | 26,77 | 29,33 | -2,56 | -1,67 | 0,89 | 6,55 | 0,79 | 2,79 |
3 | 27,10 | 26,77 | 29,33 | -2,56 | -2,23 | 0,33 | 6,55 | 0,11 | 4,97 |
4 | 31,03 | 30,42 | 29,33 | 1,09 | 1,70 | 0,61 | 1,19 | 0,37 | 2,89 |
4 | 30,98 | 30,42 | 29,33 | 1,09 | 1,65 | 0,56 | 1,19 | 0,31 | 2,72 |
4 | 28,95 | 30,42 | 29,33 | 1,09 | -0,38 | -1,47 | 1,19 | 2,16 | 0,14 |
4 | 31,45 | 30,42 | 29,33 | 1,09 | 2,12 | 1,03 | 1,19 | 1,06 | 4,49 |
4 | 29,70 | 30,42 | 29,33 | 1,09 | 0,37 | -0,72 | 1,19 | 0,52 | 0,14 |
5 | 29,67 | 29,37 | 29,33 | 0,04 | 0,34 | 0,30 | 0,00 | 0,09 | 0,12 |
5 | 29,32 | 29,37 | 29,33 | 0,04 | -0,01 | -0,05 | 0,00 | 0,00 | 0,00 |
5 | 26,87 | 29,37 | 29,33 | 0,04 | -2,46 | -2,50 | 0,00 | 6,26 | 6,05 |
5 | 31,59 | 29,37 | 29,33 | 0,04 | 2,26 | 2,22 | 0,00 | 4,93 | 5,11 |
5 | 29,41 | 29,37 | 29,33 | 0,04 | 0,08 | 0,04 | 0,00 | 0,00 | 0,01 |
Summe Quadrate | SQ (Faktor) = 45,25 | SQ (Fehler) = 32,80 | SQ (Gesamt) = 78,05 |
Freiheitsgrade (FG)
Zu jeder Summe der Quadrate gehört eine Größe namens Freiheitsgrade (FG). Die Freiheitsgrade zeigen die Anzahl der unabhängigen Informationen an, die zur Berechnung der einzelnen Summen der Quadrate verwendet werden. Bei einem einfaktoriellen Design mit einem Faktor mit k Stufen (fünf Lose in unserem Beispiel) und insgesamt N Beobachtungen (fünf Gefäße pro Los und insgesamt 25) sind die Freiheitsgrade folgendermaßen:
Tabelle 5: Ermittlung der Freiheitsgrade
Formel für Freiheitsgrade (FG) | Berechnete Freiheitsgrade | |
---|---|---|
SQ (Faktor) | k - 1 | 5 - 1 = 4 |
SQ (Fehler) | N - k | 25 - 5 = 20 |
SQ (Gesamt) | N - 1 | 25 - 1 = 24 |
Mittlere Quadrate (MQ) und F-Wert
Wir teilen jede Summe der Quadrate durch die entsprechenden Freiheitsgrade, um mittlere Quadrate zu erhalten. Wenn die Nullhypothese wahr ist (d. h. die Mittelwerte sind gleich), sind MQ (Faktor) und MQ (Fehler) beide Schätzwerte der Fehlervarianz und wären etwa gleich groß. Ihr Verhältnis, oder der F-Wert, wäre nahe Eins. Wenn die Nullhypothese nicht wahr ist, dann ist das MQ (Faktor) größer als das MQ (Fehler) und ihr Verhältnis ist größer als 1. In unserem Beispiel des Klebstofftests stellt der berechnete F-Wert von 6,90 einen signifikanten Einwand gegen die Nullhypothese dar, dass die Mittelwerte gleich sind.
Tabelle 6: Berechnung der mittleren Quadrate und des F-Wertes
Summe der Quadrate (SQ) | Freiheitsgrade (FG) | Mittlere Quadrate | F-Wert | |
---|---|---|---|---|
SQ (Faktor) | 45,25 | 4 | 45,25/4 = 11,31 | 11,31/1,64 = 6,90 |
SQ (Fehler) | 32,80 | 20 | 32,80/20 = 1,64 |
Das Verhältnis von MQ (Faktor) zu MQ (Fehler) – der F-Wert – hat eine F-Verteilung. Die F-Verteilung ist die Verteilung der F-Werte, die wir erwarten würden, wenn die Nullhypothese wahr wäre (d. h. die Mittelwerte sind gleich). F-Verteilungen haben unterschiedliche Formen basierend auf zwei Parametern namens Freiheitsgraden im Zähler und Nenner. Bei einem ANOVA-Test ist der Zähler das MQ (Faktor), also sind die Freiheitsgrade im Zähler dem MQ (Faktor) zugeordnet. Der Nenner ist das MQ (Fehler), also sind die Freiheitsgrade im Nenner dem MQ (Fehler) zugeordnet.
Wenn Ihr berechneter F-Wert den erwarteten Wert aus der entsprechenden F-Verteilung überschreitet, dann würden Sie – vorausgesetzt, der p-Wert ist hinreichend klein – die Nullhypothese ablehnen, dass die Mittelwerte gleich sind. Der p-Wert ist in diesem Fall die Wahrscheinlichkeit, einen Wert zu beobachten, der größer als der F-Wert aus der F-Verteilung ist, wenn tatsächlich die Nullhypothese wahr ist.