Zwei-Stichproben-t-Test

Was ist der Zwei-Stichproben-t-Test?

Der Zwei-Stichproben-t-Test (auch als t-Test unabhängiger Stichproben bezeichnet) ist eine Methode, mit deren Hilfe Sie testen können, ob die unbekannten Populationsmittelwerte von zwei Gruppen gleich sind.

Ist dies dasselbe wie ein A/B-Test?

Ja, ein Zwei-Stichproben-t-Test wird verwendet, um die Ergebnisse aus A/B-Tests zu analysieren.

Wann kann ich den Test nutzen?

Sie können den Test nutzen, wenn Ihre Datenwerte unabhängig sind, zufällig aus zwei normalverteilten Populationen entnommen wurden und für die beiden unabhängigen Gruppen gleiche Varianzen vorliegen.

Was ist, wenn ich mehr als zwei Gruppen habe?

Nutzen Sie multiple Vergleiche. Die Varianzanalyse (ANOVA) ist eine geeignete Methode. Andere multiple Vergleichsmethoden sind der Tukey-Kramer-Test aller paarweisen Differenzen, die Mittelwertanalyse (ANOM) zum Vergleich der Gruppenmittelwerte mit dem Gesamtmittelwert oder der Dunnett-Test zum Vergleich des Mittelwerts jeder Gruppe mit einem Kontrollmittelwert.

Was ist, wenn die Varianzen für meine beiden Gruppen ungleich sind?

Sie können immer noch den Zwei-Stichproben-t-Test anwenden. Sie verwenden einen anderen Schätzer der Standardabweichung.

Was ist, wenn meine Daten nicht normalverteilt sind?

Wenn Ihre Stichprobengrößen sehr klein sind, können Sie möglicherweise nicht auf Normalität testen. Stattdessen müssen Sie auf Ihr Verständnis der Daten zurückgreifen. Wenn Sie nicht mit Sicherheit von Normalität ausgehen können, können Sie einen nichtparametrischen Test durchführen, der keine Normalität annimmt.

Anwendung des Zwei-Stichproben-t-Tests

In den folgenden Abschnitten erklären wir, welche Voraussetzungen für den Test zu erfüllen sind, wie Sie Ihre Daten prüfen und wie Sie den Test durchführen. Zudem behandeln wir darin Einzelheiten zum Thema Statistik.

Was brauchen wir?

Für den t-Test mit zwei Stichproben brauchen wir zwei Variablen. Eine Variable definiert die beiden Gruppen. Die zweite bezeichnet die betrachteten Messungen.

Außerdem haben wir eine Vorstellung bzw. eine Hypothese, dass die Mittelwerte der zugrunde liegenden Populationen für die beiden Gruppen unterschiedlich sind. Hier sind einige Beispiele zum Verständnis:

  • Wir haben Schüler, deren Muttersprache Englisch ist, und Schüler, bei denen das nicht der Fall ist. Alle Schüler nehmen an einem Lesetest teil. Unsere zwei Gruppen sind die Englisch-Muttersprachler und die Nicht-Muttersprachler. Unsere Messungen sind die Testergebnisse. Unsere Vorstellung lautet, dass die Mittelwerte der Testergebnisse für die zugrunde liegenden Populationen der Muttersprachler und Nicht-Muttersprachler unterschiedlich sein werden. Wir wollen wissen, ob sich der Mittelwert der Testergebnisse für die Population der Englisch-Muttersprachler von dem der Teilnehmer unterscheidet, die Englisch als Fremdsprache gelernt haben.
  • Wir messen den Proteingehalt zwei verschiedener Energieriegel-Sorten in Gramm. Unsere zwei Gruppen sind die beiden Sorten. Unsere Messung ist der Proteingehalt des jeweiligen Energieriegels in Gramm. Unsere Vorstellung geht dahin, dass die Mittelwerte des Proteingehalts für die zugrunde liegenden Populationen der beiden Sorten unterschiedlich sein könnten. Wir möchten wissen, ob es Belege dafür gibt, dass sich die Mittelwerte des Proteingehalts der beiden Energieriegel-Sorten unterscheiden.

Annahmen für einen t-Test mit zwei Stichproben

Zur Durchführung eines gültigen Tests müssen folgende Voraussetzungen gegeben sein:

  • Die Datenwerte sind unabhängig. Die Messungen für eine Beobachtung beeinflussen nicht die Messungen für andere Beobachtungen.
  • Die Daten in den einzelnen Gruppen werden aus einer zufälligen Stichprobe der Population gewonnen.
  • Die Daten in den einzelnen Gruppen sind normalverteilt.
  • Die Datenwerte sind stetig.
  • Die Varianzen für die beiden unabhängigen Gruppen sind gleich.

Bei sehr kleinen Datengruppen kann es sehr schwer werden, diese Anforderungen zu testen. Im Folgenden erklären wir, wie Sie die Anforderungen mit Software überprüfen und was Sie tun können, wenn eine Anforderung nicht erfüllt wird.

Beispiel für einen Zwei-Stichproben-t-Test

Eine Methode zur Messung der Fitness einer Person ist die Messung Ihres Körperfettanteils. Durchschnittliche Körperfettanteile variieren je nach Alter, doch laut einigen Richtlinien liegt der Normalbereich für Männer bei 15–20 % Körperfett und für Frauen bei 20–25 % Körperfett.

Unsere Stichprobendaten stammen von einer Gruppe von Männern und Frauen, die während einem Jahr dreimal pro Woche in einem Fitnessstudio trainiert haben. Anschließend maß ihr Trainer ihren Körperfettanteil. Die folgende Tabelle zeigt die Daten.

Tabelle 1: Körperfettanteilsdaten, gruppiert nach Geschlecht

GruppierenKörperfettanteile

Männer

13,36,020,08,014,0
19,018,025,016,024,0
15,01.015,0  

Frauen

22,016,021,721,030,0
26,012,023,228,023,0

Sie können sehen, dass sich die Körperfettmessungen für die Männer und Frauen in unserer Stichprobe teilweise überschneiden, dass es aber auch Unterschiede gibt. Wenn wir nur die Daten betrachten, können wir schwer solide Schlussfolgerungen darüber ziehen, ob die zugrunde liegenden Populationen der Männer und Frauen im Fitnessstudio denselben mittleren Körperfettanteil haben. Hier bewähren sich statistische Tests – sie bieten eine solide Methode zur Entscheidungsfindung, sodass alle dieselbe Entscheidung für einen Datensatz treffen.

Die Daten prüfen

Beantworten wir zunächst die Frage: Ist der Zwei-Stichproben-t-Test eine geeignete Methode zur Bewertung der Differenz des Körperfettanteils zwischen Männern und Frauen?

  • Die Datenwerte sind unabhängig. Der Körperfettanteil einer Person hängt nicht vom Körperfettanteil einer anderen Person ab.
  • Wir nehmen an, dass die beurteilten Personen eine einfache, zufällige Stichprobe aus der Population der Fitnessstudio-Mitglieder darstellen.
  • Wir nehmen an, dass die Daten normalverteilt sind, und wir können diese Annahme prüfen.
  • Die Datenwerte sind Körperfettmessungen. Die Messungen sind stetig.
  • Wir nehmen gleiche Varianzen für Männer und Frauen an und können diese Annahme prüfen.

Bevor wir in die Analyse einsteigen, sollten wir uns immer zuerst die Daten kurz ansehen. Die folgende Abbildung zeigt Histogramme und zusammengefasste statistische Kenngrößen für die Frauen und Männer.

Abbildung 1: Histogramm und zusammengefasste statistische Kenngrößen für die Körperfettanteilsdaten

Die beiden Histogramme sind auf derselben Skala eingezeichnet. Auf den ersten Blick erkennen wir schon, dass es keine außergewöhnlichen Datenpunkte oder Ausreißer gibt. Die Daten machen einen grob glockenförmigen Eindruck, also scheint unsere ursprüngliche Vorstellung einer Normalverteilung angemessen.

Bei der Untersuchung der statistischen Kenngrößen sehen wir, dass die Standardabweichungen ähnlich sind. Dies bekräftigt unsere Annahme gleicher Varianzen. Diese Annahme prüfen wir auch mit einem Test auf Varianzen.

Auf der Grundlage dieser Beobachtungen scheint der Zwei-Stichproben-t-Test eine geeignete Methode zum Testen auf Differenz zwischen Mittelwerten zu sein.

So führen Sie einen Zwei-Stichproben-t-Test durch

Für jede Gruppe brauchen wir den Durchschnitt, die Standardabweichung und die Stichprobengröße. Diese finden Sie in der folgenden Tabelle.

Tabelle 2: Durchschnitt, Standardabweichung und Stichprobengröße gruppiert nach Geschlecht

GruppierenStichprobengröße (n)Durchschnitt (X-Balken)Standardabweichung (s)
Frauen1022,295,32
Männer1314,956,84

Schon ohne Tests können wir sehen, dass die Durchschnittswerte für Männer und Frauen in unseren Stichproben nicht gleich sind. Doch wie stark unterscheiden sie sich? Liegen die Durchschnittswerte „nah genug“ aneinander, dass wir daraus schließen können, dass der mittlere Körperfettanteil für die Gesamtpopulation der Männer und Frauen im Fitnessstudio gleich ist? Oder sind die Durchschnittswerte zu verschieden, um zu diesem Schluss kommen zu können?

Die Grundsätze des Zwei-Stichproben-t-Tests werden wir im Abschnitt „Einzelheiten zur Statistik“ weiter unten genauer erklären, doch zunächst gehen wir die einzelnen Schritte durch. Zuerst berechnen wir unsere Prüfgröße. Diese Berechnung beginnt damit, dass wir die Differenz zwischen den beiden Durchschnittswerten ermitteln:

22,29 $ - 14,95 $ = 7,34 $

Aus der Differenz in unseren Stichproben ergibt sich eine Einschätzung der Differenz zwischen den Populationsmittelwerten der beiden Gruppen.

Als Nächstes berechnen wir die gepoolte Standardabweichung. So erhalten wir einen kombinierten Schätzer der Gesamt-Standardabweichung. Der Schätzer berücksichtigt verschiedene Gruppengrößen. Zuerst berechnen wir die gepoolte Varianz:

$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $

$ s_p^2 = \frac{((10 - 1)5,32^2) + ((13 - 1)6,84^2)}{(10 + 13 - 2)} $

$ = \frac{(9\times28,30) + (12\times46,82)}{21} $

$ = \frac{(254,7 + 561,85)}{21} $

$ =\frac{816,55}{21} = 38,88 $

 

Als Nächstes ermitteln wir aus der Quadratwurzel der gepoolten Varianz die gepoolte Standardabweichung. Dafür gilt:

$ \sqrt{38,88} = 6,24 $

Jetzt haben wir alle Informationen, die wir für die Bestimmung unserer Prüfgröße benötigen. Wir verfügen über die Differenz der Durchschnittswerte, die gepoolte Standardabweichung und die Stichprobengrößen. Wir berechnen unsere Prüfgröße wie folgt:

$ t = \frac{\text{Differenz der Gruppendurchschnitte}}{\text{Standardfehler der Differenz}} = \frac{7,34}{(6,24\times \sqrt{(1/10 + 1/13)})} = \frac{7,34}{2,62} = 2,80 $

Um die Differenz zwischen den Mittelwerten zu bewerten und eine Entscheidung zu unseren Fitnessstudio-Programmen zu treffen, vergleichen wir die statistische Kenngröße mit einem theoretischen Wert aus der t-Verteilung. Diese Maßnahme umfasst vier Schritte:

  1. Wir legen das Risiko für die Feststellung einer signifikanten Differenz fest, das wir einzugehen bereit sind. Im Fall der Körperfettdaten sind wir bereit, ein Risiko von 5 % für die Aussage hinzunehmen, dass die unbekannten Populationsmittelwerte für Männer und Frauen ungleich sind, obwohl sie eigentlich gleich sind. In Statistik-Fachsprache ausgedrückt heißt das, wir legen das Signifikanzniveau, bezeichnet durch α, auf 0,05 fest. Es hat sich bewährt, diese Entscheidung zu fällen, bevor Daten erfasst und statistische Kenngrößen berechnet werden.
  2. Wir berechnen eine Prüfgröße. Unsere Prüfgröße ist 2,80.
  3. Wir suchen den theoretischen Wert in der t-Verteilung basierend auf unserer Null-Hypothese, die angibt, dass die Mittelwerte für Männer und Frauen gleich sind. Die meisten Statistikbücher enthalten Nachschlagetabellen für die t-Verteilung. Außerdem können Sie online Tabellen finden. Wahrscheinlich werden Sie aber Software benutzen und keine Tabellen auf Papier.

    Um diesen Wert zu finden, brauchen wir das Signifikanzniveau (α = 0,05) und die Freiheitsgrade. Die Freiheitsgrade (df) basieren auf den Stichprobengrößen der beiden Gruppen. Für die Körperfettdaten ist das:

    $ df = n_1 + n_2 - 2 = 10 + 13 – 2 = 21 $

    Der t-Wert für α = 0,05 und 21 Freiheitsgrade lautet 2,080.
  4. Wir vergleichen den Wert unserer Prüfgröße (2,80) mit dem t-Wert. Da 2,80 > 2,080 verwerfen wir die Null-Hypothese, dass der mittlere Körperfettanteil für Männer und Frauen gleich ist, und schlussfolgern, dass wir einen Nachweis darüber haben, dass der Körperfettanteil der Population bei Männern und Frauen unterschiedlich ist.

Einzelheiten zur Statistik

Sehen wir uns die Körperfettdaten und den Zwei-Stichproben-t-Test unter Einsatz statistischer Begriffe an.

Unsere Null-Hypothese lautet, dass die zugrunde liegenden Populationsmittelwerte gleich sind. Die Null-Hypothese wird wie folgt formuliert:

$ H_o:  \mathrm{\mu_1} =\mathrm{\mu_2} $

Die Alternativhypothese lautet, dass die Mittelwerte ungleich sind. Die Formulierung sieht dann wie folgt aus:

$ H_o:  \mathrm{\mu_1} \neq \mathrm{\mu_2} $

Wir berechnen den Durchschnitt jeder Gruppe und berechnen anschließend die Differenz zwischen den beiden Durchschnittswerten. Die Formulierung sieht dann wie folgt aus:

$\overline{x_1} -  \overline{x_2} $

Wir berechnen die gepoolte Standardabweichung. Dafür nehmen wir gleiche Varianzen der zugrunde liegenden Populationen an. Die gepoolte Varianzformel lautet wie folgt:

$ s_p^2 = \frac{((n_1 – 1)s_1^2) + ((n_2 – 1)s_2^2)} {n_1 + n_2 – 2} $

Die Formel zeigt die Stichprobengröße für die erste Gruppe als n1 und die der zweiten Gruppe als n2. Die Standardabweichungen für die beiden Gruppen sind s1 und s2. Dieser Schätzer ermöglicht unterschiedliche Beobachtungszahlen für die beiden Gruppen. Die gepoolte Standardabweichung entspricht der Quadratwurzel der Varianz und wird mit sp bezeichnet.

Was ist, wenn Ihre Stichprobengrößen bei beiden Gruppen gleich sind? In diesem Fall entspricht der gepoolte Schätzer der Varianz einfach dem Durchschnitt der Varianzen für die beiden Gruppen:

$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $

Die Prüfgröße wird folgendermaßen berechnet:

$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $

Der Zähler der Prüfgröße ist die Differenz zwischen den beiden Gruppendurchschnitten. Er ermöglicht eine Einschätzung der Differenz zwischen den beiden unbekannten Populationsmittelwerten. Der Nenner ist ein Schätzer des Standardfehlers der Differenz zwischen den beiden unbekannten Populationsmittelwerten.

Fachliches Detail: Für einen einzelnen Mittelwert ist der Standardfehler $ s/\sqrt{n} $ . Die obige Formel erweitert diese Idee auf zwei Gruppen, die einen gepoolten Schätzer für s (Standardabweichung) verwenden und unterschiedliche Gruppengrößen aufweisen können.

Anschließend vergleichen wir die Prüfgröße mit einem t-Wert unseres gewählten Alpha-Werts und den Freiheitsgraden für unsere Daten. Wir ziehen die Körperfettdaten als Beispiel heran und legen α = 0,05 fest. Die Freiheitsgrade (df) basieren auf den Gruppengrößen und werden wie folgt berechnet:

$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $

In der Formel ist die Stichprobengröße für die erste Gruppe als n1 und die der zweiten Gruppe als n2 angegeben. Statistiker schreiben den t-Wert mit α = 0,05 und 21 Freiheitsgraden wie folgt:

$ t_{0.05,21} $

Der t-Wert für α = 0,05 und 21 Freiheitsgrade beträgt 2,080. Es gibt zwei mögliche Ergebnisse für unseren Vergleich:

  • Die Prüfgröße ist niedriger als der t-Wert. Sie können die Hypothese gleicher Mittelwerte also nicht verwerfen. Sie schlussfolgern, dass die Daten die Annahme unterstützen, dass die Männer und Frauen den gleichen durchschnittlichen Körperfettanteil haben.
  • Die Prüfgröße ist höher als der t-Wert. Sie verwerfen die Hypothese gleicher Mittelwerte. Sie schlussfolgern nicht, dass die Männer und Frauen den gleichen durchschnittlichen Körperfettanteil haben.

t-Test mit ungleichen Varianzen

Wenn die Varianzen für die zwei Gruppen ungleich sind, können wir den gepoolten Schätzer der Standardabweichung nicht verwenden. Stattdessen wenden wir den Standardfehler für jede Gruppe separat an. Die Prüfgröße lautet:

$ t = \frac{ (\overline{x_1} -  \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $

Der Zähler der Prüfgröße ist gleich. Er berechnet sich aus der Differenz zwischen den Durchschnittswerten der beiden Gruppen. Der Nenner ist ein Schätzer des Gesamt-Standardfehlers der Differenz zwischen den Mittelwerten. Er basiert auf dem separaten Standardfehler der einzelnen Gruppen.

Die Berechnung der Freiheitsgrade für den t-Wert ist bei ungleichen Varianzen komplexer als bei gleichen Varianzen und wird für gewöhnlich Statistik-Software überlassen. Sie müssen sich merken, dass Sie nicht die einfache Formel für die Freiheitsgrade nutzen können, wenn Sie den gepoolten Schätzer der Standardabweichung nicht anwenden können.

Test auf Normalverteilung

Die Normalverteilungsannahme ist wichtiger, wenn die beiden Gruppen kleinere Stichprobengrößen aufweisen.

Normalverteilungen sind symmetrisch, das heißt, sie sind auf beiden Seiten der Mitte „gerade“. Normalverteilungen weisen keine Extremwerte oder Ausreißer auf. Sie können diese beiden Eigenschaften einer Normalverteilung mithilfe einer Grafik überprüfen. Zuvor haben wir entschieden, dass die Körperfettdaten „nahe genug“ an der Normalverteilung sind, um eine Normalverteilung anzunehmen. Die folgende Abbildung zeigt ein Diagramm der Normal-Quantile für Männer und Frauen und stützt unsere Entscheidung.

Abbildung 2: Diagramm der Normal-Quantile für die Körperfettmessungen für Männer und Frauen

Sie können auch mithilfe von Software einen formellen Test auf Normalverteilung machen. Die obige Abbildung zeigt die Ergebnisse für Tests auf Normalverteilung mit JMP-Software. Wir testen jede Gruppe separat. Sowohl der Test für Männer als auch der Test für Frauen zeigen, dass wir die Hypothese einer Normalverteilung nicht verwerfen können. Wir können mit der Annahme fortfahren, dass die Körperfettdaten für Männer und Frauen normalverteilt sind.

Testen auf ungleiche Varianzen

Das Testen auf ungleiche Varianzen ist ein komplexes Verfahren. Wir zeigen Ihnen nicht alle Einzelheiten der Berechnungen, sondern lediglich die Ergebnisse aus der JMP-Software. Die folgende Abbildung zeigt die Ergebnisse eines Tests auf ungleiche Varianzen für die Körperfettdaten.

Abbildung 3: Test auf ungleiche Varianzen für die Körperfettdaten

Ohne an dieser Stelle alle Einzelheiten der verschiedenen Arten von Tests auf ungleiche Varianzen zu erläutern, verwenden wir den F-Test. Vor dem Test beschließen wir ein Risiko von 10 % für die Schlussfolgerung, dass die Varianzen gleich sind, obwohl sie es eigentlich nicht sind. Das bedeutet, wir legen für α = 0,10 fest.

Wie die meisten Statistiksoftware-Lösungen zeigt JMP den p-Wert für einen Test. Das ist die Wahrscheinlichkeit dafür, einen extremeren Wert für die Prüfgröße als den beobachteten zu finden. Manuell ist dies schwer zu berechnen. Für die obige Abbildung und die F-Prüfgröße von 1,654 lautet der p-Wert 0,4561. Das ist größer als unser α-Wert: 0,4561 > 0,10. Sie können die Hypothese gleicher Varianzen also nicht verwerfen. Praktisch heißt das, dass wir den Zwei-Stichproben-t-Test mit der Annahme gleicher Varianzen für die beiden Gruppen fortsetzen können.

p-Werte verstehen

Mit einer bildlichen Darstellung können Sie prüfen, ob Ihre Prüfgröße ein extremerer Wert in der Verteilung ist.Die folgende Abbildung zeigt eine t-Verteilung mit 21 Freiheitsgraden.

Abbildung 4: t-Verteilung mit 21 Freiheitsgraden und α = 0,05

Da unser Test zweiseitig ist und wir für α = 0,05 festgelegt haben, zeigt die Abbildung, dass der Wert von 2,080 in beiden Verteilungsenden 2,5 % der Daten „abschneidet“. Nur 5 % der Daten insgesamt liegen in den Verteilungsenden außerhalb von 2,080. Da unsere Prüfgröße von 2,80 außerhalb des Abschnittspunkts liegt, verwerfen wir die Null-Hypothese der gleichen Mittelwerte.

Zusammenführung in der Software

Die folgende Abbildung zeigt die Ergebnisse für den Zwei-Stichproben-t-Test für die Körperfettdaten aus der JMP-Software.

Abbildung 5: Ergebnisse des Zwei-Stichproben-t-Tests mit JMP-Software

Die Ergebnisse für den t-Test mit zwei Stichproben, bei dem gleiche Varianzen angenommen werden, stimmen mit unseren vorherigen Berechnungen überein. Die Prüfgröße ist 2,79996. Die Software zeigt Ergebnisse für einen zweiseitigen Test und für einseitige Tests an. Für unseren Zweck müssen wir den zweiseitigen Test heranziehen (Wahrsch. > |t|). Unsere Null-Hypothese lautet: Der Mittelwert des Körperfettanteils ist bei Männern und Frauen gleich. Unsere Alternativhypothese lautet, dass der Mittelwert des Körperfettanteils nicht gleich ist. Die einseitigen Tests sind für einseitige Alternativhypothesen gedacht – zum Beispiel die Null-Hypothese, dass der Körperfettanteil bei Männern niedriger als der bei Frauen ist.

Wir können die Hypothese eines gleichen Mittelwerts für den Körperfettanteil der beiden Gruppen verwerfen und schlussfolgern, dass wir einen Nachweis dafür haben, dass sich der Körperfettanteil in der Population zwischen Männern und Frauen unterscheidet. Die Software zeigt einen p-Wert von 0,0107 an. Wir haben ein Risiko von 5 % dafür festgelegt, die Schlussfolgerung zu ziehen, dass sich der Mittelwert des Körperfettanteils bei Männern und Frauen unterscheidet, obwohl das nicht zutrifft. Diese Entscheidung muss unbedingt getroffen werden, bevor der statistische Test durchgeführt wird.

Die Abbildung zeigt außerdem die Ergebnisse für den t-Test ohne Annahme gleicher Varianzen. Für diesen Test wird kein gepoolter Schätzer der Standardabweichung verwendet. Wie zuvor erwähnt verfügt dieser Test außerdem über eine komplexe Formel für Freiheitsgrade. Sie sehen, es gibt 20,9888 Freiheitsgrade. Die Software zeigt einen p-Wert von 0,0086 an. Wieder können wir mit unserem festgelegten Risiko von 5 % die Null-Hypothese verwerfen, dass der Mittelwert des Körperfettanteils für Männer und Frauen gleich ist.

Weitere Themen

Was ist, wenn ich mehr als zwei Gruppen habe?

Wenn Sie mehr als zwei unabhängige Gruppen haben, können Sie den Zwei-Stichproben-t-Test nicht benutzen. Sie sollten stattdessen eine multiple Vergleichsmethode einsetzen. Die ANOVA oder Varianzanalyse ist eine solche Methode. Andere multiple Vergleichsmethoden sind der Tukey-Kramer-Test aller paarweisen Differenzen, die Mittelwertanalyse (ANOM) zum Vergleich der Gruppenmittelwerte mit dem Gesamtmittelwert oder der Dunnett-Test zum Vergleich des Mittelwerts jeder Gruppe mit einem Kontrollmittelwert.

Was ist, wenn meine Daten nicht normalverteilt sind?

Wenn Ihre Stichprobengröße sehr klein ist, können Sie möglicherweise nur schwer auf Normalität testen. In diesem Fall müssen Sie gegebenenfalls Ihr Verständnis der Messungen nutzen. Bezüglich der Körperfettdaten weiß der Trainer beispielsweise, dass die zugrunde liegende Verteilung des Körperfettanteils eine Normalverteilung ist. Selbst bei einer sehr kleinen Stichprobengröße würde der Trainer wahrscheinlich mit dem t-Test fortfahren und Normalität annehmen.

Was ist, wenn Sie wissen, dass die zugrunde liegenden Messungen nicht normalverteilt sind? Oder wenn Ihre Stichprobengröße groß ist und der Test auf Normalität abgelehnt wird? In diesem Fall können Sie nichtparametrische Analysen einsetzen. Diese Arten der Analyse hängen nicht von einer Annahme dahingehend ab, dass die Datenwerte aus einer bestimmten Verteilung stammen. Für den Zwei-Stichproben-t­-Test wäre der Wilcoxon-Rangsummentest ein nichtparametrischer Test, den Sie verwenden könnten.