Der Ein-Stichproben-t-Test
Was ist der Ein-Stichproben-t-Test?
Der Ein-Stichproben-t-Test ist ein statistischer Hypothesentest, um zu bestimmten, ob sich ein unbekannter Populationsmittelwert von einem spezifischen Wert unterscheidet.
Wann kann ich den Test nutzen?
Sie können den Test für stetige Daten nutzen. Bei Ihren Daten sollte es sich um eine zufällige Stichprobe aus einer normalverteilten Population handeln.
Was ist, wenn meine Daten nicht normalverteilt sind?
Wenn Ihre Stichprobengrößen sehr klein sind, können Sie möglicherweise nicht auf Normalität testen. Stattdessen müssen Sie auf Ihr Verständnis der Daten zurückgreifen. Wenn Sie nicht mit Sicherheit von Normalität ausgehen können, können Sie einen nichtparametrischen Test durchführen, der keine Normalität annimmt.
Anwendung des Ein-Stichproben-t-Tests
In den folgenden Abschnitten erklären wir, welche Voraussetzungen für den Test bestehen, wie Sie Ihre Daten prüfen, wie Sie den Test durchführen und wie Sie die Testergebnisse und statistischen Einzelheiten interpretieren.
Was brauchen wir?
Für den Ein-Stichproben-t-Test brauchen wir eine Variable.
Außerdem brauchen wir eine Vorstellung bzw. Hypothese, dass der Mittelwert der Population einen bestimmten Wert hat. Hier sind zwei Beispiele:
- Eine Klinik hat eine zufällige Stichprobe mit Cholesterinmessungen für Männer. Diese Patienten wurden nicht wegen ihres Cholesterinspiegels behandelt. Sie bekamen keine Medikamente gegen einen hohen Cholesterinwert. Die Klinik möchte wissen, ob sich der Cholesterin-Mittelwert der Patienten von einem Zielwert von 200 mg unterscheidet.
- Wir messen den Proteingehalt einer Stichprobe Energieriegel in Gramm. Laut Verpackung enthalten die Riegel 20 Gramm Protein. Wir möchten wissen, ob die Aussage auf der Verpackung korrekt ist.
Annahmen für einen Ein-Stichproben-t-Test.
Für einen gültigen Test müssen die Datenwerte folgende Voraussetzungen erfüllen:
- Unabhängig (Werte stehen nicht zueinander in Beziehung)
- Stetig
- Aus einer einfachen zufälligen Stichprobe der Population entnommen
Außerdem wird für die Population eine Normalverteilung angenommen.
Beispiel für einen Ein-Stichproben-t-Test
Angenommen, wir haben eine zufällige Stichprobe von 31 Energieriegeln aus verschiedenen Geschäften erfasst, um die Population der Energieriegel wiederzuspiegeln, die den Verbrauchern zur Verfügung steht. Die Verpackungen der Riegel geben jeweils einen Proteingehalt von 20 Gramm an.
Tabelle 1: Proteingehalt in Gramm in einer zufälligen Stichprobe von Energieriegeln
Energieriegel – Proteingehalt in Gramm | ||||||
---|---|---|---|---|---|---|
20,70 | 27,46 | 22,15 | 19,85 | 21,29 | 24,75 | |
20,75 | 22,91 | 25,34 | 20,33 | 21,54 | 21,08 | |
22,14 | 19,56 | 21,10 | 18,04 | 24,12 | 19,95 | |
19,72 | 18,28 | 16,26 | 17,46 | 20,53 | 22,12 | |
25,06 | 22,44 | 19,08 | 19,88 | 21,39 | 22,33 | 25,79 |
Wenn Sie die obige Tabelle betrachten, sehen Sie, dass einige Riegel weniger als 20 Gramm Protein enthalten. Andere Riegel enthalten mehr. Sie denken vielleicht, dass diese Daten die Vorstellung unterstützen, die Verpackungsaufschrift wäre korrekt. Andere stimmen dem möglicherweise nicht zu. Der statistische Test bietet eine solide Methode zur Entscheidungsfindung, sodass eine einheitliche Entscheidung für einen Datensatz möglich ist.
Die Daten prüfen
Beantworten wir zuerst folgende Frage: Ist der t-Test eine geeignete Methode, um zu prüfen, ob die Energieriegel 20 Gramm Protein enthalten? Die folgende Liste enthält die Voraussetzungen für den Test.
- Die Datenwerte sind unabhängig. Der Proteingehalt eines Energieriegels in Gramm hängt nicht von einem anderen Energieriegel ab. Ein Beispiel für abhängige Werte wäre die Messung von Energieriegeln aus einer einzigen Produktionscharge. Eine Stichprobe aus einer Einzelcharge ist repräsentativ für diese Charge, aber nicht für Energieriegel im Allgemeinen.
- Die Datenwerte sind Messungen des Proteingehalts in Gramm. Die Messungen sind stetig.
- Wir nehmen an, dass die Energieriegel eine einfache, zufällige Stichprobe aus der Gesamtheit der Energieriegel darstellen, die für Verbraucher allgemein zugänglich ist (d. h. eine Mischung als vielen Riegeln).
- Wir nehmen an, dass die Gesamtheit, aus der wir unsere Stichprobe entnehmen, normalverteilt ist. Bei großen Stichproben können wir diese Annahme prüfen.
Wir entscheiden, dass der t-Test eine geeignete Methode ist.
Bevor wir uns der Analyse widmen, sollten wir uns die Daten kurz ansehen. Die folgende Abbildung zeigt ein Histogramm und zusammengefasste statistische Kenngrößen für die Energieriegel.
Auf den ersten Blick sehen wir im Histogramm bereits, dass es keine außergewöhnlichen Datenpunkte oder Ausreißer gibt. Die Daten ergeben eine grob glockenförmige Form, also scheint unsere Annahme einer Normalverteilung angemessen.
Anhand der statistischen Kenngrößen sehen wir, dass der Durchschnitt 21,40 beträgt, also über 20 liegt. Macht dieser Durchschnittswert aus unserer Stichprobe mit 31 Riegeln die Aussage auf der Verpackung, es seien 20 Gramm Protein enthalten, in Bezug auf den unbekannten Mittelwert der gesamten Population hinfällig? Oder nicht?
So führen Sie einen Ein-Stichproben-t-Test durch
Für die t-Test-Berechnungen brauchen wir den Durchschnitt, die Standardabweichung und die Stichprobengröße. Diese Werte finden wir im Abschnitt „Zusammengefasste statistische Kenngrößen“ in Abbildung 1 weiter oben.
Wir runden die statistischen Kenngrößen auf zwei Dezimalstellen. Die Software zeigt mehr Dezimalstellen an und nutzt sie auch für Berechnungen. (Beachten Sie, dass Tabelle 1 nur zwei Dezimalstellen zeigt; die Daten, die bei der Berechnung der zusammengefassten statistischen Kenngrößen zum Einsatz kommen, haben mehr Stellen.)
Zuerst ermitteln wir die Differenz zwischen dem Stichprobendurchschnitt und 20:
$ 21,40-20\ =\ 1,40$
Anschließend berechnen wir den Standardfehler für den Mittelwert. Die Berechnung dafür lautet:
Standardfehler für den Mittelwert = $ \frac{s}{\sqrt{n}}= \frac{2,54}{\sqrt{31}}=0,456 $
Das Ergebnis stimmt mit dem Wert oben in Abbildung 1 überein.
Jetzt haben wir alle Informationen, die wir für die Bestimmung unserer Prüfgröße benötigen. Und so berechnen wir die Prüfgröße:
$ t = \frac{\text{Difference}}{\text{Standard Error}}= \frac{1,40}{0,456}=3,07 $
Um unsere Entscheidung zu treffen, vergleichen wir die Prüfgröße mit einem Wert aus der t-Verteilung. Diese Maßnahme umfasst vier Schritte.
- Wir berechnen eine Prüfgröße. Unsere Prüfgröße lautet 3,07.
- Wir legen das Risiko für den Fall fest, dass eine Differenz erklärt wird, obwohl keine vorliegt, das wir einzugehen bereit sind. Für die Energieriegel-Daten sind wir bereit, ein Risiko von 5 % für die unzutreffende Aussage hinzunehmen, dass der unbekannte Populationsmittelwert ungleich 20 ist, obwohl er es eigentlich nicht ist. In Statistik-Fachsprache ausgedrückt bedeutet das: α = 0,05. In der Praxis sollten Sie Ihr Risikoniveau (α) immer festlegen, bevor Sie mit der Datenerfassung beginnen.
Wir suchen den Wert in der t-Verteilung basierend auf unserer Entscheidung. Für einen t-Test brauchen wir die Freiheitsgrade, um diesen Wert zu ermitteln. Die Freiheitsgrade basieren auf der Stichprobengröße. Für die Energieriegel-Daten gilt:
Freiheitsgrade = $ n - 1 = 31 - 1 = 30 $
Der kritische Wert für t mit α = 0,05 und 30 Freiheitsgraden ist +/-2,043. Die meisten Statistikbücher enthalten Nachschlagetabellen für die Verteilung. Außerdem können Sie online Tabellen finden. Wahrscheinlich werden Sie aber Software benutzen und keine Tabellen auf Papier.
Wir vergleichen den Wert unserer Prüfgröße (3,07) mit dem t-Wert. Da 3,07 > 2,043 verwerfen wir die Null-Hypothese, dass der Mittelwert des Proteingehalts in Gramm gleich 20 ist. Wir ziehen die praktische Schlussfolgerung, dass die Aussage auf der Verpackung falsch ist und dass der Populationsmittelwert des Proteingehalts in Gramm größer als 20 ist.
Einzelheiten zur Statistik
Sehen wir uns die Energieriegel-Daten und den Ein-Stichproben-t-Test unter Einsatz statistischer Begriffe an.
Unsere Null-Hypothese lautet, dass der zugrunde liegende Populationsmittelwert gleich 20 ist. Die Null-Hypothese wird wie folgt formuliert:
$ H_o: \mathrm{\mu} = 20 $
Die Alternativhypothese lautet, dass der zugrunde liegende Populationsmittelwert ungleich 20 ist. Die Verpackungen, auf denen ein Proteingehalt von 20 Gramm angegeben ist, enthalten so eine falsche Behauptung. Die Formulierung sieht dann wie folgt aus:
$ H_a: \mathrm{\mu} ≠ 20 $
Das ist ein zweifaktorieller Test. Wir testen, ob der Populationsmittelwert in eine Richtung von 20 Gramm abweicht. Wenn wir die Null-Hypothese, dass der Mittelwert gleich 20 Gramm ist, verwerfen können, lässt sich daraus praktisch schlussfolgern, dass die Aussagen auf den Verpackungen der Riegel falsch sind. Wenn wir die Null-Hypothese nicht verwerfen können, ziehen wir die praktische Schlussfolgerung, dass die Aussagen auf den Riegelverpackungen richtig sein könnten.
Wir berechnen den Durchschnitt für die Stichprobe und anschließend die Differenz zum Populationsmittelwert Mu:
$ \overline{x} - \mathrm{\mu} $
Wir berechnen den Standardfehler wie folgt:
$ \frac{s}{ \sqrt{n}} $
Die Formel zeigt die Standardabweichung der Stichprobe als s und die Stichprobengröße als n.
Für die Prüfgröße kommt die folgende Formel zur Anwendung:
$ \dfrac{\overline{x} - \mathrm{\mu}} {s / \sqrt{n}} $
Wir vergleichen die Prüfgröße mit einem t-Wert unseres gewählten Alpha-Werts und den Freiheitsgraden für unsere Daten. Mit den Energieriegel-Daten als Beispiel legen wir α = 0,05 fest. Die Freiheitsgrade (df) basieren auf der Stichprobengröße und werden wie folgt berechnet:
$ df = n - 1 = 31 - 1 = 30 $
Statistiker schreiben den t-Wert mit α = 0,05 und 30 Freiheitsgraden wie folgt:
$ t_{0.05,30} $
Der t-Wert für einen zweifaktoriellen Test mit α = 0,05 und 30 Freiheitsgraden beträgt +/-2,042. Es gibt zwei mögliche Ergebnisse für unseren Vergleich:
- Die Prüfgröße ist weniger extrem als die kritischen t-Werte. Mit anderen Worten: Die Prüfgröße ist nicht kleiner als -2,042 oder nicht größer als +2,042. Sie können die Null-Hypothese, dass der Mittelwert gleich dem festgelegten Wert ist, nicht verwerfen. In unserem Beispiel könnten Sie nicht schlussfolgern, dass die Verpackungsaufschrift für die Proteinriegel geändert werden sollte.
- Die Prüfgröße ist extremer als die kritischen t-Werte. Mit anderen Worten: Die Prüfgröße ist kleiner als -2,042 oder größer als +2,042. Sie verwerfen die Null-Hypothese, dass der Mittelwert gleich dem festgelegten Wert ist. In unserem Beispiel schlussfolgern Sie, dass entweder die Verpackungsaufschrift geändert wurden muss, oder dass der Produktionsprozess so verbessert werden muss, dass im Durchschnitt Riegel mit einem Proteingehalt von 20 Gramm hergestellt werden.
Test auf Normalverteilung
Die Normalverteilungsannahme ist bei kleinen Stichprobengrößen wichtiger als bei großen.
Normalverteilungen sind symmetrisch, das heißt, sie sind auf beiden Seiten der Mitte „gerade“. Normalverteilungen weisen keine Extremwerte oder Ausreißer auf. Sie können diese beiden Eigenschaften einer Normalverteilung mithilfe einer Grafik überprüfen. Zuvor haben wir entschieden, dass die Energieriegel-Daten „nahe genug“ an der Normalverteilung sind, um eine Normalverteilung anzunehmen. Die folgende Abbildung zeigt ein Diagramm der Normal-Quantile für die Daten und unterstützt unsere Entscheidung.
Sie können auch mithilfe von Software einen formellen Test auf Normalverteilung machen. Die folgende Abbildung zeigt die Ergebnisse für Tests auf Normalverteilung mit JMP-Software. Wir können die Hypothese einer Normalverteilung nicht verwerfen.
Wir können mit unserer Annahme fortfahren, dass die Energieriegel-Daten normalverteilt sind.
Was ist, wenn meine Daten nicht normalverteilt sind?
Wenn Ihre Stichprobengröße sehr klein ist, können Sie nur schwer auf Normalität testen. In diesem Fall müssen Sie gegebenenfalls Ihr Verständnis der Messungen nutzen. Für die Energieriegel-Daten weiß das Unternehmen beispielsweise, dass die zugrunde liegende Verteilung des Proteingehalts in Gramm eine Normalverteilung ist. Selbst bei einer sehr kleinen Stichprobengröße würde das Unternehmen wahrscheinlich mit dem t-Test fortfahren und eine Normalverteilung annehmen.
Was ist, wenn Sie wissen, dass die zugrunde liegenden Messungen nicht normalverteilt sind? Oder wenn Ihre Stichprobengröße groß ist und der Test auf Normalität abgelehnt wird? In diesem Fall können Sie einen nichtparametrischen Test einsetzen. Nichtparametrische Analysen hängen nicht von einer Annahme dahingehend ab, dass die Datenwerte aus einer bestimmten Verteilung stammen. Für den Ein-Stichproben-t-Test ist als nichtparametrische Variante die Durchführung eines Wilcoxon-Vorzeichen-Rangtests möglich.
p-Werte verstehen
Anhand einer bildlichen Darstellung können Sie feststellen, ob Ihre Prüfgröße extremer als ein festgelegter Wert in der Verteilung ist. Die folgende Abbildung zeigt eine t-Verteilung mit 30 Freiheitsgraden.
Da unser Test zweiseitig ist und wir α = 0,05 festgelegt haben, erkennen wir anhand der Abbildung, dass der Wert 2,042 insgesamt 5 % der Daten in den kombinierten Verteilungsenden „abschneidet“.
Die nächste Abbildung zeigt unsere Ergebnisse. Sie sehen, dass die Prüfgröße über dem festgelegten kritischen Wert liegt. Sie liegt weit genug außerhalb im Verteilungsende, um die Hypothese zu verwerfen, dass der Mittelwert gleich 20 beträgt.
Zusammenführung in der Software
Wahrscheinlich verwenden Sie eine Software, um einen t-Test durchzuführen. Die folgende Abbildung zeigt die Ergebnisse für den Ein-Stichproben-t-Test für die Energieriegel-Daten, die mithilfe der JMP-Software generiert wurden.
Die Software zeigt den Wert der Null-Hypothese (20) und den Durchschnitt sowie die Standardabweichung von den Daten an. Die Prüfgröße ist 3,07. Dieser Wert stimmt mit den obigen Berechnungen überein.
Die Software zeigt Ergebnisse für einen zweiseitigen Test und für einseitige Tests an. Für unseren Zweck ist der zweiseitige Test relevant. Unsere Null-Hypothese lautet, dass der Mittelwert des Proteingehalts in Gramm gleich 20 beträgt. Unsere Alternativhypothese lautet, dass der Mittelwert des Proteingehalts in Gramm ungleich 20 ist.Die Software zeigt einen p-Wert von 0,0046 für den zweiseitigen Test. Dieser p-Wert beschreibt die Wahrscheinlichkeit für einen Stichprobendurchschnitt von 21,4 oder noch extremeren Werten, wenn der zugrunde liegende Populationsmittelwert eigentlich 20 beträgt. Mit anderen Worten die Wahrscheinlichkeit für die Beobachtung eines Stichprobenmittelwerts, der so verschieden oder noch verschiedener von 20 ist, wie der Mittelwert, den wir in unserer Stichprobe beobachtet haben. Ein p-Wert von 0,0046 bedeutet, dass die Wahrscheinlichkeit bei etwa 46 zu 10.000 liegt. Wir können mit ziemlicher Sicherheit die Null-Hypothese verwerfen, dass der Populationsmittelwert gleich 20 ist.