Chi-Quadrat-Test auf Anpassungsgüte

Was ist der Chi-Quadrat-Test auf Anpassungsgüte?

Der Chi-Quadrat-Test auf Anpassungsgüte ist ein statistischer Hypothesentest und wird verwendet, um zu prüfen, ob eine Variable mit hoher Wahrscheinlichkeit einer festgelegten Verteilung folgt. Er wird oft verwendet, um zu prüfen, ob Stichprobendaten repräsentativ für die Gesamtheit sind.

Wann kann ich den Test nutzen?

Diesen Test können Sie benutzen, wenn die Häufigkeiten von Werten für eine kategoriale Variable gegeben sind.

Ist das derselbe Test wie der Pearson Chi-Quadrat-Test?

Ja.

Verwendung des Chi-Quadrat-Tests auf Anpassungsgüte

Der Chi-Quadrat-Test auf Anpassungsgüte prüft, ob Ihre Stichprobendaten mit hoher Wahrscheinlichkeit einer bestimmten theoretischen Verteilung folgen. Wir haben einen Satz mit Datenwerten und eine Vorstellung davon, wie die Datenwerte verteilt sind. Der Test bietet uns eine Möglichkeit, zu entscheiden, ob die Datenwerte „gut genug“ an unsere Vorstellung angepasst sind, oder ob unsere Vorstellung fragwürdig ist.

Was brauchen wir?

Für den Test auf Anpassungsgüte brauchen wir eine Variable. Außerdem brauchen wir eine Idee bzw. eine Hypothese darüber, wie diese Variable verteilt ist. Hier sind einige Beispiele zum Verständnis:

  • Wir haben Bonbontüten mit fünf Geschmacksrichtungen pro Tüte. Die Tüten sollten die gleiche Anzahl an Bonbons für jede Geschmacksrichtung enthalten. Unsere Idee besteht darin, zu testen, ob das Verhältnis der fünf Geschmacksrichtungen in jeder Tüte gleich ist.
  • In einer Gruppe von Kinder-Sportteams möchten wir Kinder mit viel Erfahrung, Kinder mit etwas Erfahrung und Kinder ohne Erfahrung gleichmäßig auf die Teams verteilen. Nehmen wir an, dass uns folgende Informationen vorliegen: 20 Prozent der Kinder in jeder Liga haben viel Erfahrung, 65 Prozent haben etwas Erfahrung und 15 Prozent sind Anfänger ohne jegliche Erfahrung. Die Idee besteht nun darin, zu testen, ob jedes Team dasselbe Verhältnis von Kindern mit viel, etwas und keiner Erfahrung hat wie die Liga insgesamt.

Um den Test auf Anpassungsgüte bei einem Datensatz anzuwenden, brauchen wir Folgendes:

  • Datenwerte, die eine einfache, zufällige Stichprobe der Gesamtpopulation darstellen.
  • Kategoriale oder nominale Daten. Der Chi-Quadrat-Test auf Anpassungsgüte eignet sich nicht für stetige Daten.
  • Ein Datensatz, der umfassend genug ist, um mindestens fünf Werte in jeder beobachteten Datenkategorie erwarten zu können.

Beispiel für einen Chi-Quadrat-Test auf Anpassungsgüte

Wir verwenden Bonbontüten als Beispiel.Wir erheben eine zufällige Stichprobe aus zehn Tüten.Jede Tüte enthält 100 Bonbons in fünf Geschmacksrichtungen. Unsere Hypothese lautet, dass die Anteile der fünf Geschmacksrichtungen in jeder Tüte gleich sind.

Beantworten wir zunächst die Frage: Ist der Chi-Quadrat-Test auf Anpassungsgüte eine geeignete Methode, um die Verteilung der Geschmacksrichtungen in Bonbontüten zu beurteilen?

  • Wir verfügen über eine grundlegende zufällige Stichprobe mit 10 Bonbontüten. Diese Anforderung erfüllen wir.
  • Unsere kategoriale Variable sind die Bonbon-Geschmacksrichtungen. Wir kennen die Häufigkeit jeder Geschmacksrichtung in 10 Bonbontüten. Diese Anforderung erfüllen wir.
  • Jede Tüte enthält 100 Bonbons. Jede Tüte umfasst fünf Bonbon-Geschmacksrichtungen. Wir erwarten gleiche Häufigkeiten für jede Geschmacksrichtung. Das bedeutet, wir erwarten 20 (100 / 5) Bonbons pro Geschmacksrichtung pro Tüte. Für 10 Tüten in unserer Stichprobe erwarten wir 200 (10 x 20) Bonbons pro Geschmacksrichtung. Damit ist die Anforderung von fünf erwarteten Werten pro Kategorie mehr als erfüllt.

Basierend auf den obigen Antworten können wir sagen: Ja, der Chi-Quadrat-Test auf Anpassungsgüte ist eine geeignete Methode, um die Verteilung der Geschmacksrichtungen in Bonbontüten zu beurteilen.

Abbildung 1 weiter unten zeigt die kombinierten Geschmacksrichtungshäufigkeiten aller 10 Bonbontüten.

Abbildung 1: Balkendiagramm mit Häufigkeiten von Bonbon-Geschmacksrichtungen in 10 Tüten

Auch ohne statistische Berechnungen sehen wir schon, dass die Anzahl der Bonbons pro Geschmacksrichtung nicht gleich ist. Einige Geschmacksrichtungen weisen weniger als die erwarteten 200 Bonbons auf, andere wiederum mehr. Doch wie stark unterscheiden sich die Anteile der Geschmacksrichtungen? Ist die Anzahl der Bonbons ähnlich genug, um schlussfolgern zu können, dass viele Tüten dieselbe Anzahl von Bonbons pro Geschmacksrichtung enthalten? Oder ist die Anzahl der Bonbons so unterschiedlich, dass wir nicht zu diesem Schluss kommen können? Anders ausgedrückt: Zeigen unsere Datenwerte eine „ausreichend gute“ Anpassung für die Annahme, dass für jede Geschmacksrichtung die gleiche Bonbonanzahl vorhanden ist?

Um das zu entscheiden, müssen wir die Differenz zwischen unseren Beobachtungen und unseren Erwartungen ermitteln. Anschließend quadrieren wir die Differenz, um den Geschmacksrichtungen mit weniger Bonbons als erwartet dieselbe Gewichtung wie den Geschmacksrichtungen mit mehr Bonbons als erwartet zuzuteilen. Als Nächstes teilen wir das Quadrat durch die erwartete Anzahl und summieren diese Werte. So erhalten wir unsere Prüfgröße.

Diese Schritte sind viel leichter zu verstehen, wenn wir die Zahlen aus unserem Beispiel verwenden.

Beschreiben wir zunächst unsere Erwartungen, falls jede Tüte dieselbe Anzahl Bonbons pro Geschmacksrichtung enthält. Oben haben wir einen Wert von 200 Bonbons für 10 Bonbontüten ermittelt.

Tabelle 1: Vergleich der beobachteten und der erwarteten Anzahl Bonbons pro Geschmacksrichtung

GeschmacksrichtungAnzahl der Bonbons (10 Tüten)Erwartete Anzahl der Bonbons
Apfel180200
Limette250200
Kirsche120200
Kirsche225200
Traube225200

Jetzt ermitteln wir die Differenz zwischen unseren Beobachtungen in den Daten und unseren Erwartungen. Die letzte Spalte in Tabelle 2 weiter unten zeigt diese Differenz:

Tabelle 2: Differenz zwischen den beobachteten und erwarteten Bonbons nach Geschmacksrichtung

GeschmacksrichtungAnzahl der Bonbons (10 Tüten)Erwartete Anzahl der Bonbons„Beobachtet” – „Erwartet”
Apfel180200180 - 200 = -20
Limette250200250 - 200 = 50
Kirsche120200120 - 200 = -80
Orange225200225 - 200 = 25
Traube225200225 - 200 = 25

Einige Differenzen sind positiv, andere negativ. Würden wir diese einfach addieren, käme Null heraus. Stattdessen quadrieren wir die Differenzen. So erhalten die Geschmacksrichtungen mit weniger Bonbons als erwartet dieselbe Gewichtung wie die Geschmacksrichtungen mit mehr Bonbons als erwartet.

Tabelle 3: Berechnung der Quadrat-Differenz zwischen beobachteten und erwarteten Werten für jede Bonbon-Geschmacksrichtung

GeschmacksrichtungAnzahl der Bonbons (10 Tüten)Erwartete Anzahl der Bonbons„Beobachtet” – „Erwartet”Quadrat-Differenz
Apfel180200180 - 200 = -20400
Limette250200250 - 200 = 502.500
Kirsche120200120 - 200 = -806.400
Orange225200225 - 200 = 25625
Traube225200225 - 200 = 25625

Anschließend teilen wir die Quadrat-Differenz durch die erwartete Anzahl:

Tabelle 4: Berechnung der Quadrat-Differenz / erwartete Anzahl der Bonbons pro Geschmacksrichtung

GeschmacksrichtungAnzahl der Bonbons (10 Tüten)Erwartete Anzahl der Bonbons„Beobachtet” – „Erwartet”Quadrat-DifferenzQuadrat-Differenz / erwartete Anzahl
Apfel180200180 - 200 = -20400400 / 200 = 2
Limette250200250 - 200 = 502.5002.500 / 200 = 12,5
Kirsche120200120 - 200 = -806.4006.400 / 200 = 32
Orange225200225 - 200 = 25625625 / 200 = 3,125
Traube225200225 - 200 = 25625625 / 200 = 3,125

Schließlich addieren wir die Zahlen in der letzten Spalte, um unsere Prüfgröße zu berechnen:

2 $ + 12,5 $ + 32 $ + 3,125 $ + 3,125 $ = 52,75 $

Um eine Schlussfolgerung zu ziehen, vergleichen wir die Prüfgröße mit einem kritischen Wert aus der Chi-Quadrat-Verteilung. Diese Maßnahme umfasst vier Schritte:

  1. Zuerst legen wir das Risiko fest, das wir für eine falsche Schlussfolgerung auf Basis unserer Stichprobenbeobachtungen einzugehen bereit sind. Für die Bonbondaten beschließen wir vor der Erfassung der Daten, dass wir bereit sind, ein Risiko von 5 % für die Schlussfolgerung einzugehen, dass die Geschmacksrichtungshäufigkeiten in den Tüten für die gesamte Population nicht gleich sind, obwohl sie es eigentlich sind. In Statistik-Fachsprache heißt das, wir legen das Signifikanzniveau, bezeichnet durch α, auf 0,05 fest.
  2. Wir berechnen eine Prüfgröße. Unsere Prüfgröße ist 52,75.
  3. Wir ermitteln den theoretischen Wert aus der Chi-Quadrat-Verteilung basierend auf unserem Signifikanzniveau. Der theoretische Wert ist der Wert, den wir erwarten könnten, wenn die Tüten dieselbe Anzahl Bonbons pro Geschmacksrichtung enthalten.

    Zusätzlich zum Signifikanzniveau brauchen wir auch die Freiheitsgrade, um diesen Wert zu ermitteln. Beim Test auf Anpassungsgüte entspricht dieser Wert der Anzahl der Kategorien minus eins. Wir haben fünf Bonbon-Geschmacksrichtungen, also haben wir 4 (5 – 1) Freiheitsgrade.

    Der Chi-Quadrat-Wert mit α = 0,05 und 4 Freiheitsgraden ist 9,488.
  4. Wir vergleichen den Wert unserer Prüfgröße (52,75) mit dem Chi-Quadrat-Wert. Da 52,75 > 9,488 verwerfen wir die Null-Hypothese, dass die Anteile der Bonbon-Geschmacksrichtungen gleich sind.

 

Wir ziehen die praktische Schlussfolgerung, dass die Bonbontüten der gesamten Population nicht die gleiche Anzahl Bonbons pro Geschmacksrichtung (insgesamt fünf) aufweisen. Das ergibt Sinn, wenn wir uns die ursprünglichen Daten ansehen. Wenn Ihre Lieblingsgeschmacksrichtung Limette ist, haben Sie wahrscheinlich mehr von Ihrer Lieblingssorte als von den anderen. Wenn Sie aber am liebsten Kirschbonbons essen, werden Sie wahrscheinlich enttäuscht, da die Tüten weniger Kirschbonbons enthalten, als Sie erwarten.

Ergebnisse verstehen

Um den Test und die Ergebnisse nachzuvollziehen, verwenden wir einige Graphen.

Ein einfaches Balkendiagramm der Daten zeigt uns die beobachteten Häufigkeiten der Bonbon-Geschmacksrichtungen:

 

Abbildung 2: Balkendiagramm der beobachteten Häufigkeiten der Geschmacksrichtungen

Ein weiteres einfaches Balkendiagramm zeigt die erwartete Anzahl von 200 pro Geschmacksrichtung. So sähe unser Diagramm aus, wenn die Bonbontüten pro Geschmacksrichtung dieselbe Anzahl Bonbons enthalten würden.

Abbildung 3: Balkendiagramm der erwarteten Anzahl pro Geschmacksrichtung

Das folgende vergleichende Diagramm zeigt die beobachteten Bonbon-Häufigkeiten in Blau. Die orangefarbenen Balken zeigen die erwartete Anzahl an Bonbons. Sie sehen, dass einige Geschmacksrichtungen mehr Bonbons als erwartet aufweisen, andere dagegen weniger.

Abbildung 4: Balkendiagramm mit dem Vergleich zwischen beobachteter und erwarteter Bonbon-Anzahl

Der statistische Test ist eine Möglichkeit, die Differenz in Zahlen auszudrücken. Sind die beobachteten Daten aus unserer Stichprobe „nahe genug“ an den Erwartungen, um die Schlussfolgerung zuzulassen, dass die Anteile der Geschmacksrichtungen in der Gesamtheit der Tüten gleich sind oder nicht? Aus den obigen Bonbondaten würden die meisten Leute selbst ohne statistischen Test ableiten, dass die Daten zu stark voneinander abweichen.

Was wäre, wenn Ihre Daten wie das Beispiel in Abbildung 5 unten aussähen? Die violetten Balken zeigen die beobachtete Anzahl, die orangefarbenen Balken zeigen die erwartete Anzahl. Einige Leute würden sagen, dass die Daten „nahe genug“ aneinander liegen, andere würden dem widersprechen. Der statistische Test bietet eine allgemeine Methode zur Entscheidungsfindung, sodass alle dieselbe Entscheidung für einen Satz von Datenwerten treffen.

Abbildung 5: Balkendiagramm mit dem Vergleich der erwarteten und beobachteten Werte mit einem anderen Beispieldatensatz

Einzelheiten zur Statistik

Sehen wir uns die Bonbondaten und den Chi-Quadrat-Test auf Anpassungsgüte unter statistischen Gesichtspunkten an. Dieser Test wird auch als Pearson Chi-Quadrat-Test bezeichnet.

Unsere Null-Hypothese lautet, dass der Anteil der Geschmacksrichtungen in jeder Tüte gleich ist. Wir haben fünf Geschmacksrichtungen. Die Null-Hypothese wird wie folgt formuliert:

$ H_0: p_1 = p_2 = p_3 = p_4 = p_5 $

In der obigen Formel steht p für den Anteil der jeweiligen Geschmacksrichtung. Wenn jede Tüte mit 100 Bonbons die gleiche Anzahl Bonbons pro Geschmacksrichtung enthielte, wären in jeder Tüte 20 Bonbons pro Geschmacksrichtung. Der Anteil der einzelnen Geschmacksrichtungen liegt demnach bei 0,2 (20 / 100).

Die Alternativhypothese lautet, dass sich mindestens ein Anteil von den anderen unterscheidet. Die Formulierung sieht dann wie folgt aus:

$ H_a: at\ least\ one\ p_i\ not\ equal $

In einigen Fällen testen wir nicht auf gleiche Anteile. Sehen Sie sich noch einmal das Beispiel der Kinder-Sportteams oben auf dieser Seite an. Für dieses Beispiel lauten unsere Null- und Alternativhypothesen:

$ H_0: p_1 = 0,2, p_2 = 0,65, p_3 = 0,15 $

$ H_a: at\ least\ one\ p_i\ not\ equal\ to\ expected\ value $

Anders als bei anderen Hypothesen mit nur einem Populationsparameter können wir nicht nur eine Formel benutzen. Wir müssen Wörter und Symbole einsetzen, um unsere Hypothesen zu beschreiben.

Wir berechnen die Prüfgröße mit der folgenden Formel:

$ \sum^n_{i=1} \frac{(O_i-E_i)^2}{E_i} $

In der obigen Formel haben wir n Gruppen. Das Symbol $ \sum $ bedeutet, dass die Berechnungen der einzelnen Gruppen addiert werden. Für jede Gruppe führen wir dieselben Schritte aus wie im Bonbon-Beispiel. Die Formel zeigt Oi  als beobachteten Wert und Ei  als erwarteten Wert für die Gruppe an.

Anschließend vergleichen wir die Prüfgröße mit einem Chi-Quadrat-Wert für unser gewähltes Signifikanzniveau (auch Alpha-Niveau genannt) und die Freiheitsgrade für unsere Daten. Mit den Bonbondaten als Beispiel legen wir für α = 0,05 fest und haben vier Freiheitsgrade. Für die Bonbondaten wird der Chi-Quadrat-Wert folgendermaßen ausgeschrieben:

$ χ²_{0.05,4} $

Es gibt zwei mögliche Ergebnisse für unseren Vergleich:

  • Die Prüfgröße ist kleiner als der Chi-Quadrat-Wert. Sie können die Hypothese gleicher Anteile nicht verwerfen. Sie schlussfolgern, dass die Bonbontüten über die gesamte Population hinweg dieselbe Anzahl an Bonbons in jeder Geschmacksrichtung enthalten. Die Anpassung der gleichen Anteile ist „gut genug“.
  • Die Prüfgröße ist größer als der Chi-Quadrat-Wert. Sie verwerfen die Hypothese gleicher Anteile. Sie können nicht schlussfolgern, dass jede Bonbontüte exakt dieselbe Anzahl Bonbons pro Geschmacksrichtung enthält Die Anpassung der gleichen Anteile ist „nicht gut genug“.

Am besten lassen sich die Testergebnisse anhand eines Graphen der Chi-Quadrat-Verteilung nachvollziehen. Sie prüfen, ob Ihre Prüfgröße ein stärkerer Extremwert in der Verteilung als der kritische Wert ist. Die folgende Grafik zeigt eine Chi-Quadrat-Verteilung mit vier Freiheitsgraden. Sie zeigt, dass der kritische Wert 9,488 insgesamt 95 % der Daten „abschneidet“. Nur 5 % der Daten liegen außerhalb von 9,488.

Abbildung 6: Chi-Quadrat-Verteilung für vier Freiheitsgrade

Das nächste Verteilungsdiagramm umfasst unsere Ergebnisse. Sie können sehen, wie weit unsere Prüfgröße im Verteilungsende liegt. Sie wird durch die gepunktete Linie bei 52,75 dargestellt. Bei dieser Skala sieht es sogar so aus, als liege die Kurve an dem Punkt, an dem sie die gepunktete Linie schneidet, bei Null. Obwohl das nicht der Fall ist, liegt sie tatsächlich sehr nahe an Null. Wir schlussfolgern, dass diese Situation mit sehr geringer Wahrscheinlichkeit zufällig eingetreten ist. Wenn die wahre Population der Bonbons gleiche Häufigkeiten für alle Geschmacksrichtungen hätte, wären die Ergebnisse, die wir aus unser zufälligen Stichprobe mit 10 Tüten erhalten haben, sehr unwahrscheinlich.

Abbildung 7: Chi-Quadrat-Verteilung für vier Freiheitsgrade mit eingezeichneter Prüfgröße

Die meisten Statistiksoftware-Lösungen zeigen den p-Wert für einen Test. Dieser repräsentiert die Wahrscheinlichkeit, einen extremeren Wert für die Prüfgröße in einer ähnlichen Stichprobe zu finden, wobei eine korrekte Null-Hypothese angenommen wird. Es ist schwierig, den p-Wert manuell zu berechnen. Für die obige Abbildung beträgt der p-Wert für die Prüfgröße 9,488 genau 0,05. Für die Prüfgröße von 52,75 ist der p-Wert sehr, sehr klein. In diesem Beispiel gibt ein Großteil der Statistik-Software den p-Wert als „p < 0,0001“ an. Das bedeutet, dass die Wahrscheinlichkeit einer weiteren Stichprobe mit 10 Bonbontüten, die zu einem extremeren Wert für die Prüfgröße führt, bei weniger als 1 von 10.000 Möglichkeiten liegt, sofern unsere Null-Hypothese der gleichen Häufigkeiten für jede Geschmacksrichtung wahr ist.