Chi-Quadrat Test in R - Test auf Unabhängigkeit von zwei kategorialen Variablen

Aktualisiert: 28. Juli

In diesem Artikel wird die Durchführung des Chi-Quadrat Tests auf Unabhängigkeit in R sowie die Interpretation der Testergebnisse erläutert. Der Chi-Quadrat Unabhängigkeitstest prüft, ob zwei kategoriale Variablen stochastisch voneinander unabhängig sind. Mit anderen Worten: Es wird also getestet, ob die Ausprägungen einer Variable von den Ausprägungen der anderen Variable abhängen.


Sie benötigen beratende Hilfe bei Ihrer statistischen Auswertung in R oder möchten eine komplette R Auswertung inkl. Interpretationen bestellen, dann zögern Sie nicht uns zu kontaktieren (Kontaktdaten unten rechts). Unsere Experten helfen Ihnen gerne weiter (kostenloses unverbindliches Erstgespräch)!


Hypothesen des Chi-Quadrat Tests auf Unabhängigkeit

H0: Die beiden Variablen sind stochastisch unabhängig.

HA: Die beiden Variablen sind nicht stochastisch unabhängig.


Grundprinzip des Chi-Quadrat Tests auf Unabhängigkeit

Beim Chi-Quadrat-Test werden die in der Stichprobe beobachteten Häufigkeiten mit den bei stochastischer Unabhängigkeit erwarteten Häufigkeiten verglichen. Dabei gilt vereinfacht gesagt: Ist die Summe entsprechender Differenzen gering, so kann die Nullhypothese nicht verworfen werden. Falls die Summe dagegen groß ist, sprechen die Daten gegen die Nullhypothese und es wird von der stochastischen Abhängigkeit der beiden Variablen ausgegangen. Der kritische Wert zur Klassifikation der Summe als klein oder groß kommt aus der Chi-Quadrat-Verteilung und hängt von der Anzahl der Freiheitsgrade und vom gewählten Signifikanzniveau ab. Detaillierte Infos zur Theorie des Chi-Quadrat-Tests finden Sie hier.


Vorraussetzungen des Chi-Quadrat Tests auf Unabhängigkeit

Vor der Durchführung des Chi-Quadrat Tests mit R möchten wir kurz auf dessen Vorraussetzungen eingehen:

  • Es liegen zwei kategoriale (nominale oder ordinale) Variablen vor.

  • Die Beobachtungen sind voneinander unabhängig (dies wird in der Regel nicht formell geprüft, sondern ergibt sich aus der Versuchsplanung bzw. der Kontrolle der Versuchsbedingungen).

  • Jede Zelle in der bei Unabhängigkeit erwarteten Kontingenztafel enthält mindestens fünf Beobachtungen (ist dies nicht der Fall müssen Kategorien zusammengefasst werden oder der exakte Test von Fisher ist anzuwenden)

Der Datensatz

Um die Reproduzierbarkeit der durchgeführten statistischen Analysen sicherzustellen, verwenden wir den Datensatz Wage aus dem R-Paket ISLR. Um die entsprechenden Daten zu erhalten, installieren und laden wir zunächst das Paket ISLR und rufen anschließend den Befehl data(Wage) auf.

R Setup - Pakete und Datensatz werden geladen

Der Datensatz enthält Informationen zu 3000 Arbeitnehmern (AN) aus dem Industrie- und Informationssektor in der zentralatlantischen Region der USA. Für uns sind lediglich die beiden folgenden Variablen von Relevanz:

  • education: Höchster Bildungsabschluss des AN (ordinal: 1. < HS Grad, 2. HS Grad, 3. Some College, 4. College Grad und 5. Advanced Degree)

  • health: Gesundheitsstatus des AN (binär: 1. <=Good und 2. >=Very Good)

Wir vermuten, dass der Gesundheitszustand der Arbeitnehmer mit steigendem Bildungsgrad zunimmt. Dies würde bedeuten, dass die Variablen stochastisch abhängig sind, da die Kenntnis des Bildungsgrads Rückschlüsse auf den Gesundheitsstatus zulassen würde.


Durchführung des Chi-Quadrat Test auf Unabhängigkeit in R

Zur Durchführung des Chi-Quadrat Tests auf Unabhängigkeit empfehlen wir die Verwendung des Pakets ggstatsplot, welches wir bereits installiert und geladen haben. Dabei handelt es um eine Erweiterung des populären R-Grafikpakets ggplot2. Die Grafiken aus ggplot2 können mit Hilfe von ggstatsplot um Details aus statistischen Tests ergänzt werden.


Mit Hilfe des Befehls ggbarstats( ) können wir sowohl die Kontingenztafel (Kreuztabelle) visualisieren als auch den Chi-Quadrat Test auf Unabhängigkeit durchführen. Wichtig sind bei der Eingabe des Befehls lediglich die Parameter data, x und y. Alternativ kann der Chi-Quadrat Test auf Unabhängigkeit auch mit der Funktion sjt.xtab( ) aus dem Paket sjPlot berechnet werden. Wir verwenden diese Funktion gerne auch ergänzend zu ggbarstats( ), da diese die zugehörige Kontingenztafel mit den beobachteten und erwarteten Häufigkeiten erstellt.

Code zur Durchführung des Chi-Quadrat-Tests auf Unabhängigkeit inkl. (Visualisierung der) Kontingenztafel

Ergebnisse des Chi-Quadrat-Tests auf Unabhängigkeit inkl. Visualisierung der Kontingenztafel

Ergebnisse des Chi-Quadrat-Tests auf Unabhängigkeit inkl. Kontingenztafel

Interpretation der Ergebnisse des Chi-Quadrat Tests auf Unabhängigkeit

Ein Blick auf die (Visualisierung der) Kontingenztafel offenbart, dass der Anteil der Personen mit einem mindestens sehr guten Gesundheitszustand mit steigendem Bildungsgrad zunimmt. (In der Gruppe der Personen mit einem "Advanced Degree" verfügen 84 % über einen mindestens sehr guten Gesundheitszustand, während es in Gruppe der Arbeitnehmer ohne HS-Abschluss lediglich 60 % sind. ... ) Die Grafik spricht also nicht gegen unsere Vermutung. Die erwarteten Häufigkeiten sind in der Kontingenztafel in blau dargestellt. Es zeigt sich, das alle erwarteten Zellhäufigkeiten deutlich über 5 liegen.


Über dem Plot und auch unter der Kontingenztafel sind die Ergebnisse des Chi-Quadrat-Test auf Unabhängigkeit dargestellt. Die Teststatistik bzw. Prüfgröße beträgt 92,31. Der zugehörige P-Wert aus der Chi-Quadrat-Verteilung mit vier Freiheitsgraden (p) ist Null und somit selbst auf einem Signifikanzniveau in Höhe von 1 % statistisch hochsignifikant. Folglich wird die Nullhypothese der stochastischen Unabhängigkeit der Variablen Bildungsgrad und Gesundheitsstatus verworfen.


Nun wissen wir zwar, dass die die beiden Variablen nicht stochastisch unabhängig sind, jedoch können wir keine Aussage über die Stärke des Zusammenhangs treffen. Hierzu müssen wir das Effektstärkemaß Cramer's V betrachten. Cramer's V ist auch überhalb dem Plot bzw. unter der Kontingenztafel dargestellt und beträgt 0,17. Grundsätzlich kann Cramer's V Werte zwischen 0 und 1 annehmen und es gilt: Je größer Cramer's V, desto stärker der Zusammenhang. Mit Blick auf die Interpretation von Cramer's V wird ab einem Wert von 0,1 von einem schwachen Effekt, ab 0,3 von einem mittleren Effekt und ab 0,5 von einem starken Effekt gesprochen. In unserem Beispiel liegt also ein schwacher Zusammenhang zwischen den Variablen Bildungsgrad und Gesundheitsstatus vor.


Fazit

In diesem Artikel haben wir Ihnen zwei Möglichkeiten in R aufgezeigt, den Chi-Quadrat Test auf Unabhängigkeit durchzuführen. Die beiden Methoden ergänzen sich gut, da sjt.xtab( ) eine Kontingenztafel mit beobachteten und erwarten Häufigkeiten ausgibt, während ggbarstats( ) die Kontingenztafel visualisiert.


Wir hoffen, dass Ihnen dieser Artikel bei Ihren statistischen Analysen weiterhilft. Falls Sie Probleme mit einer statistischen Auswertung haben, zögern Sie nicht uns zu kontaktieren. Unser Team an Freelancern verfügt über langjährige Erfahrung auf dem Gebiet der Datenanalyse in R. Wir beraten Sie gerne bei Ihrem statistischen Problem. Darüber hinaus können Sie bei uns auch R Auswertungen inkl. verständlicher Interpretationen bestellen (z.B. Fragebogen-Auswertungen). Gerne bieten wir Ihnen hierfür ein kostenloses und unverbindliches Erstgespräch mit einem unserer Experten an. Sie können uns jederzeit per E-Mail oder Telefon (siehe unten rechts) erreichen.

259 Ansichten