t-Test für unabhängige Stichproben in R

3. Aug. 2022
6 Min. Lesezeit

Aktualisiert: 26. Dez. 2023

Einer der wichtigsten parametrischen statistischen Tests ist der Student's t-Test (kurz: t-Test). Im Fokus dieses Artikels steht der sog. Zweistichproben-t-test für unabhängige Stichproben (auch: ungepaarter t-Test, engl.: unpaired two-sampe t-test), welcher anhand zweier unabhängiger Stichproben prüft, ob sich die Mittelwerte zweier Grundgesamtheiten unterscheiden. Der Zweistichproben-t-test für abhängige Stichproben (auch: gepaarter t-test, engl.: paired two-sampe t-test) wird dagegen beim Mittelwertvergleich von abhängigen Stichproben verwendet.

Sie benötigen beratende Hilfe bei Ihrer statistischen Auswertung in R oder möchten eine komplette R Auswertung inkl. Interpretationen bestellen, dann zögern Sie nicht uns zu kontaktieren (Kontaktdaten unten rechts). Unsere Experten helfen Ihnen gerne weiter (kostenloses unverbindliches Erstgespräch)!

Liegen unabhängige Stichproben vor?

Erster Schritt bei der Durchführung des t-Tests ist festzustellen, ob ein t-Test für unabhängige oder abhängige Stichproben benötigt wird. Unabhängige Stichproben liegen in der Regel vor, wenn kein Fall oder keine Person aus einer Gruppe bzw. Stichprobe einem Fall oder einer Person aus der anderen Gruppe zugeordnet werden kann. Dies ist z.B. gegeben, wenn zwei Altersgruppen oder Männer und Frauen verglichen werden. Beispiele für gepaarte Stichproben sind dagegen insbesondere Vorher-Nachher-Vergleiche, z.B. für die Feststellung der Wirksamkeit eines Medikaments bzw. einer Behandlung. Ebenso liegen gepaarte Stichproben vor, wenn z.B. Messungen an den gleichen Personen unter zwei unterschiedlichen Bedingungen durchgeführt werden.

Hypothesen

H0: Die Mittelwerte der beiden Populationen unterscheiden sich nicht.

HA: Die Mittelwerte der beiden Populationen unterscheiden sich.

Wird eine Wirkungsrichtung vermutet, können die Hypothesen entsprechend einseitig formuliert werden. Zum Beispiel bei einem Gehaltsvergleich von Frauen und Männern könnte die Alternativhypothese lauten, dass Männer im Durchschnitt mehr verdienen. Die Nullhypothese würde dann besagen, dass Männer im Durchschnitt nicht mehr als Frauen verdienen.

Es wäre zudem auch möglich zu unterstellen, dass sich die Mittelwerte der beiden Population um die Zahl a unterscheiden. Im Hypothesenpaar oben gilt: a = 0.

Grundprinzip des t-tests für unabhängige Stichproben

Der ungepaarte t-Test vergleicht zur Überprüfung der Nullhypothese die Mittelwerte der beiden Stichproben. Dabei gilt: Je größer die Differenz zwischen diesen zwei Mittelwerten, umso eher wird die Nullhypothese abgelehnt. Allerdings kann der Standardfehler der Mittelwertdifferenz, ein Maß für dessen Schätzunsicherheit, dabei nicht unberücksichtigt bleiben. Je größer die Unsicherheit, desto größer muss auch die Mittelwertdifferenz sein, um die Nullhypothese zu verwerfen. Bezüglich der Schätzunsicherheit gilt, dass diese sowohl mit zunehmender Stichprobengröße als auch mit sinkenden Streuungen der Zielvariable in den beiden Gruppen abnimmt. Detaillierte Infos zur Theorie des t-Tests finden Sie hier.

Voraussetzungen

Vor der Durchführung des ungepaarten t-Tests mit R möchten wir kurz auf dessen Vorraussetzungen eingehen:

Es liegt eine metrisch skalierte Variable für den Mittelwertvergleich vor. (Im Falle einer lediglich ordinal skalierten Variable, ist auf den Mann-Whitney-U-Test bzw. den Wilcoxon-Test zu verweisen.)
Es liegen genau zwei unabhängige Stichproben vor. (Im Falle von drei oder mehr unabhängigen Stichproben ist eine Varianzanalyse (ANOVA) anzuwenden.)
Die Beobachtungen innerhalb der Gruppen sind voneinander unabhängig (dies wird in der Regel nicht formell geprüft, sondern ergibt sich aus der Versuchsplanung bzw. der Kontrolle der Versuchsbedingungen).
Im Falle einer kleinen Stichprobe (Stichprobengröße pro Gruppe < 30) sollten die Daten in beiden Stichproben einer Normalverteilung folgen. Die Normalverteilungsannahme kann sowohl grafisch via QQ-Plot oder Histogramm als auch formal via Shapiro-Wilk-Test überprüft werden. Falls die Daten nicht normalverteilt sind, ist eine Transformation (z.B. log-Transformation) erforderlich oder der nicht-parametrische Mann-Whitney-U-Test bzw. Wilcoxon-Test anzuwenden. Bei großen Stichproben (Stichprobengröße pro Gruppe >= 30) wird die Annahme normalverteilter Beobachtungen in beiden Gruppen nicht benötigt, da die Stichprobenmittelwerte gemäß dem zentralen Grenzwertsatz approximativ normalverteilt sein sollten.
Es sollte keine signifikanten Ausreißer in den beiden Gruppen geben, sonst könnten die Schlussfolgerungen Ihres t-Tests fehlerhaft sein. Auch diese Annahme lässt sich grafisch anhand eines Histogramms oder eines Boxplots überprüfen.

Häufig hört man auch im Zusammenhang mit den Annahmen des t-Tests für unabhängige Stichproben von Varianzhomogenität. Diese Annahme besagt, dass die Varianzen der beiden Gruppen in den Grundgesamtheiten gleich sein sollen und kann z.B. mit Hilfe des Levene-Tests oder des Brown-Forsythe-Tests (bei kleinen Stichproben und schiefer Zielvariable) überprüft werden. Im Falle des Nicht-Vorliegens der Annahme kann jedoch Welch's t-Test angewandt werden. Dieser funktioniert exakt wie der t-Test, allerdings muss wg. der unterschiedlichen Varianzen der Standardfehler der Mittelwertdifferenz anders berechnet werden, wodurch sich auch die Anzahl der Freiheitsgrade der Teststatistik verändert. Einige Statistiker empfehlen sogar grundsätzlich Welch's t-Test anzuwenden, da dieser auch im Falle homogener Varianzen eine gute Power aufweist und im Falle heterogener Varianzen dem klassischen t-Test überlegen ist.

Datensatz

Um die Reproduzierbarkeit der durchgeführten statistischen Analysen sicherzustellen, verwenden wir den Datensatz pirates aus dem R-Paket yarrr . Um die entsprechenden Daten zu erhalten, installieren und laden wir zunächst das Paket yarrr und rufen anschließend den Befehl data(pirates) auf. Außerdem installieren und laden wir gleich alle weiteren für diese Analyse benötigten R Pakete.

Der Datensatz enthält die Ergebnisse einer Umfrage unter 1.000 Piraten. Für uns sind lediglich die beiden folgenden Variablen von Relevanz:

weight: Körpergewicht der befragten Person (metrisch)
sex: Geschlecht der befragten Person (nominal mit drei Ausprägungen: female, male und other)

Wir vermuten, dass Piraten im Durchschnitt mehr wiegen als Piratinnen, weswegen unsere Nullhypothese besagt, dass Piraten im Durchschnitt nicht mehr als Piratinnen wiegen (einseitiger t-Test). Die wenigen Piraten vom Geschlecht "other" sind für die weitere Analyse nicht relevant und werden daher aus dem Datensatz gefiltert.

Deskriptive Voranalyse

Vor der Durchführung des ungepaarten t-Tests berechnen wir zunächst die wichtigsten deskriptiven Statistiken für beide Gruppen. Hierzu nutzen wir die Funktion describeBy( ) aus dem R-Paket psych. Außerdem erstellen wir Dichtediagramme für beide Gruppen.

Berechnung von deskriptiven Statistiken und Erstellung der bedingten Kerndichteschätzungen (R-Code und Output)

Ein Blick auf die Kerndichteschätzungen verrät, dass das Körpergewicht männlicher Piraten tendenziell über dem von weiblichen Piraten liegt. Dies zeigen auch eindeutig die wesentlichen deskriptiven Statistiken, wie Q1, Median, Q3 und Mittelwert. Die Mittelwertdifferenz der beiden Guppen beträgt 11,57. Die Standardabweichung des Körpergewichts unterscheidet sich leicht zwischen den beiden Gruppen und somit auch die Varianzen. Der P-Wert des Levene-Tests (siehe unten) in Höhe von 0,18 offenbart allerdings, dass dieser Unterschied nicht statistisch signifikant ist. Außerdem sprechen die Formen der beiden Verteilungen sowie die Schätzungen von Schiefe und Kurtosis auf den ersten Blick nicht gegen eine Normalverteilung. Daher verwundert es nicht, dass weder für Piraten noch für Piratinnen die Nullhypothese normalverteilter Daten durch den Shapiro-Wilk-Test verworfen wird. Selbst wenn die Daten nicht normalverteilt gewesen wäre, wäre dies hier aufgrund der großen Stichprobenanzahl kein Problem gewesen.

R Code zur Durchführung des Levene-Tests und des Shapiro-Wilk-Tests

Durchführung des t-tests für unabhängige Stichproben in R

Zur Durchführung des t-Tests für unabhängige Stichproben empfehlen wir die Verwendung des Pakets ggstatsplot, welches wir bereits installiert und geladen haben. Dabei handelt es um eine Erweiterung des populären R-Grafikpakets ggplot2. Die Grafiken aus ggplot2 können mit Hilfe von ggstatsplot um Details aus statistischen Tests ergänzt werden.

Mit Hilfe des Befehls ggbetweenstats( ) können wir sowohl einen Boxplot erstellen als auch den t-Test durchführen. Hierfür müssen wir ggbetweenstats( ) sagen, welcher Plot ersetllt und welcher Test durchgeführt werden soll. Würden wir für das Argument type "nonparametric" angeben, würde der Wilcoxon-Test angewandt werden. Im Falle einer Verletzung der Varianzhomogenitätsannahme müssten wir auf Welch's t-Test (var.equal == FALSE) zurürckgreifen.

Durchführung des t-Tests für unabhängige Stichproben (R-Code und Output)

Interpretation der Ergebnisse des t-tests für unabhängige Stichprobent in R

Der Boxplot verdeutlicht nochmals die Unterschiede in den Mittelwerten. Ebenso sind keine extremen Ausreißer im Boxplot (größer 3 x IQR) zu erkennen. Über dem Plot ist das Ergebnis des t-Tests für unabhängige Stichproben dargestellt. Die Teststatistik bzw. Prüfgröße beträgt -19,28. Der zugehörige P-Wert aus der t-Verteilung mit 952 Freiheitsgraden (p) ist extrem klein. Da dies der P-Wert des zweiseitigen t-Tests ist, müssen wir diesen noch halbieren, um den P-Wert des einseitigen t-Tests zu erhalten. Die Nullhypothese wird somit selbst auf einem sehr niedrigen Signifikanzniveau in Höhe von 1 % abgelehnt (p = 1,716e-70). Folglich sind männliche Piraten im Durchschnitt schwererer als ihre weiblichen Pendants.

Nun wissen wir zwar, dass ein statistisch signifikanter Mittelwertunterschied vorliegt, jedoch können wir noch keine Aussage über die Stärke des Unterschieds treffen. Hierzu müssen wir das Effektstärkemaß Hedges' g betrachten. Hedges' g ist auch überhalb dem Boxplot dargestellt und beträgt -1,25. Grundsätzlich kann Hedges g jeden beliebigen Wert annehmen: Je größer Hedges g absolut ist, desto stärker der Zusammenhang. Mit Blick auf die Interpretation von Hedges g wird ab einem absoluten Wert von 0,2 von einem schwachen Effekt, ab 0,5 von einem mittleren Effekt und ab 0,8 von einem starken Effekt gesprochen. In unserem Beispiel liegt also ein starker Unterschied in den Mittelwerten vor.

Fazit

In diesem Artikel haben wir Ihnen gezeigt, wie Sie den t-Test für unabhängige Stichproben in R durchführen. Allerdings sollte man auch beachten, dass es sich beim t-Test um ein bivariates Verfahren handelt. Andere potentielle Einflussfaktoren der Zielvariable, wie hier z.B. die Körpergröße, bleiben unberücksichtigt. Sind unberücksichtigte Variablen stark mit dem Faktor im t-Test korreliert, so können schnell falsche Schlussfolgerungen gezogen werden. Daher empfiehlt es sich im Rahmen einer multiplen linearen Regression alle potentiellen Einflussfaktoren zu berücksichtigen. Wir hoffen, dass Ihnen dieser Artikel bei Ihren statistischen Analysen weiterhilft.

Falls Sie Probleme mit einer statistischen Auswertung haben, zögern Sie nicht uns zu kontaktieren. Unser Team an Freelancern verfügt über langjährige Erfahrung auf dem Gebiet der Datenanalyse in R. Wir beraten Sie gerne bei Ihrem statistischen Problem. Darüber hinaus können Sie bei uns auch R Auswertungen inkl. verständlicher Interpretationen bestellen (z.B. Fragebogen-Auswertungen). Gerne bieten wir Ihnen hierfür ein kostenloses und unverbindliches Erstgespräch mit einem unserer Experten an. Sie können uns jederzeit per E-Mail oder Telefon (siehe unten rechts) erreichen.

StatistikProfis

t-Test für unabhängige Stichproben in R

Kommentare

StatistikProfis

LINKS

ÜBER UNS