Einführung

Es gibt eine Reihe von statistischen Verfahren, welche einen möglichen Zusammenhang zwischen zwei oder mehr kategoriellen Variablen testen. In dieser Übung steht der \(\chi^2\)-Test im Zentrum. Bei kleinen Studien kann es sein, dass die Voraussetzungen für einen \(\chi^2\)-Test nicht erfüllt werden. Die entsprechende Alternative, der Fisher-Test, wird ebenfalls in dieser Übung behandelt.

Übung 1

In einer Umfrage wurden 2220 Personen nach Ihrem Schulabschluss sowie zur primären Quelle von Nachrichten befragt. Sie finden die entsprechenden Daten im Datensatz news.csv. Es geht um die Frage, ob der Schulabschluss mit dem Medium für Nachrichtenkonsum zusammenhängt.


Aufgabe

  1. Laden Sie den Datensatz in RStudio.
  2. Erstellen Sie eine Kreuztabelle mit dem Medium in den Zeilen und dem Schulabschluss in den Spalten.
  3. Erstellen Sie eine Kreuztabelle mit den Spaltenprozenten und eine mit den Zeilenprozenten. Warum könnten diese Tabellen hilfreich sein?
  4. Formulieren Sie die Hypothesen.
  5. Führen Sie einen geeigneten statistischen Test durch und interpretieren Sie das Resultat.


Lösung

  1. Laden Sie den Datensatz in RStudio.
library(rio)
news <- import("../Data/news.csv")
news[1:6,]
##         news       education
## 1 Television     High school
## 2   Internet         College
## 3 Television         College
## 4  Newspaper     High school
## 5  Newspaper Not high school
## 6 Television     High school


  1. Erstellen Sie eine Kreuztabelle mit dem Medium in den Zeilen und dem Schulabschluss in den Spalten.
tab <- table(news$news, news$education)
tab
##             
##              College High school Not high school
##   Internet       238         408             136
##   Newspaper      134         239              63
##   Television     305         558             139


  1. Erstellen Sie eine Kreuztabelle mit den Spaltenprozenten und eine mit den Zeilenprozenten. Warum könnten diese Tabellen hilfreich sein?
  • Dies gibt wichtige Hinweise auf mögliche Effekte und deren Richtung.

  • Spaltenprozente

prop.table(tab, margin = 2)
##             
##              College High school Not high school
##   Internet     0.352       0.339           0.402
##   Newspaper    0.198       0.198           0.186
##   Television   0.451       0.463           0.411
  • Zeilenprozente
prop.table(tab, margin = 1)
##             
##              College High school Not high school
##   Internet     0.304       0.522           0.174
##   Newspaper    0.307       0.548           0.144
##   Television   0.304       0.557           0.139
  • Auf den ersten Blick gibt es keine Auffälligkeiten.


  1. Formulieren Sie die Hypothesen.
  • \(H_{0}\): Es gibt keinen Zusammenhang zwischen dem Schulabschluss und dem Medium für Nachrichtenkonsum. Oder: \(Beobachtete Häufigketien = Erwartete Häufigkeiten\).
  • \(H_{1}\): Es gibt einen Zusammenhang zwischen dem Schulabschluss und dem Medium für Nachrichtenkonsum. Oder: \(Beobachtete Häufigketien \ne Erwartete Häufigkeiten\).


  1. Führen Sie einen geeigneten statistischen Test durch und interpretieren Sie das Resultat.
chi2 <- chisq.test(tab)
chi2
## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 5, df = 4, p-value = 0.3

Die Teststatistik \(\chi^2\) beträgt 5 mit vier Freiheitsgraden. Die Wahrscheinlichkeit, eine solche Teststatistik oder eine extremere zu finden wenn \(H_{0}\) wahr ist, beträgt 30%. Es gibt folglich keine starke Evidenz gegen \(H_{0}\), weshalb diese beibehalten wird. Die Voraussetzungen für den \(\chi^2\)-Test sind erfüllt, da alle erwarteten Häufigkeiten grösser als 5 sind:

chi2$expected
##             
##              College High school Not high school
##   Internet       238         424           119.1
##   Newspaper      133         237            66.4
##   Television     306         544           152.6


Übung 2

Für die Operation einer Leistenhernie wird meist entweder das Verfahren nach Lichtenstein oder eine transabdominale preperitoneale (TAPP) Operation durchgeführt. In einer Studie wurde untersucht, ob postoperative Komplikationen mit der Operationsart zusammenhängen. Die Daten sind im File hernia.csv abgespeichert.


Aufgaben

  1. Laden Sie den Datensatz in RStudio.
  2. Erstellen Sie eine Kreuztabelle mit der Operationstechnik in den Spalten.
  3. Formulieren Sie die Hypothesen.
  4. Führen Sie einen geeigneten statistischen Test durch und interpretieren Sie das Resultat.


Lösungen

  1. Laden Sie den Datensatz in RStudio.
hernia <- import("../Data/hernia.csv")
hernia[1:6,]
##             op complication
## 1 Lichtenstein          Yes
## 2 Lichtenstein          Yes
## 3 Lichtenstein          Yes
## 4 Lichtenstein           No
## 5 Lichtenstein           No
## 6 Lichtenstein           No


  1. Erstellen Sie eine Kreuztabelle mit der Operationstechnik in den Spalten.
tab <- table(hernia$complication, hernia$op)
tab
##      
##       Lichtenstein TAPP
##   No            14   18
##   Yes            3    1
  1. Formulieren Sie die Hypothesen.
  • \(H_{0}\): Es gibt keinen Zusammenhang zwischen der Opterationstechnik und und der Anzahl Komplikationen. Oder: \(Beobachtete Häufigketien = Erwartete Häufigkeiten\).
  • \(H_{1}\): Es gibt einen Zusammenhang zwischen der Opterationstechnik und und der Anzahl Komplikationen. Oder: \(Beobachtete Häufigketien \ne Erwartete Häufigkeiten\).


  1. Führen Sie einen geeigneten statistischen Test durch und interpretieren Sie das Resultat.
chi2 <- chisq.test(tab)
chi2
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tab
## X-squared = 0.4, df = 1, p-value = 0.5

Die Teststatistik \(\chi^2\) beträgt 0.4 mit einem Freiheitsgrad. Die Wahrscheinlichkeit, eine solche Teststatistik oder eine extremere zu finden wenn \(H_{0}\) wahr ist, beträgt 50%. Es gibt folglich keine starke Evidenz gegen \(H_{0}\), weshalb diese beibehalten wird. Achtung: Die Voraussetzungen für den \(\chi^2\)-Test sind nicht erfüllt, da gewisse erwarteten Häufigkeiten kleiner als 5 sind:

chi2$expected
##      
##       Lichtenstein  TAPP
##   No         15.11 16.89
##   Yes         1.89  2.11

In diesem Fall machen wir den Fisher-Test:

fisher.test(tab)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tab
## p-value = 0.3
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.00469 3.76713
## sample estimates:
## odds ratio 
##      0.269

Der p-Wert ist anders als beim \(\chi^2\)-Test, \(H_{0}\) wird jedoch auch in diesem Fall beibehalten. Auf das Odds Ratio wird an dieser Stelle nicht eingegangen.


Übung 3

Die Studie oben wurde mit einer grösseren Stichprobe reproduziert. Sie finden die Daten in der Datei hernia2.csv.

Aufgabe:

Kommen Sie zu einer anderen Schlussfolgerung, wenn Sie die Daten der grösseren Stichprobe analysieren? Was ändert sich, bzw. was bleibt gleich?


Lösung

hernia2 <- import("../Data/hernia2.csv")
tab2 <- table(hernia2$complication, hernia2$op)
tab2
##      
##       Lichtenstein TAPP
##   No           206  347
##   Yes           39   14

Wir betrachten zuerst die Spaltenprozente bei der kleinen Stichprobe:

prop.table(tab, margin = 2)
##      
##       Lichtenstein   TAPP
##   No        0.8235 0.9474
##   Yes       0.1765 0.0526

Diese sind identisch wie in der grossen Stichprobe (bleiben also gleich):

prop.table(tab2, margin = 2)
##      
##       Lichtenstein   TAPP
##   No        0.8408 0.9612
##   Yes       0.1592 0.0388

Wir führen nun den \(\chi^2\)-Test durch:

chi2 <- chisq.test(tab2)
chi2
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tab2
## X-squared = 25, df = 1, p-value = 6e-07

Die Teststatistik \(\chi^2\) beträgt 25 mit einem Freiheitsgrad. Die Wahrscheinlichkeit, eine solche Teststatistik oder eine extremere zu finden wenn \(H_{0}\) wahr ist, beträgt weniger als 0.01%. Es gibt folglich starke Evidenz gegen \(H_{0}\), weshalb diese verworfen wird. Achtung: Die Voraussetzungen für den \(\chi^2\)-Test sind dieses mal erfüllt, weil die Stichprobe grösser ist:

chi2$expected
##      
##       Lichtenstein  TAPP
##   No         223.6 329.4
##   Yes         21.4  31.6

Um die Richtung des Effektes zu beurteilen, können wie die beobachteten Häufigkeiten mit den erwarteten Häufigkeiten vergleichen:

chi2$observed
##      
##       Lichtenstein TAPP
##   No           206  347
##   Yes           39   14

Wir sehen, dass bei der Operationstechnik nach Lichtenstein mehr Komplikationen auftreten, als unter \(H_{0}\) erwartet. Mit der TAPP-Technik ist es genau umgekehrt, dort kommt es zu halb so vielen Komplikationen wie unter \(H_{0}\) erwartet.