.csv-Format vor (header =
TRUE, sep = “,”, dec = “.”) und können direkt in jamovi geöffnet werden.
Es wird empfohlen, nach der Kategorisierung der Variablen in jamovi, die
Datei im jamovi-Format .omv zu speichern.[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org
[2] Die Aufgaben stammen im Original aus der Aufgabensammlung von Lukas Stammler.
Diskutieren Sie diese Übungen auch mit Ihren Mitstudierenden.
Die Datei fertilitaet.csv enthält Daten zur Anzahl
Kinder, die von Frauen im Alter von 15-19 Jahren geboren wurden. Erfasst
sind 189 Länder für die Jahre 1997, 2000, 2002, 2005 und 2006. Die Werte
für die jährlichen Fertilitätsraten adoleszenter Frauen sind angegeben
als Anzahl Lebendgeburten pro 1000 Frauen im Alter von 15-19 Jahren.
Berechnen Sie alle Kennzahlen (Umfang n, Mittelwert, Median,
Standardabweichung, IQR, Variationsbreite, Minimum, Maximum) für das
Jahr 2006 (Variable fert_2006).
Bei welchem Wert liegt die 75. Perzentile? Erläutern Sie in einem Satz diesen Wert im Zusammenhang mit den Daten.
Die Daten für Irak fehlen für die Jahre 2000 bis 2006 (vermutlich wegen des Irak-Kriegs). Hätten diese Daten einen grossen Effekt auf die unter a) berechneten Kennzahlen Median und IQR?
Erstellen Sie vergleichende Boxplots für die Fertilität in den 5
Jahren. Leider geht das in jamovi mit der Struktur des vorliegnden
Datensatzes nicht. Verwenden Sie für diese Grafik die Datei
fertilitaet_long.csv. Interpretieren Sie die
Grafik.
fert_2006).##
## DESCRIPTIVES
##
## Descriptives
## ───────────────────────────────────
## fert_2006
## ───────────────────────────────────
## N 188
## Missing 1
## Mean 53.58395
## Median 40.06820
## Standard deviation 46.97848
## IQR 57.85080
## Minimum 1.453400
## Maximum 223.8336
## ───────────────────────────────────
Alle Angaben sind in der Einheit Anzahl Lebendgeburten pro 1000 Frauen im Alter von 15-19.
##
## DESCRIPTIVES
##
## Descriptives
## ───────────────────────────────────
## fert_2006
## ───────────────────────────────────
## N 188
## Missing 1
## Mean 53.58395
## Median 40.06820
## Standard deviation 46.97848
## Minimum 1.453400
## Maximum 223.8336
## 75th percentile 75.72670
## ───────────────────────────────────
Die 75. Perzentile liegt bei 75.7. Interpretation: In 75% der Länder sind die Geburtsraten gleich oder kleiner als 75.73 Geburten pro 1000 Frauen im Alter von 15-19 Jahre.
NEIN, dies ist nicht anzunehmen. Der Median und der IQR sind robuste Masse. Selbst extreme Werte für den Irak hätten kaum einen Einfluss.
fertilitaet_long.csv. Interpretieren Sie die Grafik.##
## DESCRIPTIVES
##
## Descriptives
## ───────────────────────────────────────────────
## year fert
## ───────────────────────────────────────────────
## N fert_1997 189
## fert_2000 188
## fert_2002 188
## fert_2005 188
## fert_2006 188
## Missing fert_1997 0
## fert_2000 1
## fert_2002 1
## fert_2005 1
## fert_2006 1
## Mean fert_1997 65.85885
## fert_2000 61.65747
## fert_2002 58.78678
## fert_2005 54.88466
## fert_2006 53.58395
## Median fert_1997 52.32600
## fert_2000 46.38820
## fert_2002 43.70850
## fert_2005 41.24040
## fert_2006 40.06820
## Standard deviation fert_1997 51.76017
## fert_2000 51.24401
## fert_2002 51.18445
## fert_2005 48.00347
## fert_2006 46.97848
## Minimum fert_1997 1.633000
## fert_2000 1.550200
## fert_2002 1.495000
## fert_2005 1.463800
## fert_2006 1.453400
## Maximum fert_1997 230.4800
## fert_2000 230.4800
## fert_2002 230.4800
## fert_2005 225.4952
## fert_2006 223.8336
## ───────────────────────────────────────────────
Zwischen 1997 und 2006 nehmen Median, IQR, unteres und oberes Quartil kontinuierlich ab.
Gibt es einen Zusammenhang zwischen dem Fluorgehalt im Trinkwasser
und Karies bei Kindern. Die Datei water.csv enthält Daten
einer Studie, die 7257 Kinder in 21 Städten in Flandern, Belgien
untersucht hat.
Der Fluoridgehalt des Trinkwassers in jeder Stadt in ppm (parts per
million) ist in der Variablen fluoride gespeichert. Der
Wert in der Variablen caries ist die Summe von
Zahnfüllungen, Zähne mit unbehandelter Karies, Zähne die gezogen werden
müssen und fehlende Zähne pro 100 Kinder.
Erstellen Sie ein Streudiagramm mit fluoride als
x-Variable und caries als y-Variable.
Beschreiben Sie den Zusammenhang zwischen den beiden Variablen.
Wenn Sie die Daten mit einer Geraden modellieren würden, wo würde diese Gerade die x- und die y-Achse schneiden? Überlegen Sie zuerst theoretisch und erstellen Sie anschliessend zur Überprüfung Ihrer Überlegungen in jamovi eine lineare Regressionsgerade. (Hinweis: Beachten Sie bei Ihren Überlegungen, dass die y-Achse im jamovi-Output bei 200 beginnt.)
Würde eine Gerade diese Daten gut modellieren?
fluoride als
x-Variable und caries als y-Variable.Mit zunehmendem Fluoridgehalt im Trinkwasser, sinkt die Kariesrate bei Kindern (negativer Zusammenhang).
Die Gerade schneidet die x-Achse ca. bei 2.7 und die y-Achse bei ca. 740. Die Steigung der Geraden beträgt demnach etwa -740/2.7 = -274. (andere Angaben in dieser Grössenordnung sind auch ok). Beachten Sie, dass jamovi bei diesem Plot die y-Achse bei 0 beginnen lässt)
Eine Gerade scheint kein optimales Modell für die Daten zu sein.
Bei kleinen und grossen Werten für fluoride liegen die
Punkte über der Geraden, bei mittleren Werten unter der Geraden. Dies
ist ein Hinweis auf einen nicht-linearen Zusammenhang.
Die Skelettmuskeln haben grossen Einfluss auf die menschliche Leistungsfähigkeit und die Gesundheit. Wir wissen jedoch noch wenig zu den genetischen Faktoren, welche die Muskelgrösse, Muskelkraft und die Reaktion der Muskeln auf Training beeinflussen. Die Studie mit der etwas umständlichen Bezeichnung FAMuSS (functional single nucleotide polymorphisms associated with muscle size and strength) ist eine Multizenterstudie, welche diese Frage untersucht.
Referenz: Thompson, P. D., Moyna, N., Seip, R., Price, T., Clarkson, P., Angelopoulos, T., Gordon, P., Pescatello, L., Visich, P., Zoeller, R., Devaney, J. M., Gordish, H., Bilbie, S., & Hoffman, E. P. (2004). Functional polymorphisms associated with human muscle size and strength. Medicine and science in sports and exercise, 36(7), 1132–1139. https://doi.org/10.1249/01.mss.0000132274.26612.23
Die Daten sind in der Datei famuss.csvabgelegt.
Codebook:
| Variable | Erläuterung |
|---|---|
| ndrm.ch | Änderung der Kraft im nicht-dominanten Arm, vor und nach Training in Prozent |
| drm.ch | Änderung der Kraft im dominanten Arm, vor und nach Training in Prozent |
| sex | Geschlecht |
| age | Alter |
| race | Rasse |
| height_cm | Grösse in cm (Original in inches) |
| weight_kg | Gewicht in kg (Original in pounds) |
| actn3.r577x | Genotyp am am Locus r577x im ACTN3-Gen (CC, CT oder TT) |
| bmi | Body Mass Index |
Erstellen Sie eine Tabelle für die absoluten Häufigkeiten für die
drei Genotypen (Variable actn3.r577x).
Erstellen Sie eine Tabelle mit den absoluten Häufigkeiten für
actn3.r577x nach Rasse. Verwenden Sie race als
Zeilenvariable und actn3.r577x als
Spaltenvariable.
Wenn Sie die Variable ndrm.ch mit Kennzahlen
beschreiben müssten, würden Sie eher Mittelwert und Standardabweichung
oder Median und IQR wählen?
actn3.r577x)##
## DESCRIPTIVES
##
## Descriptives
## ──────────────────────────
## actn3.r577x
## ──────────────────────────
## N 595
## Missing 0
## ──────────────────────────
actn3.r577x nach Rasse. Verwenden Sie race als
Zeilenvariable und actn3.r577x als Spaltenvariable.##
## DESCRIPTIVES
##
## Descriptives
## ──────────────────────────────────
## actn3.r577x race
## ──────────────────────────────────
## N CC 173
## CT 261
## TT 161
## Missing CC 0
## CT 0
## TT 0
## ──────────────────────────────────
ndrm.ch mit Kennzahlen
beschreiben müssten, würden Sie eher Mittelwert und Standardabweichung
oder Median und IQR wählen?##
## DESCRIPTIVES
##
## Descriptives
## ──────────────────────────────────
## ndrm.ch
## ──────────────────────────────────
## N 595
## Missing 0
## Mean 53.29109
## Median 45.50000
## Standard deviation 33.13923
## IQR 36.70000
## Minimum 0.000000
## Maximum 250.0000
## ──────────────────────────────────
Die Verteilung von ndrm.ch ist rechtsschief, was im
Boxplot, im Histogramm und an den Kennzahlen der zentralen Tendenz gut
zu erkennen ist. Für schiefe Verteilungen sind Median und IQR zur
Beschreibung einer Verteilung eher geeignet als Mittelwert und
Standardabweichung.
Hat Rauchen bei Frauen und Männern die gleichen Effekte auf
kardiovaskuläre Erkrankungen? Eine Kohortenstudie hat den Zusammenhang
zwischen Rauchen und Aortenstenose (Einengung der Aorta, die den
Blutstrom beeinträchtigt) untersucht. Der Datensatz
stenosis.csv umfasst drei Variablen.
Codebook:
| Variable | Erläuterung |
|---|---|
| disease | yes: Stenose vorhanden, no: keine Stenose |
| smoke | Smoker: Raucher:in oder Ex-Raucher:in, NonSmoker: Nichtraucher:in |
| sex | Geschlecht: Male oder Female |
Erstellen Sie eine Tabelle für Raucherstatus smoke
und Vorliegen einer Stenose desease. Wie gross ist der
prozentuale Anteil der 215 Proband:innen die sowohl Raucher sind und
eine Aortenstenose aufweisen?
Wie hoch ist der Anteil Proband:innen mit einer Aortenstenose unter den Raucher:innen? Wie hoch ist der Anteil der Proband:innen mit einer Aortenstenose unter den Nicht-Raucher:innen?
Beantworten Sie die Frage b) nach Geschlecht getrennt.
smoke und
Vorliegen einer Stenose stenosis. Wie gross ist der
prozentuale Anteil der 215 Proband:innen die sowohl Raucher sind und
eine Aortenstenose aufweisen?##
## DESCRIPTIVES
##
## Descriptives
## ───────────────────────────────
## disease smoke
## ───────────────────────────────
## N No 110
## Yes 105
## Missing No 0
## Yes 0
## ───────────────────────────────
## [1] 23.72093
Der Anteil von Raucher:innen mit Aortenstenose beträgt 51/215 = 0.237 ~ 23.7%.
## [1] 54.25532
nichtraucher.total <- 67 + 54
nichtraucher.stenose <- 54
nichtraucher.stenose / nichtraucher.total * 100## [1] 44.6281
In der Gruppe der Raucher:innen leiden 54.3% an Aortenstenose, in der Gruppe der Nichtraucher:innen leiden 44.6% an Aortenstenose.
##
## DESCRIPTIVES
##
## Descriptives
## ─────────────────────────────────────────
## disease sex smoke
## ─────────────────────────────────────────
## N No Female 66
## Male 44
## Yes Female 43
## Male 62
## Missing No Female 0
## Male 0
## Yes Female 0
## Male 0
## ─────────────────────────────────────────
raucher.m <- 37 + 24
raucher.m.yes <- 37
nichtraucher.m <- 20 + 25
nichtraucher.m.yes <- 25
raucher.w <- 19 + 14
raucher.w.yes <- 14
nichtraucher.w <- 47 + 29
nichtraucher.w.yes <- 29
# Anteil Raucher mit Aortenstenose
raucher.m.yes / raucher.m * 100## [1] 60.65574
## [1] 55.55556
## [1] 42.42424
## [1] 38.15789
Unter den männlichen Rauchern leiden 60.7% an und unter den männlichen Nichtrauchern leiden 55.6% an Aortenstenose. Unter den weiblichen Raucherinnen leiden 42.4% und unter den Nichtraucherinnen leiden 38.2% an Aortenstenose.
Sowohl bei den Frauen als auch bei den Männern ist der prozentuale Anteil von Raucher:innen mit Aortenstenose grösser als bei den Nichtraucher:innen. Der Anteil der Raucher mit Aortenstenose ist jedoch höher als bei den Raucherinnen (das gilt jedoch auch für die männlichen Nichtraucher). Damit haben wir einen Hinweis darauf, dass Rauchen das Risiko, an einer Aortenstenose zu erkranken bei beiden Geschlechtern erhöht. Männer sind eher prädisponiert, eine Aortenstenose zu entwickeln, unabhängig davon, ob sie rauchen oder nicht
Die Daten für diese Grafik stammen aus der Befragung 2019 American Community Survey. Eingeschlossen wurden 3142 Gemeinden in den USA. Der Fragebogen umfasst 95 Items. Das Histogramm zeigt die Daten für das mittlere Haushaltseinkommen in 1000 $.
Die Grafik zeigt einen Boxplot der gleichen Daten wie in Übung 1.
Migräne ist eine ausserordentlich schmerzhafte Form von Kopfschmerzen, welche Patienten gelegentlich mit Akupunktur behandeln möchten. Um herauszufinden, ob Akupunktur gegen Migräne hilft, hat eine Forschungsgruppe eine randomisierte kontrollierte Studie durchgeführt, in der 89 Frauen mit diagnostizierter Migräne randomisiert in eine Interventions- und eine Kontrollgruppe eingeteilt wurden. Die 43 Probandinnen in der Interventionsgruppe wurden mit einem Akupunkturverfahren behandelt, das spezifisch für Migräne eingesetzt wird. 46 Probandinnen erhielten eine Schein-Akupunktur (Nadeln wurden an Nicht-Akupunkturpunkten gesetzt). 24 Stunden, nachdem die Probandinnen jeweils die Akupunkturbehandlung erhielten, wurden sie gefragt, ob sie schmerzfrei seien. Die Resultate sind in der Tabelle zusammengefasst.
| Gruppe | schmerzfrei ja | schmerzfrei nein | Total |
|---|---|---|---|
| Intervention | 10 | 33 | 43 |
| Kontrolle | 2 | 44 | 46 |
| Total | 12 | 77 | 89 |
## [1] 23.25581
## [1] 4.347826
## [1] 18.91
Beschreiben Sie die Verteilungen in den drei Histogrammen und ordnen Sie diese dem richtigen Boxplot zu.
Die Daten von Facebook zeigen, dass 50% der Facebook-Abonnent:innen 100 oder mehr Freunde haben und dass die durchschnittliche Anzahl an Freunden 190 beträgt.
Welche Form der Verteilung erwarten Sie für die Anzahl Freunde von Facebook-Abonnent:innen.
Die Aussage, dass “50% der Facebook-Abonnent:innen 100 oder mehr Freunde haben” bedeutet, dass der Median für die Anzahl Freunde bei 100 liegt. Der Mittelwert für die Anzahl Freunde liegt bei 190. Dies bedeutet, dass die Verteilung der Anzahl Freunde pro Facebook-Abonnent:in rechtsschief ist.
In einem Raum haben sich 40 Personen versammelt. Das erste Histogramm zeigt die Verteilung des jährlichen Einkommens dieser Personen. Jetzt betreten zwei neue Personen den Raum: Eine verdient $250’000 und die andere $250’000 pro Jahr. Das zweite Histogramm zeigt die neue Einkommensverteilung. Die Tabelle gibt die Kennzahlen für die beiden Situationen an.
|
|
|
|
|---|---|---|
| n | 40 | 42 |
| Min. | 60679 | 60679 |
| 1st Qu. | 63625 | 63715 |
| Median | 65238 | 65352 |
| Mean | 65089 | 73299 |
| 3rd Qu. | 66156 | 66535 |
| Max. | 69885 | 250000 |
| s | 2122 | 37321 |
Repräsentiert eher der Mittelwert oder der Median das typische jährliche Einkommen für die 42 Personen? Was bedeutet dies für die Robustheit der beiden Kennzahlen?
Ist eher die Standardabweichung oder der Interquartilabstand IQR repräsentativ für die Variabilität der jährlichen Einkommen der 42 Personen? Was bedeutet dies für die Robustheit der beiden Kennzahlen?
a) Der Median ist die bessere Kennzahl, um das typische jährliche Durchschnittseinkommen dieser 42 Personen zu beschreiben. Der Mittelwert ist viel höher als das durchschnittliche Einkommen der 40 Personen, weil er viel empfindlicher auf Extremwerte reagiert als der Median. Der Median ist robust gegen Extremwerte.
b) Der IQR ist das bessere Mass für die Variabilität der jährlichen Einkommen der 42 Personen. Die Standardabweichung ist empfindlich für Extremwerte, der IQR dagegen ist robust gegenüber Extremwerten.