.csv-Format vor (header =
TRUE, sep = “,”, dec = “.”) und können direkt in jamovi geöffnet werden.
Es wird empfohlen, nach der Kategorisierung der Variablen in jamovi, die
Datei im jamovi-Format .omv zu speichern.[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org
Diskutieren Sie diese Übungen auch mit Ihren Mitstudierenden und den Betreuungspersonen.
Die Datei fertilitaet.csv enthält Daten zur Anzahl
Kinder, die von Frauen im Alter von 15-19 Jahren geboren wurden. Erfasst
sind 189 Länder für die Jahre 1997, 2000, 2002, 2005 und 2006. Die Werte
für die jährlichen Fertilitätsraten adoleszenter Frauen sind angegeben
als Anzahl Lebendgeburten pro 1000 Frauen im Alter von 15-19 Jahren.
Berechnen Sie alle Kennzahlen (Umfang n, Mittelwert, Median,
Standardabweichung, IQR, Variationsbreite, Minimum, Maximum) für das
Jahr 2006 (Variable fert_2006).
Bei welchem Wert liegt die 75. Perzentile? Erläutern Sie in einem Satz diesen Wert im Zusammenhang mit den Daten.
Die Daten für Irak fehlen für die Jahre 2000 bis 2006 (vermutlich wegen des Irak-Kriegs). Hätten diese Daten einen grossen Effekt auf die unter a) berechneten Kennzahlen Median und IQR?
Erstellen Sie vergleichende Boxplots für die Fertilität in den 5
Jahren. Leider geht das in jamovi mit der Struktur des vorliegnden
Datensatzes nicht. Verwenden Sie für diese Grafik die Datei
fertilitaet_long.csv. Interpretieren Sie die
Grafik.
fert_2006).##
## DESCRIPTIVES
##
## Descriptives
## -----------------------------------
## fert_2006
## -----------------------------------
## N 188
## Missing 1
## Mean 53.58395
## Median 40.06820
## Standard deviation 46.97848
## IQR 57.85080
## Minimum 1.453400
## Maximum 223.8336
## -----------------------------------
Alle Angaben sind in der Einheit Anzahl Lebendgeburten pro 1000 Frauen im Alter von 15-19.
##
## DESCRIPTIVES
##
## Descriptives
## -----------------------------------
## fert_2006
## -----------------------------------
## N 188
## Missing 1
## Mean 53.58395
## Median 40.06820
## Standard deviation 46.97848
## Minimum 1.453400
## Maximum 223.8336
## 75th percentile 75.72670
## -----------------------------------
Die 75. Perzentile liegt bei 75.7. Interpretation: In 75% der Länder sind die Geburtsraten gleich oder kleiner als 75.73 Geburten pro 1000 Frauen im Alter von 15-19 Jahre.
NEIN, dies ist nicht anzunehmen. Der Median und der IQR sind robuste Masse. Selbst extreme Werte für den Irak hätten kaum einen Einfluss.
fertilitaet_long.csv. Interpretieren Sie die Grafik.##
## DESCRIPTIVES
##
## Descriptives
## -----------------------------------------------
## year fert
## -----------------------------------------------
## N fert_1997 189
## fert_2000 188
## fert_2002 188
## fert_2005 188
## fert_2006 188
## Missing fert_1997 0
## fert_2000 1
## fert_2002 1
## fert_2005 1
## fert_2006 1
## Mean fert_1997 65.85885
## fert_2000 61.65747
## fert_2002 58.78678
## fert_2005 54.88466
## fert_2006 53.58395
## Median fert_1997 52.32600
## fert_2000 46.38820
## fert_2002 43.70850
## fert_2005 41.24040
## fert_2006 40.06820
## Standard deviation fert_1997 51.76017
## fert_2000 51.24401
## fert_2002 51.18445
## fert_2005 48.00347
## fert_2006 46.97848
## Minimum fert_1997 1.633000
## fert_2000 1.550200
## fert_2002 1.495000
## fert_2005 1.463800
## fert_2006 1.453400
## Maximum fert_1997 230.4800
## fert_2000 230.4800
## fert_2002 230.4800
## fert_2005 225.4952
## fert_2006 223.8336
## -----------------------------------------------
Zwischen 1997 und 2006 nehmen Median, IQR, unteres und oberes Quartil kontinuierlich ab.
Gibt es einen Zusammenhang zwischen dem Fluorgehalt im Trinkwasser
und Karies bei Kindern. Die Datei water.csv enthält Daten
einer Studie, die 7257 Kinder in 21 Städten in Flandern, Belgien
untersucht hat.
Der Fluoridgehalt des Trinkwassers in jeder Stadt in ppm (parts per
million) ist in der Variablen fluoride gespeichert. Der
Wert in der Variablen caries ist die Summe von
Zahnfüllungen, Zähne mit unbehandelter Karies, Zähne die gezogen werden
müssen und fehlende Zähne pro 100 Kinder.
Erstellen Sie ein Streudiagramm mit fluoride als
x-Variable und caries als y-Variable.
Beschreiben Sie den Zusammenhang zwischen den beiden Variablen.
Wenn Sie die Daten mit einer Geraden modellieren würden, wo würde diese Gerade die x- und die y-Achse schneiden? Überlegen Sie zuerst theoretisch und erstellen Sie anschliessend zur Überprüfung Ihrer Überlegungen in jamovi eine lineare Regressionsgerade. (Hinweis: Beachten Sie bei Ihren Überlegungen, dass die y-Achse im jamovi-Output bei 200 beginnt.)
Würde eine Gerade diese Daten gut modellieren?
fluoride als
x-Variable und caries als y-Variable.Mit zunehmendem Fluoridgehalt im Trinkwasser, sinkt die Kariesrate bei Kindern (negativer Zusammenhang).
Die Gerade schneidet die x-Achse ca. bei 2.7 und die y-Achse bei ca. 740. Die Steigung der Geraden beträgt demnach etwa -740/2.7 = -274. (andere Angaben in dieser Grössenordnung sind auch ok). Beachten Sie, dass jamovi bei diesem Plot die y-Achse bei 0 beginnen lässt)
Eine Gerade scheint kein optimales Modell für die Daten zu sein.
Bei kleinen und grossen Werten für fluoride liegen die
Punkte über der Geraden, bei mittleren Werten unter der Geraden. Dies
ist ein Hinweis auf einen nicht-linearen Zusammenhang.
Die Skelettmuskeln haben grossen Einfluss auf die menschliche Leistungsfähigkeit und die Gesundheit. Wir wissen jedoch noch wenig zu den genetischen Faktoren, welche die Muskelgrösse, Muskelkraft und die Reaktion der Muskeln auf Training beeinflussen. Die Studie mit der etwas umständlichen Bezeichnung FAMuSS (functional single nucleotide polymorphisms associated with muscle size and strength) ist eine Multizenterstudie, welche diese Frage untersucht.
Referenz: Thompson, P. D., Moyna, N., Seip, R., Price, T., Clarkson, P., Angelopoulos, T., Gordon, P., Pescatello, L., Visich, P., Zoeller, R., Devaney, J. M., Gordish, H., Bilbie, S., & Hoffman, E. P. (2004). Functional polymorphisms associated with human muscle size and strength. Medicine and science in sports and exercise, 36(7), 1132–1139. https://doi.org/10.1249/01.mss.0000132274.26612.23
Die Daten sind in der Datei famuss.csvabgelegt.
Codebook:
| Variable | Erläuterung |
|---|---|
| ndrm.ch | Änderung der Kraft im nicht-dominanten Arm, vor und nach Training in Prozent |
| drm.ch | Änderung der Kraft im dominanten Arm, vor und nach Training in Prozent |
| sex | Geschlecht |
| age | Alter |
| race | Rasse |
| height_cm | Grösse in cm (Original in inches) |
| weight_kg | Gewicht in kg (Original in pounds) |
| actn3.r577x | Genotyp am am Locus r577x im ACTN3-Gen (CC, CT oder TT) |
| bmi | Body Mass Index |
Erstellen Sie eine Tabelle für die absoluten Häufigkeiten für die
drei Genotypen (Variable actn3.r577x).
Erstellen Sie eine Tabelle mit den absoluten Häufigkeiten für
actn3.r577x nach Rasse. Verwenden Sie race als
Zeilenvariable und actn3.r577x als
Spaltenvariable.
Wenn Sie die Variable ndrm.ch mit Kennzahlen
beschreiben müssten, würden Sie eher Mittelwert und Standardabweichung
oder Median und IQR wählen?
actn3.r577x)##
## DESCRIPTIVES
##
## Descriptives
## --------------------------
## actn3.r577x
## --------------------------
## N 595
## Missing 0
## --------------------------
##
##
## FREQUENCIES
##
## Frequencies of actn3.r577x
## --------------------------------------------------
## Levels Counts % of Total Cumulative %
## --------------------------------------------------
## CC 173 29.07563 29.07563
## CT 261 43.86555 72.94118
## TT 161 27.05882 100.00000
## --------------------------------------------------
actn3.r577x nach Rasse. Verwenden Sie race als
Zeilenvariable und actn3.r577x als Spaltenvariable.##
## DESCRIPTIVES
##
## Descriptives
## ----------------------------------
## actn3.r577x race
## ----------------------------------
## N CC 173
## CT 261
## TT 161
## Missing CC 0
## CT 0
## TT 0
## ----------------------------------
##
##
## FREQUENCIES
##
## Frequencies of race
## -----------------------------------
## race CC CT TT
## -----------------------------------
## African Am 16 6 5
## Asian 21 18 16
## Caucasian 125 216 126
## Hispanic 4 10 9
## Other 7 11 5
## -----------------------------------
ndrm.ch mit Kennzahlen
beschreiben müssten, würden Sie eher Mittelwert und Standardabweichung
oder Median und IQR wählen?##
## DESCRIPTIVES
##
## Descriptives
## ----------------------------------
## ndrm.ch
## ----------------------------------
## N 595
## Missing 0
## Mean 53.29109
## Median 45.50000
## Standard deviation 33.13923
## IQR 36.70000
## Minimum 0.000000
## Maximum 250.0000
## ----------------------------------
Die Verteilung von ndrm.ch ist rechtsschief, was im
Boxplot, im Histogramm und an den Kennzahlen der zentralen Tendenz gut
zu erkennen ist. Für schiefe Verteilungen sind Median und IQR zur
Beschreibung einer Verteilung eher geeignet als Mittelwert und
Standardabweichung.
Hat Rauchen bei Frauen und Männern die gleichen Effekte auf
kardiovaskuläre Erkrankungen? Eine Kohortenstudie hat den Zusammenhang
zwischen Rauchen und Aortenstenose (Einengung der Aorta, die den
Blutstrom beeinträchtigt) untersucht. Der Datensatz
stenosis.csv umfasst drei Variablen.
Codebook:
| Variable | Erläuterung |
|---|---|
| disease | yes: Stenose vorhanden, no: keine Stenose |
| smoke | Smoker: Raucher:in oder Ex-Raucher:in, NonSmoker: Nichtraucher:in |
| sex | Geschlecht: Male oder Female |
Erstellen Sie eine Tabelle für Raucherstatus smoke
und Vorliegen einer Stenose desease. Wie gross ist der
prozentuale Anteil der 215 Proband:innen die sowohl Raucher sind und
eine Aortenstenose aufweisen?
Wie hoch ist der Anteil Proband:innen mit einer Aortenstenose unter den Raucher:innen? Wie hoch ist der Anteil der Proband:innen mit einer Aortenstenose unter den Nicht-Raucher:innen?
Beantworten Sie die Frage b) nach Geschlecht getrennt.
smoke und
Vorliegen einer Stenose stenosis. Wie gross ist der
prozentuale Anteil der 215 Proband:innen die sowohl Raucher sind und
eine Aortenstenose aufweisen?##
## DESCRIPTIVES
##
## Descriptives
## -------------------------------
## disease smoke
## -------------------------------
## N No 110
## Yes 105
## Missing No 0
## Yes 0
## -------------------------------
##
##
## FREQUENCIES
##
## Frequencies of smoke
## --------------------------
## smoke No Yes
## --------------------------
## NonSmoker 67 54
## Smoker 43 51
## --------------------------
anzahl.raucher <- 51
anzahl.gesamt <- 215
anzahl.raucher/anzahl.gesamt * 100## [1] 23.72093
Der Anteil von Raucher:innen mit Aortenstenose beträgt 51/215 = 0.237 ~ 23.7%.
raucher.total <- 43 + 51
raucher.stenose <- 51
raucher.stenose / raucher.total * 100## [1] 54.25532
nichtraucher.total <- 67 + 54
nichtraucher.stenose <- 54
nichtraucher.stenose / nichtraucher.total * 100## [1] 44.6281
In der Gruppe der Raucher:innen leiden 54.3% an Aortenstenose, in der Gruppe der Nichtraucher:innen leiden 44.6% an Aortenstenose.
##
## DESCRIPTIVES
##
## Descriptives
## -----------------------------------------
## disease sex smoke
## -----------------------------------------
## N No Female 66
## Male 44
## Yes Female 43
## Male 62
## Missing No Female 0
## Male 0
## Yes Female 0
## Male 0
## -----------------------------------------
##
##
## FREQUENCIES
##
## Frequencies of smoke
## ------------------------------------
## smoke sex No Yes
## ------------------------------------
## NonSmoker Female 47 29
## Male 20 25
## Smoker Female 19 14
## Male 24 37
## ------------------------------------
raucher.m <- 37 + 24
raucher.m.yes <- 37
nichtraucher.m <- 20 + 25
nichtraucher.m.yes <- 25
raucher.w <- 19 + 14
raucher.w.yes <- 14
nichtraucher.w <- 47 + 29
nichtraucher.w.yes <- 29
# Anteil Raucher mit Aortenstenose
raucher.m.yes / raucher.m * 100## [1] 60.65574
# Anteil Nichtraucher mit Aortenstenose
nichtraucher.m.yes / nichtraucher.m * 100## [1] 55.55556
# Anteil Raucherinnen mit Aortenstenose
raucher.w.yes / raucher.w * 100## [1] 42.42424
# Anteil Nichtraucherinnen mit Aortenstenose
nichtraucher.w.yes / nichtraucher.w * 100## [1] 38.15789
Unter den männlichen Rauchern leiden 60.7% an und unter den männlichen Nichtrauchern leiden 55.6% an Aortenstenose. Unter den weiblichen Raucherinnen leiden 42.4% und unter den Nichtraucherinnen leiden 38.2% an Aortenstenose.
Sowohl bei den Frauen als auch bei den Männern ist der prozentuale Anteil von Raucher:innen mit Aortenstenose grösser als bei den Nichtraucher:innen. Der Anteil der Raucher mit Aortenstenose ist jedoch höher als bei den Raucherinnen (das gilt jedoch auch für die männlichen Nichtraucher). Damit haben wir einen Hinweis darauf, dass Rauchen das Risiko, an einer Aortenstenose zu erkranken bei beiden Geschlechtern erhöht. Männer sind eher prädisponiert, eine Aortenstenose zu entwickeln, unabhängig davon, ob sie rauchen oder nicht
Wir betrachten die Standardnormalverteilung mit dem Mittelwert \(\mu=0\) und der Standardabweichung \(\sigma= 1\).
Wie gross ist die Wahrscheinlichkeit für für ein Ereignis mit \(z > 2.30\)?
Wie gross ist die Wahrscheinlichkeit, dass \(z < 3.10\) ?
Wie gross ist die Wahrscheinlichkeit dass \(z\) zwischen -1.60 und 3.10 liegt??
Welcher Wert von \(z\) markiert die Grenze zu den oberen 15% der Verteilung?
Welcher Wert von \(z\) markiert die Grenze zu den unteren 20% der Verteilung?
Tipp: Arbeiten Sie mit den R-Funktionen
pnorm() und qnorm Rj-Editor in jamovi.
Die Funktion pnorm() gibt die Wahrscheinlichkeit
links von \(z\) an. Die
Wahrscheinlichkeit rechts von \(z\)
berechnen wir als 1 - pnorm().
1 - pnorm(2.3)## [1] 0.01072411
# auf 3 Nachkommastellen gerundet
round(1 - pnorm(2.3), 3)## [1] 0.011
pnorm(3.1)## [1] 0.9990324
# auf 3 Nachkommastellen gerundet
round(pnorm(3.1), 3)## [1] 0.999
pnorm(3.1) - pnorm(-1.6)## [1] 0.9442331
# auf 3 Nachkommastellen gerundet
round(pnorm(3.1) - pnorm(-1.6), 3)## [1] 0.944
Die Grenze zu den oberen 15% der Verteilung ist die 85.
Perzentile. Mit der Funktion qnorm() berechnen wir die
Werte, die auf einer bestimmten Perzentile liegen.
qnorm(.85)## [1] 1.036433
#auf 3 Nachkommastellen gerundet
round(qnorm(.85), 3)## [1] 1.036
qnorm(0.2)## [1] -0.8416212
# auf 3. Nachkommastelle runden
round(qnorm(.2), 3)## [1] -0.842
Die WHO (Weltgesundheitsorganisation) definiert Osteoporose bei jungen Erwachsenen als gemessene Knochendichte 2.5 Standardabweichungen unter dem Mittelwert für junge Erwachsene. Wie hoch ist der prozentuale Anteil an jungen Erwachsenen mit Osteoporose, unter der Voraussetzung, dass die Konchendichte bei jungen Erwachsenen normalverteilt ist?
pnorm(-2.5)## [1] 0.006209665
# in Prozent
100 * pnorm(-2.5)## [1] 0.6209665
# auf 3. Nachkommastelle gerundet
round(100 * pnorm(-2.5), 3)## [1] 0.621
Gemäss den WHO-Kriterien leiden 0.621% der jungen Erwachsenen an Osteoporose
Ein hoher Cholesterinspiegel im Blut ist ein Risikofaktor für eine koronare Herzkrankheit. Junge Frauen leiden seltener an einem hohen Cholesterinspiegel als andere Gruppen. Der Cholesterinspiegel von Frauen im Alter von 20 bis 34 Jahre ist annähernd normalverteilt mit einem Mittelwert von 185 mg/dl und einer Standardabweichung von 39 mg/dl Blut.
Cholesterinspiegel über 240 mg/dl müssen mediznisch überwacht werden. Wie hoch ist der prozentuale Anteil an jungen Frauen, die einen Cholesterinspiegel über 240 mg/dl haben?
Cholesterinspiegel über 200 mg/dl gelten als grenzwertig erhöht. Wie gross ist der Anteil an jungen Frauen mit einem Cholesterinspiegel zwischen 200 mg/dl und 240 mg/dl?
z <- (240 - 185) / 39
1 - pnorm(z)## [1] 0.07923199
pnorm() geht in ihrer
Grundeinstellung von einer Standardnormalverteilung aus. Wenn eine
andere Normalverteilung als Referenz dient, können ihre Parameter in die
Funktion eingetragen werden
pnorm(Wert, mean = Mittelwert, sd = Standardabweichung)1 - pnorm(240, mean = 185, sd = 39)## [1] 0.07923199
Der Anteil junger Frauen mit einem Cholesterinspiegel über 240 mg/dl beträgt durchschnittlich 7.923%.
# Häufigkeit für <= 240 berechnen (aus Teilaufgabe a)
p_240 <- pnorm(240, mean = 185, sd = 39)
# Häufigkeit für <= 200 berechnen
p_200 <- pnorm(200, mean = 185, sd = 39)
# Differenz bilden
p_240 - p_200## [1] 0.2710292
Der Anteil junger Frauen mit einem Cholesterinspiegel zwischen 200 mg/dl und 240 mg/dl beträgt 27.103%.
Das typische Geburtsgewicht eines Babys beträgt in den USA 3250g.
Eine Forscherin zieht eine Zufallsstichprobe von 50 Geburtsgewichten aus
mehreren regionalen Spitälern. Die Geburtsgewichte sind in der Datei
geburtsgewichte.csv gespeichert. Die Forscherin vermutet,
dass die Geburtsgewichte in diesen Spitälern im Durchschnitt grösser
sind als 3250g, da die Mütter, die in diesen Spitälern gebären, in der
Tendenz eher übergewichtig sind. Die Resultate dieser Studie bilden die
Grundlage für einen politischen Entscheid, der die Einführung von
Beratungsprogrammen für schwangere Frauen, die Bewegung und gesunde
Ernährung fördern sollen, bewirken soll.
Führen Sie einen Hypothesentest durch, um das Geburtsgewicht der Babies im Datensatz mit dem durchschnittlichen Geburtsgewicht von 3250g zu vergleichen. Formulieren Sie die Hypothesen. Das Signifikanzniveau ist auf \(\alpha = 0.05\) festgelegt.
Hypothesen:
\(H_0: \mu = 3250\)
\(H_A: \mu > 3250\)
Kennzahlen und Voraussetzungen prüfen
##
## DESCRIPTIVES
##
## Descriptives
## ----------------------------------
## gewicht
## ----------------------------------
## N 50
## Missing 0
## Mean 3320.622
## Median 3309.203
## Standard deviation 266.4774
## Minimum 2810.408
## Maximum 4084.319
## ----------------------------------
Anhand des QQ-Plots liegt keine Evidenz vor, die dagegen spricht,
dass die Daten aus einer normalverteilten Population stammen.
Stichprobenumfang n = 50
Einstichproben-T-Test
##
## ONE SAMPLE T-TEST
##
## One Sample T-Test
## ----------------------------------------------------------------
## Statistic df p
## ----------------------------------------------------------------
## gewicht Student's t 1.873985 49.00000 0.0334508
## ----------------------------------------------------------------
## Note. H<U+2090> µ > 3250
\(p = 0.033\). Da \(p < \alpha\) verwerfen wir die \(H_0\) zugunsten von \(H_A\). Die Daten zeigen, dass das durchschnittliche Gewicht der Babies in diesen Spitälern mit 3320.6g (s = 266.5g) signifikant höher ist, als das durchschnittliche Geburtsgewicht in den USA von 3250g. Die Daten stützen das Anliegen, ein Beratungsprogramm für schwangere Frauen anzubieten.
In einer durchgeführten soziologischen Umfrage war eine der Fragen “Wieviel Zeit bleibt Ihnen an einem gewöhnlichen Arbeitstag für Freizeitaktivität und Entspannung?”. Die Befrugung wurde bei 1154 zufällig ausgewählten Erwachsenen durchgeführt. Das Resultat auf diese Frage ergab ein 95%-Vertrauensintervall von 3.53 bis 3.83 Stunden.
Entscheiden sie für jede der folgenden Aussagen, ob sie richtig oder falsch ist. Begründen Sie ihren Entscheid.
Das Signifikanzniveau ist auf \(\alpha = 0.05\) festgelegt.
Wenn die Forscherinnen ein 70%-Vertrauensintervall angegeben hätten, wäre dieses breiter (die untere Grenze wäre kleiner als 3.53 und die obere Grenze grösser als 3.83 Stunden).
Wir können zu 95% darauf vertrauen, dass das Intervall [3.53, 3.83] die durchschnittliche Anzahl Stunden beinhaltet, welche den in der Studie Befragten für Freizeitaktivitäten und Entspannung an einem normalen Arbeitstag zur Verfügung steht.
Das Konfidenzintervall von [3.53, 3.83] Stunden beinhaltet die durchschnittliche Anzahl Stunden, welche der erwachsenen Bevölkerung, aus der die Stichprobe stammt, für Freizeitaktivitäten und Entspannung zur Verfügung steht.
Die Studie liefert statistisch signifikante Evidenz dafür, dass der erwachsenen Bevölkerung, aus der die Stichprobe stammt, im Durchschnitt 3.6 Stunden Zeit für Freizeitaktivitäten und Erholung an einem normalen Arbeitstag zur Verfügung steht. (Signifikanzniveau \(\alpha = 0.05\))
Die Wahrscheinlichkeit beträgt 5%, dass das Intervall von [3.53, 3.83] Stunden die durchschnittliche Zeit, die der erwachsenen Bevölkerung für Freizeitaktivitäten und Erholung zur Verfügung stehen, nicht enthält.
Das Konfidenzintervall von [3.53, 3.83] Stunden liefert statistisch signifikante Evidenz dafür , dass der erwachsenen Bevölkerung an einem normalen Arbeitstag im Durchschnitt weniger als 3.9 Stunden für Freizeitaktivitäten und Erholung zur Verfügung stehen.
FALSCH. Das Vertrauensintervall würde schmaler.
FALSCH: Konfidenzintervalle beziehen sich auf eine Population und nicht auf eine Stichprobe. Der Satz würde stimmen, wenn an Stelle “, welche den in der Studie Befragten” durch “, welche der erwachsenen Bevölkerung” ersetzt würde.
FALSCH: In 5 von 100 Stichproben mit dem gleichen Stichprobenumfang enthält das 95%-Konfidenzintervall den wahren Mittelwert in der Bevölkerung nicht. Wir können also nicht zu 100%, sondern nur zu 95% darauf vertrauen, dass das 95%-Konfidenzintervall die wahre Populationskennzahl enthält.
FALSCH: Die Fragestellung entspricht einem Einstichproben-T-Test mit dem Nullwert 3.6 Stunden. Die entsprechende Nullhypothese lautet \(H_0: \mu = 3.6\) und wir würden anhand dieser Daten die Nullhypothese nicht verwerfen. Allerdings ist fehlende Evidenz gegen die Nullhypothese nicht das Gleiche wie die Nullhypothese annehmen.
FALSCH: Ein Konfidenzintervall aus Stichprobendaten enthält den wahren Wert oder nicht. Wir wissen es einfach nicht. Was wir aber wissen ist, dass im Falle eines 95%-Konfidenzintervalls in durchschnittlich 95 von 100 Stichproben, der wahre Parameter enthalten ist.
RICHTIG: Die Frage entspricht dem Einstichproben-t-Test mit einem Nullwert von 3.9 Stunden. Die Hypothesen lauten: \(H_0: \mu = 3.9\) und \(H_A:\mu < 3.9\). Weil das 95%-Konfidenzintervall von [3.53, 3.83] Stunden den Nullwert nicht enthält verwerfen wir die Nullhypothese zu Gunsten der Alternativhypothese.
Entscheiden Sie für jedes der folgenden Szenarios, ob es sich um verbundene (abhängige) oder unabhängige Daten handelt.
Unterscheidet sich der Lohn von Professoren und Professorinnen an den Schweizer Hochschulen. Ziehen sie ein Zufallsstichproben von 50 Professorinnen und 50 Professoren und vergleichen Sie deren Gehalt.
Führt Vitamin E zu einer Verdickung der Arterien? Messen Sie die Wanddicke der Arterien einer Gruppe von Patient:innen bevor diese regelmässig für zwei Jahre Vitamin E zu sich nehmen (Baseline). Führen Sie nach zwei Jahren eine Follow-Up-Messung durch und vergleichen Sie die Wanddicke der Arterien.
Ist eine mediterrane Diät eine effektive Methode zur Gewichtsreduktion? Vergleichen Sie das Körpergewicht von 30 adipösen Menschen vor und nach der Diät.
Ist exzentrisches oder konzentrisches Krafttraining besser für einen Zuwachs an Muskelmasse. Führen Sie eine randomisierte kontrollierte Studie durch. 55 zufällig ausgewählte Personen werden randomisiert in eine Gruppe, die exzentrisch trainiert und in eine Gruppe, die konzentrisch trainiert eingeteilt. Beide Gruppen trainieren währen drei Monaten vier Mal pro Woche für 30 Minuten. Vergleichen Sie in beiden Gruppen die Muskelumfänge zu Beginn des Trainings mit den Muskelumfängen nach drei Monaten.
In Aufgabe d) haben Sie die Differenz der Muskelumfänge in beiden in beiden Gruppen verglichen. Jetzt vergleichen Sie die Differenz der Muskelumfänge zwischen den beiden Gruppen, um ihre Fragestellung zu beantworten.
Unterscheidet sich der Lohn von Professoren und Professorinnen an den Schweizer Hochschulen. Ziehen sie ein Zufallsstichproben von 50 Professorinnen und 50 Professoren und vergleichen Sie deren Gehalt. unabhängig
Führt Vitamin E zu einer Verdickung der Arterien? Messen Sie die Wanddicke der Arterien einer Gruppe von Patient:innen bevor diese regelmässig für zwei Jahre Vitamin E zu sich nehmen (Baseline). Führen Sie nach zwei Jahren eine Follow-Up-Messung durch und vergleichen Sie die Wanddicke der Arterien. verbunden
Ist eine mediterrane Diät eine effektive Methode zur Gewichtsreduktion? Vergleichen Sie das Körpergewicht von 30 adipösen Menschen vor und nach der Diät. verbunden
Ist exzentrisches oder konzentrisches Krafttraining besser für einen Zuwachs an Muskelmasse. Führen Sie eine randomisierte kontrollierte Studie durch. 55 zufällig ausgewählte Personen werden randomisiert in eine Gruppe, die exzentrisch trainiert und in eine Gruppe, die konzentrisch trainiert eingeteilt. Beide Gruppen trainieren währen drei Monaten vier Mal pro Woche für 30 Minuten. Vergleichen Sie in beiden Gruppen die Muskelumfänge zu Beginn des Trainings mit den Muskelumfängen nach drei Monaten. verbunden
In Aufgabe d) haben Sie die Differenz der Muskelumfänge in beiden in beiden Gruppen verglichen. Jetzt vergleichen Sie die Differenz der Muskelumfänge zwischen den beiden Gruppen, um ihre Fragestellung zu beantworten. unabhängig
Hat Passivrauchen bei Kindern einen Einfluss auf die Lungenfunktion?
Für diese Studie wurden 23 Kinder im Alter von 5-9 Jahren untersucht,
deren Eltern regelmässig zuhause rauchen. Die Ergebnisse werden mit
einer zweiten Gruppe von 20 Kindern in ähnlichem Alter verglichen, deren
Eltern nicht rauchen. Die Kinder wurden aus den beiden Populationen
zufällig ausgewählt. Die Daten sind in passivrauchen.csv
abgelegt.
| Variable | Erläuterung |
|---|---|
| FEV | maximales forciertes expiratorisches Lungenvolumen, Einheit: Liter |
| passivrauchen | ja: Eltern rauchen, nein: Eltern rauchen nicht |
\(H_0: \mu_{passivrauchen} =
\mu_{nicht-passivrauchen}\)
\(H_A: \mu_{passivrauchen} \neq
\mu_{nicht-passivrauchen}\)
##
## DESCRIPTIVES
##
## Descriptives
## ----------------------------------------------------
## passivrauchen FEV
## ----------------------------------------------------
## N ja 23
## nein 20
## Missing ja 0
## nein 0
## Mean ja 2.041441
## nein 2.217076
## Median ja 2.074215
## nein 2.240384
## Standard deviation ja 0.5743267
## nein 0.4137973
## Minimum ja 0.8174515
## nein 1.286207
## Maximum ja 2.927390
## nein 3.094215
## ----------------------------------------------------
Das durchschnittliche FEV bei Kindern, deren Eltern rauchen beträgt 2.041 l (s = 0.574 l) und bei Kindern, deren Elten nicht rauchen 2.217 (s = 0.414 l).
Prüfung der Voraussetzungen
##
## INDEPENDENT SAMPLES T-TEST
##
## Independent Samples T-Test
## ------------------------------------------------------------------------------------------------------------------------------
## Statistic df p Mean difference SE difference Lower Upper
## ------------------------------------------------------------------------------------------------------------------------------
## FEV Student's t -1.134606 41.00000 0.2631305 -0.1756350 0.1547982 -0.4882564 0.1369864
## Mann-Whitney U 188.0000 0.3157143 -0.1407933 -0.4920808 0.1699348
## ------------------------------------------------------------------------------------------------------------------------------
Der \(p\)-Wert des Mann-Whitney-U-Tests beträgt 0.316. Da \(p > \alpha\) haben wir nicht ausreichend Evidenz, um \(H_0\) auf dem Signifikanzniveau \(\alpha = 0.05\) zu verwerfen. Im Durchschnitt (Median) haben Kinder von rauchenden Eltern eine um -0.141 l [-0.492, 0.170] geringere FEV.
Hat Passivrauchen in einem Elternhaus, in dem die Eltern rauchen, einen Effekt auf die Lungenfunktion der Kinder. Zu dieser Frage wurde eine Studie durchgeführt, in der das maximale forcierte expiratorische Lungenvolumen FEV von Kindern aus einem Elternhaus mit rauchenden Eltern verglichen wurde mit dem FEV von Kindern, deren Eltern nicht rauchen. Das durchschnittliche FEV bei Kindern, deren Eltern rauchen, beträgt 2.041 l (s = 0.574 l) und bei Kindern, deren Elten nicht rauchen 2.217 l (s = 0.414 l). Im Durchschnitt (Median) haben Kinder von rauchenden Eltern eine um -0.141 l [-0.492, 0.170] geringere FEV, Mann-Whitney-U = 188, p = 0.316. Aus den vorliegenden Daten kann nicht geschlossen werden, dass Passivrauchen zuhause mit einer Verschlechterung der Lungenfunktion der Kinder einhergeht.
Überlegung: Wir wissen aus zahlreichen Studien, dass Passivrauchen bei Kindern die Lungenfunktion ungünstig beeinflusst. Ein möglicher Confounder in dieser Studie könnte das verfügbare Haushaltseinkommen sein. Kinder in finanziell besser gestellten Verhältnissen haben besseren Zugang zu medizinischer Versorgung und die Wahrscheinlichkeit, dass die Eltern rauchen, ist geringer. Um diesen Aspekt zu berücksichtigen, müssten die Gruppen in der Studie zusätzlich nach den Einkommensverhältnissen stratifiziert werden.
Sie werden von einem engagierten Umweltschützer um statistische Beratung angefragt. Er arbeitet an einer Analyse zur Klimaerwärmung. Er ist im Besitz von Durchschnittstemperaturen im Januar von 200 Orten in Europa und USA aus den Jahren 2008 und 2018. Er schlägt folgendes Vorgehen vor: Für jeden Ort möchte er einen zweiseitigen Hypothesentest durchführen, um die Durchschnittstemperaturen im Januar von 2008 und 2018 zu vergleichen. Das Signifikanzniveau möchte er auf \(\alpha = 0.05\) festlegen. Sein Plan ist, Evidenz dafür vorzulegen, dass an den gemessenen Orten die durchschnittliche Temperatur angestiegen ist. Um seinem Anliegen mehr Gewicht zu verleihen, würde er in seiner Arbeit nur die statistisch signifikanten Resultate publizieren.
Auf welche kritischen Punkte würden Sie auf Grundlage ihrer Statistikkenntnisse den Kollegen ansprechen? (Diskutieren Sie diese Frage mit ihren Mitstudierenden)
Hinweis (kein Lernstoff!): Eine mögliche Lösung, um die Rate der Fehler 1. Art beim multiplen Testen zu kontrollieren, ist die Anpassung des Signifikanzniveaus. Dazu existieren verschiedene Verfahren. Das einfachste besteht darin, dass das Signifikanzniveau \(\alpha\) durch die Anzahl der durchgeführten Tests dividiert wird (Bonferroni-Korrektur). In unserem Fall wäre dann \(\alpha_{adj} = \frac{0.05}{200} = 0.00025\). Damit wird die Gesamtrate für den Fehler 1. Art für diese Studie bei 0.05 sichergestellt.
Einen interessanten Artikel dazu finden sie hier: Iannidis, John: Why Most Published Research Findings are False