Technische Vorbemerkung

[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org

[2] Die Aufgaben stammen im Original aus der Aufgabensammlung von Lukas Stammler.

Diskutieren Sie diese Übungen auch mit Ihren Mitstudierenden.


Deskriptive Statistik

Übung 1

Die Datei fertilitaet.csv enthält Daten zur Anzahl Kinder, die von Frauen im Alter von 15-19 Jahren geboren wurden. Erfasst sind 189 Länder für die Jahre 1997, 2000, 2002, 2005 und 2006. Die Werte für die jährlichen Fertilitätsraten adoleszenter Frauen sind angegeben als Anzahl Lebendgeburten pro 1000 Frauen im Alter von 15-19 Jahren.

Aufgabe

  1. Berechnen Sie alle Kennzahlen (Umfang n, Mittelwert, Median, Standardabweichung, IQR, Variationsbreite, Minimum, Maximum) für das Jahr 2006 (Variable fert_2006).

  2. Bei welchem Wert liegt die 75. Perzentile? Erläutern Sie in einem Satz diesen Wert im Zusammenhang mit den Daten.

  3. Die Daten für Irak fehlen für die Jahre 2000 bis 2006 (vermutlich wegen des Irak-Kriegs). Hätten diese Daten einen grossen Effekt auf die unter a) berechneten Kennzahlen Median und IQR?

  4. Erstellen Sie vergleichende Boxplots für die Fertilität in den 5 Jahren. Leider geht das in jamovi mit der Struktur des vorliegnden Datensatzes nicht. Verwenden Sie für diese Grafik die Datei fertilitaet_long.csv. Interpretieren Sie die Grafik.


Lösung

  1. Berechnen Sie alle Kennzahlen (Umfang n, Mittelwert, Median, Standardabweichung, IQR, Variationsbreite, Minimum, Maximum) für das Jahr 2006 (Variable fert_2006).
## 
##  DESCRIPTIVES
## 
##  Descriptives                        
##  ─────────────────────────────────── 
##                          fert_2006   
##  ─────────────────────────────────── 
##    N                           188   
##    Missing                       1   
##    Mean                   53.58395   
##    Median                 40.06820   
##    Standard deviation     46.97848   
##    IQR                    57.85080   
##    Minimum                1.453400   
##    Maximum                223.8336   
##  ───────────────────────────────────

Alle Angaben sind in der Einheit Anzahl Lebendgeburten pro 1000 Frauen im Alter von 15-19.

  1. Bei welchem Wert liegt die 75. Perzentile? Erläutern Sie in einem Satz diesen Wert im Zusammenhang mit den Daten.
## 
##  DESCRIPTIVES
## 
##  Descriptives                        
##  ─────────────────────────────────── 
##                          fert_2006   
##  ─────────────────────────────────── 
##    N                           188   
##    Missing                       1   
##    Mean                   53.58395   
##    Median                 40.06820   
##    Standard deviation     46.97848   
##    Minimum                1.453400   
##    Maximum                223.8336   
##    75th percentile        75.72670   
##  ───────────────────────────────────

Die 75. Perzentile liegt bei 75.7. Interpretation: In 75% der Länder sind die Geburtsraten gleich oder kleiner als 75.73 Geburten pro 1000 Frauen im Alter von 15-19 Jahre.

  1. Die Daten für Irak fehlen für die Jahre 2000 bis 2006 (vermutlich wegen des Irak-Kriegs). Hätten diese Daten einen grossen Effekt auf die unter a) berechneten Kennzahlen Median und IQR?

NEIN, dies ist nicht anzunehmen. Der Median und der IQR sind robuste Masse. Selbst extreme Werte für den Irak hätten kaum einen Einfluss.

  1. Erstellen Sie vergleichende Boxplots für die Fertilität in den 5 Jahren. Leider geht das in jamovi mit der Struktur des vorliegnden Datensatzes nicht. Verwenden Sie für diese Grafik die Datei fertilitaet_long.csv. Interpretieren Sie die Grafik.
## 
##  DESCRIPTIVES
## 
##  Descriptives                                    
##  ─────────────────────────────────────────────── 
##                          year         fert       
##  ─────────────────────────────────────────────── 
##    N                     fert_1997         189   
##                          fert_2000         188   
##                          fert_2002         188   
##                          fert_2005         188   
##                          fert_2006         188   
##    Missing               fert_1997           0   
##                          fert_2000           1   
##                          fert_2002           1   
##                          fert_2005           1   
##                          fert_2006           1   
##    Mean                  fert_1997    65.85885   
##                          fert_2000    61.65747   
##                          fert_2002    58.78678   
##                          fert_2005    54.88466   
##                          fert_2006    53.58395   
##    Median                fert_1997    52.32600   
##                          fert_2000    46.38820   
##                          fert_2002    43.70850   
##                          fert_2005    41.24040   
##                          fert_2006    40.06820   
##    Standard deviation    fert_1997    51.76017   
##                          fert_2000    51.24401   
##                          fert_2002    51.18445   
##                          fert_2005    48.00347   
##                          fert_2006    46.97848   
##    Minimum               fert_1997    1.633000   
##                          fert_2000    1.550200   
##                          fert_2002    1.495000   
##                          fert_2005    1.463800   
##                          fert_2006    1.453400   
##    Maximum               fert_1997    230.4800   
##                          fert_2000    230.4800   
##                          fert_2002    230.4800   
##                          fert_2005    225.4952   
##                          fert_2006    223.8336   
##  ───────────────────────────────────────────────

Zwischen 1997 und 2006 nehmen Median, IQR, unteres und oberes Quartil kontinuierlich ab.


Übung 2

Gibt es einen Zusammenhang zwischen dem Fluorgehalt im Trinkwasser und Karies bei Kindern. Die Datei water.csv enthält Daten einer Studie, die 7257 Kinder in 21 Städten in Flandern, Belgien untersucht hat.

Der Fluoridgehalt des Trinkwassers in jeder Stadt in ppm (parts per million) ist in der Variablen fluoride gespeichert. Der Wert in der Variablen caries ist die Summe von Zahnfüllungen, Zähne mit unbehandelter Karies, Zähne die gezogen werden müssen und fehlende Zähne pro 100 Kinder.

Aufgabe

  1. Erstellen Sie ein Streudiagramm mit fluoride als x-Variable und caries als y-Variable.

  2. Beschreiben Sie den Zusammenhang zwischen den beiden Variablen.

  3. Wenn Sie die Daten mit einer Geraden modellieren würden, wo würde diese Gerade die x- und die y-Achse schneiden? Überlegen Sie zuerst theoretisch und erstellen Sie anschliessend zur Überprüfung Ihrer Überlegungen in jamovi eine lineare Regressionsgerade. (Hinweis: Beachten Sie bei Ihren Überlegungen, dass die y-Achse im jamovi-Output bei 200 beginnt.)

  4. Würde eine Gerade diese Daten gut modellieren?


Lösung

  1. Erstellen Sie ein Streudiagramm mit fluoride als x-Variable und caries als y-Variable.

  1. Beschreiben Sie den Zusammenhang zwischen den beiden Variablen.

Mit zunehmendem Fluoridgehalt im Trinkwasser, sinkt die Kariesrate bei Kindern (negativer Zusammenhang).

  1. Wenn Sie die Daten mit einer Geraden modellieren würden, wo würde diese Gerade die x- und die y-Achse schneiden? Überlegen Sie zuerst theoretisch und erstellen Sie anschliessend zur Überprüfung Ihrer Überlegungen in jamovi eine lineare Regressionsgerade. (Hinweis: Beachten Sie bei Ihren Überlegungen, dass die y-Achse im jamovi-Output bei 200 beginnt.)

Die Gerade schneidet die x-Achse ca. bei 2.7 und die y-Achse bei ca. 740. Die Steigung der Geraden beträgt demnach etwa -740/2.7 = -274. (andere Angaben in dieser Grössenordnung sind auch ok). Beachten Sie, dass jamovi bei diesem Plot die y-Achse bei 0 beginnen lässt)

  1. Würde eine Gerade diese Daten gut modellieren?

Eine Gerade scheint kein optimales Modell für die Daten zu sein. Bei kleinen und grossen Werten für fluoride liegen die Punkte über der Geraden, bei mittleren Werten unter der Geraden. Dies ist ein Hinweis auf einen nicht-linearen Zusammenhang.


Übung 3

Die Skelettmuskeln haben grossen Einfluss auf die menschliche Leistungsfähigkeit und die Gesundheit. Wir wissen jedoch noch wenig zu den genetischen Faktoren, welche die Muskelgrösse, Muskelkraft und die Reaktion der Muskeln auf Training beeinflussen. Die Studie mit der etwas umständlichen Bezeichnung FAMuSS (functional single nucleotide polymorphisms associated with muscle size and strength) ist eine Multizenterstudie, welche diese Frage untersucht.

Referenz: Thompson, P. D., Moyna, N., Seip, R., Price, T., Clarkson, P., Angelopoulos, T., Gordon, P., Pescatello, L., Visich, P., Zoeller, R., Devaney, J. M., Gordish, H., Bilbie, S., & Hoffman, E. P. (2004). Functional polymorphisms associated with human muscle size and strength. Medicine and science in sports and exercise, 36(7), 1132–1139. https://doi.org/10.1249/01.mss.0000132274.26612.23

Die Daten sind in der Datei famuss.csvabgelegt.

Codebook:

Variable Erläuterung
ndrm.ch Änderung der Kraft im nicht-dominanten Arm, vor und nach Training in Prozent
drm.ch Änderung der Kraft im dominanten Arm, vor und nach Training in Prozent
sex Geschlecht
age Alter
race Rasse
height_cm Grösse in cm (Original in inches)
weight_kg Gewicht in kg (Original in pounds)
actn3.r577x Genotyp am am Locus r577x im ACTN3-Gen (CC, CT oder TT)
bmi Body Mass Index

Aufgabe

  1. Erstellen Sie eine Tabelle für die absoluten Häufigkeiten für die drei Genotypen (Variable actn3.r577x).

  2. Erstellen Sie eine Tabelle mit den absoluten Häufigkeiten für actn3.r577x nach Rasse. Verwenden Sie race als Zeilenvariable und actn3.r577x als Spaltenvariable.

  3. Wenn Sie die Variable ndrm.ch mit Kennzahlen beschreiben müssten, würden Sie eher Mittelwert und Standardabweichung oder Median und IQR wählen?


Lösung

  1. Erstellen Sie eine Tabelle für die absoluten und relativen Häufigkeiten für die drei Genotypen (Variable actn3.r577x)
## 
##  DESCRIPTIVES
## 
##  Descriptives               
##  ────────────────────────── 
##               actn3.r577x   
##  ────────────────────────── 
##    N                  595   
##    Missing              0   
##  ──────────────────────────
  1. Erstellen Sie eine Tabelle mit den absoluten Häufigkeiten für actn3.r577x nach Rasse. Verwenden Sie race als Zeilenvariable und actn3.r577x als Spaltenvariable.
## 
##  DESCRIPTIVES
## 
##  Descriptives                       
##  ────────────────────────────────── 
##               actn3.r577x    race   
##  ────────────────────────────────── 
##    N          CC              173   
##               CT              261   
##               TT              161   
##    Missing    CC                0   
##               CT                0   
##               TT                0   
##  ──────────────────────────────────
  1. Wenn Sie die Variable ndrm.ch mit Kennzahlen beschreiben müssten, würden Sie eher Mittelwert und Standardabweichung oder Median und IQR wählen?
## 
##  DESCRIPTIVES
## 
##  Descriptives                       
##  ────────────────────────────────── 
##                          ndrm.ch    
##  ────────────────────────────────── 
##    N                          595   
##    Missing                      0   
##    Mean                  53.29109   
##    Median                45.50000   
##    Standard deviation    33.13923   
##    IQR                   36.70000   
##    Minimum               0.000000   
##    Maximum               250.0000   
##  ──────────────────────────────────

Die Verteilung von ndrm.ch ist rechtsschief, was im Boxplot, im Histogramm und an den Kennzahlen der zentralen Tendenz gut zu erkennen ist. Für schiefe Verteilungen sind Median und IQR zur Beschreibung einer Verteilung eher geeignet als Mittelwert und Standardabweichung.


Übung 4

Hat Rauchen bei Frauen und Männern die gleichen Effekte auf kardiovaskuläre Erkrankungen? Eine Kohortenstudie hat den Zusammenhang zwischen Rauchen und Aortenstenose (Einengung der Aorta, die den Blutstrom beeinträchtigt) untersucht. Der Datensatz stenosis.csv umfasst drei Variablen.

Codebook:

Variable Erläuterung
disease yes: Stenose vorhanden, no: keine Stenose
smoke Smoker: Raucher:in oder Ex-Raucher:in, NonSmoker: Nichtraucher:in
sex Geschlecht: Male oder Female

Aufgabe

  1. Erstellen Sie eine Tabelle für Raucherstatus smoke und Vorliegen einer Stenose desease. Wie gross ist der prozentuale Anteil der 215 Proband:innen die sowohl Raucher sind und eine Aortenstenose aufweisen?

  2. Wie hoch ist der Anteil Proband:innen mit einer Aortenstenose unter den Raucher:innen? Wie hoch ist der Anteil der Proband:innen mit einer Aortenstenose unter den Nicht-Raucher:innen?

  3. Beantworten Sie die Frage b) nach Geschlecht getrennt.


Lösung

  1. Erstellen Sie eine Tabelle für Raucherstatus smoke und Vorliegen einer Stenose stenosis. Wie gross ist der prozentuale Anteil der 215 Proband:innen die sowohl Raucher sind und eine Aortenstenose aufweisen?
## 
##  DESCRIPTIVES
## 
##  Descriptives                    
##  ─────────────────────────────── 
##               disease    smoke   
##  ─────────────────────────────── 
##    N          No           110   
##               Yes          105   
##    Missing    No             0   
##               Yes            0   
##  ───────────────────────────────
anzahl.raucher <- 51  
anzahl.gesamt <- 215
anzahl.raucher/anzahl.gesamt * 100
## [1] 23.72093

Der Anteil von Raucher:innen mit Aortenstenose beträgt 51/215 = 0.237 ~ 23.7%.

  1. Wie hoch ist der Anteil Proband:innen mit einer Aortenstenose unter den Raucher:innen? Wie hoch ist der Anteil der Proband:innen mit einer Aortenstenose unter den Nicht-Raucher:innen?
raucher.total <- 43 + 51
raucher.stenose <- 51
raucher.stenose / raucher.total * 100
## [1] 54.25532
nichtraucher.total <- 67 + 54
nichtraucher.stenose <- 54
nichtraucher.stenose / nichtraucher.total * 100
## [1] 44.6281

In der Gruppe der Raucher:innen leiden 54.3% an Aortenstenose, in der Gruppe der Nichtraucher:innen leiden 44.6% an Aortenstenose.

  1. Beantworten Sie die Frage b) nach Geschlecht getrennt.
## 
##  DESCRIPTIVES
## 
##  Descriptives                              
##  ───────────────────────────────────────── 
##               disease    sex       smoke   
##  ───────────────────────────────────────── 
##    N          No         Female       66   
##                          Male         44   
##               Yes        Female       43   
##                          Male         62   
##    Missing    No         Female        0   
##                          Male          0   
##               Yes        Female        0   
##                          Male          0   
##  ─────────────────────────────────────────
raucher.m <- 37 + 24
raucher.m.yes <- 37
nichtraucher.m <- 20 + 25
nichtraucher.m.yes <- 25

raucher.w <- 19 + 14
raucher.w.yes <- 14
nichtraucher.w <- 47 + 29
nichtraucher.w.yes <- 29

# Anteil Raucher mit Aortenstenose
raucher.m.yes / raucher.m * 100
## [1] 60.65574
# Anteil Nichtraucher mit Aortenstenose
nichtraucher.m.yes / nichtraucher.m * 100
## [1] 55.55556
# Anteil Raucherinnen mit Aortenstenose
raucher.w.yes / raucher.w * 100
## [1] 42.42424
# Anteil Nichtraucherinnen mit Aortenstenose
nichtraucher.w.yes / nichtraucher.w * 100
## [1] 38.15789

Unter den männlichen Rauchern leiden 60.7% an und unter den männlichen Nichtrauchern leiden 55.6% an Aortenstenose. Unter den weiblichen Raucherinnen leiden 42.4% und unter den Nichtraucherinnen leiden 38.2% an Aortenstenose.

Sowohl bei den Frauen als auch bei den Männern ist der prozentuale Anteil von Raucher:innen mit Aortenstenose grösser als bei den Nichtraucher:innen. Der Anteil der Raucher mit Aortenstenose ist jedoch höher als bei den Raucherinnen (das gilt jedoch auch für die männlichen Nichtraucher). Damit haben wir einen Hinweis darauf, dass Rauchen das Risiko, an einer Aortenstenose zu erkranken bei beiden Geschlechtern erhöht. Männer sind eher prädisponiert, eine Aortenstenose zu entwickeln, unabhängig davon, ob sie rauchen oder nicht

Übung 5

Die Daten für diese Grafik stammen aus der Befragung 2019 American Community Survey. Eingeschlossen wurden 3142 Gemeinden in den USA. Der Fragebogen umfasst 95 Items. Das Histogramm zeigt die Daten für das mittlere Haushaltseinkommen in 1000 $.

Aufgabe

  1. Beschreiben Sie die Verteilung der Daten.
  2. Welches ist das häufigste mittlere Einkommen?
  3. Wo etwas schätzen Sie liegt der Median?
  4. Ist der Mittelwert grösser oder kleiner als der Median?
  5. Welche Kennzahlen sind für die Beschreibung dieser Verteilung eher geeignet: Mittelwert und Standardabweichung oder Median und Interquartilabstand?
  6. Bei welcher Art von Grafik könnten Sie den Median direkt ablesen?


Lösung

  1. Beschreiben Sie die Verteilung der Daten.
  • Die Verteilung ist rechtschief (linkssteil). Dies ist eine typische Einkommensverteilung: Die meisten Haushalte verfügen über niedrige bis mittlere Einkommen und wenige Haushalte verfügen über sehr grosse Einkommen
  1. Welches ist das häufigste mittlere Einkommen?
  • ca. 65’000$
  1. Geben Sie einen Bereich an, in dem der Median schätzungsweise liegt?
  • ca. bei 65’000 - 70’000 (exakt liegt er bei 66875$)
  1. Ist der Mittelwert grösser oder kleiner als der Median?
  • Bei rechtsschiefen Verteilungen ist der Mittelwert grösser als der Median (hier ist \(\bar{x}\) = 70180)
  1. Welche Kennzahlen sind für die Beschreibung dieser Verteilung eher geeignet: Mittelwert und Standardabweichung oder Median und Interquartilabstand?
  • Bei schiefen Verteilungen eignen sich Median und Interquartilabstand besser als typische Kennzahlen
  1. Bei welcher Art von Grafik könnten Sie den Median direkt ablesen?
  • In einem Boxplot


Übung 6

Die Grafik zeigt einen Boxplot der gleichen Daten wie in Übung 1.

Aufgabe

  1. Schätzen Sie anhand des Boxplots: Wo etwa liegen das untere und das obere Quartil?
  2. Wie gross ist etwa der prozentuale Anteil der Daten innerhalb der Box?
  3. Wie gross ist etwa der prozentuale Anteil der Gemeinden mit einem durchschnittlichen Haushaltseinkommen unter 59’000 $?
  4. Wie gross etwa sind das minimale und das maximale Haushaltseinkommen?


Lösung

  1. Schätzen Sie anhand des Boxplots: Wo etwa liegen das untere und das obere Quartil?
  • unteres Quartil: ca. 59’000 $ (exakt 59214 $), oberes Quartil: ca. 77’000 $ (exakt: 76951 $)
  1. Wie gross ist etwa der prozentuale Anteil der Daten innerhalb der Box?
  • 50% der Daten liegen innerhalb des Interquartilabstands \(IQR\)
  1. Wie gross ist etwa der prozentuale Anteil der Gemeinden mit einem durchschnittlichen Haushaltseinkommen unter 59’000?
  • 25% der Daten liegen unterhalb des unteren Quartils
  1. Wie gross etwa sind das minimale und das maximale Haushaltseinkommen?
  • Minimum: ca. 36’000 $ (exakt 35’819 $), Maximum: ca. 182’000 $ (exakt: 181’261 $)


Übung 7

Migräne ist eine ausserordentlich schmerzhafte Form von Kopfschmerzen, welche Patienten gelegentlich mit Akupunktur behandeln möchten. Um herauszufinden, ob Akupunktur gegen Migräne hilft, hat eine Forschungsgruppe eine randomisierte kontrollierte Studie durchgeführt, in der 89 Frauen mit diagnostizierter Migräne randomisiert in eine Interventions- und eine Kontrollgruppe eingeteilt wurden. Die 43 Probandinnen in der Interventionsgruppe wurden mit einem Akupunkturverfahren behandelt, das spezifisch für Migräne eingesetzt wird. 46 Probandinnen erhielten eine Schein-Akupunktur (Nadeln wurden an Nicht-Akupunkturpunkten gesetzt). 24 Stunden, nachdem die Probandinnen jeweils die Akupunkturbehandlung erhielten, wurden sie gefragt, ob sie schmerzfrei seien. Die Resultate sind in der Tabelle zusammengefasst.

Gruppe schmerzfrei ja schmerzfrei nein Total
Intervention 10 33 43
Kontrolle 2 44 46
Total 12 77 89

Aufgabe

  1. Wie gross ist der prozentuale Anteil der Probandinnen in der Interventionsgruppe, die 24 Stunden nach Akupunktur schmerzfrei waren?
  2. Wie gross ist der prozentuale Anteil der Probandinnen in der Kontrollgruppe, die 24 Stunden nach Scheinakupunktur schmerzfrei waren?
  3. Haben Sie auf den ersten Blick den Eindruck, dass Akupunktur eine wirksame Behandlungsmethode bei Migräne ist?
  4. Sind Sie auf Grund der Daten überzeugt, dass Akupunktur eine wirksame Behandlungsmethode für Migräne ist oder könnte der Unterschied alleine auf zufällige Stichprobenvariation zurückzuführen sein?


Lösung

  1. Wie gross ist der prozentuale Anteil der Probandinnen in der Interventionsgruppe, die 24 Stunden nach Akupunktur schmerzfrei waren?
10/43 * 100
## [1] 23.25581
  • 23.26% der Probandinnen sind 24 Stunden nach Akupunktur schmerzfrei
  1. Wie gross ist der prozentuale Anteil der Probandinnen in der Kontrollgruppe, die 24 Stunden nach Scheinakupunktur schmerzfrei waren?
2/46 * 100
## [1] 4.347826
  • 4.35% der Probandinnen sind 24 Stunden nach Scheinakupunktur schmerzfrei
  1. Haben Sie auf den ersten Blick den Eindruck, dass Akupunktur eine wirksame Behandlungsmethode bei Migräne ist?
23.26 - 4.35
## [1] 18.91
  • Ja. Der prozenuale Anteil der Probandinnen, die in der Interventionsgruppe sind ist um 18.91% höher als in der Kontrollgruppe.
  1. Sind Sie auf Grund der Daten überzeugt, dass Akupunktur eine wirksame Behandlungsmethode für Migräne ist oder könnte der Unterschied alleine auf zufällige Stichprobenvariation zurückzuführen sein?
  • Der grosse Unterschied von knapp 19% zwischen Interventions- und Kontrollgruppe ist recht überzeugend. Allerdings kann nie ausgeschlossen werden, dass das Ergebnis alleine auf zufällige Stichprobenvariation zurückzuführen ist


Übung 8

Aufgabe

Beschreiben Sie die Verteilungen in den drei Histogrammen und ordnen Sie diese dem richtigen Boxplot zu.


Lösung

  • (a) Normalverteilung, passt zu (B)
  • (b) Uniforme Verteilung, passt zu (C)
  • (c) linksschiefe Verteilung, passt zu (A)


Übung 9

Die Daten von Facebook zeigen, dass 50% der Facebook-Abonnent:innen 100 oder mehr Freunde haben und dass die durchschnittliche Anzahl an Freunden 190 beträgt.

Aufgabe:

Welche Form der Verteilung erwarten Sie für die Anzahl Freunde von Facebook-Abonnent:innen.


Lösung:

Die Aussage, dass “50% der Facebook-Abonnent:innen 100 oder mehr Freunde haben” bedeutet, dass der Median für die Anzahl Freunde bei 100 liegt. Der Mittelwert für die Anzahl Freunde liegt bei 190. Dies bedeutet, dass die Verteilung der Anzahl Freunde pro Facebook-Abonnent:in rechtsschief ist.


Übung 10

In einem Raum haben sich 40 Personen versammelt. Das erste Histogramm zeigt die Verteilung des jährlichen Einkommens dieser Personen. Jetzt betreten zwei neue Personen den Raum: Eine verdient $250’000 und die andere $250’000 pro Jahr. Das zweite Histogramm zeigt die neue Einkommensverteilung. Die Tabelle gibt die Kennzahlen für die beiden Situationen an.

n 40 42
Min. 60679 60679
1st Qu. 63625 63715
Median 65238 65352
Mean 65089 73299
3rd Qu. 66156 66535
Max. 69885 250000
s 2122 37321

Aufgabe

  1. Repräsentiert eher der Mittelwert oder der Median das typische jährliche Einkommen für die 42 Personen? Was bedeutet dies für die Robustheit der beiden Kennzahlen?

  2. Ist eher die Standardabweichung oder der Interquartilabstand IQR repräsentativ für die Variabilität der jährlichen Einkommen der 42 Personen? Was bedeutet dies für die Robustheit der beiden Kennzahlen?


Lösung

a) Der Median ist die bessere Kennzahl, um das typische jährliche Durchschnittseinkommen dieser 42 Personen zu beschreiben. Der Mittelwert ist viel höher als das durchschnittliche Einkommen der 40 Personen, weil er viel empfindlicher auf Extremwerte reagiert als der Median. Der Median ist robust gegen Extremwerte.

b) Der IQR ist das bessere Mass für die Variabilität der jährlichen Einkommen der 42 Personen. Die Standardabweichung ist empfindlich für Extremwerte, der IQR dagegen ist robust gegenüber Extremwerten.