Population und Stichprobe

Aufgabe

Wir wollen wissen, wie gross Physiotherapiestudentinnen an den Schweizer Hochschulen im Jahr 2024 im Durchschnitt sind. Wir haben die Daten von PHY23, die ihr bei der Befragung angegeben habt.

Frage: Was ist die Population und was ist die Stichprobe?

Lösung

Die Physiotherapeutinnen, die an den Schweizer Hochschulen eingeschrieben sind, sind die Population, die Daten von PHY23 bilden unsere Stichprobe. Die Stichprobe ist nicht repräsentativ (warum?), es handelt sich um ein sog. convenience sample.

Eine Datentabelle verstehen

Aufgabe

Was steht in der Tabelle in den …
a) Zeilen?
b) Spalten?
c) Zellen?

ID class sex eyes size weight statistics playlists
1 Klasse 1 w gruen 173 70 3 37
2 Klasse 1 w blau 171 56 3 19
3 Klasse 2 m gruen 175 80 3 20
4 Klasse 1 w blau 170 67 3 18
5 Klasse 2 w braun 163 58 3 18
6 Klasse 1 w braun 166 64 3 45
7 Klasse 1 w braun 160 49 3 30
8 Klasse 2 w braun 173 52 4 0
9 Klasse 1 w braun 170 60 3 23
10 Klasse 2 w braun 166 58 3 6

Lösung

Was steht in der Tabelle in den …
a) Zeilen? Beobachtungseinheiten
b) Spalten? Beobachtungsmerkmale (Variablen)
c) Zellen? Ausprägung der Beobachtungsmerkmale

ID class sex eyes size weight statistics playlists
1 Klasse 1 w gruen 173 70 3 37
2 Klasse 1 w blau 171 56 3 19
3 Klasse 2 m gruen 175 80 3 20
4 Klasse 1 w blau 170 67 3 18
5 Klasse 2 w braun 163 58 3 18
6 Klasse 1 w braun 166 64 3 45
7 Klasse 1 w braun 160 49 3 30
8 Klasse 2 w braun 173 52 4 0
9 Klasse 1 w braun 170 60 3 23
10 Klasse 2 w braun 166 58 3 6

Datentypen

Aufgabe

Variablen können unterschiedliche Eigenschaften aufweisen. Daher werden Variablen verschiedenen Datentypen (auch Datenkategorien) zugeordnet. Welchen Datentypen können unsere Beobachtungsmerkmale zugeordnet werden?

## Rows: 39
## Columns: 8
## $ ID         <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, …
## $ class      <chr> "Klasse 1", "Klasse 1", "Klasse 2", "Klasse 1", "Klasse 2",…
## $ sex        <chr> "w", "w", "m", "w", "w", "w", "w", "w", "w", "w", "w", "m",…
## $ eyes       <chr> "gruen", "blau", "gruen", "blau", "braun", "braun", "braun"…
## $ size       <dbl> 173, 171, 175, 170, 163, 166, 160, 173, 170, 166, 164, 178,…
## $ weight     <dbl> 70, 56, 80, 67, 58, 64, 49, 52, 60, 58, 57, 76, 80, 76, 55,…
## $ statistics <dbl> 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 2, 4, 3, 3, 5, 2, 2, 2, 2, 4,…
## $ playlists  <dbl> 37, 19, 20, 18, 18, 45, 30, 0, 23, 6, 22, 14, 5, 24, 15, 2,…

Lösung

Variablen können als qualitativ oder als quantitativ kategorisiert werden. Zudem unterscheiden wir zwischen:

  • qualitativ-nominal (ungeordnet) und qualitativ-ordinal (geordnet)
  • quantiativ-diskret (zählen) und quantitativ-kontinuierlich (messen)

Unsere Daten:

  • ID: qualitativ-nominal
  • class: qualitativ-nominal
  • sex: qualitativ-nominal
  • eyes: qualitativ-nominal
  • size: quantitativ-kontinuierlich
  • weight: quantitativ-kontinuierlich
  • statistics: qualitativ-ordinal (Likert Skala)
  • playlists: quantitativ-diskret

Beachte: Die Arbeit mit qualitativen Daten bedeutet nicht, dass wir qualitative Forschung betreiben! Auch in der quantitativen Forschung benötigen wir qualitative Daten, z.B. um Untergruppen miteinander zu vergleichen.

Qualitative Daten 1

Aufgabe

Wie können qualitative Daten numerisch zusammengefasst werden?

Lösung

Qualitative Daten können mittels Tabellen numerisch zusammengefasst werden.

Tabelle mit absoluten Häufigkeiten für die Verteilung der Daten nach Klasse

## 
## Klasse 1 Klasse 2 
##       18       21

Tabelle mit relativen Häufigkeiten für die Verteilung der Daten nach Klasse.

## 
##  Klasse 1  Klasse 2 
## 0.4615385 0.5384615

Mittels Erweiterung der Tabelle durch eine weitere qualitative Variable sex können wir die Verteilung der Daten nach Klasse nach Geschlecht aufteilen.

Tabelle mit absoluten Häufigkeiten für Klasse ~ Geschlecht

##           
##             m  w
##   Klasse 1  5 13
##   Klasse 2  7 14

Tabelle mit relativen Häufigkeiten für Klasse ~ Geschlecht

##           
##                    m         w
##   Klasse 1 0.1282051 0.3333333
##   Klasse 2 0.1794872 0.3589744

Qualitative Daten 2

Aufgabe

Wie können qualitative Daten grafisch dargestellt werden?

Lösung

Geeignete Grafiken für qualitative Daten sind Balkendiagramme bzw. Säulendiagramme oder Tortendiagramme. Wir bevorzugen Balken-/Säulendiagramme.

Quantitative Daten 1

Aufgabe

Wie können quantitative Daten numerisch zusammengefasst werden?

Lösung

Quantitative können mit Kennzahlen numerisch zusammengefasst werden. Wir unterscheiden:

  • Kennzahlen der (mittleren) Lage: arithmetischer Mittelwert, Median
  • Kennzahlen der Streuung: Varianz, Standardabweichung, Quartilsabstand, Variationsbreite
N M Median s IQR Q25 Q75 Max Min Vb
39 171.4103 173 8.34997 13.5 164.5 178 187 156 31

Quantitative Daten 2

Aufgabe

Machen diese Zahlen Sinn? Welche Art der Darstellung wäre aussagekräftiger?

Lösung

Die Trennung der Daten nach Geschlecht wäre sinnvoll, da Frauen im Durchschnitt kleiner als Männer sind.

sex N M Median s IQR Q25 Q75 Max Min Vb
m 12 180.0833 180 3.654594 5.25 177.75 183.0 187 175 12
w 27 167.5556 166 6.789887 12.00 161.50 173.5 180 156 24

Quantitative Daten 3

Aufgabe

Welches Merkmal zeichnet robuste Kennzahlen aus?

Lösung

Robuste Kennzahlen werden durch Extremwerte weniger beeinflusst. Eine robuste Kennzahl der Lage ist der Median, eine robuste Kennzahl der Streuung ist der Quartilsabstand IQR.

Beispiel: Haus mit 10 Wohnungen. Untersucht wird die durchschnittliche Anzahl der Kinder pro Wohnung.

stockwerk kinder kinder_neu
1 0 17
2 1 1
3 1 1
4 2 2
5 0 0
6 2 2
7 1 1
8 0 0
9 2 2
10 0 0
name N M Median s IQR Max Min Vb
kinder 10 0.9 1 0.875595 1.75 2 0 2
kinder_neu 10 2.6 1 5.125102 1.75 17 0 17

Quantitative Daten 4

Aufgabe

Wie können quantitative Daten grafisch zusammengefasst werden?

Lösung

Für die grafische Zusammenfassung von quantitativen Daten eignen sich Histogramme und Boxplots.

Boxplots

Aufgabe

Welche Merkmale einer Datenverteilung kann man aus einem Boxplot herauslesen?

Lösung

Der Boxplot liefert folgende Informationen:

  • Median
  • Oberes Quartil (Q75)
  • Unteres Quartil (Q25)
  • Quartilsabstand
  • Minimum
  • Maximum
  • Variationsbreite
  • Symmetrie der Verteilung

Normalverteilung

Aufgabe

Umgangssprachlich verwenden wir gelegentlich die Formulierung “Das ist ja ganz normal” oder “Das finde ich nicht normal”. Aber was verstehen wir eigentlich unter normal?

Lösung

Als normal empfinden wir das, was wir als selbstverständlich erwarten. Dieses Selbstverständliche kann einerseits Normen und konkrete Verhaltensweisen aber auch wissenschaftliche Daten betreffen. Normalität ist das, was wir typischerweise erwarten. Wenn wir verschiedene Menschen fragen, wie gross Physiotherapiestudentinnen in der Schweiz im Durchschnitt werden, dann werden wir vermutlich Antworten zwischen 160cm und 175 cm bekommen. Eine Physiostudentin mit einer Körpergrösse von 205cm oder von 135cm würden wir vermutlich in diesen Antworten kaum antreffen. Nicht ohne Zufall nennt man den arithmetischen Mittelwert in der theoretischen Statistik auch Erwartungswert, weil Ausprägungen von Beobachtungsmerkmalen um den Mittelwert häufig vorkommen und daher erwartet werden können.

Als normal bezeichnen wir in der Statistik einen Wertebereich (Intervall) von

\[\bar{x} \pm 2 \times s \] Bei diesem Intervall sprechen wir auch vom statistischen Normbereich.

N M Median s IQR Max Min Vb
267 169.7603 169 7.866045 10.5 198 148 50

N M Median s IQR Max Min Vb
210 167.0048 167 5.806693 7 183 148 35
## [1] "Normbereich:  155.4 178.6"