Übung 1: Variablen im Datensatz physio.csv kategorisieren

Für mehrere Übungen verwenden wir den Datenasatz physio.csv, den Sie bereits in der Übung zum Datenimport in jamovi kennengelernt haben. Die Daten wurden bei Studierenden der Kohorten PHY13 bis PHY17 am Studiengang Physiotherapie der Berner Fachhochschule im Rahmen eines Statistikkurses auf freiwilliger Basis mittels eines Online-Formulars erhoben.

Aufgabe

Das Erstellen eines Codebooks gehört zu den wichtigsten Schritten bei der Planung einer Studie. Es dient der Beschreibung der erhobenen Daten und ermöglicht die weitere Bearbeitung der Daten durch Drittpersonen. Zu jeder Variable im Datensatz wird jeweils angegeben, was gemessen wird und gegebenenfalls in welcher Einheit die Messung erfolgt. Weitere Angaben sind Skalenniveau (nominal, ordinal, diskret, kontinuierlich) und die möglichen Ausprägungen der Variable.

Die Tabelle zeigt das Codebook des Datensatzes physio.csv. Allerdings wurden die Skalenniveaus nicht eingetragen.

Variable Beschreibung Skala Werte
ID Identifikationsnummer 1 … n
Kohorte Jahrgang Studierende PHY13 … PHY17
Klasse Klasse 1 oder 2 1, 2
Geschlecht Geschlecht m = maennlich, w = weiblich
Augenfarbe Augenfarbe gruen, blau, braun
Groesse Körpergrösse in cm 148 … 198
Gewicht Körpergewicht in kg 47 … 105
Statistik Das Fach Statistik interessiert mich Likert-Skala 1 = trifft überhaupt nicht zu, 2 = trifft eher nicht zu, 3 = egal, 4 = trifft eher zu, 5 = trifft vollstänig zu
Schuhgroesse Schuhgrösse in DE/EU-Einheiten 35, 36 … 48

Hinweis: Die Kategorisierung der Daten wird in jamovi etwas anders gehandhabt wie in den Kursunterlagen.

Datenkategorie jamovi: Measure type jamovi: Data type
qualitativ - nominal nominal text oder integer
qualitativ - ordinal ordinal integer
quantitativ - diskret continuous integer
quantitativ - kontinuierlich continuous decimal

Laden Sie die Datei physio.csvin jamovi, bestimmen Sie das Skalenniveau jeder Variable und kategorisieren Sie die Variablen unter Data > Setup. Speichern Sie zum Schluss die Datei unter Data > Save als physio.omv. In diesem jamovi-Dateiformat bleiben alle ihre Bearbeitungsschritte erhalten, also auch die jetzt erfolgte Kategorisierung. Arbeiten Sie bei den weiteren Übungen stets mit dieser Datei.

Lösung

Variable Skala jamovi-Kategorie
ID qualitativ-nominal nominal - text
Kohorte qualitativ-nominal nominal-text
Klasse qualitativ-nominal nominal-text
Geschlecht qualitativ-nominal nominal-text
Augenfarbe qualitativ-nominal nominal-text
Groesse quantitativ-kontinuierlich continuous - decimal
Gewicht quantitativ-kontinuierlich continuous - decimal
Statistik Likert-Skala qualitativ-ordinal
Schuhgroesse quantitativ-diskret continuous - integer

Bemerkungen:
- Die ID ist eine willkürliche Ziffer zur Identifikation der Beobachtungseinheiten. Sie hat keinen numerischen Wert, daher text.
- Groesse und Gewicht sind streng genommen quantitativ-diskret, da nur ganze cm und kg gemessen werden. Wir verwenden hier continuous-decimal, aber continuous-integer wäre auch nicht falsch.


Übung 2

Aufgaben

Beurteilen Sie in der Tabellenansicht der Daten

  1. Handelt es sich bei diesen Daten um eine Population oder eine Stichprobe? Begründen Sie. (Hinweis: Insgesamt waren in den Kohorten PHY13 bis PHY17 265 Studierende eingeschrieben)
  2. Wo in der Tabelle in jamovi stehen die Beobachtungseinheiten?
  3. Welche Beobachtungsmerkmale wurden erhoben?
  4. Wo in der Tabelle finden Sie die Merkmalsausprägungen?
  5. Wenn Sie die Daten statistisch analysieren, sind die Ergebnisse für welche Grundgesamtheit gültig?

Lösungen

  1. Es handelt sich um eine Stichprobe aus der Population Studierende der Kohorten PHY13 bis PHY17, da nicht alle Studierenden bei der Befragung teilnahmen.
  2. Jede Zeile steht für eine Beobachtungseinheit (ein Student, eine Studentin)
  3. Die erhobenen Beobachtungsmerkmale stehen in den Spaltenüberschriften: ID, Kohorte, Klasse, Geschlecht, Augenfarbe, Groesse, Gewicht, Statistik, Schuhgroesse
  4. Die Merkmalsausprägungen finden Sie in den einzelnen Zellen der Tabelle
  5. Die Daten lassen einen Rückschluss auf die Population der Studierenden PHY13 bis PHY17 zu (s. oben).


Übung 3

Aufgaben

  1. Wie viele Beobachtungseinheiten umfasst der Datensatz?
  2. Wie viele weibliche und männliche Studierende umfasst der Datensatz? Geben sie die absoluten und die relativen Häufigkeiten an.
  3. Stellen Sie die GeschlechterVerteilung im Datensatz grafisch dar.


Lösungen

  1. Wie viele Beobachtungseinheiten umfasst der Datensatz?

jamovi > Register Analysis > Exploration > Descriptives > ID als Variable wählen. Im Fenster links unter Statistics wählen Sie N und Missing, alle anderen Kennzahlen können Sie abwählen. Das Resultat wird im rechten Fenster in der Tabelle bei N angezeigt.

## 
##  DESCRIPTIVES
## 
##  Descriptives       
##  ────────────────── 
##               ID    
##  ────────────────── 
##    N          228   
##    Missing      0   
##  ──────────────────
  1. Wie viele weibliche und männliche Studierende umfasst der Datensatz? Geben sie die absoluten und die relativen Häufigkeiten an.

jamovi > Register Analysis > Exploration > Descriptives > Geschlecht als Variable auswählen und Häkchen bei Frequency tables setzen. Im Fenster links unter Statistics wählen Sie N und Missing, alle anderen Kennzahlen können Sie abwählen.

## 
##  DESCRIPTIVES
## 
##  Descriptives              
##  ───────────────────────── 
##               Geschlecht   
##  ───────────────────────── 
##    N                 228   
##    Missing             0   
##  ───────────────────────── 
## 
## 
##  FREQUENCIES
## 
##  Frequencies of Geschlecht                          
##  ────────────────────────────────────────────────── 
##    Levels    Counts    % of Total    Cumulative %   
##  ────────────────────────────────────────────────── 
##    m             45      19.73684        19.73684   
##    w            183      80.26316       100.00000   
##  ──────────────────────────────────────────────────
  1. Stellen Sie die Verteilung nach Geschlecht grafisch dar

Gleiche Einstellungen in jamovi wie oben, unter Plots > Häkchen bei Bar plot setzen.

## 
##  DESCRIPTIVES
## 
##  Descriptives                         
##  ──────────────────────────────────── 
##                          Geschlecht   
##  ──────────────────────────────────── 
##    N                            228   
##    Missing                        0   
##    Mean                               
##    Median                             
##    Standard deviation                 
##    Minimum                            
##    Maximum                            
##  ──────────────────────────────────── 
## 
## 
##  FREQUENCIES
## 
##  Frequencies of Geschlecht                          
##  ────────────────────────────────────────────────── 
##    Levels    Counts    % of Total    Cumulative %   
##  ────────────────────────────────────────────────── 
##    m             45      19.73684        19.73684   
##    w            183      80.26316       100.00000   
##  ──────────────────────────────────────────────────

Leider erlaubt jamovi in der aktuellen Version (2.3.21.0) noch nicht, Titel und Achsen in Grafiktenindividuell zu beschriften. Wir empfehlen, Grafiken für die weitere Verwendung mit Rechtsklick auf Grafik > Image > Copy ins Clipboard zu übernehmen, in eine Powerpoint-Folie einzufügen und dort manuell zu beschriften.

Mit korrekter Beschriftung würde die Grafik etwa so aussehen (Farben sind im Moment unwichtig)

Kopieren Sie den jamovi-Output in ein Powerpoint-Dokument und beschriften Sie Grafiken und Tabellen möglichst aussagekräftig.


Übung 4

Aufgaben

  1. Wie gross sind die absoluten und die relativen Häufigkeiten der drei Augenfarben?
  2. Stellen Sie die Verteilung der Augenfarben in einer Grafik dar. Welches ist häufigste Augenfarbe?
  3. Begründen Sie die Wahl ihrer grafischen Darstellung.


Lösungen

  1. Wie gross sind die absoluten und die relativen Häufigkeiten der drei Augenfarben?

jamovi > Register Analysis > Exploration > Descriptives > Augenfarbe als Variable auswählen > Häkchen bei Frequency tables setzen

## 
##  DESCRIPTIVES
## 
##  Descriptives              
##  ───────────────────────── 
##               Augenfarbe   
##  ───────────────────────── 
##    N                 228   
##    Missing             0   
##  ───────────────────────── 
## 
## 
##  FREQUENCIES
## 
##  Frequencies of Augenfarbe                          
##  ────────────────────────────────────────────────── 
##    Levels    Counts    % of Total    Cumulative %   
##  ────────────────────────────────────────────────── 
##    blau          99      43.42105        43.42105   
##    braun         78      34.21053        77.63158   
##    gruen         51      22.36842       100.00000   
##  ──────────────────────────────────────────────────

In der Spalte Counts werden die absoluten und in der Spalte % of Total die relativen Häufigkeiten angegeben.


  1. Stellen Sie die Verteilung der Augenfarben in einer Grafik dar. Welches ist häufigste Augenfarbe?

jamovi: Auswahl wie oben, Häkchen unter Plots > Bar plot setzen

## 
##  DESCRIPTIVES

Vollständig beschriftet könnte die Grafik etwa so aussehen:

Kopieren Sie den jamovi-Output in ein Powerpoint-Dokument und beschriften Sie Grafiken und Tabellen möglichst aussagekräftig.


  1. Begründen Sie die Wahl ihrer grafischen Darstellung.

Für die Darstellung der Verteilung einer qualitativen Variablen eignet sich ein Säulendiagramm (oder ein Tortendiagramm. Tortendiagramme sind jedoch schlecht lesbar und können daher in jamovi nicht erstellt werden.)


Übung 5

Aufgaben

  1. Wie gross sind die Studierenden im Datensatz physio.csv? Fassen Sie das Ergebnis in einem Satz zusammen.
  2. Stellen Sie die Verteilung der Körpergrösse der Studierenden anhand von zwei verschiedenen Grafiken dar. Beurteilen Sie die Symmetrie und interpretieren Sie die Verteilung.
  3. Wie gross sind die Studierenden? Trennen Sie nach Geschlecht und fassen Sie das Ergebnis in einem Satz zusammen.
  4. Erstellen Sie zwei Grafiken zur Verteilung der Körpergrösse, nach Geschlecht getrennt.


Lösungen

  1. Wie gross sind die Studierenden im Datensatz physio.csv? Fassen Sie das Ergebnis in einem Satz zusammen.

jamovi > Register Analysis > Exploration > Descriptives > Variable Groesse auswählen. Sie können die benötigten Kennzahlen im Feld Statistics auswählen.

## 
##  DESCRIPTIVES
## 
##  Descriptives                       
##  ────────────────────────────────── 
##                          Groesse    
##  ────────────────────────────────── 
##    N                          228   
##    Missing                      0   
##    Mean                  169.4781   
##    Median                168.0000   
##    Standard deviation    7.764397   
##    Minimum               148.0000   
##    Maximum               198.0000   
##  ──────────────────────────────────

Die durchschnittliche Körpergrösse der Studierenden in physio.csv beträgt 169 cm (s = 7.76)

  1. Stellen Sie die Verteilung der Körpergrösse der Studierenden anhand von zwei verschiedenen Grafiken dar. Beurteilen Sie die Symmetrie und interpretieren Sie die Verteilung.

jamovi: Einstellungen wie oben. Unter Plots setzen Sie Häkchen bei Histogram und Boxplot setzen.

## 
##  DESCRIPTIVES

Vollständig beschriftet könnten die Grafiken etwa so aussehen:

Wie beurteilen Sie die Symmetrie der Verteilung der Körpergrösse?


  1. Wie gross sind die Studierenden? Trennen Sie nach Geschlecht und fassen Sie das Ergebnis in einem Satz zusammen.

jamovi > Register Analysis > Exploration > Descriptives > Grösse als Variable auswählen, Geschlecht als Split by-Variable wählen

## 
##  DESCRIPTIVES
## 
##  Descriptives                                     
##  ──────────────────────────────────────────────── 
##                          Geschlecht    Groesse    
##  ──────────────────────────────────────────────── 
##    N                     m                   45   
##                          w                  183   
##    Missing               m                    0   
##                          w                    0   
##    Mean                  m             179.8667   
##                          w             166.9235   
##    Median                m             180.0000   
##                          w             167.0000   
##    Standard deviation    m             6.387488   
##                          w             5.664100   
##    Minimum               m             169.0000   
##                          w             148.0000   
##    Maximum               m             198.0000   
##                          w             183.0000   
##  ────────────────────────────────────────────────

Die durchschnittliche Körpergrösse der Studentinnen im Datensatz physio.csv beträgt 166.92 cm (s = 5.66 cm) und die der Studenten 179.87 cm (s = 6.39 cm).


  1. Erstellen Sie zwei Grafiken zur Verteilung der Körpergrösse, nach Geschlecht getrennt.

jamovi Einstellungen wie oben, unter Plots > Häkchen bei Histogram und Boxplot setzen.

## 
##  DESCRIPTIVES

Vollständig beschriftet könnte die Grafik so aussehen (das Histogramm kann in dieser Form in jamovi nicht dargestellt werden):

Kopieren Sie den jamovi-Output in ein Powerpoint-Dokument und beschriften Sie Grafiken und Tabellen möglichst aussagekräftig.


Übung 6

Aufgabe

Erstellen Sie eine Tabelle mit den Kennzahlen Stichprobenumfang (N), Mittelwert (Mean), Median, Standardabweichung (Std deviation), Variationsbreite (Minimum, Maximum) für die Variable Gewicht der Studierenden getrennt nach Geschlecht. Welche dieser Kennzahlen sind robust und welche sind nicht robust?


Lösung

## 
##  DESCRIPTIVES
## 
##  Descriptives                                     
##  ──────────────────────────────────────────────── 
##                          Geschlecht    Gewicht    
##  ──────────────────────────────────────────────── 
##    N                     m                   45   
##                          w                  183   
##    Mean                  m             72.97778   
##                          w             59.58470   
##    Median                m             72.00000   
##                          w             60.00000   
##    Standard deviation    m             9.343177   
##                          w             6.672247   
##    Minimum               m             53.00000   
##                          w             47.00000   
##    Maximum               m             105.0000   
##                          w             85.00000   
##  ────────────────────────────────────────────────

Die Variationsbreite des Körpergewichts bei Studentinnen beträgt 47.0 kg bis 85.0 kg und bei Studenten 53.0 kg bis 105.0 kg.

Kennzahl robust - nicht robust
N nicht robust
Mean nicht robust
Median robust
Standard deviation nicht robust
Variationsbreite nicht robust


Übung 7

Aufgabe

Die Tabelle zeigt Nährwertangaben (in g pro 100g) und Preise (pro Portion in CHF) für ausgewählte McDonald’s Beefburger. Quelle Preise, Quelle Inhaltsstoffe, abgerufen am 6.2.2023

Menu kcal Protein Kohlenhydrate Zucker Fett Ballaststoffe Kochsalz CHF
McRaclette Chili 246 11 16 0 15 1.0 0.9 9.0
McRaclette Chili Bacon 262 13 15 0 17 1.0 1.3 10.0
McRaclette 272 16 16 0 16 1.0 1.3 9.0
Big Mac 219 11 18 4 11 1.0 1.0 7.0
Double Big Mac 230 14 14 3 13 1.0 1.0 10.4
Cheeseburger Royal 245 15 17 5 13 1.0 1.4 8.0
Cheeseburger Royal Bacon 265 18 15 4 15 1.0 1.7 9.1
Double Cheeseburger Royal 253 18 12 3 15 1.0 1.2 11.1
Big Tasty Single 223 12 13 3 14 0.8 0.9 9.1
Big Tasty Single Bacon 241 14 12 3 15 0.8 1.2 10.6
Hamburger 224 12 26 6 8 1.0 1.1 2.9
Cheeseburger 237 13 24 6 10 1.2 1.4 3.3
Double Cheeseburger 246 15 17 5 13 0.9 1.5 6.5
Double Cheeseburger Bacon 259 17 16 4 14 1.0 1.8 7.4

Führen Sie alle Berechnungen in den folgenden Aufgaben von Hand durch:

  1. Wie viele kcal haben 100g Burger im Durchschnitt?
  2. Welche grafische Darstellung eignet sich für den Gehalt an kcal/100g?
  3. Wie gross ist der durchschnittliche Zuckergehalt/100g Burger? Berechnen Sie den arithmetischen Mittelwert und geben Sie den Median an.
  4. Sie gehen mit fünf Freund:innen im McDonald’s essen: Irma bestellt einen McRaclette, Andreas einen Cheesburger Royal, Anwar einen McRaclette Chilli Bacon, Leif einen Big Mac, Geraldine einen Double Cheeseburger, Nathalie einen Hamburger und sie einen Big Tasty Single. Sie bezahlen für alle und weil sie gute Freunde sind, rechnen sie rasch den Durchnittspreis aus, den ihnen ihre Freunde zurückzahlen müssen, das ist am unkompliziertesten. Berechnen Sie auch die Standardabweichung für den Durchschnittspreis.


Lösung

  1. Wie viele kcal haben 100g Burger im Durchschnitt?

Vorgehen: Sie summieren alle Kalorienangaben und teilen diese durch die Anzahl Menüs. Das Ergebnis ist 244.43kcal/100g.

  1. Welche grafische Darstellung eignet sich für den Gehalt an kcal/100g?

Es handelt sich um quantitativ-kontinuierliche Daten, deren Verteilung am besten mit einem Histogramm oder einem Boxplot dargestellt wird.

  1. Wie gross ist der durchschnittliche Zuckergehalt/100g Burger? Berechnen Sie den arithmetischen Mittelwert und geben Sie den Median an.

Vorgehen: Der arithmetische Mittelwert berechnet sich wie bei Aufgabe 1. Das Ergebnis ist 3.29g Zucker/100g. Für die Bestimmung des Medians sortieren sie zuerst die Zuckerangaben aufsteigend.

##  [1] 0 0 0 3 3 3 3 4 4 4 5 5 6 6

Jetzt suchen sie den mittleren Wert. Da es sich um eine gerade Zahl (n = 14) handelt, nehmen sie den Durchschnitt der beiden mittleren Werte: 7. Wert = 3, 8. Wert = 4 -> 3 + 4 = 7 -> 7/2 = 3.5. Der Median für den Zuckergehalt beträgt 3.5g Zucker/100g Burger.

  1. Sie gehen mit sechs Freund:innen im McDonald’s essen: Irma bestellt einen McRaclette, Andreas einen Cheesburger Royal, Anwar einen McRaclette Chilli Bacon, Leif einen Big Mac, Geraldine einen Double Cheeseburger, Nathalie einen Hamburger und sie einen Big Tasty Single. Sie bezahlen für alle den Gesamtpreis von 52.5 CHF und weil sie gute Freunde sind, rechnen sie rasch den Durchnittspreis aus, den ihnen ihre Freunde zurückzahlen müssen, das ist am unkompliziertesten. Berechnen Sie auch die Standardabweichung für den Durchschnittspreis.
Name Burger Preis \((Preis-\bar{x})\) \((Preis-\bar{x})^2\)
Irma McRaclette 9.0 1.5 2.25
Andreas Cheesburger Royal 8.0 0.5 0.25
Anwar McRaclette Chili Bacon 10.0 2.5 6.25
Leif Big Mac 7.0 -0.5 0.25
Geraldine Double Cheeseburger 6.5 -1.0 1.0
Nathalie Hamburger 2.9 -4.6 21.16
Ich Big Tasty Single 9.1 1.6 2.56
  1. Berechnung des Mittelwerts: Im Durchschnitt hat jede:r von ihnen 52.5/6 CHF = 7.5 CHF bezahlt. Sie erhalten von ihren Freund:innen je 7.5 CHF.

  2. Berechnung der Standardabweichung: Bilden Sie für jeden gekauften Burger die Differenz von Preis und Durchschnittspreis (4. Spalte in der Tabelle oben) und quadrieren sie das Ergebnis (5. Spalte). Jetzt summieren sie die Zahlen in der 5. Spalte und dividieren die Summe durch \(n-1\) (n = 6 Personen) und sie erhalten die Varianz.

\[s^2 = \frac{2.25 + 0.25 + 6.25 + 0.25 + 1 + 21.16 + 2.56}{6 - 1} = 5.62\]

Die Standardabweichung \(s\) ist die Quadratwurzel der Varianz

\[s = \sqrt{s^2} = \sqrt{5.62} \approx 2.37\]

Die Standardabweichung beträgt gerundet 2.40 CHF.