Daten einlesen

Laden Sie den Datensatz aus der angegebenen URL und zeigen Sie die ersten Zeilen an.

# Datensatz einlesen
stud_data <- read.csv("https://raw.githubusercontent.com/ganzma/data-science-education/refs/heads/main/Studierenden_Daten_DS_V.csv")

# Ersten Zeilen anzeigen
head(stud_data)
##   Student_ID Alter Studienzeit ECTS_Credits Pruefungsnote Teilnahme_Seminare
## 1          1    24        11.5           12           2.2                  2
## 2          2    21         9.5          153           1.5                  9
## 3          3    30        39.3           21           2.7                  7
## 4          4    28        22.1           83           2.4                  4
## 5          5    25        12.7           25           1.8                  4
## 6          6    30        39.9          111           2.9                 11
##   Geschlecht Hochschule_Typ
## 1     divers    Universität
## 2   männlich Fachhochschule
## 3   weiblich Fachhochschule
## 4   weiblich    Universität
## 5   männlich Fachhochschule
## 6   weiblich Fachhochschule

Frage 1: Berechnen Sie den Mittelwert und Median.

Interpretieren Sie die Werte.

mean(stud_data$Pruefungsnote)  # Mittelwert
## [1] 2.177667
median(stud_data$Pruefungsnote)  # Median
## [1] 2.1

Interpretation

Durchschnittliche Prüfungsnote (Mittelwert):

  • Der Mittelwert beträgt 2.18, was darauf hinweist, dass die durchschnittliche Prüfungsnote im guten Bereich liegt.
  • Der Median ist fast gleich dem Mittelwert, was bedeutet, dass die Noten symmetrisch oder nur leicht schief verteilt sind.

Schlussfolgerung:

  • Die meisten Studierenden schneiden gut bis sehr gut ab.
  • Die Verteilung ist relativ symmetrisch, da Mittelwert und Median ähnlich sind.

Frage 2: Erstellen Sie ein Histogramm zur Verteilung der Prüfungsnoten.

Interpretieren Sie die Form der Verteilung.

hist(stud_data$Pruefungsnote, breaks=10, col="blue", main="Verteilung der Prüfungsnoten", xlab="Note", ylab="Häufigkeit")

Interpretation

Allgemeine Form der Verteilung:

  • Das Histogramm zeigt eine rechtsschiefe Verteilung: Sehr viele Studierende haben sehr gute Noten (1,0 bis 2,0). Weniger Studierende haben schlechtere Noten (ab 3,0). Nur sehr wenige Studierende haben eine Note von 4,0 oder schlechter.
  • Es gibt eine kontinuierliche Abnahme der Häufigkeiten von links nach rechts.

Häufigkeiten & Schwerpunkt der Noten:

  • Die häufigste Note liegt bei 1,0 – dieser Balken ist der höchste.
  • Die meisten Noten befinden sich zwischen 1,0 und 2,5.
  • Die Anzahl der Studierenden nimmt stetig ab, je schlechter die Note wird.

Frage 3: Erstellen Sie ein Boxplot der Prüfungsnoten

Gibt es Ausreißer?

boxplot(stud_data$Pruefungsnote, main="Boxplot der Prüfungsnoten", ylab="Note", col="blue")

Interpretation

Lage des Medians:

  • Der Median (mittlerer Strich in der Box) liegt ungefähr bei 2,0. Das bedeutet, dass die Hälfte der Studierenden eine Note von 2,0 oder besser hat.
  • Der Median liegt eher in der Mitte der Box, was auf eine relativ symmetrische Verteilung hinweist.

Quartile und Verteilung der Noten:

  • Die Box reicht von ca. 1,5 bis 2,8:
  • Erstes Quartil (Q1, 25%) ≈ 1,5 → 25% der Studierenden haben eine Note von 1,5 oder besser.
  • Drittes Quartil (Q3, 75%) ≈ 2,8 → 75% der Studierenden haben eine Note von 2,8 oder besser.
  • Die Box zeigt, dass die mittleren 50% der Noten (Interquartilsabstand, IQR) zwischen ca. 1,5 und 2,8 liegen.

Streuung und Whisker (Minimum & Maximum)

  • Die untere Grenze (Whisker) liegt bei ca. 1,0 → Bestnoten im Datensatz.
  • Die obere Grenze (Whisker) endet bei ca. 4,5 → Schlechteste Note im Datensatz.
  • Die Noten sind moderat gestreut, es gibt keine extremen Ausreißer nach oben.

Gibt es Ausreißer?

  • Es sind keine einzelnen Punkte oberhalb oder unterhalb der Whisker sichtbar → Keine extremen Ausreißer.
  • Falls es Studierende mit extrem schlechten Noten (z. B. 5,0 oder 6,0) gäbe, wären sie als Punkte außerhalb der Whisker dargestellt.

Frage 4: Erstellen Sie ein Balkendiagramm für den Hochschultyp.

Beurteilen Sie die Verteilung.

barplot(table(stud_data$Hochschule_Typ), col="blue", main="Verteilung der Hochschultypen", xlab="Hochschultyp", ylab="Anzahl")

Interpretation

Das Balkendiagramm zeigt zwei Hochschultypen: Universität und Fachhochschule. Die Mehrheit der Studierenden der Stichprobe besucht eine Universität.

Frage 5: Erstellen Sie ein Streudiagramm für den Zusammenhang zwischen Studienzeit & Prüfungsnoten

Liegt ein Zusammenhang vor?

plot(stud_data$Studienzeit, stud_data$Pruefungsnote, col="blue", pch=16, main="Zusammenhang zwischen Studienzeit und Note",
     xlab="Studienzeit (Stunden/Woche)", ylab="Prüfungsnote")

Interpretation

Gibt es einen klaren Zusammenhang?

  • Die Punkte sind relativ verstreut ohne eine klare diagonale Struktur.
  • Eine negative Korrelation wäre zu erwarten, da eine längere Studienzeit theoretisch zu besseren Noten (niedrigeren Werten) führen könnte. Hier ist jedoch kein eindeutiges Muster sichtbar, das darauf hinweist, dass mehr Lernzeit automatisch bessere Noten bringt.

Frage 6: Erstellen Sie ein QQ-Plot für die Prüfungsnoten

Beurteilen Sie, ob eine Normalverteilung vorliegt.

Erstellen Sie einen QQ-Plot zur Überprüfung, ob die Prüfungsnoten annähernd normalverteilt sind.

qqnorm(stud_data$Pruefungsnote, main="QQ-Plot der Prüfungsnoten")
qqline(stud_data$Pruefungsnote, col="red")

Interpretation

Was zeigt ein QQ-Plot?

  • Das QQ-Plot (Quantile-Quantile-Plot) vergleicht die Verteilung der Prüfungsnoten (y-Achse) mit einer theoretischen Normalverteilung (x-Achse).
  • Die rote Linie stellt die ideale Normalverteilung dar.
  • Wenn die Datenpunkte auf der roten Linie liegen, folgt die Variable einer Normalverteilung.
  • Falls die Punkte stark von der Linie abweichen, gibt es Abweichungen von der Normalverteilung.

Interpretation des QQ-Plots der Prüfungsnoten:

  • Mitte des Plots (ca. 1,5 – 3,0): Die meisten Punkte liegen nahe der roten Linie → Hier ist die Verteilung fast normal.
  • Unteres Ende (links, Note ≈ 1,0 – 1,5): Starke Abweichung nach unten, viele Punkte sind weit unterhalb der roten Linie. Interpretation: Mehr sehr gute Noten als in einer Normalverteilung erwartet → Überrepräsentation der Bestnoten.
  • Oberes Ende (rechts, Note ≈ 4,0 – 4,5): Abweichung nach oben, einige Punkte liegen über der roten Linie. Interpretation: Mehr schlechte Noten als in einer Normalverteilung erwartet.
  • Gesamtbild: Die Verteilung ist leicht rechtsschief, weil es mehr sehr gute Noten gibt als eine Normalverteilung erwarten würde. Gleichzeitig gibt es einige schlechte Noten, aber nicht so extrem viele.

Fazit:

  • Die Prüfungsnoten weichen von der Normalverteilung ab, da es mehr Bestnoten (1,0 – 1,5) gibt als erwartet. Es einige schlechtere Noten (4,0 – 4,5) gibt, aber nicht extrem viele. Der mittlere Bereich (ca. 2,0 – 3,0) relativ normal verteilt ist.

➡ Nächster Schritt: Den Shapiro-Wilk-Test durchführen, um die Normalverteilung formell zu prüfen:

Frage 7: Führen Sie einen Shapiro-Wilk-Test durch, um Ihre Einschätzung zu überprüfen

shapiro.test(stud_data$Pruefungsnote)
## 
##  Shapiro-Wilk normality test
## 
## data:  stud_data$Pruefungsnote
## W = 0.95951, p-value = 2.117e-07

Interpretation

Was testet der Shapiro-Wilk-Test? Der Shapiro-Wilk-Test prüft, ob die Prüfungsnoten aus einer Normalverteilung stammen.

  • Wenn der p-Wert > 0.05 liegt eine Normalverteilung vor.
  • Wenn der p-Wert < 0.05 liegt keine Normalverteilung vor.

Testergebnis:

  • W-Wert = 0.95951 → Ein Wert nahe 1 bedeutet eine starke Normalverteilung, aber 0.96 ist etwas niedriger.
  • p-Wert = 2.117e-07 (≈ 0.0000002117) → Sehr kleiner Wert (< 0.05).

Das bedeutet die Prüfungsnoten sind nicht normalverteilt.