Daten einlesen

Laden Sie den Datensatz aus der angegebenen URL und zeigen Sie die ersten Zeilen an.

# Datensatz einlesen
stud_data <- read.csv("https://raw.githubusercontent.com/ganzma/data-science-education/refs/heads/main/Studierenden_Daten_DS_V.csv")

# Ersten Zeilen anzeigen
head(stud_data)
##   Student_ID Alter Studienzeit ECTS_Credits Pruefungsnote Teilnahme_Seminare
## 1          1    24        11.5           12           2.2                  2
## 2          2    21         9.5          153           1.5                  9
## 3          3    30        39.3           21           2.7                  7
## 4          4    28        22.1           83           2.4                  4
## 5          5    25        12.7           25           1.8                  4
## 6          6    30        39.9          111           2.9                 11
##   Geschlecht Hochschule_Typ
## 1     divers    Universität
## 2   männlich Fachhochschule
## 3   weiblich Fachhochschule
## 4   weiblich    Universität
## 5   männlich Fachhochschule
## 6   weiblich Fachhochschule

Deskriptive Statistik

Aufgabe 1: Prüfungsnoten analysieren

Berechnen Sie den Mittelwert, Median, die Standardabweichung und die Quartile der Prüfungsnoten. Interpretieren Sie die Werte.

mean(stud_data$Pruefungsnote)  # Mittelwert
## [1] 2.177667
median(stud_data$Pruefungsnote)  # Median
## [1] 2.1
sd(stud_data$Pruefungsnote)  # Standardabweichung
## [1] 0.8345795
quantile(stud_data$Pruefungsnote)  # Quartile
##   0%  25%  50%  75% 100% 
##  1.0  1.5  2.1  2.8  4.5

Interpretation

Durchschnittliche Prüfungsnote (Mittelwert):

  • Der Mittelwert beträgt 2.18, was darauf hinweist, dass die durchschnittliche Prüfungsnote im guten Bereich liegt.
  • Der Median ist fast gleich dem Mittelwert, was bedeutet, dass die Noten symmetrisch oder nur leicht schief verteilt sind.

Streuung der Prüfungsnoten:

  • Die Standardabweichung von 0.83 zeigt, dass die Noten sich relativ moderat um den Mittelwert verteilen. Eine hohe Standardabweichung (z. B. > 1.5) würde auf sehr unterschiedliche Leistungen hindeuten. Hier bedeutet der Wert 0.83, dass die meisten Noten nah an 2.1 oder 2.8 liegen.

Verteilung der Noten (Quartile):

  • 25% der Studierenden haben eine Note von 1.5 oder besser.
  • 50% der Studierenden (Median) haben eine Note von 2.1 oder besser.
  • 75% der Studierenden haben eine Note von 2.8 oder besser.
  • Das Maximum liegt bei 4.5, also gibt es keine extrem schlechten Noten (5.0 oder 6.0 fehlen).

Schlussfolgerung:

  • Die meisten Studierenden schneiden gut bis sehr gut ab.
  • Die Verteilung ist relativ symmetrisch, da Mittelwert und Median ähnlich sind.
  • Wenig extreme Ausreißer, da keine sehr niedrigen oder sehr hohen Noten vorliegen.

Aufgabe 2: Studienzeit analysieren

Berechnen Sie den Mittelwert, Median, die Standardabweichung und die Quartile der wöchentlichen Studienzeit.

mean(stud_data$Studienzeit)
## [1] 21.94567
median(stud_data$Studienzeit)
## [1] 21.5
sd(stud_data$Studienzeit)
## [1] 10.70483
quantile(stud_data$Studienzeit)
##     0%    25%    50%    75%   100% 
##  3.200 12.675 21.500 30.500 39.900

Aufgabe 3: Häufigkeitstabellen für kategoriale Variablen

Ermitteln Sie die Anzahl der Studierenden in den verschiedenen Hochschultypen und die Verteilung der Geschlechter.

table(stud_data$Hochschule_Typ)
## 
## Fachhochschule    Universität 
##            112            188
table(stud_data$Geschlecht)
## 
##   divers männlich weiblich 
##       24      130      146

Visualisierungen

Aufgabe 4: Histogramm der Prüfungsnoten

Erstellen Sie ein Histogramm zur Verteilung der Prüfungsnoten und interpretieren Sie die Form der Verteilung.

hist(stud_data$Pruefungsnote, breaks=10, col="blue", main="Verteilung der Prüfungsnoten", xlab="Note", ylab="Häufigkeit")

Interpretation

Allgemeine Form der Verteilung:

  • Das Histogramm zeigt eine rechtsschiefe Verteilung: Sehr viele Studierende haben sehr gute Noten (1,0 bis 2,0). Weniger Studierende haben schlechtere Noten (ab 3,0). Nur sehr wenige Studierende haben eine Note von 4,0 oder schlechter.
  • Es gibt eine kontinuierliche Abnahme der Häufigkeiten von links nach rechts.

Häufigkeiten & Schwerpunkt der Noten:

  • Die häufigste Note liegt bei 1,0 – dieser Balken ist der höchste.
  • Die meisten Noten befinden sich zwischen 1,0 und 2,5.
  • Die Anzahl der Studierenden nimmt stetig ab, je schlechter die Note wird.

Aufgabe 5: Boxplot der Prüfungsnoten

Erstellen Sie ein Boxplot der Prüfungsnoten und analysieren Sie die Lage des Medians, die Quartile und eventuelle Ausreißer.

boxplot(stud_data$Pruefungsnote, main="Boxplot der Prüfungsnoten", ylab="Note", col="blue")

Interpretation

Lage des Medians:

  • Der Median (mittlerer Strich in der Box) liegt ungefähr bei 2,0. Das bedeutet, dass die Hälfte der Studierenden eine Note von 2,0 oder besser hat.
  • Der Median liegt eher in der Mitte der Box, was auf eine relativ symmetrische Verteilung hinweist.

Quartile und Verteilung der Noten:

  • Die Box reicht von ca. 1,5 bis 2,8:
  • Erstes Quartil (Q1, 25%) ≈ 1,5 → 25% der Studierenden haben eine Note von 1,5 oder besser.
  • Drittes Quartil (Q3, 75%) ≈ 2,8 → 75% der Studierenden haben eine Note von 2,8 oder besser.
  • Die Box zeigt, dass die mittleren 50% der Noten (Interquartilsabstand, IQR) zwischen ca. 1,5 und 2,8 liegen.

Streuung und Whisker (Minimum & Maximum)

  • Die untere Grenze (Whisker) liegt bei ca. 1,0 → Bestnoten im Datensatz.
  • Die obere Grenze (Whisker) endet bei ca. 4,5 → Schlechteste Note im Datensatz.
  • Die Noten sind moderat gestreut, es gibt keine extremen Ausreißer nach oben.

Gibt es Ausreißer?

  • Es sind keine einzelnen Punkte oberhalb oder unterhalb der Whisker sichtbar → Keine extremen Ausreißer.
  • Falls es Studierende mit extrem schlechten Noten (z. B. 5,0 oder 6,0) gäbe, wären sie als Punkte außerhalb der Whisker dargestellt.

Aufgabe 6: Boxplot der Prüfungsnoten nach Geschlecht

Erstellen Sie ein Boxplot, das die Prüfungsnoten nach Geschlecht vergleicht.

boxplot(stud_data$Pruefungsnote ~ stud_data$Geschlecht, main="Notenverteilung nach Geschlecht", ylab="Note", col=c("blue", "red", "green"))

Aufgabe 7: Balkendiagramm für Hochschultyp

Erstellen Sie ein Balkendiagramm, das die Verteilung der Studierenden auf verschiedene Hochschultypen zeigt.

barplot(table(stud_data$Hochschule_Typ), col="blue", main="Verteilung der Hochschultypen", xlab="Hochschultyp", ylab="Anzahl")

Aufgabe 8: Streudiagramm für Zusammenhang zwischen Studienzeit & Prüfungsnote

Erstellen Sie ein Streudiagramm zur Untersuchung des Zusammenhangs zwischen der wöchentlichen Studienzeit und der Prüfungsnote. Interpretieren Sie das Muster der Punkte.

plot(stud_data$Studienzeit, stud_data$Pruefungsnote, col="blue", pch=16, main="Zusammenhang zwischen Studienzeit und Note",
     xlab="Studienzeit (Stunden/Woche)", ylab="Prüfungsnote")

Interpretation

Gibt es einen klaren Zusammenhang?

  • Die Punkte sind relativ verstreut ohne eine klare diagonale Struktur.
  • Eine negative Korrelation wäre zu erwarten, da eine längere Studienzeit theoretisch zu besseren Noten (niedrigeren Werten) führen könnte. Hier ist jedoch kein eindeutiges Muster sichtbar, das darauf hinweist, dass mehr Lernzeit automatisch bessere Noten bringt.

Prüfung der Normalverteilung

Aufgabe 9: QQ-Plot für Prüfungsnoten

Erstellen Sie einen QQ-Plot zur Überprüfung, ob die Prüfungsnoten annähernd normalverteilt sind.

qqnorm(stud_data$Pruefungsnote, main="QQ-Plot der Prüfungsnoten")
qqline(stud_data$Pruefungsnote, col="red")

Interpretation

Was zeigt ein QQ-Plot?

  • Das QQ-Plot (Quantile-Quantile-Plot) vergleicht die Verteilung der Prüfungsnoten (y-Achse) mit einer theoretischen Normalverteilung (x-Achse).
  • Die rote Linie stellt die ideale Normalverteilung dar.
  • Wenn die Datenpunkte auf der roten Linie liegen, folgt die Variable einer Normalverteilung.
  • Falls die Punkte stark von der Linie abweichen, gibt es Abweichungen von der Normalverteilung.

Interpretation des QQ-Plots der Prüfungsnoten:

  • Mitte des Plots (ca. 1,5 – 3,0): Die meisten Punkte liegen nahe der roten Linie → Hier ist die Verteilung fast normal.
  • Unteres Ende (links, Note ≈ 1,0 – 1,5): Starke Abweichung nach unten, viele Punkte sind weit unterhalb der roten Linie. Interpretation: Mehr sehr gute Noten als in einer Normalverteilung erwartet → Überrepräsentation der Bestnoten.
  • Oberes Ende (rechts, Note ≈ 4,0 – 4,5): Abweichung nach oben, einige Punkte liegen über der roten Linie. Interpretation: Mehr schlechte Noten als in einer Normalverteilung erwartet.
  • Gesamtbild: Die Verteilung ist leicht rechtsschief, weil es mehr sehr gute Noten gibt als eine Normalverteilung erwarten würde. Gleichzeitig gibt es einige schlechte Noten, aber nicht so extrem viele.

Fazit:

  • Die Prüfungsnoten weichen von der Normalverteilung ab, da es mehr Bestnoten (1,0 – 1,5) gibt als erwartet. Es einige schlechtere Noten (4,0 – 4,5) gibt, aber nicht extrem viele. Der mittlere Bereich (ca. 2,0 – 3,0) relativ normal verteilt ist.

➡ Nächster Schritt: Den Shapiro-Wilk-Test durchführen, um die Normalverteilung formell zu prüfen:

Aufgabe 10: Shapiro-Wilk-Test

Führen Sie den Shapiro-Wilk-Test durch, um zu testen, ob die Prüfungsnoten einer Normalverteilung entsprechen.

shapiro.test(stud_data$Pruefungsnote)
## 
##  Shapiro-Wilk normality test
## 
## data:  stud_data$Pruefungsnote
## W = 0.95951, p-value = 2.117e-07

Interpretation

Was testet der Shapiro-Wilk-Test? Der Shapiro-Wilk-Test prüft, ob die Prüfungsnoten aus einer Normalverteilung stammen.

  • Wenn der p-Wert > 0.05 liegt eine Normalverteilung vor.
  • Wenn der p-Wert < 0.05 liegt keine Normalverteilung vor.

Testergebnis:

  • W-Wert = 0.95951 → Ein Wert nahe 1 bedeutet eine starke Normalverteilung, aber 0.96 ist etwas niedriger.
  • p-Wert = 2.117e-07 (≈ 0.0000002117) → Sehr kleiner Wert (< 0.05).

Das bedeutet die Prüfungsnoten sind nicht normalverteilt.