Daten einlesen
Laden Sie den Datensatz aus der angegebenen URL und zeigen Sie die
ersten Zeilen an.
# Datensatz einlesen
stud_data <- read.csv("https://raw.githubusercontent.com/ganzma/data-science-education/refs/heads/main/Studierenden_Daten_DS_V.csv")
# Ersten Zeilen anzeigen
head(stud_data)
## Student_ID Alter Studienzeit ECTS_Credits Pruefungsnote Teilnahme_Seminare
## 1 1 24 11.5 12 2.2 2
## 2 2 21 9.5 153 1.5 9
## 3 3 30 39.3 21 2.7 7
## 4 4 28 22.1 83 2.4 4
## 5 5 25 12.7 25 1.8 4
## 6 6 30 39.9 111 2.9 11
## Geschlecht Hochschule_Typ
## 1 divers Universität
## 2 männlich Fachhochschule
## 3 weiblich Fachhochschule
## 4 weiblich Universität
## 5 männlich Fachhochschule
## 6 weiblich Fachhochschule
Frage 2: Erstellen Sie ein Histogramm zur Verteilung der
Prüfungsnoten.
Interpretation
Allgemeine Form der Verteilung:
- Das Histogramm zeigt eine rechtsschiefe Verteilung: Sehr viele
Studierende haben sehr gute Noten (1,0 bis 2,0). Weniger Studierende
haben schlechtere Noten (ab 3,0). Nur sehr wenige Studierende haben eine
Note von 4,0 oder schlechter.
- Es gibt eine kontinuierliche Abnahme der Häufigkeiten von links nach
rechts.
Häufigkeiten & Schwerpunkt der Noten:
- Die häufigste Note liegt bei 1,0 – dieser Balken ist der
höchste.
- Die meisten Noten befinden sich zwischen 1,0 und 2,5.
- Die Anzahl der Studierenden nimmt stetig ab, je schlechter die Note
wird.
Frage 3: Erstellen Sie ein Boxplot der Prüfungsnoten
Gibt es Ausreißer?
boxplot(stud_data$Pruefungsnote, main="Boxplot der Prüfungsnoten", ylab="Note", col="blue")

Interpretation
Lage des Medians:
- Der Median (mittlerer Strich in der Box) liegt ungefähr bei 2,0. Das
bedeutet, dass die Hälfte der Studierenden eine Note von 2,0 oder besser
hat.
- Der Median liegt eher in der Mitte der Box, was auf eine relativ
symmetrische Verteilung hinweist.
Quartile und Verteilung der Noten:
- Die Box reicht von ca. 1,5 bis 2,8:
- Erstes Quartil (Q1, 25%) ≈ 1,5 → 25% der Studierenden haben eine
Note von 1,5 oder besser.
- Drittes Quartil (Q3, 75%) ≈ 2,8 → 75% der Studierenden haben eine
Note von 2,8 oder besser.
- Die Box zeigt, dass die mittleren 50% der Noten
(Interquartilsabstand, IQR) zwischen ca. 1,5 und 2,8 liegen.
Streuung und Whisker (Minimum & Maximum)
- Die untere Grenze (Whisker) liegt bei ca. 1,0 → Bestnoten im
Datensatz.
- Die obere Grenze (Whisker) endet bei ca. 4,5 → Schlechteste Note im
Datensatz.
- Die Noten sind moderat gestreut, es gibt keine extremen Ausreißer
nach oben.
Gibt es Ausreißer?
- Es sind keine einzelnen Punkte oberhalb oder unterhalb der Whisker
sichtbar → Keine extremen Ausreißer.
- Falls es Studierende mit extrem schlechten Noten (z. B. 5,0 oder
6,0) gäbe, wären sie als Punkte außerhalb der Whisker dargestellt.
Frage 4: Erstellen Sie ein Balkendiagramm für den Hochschultyp.
Beurteilen Sie die Verteilung.
barplot(table(stud_data$Hochschule_Typ), col="blue", main="Verteilung der Hochschultypen", xlab="Hochschultyp", ylab="Anzahl")

Interpretation
Das Balkendiagramm zeigt zwei Hochschultypen: Universität und
Fachhochschule. Die Mehrheit der Studierenden der Stichprobe besucht
eine Universität.
Frage 5: Erstellen Sie ein Streudiagramm für den Zusammenhang
zwischen Studienzeit & Prüfungsnoten
Liegt ein Zusammenhang vor?
plot(stud_data$Studienzeit, stud_data$Pruefungsnote, col="blue", pch=16, main="Zusammenhang zwischen Studienzeit und Note",
xlab="Studienzeit (Stunden/Woche)", ylab="Prüfungsnote")

Interpretation
Gibt es einen klaren Zusammenhang?
- Die Punkte sind relativ verstreut ohne eine klare diagonale
Struktur.
- Eine negative Korrelation wäre zu erwarten, da eine längere
Studienzeit theoretisch zu besseren Noten (niedrigeren Werten) führen
könnte. Hier ist jedoch kein eindeutiges Muster sichtbar, das darauf
hinweist, dass mehr Lernzeit automatisch bessere Noten bringt.
Frage 6: Erstellen Sie ein QQ-Plot für die Prüfungsnoten
Beurteilen Sie, ob eine Normalverteilung vorliegt.
Erstellen Sie einen QQ-Plot zur Überprüfung, ob die Prüfungsnoten
annähernd normalverteilt sind.
qqnorm(stud_data$Pruefungsnote, main="QQ-Plot der Prüfungsnoten")
qqline(stud_data$Pruefungsnote, col="red")

Interpretation
Was zeigt ein QQ-Plot?
- Das QQ-Plot (Quantile-Quantile-Plot) vergleicht die Verteilung der
Prüfungsnoten (y-Achse) mit einer theoretischen Normalverteilung
(x-Achse).
- Die rote Linie stellt die ideale Normalverteilung dar.
- Wenn die Datenpunkte auf der roten Linie liegen, folgt die Variable
einer Normalverteilung.
- Falls die Punkte stark von der Linie abweichen, gibt es Abweichungen
von der Normalverteilung.
Interpretation des QQ-Plots der Prüfungsnoten:
- Mitte des Plots (ca. 1,5 – 3,0): Die meisten Punkte liegen nahe der
roten Linie → Hier ist die Verteilung fast normal.
- Unteres Ende (links, Note ≈ 1,0 – 1,5): Starke Abweichung nach
unten, viele Punkte sind weit unterhalb der roten Linie. Interpretation:
Mehr sehr gute Noten als in einer Normalverteilung erwartet →
Überrepräsentation der Bestnoten.
- Oberes Ende (rechts, Note ≈ 4,0 – 4,5): Abweichung nach oben, einige
Punkte liegen über der roten Linie. Interpretation: Mehr schlechte Noten
als in einer Normalverteilung erwartet.
- Gesamtbild: Die Verteilung ist leicht rechtsschief, weil es mehr
sehr gute Noten gibt als eine Normalverteilung erwarten würde.
Gleichzeitig gibt es einige schlechte Noten, aber nicht so extrem
viele.
Fazit:
- Die Prüfungsnoten weichen von der Normalverteilung ab, da es mehr
Bestnoten (1,0 – 1,5) gibt als erwartet. Es einige schlechtere Noten
(4,0 – 4,5) gibt, aber nicht extrem viele. Der mittlere Bereich (ca. 2,0
– 3,0) relativ normal verteilt ist.
➡ Nächster Schritt: Den Shapiro-Wilk-Test durchführen, um die
Normalverteilung formell zu prüfen:
Frage 7: Führen Sie einen Shapiro-Wilk-Test durch, um Ihre
Einschätzung zu überprüfen
shapiro.test(stud_data$Pruefungsnote)
##
## Shapiro-Wilk normality test
##
## data: stud_data$Pruefungsnote
## W = 0.95951, p-value = 2.117e-07
Interpretation
Was testet der Shapiro-Wilk-Test? Der Shapiro-Wilk-Test prüft, ob die
Prüfungsnoten aus einer Normalverteilung stammen.
- Wenn der p-Wert > 0.05 liegt eine Normalverteilung vor.
- Wenn der p-Wert < 0.05 liegt keine Normalverteilung vor.
Testergebnis:
- W-Wert = 0.95951 → Ein Wert nahe 1 bedeutet eine starke
Normalverteilung, aber 0.96 ist etwas niedriger.
- p-Wert = 2.117e-07 (≈ 0.0000002117) → Sehr kleiner Wert (<
0.05).
Das bedeutet die Prüfungsnoten sind nicht normalverteilt.