Laden Sie den Datensatz aus der angegebenen URL und zeigen Sie die ersten Zeilen an.
# Datensatz einlesen
stud_data <- read.csv("https://raw.githubusercontent.com/ganzma/data-science-education/refs/heads/main/Studierenden_Daten_DS_V.csv")
# Ersten Zeilen anzeigen
head(stud_data)
## Student_ID Alter Studienzeit ECTS_Credits Pruefungsnote Teilnahme_Seminare
## 1 1 24 11.5 12 2.2 2
## 2 2 21 9.5 153 1.5 9
## 3 3 30 39.3 21 2.7 7
## 4 4 28 22.1 83 2.4 4
## 5 5 25 12.7 25 1.8 4
## 6 6 30 39.9 111 2.9 11
## Geschlecht Hochschule_Typ
## 1 divers Universität
## 2 männlich Fachhochschule
## 3 weiblich Fachhochschule
## 4 weiblich Universität
## 5 männlich Fachhochschule
## 6 weiblich Fachhochschule
Berechnen Sie den Mittelwert, Median, die Standardabweichung und die Quartile der Prüfungsnoten. Interpretieren Sie die Werte.
mean(stud_data$Pruefungsnote) # Mittelwert
## [1] 2.177667
median(stud_data$Pruefungsnote) # Median
## [1] 2.1
sd(stud_data$Pruefungsnote) # Standardabweichung
## [1] 0.8345795
quantile(stud_data$Pruefungsnote) # Quartile
## 0% 25% 50% 75% 100%
## 1.0 1.5 2.1 2.8 4.5
Durchschnittliche Prüfungsnote (Mittelwert):
Streuung der Prüfungsnoten:
Verteilung der Noten (Quartile):
Schlussfolgerung:
Berechnen Sie den Mittelwert, Median, die Standardabweichung und die Quartile der wöchentlichen Studienzeit.
mean(stud_data$Studienzeit)
## [1] 21.94567
median(stud_data$Studienzeit)
## [1] 21.5
sd(stud_data$Studienzeit)
## [1] 10.70483
quantile(stud_data$Studienzeit)
## 0% 25% 50% 75% 100%
## 3.200 12.675 21.500 30.500 39.900
Ermitteln Sie die Anzahl der Studierenden in den verschiedenen Hochschultypen und die Verteilung der Geschlechter.
table(stud_data$Hochschule_Typ)
##
## Fachhochschule Universität
## 112 188
table(stud_data$Geschlecht)
##
## divers männlich weiblich
## 24 130 146
Erstellen Sie ein Histogramm zur Verteilung der Prüfungsnoten und interpretieren Sie die Form der Verteilung.
hist(stud_data$Pruefungsnote, breaks=10, col="blue", main="Verteilung der Prüfungsnoten", xlab="Note", ylab="Häufigkeit")
Allgemeine Form der Verteilung:
Häufigkeiten & Schwerpunkt der Noten:
Erstellen Sie ein Boxplot der Prüfungsnoten und analysieren Sie die Lage des Medians, die Quartile und eventuelle Ausreißer.
boxplot(stud_data$Pruefungsnote, main="Boxplot der Prüfungsnoten", ylab="Note", col="blue")
Lage des Medians:
Quartile und Verteilung der Noten:
Streuung und Whisker (Minimum & Maximum)
Gibt es Ausreißer?
Erstellen Sie ein Boxplot, das die Prüfungsnoten nach Geschlecht vergleicht.
boxplot(stud_data$Pruefungsnote ~ stud_data$Geschlecht, main="Notenverteilung nach Geschlecht", ylab="Note", col=c("blue", "red", "green"))
Erstellen Sie ein Balkendiagramm, das die Verteilung der Studierenden auf verschiedene Hochschultypen zeigt.
barplot(table(stud_data$Hochschule_Typ), col="blue", main="Verteilung der Hochschultypen", xlab="Hochschultyp", ylab="Anzahl")
Erstellen Sie ein Streudiagramm zur Untersuchung des Zusammenhangs zwischen der wöchentlichen Studienzeit und der Prüfungsnote. Interpretieren Sie das Muster der Punkte.
plot(stud_data$Studienzeit, stud_data$Pruefungsnote, col="blue", pch=16, main="Zusammenhang zwischen Studienzeit und Note",
xlab="Studienzeit (Stunden/Woche)", ylab="Prüfungsnote")
Gibt es einen klaren Zusammenhang?
Erstellen Sie einen QQ-Plot zur Überprüfung, ob die Prüfungsnoten annähernd normalverteilt sind.
qqnorm(stud_data$Pruefungsnote, main="QQ-Plot der Prüfungsnoten")
qqline(stud_data$Pruefungsnote, col="red")
Was zeigt ein QQ-Plot?
Interpretation des QQ-Plots der Prüfungsnoten:
Fazit:
➡ Nächster Schritt: Den Shapiro-Wilk-Test durchführen, um die Normalverteilung formell zu prüfen:
Führen Sie den Shapiro-Wilk-Test durch, um zu testen, ob die Prüfungsnoten einer Normalverteilung entsprechen.
shapiro.test(stud_data$Pruefungsnote)
##
## Shapiro-Wilk normality test
##
## data: stud_data$Pruefungsnote
## W = 0.95951, p-value = 2.117e-07
Was testet der Shapiro-Wilk-Test? Der Shapiro-Wilk-Test prüft, ob die Prüfungsnoten aus einer Normalverteilung stammen.
Testergebnis:
Das bedeutet die Prüfungsnoten sind nicht normalverteilt.