title: “Datenprojekt A” author: “Alexandra” date: “2025-05-10” output: html_document
stud_data <- read.csv(“~/Downloads/stud_data.csv”) str(stud_data) summary(stud_data) head(stud_data)
sapply(stud_data, class)
colSums(is.na(stud_data))
library(dplyr) stud_data <- rename(stud_data, Durchschnittsnote = Durchschnitnote)
daten <- na.omit(stud_data)
daten\(Geschlecht <- as.factor(daten\)Geschlecht) daten\(Studiengang <- as.factor(daten\)Studiengang) daten\(Nebenjob <- as.factor(daten\)Nebenjob)
#FF1: Wirkt sich ein Nebenjob auf die Studienleistung aus? #Nur relevante Spalten extrahieren library(dplyr) daten_subset <- select(daten, ID, Durchschnittsnote, Nebenjob, Studiengang) head(daten_subset)
#Exportieren den gefilterten/bereinigten Datensatz als CSV write.csv(daten, “daten_bereinigt.csv”, row.names = FALSE)
daten_export <- read.csv(“daten_bereinigt.csv”) # Struktur des Datensatzes anzeigen str(daten_export)
daten_export\(Geschlecht <- as.factor(daten_export\)Geschlecht) daten_export\(Studiengang <- as.factor(daten_export\)Studiengang) daten_export\(Nebenjob <- as.factor(daten_export\)Nebenjob)
#Gruppen prüfen (wie viele S. haben einen Nebenjob) table(daten_export$Nebenjob)
tapply(daten_export\(Durchschnittsnote, daten_export\)Nebenjob, mean)
#Ergebnis: Studierende mit einem Nebenjob haben im Schnitt eine etwas schlechtere Durchschnittsnote (2,54) als Studierende ohne Nebenjob (2,49). #Ich prüfe mitt dem t-test, ob der Unterschied statistisch signifikant ist. t.test(Durchschnittsnote ~ Nebenjob, data = daten_export)
#Da der p-Wert 0,565 deutlich über dem Schwellenwert von 0,05 liegt, ist der Unterschied nicht signifikant. Es gibt keine ausreichenden statistischen Hinweise, #dass ein Nebenjob die Durchschnittsnote beeinflusst.