title: “Datenprojekt A” author: “Alexandra” date: “2025-05-10” output: html_document

Struktur des Datensatzes anzeigen

stud_data <- read.csv(“~/Downloads/stud_data.csv”) str(stud_data) summary(stud_data) head(stud_data)

Datentypen prüfen

sapply(stud_data, class)

Fehlende Werte anzeigen

colSums(is.na(stud_data))

Falschen Spaltennamen korrigieren

library(dplyr) stud_data <- rename(stud_data, Durchschnittsnote = Durchschnitnote)

Nur vollständige Daten behalten

daten <- na.omit(stud_data)

Datentypen anpassen

daten\(Geschlecht <- as.factor(daten\)Geschlecht) daten\(Studiengang <- as.factor(daten\)Studiengang) daten\(Nebenjob <- as.factor(daten\)Nebenjob)

#FF1: Wirkt sich ein Nebenjob auf die Studienleistung aus? #Nur relevante Spalten extrahieren library(dplyr) daten_subset <- select(daten, ID, Durchschnittsnote, Nebenjob, Studiengang) head(daten_subset)

#Exportieren den gefilterten/bereinigten Datensatz als CSV write.csv(daten, “daten_bereinigt.csv”, row.names = FALSE)

Eingabe der exportierten Datei

daten_export <- read.csv(“daten_bereinigt.csv”) # Struktur des Datensatzes anzeigen str(daten_export)

Datentypen anpassen

daten_export\(Geschlecht <- as.factor(daten_export\)Geschlecht) daten_export\(Studiengang <- as.factor(daten_export\)Studiengang) daten_export\(Nebenjob <- as.factor(daten_export\)Nebenjob)

#Gruppen prüfen (wie viele S. haben einen Nebenjob) table(daten_export$Nebenjob)

Durchschnittsnoten nach Nebenjob

tapply(daten_export\(Durchschnittsnote, daten_export\)Nebenjob, mean)

#Ergebnis: Studierende mit einem Nebenjob haben im Schnitt eine etwas schlechtere Durchschnittsnote (2,54) als Studierende ohne Nebenjob (2,49). #Ich prüfe mitt dem t-test, ob der Unterschied statistisch signifikant ist. t.test(Durchschnittsnote ~ Nebenjob, data = daten_export)

#Da der p-Wert 0,565 deutlich über dem Schwellenwert von 0,05 liegt, ist der Unterschied nicht signifikant. Es gibt keine ausreichenden statistischen Hinweise, #dass ein Nebenjob die Durchschnittsnote beeinflusst.