Bildungsindikatoren der Bundesländer (bund_data)
data <- read.csv("bund_data.csv")
Struktur und erste Übersicht
str(daten)
data.frame': 256 obs. of 10 variables:
$ Bundesland : chr "Baden-Württemberg" "Bayern" "Berlin" "Brandenburg" ...
$ Jahr : int 2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
$ Bildungsausgaben_pro_Kopf: int 5608 7068 5368 4097 NA 3633 5096 6910 3355 7260 ...
$ Anteil_Akademiker : num 32.4 26.8 23 34.5 39.5 47.6 30.9 45.7 29 34 ...
$ Schüler_Lehrer_Ratio : num 17 16.7 10.4 15.7 14.3 17.6 17.3 13.6 16.1 14 ...
$ Digitalisierungsindex : int 82 87 83 95 86 50 79 67 53 64 ...
$ Durchschnitnote_Abitur : num 2.24 2.76 2.98 2.38 1.89 1.96 2.87 2.66 2.85 2.88 ...
$ Lehrkräftemangel : num 11.6 3.9 7.3 8 9.3 7.3 15 11.8 4.4 3.4 ...
$ Bildungsinvestitionen_BIP: num 5.69 4.76 5.47 4.72 4.01 5.69 3.21 5.1 3.16 5.6 ...
$ Anteil_online_Lernen : chr "50%" "gering" "75%" "75%" ...
Struktur anzeigen (Spalten & Typen)
Welche Spalten enthält der Datensatz? Der Datensatz enthält 10 Spalten mit folgenden Bezeichnungen: Bundesland, Jahr, Bildungsausgaben pro Kopf, Anteil Akademiker, Schüler Lehrer Ratio, Digitalisierungsindex, Durchschnitnote Abitur (-> korrekte Schreibweise wäre: Durchschnittsnote; muss in der Bereinigung geändert werden), Lehrkräftemangel, Bildungsinvestitionen BIP, Anteil online Lernen
Welche Datentypen sind vorhanden? Sind diese korrekt? Bundesland und Anteil online Lernen sind character. Jahr, Bildungsausgaben pro Kopf und Digitalisierungsindex sind integer. Anteil Akademiker, Schüler Lehrer Ratio, Durchschnittsnote Abitur, Lehrkräftemangel und Bildungsinvestition sind numeric. - korrekt
Fehlende Werte identifizieren
colSums(is.na(daten))
Bundesland Jahr Bildungsausgaben_pro_Kopf
0 0 10
Anteil_Akademiker Schüler_Lehrer_Ratio Digitalisierungsindex
0 15 12
Durchschnitnote_Abitur Lehrkräftemangel Bildungsinvestitionen_BIP
0 8 0
Anteil_online_Lernen
0
Gibt es fehlende Werte? Wenn ja, wie viele und wo? Bildungsausgaben pro Kopf 12 fehlende Werte. Schüler Lehrer Ratio 15 fehlende Werte. Beim Digitalisierungsindex fehlen 12 Werte und beim Lehrkräftemangel fehlen 8 Werte.
Zeilen mit fehlenden Werten entfernen
daten <- na.omit(daten)
Falschen Spaltennamen korrigieren
daten <- rename(daten, Durchschnittsnote_Abitur = Durchschnitnote_Abitur)
Forschungsfrage: Gibt es Unterschiede im Digitalisierungsindex zwischen den Bundesländern?
Nur bestimmte Spalten auswählen
daten_subset <- select(daten, Bundesland, Digitalisierungsindex)
2 Variablen bleiben übrig - Bundesland und Digitalisierungsindex
Daten exportieren
write.csv(daten_subset)