Schritt 1: Datensatz importieren

Bildungsindikatoren der Bundesländer (bund_data)

data <- read.csv("bund_data.csv")

Schritt 2: Datenexploration

Struktur und erste Übersicht

str(daten)
data.frame':    256 obs. of  10 variables:
 $ Bundesland               : chr  "Baden-Württemberg" "Bayern" "Berlin" "Brandenburg" ...
 $ Jahr                     : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
 $ Bildungsausgaben_pro_Kopf: int  5608 7068 5368 4097 NA 3633 5096 6910 3355 7260 ...
 $ Anteil_Akademiker        : num  32.4 26.8 23 34.5 39.5 47.6 30.9 45.7 29 34 ...
 $ Schüler_Lehrer_Ratio     : num  17 16.7 10.4 15.7 14.3 17.6 17.3 13.6 16.1 14 ...
 $ Digitalisierungsindex    : int  82 87 83 95 86 50 79 67 53 64 ...
 $ Durchschnitnote_Abitur   : num  2.24 2.76 2.98 2.38 1.89 1.96 2.87 2.66 2.85 2.88 ...
 $ Lehrkräftemangel         : num  11.6 3.9 7.3 8 9.3 7.3 15 11.8 4.4 3.4 ...
 $ Bildungsinvestitionen_BIP: num  5.69 4.76 5.47 4.72 4.01 5.69 3.21 5.1 3.16 5.6 ...
 $ Anteil_online_Lernen     : chr  "50%" "gering" "75%" "75%" ...

Struktur anzeigen (Spalten & Typen)

Welche Spalten enthält der Datensatz? Der Datensatz enthält 10 Spalten mit folgenden Bezeichnungen: Bundesland, Jahr, Bildungsausgaben pro Kopf, Anteil Akademiker, Schüler Lehrer Ratio, Digitalisierungsindex, Durchschnitnote Abitur (-> korrekte Schreibweise wäre: Durchschnittsnote; muss in der Bereinigung geändert werden), Lehrkräftemangel, Bildungsinvestitionen BIP, Anteil online Lernen

Welche Datentypen sind vorhanden? Sind diese korrekt? Bundesland und Anteil online Lernen sind character. Jahr, Bildungsausgaben pro Kopf und Digitalisierungsindex sind integer. Anteil Akademiker, Schüler Lehrer Ratio, Durchschnittsnote Abitur, Lehrkräftemangel und Bildungsinvestition sind numeric. - korrekt

Fehlende Werte identifizieren

colSums(is.na(daten))
 Bundesland                      Jahr Bildungsausgaben_pro_Kopf 
                        0                         0                        10 
        Anteil_Akademiker      Schüler_Lehrer_Ratio     Digitalisierungsindex 
                        0                        15                        12 
   Durchschnitnote_Abitur          Lehrkräftemangel Bildungsinvestitionen_BIP 
                        0                         8                         0 
     Anteil_online_Lernen 
                        0 
                        

Gibt es fehlende Werte? Wenn ja, wie viele und wo? Bildungsausgaben pro Kopf 12 fehlende Werte. Schüler Lehrer Ratio 15 fehlende Werte. Beim Digitalisierungsindex fehlen 12 Werte und beim Lehrkräftemangel fehlen 8 Werte.

Schritt 3: Datenbereinigung

Zeilen mit fehlenden Werten entfernen

daten <- na.omit(daten) 

Falschen Spaltennamen korrigieren

daten <- rename(daten, Durchschnittsnote_Abitur = Durchschnitnote_Abitur)

Schritt 4: Forschungsfrage entwickeln

Forschungsfrage: Gibt es Unterschiede im Digitalisierungsindex zwischen den Bundesländern?

Schritt 5: Daten filtern oder extrahieren

Nur bestimmte Spalten auswählen

daten_subset <- select(daten, Bundesland, Digitalisierungsindex)

2 Variablen bleiben übrig - Bundesland und Digitalisierungsindex

Schritt 6: Datensatz exportieren

Daten exportieren

write.csv(daten_subset)