1. Datensatz importiert

 > library(readr) 
 > bund_data <- read_csv("~/Desktop/bund_data.csv") 

2. Datenexploration

Überblick und Struktur verschafft

 > str(bund_data) 
 > spc_tbl_ [256 × 10] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ Bundesland               : chr [1:256] "Baden-Württemberg" "Bayern" "Berlin" "Brandenburg" ...
 $ Jahr                     : num [1:256] 2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
 $ Bildungsausgaben_pro_Kopf: num [1:256] 5608 7068 5368 4097 NA ...
 $ Anteil_Akademiker        : num [1:256] 32.4 26.8 23 34.5 39.5 47.6 30.9 45.7 29 34 ...
 $ Schüler_Lehrer_Ratio     : num [1:256] 17 16.7 10.4 15.7 14.3 17.6 17.3 13.6 16.1 14 ...
 $ Digitalisierungsindex    : num [1:256] 82 87 83 95 86 50 79 67 53 64 ...
 $ Durchschnitnote_Abitur   : num [1:256] 2.24 2.76 2.98 2.38 1.89 1.96 2.87 2.66 2.85 2.88 ...
 $ Lehrkräftemangel         : num [1:256] 11.6 3.9 7.3 8 9.3 7.3 15 11.8 4.4 3.4 ...
 $ Bildungsinvestitionen_BIP: num [1:256] 5.69 4.76 5.47 4.72 4.01 5.69 3.21 5.1 3.16 5.6 ...
 $ Anteil_online_Lernen     : chr [1:256] "50%" "gering" "75%" "75%" ...
 - attr(*, "spec")=
  .. cols(
  ..   Bundesland = col_character(),
  ..   Jahr = col_double(),
  ..   Bildungsausgaben_pro_Kopf = col_double(),
  ..   Anteil_Akademiker = col_double(),
  ..   Schüler_Lehrer_Ratio = col_double(),
  ..   Digitalisierungsindex = col_double(),
  ..   Durchschnitnote_Abitur = col_double(),
  ..   Lehrkräftemangel = col_double(),
  ..   Bildungsinvestitionen_BIP = col_double(),
  ..   Anteil_online_Lernen = col_character()
  .. )
 - attr(*, "problems")= 
 > summary(bund_data)
 > Bundesland             Jahr      Bildungsausgaben_pro_Kopf Anteil_Akademiker Schüler_Lehrer_Ratio Digitalisierungsindex Durchschnitnote_Abitur Lehrkräftemangel
 Length:256         Min.   :2010   Min.   :3001              Min.   :20.00     Min.   :10.00        Min.   : 50.00        Min.   :1.800          Min.   : 2.000  
 Class :character   1st Qu.:2014   1st Qu.:4226              1st Qu.:26.98     1st Qu.:11.90        1st Qu.: 63.00        1st Qu.:2.118          1st Qu.: 4.400  
 Mode  :character   Median :2018   Median :5463              Median :34.30     Median :13.90        Median : 75.50        Median :2.370          Median : 8.050  
                    Mean   :2018   Mean   :5509              Mean   :34.49     Mean   :13.95        Mean   : 74.96        Mean   :2.388          Mean   : 8.208  
                    3rd Qu.:2021   3rd Qu.:6883              3rd Qu.:41.85     3rd Qu.:16.10        3rd Qu.: 87.00        3rd Qu.:2.672          3rd Qu.:11.725  
                    Max.   :2025   Max.   :7954              Max.   :49.90     Max.   :18.00        Max.   :100.00        Max.   :2.990          Max.   :15.000  
                                   NA's   :10                                  NA's   :15           NA's   :12                                   NA's   :8       
 Bildungsinvestitionen_BIP Anteil_online_Lernen
 Min.   :3.000             Length:256          
 1st Qu.:3.755             Class :character    
 Median :4.730             Mode  :character    
 Mean   :4.599                                 
 3rd Qu.:5.405                                 
 Max.   :6.000 
 > head(bund_data)
 > # A tibble: 6 × 10
  Bundesland   Jahr Bildungsausgaben_pro…¹ Anteil_Akademiker Schüler_Lehrer_Ratio Digitalisierungsindex Durchschnitnote_Abitur Lehrkräftemangel Bildungsinvestitione…² Anteil_online_Lernen
                                                                                                                                         
1 Baden-Würt…  2010                   5608              32.4                 17                      82                   2.24             11.6                   5.69 50%                 
2 Bayern       2010                   7068              26.8                 16.7                    87                   2.76              3.9                   4.76 gering              
3 Berlin       2010                   5368              23                   10.4                    83                   2.98              7.3                   5.47 75%                 
4 Brandenburg  2010                   4097              34.5                 15.7                    95                   2.38              8                     4.72 75%                 
5 Bremen       2010                     NA              39.5                 14.3                    86                   1.89              9.3                   4.01 hoch                
6 Hamburg      2010                   3633              47.6                 17.6                    50                   1.96              7.3                   5.69 mittel              
# ℹ abbreviated names: ¹​Bildungsausgaben_pro_Kopf, ²​Bildungsinvestitionen_BIP

Datentypen geprüft

 > sapply(bund_data, class)
 >   Bundesland                      Jahr Bildungsausgaben_pro_Kopf         Anteil_Akademiker      Schüler_Lehrer_Ratio     Digitalisierungsindex    Durchschnitnote_Abitur 
              "character"                 "numeric"                 "numeric"                 "numeric"                 "numeric"                 "numeric"                 "numeric" 
         Lehrkräftemangel Bildungsinvestitionen_BIP      Anteil_online_Lernen 
                "numeric"                 "numeric"               "character"

Fehlende Werte identifiziert

 > colSums(is.na(bund_data)) 
 > Bundesland                      Jahr Bildungsausgaben_pro_Kopf         Anteil_Akademiker      Schüler_Lehrer_Ratio     Digitalisierungsindex    Durchschnitnote_Abitur 
                        0                         0                        10                         0                        15                        12                         0 
         Lehrkräftemangel Bildungsinvestitionen_BIP      Anteil_online_Lernen 
                        8                         0                         0  

3. Datenbereinigung

 > library(dplyr) 

Zeilen mit fehlenden Werten entfernt

 > bund_data <- na.omit(bund_data) 

Spaltennamen korrigiert

 > bund_data <- rename(bund_data, Durchschnittsnote_Abitur = Durchschnitnote_Abitur)

Inskonsistente Werte standardisiert

 > bund_data$Anteil_online_Lernen[bund_data$Anteil_online_Lernen == "gering"] <- "10%"
 > bund_data$ Anteil_online_Lernen [bund_data$ Anteil_online_Lernen == "mittel"] <- "50%" 
 > bund_data$ Anteil_online_Lernen [bund_data$ Anteil_online_Lernen == "hoch"] <- "75%" 

Kontrolle

 > str(bund_data) 
 > summary(bund_data) 

4. Forschungsfrage

Gibt es einen Zusammenhang zwischen den Bildungsausgaben pro Kopf und dem Digitalisierungsindex der Bundesländer?

Selektierter Datensatz

 > bund_data_subset <- bund_data %>% select(Bundesland, Jahr, Bildungsausgaben_pro_Kopf, Digitalisierungsindex, Anteil_online_Lernen)
 > bund_data_gefiltert <- filter(bund_data, Jahr >= 2015) 
 > bund_high_digital <- filter(bund_data, Jahr >= 2015, Digitalisierungsindex > 90) 

5. Export der selektierten Daten

 > write_csv(bund_data_gefiltert, "bund_data_gefiltert.csv")
 > write_csv(bund_data_subset, "bund_data_subset.csv")
 > write_csv(bund_high_digital, "bund_high_digital")