> library(readr)
> bund_data <- read_csv("~/Desktop/bund_data.csv")
> str(bund_data)
> spc_tbl_ [256 × 10] (S3: spec_tbl_df/tbl_df/tbl/data.frame) $ Bundesland : chr [1:256] "Baden-Württemberg" "Bayern" "Berlin" "Brandenburg" ... $ Jahr : num [1:256] 2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ... $ Bildungsausgaben_pro_Kopf: num [1:256] 5608 7068 5368 4097 NA ... $ Anteil_Akademiker : num [1:256] 32.4 26.8 23 34.5 39.5 47.6 30.9 45.7 29 34 ... $ Schüler_Lehrer_Ratio : num [1:256] 17 16.7 10.4 15.7 14.3 17.6 17.3 13.6 16.1 14 ... $ Digitalisierungsindex : num [1:256] 82 87 83 95 86 50 79 67 53 64 ... $ Durchschnitnote_Abitur : num [1:256] 2.24 2.76 2.98 2.38 1.89 1.96 2.87 2.66 2.85 2.88 ... $ Lehrkräftemangel : num [1:256] 11.6 3.9 7.3 8 9.3 7.3 15 11.8 4.4 3.4 ... $ Bildungsinvestitionen_BIP: num [1:256] 5.69 4.76 5.47 4.72 4.01 5.69 3.21 5.1 3.16 5.6 ... $ Anteil_online_Lernen : chr [1:256] "50%" "gering" "75%" "75%" ... - attr(*, "spec")= .. cols( .. Bundesland = col_character(), .. Jahr = col_double(), .. Bildungsausgaben_pro_Kopf = col_double(), .. Anteil_Akademiker = col_double(), .. Schüler_Lehrer_Ratio = col_double(), .. Digitalisierungsindex = col_double(), .. Durchschnitnote_Abitur = col_double(), .. Lehrkräftemangel = col_double(), .. Bildungsinvestitionen_BIP = col_double(), .. Anteil_online_Lernen = col_character() .. ) - attr(*, "problems")=
> summary(bund_data)
> Bundesland Jahr Bildungsausgaben_pro_Kopf Anteil_Akademiker Schüler_Lehrer_Ratio Digitalisierungsindex Durchschnitnote_Abitur Lehrkräftemangel
Length:256 Min. :2010 Min. :3001 Min. :20.00 Min. :10.00 Min. : 50.00 Min. :1.800 Min. : 2.000
Class :character 1st Qu.:2014 1st Qu.:4226 1st Qu.:26.98 1st Qu.:11.90 1st Qu.: 63.00 1st Qu.:2.118 1st Qu.: 4.400
Mode :character Median :2018 Median :5463 Median :34.30 Median :13.90 Median : 75.50 Median :2.370 Median : 8.050
Mean :2018 Mean :5509 Mean :34.49 Mean :13.95 Mean : 74.96 Mean :2.388 Mean : 8.208
3rd Qu.:2021 3rd Qu.:6883 3rd Qu.:41.85 3rd Qu.:16.10 3rd Qu.: 87.00 3rd Qu.:2.672 3rd Qu.:11.725
Max. :2025 Max. :7954 Max. :49.90 Max. :18.00 Max. :100.00 Max. :2.990 Max. :15.000
NA's :10 NA's :15 NA's :12 NA's :8
Bildungsinvestitionen_BIP Anteil_online_Lernen
Min. :3.000 Length:256
1st Qu.:3.755 Class :character
Median :4.730 Mode :character
Mean :4.599
3rd Qu.:5.405
Max. :6.000
> head(bund_data)
> # A tibble: 6 × 10 Bundesland Jahr Bildungsausgaben_pro…¹ Anteil_Akademiker Schüler_Lehrer_Ratio Digitalisierungsindex Durchschnitnote_Abitur Lehrkräftemangel Bildungsinvestitione…² Anteil_online_Lernen1 Baden-Würt… 2010 5608 32.4 17 82 2.24 11.6 5.69 50% 2 Bayern 2010 7068 26.8 16.7 87 2.76 3.9 4.76 gering 3 Berlin 2010 5368 23 10.4 83 2.98 7.3 5.47 75% 4 Brandenburg 2010 4097 34.5 15.7 95 2.38 8 4.72 75% 5 Bremen 2010 NA 39.5 14.3 86 1.89 9.3 4.01 hoch 6 Hamburg 2010 3633 47.6 17.6 50 1.96 7.3 5.69 mittel # ℹ abbreviated names: ¹Bildungsausgaben_pro_Kopf, ²Bildungsinvestitionen_BIP
> sapply(bund_data, class)
> Bundesland Jahr Bildungsausgaben_pro_Kopf Anteil_Akademiker Schüler_Lehrer_Ratio Digitalisierungsindex Durchschnitnote_Abitur
"character" "numeric" "numeric" "numeric" "numeric" "numeric" "numeric"
Lehrkräftemangel Bildungsinvestitionen_BIP Anteil_online_Lernen
"numeric" "numeric" "character"
> colSums(is.na(bund_data))
> Bundesland Jahr Bildungsausgaben_pro_Kopf Anteil_Akademiker Schüler_Lehrer_Ratio Digitalisierungsindex Durchschnitnote_Abitur
0 0 10 0 15 12 0
Lehrkräftemangel Bildungsinvestitionen_BIP Anteil_online_Lernen
8 0 0
> library(dplyr)
> bund_data <- na.omit(bund_data)
> bund_data <- rename(bund_data, Durchschnittsnote_Abitur = Durchschnitnote_Abitur)
> bund_data$Anteil_online_Lernen[bund_data$Anteil_online_Lernen == "gering"] <- "10%"
> bund_data$ Anteil_online_Lernen [bund_data$ Anteil_online_Lernen == "mittel"] <- "50%"
> bund_data$ Anteil_online_Lernen [bund_data$ Anteil_online_Lernen == "hoch"] <- "75%"
> str(bund_data)
> summary(bund_data)
Gibt es einen Zusammenhang zwischen den Bildungsausgaben pro Kopf und dem Digitalisierungsindex der Bundesländer?
> bund_data_subset <- bund_data %>% select(Bundesland, Jahr, Bildungsausgaben_pro_Kopf, Digitalisierungsindex, Anteil_online_Lernen)
> bund_data_gefiltert <- filter(bund_data, Jahr >= 2015)
> bund_high_digital <- filter(bund_data, Jahr >= 2015, Digitalisierungsindex > 90)
> write_csv(bund_data_gefiltert, "bund_data_gefiltert.csv")
> write_csv(bund_data_subset, "bund_data_subset.csv")
> write_csv(bund_high_digital, "bund_high_digital")