library(psych)
library(Hmisc)
library(vcd)
library(heplots)
library(pastecs)
library(car)
library(effsize)
library(scales)
library(tidyverse)
schulabschluss <- read.csv("C:/Users/Linda/OneDrive/Dokumente/Studium/ELMEB/Data Science/R Übungen/Datenprojekt_Schulabschluss.csv ",sep=";", header = T, skip = 4)
head(schulabschluss)
## X X.1 X.2
## 1 Insgesamt
## 2 Im Alter von ... bis unter ... Jahren
## 3 Insgesamt
## 4 Allgemeiner Schulabschluss Jahr 2) Tsd.
## 5 Noch in schulischer Ausbildung 2005 3401
## 6 Noch in schulischer Ausbildung 2006 3288
## X.3 X.4
## 1 Insgesamt Insgesamt
## 2 Im Alter von ... bis unter ... Jahren Im Alter von ... bis unter ... Jahren
## 3 15 - 25 25 - 35
## 4 Tsd. Tsd.
## 5 3344 34
## 6 3257 17
## X.5 X.6
## 1 M\xe4nnlich M\xe4nnlich
## 2 Im Alter von ... bis unter ... Jahren Im Alter von ... bis unter ... Jahren
## 3 Insgesamt 15 - 25
## 4 Tsd. Tsd.
## 5 1720 1689
## 6 1652 1636
## X.7 X.8
## 1 M\xe4nnlich Weiblich
## 2 Im Alter von ... bis unter ... Jahren Im Alter von ... bis unter ... Jahren
## 3 25 - 35 Insgesamt
## 4 Tsd. Tsd.
## 5 15 1681
## 6 10 1635
## X.9 X.10
## 1 Weiblich Weiblich
## 2 Im Alter von ... bis unter ... Jahren Im Alter von ... bis unter ... Jahren
## 3 15 - 25 25 - 35
## 4 Tsd. Tsd.
## 5 1655 11
## 6 1621 7
glimpse(schulabschluss)
## Rows: 170
## Columns: 11
## $ X <chr> "", "", "", "Allgemeiner Schulabschluss", "Noch in schulischer Au…
## $ X.1 <chr> "", "", "", "Jahr 2)", "2005", "2006", "2007", "2008", "2009", "2…
## $ X.2 <chr> "Insgesamt", "Im Alter von ... bis unter ... Jahren", "Insgesamt"…
## $ X.3 <chr> "Insgesamt", "Im Alter von ... bis unter ... Jahren", "15 - 25", …
## $ X.4 <chr> "Insgesamt", "Im Alter von ... bis unter ... Jahren", "25 - 35", …
## $ X.5 <chr> "M\xe4nnlich", "Im Alter von ... bis unter ... Jahren", "Insgesam…
## $ X.6 <chr> "M\xe4nnlich", "Im Alter von ... bis unter ... Jahren", "15 - 25"…
## $ X.7 <chr> "M\xe4nnlich", "Im Alter von ... bis unter ... Jahren", "25 - 35"…
## $ X.8 <chr> "Weiblich", "Im Alter von ... bis unter ... Jahren", "Insgesamt",…
## $ X.9 <chr> "Weiblich", "Im Alter von ... bis unter ... Jahren", "15 - 25", "…
## $ X.10 <chr> "Weiblich", "Im Alter von ... bis unter ... Jahren", "25 - 35", "…
schulabschluss <- schulabschluss %>%
slice(5:151)
colnames(schulabschluss) <- c(
"abschluss",
"jahr",
"gesamt",
"maennlich_gesamt",
"weiblich_gesamt",
"insgesamt_15_25",
"maennlich_15_25",
"weiblich_15_25",
"insgesamt_25_35",
"maennlich_25_35",
"weiblich_25_35"
)
schulabschluss <- schulabschluss %>%
mutate(
jahr = as.numeric(jahr)
)
schulabschluss <- schulabschluss %>%
mutate(
across(
-c(abschluss, jahr),
~ na_if(.x, "u")
)
)
schulabschluss <- schulabschluss %>%
mutate(
across(
-c(abschluss, jahr),
~ as.numeric(.x)
)
)
schulabschluss_clean <- na.omit(schulabschluss)
mean(schulabschluss_clean$gesamt)
## [1] 23290.95
schulabschluss_clean %>%
group_by(abschluss) %>%
summarise(
mean(gesamt)
)
## # A tibble: 6 × 2
## abschluss `mean(gesamt)`
## <chr> <dbl>
## 1 Fachhochschul- oder Hochschulreife 21244
## 2 Haupt- (Volks-) schulabschluss 22974.
## 3 Insgesamt 4) 70845.
## 4 Noch in schulischer Ausbildung 2694.
## 5 Ohne Angabe zur Art des Abschlusses oder ohne allgemeinen Schu… 3140.
## 6 Realschul- oder gleichwertiger Abschluss 15905.
schulabschluss_clean %>%
group_by(abschluss) %>%
summarise(
median(gesamt)
)
## # A tibble: 6 × 2
## abschluss `median(gesamt)`
## <chr> <dbl>
## 1 Fachhochschul- oder Hochschulreife 20885
## 2 Haupt- (Volks-) schulabschluss 23341
## 3 Insgesamt 4) 70984
## 4 Noch in schulischer Ausbildung 2582.
## 5 Ohne Angabe zur Art des Abschlusses oder ohne allgemeinen Sc… 2965
## 6 Realschul- oder gleichwertiger Abschluss 16105
schulabschluss_clean %>%
group_by(abschluss) %>%
summarise(
sd(gesamt)
)
## # A tibble: 6 × 2
## abschluss `sd(gesamt)`
## <chr> <dbl>
## 1 Fachhochschul- oder Hochschulreife 3477.
## 2 Haupt- (Volks-) schulabschluss 4347.
## 3 Insgesamt 4) 446.
## 4 Noch in schulischer Ausbildung 291.
## 5 Ohne Angabe zur Art des Abschlusses oder ohne allgemeinen Schula… 475.
## 6 Realschul- oder gleichwertiger Abschluss 740.
Bei Hochschulen größte Standardabweichung.
schulabschluss_clean %>%
group_by(abschluss) %>%
summarise(
min(gesamt),
max(gesamt)
)
## # A tibble: 6 × 3
## abschluss `min(gesamt)` `max(gesamt)`
## <chr> <dbl> <dbl>
## 1 Fachhochschul- oder Hochschulreife 15905 26465
## 2 Haupt- (Volks-) schulabschluss 17107 29555
## 3 Insgesamt 4) 69746 71478
## 4 Noch in schulischer Ausbildung 2430 3401
## 5 Ohne Angabe zur Art des Abschlusses oder ohne all… 2634 4293
## 6 Realschul- oder gleichwertiger Abschluss 14432 16894
mittelwerte_abschluss <- schulabschluss_clean %>%
group_by(abschluss) %>%
summarise(
mittelwert = mean(gesamt, na.rm = TRUE)
)
barplot(
height = mittelwerte_abschluss$mittelwert,
names.arg = mittelwerte_abschluss$abschluss,
main = "Durchschnittliche Anzahl nach Schulabschluss",
col = "darkgreen",
ylab = "Mittelwert",
xlab = "Schulabschluss",
las = 2
)
Hier kann man sehen, wie die Abschlüsse über alle Jahre hinweg verteilt sind.