1 Datensatz zu Schulabschlüsse 2005-2025

1.1 Packages laden

library(psych)
library(Hmisc)
library(vcd)
library(heplots)
library(pastecs)
library(car)
library(effsize)
library(scales)
library(tidyverse)

1.2 Tabelle einlesen

schulabschluss <- read.csv("C:/Users/Linda/OneDrive/Dokumente/Studium/ELMEB/Data Science/R Übungen/Datenprojekt_Schulabschluss.csv ",sep=";", header = T, skip = 4)

1.3 Spaltenüberschriften anschauen

head(schulabschluss)
##                                X     X.1                                   X.2
## 1                                                                    Insgesamt
## 2                                        Im Alter von ... bis unter ... Jahren
## 3                                                                    Insgesamt
## 4     Allgemeiner Schulabschluss Jahr 2)                                  Tsd.
## 5 Noch in schulischer Ausbildung    2005                                  3401
## 6 Noch in schulischer Ausbildung    2006                                  3288
##                                     X.3                                   X.4
## 1                             Insgesamt                             Insgesamt
## 2 Im Alter von ... bis unter ... Jahren Im Alter von ... bis unter ... Jahren
## 3                               15 - 25                               25 - 35
## 4                                  Tsd.                                  Tsd.
## 5                                  3344                                    34
## 6                                  3257                                    17
##                                     X.5                                   X.6
## 1                           M\xe4nnlich                           M\xe4nnlich
## 2 Im Alter von ... bis unter ... Jahren Im Alter von ... bis unter ... Jahren
## 3                             Insgesamt                               15 - 25
## 4                                  Tsd.                                  Tsd.
## 5                                  1720                                  1689
## 6                                  1652                                  1636
##                                     X.7                                   X.8
## 1                           M\xe4nnlich                              Weiblich
## 2 Im Alter von ... bis unter ... Jahren Im Alter von ... bis unter ... Jahren
## 3                               25 - 35                             Insgesamt
## 4                                  Tsd.                                  Tsd.
## 5                                    15                                  1681
## 6                                    10                                  1635
##                                     X.9                                  X.10
## 1                              Weiblich                              Weiblich
## 2 Im Alter von ... bis unter ... Jahren Im Alter von ... bis unter ... Jahren
## 3                               15 - 25                               25 - 35
## 4                                  Tsd.                                  Tsd.
## 5                                  1655                                    11
## 6                                  1621                                     7

1.4 Variablenübersicht

glimpse(schulabschluss)
## Rows: 170
## Columns: 11
## $ X    <chr> "", "", "", "Allgemeiner Schulabschluss", "Noch in schulischer Au…
## $ X.1  <chr> "", "", "", "Jahr 2)", "2005", "2006", "2007", "2008", "2009", "2…
## $ X.2  <chr> "Insgesamt", "Im Alter von ... bis unter ... Jahren", "Insgesamt"…
## $ X.3  <chr> "Insgesamt", "Im Alter von ... bis unter ... Jahren", "15 - 25", …
## $ X.4  <chr> "Insgesamt", "Im Alter von ... bis unter ... Jahren", "25 - 35", …
## $ X.5  <chr> "M\xe4nnlich", "Im Alter von ... bis unter ... Jahren", "Insgesam…
## $ X.6  <chr> "M\xe4nnlich", "Im Alter von ... bis unter ... Jahren", "15 - 25"…
## $ X.7  <chr> "M\xe4nnlich", "Im Alter von ... bis unter ... Jahren", "25 - 35"…
## $ X.8  <chr> "Weiblich", "Im Alter von ... bis unter ... Jahren", "Insgesamt",…
## $ X.9  <chr> "Weiblich", "Im Alter von ... bis unter ... Jahren", "15 - 25", "…
## $ X.10 <chr> "Weiblich", "Im Alter von ... bis unter ... Jahren", "25 - 35", "…

1.5 Daten bereinigen

schulabschluss <- schulabschluss %>%
  slice(5:151)


colnames(schulabschluss) <- c(
  "abschluss",
  "jahr",
  
  "gesamt",
  
  "maennlich_gesamt",
  "weiblich_gesamt",
  
  "insgesamt_15_25",
  "maennlich_15_25",
  "weiblich_15_25",
  
  "insgesamt_25_35",
  "maennlich_25_35",
  "weiblich_25_35"
)

schulabschluss <- schulabschluss %>%
  mutate(
    jahr = as.numeric(jahr)
  )

schulabschluss <- schulabschluss %>%
  mutate(
    across(
      -c(abschluss, jahr),
      ~ na_if(.x, "u")
    )
  )

schulabschluss <- schulabschluss %>%
  mutate(
    across(
      -c(abschluss, jahr),
      ~ as.numeric(.x)
    )
  )

1.6 fehlende Werte ausschließen

schulabschluss_clean <- na.omit(schulabschluss)

1.7 Mittelwert & Median

mean(schulabschluss_clean$gesamt)
## [1] 23290.95
schulabschluss_clean %>%
  group_by(abschluss) %>%
  summarise(
    mean(gesamt)
  )
## # A tibble: 6 × 2
##   abschluss                                                       `mean(gesamt)`
##   <chr>                                                                    <dbl>
## 1 Fachhochschul- oder Hochschulreife                                      21244 
## 2 Haupt- (Volks-) schulabschluss                                          22974.
## 3 Insgesamt 4)                                                            70845.
## 4 Noch in schulischer Ausbildung                                           2694.
## 5 Ohne Angabe zur Art des Abschlusses oder ohne allgemeinen Schu…          3140.
## 6 Realschul- oder gleichwertiger Abschluss                                15905.
schulabschluss_clean %>%
  group_by(abschluss) %>%
  summarise(
    median(gesamt)
  )
## # A tibble: 6 × 2
##   abschluss                                                     `median(gesamt)`
##   <chr>                                                                    <dbl>
## 1 Fachhochschul- oder Hochschulreife                                      20885 
## 2 Haupt- (Volks-) schulabschluss                                          23341 
## 3 Insgesamt 4)                                                            70984 
## 4 Noch in schulischer Ausbildung                                           2582.
## 5 Ohne Angabe zur Art des Abschlusses oder ohne allgemeinen Sc…            2965 
## 6 Realschul- oder gleichwertiger Abschluss                                16105

1.8 Standardabweichung

schulabschluss_clean %>%
  group_by(abschluss) %>%
  summarise(
    sd(gesamt)
  )
## # A tibble: 6 × 2
##   abschluss                                                         `sd(gesamt)`
##   <chr>                                                                    <dbl>
## 1 Fachhochschul- oder Hochschulreife                                       3477.
## 2 Haupt- (Volks-) schulabschluss                                           4347.
## 3 Insgesamt 4)                                                              446.
## 4 Noch in schulischer Ausbildung                                            291.
## 5 Ohne Angabe zur Art des Abschlusses oder ohne allgemeinen Schula…         475.
## 6 Realschul- oder gleichwertiger Abschluss                                  740.

Bei Hochschulen größte Standardabweichung.

1.9 Minimum & Maximum

schulabschluss_clean %>%
  group_by(abschluss) %>%
  summarise(
    min(gesamt),
    max(gesamt)
  )
## # A tibble: 6 × 3
##   abschluss                                          `min(gesamt)` `max(gesamt)`
##   <chr>                                                      <dbl>         <dbl>
## 1 Fachhochschul- oder Hochschulreife                         15905         26465
## 2 Haupt- (Volks-) schulabschluss                             17107         29555
## 3 Insgesamt 4)                                               69746         71478
## 4 Noch in schulischer Ausbildung                              2430          3401
## 5 Ohne Angabe zur Art des Abschlusses oder ohne all…          2634          4293
## 6 Realschul- oder gleichwertiger Abschluss                   14432         16894

1.10 Visualisierung

mittelwerte_abschluss <- schulabschluss_clean %>%
  group_by(abschluss) %>%
  summarise(
    mittelwert = mean(gesamt, na.rm = TRUE)
  )
barplot(
  height = mittelwerte_abschluss$mittelwert,
  names.arg = mittelwerte_abschluss$abschluss,
  main = "Durchschnittliche Anzahl nach Schulabschluss",
  col = "darkgreen",
  ylab = "Mittelwert",
  xlab = "Schulabschluss",
  las = 2
)

Hier kann man sehen, wie die Abschlüsse über alle Jahre hinweg verteilt sind.