1. Forschungsfrage und Hypothese

Forschungsfrage: Gibt es international einen Zusammenhang zwischen der durchschnittlichen jährlichen Unterrichtszeit in der Primarstufe und dem Anteil der Bevölkerung mit tertiärem Bildungsabschluss?

Hypothese:

Länder mit mehr Unterrichtszeit in der Primarstufe haben einen höheren Anteil der Bevölkerung mit tertiärem Bildungsabschluss. Begründung: Mehr Unterrichtszeit könnte zu besseren Grundlagen, höherer Bildungsbeteiligung und damit mehr tertiären Abschlüssen führen.

Datenquellen:

Teaching hours Primary education, hours per year, 2021 → Unterrichtsstunden in der Grundschule - Datensatz

Population with tertiary education → Tertiäre Bildungsquote - Datensatz

Einleitung

In diesem Projekt wird untersucht, ob es international einen Zusammenhang zwischen der durchschnittlichen jährlichen Unterrichtszeit innerhalb der Primarstufe und dem Anteil der Bevölkerung mit tertiärem Bildungsabschluss gibt.

Hierfür werden die oben genannten Datensätze verwendet welche folgend bereinigt und Ausgewertet werden.

Bereinigung der Daten - Datensatz Unterrichtsstunden in der Grundschule

library(readr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

# Einlesen der ersten Datei mit richtigem Dezimaltrennzeichen

data <- read_delim("teaching_hours.csv", 
                   delim = ";", 
                   quote = "\"", 
                   skip = 3,
                   col_names = c("Country", "Teaching_Hours"),
                   locale = locale(decimal_mark = ",")) %>%
  filter(!is.na(Teaching_Hours) & Teaching_Hours != "", Country != "OECD") %>%
  mutate(
    Teaching_Hours = floor(as.numeric(Teaching_Hours))
  )
## Rows: 39 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (1): Country
## dbl (1): Teaching_Hours
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(data)       # Erste Zeilen prüfen
## # A tibble: 6 × 2
##   Country     Teaching_Hours
##   <chr>                <dbl>
## 1 Costa Rica            1209
## 2 Colombia               950
## 3 Netherlands            940
## 4 New Zealand            921
## 5 France                 900
## 6 Ireland                900
summary(data)    # Übersicht
##    Country          Teaching_Hours  
##  Length:32          Min.   : 591.0  
##  Class :character   1st Qu.: 678.8  
##  Mode  :character   Median : 755.0  
##                     Mean   : 780.5  
##                     3rd Qu.: 862.0  
##                     Max.   :1209.0

Bereinigung der Daten - Datensatz tertiäre Bildungsquote

library(readr)
library(dplyr)

# Einlesen der zweiten Datei

tertiary_education <- read_delim("tertiary_education.csv", 
                                 delim = ";", 
                                 quote = "\"", 
                                 skip = 3,
                                 col_names = c("Country", "Tertiary_Rate"),
                                 locale = locale(decimal_mark = ",")) %>%
  filter(!is.na(Tertiary_Rate) & Tertiary_Rate != "", Country != "OECD") %>%
  mutate(
    Tertiary_Rate = as.numeric(Tertiary_Rate)
  )
## Rows: 38 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (1): Country
## dbl (1): Tertiary_Rate
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(tertiary_education) #Erste Zeilen prüfen
## # A tibble: 6 × 2
##   Country        Tertiary_Rate
##   <chr>                  <dbl>
## 1 Canada                  63.3
## 2 Japan                   56.0
## 3 Ireland                 55.3
## 4 Korea                   54.5
## 5 United Kingdom          52.7
## 6 Australia               51.4
summary(tertiary_education) # Übersicht
##    Country          Tertiary_Rate  
##  Length:37          Min.   :20.96  
##  Class :character   1st Qu.:33.43  
##  Mode  :character   Median :42.43  
##                     Mean   :40.95  
##                     3rd Qu.:49.40  
##                     Max.   :63.27

Datensätze zusammenführen

Daten mit “merge_data” zusammengeführt und dann

merged_data <- inner_join(data, tertiary_education, by = "Country")

# Überblick über die zusammengeführten Daten
head(merged_data)
## # A tibble: 6 × 3
##   Country     Teaching_Hours Tertiary_Rate
##   <chr>                <dbl>         <dbl>
## 1 Costa Rica            1209          25.3
## 2 Colombia               950          28.9
## 3 Netherlands            940          44.2
## 4 New Zealand            921          41.5
## 5 France                 900          42.4
## 6 Ireland                900          55.3

Deskriptive Statistik

# Top 5 Länder nach Unterrichtsstunden
merged_data %>%
  arrange(desc(Teaching_Hours)) %>%
  select(Country, Teaching_Hours) %>%
  head(5)
## # A tibble: 5 × 2
##   Country     Teaching_Hours
##   <chr>                <dbl>
## 1 Costa Rica            1209
## 2 Colombia               950
## 3 Netherlands            940
## 4 New Zealand            921
## 5 France                 900

Mit etwas Abstand die meisten Unterrichtsstunden verzeichnet Costa Rica; darauf folgen Kolumbien, die Niederlande, Neuseeland und Frankreich.

# Geringste Unterrichtsstunden
merged_data %>%
  arrange(Teaching_Hours) %>%
  select(Country, Teaching_Hours) %>%
  head(5)
## # A tibble: 5 × 2
##   Country  Teaching_Hours
##   <chr>             <dbl>
## 1 Estonia             591
## 2 Poland              610
## 3 Slovenia            627
## 4 Czechia             630
## 5 Latvia              630

Ganz am Ende finden sich Estaland, mit weniger als halb so vielen Stunden wie Costa Rica, Polen und Slowenien

# Top 5 Länder nach Anteil tertiärer Abschlüsse
merged_data %>%
  arrange(desc(Tertiary_Rate)) %>%
  select(Country, Tertiary_Rate) %>%
  head(5)
## # A tibble: 5 × 2
##   Country    Tertiary_Rate
##   <chr>              <dbl>
## 1 Japan               56.0
## 2 Ireland             55.3
## 3 Korea               54.5
## 4 Australia           51.4
## 5 Luxembourg          51.3

Die Länder mit prozentual den meisten Abschlüssen in höherer Bildung sind Japan, Irland, Korea, Australien und Luxemburg

# Geringster Anteil tertiärer Abschlüsse
merged_data %>%
  arrange(Tertiary_Rate) %>%
  select(Country, Tertiary_Rate) %>%
  head(5)
## # A tibble: 5 × 2
##   Country    Tertiary_Rate
##   <chr>              <dbl>
## 1 Mexico              21.0
## 2 Italy               21.6
## 3 Costa Rica          25.3
## 4 Türkiye             25.9
## 5 Czechia             27.0

Am Ende finden sich die Mexico, Itanien und Costa Rica (lezteres hat im Schnitt besonders viele Unterreichtsstunden in der Grundschule)

Korrelationsanalyse

ggplot(merged_data, aes(x = Teaching_Hours, y = Tertiary_Rate)) +
  geom_point(color = "darkblue", size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "red") +
  labs(
    title = "Unterrichtszeit (Primarstufe) vs. Anteil tertiärer Abschlüsse",
    x = "Unterrichtszeit pro Jahr (Stunden)",
    y = "Anteil tertiärer Abschlüsse (%)"
  )
## `geom_smooth()` using formula = 'y ~ x'

Punkte = Länderwerte → keine klare Tendenz: Länder mit hoher Unterrichtszeit liegen sowohl bei hohem als auch niedrigem Anteil tertiärer Abschlüsse, und umgekehrt

Es gibt keinen erkennbaren linearen Trend zwischen Unterrichtszeit und Anteil tertiärer Abschlüsse. Daten sind sehr variabel und wirken nicht zusammenhängend. Visuell zeigt sich eher „Mehr Unterrichtszeit → höherer Anteil tertiärer Abschlüsse“ wird mit diesen Daten nicht gestützt.

# Korrelationstest
cor_result <- cor.test(
  merged_data$Teaching_Hours,
  merged_data$Tertiary_Rate,
  use = "complete.obs"
)

cor_result
## 
##  Pearson's product-moment correlation
## 
## data:  merged_data$Teaching_Hours and merged_data$Tertiary_Rate
## t = 0.1732, df = 29, p-value = 0.8637
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3259062  0.3821336
## sample estimates:
##        cor 
## 0.03214621

Ergebnisse Korrelationsanalyse

Korrelationskoeffizient (r = 0.032) → so gut wie kein linearer Zusammenhang.

p-Wert = 0.8637 ( also weit größer als 0.05) → der Zusammenhang ist statistisch nicht signifikant.

95 %-Konfidenzintervall: von −0.326 bis 0.382 schließt somit sowohl negative als auch positive Werte ein → keine Richtung sicher.

t-Wert = 0.1732 → bestätigt, dass der Effekt minimal ist.

Es gibt in diesen Daten keinen statistisch nachweisbaren linearen Zusammenhang zwischen der jährlichen Unterrichtszeit in der Primarstufe und dem Anteil der Bevölkerung mit tertiärem Bildungsabschluss. Die Hypothese „Mehr Unterrichtszeit führt zu mehr tertiären Abschlüssen“ wird daher nicht unterstützt.

(Da die Korrelation zeigt, dass es keinen Zusammenhang gibt, habe ich keine Regression durchgeführt)

shapiro.test(merged_data$Teaching_Hours)   # Shapiro-Wilk Test Unterrichtsstunden
## 
##  Shapiro-Wilk normality test
## 
## data:  merged_data$Teaching_Hours
## W = 0.92407, p-value = 0.03031
shapiro.test(merged_data$Tertiary_Rate)    # Shapiro-Wilk Test Tertiäranteil
## 
##  Shapiro-Wilk normality test
## 
## data:  merged_data$Tertiary_Rate
## W = 0.96358, p-value = 0.3618

Unterrichtsstunden (Teaching_Hours) W = 0.924, p = 0.0303 p < 0.05 → signifikant → Abweichung von Normalverteilung

Tertiäranteil (Tertiary_Rate) W = 0.964, p = 0.3618 p > 0.05 → keine Abweichung → normalverteilt

## Spearman-Rangkorrelation
spearman_result <- cor.test(
  merged_data$Teaching_Hours,
  merged_data$Tertiary_Rate,
  method = "spearman",
  exact = FALSE 
)
spearman_result
## 
##  Spearman's rank correlation rho
## 
## data:  merged_data$Teaching_Hours and merged_data$Tertiary_Rate
## S = 4256.9, p-value = 0.4468
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.1417625

Spearman’s ρ (rho) = 0.142 → sehr schwacher positiver monotoner Zusammenhang.

p-Wert = 0.4468 → weit über 0.05 also nicht signifikant → statistisch kein belastbarer Zusammenhang.

Auch wenn man die Normalverteilungsannahme ignoriert und nur die Ränge betrachtet, zeigt sich kein signifikanter Zusammenhang zwischen Unterrichtsstunden und tertiärem Abschlussanteil.

Fazit:

Pearson: r ≈ 0.03 → kein signifikanter Zusammenhang Spearman: ρ ≈ 0.14 → kein signifikanter Zusammenhang

Egal welche Korrelation → Hypothese wird (mit diesen Daten) nicht unterstützt