Forschungsfrage: Gibt es international einen Zusammenhang zwischen der durchschnittlichen jährlichen Unterrichtszeit in der Primarstufe und dem Anteil der Bevölkerung mit tertiärem Bildungsabschluss?
Hypothese:
Länder mit mehr Unterrichtszeit in der Primarstufe haben einen höheren Anteil der Bevölkerung mit tertiärem Bildungsabschluss. Begründung: Mehr Unterrichtszeit könnte zu besseren Grundlagen, höherer Bildungsbeteiligung und damit mehr tertiären Abschlüssen führen.
Datenquellen:
Teaching hours Primary education, hours per year, 2021 → Unterrichtsstunden in der Grundschule - Datensatz
Population with tertiary education → Tertiäre Bildungsquote - Datensatz
In diesem Projekt wird untersucht, ob es international einen Zusammenhang zwischen der durchschnittlichen jährlichen Unterrichtszeit innerhalb der Primarstufe und dem Anteil der Bevölkerung mit tertiärem Bildungsabschluss gibt.
Hierfür werden die oben genannten Datensätze verwendet welche folgend bereinigt und Ausgewertet werden.
library(readr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
# Einlesen der ersten Datei mit richtigem Dezimaltrennzeichen
data <- read_delim("teaching_hours.csv",
delim = ";",
quote = "\"",
skip = 3,
col_names = c("Country", "Teaching_Hours"),
locale = locale(decimal_mark = ",")) %>%
filter(!is.na(Teaching_Hours) & Teaching_Hours != "", Country != "OECD") %>%
mutate(
Teaching_Hours = floor(as.numeric(Teaching_Hours))
)
## Rows: 39 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (1): Country
## dbl (1): Teaching_Hours
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(data) # Erste Zeilen prüfen
## # A tibble: 6 × 2
## Country Teaching_Hours
## <chr> <dbl>
## 1 Costa Rica 1209
## 2 Colombia 950
## 3 Netherlands 940
## 4 New Zealand 921
## 5 France 900
## 6 Ireland 900
summary(data) # Übersicht
## Country Teaching_Hours
## Length:32 Min. : 591.0
## Class :character 1st Qu.: 678.8
## Mode :character Median : 755.0
## Mean : 780.5
## 3rd Qu.: 862.0
## Max. :1209.0
library(readr)
library(dplyr)
# Einlesen der zweiten Datei
tertiary_education <- read_delim("tertiary_education.csv",
delim = ";",
quote = "\"",
skip = 3,
col_names = c("Country", "Tertiary_Rate"),
locale = locale(decimal_mark = ",")) %>%
filter(!is.na(Tertiary_Rate) & Tertiary_Rate != "", Country != "OECD") %>%
mutate(
Tertiary_Rate = as.numeric(Tertiary_Rate)
)
## Rows: 38 Columns: 2
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (1): Country
## dbl (1): Tertiary_Rate
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(tertiary_education) #Erste Zeilen prüfen
## # A tibble: 6 × 2
## Country Tertiary_Rate
## <chr> <dbl>
## 1 Canada 63.3
## 2 Japan 56.0
## 3 Ireland 55.3
## 4 Korea 54.5
## 5 United Kingdom 52.7
## 6 Australia 51.4
summary(tertiary_education) # Übersicht
## Country Tertiary_Rate
## Length:37 Min. :20.96
## Class :character 1st Qu.:33.43
## Mode :character Median :42.43
## Mean :40.95
## 3rd Qu.:49.40
## Max. :63.27
Daten mit “merge_data” zusammengeführt und dann
merged_data <- inner_join(data, tertiary_education, by = "Country")
# Überblick über die zusammengeführten Daten
head(merged_data)
## # A tibble: 6 × 3
## Country Teaching_Hours Tertiary_Rate
## <chr> <dbl> <dbl>
## 1 Costa Rica 1209 25.3
## 2 Colombia 950 28.9
## 3 Netherlands 940 44.2
## 4 New Zealand 921 41.5
## 5 France 900 42.4
## 6 Ireland 900 55.3
# Top 5 Länder nach Unterrichtsstunden
merged_data %>%
arrange(desc(Teaching_Hours)) %>%
select(Country, Teaching_Hours) %>%
head(5)
## # A tibble: 5 × 2
## Country Teaching_Hours
## <chr> <dbl>
## 1 Costa Rica 1209
## 2 Colombia 950
## 3 Netherlands 940
## 4 New Zealand 921
## 5 France 900
Mit etwas Abstand die meisten Unterrichtsstunden verzeichnet Costa Rica; darauf folgen Kolumbien, die Niederlande, Neuseeland und Frankreich.
# Geringste Unterrichtsstunden
merged_data %>%
arrange(Teaching_Hours) %>%
select(Country, Teaching_Hours) %>%
head(5)
## # A tibble: 5 × 2
## Country Teaching_Hours
## <chr> <dbl>
## 1 Estonia 591
## 2 Poland 610
## 3 Slovenia 627
## 4 Czechia 630
## 5 Latvia 630
Ganz am Ende finden sich Estaland, mit weniger als halb so vielen Stunden wie Costa Rica, Polen und Slowenien
# Top 5 Länder nach Anteil tertiärer Abschlüsse
merged_data %>%
arrange(desc(Tertiary_Rate)) %>%
select(Country, Tertiary_Rate) %>%
head(5)
## # A tibble: 5 × 2
## Country Tertiary_Rate
## <chr> <dbl>
## 1 Japan 56.0
## 2 Ireland 55.3
## 3 Korea 54.5
## 4 Australia 51.4
## 5 Luxembourg 51.3
Die Länder mit prozentual den meisten Abschlüssen in höherer Bildung sind Japan, Irland, Korea, Australien und Luxemburg
# Geringster Anteil tertiärer Abschlüsse
merged_data %>%
arrange(Tertiary_Rate) %>%
select(Country, Tertiary_Rate) %>%
head(5)
## # A tibble: 5 × 2
## Country Tertiary_Rate
## <chr> <dbl>
## 1 Mexico 21.0
## 2 Italy 21.6
## 3 Costa Rica 25.3
## 4 Türkiye 25.9
## 5 Czechia 27.0
Am Ende finden sich die Mexico, Itanien und Costa Rica (lezteres hat im Schnitt besonders viele Unterreichtsstunden in der Grundschule)
ggplot(merged_data, aes(x = Teaching_Hours, y = Tertiary_Rate)) +
geom_point(color = "darkblue", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "red") +
labs(
title = "Unterrichtszeit (Primarstufe) vs. Anteil tertiärer Abschlüsse",
x = "Unterrichtszeit pro Jahr (Stunden)",
y = "Anteil tertiärer Abschlüsse (%)"
)
## `geom_smooth()` using formula = 'y ~ x'
Punkte = Länderwerte → keine klare Tendenz: Länder mit hoher Unterrichtszeit liegen sowohl bei hohem als auch niedrigem Anteil tertiärer Abschlüsse, und umgekehrt
Es gibt keinen erkennbaren linearen Trend zwischen Unterrichtszeit und Anteil tertiärer Abschlüsse. Daten sind sehr variabel und wirken nicht zusammenhängend. Visuell zeigt sich eher „Mehr Unterrichtszeit → höherer Anteil tertiärer Abschlüsse“ wird mit diesen Daten nicht gestützt.
# Korrelationstest
cor_result <- cor.test(
merged_data$Teaching_Hours,
merged_data$Tertiary_Rate,
use = "complete.obs"
)
cor_result
##
## Pearson's product-moment correlation
##
## data: merged_data$Teaching_Hours and merged_data$Tertiary_Rate
## t = 0.1732, df = 29, p-value = 0.8637
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3259062 0.3821336
## sample estimates:
## cor
## 0.03214621
Korrelationskoeffizient (r = 0.032) → so gut wie kein linearer Zusammenhang.
p-Wert = 0.8637 ( also weit größer als 0.05) → der Zusammenhang ist statistisch nicht signifikant.
95 %-Konfidenzintervall: von −0.326 bis 0.382 schließt somit sowohl negative als auch positive Werte ein → keine Richtung sicher.
t-Wert = 0.1732 → bestätigt, dass der Effekt minimal ist.
Es gibt in diesen Daten keinen statistisch nachweisbaren linearen Zusammenhang zwischen der jährlichen Unterrichtszeit in der Primarstufe und dem Anteil der Bevölkerung mit tertiärem Bildungsabschluss. Die Hypothese „Mehr Unterrichtszeit führt zu mehr tertiären Abschlüssen“ wird daher nicht unterstützt.
(Da die Korrelation zeigt, dass es keinen Zusammenhang gibt, habe ich keine Regression durchgeführt)
shapiro.test(merged_data$Teaching_Hours) # Shapiro-Wilk Test Unterrichtsstunden
##
## Shapiro-Wilk normality test
##
## data: merged_data$Teaching_Hours
## W = 0.92407, p-value = 0.03031
shapiro.test(merged_data$Tertiary_Rate) # Shapiro-Wilk Test Tertiäranteil
##
## Shapiro-Wilk normality test
##
## data: merged_data$Tertiary_Rate
## W = 0.96358, p-value = 0.3618
Unterrichtsstunden (Teaching_Hours) W = 0.924, p = 0.0303 p < 0.05 → signifikant → Abweichung von Normalverteilung
Tertiäranteil (Tertiary_Rate) W = 0.964, p = 0.3618 p > 0.05 → keine Abweichung → normalverteilt
## Spearman-Rangkorrelation
spearman_result <- cor.test(
merged_data$Teaching_Hours,
merged_data$Tertiary_Rate,
method = "spearman",
exact = FALSE
)
spearman_result
##
## Spearman's rank correlation rho
##
## data: merged_data$Teaching_Hours and merged_data$Tertiary_Rate
## S = 4256.9, p-value = 0.4468
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.1417625
Spearman’s ρ (rho) = 0.142 → sehr schwacher positiver monotoner Zusammenhang.
p-Wert = 0.4468 → weit über 0.05 also nicht signifikant → statistisch kein belastbarer Zusammenhang.
Auch wenn man die Normalverteilungsannahme ignoriert und nur die Ränge betrachtet, zeigt sich kein signifikanter Zusammenhang zwischen Unterrichtsstunden und tertiärem Abschlussanteil.
Pearson: r ≈ 0.03 → kein signifikanter Zusammenhang Spearman: ρ ≈ 0.14 → kein signifikanter Zusammenhang
Egal welche Korrelation → Hypothese wird (mit diesen Daten) nicht unterstützt