Abschlussprojekt Data-Science in der Bildung

Forschungsfrage und Hypothese
Datengrundlage
1. Vorbereitung der Daten
2. Deskriptive Statistik
3. Korrelationsanalyse
4. Regressionsanalyse
Fazit

Forschungsfrage und Hypothese

Forschungsfrage:

Gibt es in Europa einen Zusammenhang zwischen der Anzahl an Personen mit ausgeprägten digitalen Kompetenzen und der Anzahl an Personen, die Online-Lernaktivitäten nutzen?

Hypothese:

In Ländern, in denen die Bevölkerung ausgeprägtere digitale Kompetenzen aufweist zeigt sich auch eine höhere Online-Lernaktivität.
Je höher die digitalen Kompetenzen der Bevölkerung, desto höher deren Online-Lernaktivitäten.

Hinweis:

Ausgeprägte digitale Kompetenzen bedeuten mehr als grundlegende allgemeine digitale Fähigkeiten.
Online-Lernaktivitäten beinhalten die Nutzung von Online-Kursen und/oder Online-Lernmaterial.

Datengrundlage

Digitale Kompetenzen in Europa (2021 & 2023)
Eurostat - Individuals’ level of digital skills

Online-Lernaktivitäten in Europa (2020 - 2024)
Eurostat - Individuals’ internet activities

1. Vorbereitung der Daten

Pakete installieren und laden

library(tidyverse)

## Warning: Paket 'tidyverse' wurde unter R Version 4.5.1 erstellt

## Warning: Paket 'ggplot2' wurde unter R Version 4.5.1 erstellt

## Warning: Paket 'tidyr' wurde unter R Version 4.5.1 erstellt

## Warning: Paket 'purrr' wurde unter R Version 4.5.1 erstellt

## Warning: Paket 'forcats' wurde unter R Version 4.5.1 erstellt

## Warning: Paket 'lubridate' wurde unter R Version 4.5.1 erstellt

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.1.0     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

Datensätze importieren

Die CSV-Dateien enthalten keine überflüssigen Kopfzeilen und keine besonderen Trennzeichen, daher read.csv statt read.csv2 oder read_delim

# Datensatz zu digitalen Kompetenzen einlesen
digitalskills <- read.csv("eurostat_digitalskills_filtered.csv")

# Datensatz zu Online-Leraktivitäten einlesen
onlinelearning <- read.csv("eurostat_onlinelearning_filtered.csv")

Englische CSV-Dateien sind mit Komma getrennt, deutsche Dateien meist mit Semikolon. Mit read.csv wird das Komma als Trennzeichen erkannt. Für das Semikolon (oder andere Trennzeichen) würde man read_delim verwenden, da hier das Trennzeichen manuell festgelegt werden kann. Mit read.csv2 wird das Semikolon als Trennzeichen erkannt.

Datenexploration

Struktur und erste Übersicht der Datensätze:

str(digitalskills)

## 'data.frame':    74 obs. of  21 variables:
##  $ STRUCTURE                             : chr  "dataflow" "dataflow" "dataflow" "dataflow" ...
##  $ STRUCTURE_ID                          : chr  "ESTAT:ISOC_SK_DSKL_I21(1.0)" "ESTAT:ISOC_SK_DSKL_I21(1.0)" "ESTAT:ISOC_SK_DSKL_I21(1.0)" "ESTAT:ISOC_SK_DSKL_I21(1.0)" ...
##  $ STRUCTURE_NAME                        : chr  "Individuals' level of digital skills (from 2021 onwards)" "Individuals' level of digital skills (from 2021 onwards)" "Individuals' level of digital skills (from 2021 onwards)" "Individuals' level of digital skills (from 2021 onwards)" ...
##  $ freq                                  : chr  "A" "A" "A" "A" ...
##  $ Time.frequency                        : chr  "Annual" "Annual" "Annual" "Annual" ...
##  $ ind_type                              : chr  "IND_TOTAL" "IND_TOTAL" "IND_TOTAL" "IND_TOTAL" ...
##  $ Individual.type                       : chr  "All individuals" "All individuals" "All individuals" "All individuals" ...
##  $ indic_is                              : chr  "I_DSK2_AB" "I_DSK2_AB" "I_DSK2_AB" "I_DSK2_AB" ...
##  $ Information.society.indicator         : chr  "Individuals with above basic overall digital skills (all five component indicators are at above basic level)" "Individuals with above basic overall digital skills (all five component indicators are at above basic level)" "Individuals with above basic overall digital skills (all five component indicators are at above basic level)" "Individuals with above basic overall digital skills (all five component indicators are at above basic level)" ...
##  $ unit                                  : chr  "PC_IND" "PC_IND" "PC_IND" "PC_IND" ...
##  $ Unit.of.measure                       : chr  "Percentage of individuals" "Percentage of individuals" "Percentage of individuals" "Percentage of individuals" ...
##  $ geo                                   : chr  "AL" "AL" "AT" "AT" ...
##  $ Geopolitical.entity..reporting.       : chr  "Albania" "Albania" "Austria" "Austria" ...
##  $ TIME_PERIOD                           : int  2021 2023 2021 2023 2021 2023 2021 2023 2021 2023 ...
##  $ Time                                  : logi  NA NA NA NA NA NA ...
##  $ OBS_VALUE                             : num  4.01 7.77 33.28 32.04 5.35 ...
##  $ Observation.value                     : logi  NA NA NA NA NA NA ...
##  $ OBS_FLAG                              : logi  NA NA NA NA NA NA ...
##  $ Observation.status..Flag..V2.structure: logi  NA NA NA NA NA NA ...
##  $ CONF_STATUS                           : logi  NA NA NA NA NA NA ...
##  $ Confidentiality.status..flag.         : logi  NA NA NA NA NA NA ...

str(onlinelearning)

## 'data.frame':    182 obs. of  21 variables:
##  $ STRUCTURE                             : chr  "dataflow" "dataflow" "dataflow" "dataflow" ...
##  $ STRUCTURE_ID                          : chr  "ESTAT:ISOC_CI_AC_I(1.0)" "ESTAT:ISOC_CI_AC_I(1.0)" "ESTAT:ISOC_CI_AC_I(1.0)" "ESTAT:ISOC_CI_AC_I(1.0)" ...
##  $ STRUCTURE_NAME                        : chr  "Individuals - internet activities" "Individuals - internet activities" "Individuals - internet activities" "Individuals - internet activities" ...
##  $ freq                                  : chr  "A" "A" "A" "A" ...
##  $ Time.frequency                        : chr  "Annual" "Annual" "Annual" "Annual" ...
##  $ indic_is                              : chr  "I_IUOLANY" "I_IUOLANY" "I_IUOLANY" "I_IUOLANY" ...
##  $ Information.society.indicator         : chr  "Internet use: doing an online course (of any subject) or using online learning material" "Internet use: doing an online course (of any subject) or using online learning material" "Internet use: doing an online course (of any subject) or using online learning material" "Internet use: doing an online course (of any subject) or using online learning material" ...
##  $ unit                                  : chr  "PC_IND" "PC_IND" "PC_IND" "PC_IND" ...
##  $ Unit.of.measure                       : chr  "Percentage of individuals" "Percentage of individuals" "Percentage of individuals" "Percentage of individuals" ...
##  $ ind_type                              : chr  "IND_TOTAL" "IND_TOTAL" "IND_TOTAL" "IND_TOTAL" ...
##  $ Individual.type                       : chr  "All individuals" "All individuals" "All individuals" "All individuals" ...
##  $ geo                                   : chr  "AL" "AL" "AL" "AL" ...
##  $ Geopolitical.entity..reporting.       : chr  "Albania" "Albania" "Albania" "Albania" ...
##  $ TIME_PERIOD                           : int  2020 2021 2022 2023 2024 2020 2021 2022 2023 2024 ...
##  $ Time                                  : logi  NA NA NA NA NA NA ...
##  $ OBS_VALUE                             : num  28.77 9.73 11.05 13.37 14.83 ...
##  $ Observation.value                     : logi  NA NA NA NA NA NA ...
##  $ OBS_FLAG                              : chr  "" "" "" "" ...
##  $ Observation.status..Flag..V2.structure: chr  "" "" "" "" ...
##  $ CONF_STATUS                           : logi  NA NA NA NA NA NA ...
##  $ Confidentiality.status..flag.         : logi  NA NA NA NA NA NA ...

Von den 21 Variablen (Spalten) benötige ich im weiteren Verlauf nur drei: Land, Jahr und prozentualer Anteil der Bevölkerung. Die Datentypen chr, int und num können beibehalten werden.

Datenbereinigung

Es wird ein neuer Datensatz erstellt, aus dem die überflüssigen Spalten entfernt und die notwendigen Spalten umbenannt werden. Hier wird auch bereits nach dem zu betrachtenden Jahr (2023) gefiltert.

digitalskills_2023 <- digitalskills %>%
  select("Geopolitical.entity..reporting.", "TIME_PERIOD", "OBS_VALUE") %>%
  rename(country = "Geopolitical.entity..reporting.", year = "TIME_PERIOD", skills_score = "OBS_VALUE") %>%
  filter(year == 2023)

Die Spalte “skills_score” gibt den Anteil der Bevölkerung des Landes an, die im ausgewählten Jahr über mehr als grundlegende allgemeine digitale Fähigkeiten verfügt (Individuals with above basic overall digital skills - all five component indicators are at above basic level):

• Information and data literacy skills
• Communication and collaboration skills
• Digital Content creation skills
• Safety skills
• Problem solving skills

Kurz das Zwischenergebnis prüfen:

head(digitalskills_2023)

##                  country year skills_score
## 1                Albania 2023         7.77
## 2                Austria 2023        32.04
## 3 Bosnia and Herzegovina 2023         6.88
## 4                Belgium 2023        28.26
## 5               Bulgaria 2023         7.73
## 6            Switzerland 2023        42.69

Dieselbe Bereinigung für den zweiten Datensatz:

onlinelearning_2023 <- onlinelearning %>%
  select("Geopolitical.entity..reporting.", "TIME_PERIOD", "OBS_VALUE") %>%
  rename(country = "Geopolitical.entity..reporting.", year = "TIME_PERIOD", learning_score = "OBS_VALUE") %>%
  filter(year == 2023)

Die Spalte “learning_score” gibt den Anteil der Bevölkerung des Landes an, die im ausgewählten Jahr angegeben hat, einen Online-Kurs absolviert oder Online-Lernmaterial genutzt zu haben (doing an online course (of any subject) or using online learning material).

Kurz das Zwischenergebnis prüfen:

head(onlinelearning_2023)

##                  country year learning_score
## 1                Albania 2023          13.37
## 2                Austria 2023          26.77
## 3 Bosnia and Herzegovina 2023          21.33
## 4                Belgium 2023          30.62
## 5               Bulgaria 2023          13.46
## 6            Switzerland 2023          36.46

Daten zusammenführen

Die beiden Datensätze stammen von der selben Quelle, weshalb die Spaltennamen und Erhebungsbedingungen übereinstimmen. Ein Datenabgleich mit inner_join oder anti_join ist nicht zwingend notwendig, da die Datensätze mit 36 Zeilen überschaubar sind.

data_2023 <- inner_join(digitalskills_2023, onlinelearning_2023, by = "country") %>%
  select("country", "skills_score", "learning_score")

Damit die Spalte “year” nicht doppelt als “year.x” und “year.y” angezeigt wird (da in beiden Datensätzen vorhanden), werden mit select nur die relevanten 3 Spalten “country”, “skills_score” und “learning_score” ausgewählt.

Den zusammengeführten Datensatz prüfen:

head(data_2023)

##                  country skills_score learning_score
## 1                Albania         7.77          13.37
## 2                Austria        32.04          26.77
## 3 Bosnia and Herzegovina         6.88          21.33
## 4                Belgium        28.26          30.62
## 5               Bulgaria         7.73          13.46
## 6            Switzerland        42.69          36.46

Der zusammengeführte Datensatz zeigt nun die prozentualen Anteile der Bevölkerung in den europäischen Ländern, die im Jahr 2023 ausgeprägtere digitale Kompetenzen aufweisen sowie die jeweiligen prozentualen Anteile, die Online-Lernaktivitäten nutzen.

Zum Beispiel:
Wie viel Prozent der Menschen in Albanien sind 2023 ausgeprägt digital kompetent, und wie viel Prozent der Bevölkerung nutzen Online-Lernaktivitäten.

2. Deskriptive Statistik

Einen ersten Überblick verschaffen:

summary(data_2023)

##    country           skills_score   learning_score 
##  Length:36          Min.   : 6.88   Min.   : 9.19  
##  Class :character   1st Qu.:19.56   1st Qu.:21.01  
##  Mode  :character   Median :27.59   Median :27.43  
##                     Mean   :27.19   Mean   :28.99  
##                     3rd Qu.:35.74   3rd Qu.:37.24  
##                     Max.   :54.53   Max.   :53.68

Im Datensatz werden 36 Länder gelistet, wobei zwei davon genaugenommen Ländergruppen darstellen (Euro area und European Union).

Digitale Kompetenzen (skills_score):
• Bei den digitalen Kompetenzen zeigt sich eine gleichmäßige Verteilung um den Mittelwert von 27,2% (Mean - Durchschnitt aller Länder)
• Der Median liegt bei 27,6% (50% der Länder erreichen ≤ 27,6%)
• Das 1. Quartil liegt bei 19,6% (25% der Länder erreichen ≤ 19,6%) und das 3. Quartil bei 35,7 (75% der Länder erreichen ≤ 35,7%).
• Die Werte reichen von 6,9% (Minimum) bis 54,5% (Maximum): deutliche Streuung und teils große Unterschiede zwischen den Ländern

Online-Lernaktivitäten (learning_score):
• Die Nutzung von Online-Lernaktivitäten liegt im Mittel bei 29% (Mean - Durchschnitt aller Länder)
• Der Median liegt bei 27,4% (50% der Länder erreichen ≤ 27,4%)
• Das 1. Quartil liegt bei 21% (25% der Länder erreichen ≤ 21%) und das 3. Quartil bei 37,2 (75% der Länder erreichen ≤ 37,2%)
• Die Werte reichen von 9,2% (Minimum) bis 53,7% (Maximum): ebenfalls breite Streuung und Unterschiede zwischen den Ländern
• Im Vergleich zu den digitalen Kompetenzen ist das Niveau der Lernaktivitätsnutzung etwas höher, die Verteilung aber ähnlich breit.

Standardabweichung:

sd(data_2023$skills_score)

## [1] 12.94329

Die Standardabweichung bei den digitalen Kompetenzen liegt bei 12,9%, d.h. die Länder weichen im Schnitt um ca. 13% vom Mittelwert ab.

sd(data_2023$learning_score)

## [1] 11.92936

Die Standardabweichung bei den Online-Lernaktivitäten liegt bei 11,9%, d.h. die Länder weichen im Schnitt um ca. 12% vom Mittelwert ab.

Histogramme zur visuellen Prüfung der Verteilung:

hist(data_2023$skills_score, col="lightblue", main="Verteilung der digitalen Kompetenzen", xlab="skills_score")

Hier sieht man eine Lücke zwischen 45% und 50%, sowie leichte Peaks im niedrigen und hohen Bereich (leicht bimodal). Es ist keine Schiefe zu erkennen, sondern sieht relativ normalverteilt aus.

hist(data_2023$learning_score, col="lightblue", main="Verteilung der Online-Lernaktivitäten", xlab="learning_score")

Hier sieht man keine Lücken, nur einen Peak im niedrigeren Bereich (nicht bimodal). Die Verteilung wirkt daher ein wenig rechtsschief (mehr niedrige, als hohe Werte), ist aber auch relativ normalverteilt.

Die Top 5-Länder mit ausgeprägten und niedrigen digitalen Kompetenzen:

data_2023 %>% arrange(desc(skills_score)) %>% select(country, skills_score) %>% head(5)

##       country skills_score
## 1 Netherlands        54.53
## 2     Finland        53.63
## 3      Norway        50.71
## 4     Ireland        43.82
## 5 Switzerland        42.69

data_2023 %>% arrange(skills_score) %>% select(country, skills_score) %>% head(5)

##                  country skills_score
## 1 Bosnia and Herzegovina         6.88
## 2               Bulgaria         7.73
## 3                Albania         7.77
## 4                Romania         8.97
## 5             Montenegro        10.55

Die Top-5-Auswertung der Länder ist wenig überraschend, da die ersten Plätze von Ländern belegt werden, die im Bildungs- und Digitalisierungskontext häufig positiv auffallen und die letzten Plätze von Balkanstaaten besetzt sind. Auffallend ist der sehr große Abstand zwischen dem ersten und letzten Platz, der sich bereits in der Übersicht oben gezeigt hat.

Die Top 5-Länder mit hohen und niedrigen Online-Lernaktivitäten:

data_2023 %>% arrange(desc(learning_score)) %>% select(country, learning_score) %>% head(5)

##       country learning_score
## 1 Netherlands          53.68
## 2     Finland          51.75
## 3      Sweden          46.81
## 4      Norway          46.47
## 5       Spain          45.16

data_2023 %>% arrange(learning_score) %>% select(country, learning_score) %>% head(5)

##    country learning_score
## 1  Romania           9.19
## 2  Türkiye          11.36
## 3  Albania          13.37
## 4 Bulgaria          13.46
## 5   Greece          14.06

Bei den Online-Lernaktivitäten zeigt sich eine etwas andere Verteilung, jedoch sind auch hier die skandinavischen Länder auf den ersten Plätzen zu finden. Spanien sticht auf Platz 5 heraus, was aber wenig überraschend ist. Dagegen hätte ich Griechenland nicht auf einem so niedrigen Platz erwartet.
Die Auflistungen deuten bereits auf einen Zusammenhang zwischen den beiden Variablen hin.

3. Korrelationsanalyse

Scatterplot mit Regressionsgerade

Die lineare Beziehung mit einem Streudiagramm prüfen:

ggplot(data_2023, aes(x = skills_score, y = learning_score)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(
    title = "Zusammenhang: Digitale Kompetenzen und Online-Lernaktivitäten",
    x = "Digitale Kompetenzen in %",
    y = "Online-Lernaktivitäten in %"
  )

## `geom_smooth()` using formula = 'y ~ x'

Die Punktwolke im Diagramm zeigt einen positiven linearen Trend zwischen der digitalen Kompetenz sowie den Online-Lernaktivitäten. Die Streuung ist deutlich sichtbar, da die Punkte nicht sehr eng an der Regressionslinie angesiedelt sind, der Zusammenhang ist aber erkennbar. Die Verteilung wirkt insgesamt annähernd linear ohne klare Ausreißer, weshalb die Pearson-Korrelation analysiert werden kann.

Normalverteilung prüfen

Die Normalverteilung der beiden Variablen mit einem QQ-Plot prüfen:

qqnorm(data_2023$skills_score, main="QQ-Plot: Digitale Kompetenzen"); qqline(data_2023$skills_score, col="red")

qqnorm(data_2023$learning_score, main="QQ-Plot: Online-Lernaktivitäten"); qqline(data_2023$learning_score, col="red")

Beide Daten sind annährernd normalverteilt.

Shapiro-Wilk-Test mit beiden Variablen durchführen:

shapiro.test(data_2023$skills_score)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_2023$skills_score
## W = 0.96522, p-value = 0.3097

Der p-Wert ist größer als 0.05, die Annahme der Normalverteilung der digitalen Kompetenzen kann also beibehalten werden.

shapiro.test(data_2023$learning_score)

## 
##  Shapiro-Wilk normality test
## 
## data:  data_2023$learning_score
## W = 0.96173, p-value = 0.243

Der p-Wert ist größer als 0.05, die Annahme der Normalverteilung der Online-Lernaktivitäten kann daher ebenfalls beibehalten werden.

Boxplot

Zur Erkennung von Ausreißern und Quartilen:

boxplot(data_2023$skills_score, data_2023$learning_score,
        names = c("skills_score", "learning_score"),
        col = c("lightblue", "lightgreen"),
        main = "Boxplots im Vergleich",
        ylab = "Prozent")

Es gibt keine Ausreißer, die beiden Variablen sind sehr ähnlich verteilt.

Zur Sicherheit / Zum Verständnis nochmal prüfen:

boxplot.stats(data_2023$skills_score)$out

## numeric(0)

boxplot.stats(data_2023$learning_score)$out

## numeric(0)

Es gibt wirklich keine Werte, die unterhalb von Q1 − 1.5 × IQR oder oberhalb von Q3 + 1.5 × IQR liegen (1,5-Facher Interquartilsabstand).

Pearson-Korrelation

cor.test(data_2023$skills_score, data_2023$learning_score, method="pearson")

## 
##  Pearson's product-moment correlation
## 
## data:  data_2023$skills_score and data_2023$learning_score
## t = 9.791, df = 34, p-value = 1.998e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7393369 0.9262589
## sample estimates:
##       cor 
## 0.8591792

Die Pearson-Korrelation ergibt einen Korrelationskoeffizienten r = 0,86 und p = 0,00000000001998 (also extrem klein, p > 0.05).
• Das bedeutet es besteht ein starker positiver Zusammenhang, der hoch signifikant, d.h. kein Zufall ist
• Mit 95% Sicherheit (Konfidenzintervall) kann gesagt werden, dass die Korrelation zwischen 0,739 und 0,926 liegt
• Der t-Wert ist mit 9,791 ebenfalls hoch, was darauf deutet, dass der Zusammenhang statistisch bedeutsam ist

4. Regressionsanalyse

Je mehr Online-Lernaktivität, desto mehr digitale Kompetenz?

Die digitale Kompetenz ist hier die unabhängige Variable, deren Zusammenhang mit den Online-Lernaktivitäten als abhängige Variable untersucht wird.

Residuen berechnen:

modell <- lm(skills_score ~ learning_score, data = data_2023)
residuen <- residuals(modell)

  plot(data_2023$learning_score, residuen, col="lightblue",
  main="Residuen vs. Online-Lernaktivitäten", xlab="learning_score", ylab="Residuen", pch=19)
  abline(h=0, col="red", lwd=2, lty=2)

Der Plot zeigt eine zufällige Streuung um die rote Nulllinie, die Linearitätsannahme ist somit erfüllt.

Normalverteilung der Residuen:

qqnorm(residuen, main="QQ-Plot der Residuen", pch=19, col="lightblue")
qqline(residuen, col="red", lwd=2)

Die Residuen sind annähernd normalverteilt.

Shapiro-Wilk-Test zur Überprüfung:

shapiro.test(residuen)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuen
## W = 0.96683, p-value = 0.3453

Die Residuen sind mit einem p-Wert von 0,35 > 0,05 und somit wirklich normalverteilt.

Boxplot der Residuen:

boxplot(residuen, main="Boxplot der Residuen", col="lightblue", horizontal=TRUE)

Es gibt keine Ausreißer, alle Residuen liegen innerhalb der Box.

Regressionsmodell:

modell <- lm(skills_score ~ learning_score, data = data_2023)
summary(modell)

## 
## Call:
## lm(formula = skills_score ~ learning_score, data = data_2023)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -13.1745  -4.3197   0.2236   5.5486  11.3191 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     0.17054    2.97853   0.057    0.955    
## learning_score  0.93220    0.09521   9.791    2e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.719 on 34 degrees of freedom
## Multiple R-squared:  0.7382, Adjusted R-squared:  0.7305 
## F-statistic: 95.86 on 1 and 34 DF,  p-value: 1.998e-11

Ein Anstieg der Online-Lernaktivität um 1%-Punkt geht mit einem durchschnittlichen Anstieg der digitalen Kompetenzen um 0,93%-Punkte (Schätzwert - Estimate) einher. Der hohe t-Wert von 9,791 und der sehr geringe p-Wert (< 0,001) zeigen, dass der Zusammenhang hoch signifikant ist.

Güte des Modells:
R² (Bestimmtheitsmaß) = 0,7382, also 73,82% der Schwankungen in den digitalen Kompetenzen werden durch die Variable learning_score erklärt. Adjustet R² = 0,7305, also sehr ähnlich zu R², bedeutet das Modell ist gut.

Ergebnis:
Das Modell erklärt ca. 73% der Varianz bei den digitalen Kompetenzen und ist ein sehr gutes Modell, jedoch nicht perfekt (R² ≠ 1).

Fazit

Es besteht 2023 in Europa ein statistisch hoch siginifikanter Zusammenhang zwischen der Anzahl an Personen mit ausgeprägten digitalen Kompetenzen und der Anzahl an Personen, die Online-Lernaktivitäten nutzen. Die Hypothese kann somit bestätigt werden: Je höher die digitalen Kompetenzen der Bevölkerung, desto höher deren Online-Lernaktivitäten.

Weitere Einflussfaktoren wie die digitale Infrastruktur der Länder, das allgemeine Bildungsniveau oder staatliche Förderprogramme wurden hier jedoch nicht einbezogen, könnten aber für eine weitere Analyse relevant sein.

Stand: 20.07.2025