Témou projektu je analýza úrovne inovácií, priemyslu, infraštruktúry a udržateľného rozvoja v krajinách Európskej únie. Analýza vychádza z verejne dostupných údajov databázy Eurostat.
Hlavným cieľom projektu je analyzovať rozdiely medzi krajinami EÚ v oblasti inovácií, výskumu, infraštruktúry a udržateľného priemyselného rozvoja.
Čiastkové ciele:
Dáta pochádzajú z databázy Eurostat. Analyzovaných bolo 27 krajín Európskej únie.
Použité premenné:
variables <- data.frame(
Premenna = names(data)[2:8],
Popis = c(
"Výdavky na výskum a vývoj ako % HDP",
"Počet patentových prihlášok na EPO",
"Podiel železničnej a vodnej dopravy",
"Emisná intenzita výroby",
"Hrubá pridaná hodnota environmentálneho sektora",
"Pokrytie vysokorýchlostným internetom",
"Zamestnanosť v high-tech sektoroch"
)
)
kable(variables, caption = "Použité premenné v analýze")
| Premenna | Popis |
|---|---|
| RD_pct_GDP | Výdavky na výskum a vývoj ako % HDP |
| Patents_EPO | Počet patentových prihlášok na EPO |
| Freight_rail_water_pct | Podiel železničnej a vodnej dopravy |
| Emission_intensity_manufacturing | Emisná intenzita výroby |
| EnvGoods_GVA_million_EUR | Hrubá pridaná hodnota environmentálneho sektora |
| HighSpeedInternet_pct | Pokrytie vysokorýchlostným internetom |
| HighTechEmployment_pct | Zamestnanosť v high-tech sektoroch |
Pred začatím analýzy boli dáta skontrolované z hľadiska chýbajúcich hodnôt.
| Premenna | Pocet_chybajucich | |
|---|---|---|
| Country | Country | 0 |
| RD_pct_GDP | RD_pct_GDP | 0 |
| Patents_EPO | Patents_EPO | 0 |
| Freight_rail_water_pct | Freight_rail_water_pct | 0 |
| Emission_intensity_manufacturing | Emission_intensity_manufacturing | 0 |
| EnvGoods_GVA_million_EUR | EnvGoods_GVA_million_EUR | 0 |
| HighSpeedInternet_pct | HighSpeedInternet_pct | 0 |
| HighTechEmployment_pct | HighTechEmployment_pct | 0 |
V dátach nebol identifikovaný významný výskyt chýbajúcich hodnôt. Dáta boli preto vhodné na ďalšiu analýzu
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| RD_pct_GDP | 1 | 27 | 1.78 | 0.94 | 1.50 | 1.74 | 0.86 | 0.46 | 3.56 | 3.10 | 0.52 | -1.05 | 0.18 |
| Patents_EPO | 2 | 27 | 2550.93 | 5095.16 | 368.00 | 1451.70 | 484.81 | 38.00 | 24476.00 | 24438.00 | 3.08 | 10.02 | 980.56 |
| Freight_rail_water_pct | 3 | 27 | 23.49 | 12.58 | 23.90 | 23.54 | 13.79 | 0.60 | 46.30 | 45.70 | -0.13 | -0.92 | 2.42 |
| Emission_intensity_manufacturing | 4 | 27 | 0.10 | 0.12 | 0.06 | 0.08 | 0.06 | 0.01 | 0.56 | 0.55 | 2.36 | 5.65 | 0.02 |
| EnvGoods_GVA_million_EUR | 5 | 27 | 14538.05 | 21145.91 | 6044.08 | 10584.88 | 7383.79 | 152.93 | 77307.71 | 77154.78 | 1.84 | 2.32 | 4069.53 |
| HighSpeedInternet_pct | 6 | 27 | 82.95 | 13.21 | 86.00 | 84.40 | 12.75 | 46.10 | 100.00 | 53.90 | -0.99 | 0.58 | 2.54 |
| HighTechEmployment_pct | 7 | 27 | 4.87 | 2.73 | 4.20 | 4.77 | 2.37 | 0.60 | 10.80 | 10.20 | 0.57 | -0.56 | 0.52 |
Z deskriptívnej analýzy vyplýva, že medzi krajinami EÚ existujú výrazné rozdiely v sledovaných ukazovateľoch. Najväčšiu variabilitu vykazuje počet patentových prihlášok a hrubá pridaná hodnota environmentálneho sektora.
## Korelačná analýza
| RD_pct_GDP | Patents_EPO | Freight_rail_water_pct | Emission_intensity_manufacturing | EnvGoods_GVA_million_EUR | HighSpeedInternet_pct | HighTechEmployment_pct | |
|---|---|---|---|---|---|---|---|
| RD_pct_GDP | 1.00 | 0.49 | -0.10 | -0.27 | 0.37 | -0.01 | 0.25 |
| Patents_EPO | 0.49 | 1.00 | 0.00 | -0.26 | 0.83 | 0.04 | 0.26 |
| Freight_rail_water_pct | -0.10 | 0.00 | 1.00 | -0.01 | -0.17 | 0.13 | 0.19 |
| Emission_intensity_manufacturing | -0.27 | -0.26 | -0.01 | 1.00 | -0.24 | -0.04 | -0.32 |
| EnvGoods_GVA_million_EUR | 0.37 | 0.83 | -0.17 | -0.24 | 1.00 | -0.04 | 0.25 |
| HighSpeedInternet_pct | -0.01 | 0.04 | 0.13 | -0.04 | -0.04 | 1.00 | -0.27 |
| HighTechEmployment_pct | 0.25 | 0.26 | 0.19 | -0.32 | 0.25 | -0.27 | 1.00 |
Korelačná analýza preukázala silnú pozitívnu závislosť medzi počtom patentových prihlášok a hrubou pridanou hodnotou environmentálneho sektora. Stredne silná pozitívna korelácia bola identifikovaná medzi výdavkami na výskum a vývoj a počtom patentových prihlášok.
Keďže premenné boli vyjadrené v rôznych jednotkách, pred použitím viacrozmerných metód boli štandardizované pomocou Z-skóre.
| RD_pct_GDP | Patents_EPO | Freight_rail_water_pct | Emission_intensity_manufacturing | EnvGoods_GVA_million_EUR | HighSpeedInternet_pct | HighTechEmployment_pct |
|---|---|---|---|---|---|---|
| 1.58 | -0.06 | 0.69 | -0.66 | 0.26 | -0.81 | 0.45 |
| 1.68 | 0.00 | -0.12 | -0.41 | -0.23 | 0.82 | -0.25 |
| -1.07 | -0.49 | 1.30 | 0.57 | -0.62 | 0.56 | -0.47 |
| -0.45 | -0.49 | 0.40 | 0.33 | -0.63 | -0.31 | -0.39 |
| -1.20 | -0.49 | 0.03 | 0.74 | -0.66 | 0.47 | -1.53 |
| 0.05 | -0.45 | -0.17 | -0.66 | -0.37 | -2.20 | 2.17 |
Normalita dát
Normalita dát bola orientačne overená pomocou histogramov a QQ grafov. Pri väčšine premenných neboli identifikované závažné odchýlky od normality.
hist(data$RD_pct_GDP,
main = "Histogram RD_pct_GDP",
xlab = "RD_pct_GDP")
qqnorm(data$RD_pct_GDP,
main = "QQ plot RD_pct_GDP")
qqline(data$RD_pct_GDP)
## PCA analýza
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 1.5783 1.1118 1.0744 0.9260 0.81278 0.68347 0.36488
## Proportion of Variance 0.3559 0.1766 0.1649 0.1225 0.09437 0.06673 0.01902
## Cumulative Proportion 0.3559 0.5325 0.6974 0.8199 0.91425 0.98098 1.00000
| PC1 | PC2 | PC3 | PC4 | PC5 | PC6 | PC7 | |
|---|---|---|---|---|---|---|---|
| RD_pct_GDP | 0.43 | 0.08 | 0.02 | -0.20 | -0.86 | -0.10 | -0.16 |
| Patents_EPO | 0.55 | 0.20 | 0.12 | 0.32 | 0.11 | -0.13 | 0.71 |
| Freight_rail_water_pct | -0.05 | -0.55 | 0.58 | 0.43 | -0.09 | -0.38 | -0.16 |
| Emission_intensity_manufacturing | -0.33 | 0.25 | -0.18 | 0.74 | -0.35 | 0.34 | 0.00 |
| EnvGoods_GVA_million_EUR | 0.53 | 0.27 | -0.04 | 0.30 | 0.34 | 0.01 | -0.66 |
| HighSpeedInternet_pct | -0.06 | 0.36 | 0.78 | -0.17 | 0.01 | 0.48 | -0.02 |
| HighTechEmployment_pct | 0.33 | -0.62 | -0.11 | 0.02 | 0.01 | 0.70 | 0.05 |
Analýza hlavných komponent ukázala, že prvá hlavná komponenta vysvetľuje 35,59 % variability dát. Prvé dve komponenty spolu vysvetľujú 53,25 % variability a prvé štyri komponenty vysvetľujú 81,99 % variability.
## Parallel analysis suggests that the number of factors = 1 and the number of components = 1
Paralelná analýza odporučila ponechať jeden faktor.
## Factor Analysis using method = minres
## Call: fa(r = data_scaled, nfactors = 1, rotate = "none")
## Standardized loadings (pattern matrix) based upon correlation matrix
## MR1 h2 u2 com
## RD_pct_GDP 0.53 0.2795 0.72 1
## Patents_EPO 0.93 0.8683 0.13 1
## Freight_rail_water_pct -0.06 0.0035 1.00 1
## Emission_intensity_manufacturing -0.36 0.1267 0.87 1
## EnvGoods_GVA_million_EUR 0.82 0.6714 0.33 1
## HighSpeedInternet_pct -0.05 0.0021 1.00 1
## HighTechEmployment_pct 0.36 0.1262 0.87 1
##
## MR1
## SS loadings 2.08
## Proportion Var 0.30
##
## Mean item complexity = 1
## Test of the hypothesis that 1 factor is sufficient.
##
## df null model = 21 with the objective function = 2.08 with Chi Square = 47.44
## df of the model are 14 and the objective function was 0.54
##
## The root mean square of the residuals (RMSR) is 0.11
## The df corrected root mean square of the residuals is 0.13
##
## The harmonic n.obs is 27 with the empirical chi square 6.37 with prob < 0.96
## The total n.obs was 27 with Likelihood Chi Square = 12.07 with prob < 0.6
##
## Tucker Lewis Index of factoring reliability = 1.116
## RMSEA index = 0 and the 90 % confidence intervals are 0 0.166
## BIC = -34.08
## Fit based upon off diagonal values = 0.86
## Measures of factor score adequacy
## MR1
## Correlation of (regression) scores with factors 0.95
## Multiple R square of scores with factors 0.90
## Minimum correlation of possible factor scores 0.81
Najvyššie faktorové zaťaženia dosiahli premenné počet patentových prihlášok, hrubá pridaná hodnota environmentálneho sektora a výdavky na výskum a vývoj.
| Country | Cluster |
|---|---|
| Austria | 1 |
| Belgium | 1 |
| Bulgaria | 1 |
| Croatia | 1 |
| Cyprus | 1 |
| Estonia | 1 |
| Finland | 1 |
| Latvia | 1 |
| Lithuania | 1 |
| Luxembourg | 1 |
| Malta | 1 |
| Netherlands | 1 |
| Poland | 1 |
| Portugal | 1 |
| Romania | 1 |
| Sweden | 1 |
| Czechia | 2 |
| Denmark | 2 |
| France | 2 |
| Greece | 2 |
| Hungary | 2 |
| Ireland | 2 |
| Italy | 2 |
| Slovakia | 2 |
| Slovenia | 2 |
| Spain | 2 |
| Germany | 3 |
| clusters | Freq |
|---|---|
| 1 | 16 |
| 2 | 10 |
| 3 | 1 |
Zhluková analýza rozdelila krajiny EÚ do troch skupín. Prvý zhluk obsahoval 16 krajín, druhý zhluk 10 krajín a tretí zhluk tvorilo samostatne Nemecko. Nemecko sa výrazne odlišovalo od ostatných krajín najmä vysokou patentovou aktivitou a ekonomickou výkonnosťou.
Závislou premennou bol počet patentových prihlášok na Európsky patentový úrad.
model <- lm(
Patents_EPO ~ RD_pct_GDP +
Freight_rail_water_pct +
Emission_intensity_manufacturing +
EnvGoods_GVA_million_EUR +
HighSpeedInternet_pct +
HighTechEmployment_pct,
data = data
)
reg_results <- data.frame(
R_squared = round(summary(model)$r.squared, 4),
Adjusted_R_squared = round(summary(model)$adj.r.squared, 4),
F_statistic = round(summary(model)$fstatistic[1], 2)
)
kable(reg_results,
caption = "Výsledky regresného modelu")
| R_squared | Adjusted_R_squared | F_statistic | |
|---|---|---|---|
| value | 0.7595 | 0.6874 | 10.53 |
Regresný model bol štatisticky významný. Hodnota Multiple R-squared bola 0,7595, čo znamená, že model vysvetľuje približne 76 % variability počtu patentových prihlášok medzi krajinami EÚ. Najvýznamnejším faktorom bola hrubá pridaná hodnota environmentálneho sektora.
plot(
data$EnvGoods_GVA_million_EUR,
data$Patents_EPO,
xlab = "EnvGoods GVA",
ylab = "Patents EPO",
main = "Vzťah medzi environmentálnym sektorom a patentmi"
)
abline(
lm(Patents_EPO ~ EnvGoods_GVA_million_EUR, data=data),
col="red",
lwd=2
)
Na základe vykonaných analýz možno konštatovať, že medzi krajinami Európskej únie existujú výrazné rozdiely v oblasti inovácií, výskumu, technologického rozvoja a udržateľnej infraštruktúry.
PCA a faktorová analýza ukázali, že hlavná dimenzia rozdielov medzi krajinami súvisí najmä s inovačnou a ekonomickou výkonnosťou. Zhluková analýza identifikovala Nemecko ako samostatného lídra. Regresná analýza potvrdila významný vzťah medzi environmentálnym ekonomickým sektorom a patentovou aktivitou.
Odporúčania:
podporovať investície do výskumu a vývoja,
rozvíjať environmentálne technológie,
zvyšovať podporu high-tech sektorov,
zlepšovať digitálnu a dopravnú infraštruktúru,
podporovať krajiny s nižšou inovačnou výkonnosťou.
Multivariate Data Analysis. Pearson Education.
Principal Component Analysis. Springer.
Discovering Statistics Using R. Sage Publications.