1 Úvod

Témou projektu je analýza úrovne inovácií, priemyslu, infraštruktúry a udržateľného rozvoja v krajinách Európskej únie. Analýza vychádza z verejne dostupných údajov databázy Eurostat.

2 Cieľ projektu

Hlavným cieľom projektu je analyzovať rozdiely medzi krajinami EÚ v oblasti inovácií, výskumu, infraštruktúry a udržateľného priemyselného rozvoja.

Čiastkové ciele:

  • opísať základné charakteristiky sledovaných premenných,
  • preskúmať korelačné vzťahy medzi premennými,
  • identifikovať hlavné dimenzie dát pomocou PCA,
  • vykonať faktorovú analýzu,
  • rozdeliť krajiny do zhlukov,
  • zistiť faktory ovplyvňujúce počet patentových prihlášok.

3 Zdroj dát

Dáta pochádzajú z databázy Eurostat. Analyzovaných bolo 27 krajín Európskej únie.

Použité premenné:

variables <- data.frame(

  Premenna = names(data)[2:8],

  Popis = c(

    "Výdavky na výskum a vývoj ako % HDP",

    "Počet patentových prihlášok na EPO",

    "Podiel železničnej a vodnej dopravy",

    "Emisná intenzita výroby",

    "Hrubá pridaná hodnota environmentálneho sektora",

    "Pokrytie vysokorýchlostným internetom",

    "Zamestnanosť v high-tech sektoroch"

  )

)

kable(variables, caption = "Použité premenné v analýze")
Použité premenné v analýze
Premenna Popis
RD_pct_GDP Výdavky na výskum a vývoj ako % HDP
Patents_EPO Počet patentových prihlášok na EPO
Freight_rail_water_pct Podiel železničnej a vodnej dopravy
Emission_intensity_manufacturing Emisná intenzita výroby
EnvGoods_GVA_million_EUR Hrubá pridaná hodnota environmentálneho sektora
HighSpeedInternet_pct Pokrytie vysokorýchlostným internetom
HighTechEmployment_pct Zamestnanosť v high-tech sektoroch

4 Analýza chýbajúcich dát

Pred začatím analýzy boli dáta skontrolované z hľadiska chýbajúcich hodnôt.

Analýza chýbajúcich hodnôt
Premenna Pocet_chybajucich
Country Country 0
RD_pct_GDP RD_pct_GDP 0
Patents_EPO Patents_EPO 0
Freight_rail_water_pct Freight_rail_water_pct 0
Emission_intensity_manufacturing Emission_intensity_manufacturing 0
EnvGoods_GVA_million_EUR EnvGoods_GVA_million_EUR 0
HighSpeedInternet_pct HighSpeedInternet_pct 0
HighTechEmployment_pct HighTechEmployment_pct 0

V dátach nebol identifikovaný významný výskyt chýbajúcich hodnôt. Dáta boli preto vhodné na ďalšiu analýzu

5 Deskriptívna štatistika

Deskriptívna štatistika premenných
vars n mean sd median trimmed mad min max range skew kurtosis se
RD_pct_GDP 1 27 1.78 0.94 1.50 1.74 0.86 0.46 3.56 3.10 0.52 -1.05 0.18
Patents_EPO 2 27 2550.93 5095.16 368.00 1451.70 484.81 38.00 24476.00 24438.00 3.08 10.02 980.56
Freight_rail_water_pct 3 27 23.49 12.58 23.90 23.54 13.79 0.60 46.30 45.70 -0.13 -0.92 2.42
Emission_intensity_manufacturing 4 27 0.10 0.12 0.06 0.08 0.06 0.01 0.56 0.55 2.36 5.65 0.02
EnvGoods_GVA_million_EUR 5 27 14538.05 21145.91 6044.08 10584.88 7383.79 152.93 77307.71 77154.78 1.84 2.32 4069.53
HighSpeedInternet_pct 6 27 82.95 13.21 86.00 84.40 12.75 46.10 100.00 53.90 -0.99 0.58 2.54
HighTechEmployment_pct 7 27 4.87 2.73 4.20 4.77 2.37 0.60 10.80 10.20 0.57 -0.56 0.52

Z deskriptívnej analýzy vyplýva, že medzi krajinami EÚ existujú výrazné rozdiely v sledovaných ukazovateľoch. Najväčšiu variabilitu vykazuje počet patentových prihlášok a hrubá pridaná hodnota environmentálneho sektora.

6 Grafické zobrazenie dát

## Korelačná analýza

Korelačná matica
RD_pct_GDP Patents_EPO Freight_rail_water_pct Emission_intensity_manufacturing EnvGoods_GVA_million_EUR HighSpeedInternet_pct HighTechEmployment_pct
RD_pct_GDP 1.00 0.49 -0.10 -0.27 0.37 -0.01 0.25
Patents_EPO 0.49 1.00 0.00 -0.26 0.83 0.04 0.26
Freight_rail_water_pct -0.10 0.00 1.00 -0.01 -0.17 0.13 0.19
Emission_intensity_manufacturing -0.27 -0.26 -0.01 1.00 -0.24 -0.04 -0.32
EnvGoods_GVA_million_EUR 0.37 0.83 -0.17 -0.24 1.00 -0.04 0.25
HighSpeedInternet_pct -0.01 0.04 0.13 -0.04 -0.04 1.00 -0.27
HighTechEmployment_pct 0.25 0.26 0.19 -0.32 0.25 -0.27 1.00

Korelačná analýza preukázala silnú pozitívnu závislosť medzi počtom patentových prihlášok a hrubou pridanou hodnotou environmentálneho sektora. Stredne silná pozitívna korelácia bola identifikovaná medzi výdavkami na výskum a vývoj a počtom patentových prihlášok.

7 Transformácia dát

Keďže premenné boli vyjadrené v rôznych jednotkách, pred použitím viacrozmerných metód boli štandardizované pomocou Z-skóre.

Ukážka štandardizovaných dát
RD_pct_GDP Patents_EPO Freight_rail_water_pct Emission_intensity_manufacturing EnvGoods_GVA_million_EUR HighSpeedInternet_pct HighTechEmployment_pct
1.58 -0.06 0.69 -0.66 0.26 -0.81 0.45
1.68 0.00 -0.12 -0.41 -0.23 0.82 -0.25
-1.07 -0.49 1.30 0.57 -0.62 0.56 -0.47
-0.45 -0.49 0.40 0.33 -0.63 -0.31 -0.39
-1.20 -0.49 0.03 0.74 -0.66 0.47 -1.53
0.05 -0.45 -0.17 -0.66 -0.37 -2.20 2.17

Normalita dát

Normalita dát bola orientačne overená pomocou histogramov a QQ grafov. Pri väčšine premenných neboli identifikované závažné odchýlky od normality.

hist(data$RD_pct_GDP,

     main = "Histogram RD_pct_GDP",

     xlab = "RD_pct_GDP")

qqnorm(data$RD_pct_GDP,

       main = "QQ plot RD_pct_GDP")

qqline(data$RD_pct_GDP)

## PCA analýza

## Importance of components:
##                           PC1    PC2    PC3    PC4     PC5     PC6     PC7
## Standard deviation     1.5783 1.1118 1.0744 0.9260 0.81278 0.68347 0.36488
## Proportion of Variance 0.3559 0.1766 0.1649 0.1225 0.09437 0.06673 0.01902
## Cumulative Proportion  0.3559 0.5325 0.6974 0.8199 0.91425 0.98098 1.00000
Zaťaženia hlavných komponentov
PC1 PC2 PC3 PC4 PC5 PC6 PC7
RD_pct_GDP 0.43 0.08 0.02 -0.20 -0.86 -0.10 -0.16
Patents_EPO 0.55 0.20 0.12 0.32 0.11 -0.13 0.71
Freight_rail_water_pct -0.05 -0.55 0.58 0.43 -0.09 -0.38 -0.16
Emission_intensity_manufacturing -0.33 0.25 -0.18 0.74 -0.35 0.34 0.00
EnvGoods_GVA_million_EUR 0.53 0.27 -0.04 0.30 0.34 0.01 -0.66
HighSpeedInternet_pct -0.06 0.36 0.78 -0.17 0.01 0.48 -0.02
HighTechEmployment_pct 0.33 -0.62 -0.11 0.02 0.01 0.70 0.05

Analýza hlavných komponent ukázala, že prvá hlavná komponenta vysvetľuje 35,59 % variability dát. Prvé dve komponenty spolu vysvetľujú 53,25 % variability a prvé štyri komponenty vysvetľujú 81,99 % variability.

8 Faktorová analýza

## Parallel analysis suggests that the number of factors =  1  and the number of components =  1

Paralelná analýza odporučila ponechať jeden faktor.

## Factor Analysis using method =  minres
## Call: fa(r = data_scaled, nfactors = 1, rotate = "none")
## Standardized loadings (pattern matrix) based upon correlation matrix
##                                    MR1     h2   u2 com
## RD_pct_GDP                        0.53 0.2795 0.72   1
## Patents_EPO                       0.93 0.8683 0.13   1
## Freight_rail_water_pct           -0.06 0.0035 1.00   1
## Emission_intensity_manufacturing -0.36 0.1267 0.87   1
## EnvGoods_GVA_million_EUR          0.82 0.6714 0.33   1
## HighSpeedInternet_pct            -0.05 0.0021 1.00   1
## HighTechEmployment_pct            0.36 0.1262 0.87   1
## 
##                 MR1
## SS loadings    2.08
## Proportion Var 0.30
## 
## Mean item complexity =  1
## Test of the hypothesis that 1 factor is sufficient.
## 
## df null model =  21  with the objective function =  2.08 with Chi Square =  47.44
## df of  the model are 14  and the objective function was  0.54 
## 
## The root mean square of the residuals (RMSR) is  0.11 
## The df corrected root mean square of the residuals is  0.13 
## 
## The harmonic n.obs is  27 with the empirical chi square  6.37  with prob <  0.96 
## The total n.obs was  27  with Likelihood Chi Square =  12.07  with prob <  0.6 
## 
## Tucker Lewis Index of factoring reliability =  1.116
## RMSEA index =  0  and the 90 % confidence intervals are  0 0.166
## BIC =  -34.08
## Fit based upon off diagonal values = 0.86
## Measures of factor score adequacy             
##                                                    MR1
## Correlation of (regression) scores with factors   0.95
## Multiple R square of scores with factors          0.90
## Minimum correlation of possible factor scores     0.81

Najvyššie faktorové zaťaženia dosiahli premenné počet patentových prihlášok, hrubá pridaná hodnota environmentálneho sektora a výdavky na výskum a vývoj.

9 Zhluková analýza

Rozdelenie krajín do zhlukov
Country Cluster
Austria 1
Belgium 1
Bulgaria 1
Croatia 1
Cyprus 1
Estonia 1
Finland 1
Latvia 1
Lithuania 1
Luxembourg 1
Malta 1
Netherlands 1
Poland 1
Portugal 1
Romania 1
Sweden 1
Czechia 2
Denmark 2
France 2
Greece 2
Hungary 2
Ireland 2
Italy 2
Slovakia 2
Slovenia 2
Spain 2
Germany 3
Počet krajín v jednotlivých zhlukoch
clusters Freq
1 16
2 10
3 1

Zhluková analýza rozdelila krajiny EÚ do troch skupín. Prvý zhluk obsahoval 16 krajín, druhý zhluk 10 krajín a tretí zhluk tvorilo samostatne Nemecko. Nemecko sa výrazne odlišovalo od ostatných krajín najmä vysokou patentovou aktivitou a ekonomickou výkonnosťou.

10 Viacrozmerná regresia

Závislou premennou bol počet patentových prihlášok na Európsky patentový úrad.

model <- lm(

  Patents_EPO ~ RD_pct_GDP +

    Freight_rail_water_pct +

    Emission_intensity_manufacturing +

    EnvGoods_GVA_million_EUR +

    HighSpeedInternet_pct +

    HighTechEmployment_pct,

  data = data

)

reg_results <- data.frame(

  R_squared = round(summary(model)$r.squared, 4),

  Adjusted_R_squared = round(summary(model)$adj.r.squared, 4),

  F_statistic = round(summary(model)$fstatistic[1], 2)

)

kable(reg_results,

      caption = "Výsledky regresného modelu")
Výsledky regresného modelu
R_squared Adjusted_R_squared F_statistic
value 0.7595 0.6874 10.53

Regresný model bol štatisticky významný. Hodnota Multiple R-squared bola 0,7595, čo znamená, že model vysvetľuje približne 76 % variability počtu patentových prihlášok medzi krajinami EÚ. Najvýznamnejším faktorom bola hrubá pridaná hodnota environmentálneho sektora.

plot(

  data$EnvGoods_GVA_million_EUR,

  data$Patents_EPO,

  xlab = "EnvGoods GVA",

  ylab = "Patents EPO",

  main = "Vzťah medzi environmentálnym sektorom a patentmi"

)

abline(

  lm(Patents_EPO ~ EnvGoods_GVA_million_EUR, data=data),

  col="red",

  lwd=2

)

11 Záver a odporúčania

Na základe vykonaných analýz možno konštatovať, že medzi krajinami Európskej únie existujú výrazné rozdiely v oblasti inovácií, výskumu, technologického rozvoja a udržateľnej infraštruktúry.

PCA a faktorová analýza ukázali, že hlavná dimenzia rozdielov medzi krajinami súvisí najmä s inovačnou a ekonomickou výkonnosťou. Zhluková analýza identifikovala Nemecko ako samostatného lídra. Regresná analýza potvrdila významný vzťah medzi environmentálnym ekonomickým sektorom a patentovou aktivitou.

Odporúčania:

  • podporovať investície do výskumu a vývoja,

  • rozvíjať environmentálne technológie,

  • zvyšovať podporu high-tech sektorov,

  • zlepšovať digitálnu a dopravnú infraštruktúru,

  • podporovať krajiny s nižšou inovačnou výkonnosťou.

12 Literatúra

  1. Eurostat Database. European Commission.

https://ec.europa.eu/eurostat

  1. Hair J.F., Black W.C., Babin B.J., Anderson R.E.

Multivariate Data Analysis. Pearson Education.

  1. Jolliffe I.T.

Principal Component Analysis. Springer.

  1. Field A.

Discovering Statistics Using R. Sage Publications.