Leemos los datos que vamos a usar, este fichero lo hemos obtenido de la página web EuroStat.
library(readxl);
## Warning: package 'readxl' was built under R version 4.4.3
IE <- read_excel("union_europea_IE.xlsx", col_types = 'text')
| DATAFLOW | LAST UPDATE | freq | unit | na_item | geo | TIME_PERIOD | OBS_VALUE | OBS_FLAG | CONF_STATUS |
|---|---|---|---|---|---|---|---|---|---|
| ESTAT:NAMA_10_EXI(1.0) | 27/02/25 23:00:00 | Annual | Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2019 | 3678.6 | b | NA |
| ESTAT:NAMA_10_EXI(1.0) | 27/02/25 23:00:00 | Annual | Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2020 | 2658.7 | NA | NA |
| ESTAT:NAMA_10_EXI(1.0) | 27/02/25 23:00:00 | Annual | Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2021 | 4043.8 | NA | NA |
| ESTAT:NAMA_10_EXI(1.0) | 27/02/25 23:00:00 | Annual | Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2022 | 4733 | NA | NA |
| ESTAT:NAMA_10_EXI(1.0) | 27/02/25 23:00:00 | Annual | Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2023 | 5180.3999999999996 | p | NA |
| ESTAT:NAMA_10_EXI(1.0) | 27/02/25 23:00:00 | Annual | Chain linked volumes (2005), million euro | Exports of goods and services | Austria | 1995 | 63483.8 | NA | NA |
Antes de empezar con el análisis de datos ya sabemos que vamos a descartar unas variables de la base de datos que no interesan como son: DATAFLOW, LAST_UPDATE, freq, unit, OBS_FLAG y CONF_STATUS. Por lo que nos quedaremos con las siguientes variables
| unit | na_item | geo | TIME_PERIOD | OBS_VALUE |
|---|---|---|---|---|
| Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2019 | 3678.6 |
| Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2020 | 2658.7 |
| Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2021 | 4043.8 |
| Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2022 | 4733 |
| Chain linked volumes (2005), million euro | Exports of goods and services | Albania | 2023 | 5180.3999999999996 |
| Chain linked volumes (2005), million euro | Exports of goods and services | Austria | 1995 | 63483.8 |
Hemos eliminado las anteriores ya que no nos proporcionaban información de utilidad, ya sea por que no eran asociados a nuestro análisis o porque estaban incompletos. Ejemplo: Fecha de modificación para algunos países.
Describimos de qué tipo son las variables de cada base de datos
| variable | tipo |
|---|---|
| unit | text |
| na_item | categorical |
| geo | categorical |
| TIME_PERIOD | numerical |
| OBS_VALUE | numerical |
Se analizan las variables numéricas de ambas bases de datos con las
variables ya seleccionadas.( Se empieza con el resumen básico que
muestra la distribución de los datos (media, mediana, cuartiles…)
Variables numéricas de IE:
| TIME_PERIOD | OBS_VALUE | |
|---|---|---|
| Min. :1975 | Min. : -16 | |
| 1st Qu.:2006 | 1st Qu.: 9160 | |
| Median :2013 | Median : 38143 | |
| Mean :2011 | Mean : 390846 | |
| 3rd Qu.:2018 | 3rd Qu.: 195431 | |
| Max. :2024 | Max. :62382147 | |
| NA | NA’s :320 |
Ya que tenemos observaciónes agrupadas combinando las transacciones de varios países, nos produce el sesgo a la derecha observado. Por este motivo vamos a descartar las observaciones mas generales y nos quedaremos con las mas específicas que sería la información de cada país.
IE3 <- IE2[IE2$unit=='Current prices, million euro', ]
IE3 <- IE3[IE3$na_item %in% c('Exports of goods and services', 'Imports of goods and services'), ]
IE3$OBS_VALUE <- as.numeric(IE3$OBS_VALUE)
boxplot(IE3[,"OBS_VALUE"], horizontal = TRUE)
title('Box and Whisker Valor Transacciones IE')
hist(IE3$OBS_VALUE, nclass = 25, main = '')
title('Histograma Valor Transacciones IE')
Vamos a observar los valores faltantes de la base de datos IE por cada variable tanto en cantidad como en porcentaje sobre el total.
| Variable | numNA | percNA | |
|---|---|---|---|
| OBS_VALUE | OBS_VALUE | 320 | 0.44 |
| unit | na_item | geo | TIME_PERIOD | OBS_VALUE |
|---|---|---|---|---|
| Chain linked volumes (2015), million euro | Exports of goods and services | Kosovo* | 2014 | NA |
| Chain linked volumes (2015), million euro | Exports of goods and services | Kosovo* | 2015 | NA |
| Chain linked volumes (2015), million euro | Exports of goods and services | Kosovo* | 2016 | NA |
| Chain linked volumes (2015), million euro | Exports of goods and services | Kosovo* | 2017 | NA |
| Chain linked volumes (2015), million euro | Exports of goods and services | Kosovo* | 2018 | NA |
| Chain linked volumes (2015), million euro | Exports of goods and services | Kosovo* | 2019 | NA |
Los unicos valores faltantes que tenemos se trata de Kosovo por la situación que presenta, por ese motivo lo excluiremos de la base de datos ya que contamos con países suficientes.
• Analizar el impacto de la adhesión a la Unión Europea en los flujos de exportación e importación de los países miembros, evaluando la evolución de sus patrones comerciales a lo largo del tiempo y considerando el efecto de la entrada de nuevos países competidores en el mercado común.
Ya que queremos comprobar la relacion de las transacciones de los países miembros además del impacto a la adhesión de la unión europea, empezaremos viendo que países estan más correlacionados para ver si han tenido una evolución similar. Una vez obtenido eso, realizaremos técnicas de jerarquicas para ver que grupos toma nuestra base de datos. También nos interesa trabajar con las fechas de adhesion a la Unión Europea para ver que tendencia han tenido las transacciones de importación y exportación.
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Con esta gráfica podemos darnos una idea de que países van a tener mas datos ya que han sido miembros mucho antes que otros.
En el primer grafico observamos que en cuanto a las exportaciones, la mayoria de los países estaban al alza antes de ser miembros, tambien observamos que después de unirse sus exportaciones fueron incrementando de forma general. Lo podemos observar de forma mas resumida en la segunda imagen donde se colorea en rojo el promedio de exportaciones antes de unirse y en azul el promedio despues de unirse, donde se observa que todos los países tuvieron un incremento de exportaciones. Cabe destacar que no todos los países tienen un crecimiento similar por lo que nos podríamos plantear si podemos agrupar países segun su comportamiento.
En cuanto a las importaciones observamos lo que ya habiamos comentado anteriormente, que todos estaban al alza al unirse y que una vez se unieron sus importaciones incrementaron. Pero aqui es donde notamos que no todos tienen el mismo comportamiento, algunos tienen comportamientos similares mientas que un comportamiento como el de Grecia no se asemeja a primera vista a los otros.
##
## Adjuntando el paquete: 'reshape2'
## The following object is masked from 'package:tidyr':
##
## smiths
Obtenemos la primer matriz de correlación que nos indica que todos los paises tienen correlación positiva, a primera vista podemos decir que todos los países han tenido una tendencia al alza. Pero ahora mismo no es lo que buscamos, ya que queremos un análisis temporal, nos interesa estudiar la variación porcentual para ver que países han tenido un crecimiento similar en los años.
¿Por qué usamos la variación porcentual?
Usamos la variación porcentual porque:
-Elimina el efecto del tamaño del país (no comparamos España con Alemania por su PIB, sino por su ritmo de cambio). -Reduce la influencia de la tendencia global (casi todos los países exportan más con el tiempo). -Nos permite detectar patrones similares de comportamiento: países que crecen, bajan o se recuperan al mismo tiempo
Ahora si comparamos las matrices esta nos aporta mas información ya que detectamos que países tienen un comportamiento diferente al resto. Para una mejor identificacion nos interesa hacer tecnicas de clustering en donde se van agrupando los países que tienen menos diferencias entre ellos.
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
Con las tecnicas validadas, utilizaremos en este caso el metodo de k-medias con k=4.
## Pais Cluster
## Denmark Denmark 1
## France France 2
## Finland Finland 1
## Switzerland Switzerland 1
## Germany Germany 1
## Sweden Sweden 1
## Austria Austria 1
## Belgium Belgium 1
## Bulgaria Bulgaria 3
## Croatia Croatia 2
## Cyprus Cyprus 2
## Czechia Czechia 1
## Estonia Estonia 3
## Greece Greece 2
## Hungary Hungary 1
## Iceland Iceland 2
## Ireland Ireland 4
## Italy Italy 1
## Latvia Latvia 3
## Lithuania Lithuania 3
## Luxembourg Luxembourg 1
## Malta Malta 4
## Netherlands Netherlands 1
## Poland Poland 1
## Portugal Portugal 2
## Romania Romania 3
## Serbia Serbia 3
## Slovakia Slovakia 3
## Slovenia Slovenia 1
## Spain Spain 2
## United Kingdom United Kingdom 1
## Albania Albania 2
## Türkiye Türkiye 2
## North Macedonia North Macedonia 3
## Montenegro Montenegro 2
Como resultado final hemos podido conseguir qué grupos de paises tienen un comportamiento similar tanto para las importaciones y exportaciones.
En el desarrollo de este objetivo hemos podido contestar en como afecta la adhesion a la unión europea en los países miembros, siendo que incrementa el número de transacciones, y a qué grupos de países se asemejan segun sus variaciones de importaciones y exportaciones.