Lectura de datos

Leemos los datos que vamos a usar, este fichero lo hemos obtenido de la página web EuroStat.

library(readxl);
## Warning: package 'readxl' was built under R version 4.4.3
IE <- read_excel("union_europea_IE.xlsx", col_types = 'text')

Muestra de datos

Datos IE original
DATAFLOW LAST UPDATE freq unit na_item geo TIME_PERIOD OBS_VALUE OBS_FLAG CONF_STATUS
ESTAT:NAMA_10_EXI(1.0) 27/02/25 23:00:00 Annual Chain linked volumes (2005), million euro Exports of goods and services Albania 2019 3678.6 b NA
ESTAT:NAMA_10_EXI(1.0) 27/02/25 23:00:00 Annual Chain linked volumes (2005), million euro Exports of goods and services Albania 2020 2658.7 NA NA
ESTAT:NAMA_10_EXI(1.0) 27/02/25 23:00:00 Annual Chain linked volumes (2005), million euro Exports of goods and services Albania 2021 4043.8 NA NA
ESTAT:NAMA_10_EXI(1.0) 27/02/25 23:00:00 Annual Chain linked volumes (2005), million euro Exports of goods and services Albania 2022 4733 NA NA
ESTAT:NAMA_10_EXI(1.0) 27/02/25 23:00:00 Annual Chain linked volumes (2005), million euro Exports of goods and services Albania 2023 5180.3999999999996 p NA
ESTAT:NAMA_10_EXI(1.0) 27/02/25 23:00:00 Annual Chain linked volumes (2005), million euro Exports of goods and services Austria 1995 63483.8 NA NA

Limpieza de datos

Variables

Antes de empezar con el análisis de datos ya sabemos que vamos a descartar unas variables de la base de datos que no interesan como son: DATAFLOW, LAST_UPDATE, freq, unit, OBS_FLAG y CONF_STATUS. Por lo que nos quedaremos con las siguientes variables

Variables empleadas IE
unit na_item geo TIME_PERIOD OBS_VALUE
Chain linked volumes (2005), million euro Exports of goods and services Albania 2019 3678.6
Chain linked volumes (2005), million euro Exports of goods and services Albania 2020 2658.7
Chain linked volumes (2005), million euro Exports of goods and services Albania 2021 4043.8
Chain linked volumes (2005), million euro Exports of goods and services Albania 2022 4733
Chain linked volumes (2005), million euro Exports of goods and services Albania 2023 5180.3999999999996
Chain linked volumes (2005), million euro Exports of goods and services Austria 1995 63483.8

Hemos eliminado las anteriores ya que no nos proporcionaban información de utilidad, ya sea por que no eran asociados a nuestro análisis o porque estaban incompletos. Ejemplo: Fecha de modificación para algunos países.

Tipo de variables

Describimos de qué tipo son las variables de cada base de datos

Variables IE
variable tipo
unit text
na_item categorical
geo categorical
TIME_PERIOD numerical
OBS_VALUE numerical

Análisis Exploratorio

Distribución de valores

Se analizan las variables numéricas de ambas bases de datos con las variables ya seleccionadas.( Se empieza con el resumen básico que muestra la distribución de los datos (media, mediana, cuartiles…)
Variables numéricas de IE:

Resumen Variables Numéricas IE
TIME_PERIOD OBS_VALUE
Min. :1975 Min. : -16
1st Qu.:2006 1st Qu.: 9160
Median :2013 Median : 38143
Mean :2011 Mean : 390846
3rd Qu.:2018 3rd Qu.: 195431
Max. :2024 Max. :62382147
NA NA’s :320

Ya que tenemos observaciónes agrupadas combinando las transacciones de varios países, nos produce el sesgo a la derecha observado. Por este motivo vamos a descartar las observaciones mas generales y nos quedaremos con las mas específicas que sería la información de cada país.

IE3 <- IE2[IE2$unit=='Current prices, million euro', ]

IE3 <- IE3[IE3$na_item %in% c('Exports of goods and services', 'Imports of goods and services'), ]


IE3$OBS_VALUE <- as.numeric(IE3$OBS_VALUE)
boxplot(IE3[,"OBS_VALUE"], horizontal = TRUE)
title('Box and Whisker Valor Transacciones IE')

hist(IE3$OBS_VALUE, nclass = 25, main = '')
title('Histograma Valor Transacciones IE')

Valores Faltantes

Vamos a observar los valores faltantes de la base de datos IE por cada variable tanto en cantidad como en porcentaje sobre el total.

Valores faltantes IE
Variable numNA percNA
OBS_VALUE OBS_VALUE 320 0.44
Caso Kosovo
unit na_item geo TIME_PERIOD OBS_VALUE
Chain linked volumes (2015), million euro Exports of goods and services Kosovo* 2014 NA
Chain linked volumes (2015), million euro Exports of goods and services Kosovo* 2015 NA
Chain linked volumes (2015), million euro Exports of goods and services Kosovo* 2016 NA
Chain linked volumes (2015), million euro Exports of goods and services Kosovo* 2017 NA
Chain linked volumes (2015), million euro Exports of goods and services Kosovo* 2018 NA
Chain linked volumes (2015), million euro Exports of goods and services Kosovo* 2019 NA

Los unicos valores faltantes que tenemos se trata de Kosovo por la situación que presenta, por ese motivo lo excluiremos de la base de datos ya que contamos con países suficientes.

Objetivo

• Analizar el impacto de la adhesión a la Unión Europea en los flujos de exportación e importación de los países miembros, evaluando la evolución de sus patrones comerciales a lo largo del tiempo y considerando el efecto de la entrada de nuevos países competidores en el mercado común.

Planteamiento de la solución

Ya que queremos comprobar la relacion de las transacciones de los países miembros además del impacto a la adhesión de la unión europea, empezaremos viendo que países estan más correlacionados para ver si han tenido una evolución similar. Una vez obtenido eso, realizaremos técnicas de jerarquicas para ver que grupos toma nuestra base de datos. También nos interesa trabajar con las fechas de adhesion a la Unión Europea para ver que tendencia han tenido las transacciones de importación y exportación.

Desarrollo técnico

## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Con esta gráfica podemos darnos una idea de que países van a tener mas datos ya que han sido miembros mucho antes que otros.

En el primer grafico observamos que en cuanto a las exportaciones, la mayoria de los países estaban al alza antes de ser miembros, tambien observamos que después de unirse sus exportaciones fueron incrementando de forma general. Lo podemos observar de forma mas resumida en la segunda imagen donde se colorea en rojo el promedio de exportaciones antes de unirse y en azul el promedio despues de unirse, donde se observa que todos los países tuvieron un incremento de exportaciones. Cabe destacar que no todos los países tienen un crecimiento similar por lo que nos podríamos plantear si podemos agrupar países segun su comportamiento.

En cuanto a las importaciones observamos lo que ya habiamos comentado anteriormente, que todos estaban al alza al unirse y que una vez se unieron sus importaciones incrementaron. Pero aqui es donde notamos que no todos tienen el mismo comportamiento, algunos tienen comportamientos similares mientas que un comportamiento como el de Grecia no se asemeja a primera vista a los otros.

## 
## Adjuntando el paquete: 'reshape2'
## The following object is masked from 'package:tidyr':
## 
##     smiths

Obtenemos la primer matriz de correlación que nos indica que todos los paises tienen correlación positiva, a primera vista podemos decir que todos los países han tenido una tendencia al alza. Pero ahora mismo no es lo que buscamos, ya que queremos un análisis temporal, nos interesa estudiar la variación porcentual para ver que países han tenido un crecimiento similar en los años.

¿Por qué usamos la variación porcentual?

Usamos la variación porcentual porque:

-Elimina el efecto del tamaño del país (no comparamos España con Alemania por su PIB, sino por su ritmo de cambio). -Reduce la influencia de la tendencia global (casi todos los países exportan más con el tiempo). -Nos permite detectar patrones similares de comportamiento: países que crecen, bajan o se recuperan al mismo tiempo

Ahora si comparamos las matrices esta nos aporta mas información ya que detectamos que países tienen un comportamiento diferente al resto. Para una mejor identificacion nos interesa hacer tecnicas de clustering en donde se van agrupando los países que tienen menos diferencias entre ellos.

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

Con las tecnicas validadas, utilizaremos en este caso el metodo de k-medias con k=4.

##                            Pais Cluster
## Denmark                 Denmark       1
## France                   France       2
## Finland                 Finland       1
## Switzerland         Switzerland       1
## Germany                 Germany       1
## Sweden                   Sweden       1
## Austria                 Austria       1
## Belgium                 Belgium       1
## Bulgaria               Bulgaria       3
## Croatia                 Croatia       2
## Cyprus                   Cyprus       2
## Czechia                 Czechia       1
## Estonia                 Estonia       3
## Greece                   Greece       2
## Hungary                 Hungary       1
## Iceland                 Iceland       2
## Ireland                 Ireland       4
## Italy                     Italy       1
## Latvia                   Latvia       3
## Lithuania             Lithuania       3
## Luxembourg           Luxembourg       1
## Malta                     Malta       4
## Netherlands         Netherlands       1
## Poland                   Poland       1
## Portugal               Portugal       2
## Romania                 Romania       3
## Serbia                   Serbia       3
## Slovakia               Slovakia       3
## Slovenia               Slovenia       1
## Spain                     Spain       2
## United Kingdom   United Kingdom       1
## Albania                 Albania       2
## Türkiye                 Türkiye       2
## North Macedonia North Macedonia       3
## Montenegro           Montenegro       2

Como resultado final hemos podido conseguir qué grupos de paises tienen un comportamiento similar tanto para las importaciones y exportaciones.

En el desarrollo de este objetivo hemos podido contestar en como afecta la adhesion a la unión europea en los países miembros, siendo que incrementa el número de transacciones, y a qué grupos de países se asemejan segun sus variaciones de importaciones y exportaciones.