Lectura de datos
- Muestra de datos
Limpieza de datos
- Variables
- Tipo de variables
Análisis Exploratorio
- Distribución de valores
- Valores Faltantes
Objetivo
- Planteamiento de la solución
- Desarrollo técnico

Lectura de datos

Leemos los datos que vamos a usar, este fichero lo hemos obtenido de la página web EuroStat.

library(readxl);

## Warning: package 'readxl' was built under R version 4.4.3

IE <- read_excel("union_europea_IE.xlsx", col_types = 'text')

Muestra de datos

Datos IE original
DATAFLOW	LAST UPDATE	freq	unit	na_item	geo	TIME_PERIOD	OBS_VALUE	OBS_FLAG	CONF_STATUS
ESTAT:NAMA_10_EXI(1.0)	27/02/25 23:00:00	Annual	Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2019	3678.6	b	NA
ESTAT:NAMA_10_EXI(1.0)	27/02/25 23:00:00	Annual	Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2020	2658.7	NA	NA
ESTAT:NAMA_10_EXI(1.0)	27/02/25 23:00:00	Annual	Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2021	4043.8	NA	NA
ESTAT:NAMA_10_EXI(1.0)	27/02/25 23:00:00	Annual	Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2022	4733	NA	NA
ESTAT:NAMA_10_EXI(1.0)	27/02/25 23:00:00	Annual	Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2023	5180.3999999999996	p	NA
ESTAT:NAMA_10_EXI(1.0)	27/02/25 23:00:00	Annual	Chain linked volumes (2005), million euro	Exports of goods and services	Austria	1995	63483.8	NA	NA

Limpieza de datos

Variables

Antes de empezar con el análisis de datos ya sabemos que vamos a descartar unas variables de la base de datos que no interesan como son: DATAFLOW, LAST_UPDATE, freq, unit, OBS_FLAG y CONF_STATUS. Por lo que nos quedaremos con las siguientes variables

Variables empleadas IE
unit	na_item	geo	TIME_PERIOD	OBS_VALUE
Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2019	3678.6
Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2020	2658.7
Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2021	4043.8
Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2022	4733
Chain linked volumes (2005), million euro	Exports of goods and services	Albania	2023	5180.3999999999996
Chain linked volumes (2005), million euro	Exports of goods and services	Austria	1995	63483.8

Hemos eliminado las anteriores ya que no nos proporcionaban información de utilidad, ya sea por que no eran asociados a nuestro análisis o porque estaban incompletos. Ejemplo: Fecha de modificación para algunos países.

Tipo de variables

Describimos de qué tipo son las variables de cada base de datos

Variables IE
variable	tipo
unit	text
na_item	categorical
geo	categorical
TIME_PERIOD	numerical
OBS_VALUE	numerical

Análisis Exploratorio

Distribución de valores

Se analizan las variables numéricas de ambas bases de datos con las variables ya seleccionadas.( Se empieza con el resumen básico que muestra la distribución de los datos (media, mediana, cuartiles…)
Variables numéricas de IE:

Resumen Variables Numéricas IE
	TIME_PERIOD	OBS_VALUE
	Min. :1975	Min. : -16
	1st Qu.:2006	1st Qu.: 9160
	Median :2013	Median : 38143
	Mean :2011	Mean : 390846
	3rd Qu.:2018	3rd Qu.: 195431
	Max. :2024	Max. :62382147
	NA	NA’s :320

Ya que tenemos observaciónes agrupadas combinando las transacciones de varios países, nos produce el sesgo a la derecha observado. Por este motivo vamos a descartar las observaciones mas generales y nos quedaremos con las mas específicas que sería la información de cada país.

IE3 <- IE2[IE2$unit=='Current prices, million euro', ]

IE3 <- IE3[IE3$na_item %in% c('Exports of goods and services', 'Imports of goods and services'), ]


IE3$OBS_VALUE <- as.numeric(IE3$OBS_VALUE)
boxplot(IE3[,"OBS_VALUE"], horizontal = TRUE)
title('Box and Whisker Valor Transacciones IE')

hist(IE3$OBS_VALUE, nclass = 25, main = '')
title('Histograma Valor Transacciones IE')

Valores Faltantes

Vamos a observar los valores faltantes de la base de datos IE por cada variable tanto en cantidad como en porcentaje sobre el total.

Valores faltantes IE
	Variable	numNA	percNA
OBS_VALUE	OBS_VALUE	320	0.44

Caso Kosovo
unit	na_item	geo	TIME_PERIOD	OBS_VALUE
Chain linked volumes (2015), million euro	Exports of goods and services	Kosovo*	2014	NA
Chain linked volumes (2015), million euro	Exports of goods and services	Kosovo*	2015	NA
Chain linked volumes (2015), million euro	Exports of goods and services	Kosovo*	2016	NA
Chain linked volumes (2015), million euro	Exports of goods and services	Kosovo*	2017	NA
Chain linked volumes (2015), million euro	Exports of goods and services	Kosovo*	2018	NA
Chain linked volumes (2015), million euro	Exports of goods and services	Kosovo*	2019	NA

Los unicos valores faltantes que tenemos se trata de Kosovo por la situación que presenta, por ese motivo lo excluiremos de la base de datos ya que contamos con países suficientes.

Objetivo

• Analizar el impacto de la adhesión a la Unión Europea en los flujos de exportación e importación de los países miembros, evaluando la evolución de sus patrones comerciales a lo largo del tiempo y considerando el efecto de la entrada de nuevos países competidores en el mercado común.

Planteamiento de la solución

Ya que queremos comprobar la relacion de las transacciones de los países miembros además del impacto a la adhesión de la unión europea, empezaremos viendo que países estan más correlacionados para ver si han tenido una evolución similar. Una vez obtenido eso, realizaremos técnicas de jerarquicas para ver que grupos toma nuestra base de datos. También nos interesa trabajar con las fechas de adhesion a la Unión Europea para ver que tendencia han tenido las transacciones de importación y exportación.

Desarrollo técnico

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Con esta gráfica podemos darnos una idea de que países van a tener mas datos ya que han sido miembros mucho antes que otros.

En el primer grafico observamos que en cuanto a las exportaciones, la mayoria de los países estaban al alza antes de ser miembros, tambien observamos que después de unirse sus exportaciones fueron incrementando de forma general. Lo podemos observar de forma mas resumida en la segunda imagen donde se colorea en rojo el promedio de exportaciones antes de unirse y en azul el promedio despues de unirse, donde se observa que todos los países tuvieron un incremento de exportaciones. Cabe destacar que no todos los países tienen un crecimiento similar por lo que nos podríamos plantear si podemos agrupar países segun su comportamiento.

En cuanto a las importaciones observamos lo que ya habiamos comentado anteriormente, que todos estaban al alza al unirse y que una vez se unieron sus importaciones incrementaron. Pero aqui es donde notamos que no todos tienen el mismo comportamiento, algunos tienen comportamientos similares mientas que un comportamiento como el de Grecia no se asemeja a primera vista a los otros.

## 
## Adjuntando el paquete: 'reshape2'

## The following object is masked from 'package:tidyr':
## 
##     smiths

Obtenemos la primer matriz de correlación que nos indica que todos los paises tienen correlación positiva, a primera vista podemos decir que todos los países han tenido una tendencia al alza. Pero ahora mismo no es lo que buscamos, ya que queremos un análisis temporal, nos interesa estudiar la variación porcentual para ver que países han tenido un crecimiento similar en los años.

¿Por qué usamos la variación porcentual?

Usamos la variación porcentual porque:

-Elimina el efecto del tamaño del país (no comparamos España con Alemania por su PIB, sino por su ritmo de cambio). -Reduce la influencia de la tendencia global (casi todos los países exportan más con el tiempo). -Nos permite detectar patrones similares de comportamiento: países que crecen, bajan o se recuperan al mismo tiempo

Ahora si comparamos las matrices esta nos aporta mas información ya que detectamos que países tienen un comportamiento diferente al resto. Para una mejor identificacion nos interesa hacer tecnicas de clustering en donde se van agrupando los países que tienen menos diferencias entre ellos.

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

Con las tecnicas validadas, utilizaremos en este caso el metodo de k-medias con k=4.

##                            Pais Cluster
## Denmark                 Denmark       1
## France                   France       2
## Finland                 Finland       1
## Switzerland         Switzerland       1
## Germany                 Germany       1
## Sweden                   Sweden       1
## Austria                 Austria       1
## Belgium                 Belgium       1
## Bulgaria               Bulgaria       3
## Croatia                 Croatia       2
## Cyprus                   Cyprus       2
## Czechia                 Czechia       1
## Estonia                 Estonia       3
## Greece                   Greece       2
## Hungary                 Hungary       1
## Iceland                 Iceland       2
## Ireland                 Ireland       4
## Italy                     Italy       1
## Latvia                   Latvia       3
## Lithuania             Lithuania       3
## Luxembourg           Luxembourg       1
## Malta                     Malta       4
## Netherlands         Netherlands       1
## Poland                   Poland       1
## Portugal               Portugal       2
## Romania                 Romania       3
## Serbia                   Serbia       3
## Slovakia               Slovakia       3
## Slovenia               Slovenia       1
## Spain                     Spain       2
## United Kingdom   United Kingdom       1
## Albania                 Albania       2
## Türkiye                 Türkiye       2
## North Macedonia North Macedonia       3
## Montenegro           Montenegro       2

Como resultado final hemos podido conseguir qué grupos de paises tienen un comportamiento similar tanto para las importaciones y exportaciones.

En el desarrollo de este objetivo hemos podido contestar en como afecta la adhesion a la unión europea en los países miembros, siendo que incrementa el número de transacciones, y a qué grupos de países se asemejan segun sus variaciones de importaciones y exportaciones.

Objetivo

Camilo

2025-05-26

Lectura de datos

Muestra de datos

Limpieza de datos

Variables

Tipo de variables

Análisis Exploratorio

Distribución de valores

Valores Faltantes

Objetivo

Planteamiento de la solución

Desarrollo técnico