Analisis de Componentes principales

Motivación

Uno de los mayores problemas a los que se enfrentan los analistas de conjuntos de datos multivariados es la gran dimensionalidad que puede dificultar la comprensión del fenómeno estudiado. El análisis de componentes principales se presenta como una solución, ya que tiene como objetivo reducir la dimensionalidad del conjunto de datos buscando conservar la mayor cantidad de información posible. Esto se consigue a partir de una transformación del dataset original en un nuevo conjunto de variables llamadas “componentes principales” las cuales son combinaciones lineales no correlacionadas de las variables originales.

Fundamentación Teórica

Sea

\[\mathbf{X}= \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_p \end{bmatrix}_{p\times 1}\]

un vector p-variado con vector de medias y matriz de varianzas y covarianzas poblacionales.

\[\boldsymbol{\mu}= \begin{bmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_p \end{bmatrix}_{p\times 1} \qquad \boldsymbol{\Sigma}= \begin{bmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p}\\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ \sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{pp} \end{bmatrix}_{p\times p}\]

Aquí el interés es que algunas de las variables estan correlacionadas, por lo que $\sigma_{ik}\neq 0$ para algunos $i\neq k$, $i,k=1,2,\ldots,p$.

En este caso, existe redundancia entre dimensiones y el objetivo es reducir la dimensionalidad del problema construyendo un nuevo conjunto de variables NO CORRELACIONADAS entre sí, que sean combinaciones lineales de las $X_i\text{'s}$ .

El nuevo conjunto de variables (k < p) deben explicar la mayor cantidad de variabilidad existente en las p variables originales.

Para lograr esto, se calculan los autovalores de $\boldsymbol{\Sigma}$ , sean ellos: \[\lambda_{1}\ge \lambda_{2}\ge \cdots \ge \lambda_{p}\]

y sus correspondientes autovectores

\[\mathbf{e}_1,\,\mathbf{e}_2,\,\ldots,\,\mathbf{e}_p\]

Donde,

\[\mathbf{e}_i= \begin{bmatrix} e_{i1}\\ e_{i2}\\ \vdots\\ e_{ip} \end{bmatrix}\]

Satisface las siguientes condiciones

$\mathbf{e}_i^{\mathsf{T}}\mathbf{e}_j = 0$ para todo $i \neq j$
$\mathbf{e}_i^{\mathsf{T}}\mathbf{e}_i = 1$ para todo $i = 1,2,\ldots,p$
$\boldsymbol{\Sigma}_{p\times p}\,\mathbf{e}_i = \lambda_i\,\mathbf{e}_i$ para todo $i = 1,2,\ldots,p$

Teniendo en cuenta esto, considere la matriz ortogonal

\[\mathbf{O}= \begin{bmatrix} e_{11} & e_{21} & \cdots & e_{p1}\\ e_{12} & e_{22} & \cdots & e_{p2}\\ \vdots & \vdots & \ddots & \vdots\\ e_{1p} & e_{2p} & \cdots & e_{pp} \end{bmatrix} = \left[\mathbf{e}_1\;\mathbf{e}_2\;\cdots\;\mathbf{e}_p\right]\]

Entonces el vector de nuestras componentes principales de $\boldsymbol{\Sigma}$ está dado por \[\mathbf{Y}_{p\times 1}=\mathbf{O}^{\mathsf{T}}\mathbf{X}\]

\[=\begin{bmatrix} e_{11} & e_{12} & \cdots & e_{1p}\\ e_{21} & e_{22} & \cdots & e_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ e_{p1} & e_{p2} & \cdots & e_{pp} \end{bmatrix} \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_p \end{bmatrix}\]

De esta forma, La primera componente ($Y_1$) va a ser la traspuesta del primer (mayor) vector propio $\mathbf{e}_1$ correspondiente al primer (mayor) valor propio ($\lambda_{1}$) multiplicado por el vector X. Esto es:

\[Y_1=\mathbf{e}_1^{\mathsf{T}}\mathbf{X}\] \[= e_{11}X_1+e_{12}X_2+\cdots+e_{1p}X_p\]

La segunda componente ($Y_2$) va a ser la traspuesta del segundo (mayor) vector propio $\mathbf{e}_2$ correspondiente al segundo (mayor) valor propio ($\lambda_{2}$) multiplicado por el vector X. Esto es: \[Y_2=\mathbf{e}_2^{\mathsf{T}}\mathbf{X}\] \[= e_{21}X_1+e_{22}X_2+\cdots+e_{2p}X_p\]

$Y_2$ no está correlacionada con $Y_1$ y reúne la máxima variabilidad restante de la variación total que $Y_1$ no contiene. Este proceso se realiza hasta encontrar los $p$ vectores propios.

Algunas propiedades del PCA son:

La $i$–ésima componente principal de $\boldsymbol{\Sigma}$ está dada por

\[Y_i=\mathbf{e}_i^{\mathsf{T}}\mathbf{X}\]
$\mathbb{E}[Y_i]=\mathbf{e}_i^{\mathsf{T}}\boldsymbol{\mu}$
$\mathrm{Var}[Y_i]=\mathbf{e}_i^{\mathsf{T}}\boldsymbol{\Sigma}\mathbf{e}_i=\lambda_i$
$\mathrm{Cov}[Y_i,Y_k]=0 \quad \text{si } i\neq k,\; i,k=1,2,\ldots,p.$
La proporción de varianza total de $\mathbf{X}$ que es explicada por la $i$–ésima componente principal está dada por \[\frac{\lambda_i}{\sum_{j=1}^{p}\lambda_j}\]
La $k$–ésima componente del autovector $i$: \[\mathbf{e}_i^{\mathsf{T}}=[\,e_{i1}\;\;e_{i2}\;\;\cdots\;\;e_{ik}\;\;\cdots\;\;e_{ip}\,]\] mide la importancia de la $k$–ésima variable sobre la $i$–ésima componente principal, independientemente de las demás variables.
El coeficiente de correlación entre $Y_i$ e $X_k$ está dado por \[\rho_{Y_i,X_k}=\frac{e_{ik}\sqrt{\lambda_i}}{\sqrt{\sigma_{kk}}},\] \[\qquad i,k=1,2,\ldots,p.\]

Cuando las variables $X'_i$ son de magnitudes muy diferentes, las variabilidades son diferentes. Por ello, se puede recurrir a la estandarización de variables, en esos casos la técnica se conoce como Análisis de Componentes Principales vía Matriz de Correlación.

Conjunto de datos

Los datos a analizar, fueron consolidados a partir de fuentes como el Banco mundial, el Fondo Monetario Internacional, la Comisión Europea y la International Disaster Database. Incluye 23 variables y 30 individuos, con información sobre indicadores macroeconómicos, emisiones de gases efecto invernadero y desastres naturales. Con el fin de mitigar el efecto de temporalidad se aplicó un filtro y se consideró unicamente datos del año 2022. A continuación, se presenta la descripción de las variables incluidas en el dataset.

Variable	Nombre completo	Descripción
PIB	PIB (MM de dólares a precios actuales)	Valor total de los bienes y servicios finales producidos por un país, medido en millones de dólares corrientes.
IED	Inversión Extranjera Directa (US$ a precios actuales)	Flujos de inversión provenientes del exterior destinados a adquirir participación o control en empresas del país, medidos en dólares corrientes.
Exp_Netas	Exportaciones Netas (US$ a precios actuales)	Diferencia entre el valor de las exportaciones y las importaciones de bienes y servicios, medida en dólares corrientes.
Deuda_externa	Deuda externa (MM de dólares a precios actuales)	Monto total de obligaciones financieras de un país con acreedores externos, expresado en millones de dólares corrientes.
Consumo	Consumo (US$ a precios actuales)	Gasto total en bienes y servicios realizado por los hogares, el gobierno u otros agentes, medido en dólares corrientes.
CO2	Emisiones de CO2 (Mt CO2eq/yr)	Cantidad total de emisiones de dióxido de carbono, expresada en millones de toneladas de CO2 equivalente por año.
CH4	Emisiones de Metano (kt de equivalente de CO2)	Emisiones de metano expresadas en kilotoneladas de CO2 equivalente.
N2O	Emisiones de óxido nitroso (kt de equivalente de CO2)	Emisiones de óxido nitroso expresadas en kilotoneladas de CO2 equivalente.
D_Clim	Desastres Climatológicos	Número o registro de eventos asociados a condiciones climáticas de larga duración, como sequías o incendios forestales.
D_Geof	Desastres Geofísicos	Número o registro de eventos originados por procesos geológicos, como terremotos, erupciones volcánicas o movimientos en masa secos.
D_Met	Desastres Meteorológicos	Número o registro de eventos atmosféricos de corta duración, como tormentas, huracanes o vendavales.
D_Hidr	Desastres Hidrológicos	Número o registro de eventos relacionados con el comportamiento del agua, como inundaciones o deslizamientos asociados a lluvias.
Flood_Ind	Flood occurrence Indicator (WRI)	Indicador de ocurrencia de inundaciones, usado para medir la exposición o presencia de eventos de inundación.
Pct_Afect	Porcentaje población afectada por sequías, inundaciones y temperaturas extremas	Proporción de la población que ha sido afectada por eventos climáticos extremos e hidrológicos.
Temp_Prom	Promedio de temperatura (°C)	Temperatura media registrada en un país o territorio, expresada en grados Celsius.
Clim_Ext	Inundaciones y temperaturas extremas	Indicador relacionado con la ocurrencia o impacto de inundaciones y eventos de temperatura extrema.
Agua_Renov_M2	Total renewable water resources per M2 (10^9 m3/year*KM2)	Disponibilidad de recursos hídricos renovables ajustada por unidad de superficie.
Bio_Index	Global Biodiversity Index	Índice global que resume el nivel de biodiversidad de un país o territorio.
HDI	Human Development Index (HDI)	Índice compuesto que mide el nivel de desarrollo humano a partir de salud, educación e ingreso.
Gasto_ID	Gasto en I+D (% del PIB)	Porcentaje del PIB destinado a actividades de investigación y desarrollo.
Est_Pol	Political Stability and Absence of Violence/Terrorism: Estimate	Indicador que mide la estabilidad política y la ausencia de violencia o terrorismo en un país.

¿Porque podría ser una buena idea aplicar ACP al dataset seleccionado?

Esta tecnica es una herramienta que a priori podría considerarse útil para realizar un análisis. Esto dado que, el conjunto de datos a trabajar cuenta con una amplia cantidad de variables y reducir la dimensionalidad de los datos puede ser beneficioso. Sumado a lo anterior, el ACP permite explorar los comportamientos y relaciones entre las variables elegidas.

library(readxl)
library(tidyverse)
library(psych)
library(corrplot)
library(FactoMineR)
library(factoextra)
library(MVN)
dataset <-read_excel('dataset_limpio.xlsx')
dataset<-as.data.frame(dataset)
row.names(dataset)<-dataset$nombres_paises
dataset <-dataset[,-c(1,23,24)]

Pertinencia del ACP

Primero que todo, es necesario determinar si la tecnica es pertinente para ser aplicada sobre el set de datos. Para verificar esto, es necesario evaluar si la relación entre las variables es lo suficientemente significativa como para justificar su uso. Este proceso es realizado dado que, si la asociacion entre estas no es significativa, como consecuencia no sería posible obtener el conjunto de componentes no correlacionadas y el proposito del analisis perdería sentido.

Para ser preciso en determinar esto, sería oportuno utilizar la prueba de esfericidad de barlett, la cual permite establecer si la matriz de correlaciones es significativamente diferente de la matriz identidad. Para poder utilizar esta prueba, es necesario asegurarse de que el conjunto de datos sigue una distribución normal multivariada.

A continuación, se utilizará la prueba Doornik-Hansen para ello.

MVN::mvn(data = dataset, mvn_test = "doornik_hansen")$multivariate_normality

##             Test Statistic df p.value     Method          MVN
## 1 Doornik-Hansen  1812.105 42  <0.001 asymptotic ✗ Not normal

H0: Indica que la datos provienen de una distribucion normal multivariada
H1: Indica que los datos NO provienen de una distribución normal multivariada.

Debido a que, el p-valor obtenido a partir de la prueba es <0.001, la hipotesis nula es rechazada y por ende los datos no provienen de una distribución normal multivariada.

Es por esto que, la idea de utilizar la prueba de Barlett queda descartada. Adicionalmente, existe otro cirterio que sugiere que, a pesar de no cumplir con la normalidad multivariada, el uso de dicha prueba podria ser adecuado si el tamaño de muestra $n$ es mayor que $5p$. Para este caso, el tamaño de muestra es de 30 individuos mientras que el número de observaciones requerido para ello sería 105 (5x21), por ende se refuerza la no pertinencia de dicha prueba. En consecuencia, se utilizará la matriz de correlaciones para evaluar las relaciones entre las variables seleccionadas.

R<-cor(dataset)
T=cor.mtest(dataset,conf.level=0.95)
corrplot(R,p.mat=T$p,sig.level=0.05,type="upper",diag=FALSE,tl.col = "black",cl.ratio = 0.3)

Teniendo en cuenta esta matriz, se puede decir que la gran mayoría de las correlaciones entre las variables son significativas. Siendo, Agua_Renov_M2 la que más genera conflicto, dado que solo presenta una correlación significativa con Flood_Ind. Por ende ,el ACP es una herramienta que justifica su uso dentro de este contexto.

Aplicación de la tecnica

Para implementar esta técnica, se calculan los autovalores y auto vectores de la matriz de covarianzas $\boldsymbol{\Sigma}$ (o de la matriz de correlaciones cuando se estandariza). En este caso, el valor propio representa la cantidad de varianza explicada por cada componente principal. Mientras que, cada vector propio es un conjunto de coeficientes, también llamados cargas que definen como se construye la combinación lineal de las variables originales.

De esta forma, se obtiene la expresión $Y_i = \mathbf{e}_i\mathbf{X}$ ,en donde, $Y_i$ representa la respectiva componente principal, el correspondiente auto vector y el vector de las variables originales. Cabe aclarar que, cada una de las componentes esta ordenada con base en su importancia, es decir, la primera componente tiene el mayor porcentaje de varianza explicada, la segunda componente agrupa la siguiente mayor cantidad de varianza restante y asi sucesivamente. El principal objetivo de esta herramienta es escoger la mínima cantidad de nuevas variables que puedan explicar casi por completo el set de datos original.

Ahora, se procedera a utilizar la función PCA() proveniente del paquete FactoMineR. A esta función se le debe pasar el set de datos como parametro principal. Sumado a ello, el parametro scale.unit determina si se usa la matriz de correlación o la matriz de covarianzas.

Para el problema planteado, será necesario realizar este calculo para la matriz de correlaciones, puesto que las variables manejadas se encuentran en escalas muy diferentes. Para lograr esto, se utiliza el parámetro scale.unit perteneciente a la función PCA().

pca<-PCA(dataset,scale.unit= TRUE, graph = F);pca$eig

##           eigenvalue percentage of variance cumulative percentage of variance
## comp 1  7.6768355460           3.655636e+01                          36.55636
## comp 2  4.4492565991           2.118694e+01                          57.74330
## comp 3  2.4588664683           1.170889e+01                          69.45218
## comp 4  2.1004855259           1.000231e+01                          79.45450
## comp 5  1.3712679408           6.529847e+00                          85.98434
## comp 6  0.6557087394           3.122423e+00                          89.10677
## comp 7  0.5886224810           2.802964e+00                          91.90973
## comp 8  0.4798939239           2.285209e+00                          94.19494
## comp 9  0.3001991017           1.429520e+00                          95.62446
## comp 10 0.2272638911           1.082209e+00                          96.70667
## comp 11 0.2010584471           9.574212e-01                          97.66409
## comp 12 0.1328138321           6.324468e-01                          98.29654
## comp 13 0.0965555004           4.597881e-01                          98.75632
## comp 14 0.0890570027           4.240810e-01                          99.18040
## comp 15 0.0705108779           3.357661e-01                          99.51617
## comp 16 0.0574074462           2.733688e-01                          99.78954
## comp 17 0.0226514679           1.078641e-01                          99.89740
## comp 18 0.0120668675           5.746127e-02                          99.95487
## comp 19 0.0054578771           2.598989e-02                          99.98085
## comp 20 0.0039199062           1.866622e-02                          99.99952
## comp 21 0.0001005578           4.788467e-04                         100.00000

Teniendo en cuenta esta información, es importante definir cuantas componentes principales deben ser consideradas en el análisis, para ello se tendrán en cuenta tres criterios o métodos, estos son la proporción de la varianza total explicada, el criterio de Kaiser y el análisis de la gráfica de la varianza explicada(scree plot).

Si se considerara utilizar el primer criterio, se debería seleccionar un subconjunto de componentes a partir del porcentaje de varianza total que estos explican. No existe un valor determinado o fijo para dicho porcentaje, sin embargo, la mayoría de los autores sugieren trabajar con valores entre el 70% y el 90%.

Para este caso, sería suficiente con emplear 4 componentes, ya que estos recogen el 79.454% de la varianza total.

A continuación se visualiza dicha información

perc_varianza_acum<- pca$eig[,3]
#perc_varianza_acum
ggplot(data = data.frame(perc_varianza_acum, pc = 1:21),
       aes(x = pc, y = perc_varianza_acum, group = 1)) +
  geom_point() +
  geom_line() +
  theme_bw() +
  labs(x = "Componente principal",
       y = "% Varianza explicada acumulada")

Por otro lado, el criterio de Kaiser argumenta que solo se seleccionar las componentes cuyo autovalor sea mayor o igual a 1. Teniendo en cuenta esto, para el conjunto de datos elegido resulta conveniente seleccionar cinco componentes, ya que estas cumplen con el requisito mencionado previamente.

Por último, el screeplot es una gráfica que muestra la varianza acumulada a medida que se agregan componentes al análisis, y la cantidad adecuada se determina cuando se forma un codo en el gráfico.

En este caso, el codo se forma cuando hay tres componentes, como se visualiza seguidamente:

auto<-eigen(R)
# Valores propios
lambdai<-auto$values
# Vectores propios
e<-auto$vectors 
# Scree plot
plot(lambdai, type = "b", 
     main="Grafico del codo(Scree plot)", 
     ylab = expression(lambda[i]),xlab="# Componentes",
     xaxt = "n")
axis(1, at = 1:length(lambdai))

Teniendo en cuenta esta información, se implementará y se recomienda hacer uso de tres componentes. Esto dado que, en el PCA el objetivo es reducir la dimensionalidad y hacer uso de la menor cantidad de componentes que expliquen la mayor cantidad de variabilidad del set de datos (Con tres componentes explicamos aproximadamente el 70% de la variabilidad).

Adicionalmente, en cuanto a la interpretación se aconseja manejar 3 componentes debido a la redundancia. Esto debido a que, al realizar el análisis con cuatro componentes, la cuarta resultó ser bastante similar a la segunda, agrupando variables muy parecidas entre sí lo que dificultaba la interpretación.

Con respecto a la construcción de las componentes, a continuación se presentan las ecuaciones que las conforman. Cabe recalcar que los coeficientes que acompañan cada variable corresponden a los autovalores calculados.

\[\begin{aligned}C_1 ={}& -0.354\,PIB -0.343\,IED +0.153\,Exp\_Netas -0.334\,Deuda\_externa -0.347\,Consumo -0.274\,CO2 \\& -0.276\,CH4 -0.276\,N2O -0.267\,D\_Clim -0.103\,D\_Geof -0.265\,D\_Met -0.063\,D\_Hidr \\& -0.012\,Flood\_Ind -0.078\,Pct\_Afect +0.134\,Temp\_Prom -0.122\,Clim\_Ext +0.072\,Agua\_Renov\_M2 -0.121\,Bio\_Index \\& -0.120\,HDI -0.199\,Gasto\_ID -0.068\,Est\_Pol\end{aligned}\]

\[\begin{aligned}C_2 ={}& -0.011\,PIB -0.061\,IED +0.171\,Exp\_Netas -0.062\,Deuda\_externa -0.063\,Consumo +0.158\,CO2 \\& +0.205\,CH4 +0.222\,N2O -0.133\,D\_Clim +0.267\,D\_Geof -0.172\,D\_Met +0.295\,D\_Hidr \\& +0.245\,Flood\_Ind +0.292\,Pct\_Afect +0.246\,Temp\_Prom +0.338\,Clim\_Ext +0.115\,Agua\_Renov\_M2 +0.328\,Bio\_Index \\& -0.286\,HDI -0.238\,Gasto\_ID -0.242\,Est\_Pol\end{aligned}\]

\[\begin{aligned}C_3 ={}& +0.007\,PIB +0.084\,IED -0.482\,Exp\_Netas +0.165\,Deuda\_externa +0.127\,Consumo -0.255\,CO2 \\& -0.168\,CH4 -0.173\,N2O +0.199\,D\_Clim -0.140\,D\_Geof +0.277\,D\_Met -0.020\,D\_Hidr \\& +0.332\,Flood\_Ind -0.084\,Pct\_Afect +0.323\,Temp\_Prom +0.004\,Clim\_Ext +0.252\,Agua\_Renov\_M2 -0.034\,Bio\_Index \\& -0.286\,HDI -0.160\,Gasto\_ID -0.252\,Est\_Pol\end{aligned}\]

Para calcular las coordenadas de un individuo, es necesario reemplazar los valores de cada una de las variables para cada observación y multiplicarlos por su respectivo coeficiente. Teniendo en cuenta esto, a continuación se presentan las coordenadas de los individuos para cada componente

pca$ind$coord[,1:3]

##                      Dim.1      Dim.2       Dim.3
## Colombia       -0.88786283  2.3015028 -0.89748441
## México         -0.28469930  0.8466031 -0.27724271
## EEUU           11.95873314 -2.8223400 -3.96692434
## China           7.08965609  5.0770590  4.44334706
## Alemania        0.04273327 -2.8655466  1.20025601
## Brasil          1.03562532  2.9201812  0.05512075
## España         -0.52982328 -2.0877860  0.61216842
## Argentina      -0.76267205 -0.9714047  0.60827221
## Rusia          -0.02496667 -1.0739076  2.36498009
## Australia       0.08416974 -0.4298753  1.38083926
## Bangladesh     -2.04255357  1.8580402 -2.99172308
## Bolivia        -1.64662665  0.1496152 -0.17419337
## Canada          0.05612846 -2.9103646  2.04105955
## Chile          -0.97827286 -2.0324588  0.34166960
## Costa Rica     -1.67688474 -0.7268780 -0.17827388
## Ecuador        -1.34501557  0.8828555 -0.19841312
## Etiopia        -1.59075921  1.0870135 -1.33013775
## Francia         0.40159117 -2.8127707  0.23491040
## Honduras       -1.90767896  0.3292801 -1.01951378
## Indonesia       0.13956834  3.8526447  0.54786492
## India           1.41951450  2.7868005 -0.28959259
## Japon           0.62967136 -2.3621613  0.45707570
## Corea del Sur   0.08780223 -2.7772047  0.70415386
## Mozambique     -1.76477215  0.8695403 -1.23404668
## Nigeria        -1.58641156  0.4817952 -1.42722613
## Pakistan       -1.21092332  0.7568942 -1.61735984
## Peru           -1.06966316  1.3389751  0.23252012
## Filipinas      -0.93306070  0.9428596 -1.47805123
## Arabia Saudita -1.68167380 -1.6278687  1.30989461
## Turquia        -1.02087323 -0.9810928  0.54605035

Finalmente, para calcular las coordenadas de cada variable es necesario multiplicar el coeficiente de cada variable en la respectiva combinación lineal por la raíz cudrada del autovalor correspondiente a la determinada componente. A continuación, se presentan las coordenadas de las variables.

pca$ind$coord[,1:3]

##                      Dim.1      Dim.2       Dim.3
## Colombia       -0.88786283  2.3015028 -0.89748441
## México         -0.28469930  0.8466031 -0.27724271
## EEUU           11.95873314 -2.8223400 -3.96692434
## China           7.08965609  5.0770590  4.44334706
## Alemania        0.04273327 -2.8655466  1.20025601
## Brasil          1.03562532  2.9201812  0.05512075
## España         -0.52982328 -2.0877860  0.61216842
## Argentina      -0.76267205 -0.9714047  0.60827221
## Rusia          -0.02496667 -1.0739076  2.36498009
## Australia       0.08416974 -0.4298753  1.38083926
## Bangladesh     -2.04255357  1.8580402 -2.99172308
## Bolivia        -1.64662665  0.1496152 -0.17419337
## Canada          0.05612846 -2.9103646  2.04105955
## Chile          -0.97827286 -2.0324588  0.34166960
## Costa Rica     -1.67688474 -0.7268780 -0.17827388
## Ecuador        -1.34501557  0.8828555 -0.19841312
## Etiopia        -1.59075921  1.0870135 -1.33013775
## Francia         0.40159117 -2.8127707  0.23491040
## Honduras       -1.90767896  0.3292801 -1.01951378
## Indonesia       0.13956834  3.8526447  0.54786492
## India           1.41951450  2.7868005 -0.28959259
## Japon           0.62967136 -2.3621613  0.45707570
## Corea del Sur   0.08780223 -2.7772047  0.70415386
## Mozambique     -1.76477215  0.8695403 -1.23404668
## Nigeria        -1.58641156  0.4817952 -1.42722613
## Pakistan       -1.21092332  0.7568942 -1.61735984
## Peru           -1.06966316  1.3389751  0.23252012
## Filipinas      -0.93306070  0.9428596 -1.47805123
## Arabia Saudita -1.68167380 -1.6278687  1.30989461
## Turquia        -1.02087323 -0.9810928  0.54605035

Contribución de los componentes, correlaciones y calidad de la representación

Dentro del análisis del PCA es fundamental interpretar las contribuciones, las correlaciones y la calidad de representación de las variables en los componentes.

La primera de ellas, indica qué tanto aporta cada variable o individuo a la formación de un componente principal, ayudando a identificar cuáles influyen más en su construcción. Adicionalmente, es necesario interpretar cada componente, ya que estas por si mismas son solo combinaciones lineales de variables, sin embargo, con la apropiada interpretación de las contribuciones las componentes pueden adquirir sentido.

Para realizar el cálculo de las contribuciones, se puede emplear la siguiente fórmula

\[\text{contrib}_{j,k} = \frac{(l_{j,k})^2}{\sum_j(l_{j,k})^2}\times 100\]

En donde, $l$ representa las cargas\loading de la variable $j$ en la componente $k$.

Observación: las cargas $l$ corresponden a los coeficientes que acompañan a las respectiva variable en la combinación lineal que se forma a partir del cálculo de los autovectores.

Por otro lado, Las correlaciones muestran el grado de relación entre las variables originales y los componentes. Evaluarlas es esencial, ya que una variable puede tener una gran contribución en un determinado eje, sin embargo, solo a través de las correlaciones es posible determinar si dicha relación es directa o inversamente proporcional. Por su parte, la calidad de representación (medida a través del coseno cuadrado) evalúa qué tan bien una variable o individuo está representado por los componentes seleccionados. Valores altos indican una buena representación, mientras que valores bajos sugieren lo contrario.

A continuación, se procede a analizar e interpretar la contribución de cada una de las variables e individuos.

fviz_contrib(pca,choice="var",axes=1)

fviz_contrib(pca,choice="ind",axes=1)

Con respecto a la primera componente, las variables que más contribuyen a su construcción son PIB, IED, Deuda_Externa, CH4, CO2, D_Met y D_Clim. Es decir, esta recoge variables principalmente economicas y de emisiones de gases efecto invernadero. Es por ello que, inicialmente hacia sentido que esta componente fuera interpretada como “Industrialización”. Sin embargo, a la hora de analizar la contribución de cada uno de los individuos a la respectiva componente se puede observar que esto carece de sentido, debido a que, Estados Unidos y China son los dos paises que más contribuyen a esta componente(lo cual, en principio hace sentido porque son los dos paises más industrializados del mundo) pero se quedan fuera de la ecuación paises que aportan en buena medida a la producción mundial como Japón, Alemania, Rusia, etc. Por tanto, esta idea se descartó y se optó por denominar la componente como “Dominio economico”, puesto que las variables que más predominaban(por encima de GEI y desastres naturales) eran las pertenecientes a datos macroeconomicos.

fviz_contrib(pca,choice="var",axes=2)

fviz_contrib(pca,choice="ind",axes=2)

Ahora bien, en la segunda componente sobresalen variables como Clim_Ext, Bio_Index, D_Hidr, Pct_Afect y HDI. Teniendo en cuenta esto, se consideró llamar a la componente “Recursos Hidricos” porque intervienen variables relacionadas a la disponibilidad de este recurso.

Además, al analizar la contribución por individuo, se observa que esta componente está explicada en mayor medida por países como China, Indonesia, Brasil, Canadá, Alemania, Estados Unidos, Francia, India, Corea del Sur y Colombia. Varios de estos territorios corresponden a lugares amplios y de riqueza natural e hídrica, lo que resulta consistente con la presencia de variables asociadas a biodiversidad, eventos hídricos y afectación climática.

fviz_contrib(pca,choice="var",axes=3)

fviz_contrib(pca,choice="ind",axes=3)

Con respecto a la tercera componente, las variables que más contribuyen a su construcción son Exp_Netas, Flood_Ind, Temp_Prom, HDI, D_Met, CO2, Agua_Renov_M2 y Est_Pol. Sin embargo, al analizar la gráfica de contribución de variables a esta componente, se puede observar que Exp_Netas presenta una contribución considerablemente más alta que las demás. Por esta razón, se considera pertinente denominar esta componente como “Exportaciones Netas”, ya que gran parte de la variabilidad asociada a ella es explicada por dicha variable, mientras que las demás tienen una participación mucho menos significativa. Con relación a los individuos, como era de esperarse la mayor participación en el eje fue atribuida a las superpotencias como China, Estados Unidos, Canada, etc. Adicionalmente, se sumó a este grupo de países Bangladesh, para el cual, su economía ha dependido en buena medida durante los ultimos años de la industria textil y la exportación de productos hacia la Unión Europea y EE. UU.

Calidad de la representación

Con el objetivo de evaluar la calidad de representación de las variables, se utiliza la medida $cos^2$ . Entre más cercano esté su valor a 1, mejor representada se encuentra la variable en la debida componente principal, ya que una mayor proporción de su variabilidad es explicada por dicho eje. Por el contrario, valores cercanos a 0 indican una baja calidad de representación, lo que sugiere que la componente no logra recoger adecuadamente la información asociada a esa variable.

A continuación se evalúa el $cos^2$ de las tres componentes

fviz_cos2(pca,choice="var",axes=1)

Componente #1: Se puede observar que las variables económicas (sin contar exportaciones netas) están muy bien representadas en esta componente, ya que sus valores son superiores a 0.85. Por otra parte, las variables correspondientes a gases de efecto invernadero, desastres climáticos y desastres geográficos tienen valores superiores a 0.50, por lo que se puede decir que, en cierta medida, están bien representadas, sin embargo, no en la misma proporción que el primer grupo mencionado.

fviz_cos2(pca,choice="var",axes=2)

Componente #2: En este caso, al avanzar hacia la segunda componente, esta explica una menor proporción de la varianza, por tanto, los valores de $cos^2$ serán menores y es necesario interpretar la calidad de representación de acuerdo con su importancia relativa. Con esta información, podemos decir que Clim_Ext y Bio_Index mantienen una buena calidad de representación, mientras que D_Hidr, Pct_Afect y HDI tienen una representación aceptable. Para el resto de variables, la calidad de representación es débil.

fviz_cos2(pca,choice="var",axes=3)

Componente #3: En este caso, las exportaciones netas parecen ser la única variable que tiene una buena representación (cercana a 0.60). Y, con bastante optimismo, Flood_Ind y Temp_Prom tienen una representación aceptable. Sin embargo, las exportaciones parece ser la única que, en verdad, está bien representada.

Correlaciones entre las variables originales y las componentes

Correlaciones primera componente: La sección de variables macroeconomicas presentan una correlación alta y positiva con la componente (todas superiores a 0.92). Al mismo tiempo, las variables de GEI, junto con D_Clim y D_Met, también muestran correlaciones positivas de alta magnitud. Esto sustenta la interpretación de la primera componente como una muestra de poderío económico, esto dado que, los países dominantes en la geopolítica (sobre todo USA y China) , son poderosos económicamente y registran mayores emisiones y una mayor exposición a estos desastres por su gran territorio.
Correlaciones segunda componente: Las variables que presentan correlaciones más altas con la segunda dimensión son Clim_Ext, Bio_Index, D_Hidr, Pct_Afect y HDI. Se puede observar que HDI (además del resto de variables que corresponden a desarrollo institucional) presenta una relación inversa con la componente. Esto hace sentido, ya que los países que cuentan con más recursos hídricos, por lo general, son países con un menor nivel de desarrollo en este ámbito.
Correlaciones tercera componente: Al detallar esta dimensión, se puede observar que la correlación con una magnitud más alta corresponde a las exportaciones netas. Realmente no hay mucho más que desglosar para esta componente.

Biplot

El Biplot es un grafico útil para analizar las relaciones entre las variables, los individuos y las componentes. En este caso, las variables se ven como vectores proyectados sobre cada uno de los ejes(dimensiones o componentes). Al mismo tiempo, se pueden visualizar la posición de los individuos en dicho plano.

Por consiguiente, se visualizará dicho grafico para las primeras dos dimensiones

identificadores <- c(
  "Colombia" = "COL",
  "México" = "MEX",
  "EEUU" = "USA",
  "China" = "CHN",
  "Alemania" = "DEU",
  "Brasil" = "BRA",
  "España" = "ESP",
  "Argentina" = "ARG",
  "Rusia" = "RUS",
  "Australia" = "AUS",
  "Bangladesh" = "BGD",
  "Bolivia" = "BOL",
  "Canada" = "CAN",
  "Chile" = "CHL",
  "Costa Rica" = "CRI",
  "Ecuador" = "ECU",
  "Etiopia" = "ETH",
  "Francia" = "FRA",
  "Honduras" = "HND",
  "Indonesia" = "IDN",
  "India" = "IND",
  "Japon" = "JPN",
  "Corea del Sur" = "KOR",
  "Mozambique" = "MOZ",
  "Nigeria" = "NGA",
  "Pakistan" = "PAK",
  "Peru" = "PER",
  "Filipinas" = "PHL",
  "Arabia Saudita" = "SAU",
  "Turquia" = "TUR"
)
row.names(dataset) <- identificadores[row.names(dataset)]
pca<-PCA(dataset,scale.unit= TRUE, graph = F)
fviz_pca_biplot(pca,rapel= TRUE)

En este caso, se puede notar que la componente uno (ubicada en el eje X) recoge especialmente bien las variables de carácter económico, al mismo tiempo que, en menor medida puede explicar bastante bien las variables de GEI. (Como ya se explicó, esta dimensión hace referencia al dominio económico). Por esto, individuos como Estados Unidos o China van en la misma dirección de estos vectores. Además, la gran mayoría de países que no tienen dominio como estas dos potencias van en sentido contrario. Por otro lado, el eje Y, que corresponde a la componente de Recursos Hídricos, agrupa bastante bien las variables de recursos naturales, hídricos, biodiversidad, etc. Esto explica por qué individuos como Colombia, Indonesia, China, etc., van en la misma dirección de los vectores que representan dichas variables.

Analisis de componentes principales

Camilo Ortiz

2025-10-21