Analisis Factorial

Motivación

En áreas como las de comportamiento humano (por ejemplo, la psicología) no es posible medir directamente variables de interés para el investigador. Por ejemplo, en ocasiones cuando se investiga la “inteligencia” de las personas, esta no puede ser medida explícitamente, sino que tiene que ser cuantificada a partir de variables que pueden ser observadas. A este tipo de conceptos se les denomina variables latentes y el método más utilizado para entender las relaciones entre estas es el análisis factorial.

Este modelo funciona de una forma similar a una regresión múltiple, pero en este caso se describe la variabilidad original mediante un número determinado de variables aleatorias llamadas factores comunes (variables latentes), los cuales se relacionan mediante un modelo lineal. Estos factores explican la mayor cantidad de variabilidad del set de datos original, mientras que el resto de variabilidad se les atribuye a las variables que no fueron incluidas en el modelo, es decir, al error aleatorio.

Dentro del análisis factorial existen dos versiones. En primer lugar, el análisis factorial exploratorio, el cual se utiliza para investigar la relación entre las variables observadas y los factores, sin hacer ninguna suposición previa acerca de las relaciones entre estos dos. Por otro lado, el análisis factorial confirmatorio es aplicado cuando de antemano se tiene un modelo factorial hipotético y se desea verificar si este es consistente con los datos disponibles.

Fundamentación Teórica

Este modelo se basa en la descomposición de la matriz de correlación \(\mathbf{P}\) como \(\mathbf{P}=\mathbf{L}\,\mathbf{L}^{\mathsf{T}}+\boldsymbol{\Psi}\), en donde, \(\mathbf{L}\) es la matriz de cargas factoriales que relaciona a los factores con las variables originales, y \(\Psi\) es la matriz de varianzas específicas. La dificultad de la técnica reside en estimar estas matrices.

Estimación de L y \(\boldsymbol{\Psi}\)

Los parámetros L y Ψ que conforman el modelo propuesto para el analisis factorial, pueden ser estimados por medio de los métodos de factores principales ó máxima verosimilitud. El primero de ellos, se basa en la descomposición espectral de la matriz de correlaciones o covarianzas. El segundo, consiste en un modelo probabilístico en donde se hace la suposición de que los datos siguen una distribución normal multivariada y se busca los valores de cargas factoriales y de las varianzas específicas que maximicen la verosimilitud de los datos.

Como se verifica posteriormente, el set de datos no cumple con la normalidad multivariada. Por esta razón, es adecuado detallar el proceso de la estimación mediante el metódo de factores principales.

Método de factores principales

Supuestos del modelo

\[\begin{aligned} &\mathbb{E}[\mathbf{F}] = \mathbf{0} \\ &\mathrm{Var}[\mathbf{F}] = \mathbf{I} \\ &\mathbb{E}[\boldsymbol{\epsilon}] = \mathbf{0} \\ &\mathrm{Var}[\boldsymbol{\epsilon}] = \boldsymbol{\Psi} = \mathrm{diag}(\psi_1,\ldots,\psi_p) \\ &\mathrm{Cov}(\mathbf{F},\boldsymbol{\epsilon}) = \mathbf{0} \end{aligned}\]

Teniendo en cuenta esto, el AF se construye de la siguiente forma:

\[\mathbf{Z}_{p\times 1}=\mathbf{L}_{p\times m}\,\mathbf{F}_{m\times 1}+\boldsymbol{\epsilon}_{p\times 1}\]

\[\mathrm{Cov}[\mathbf{Z}] = \mathbf{P} = \mathrm{Cor}[\mathbf{X}]\]

Con esta información calculamos la covarianza de \(Z = \mathbf{LF} +ϵ\)

\[\mathbf{P}=\mathrm{Cov}[\mathbf{Z}] = \mathrm{Cov}[\mathbf{L}\mathbf{F}+\boldsymbol{\epsilon}]\]

\[\mathbf{P}=\mathbf{L}\,\mathrm{Cov}[\mathbf{F}]\,\mathbf{L}^{\mathsf{T}}+\mathrm{Cov}[\boldsymbol{\epsilon}]\]

\[\mathbf{P}= \mathbf{L}\,\mathbf{I}\,\mathbf{L}^{\mathsf{T}}+\boldsymbol{\Psi} = \mathbf{L}\mathbf{L}^{\mathsf{T}}+\boldsymbol{\Psi}\]

Notese que, \(\mathbf{L}\mathbf{L}^{\mathsf{T}}\) es la descomposición espectral de la matriz de correlación que tambien hacemos en Análisis de componentes principales. Sin embargo, en AF se modela la varianza común y se incluye las unicidades (\(\boldsymbol{\Psi}\)) lo que cambia totalmente la tecnica multivariada.

Adicionalmente, aquí el objetivo es estimar \(\mathbf{L}\) y \(\boldsymbol{\Psi}\) de tal forma que \(\mathbf{P}\) pueda descomponerse como \(\mathbf{L}\,\mathbf{L}^{\mathsf{T}}+\boldsymbol{\Psi}\) , lo cual, no siempre es posible.

De esta forma, note que:

\[\mathbf{P}= \mathbf{L}\,\mathbf{L}^{\mathsf{T}}+\boldsymbol{\Psi}\]

\[\begin{bmatrix} 1 & \cdots & \rho_{1p}\\ \vdots & \ddots & \vdots\\ \rho_{1p} & \cdots & 1 \end{bmatrix} = \begin{bmatrix} \sum_{j=1}^{m} l_{1j}^{2} & \cdots & \sum_{j=1}^{m} l_{1j}l_{jp}\\ \vdots & \ddots & \vdots\\ \sum_{j=1}^{m} l_{pj}l_{j1} & \cdots & \sum_{j=1}^{m} l_{pj}^{2} \end{bmatrix} + \begin{bmatrix} \psi_{1} & 0 & \cdots & 0\\ 0 & \psi_{2} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & \psi_{p} \end{bmatrix}\]

Por esta razón,

\[1=\mathrm{Var}[Z_i]=\sum_{j=1}^{m} l_{ij}^{2}+\psi_i = h_i^{2}+\psi_i\]

  • \(h_i^{2}\) es llamado comunalidad (por los factores), es decir, cuánto los factores (que se estimaron) logran explicar de la varianza de \(Z_i\).
  • \(\psi_i\) es la varianza específica, es decir, lo que los factores no lograron explicar de la variable.

En la practica, para estimar L y ψ es necesario definir el número de factores requeridos. Para ello, pueden emplearse criterios similares a los utilizados en el Análisis de Componentes Principales, como la proporción de varianza total explicada y el criterio de Kaiser.

En el primer caso, se selecciona un subconjunto de factores a partir del porcentaje de varianza total que logran explicar. Aunque no existe un valor determinado o fijo para dicho porcentaje, sin embargo, la mayoría de autores expertos en el tema suelen sugerir valores entre el 70% y el 90%.

Por otro lado, el criterio de Kaiser argumenta que solo se seleccionar las factores cuyo autovalor sea mayor o igual a 1.

Adicionalmente, la elección del número de factores también debe estar guiada por la interpretabilidad de los mismos.

Una vez elegido el numero de factores \(m\), se aplica el calculo de los eigenvalores y eigenvectores para estimar \(\mathbf{L}\).

De este modo, \[\hat{\mathbf{L}}=\left[\sqrt{\lambda_1}\,\mathbf{e}_1 \;\; \cdots \;\; \sqrt{\lambda_m}\,\mathbf{e}_m\right]\]

Por otro lado, las varianzas específicas pueden ser estimadas de la siguiente forma.

\[\hat{\boldsymbol{\Psi}}=\mathrm{Diag}\!\left(\mathbf{R}-\hat{\mathbf{L}}\hat{\mathbf{L}}^{\mathsf{T}}\right)\]

Método de factores principales iterativo

Ahora bien, en el metodo de factores principales iterativo queremos hacer un refinamiento de la matriz de varianzas especificas. El objetivo de esto es que el modelo se aproxime lo más posible a \(\mathbf{P}\)

Para ver como se logra esto, considere el modelo reorganizado de la siguiente forma.

\[\mathbf{L}\mathbf{L}^{\mathsf{T}}=\mathbf{P}-\boldsymbol{\Psi}.\]

Teniendo en cuenta la diagonal de \(\mathbf{P}\), equivalente a 1 porque se trabajan las correlaciones, se forma la siguiente expresión

\[1 = h_i^{2} + \psi_i \;\Rightarrow\; h_i^{2} = 1 - \psi_i\]

En donde, se aprecia que al refinar las varianzas especificas estamos tambien refinando las comunalidades.

Si se aplica este ajuste, se obtiene una nueva matriz de correlaciones:

\[\mathbf{R}^{*}=\mathbf{R}-\boldsymbol{\Psi}^{*}\]

Con esta nueva matriz, es posible calcular los eigenvalores y eigenvectores de la matriz \(\mathbf{R}^*\) y obtener una nueva estimación para las cargas

\[\mathbf{L}^{*} = \left[\, \sqrt{\hat{\lambda}_1^{*}}\,\hat{\mathbf{e}}_1^{*} \;\; \cdots \;\; \sqrt{\hat{\lambda}_m^{*}}\,\hat{\mathbf{e}}_m^{*} \,\right]\]

Ahora sirge la pregunta ¿Como obtenemos las estimativas iniciales de las varianzas específicas?

Existen varias opciones, sin embargo, la más popular es

\[\psi_i^{*}=\frac{1}{r_{ii}}\]

donde \(r_{ii}\) (\(s_{ii}\)) es el \(i\)−ésimo elemento de la diagonal de R inverso (o S inverso). De este modo:

\[h_i^{*2}=1-\psi_i^{*}=1-\frac{1}{r_{ii}}\]

En resumen, el método se aplica de la siguiente forma:

  1. Calcule la matriz de correlación muestral \(\mathbf{R}\).

  2. Obtenga las \(\psi_i^{*}\) (estimativas \(\psi_i\)), \(i=1,\ldots,p\).

  3. Determine \(\mathbf{R}^{*}\) reemplazando \(h_i^{*2}=1-\psi_i^{*}=1-\dfrac{1}{r_{ii}}\) en la diagonal principal de \(\mathbf{R}\).

  4. Calcule \(\hat{\lambda}_j^{*}\) y \(\hat{\mathbf{e}}_j^{*}\), los autovalores y autovectores de \(\mathbf{R}^{*}\).

  5. Determine \(m\), el número de factores.

  6. Calcule las comunalidades de cada variable con los \(m\) factores seleccionados:

    \[h_i^{2}=l_{i1}^{2}+\cdots+l_{im}^{2}\]

    y las varianzas residuales (específicas):

    \[1-l_i^{*2}\]

  7. Si las comunalidades y las especificidades son positivas, regrese al paso (3), utilice las nuevas estimaciones y repita nuevamente los pasos. Un ciclo formado por estos pasos concluye una iteración.

Cabe aclarar que, en algunas ocasiones, éste metodo no permite llegar a una estimación adecuada debido al problema de convergencia.

Rotaciones Varimax y Cuartimax

Muchas veces, interpretar los factores en función de las cargas puede ser una tarea bastante difícil, puesto que, hay cargas relativamente similares entre factores o variables que presentan aportes importantes en más de un factor.

Por ello, suele recurrirse a métodos de rotación factorial, los cuales, redistribuyen las cargas del factor de forma en que es más clara la interpretación del mismo.

Para lograrlo, recuerde que

\[ \mathbf{P}= \mathbf{L}\,\mathbf{L}^{\mathsf{T}}+\boldsymbol{\Psi} \]

Como el objetivo es hacer una rotación de \(\mathbf{L}\), considere

\[ \mathbf{L}^{*}=\hat{\mathbf{L}}\,\mathbf{T} \]

En donde \(\mathbf{T}\) es una matriz ortogonal, lo que quiere decir que \(\mathbf{T}^{\mathsf{T}}\mathbf{T}=\mathbf{T}\mathbf{T}^{\mathsf{T}}=\mathbf{I}\) . Esto geométricamente significa que se giran los ejes mas no angulos ni longitudes.

Adicionalmente, note que

\[ \hat{\mathbf{L}^{*}}\hat{\mathbf{L}^{*\mathsf{T}}} = (\hat{\mathbf{L}}\mathbf{T})(\hat{\mathbf{L}}\mathbf{T})^{\mathsf{T}} = \hat{\mathbf{L}}\mathbf{T}\mathbf{T}^{\mathsf{T}}\hat{\mathbf{L}}^{\mathsf{T}} = \hat{\mathbf{L}}\mathbf{I}\hat{\mathbf{L}}^{\mathsf{T}} = \hat{\mathbf{L}}\hat{\mathbf{L}}^{\mathsf{T}} \] Por lo que, la rotación no altera nuestro modelo \(\mathbf{P}= \mathbf{L}\,\mathbf{L}^{\mathsf{T}}+\boldsymbol{\Psi}\)

Observaciones

  • En términos de bondad de ajuste, la nueva solución no proporciona ninguna mejora con respecto al ajuste inicial, pues la matriz residual, las comunalidades y las varianzas específicas no son alteradas.

  • Cuando la solución sin rotación es de buena calidad (interpretable), no es necesario hacer rotación ortogonal. En general, cuando la rotación es innecesaria y se aplica, la interpretación de los factores rotacionados suelen ser de peor calidad.

Existen diversos métodos/criterios ortogonales para determinar \(\mathbf{T}\) adecuada, entre los que se encuentran:

  • Varimax: Propuesto por Kaiser (1958), tiene como objetivo principal encontrar factores con máxima variabilidad en las cargas factoriales.

  • Cuartimax: Propuesto por Jobson (1996), tiene como objetivo encontrar factores que lleven al máximo la variabilidad de los cuadrados de las cargas factoriales sobre todos los factores y todas las variables. Este método tiende a generar factores, donde todas las variables tienen cargas elevadas.

Conjunto de datos

Los datos a analizar, fueron consolidados a partir de fuentes como el Banco mundial, el Fondo Monetario Internacional, la Comisión Europea y la International Disaster Database. Incluye 23 variables y 30 individuos, con información sobre indicadores macroeconómicos, emisiones de gases efecto invernadero y desastres naturales. Con el fin de mitigar el efecto de temporalidad se aplicó un filtro y se consideró unicamente datos del año 2022. A continuación, se presenta la descripción de las variables incluidas en el dataset.

Diccionario de datos

Variable Nombre completo Descripción
PIB PIB (MM de dólares a precios actuales) Valor total de los bienes y servicios finales producidos por un país, medido en millones de dólares corrientes.
IED Inversión Extranjera Directa (US$ a precios actuales) Flujos de inversión provenientes del exterior destinados a adquirir participación o control en empresas del país, medidos en dólares corrientes.
Exp_Netas Exportaciones Netas (US$ a precios actuales) Diferencia entre el valor de las exportaciones y las importaciones de bienes y servicios, medida en dólares corrientes.
Deuda_externa Deuda externa (MM de dólares a precios actuales) Monto total de obligaciones financieras de un país con acreedores externos, expresado en millones de dólares corrientes.
Consumo Consumo (US$ a precios actuales) Gasto total en bienes y servicios realizado por los hogares, el gobierno u otros agentes, medido en dólares corrientes.
CO2 Emisiones de CO2 (Mt CO2eq/yr) Cantidad total de emisiones de dióxido de carbono, expresada en millones de toneladas de CO2 equivalente por año.
CH4 Emisiones de Metano (kt de equivalente de CO2) Emisiones de metano expresadas en kilotoneladas de CO2 equivalente.
N2O Emisiones de óxido nitroso (kt de equivalente de CO2) Emisiones de óxido nitroso expresadas en kilotoneladas de CO2 equivalente.
D_Clim Desastres Climatológicos Número o registro de eventos asociados a condiciones climáticas de larga duración, como sequías o incendios forestales.
D_Geof Desastres Geofísicos Número o registro de eventos originados por procesos geológicos, como terremotos, erupciones volcánicas o movimientos en masa secos.
D_Met Desastres Meteorológicos Número o registro de eventos atmosféricos de corta duración, como tormentas, huracanes o vendavales.
D_Hidr Desastres Hidrológicos Número o registro de eventos relacionados con el comportamiento del agua, como inundaciones o deslizamientos asociados a lluvias.
Flood_Ind Flood occurrence Indicator (WRI) Indicador de ocurrencia de inundaciones, usado para medir la exposición o presencia de eventos de inundación.
Pct_Afect Porcentaje población afectada por sequías, inundaciones y temperaturas extremas Proporción de la población que ha sido afectada por eventos climáticos extremos e hidrológicos.
Temp_Prom Promedio de temperatura (°C) Temperatura media registrada en un país o territorio, expresada en grados Celsius.
Clim_Ext Inundaciones y temperaturas extremas Indicador relacionado con la ocurrencia o impacto de inundaciones y eventos de temperatura extrema.
Agua_Renov_M2 Total renewable water resources per M2 (10^9 m3/year*KM2) Disponibilidad de recursos hídricos renovables ajustada por unidad de superficie.
Bio_Index Global Biodiversity Index Índice global que resume el nivel de biodiversidad de un país o territorio.
HDI Human Development Index (HDI) Índice compuesto que mide el nivel de desarrollo humano a partir de salud, educación e ingreso.
Gasto_ID Gasto en I+D (% del PIB) Porcentaje del PIB destinado a actividades de investigación y desarrollo.
Est_Pol Political Stability and Absence of Violence/Terrorism: Estimate Indicador que mide la estabilidad política y la ausencia de violencia o terrorismo en un país.

¿Porqué podría ser una buena idea aplicar AF al dataset seleccionado?

Esta tecnica podría considerarse útil para realizar un análisis, dado que, pueden existir factores no observables directamente que contribuyan al comportamiento de las variables. En este contexto, el analisis factorial es una herramienta que permite estudiar dichos factores latentes, que posiblemente estan ligados a aspectos politicos, sociales, etc, que a priori, no estan siendo tomados en cuenta en el dataset.

library(readxl)
library(tidyverse)
library(psych)
library(MVN)
dataset <-read_excel('dataset_limpio.xlsx')
dataset <-dataset[,-c(1,23,24)]

Pertinencia AF

Primero que todo, es necesario determinar si la tecnica es pertinente para ser aplicada sobre el set de datos. Para verificar esto, es necesario evaluar si la relación entre las variables es lo suficientemente fuerte como para justificar su uso.

Este proceso es realizado dado que, si la asociacion entre estas no es significativa, como consecuencia no sería posible obtener el conjunto de factores y las respectivas cargas que asocien las variables con los factores latentes y el proposito del analisis perdería sentido.

Para ser preciso en determinar esto, sería oportuno utilizar la prueba de esfericidad de barlett, la cual permite establecer si la matriz de correlaciones es significativamente diferente de la matriz identidad. Para poder utilizar esta prueba, es necesario asegurarse de que el conjunto de datos sigue una distribución normal multivariada.

Por tanto, se evaluará si el set de datos cumple con la normalidad multivariada. Para ello, se considera pertinente utilizar la prueba Doornik-Hansen, puesto que, esta es recomendada para \(p\) > 5 y \(n > p\)

A continuación, se ejecuta la prueba:

NM<-MVN::mvn(data = dataset, mvn_test = "doornik_hansen");NM$multivariate_normality
##             Test Statistic df p.value     Method          MVN
## 1 Doornik-Hansen  1812.105 42  <0.001 asymptotic ✗ Not normal
  • H0: Indica que la datos provienen de una distribucion normal multivariada

  • H1: Indica que los datos NO provienen de una distribución normal multivariada.

Debido a que, el p-valor obtenido a partir de la prueba es igual a 0, la hipotesis nula es rechazada y por ende los datos no provienen de una distribución normal multivariada. En consecuencia, utilizar la prueba de esfericidad de barlett no es posible para determinar la pertinencia de la técnica.

Por otra parte, se puede usar el criterio de Kaiser-Meyer-Olkin(KMO), que cálcula un valor en un rango de 0 a 1, en donde, valores pequeños indican que el análisis no es apropiado. Además, si este valor es mayor o igual a 0.70 ya se considera apropiado aplicar la tecnica.

Teniendo en cuenta esto, se cálcula dicho valor

R<-cor(dataset)
KMO(R)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = R)
## Overall MSA =  0.47
## MSA for each item = 
##           PIB           IED     Exp_Netas Deuda_externa       Consumo 
##          0.48          0.60          0.43          0.55          0.47 
##           CO2           CH4           N2O        D_Clim        D_Geof 
##          0.40          0.53          0.72          0.75          0.80 
##         D_Met        D_Hidr     Flood_Ind     Pct_Afect     Temp_Prom 
##          0.71          0.61          0.44          0.25          0.59 
##      Clim_Ext Agua_Renov_M2     Bio_Index           HDI      Gasto_ID 
##          0.31          0.14          0.30          0.30          0.39 
##       Est_Pol 
##          0.82

Debido a que, el criterio KMO es menor a 0.70 resulta necesario eliminar las variables que menos MSA acumulan hasta alcanzar un valor aceptable. Esto ya que, un valor bajo de MSA indica que la variable no está lo suficientemente correlacionada con el conjunto de datos. La idea es aplicar análisis a un subconjunto de variables lo suficientemente correlacionadas.

dataset <- dataset[, -c(13, 16,17)]
R<-cor(dataset)
p<-dim(R)[1]
KMO(R)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = R)
## Overall MSA =  0.69
## MSA for each item = 
##           PIB           IED     Exp_Netas Deuda_externa       Consumo 
##          0.67          0.73          0.54          0.81          0.68 
##           CO2           CH4           N2O        D_Clim        D_Geof 
##          0.64          0.67          0.68          0.81          0.83 
##         D_Met        D_Hidr     Pct_Afect     Temp_Prom     Bio_Index 
##          0.77          0.63          0.65          0.81          0.67 
##           HDI      Gasto_ID       Est_Pol 
##          0.54          0.66          0.65

Cantidad de factores

Ahora se calculan los auto vectores y valores, con ellos se procede a usar los criterios explicados con antelación para determinar la cantidad de factores a usar.

auto<-eigen(R)
lambdai<-auto$values;lambdai
##  [1] 7.5453465642 3.7618629764 2.1932716741 1.7703393502 0.7351076538
##  [6] 0.6008618541 0.3789205575 0.2960901493 0.2138505062 0.1402006459
## [11] 0.1098680478 0.0826383775 0.0680987728 0.0571622666 0.0294203071
## [16] 0.0119692451 0.0046761249 0.0003149265
PVE<-lambdai/18
#PVE
PVE_acum<-cumsum(PVE) # prop. de var. expl. acum.
PVE_acum
##  [1] 0.4191859 0.6281783 0.7500267 0.8483789 0.8892182 0.9225994 0.9436506
##  [8] 0.9601000 0.9719806 0.9797696 0.9858733 0.9904644 0.9942476 0.9974233
## [15] 0.9990578 0.9997227 0.9999825 1.0000000

Con el criterio de la proporción de la varianza acumulada, sería suficiente con emplear 3 componentes, ya que estos recogen el 75% de la varianza total.

Por otro lado, al utilizar el criterio de Kaiser sería razonable elegir 4 factores.

Con ello, se procede a usar la función fac proveniente del paquete pysch.

Aplicación

f<-4
AF.princ_comp<-fac(R, nfactors = 4, rotate = "varimax", fm="pa")
## Warning in fac(R, nfactors = 4, rotate = "varimax", fm = "pa"): An
## ultra-Heywood case was detected.  Examine the results carefully

En esta línea de codigo aparecieron dos Warning que perjudican el análisis. El primero de ellos, avisa que el cálculo de los puntajes factoriales es inestable, es decir, que los cálculos realizados por la función para estimar los puntajes factoriales pueden no ser confiables. El segundo Warning (ultra-Heywood case), es aún más severo e indica que las comunalidades son mayores a 1, lo cual, carece de sentido.

Esto se debe a el método por el cual se estiman \(\mathbf{L}\) y \(\boldsymbol{\Psi}\). En el argumento fm, que corresponde al metodo de estimación de la función, se realiza el proceso mediante el método de factores principales, sin embargo, al consultar en la documentación del paquete al cual pertenece esta funcion(pysch), se asegura que se estima mediante el metodo de factores principales iterativo.

Esto explica porqué se obtiene un “ultra-Heywood case”, dado que, la función estima \(\mathbf{L}\) y \(\boldsymbol{\Psi}\) e itera hasta converger, sin embargo, no tiene en cuenta a nivel numérico si los resultados tienen sentido. En consecuencia las comunalidades son mayores a 1.

Por consecuencia, se utilizará una función que use alguna forma de estimación de los factores distinta al método usado con antelación. Esta función es principal() que recibe los mismos parámetros que fac(), a excepción de FM puesto que la función por defecto estima mediante el método de factores principales

factores<-principal(R,nfactors = f, rotate = "none", scores = TRUE)

Cargas y varianza especifica (Análisis e interpretación)

Una vez realizada la estimación de L, se analizarán las cargas correspondientes al factor uno, dos y tres.

A continuación se presentan;

factores$loadings
## 
## Loadings:
##               PC1    PC2    PC3    PC4   
## PIB            0.985                     
## IED            0.955 -0.101 -0.117       
## Exp_Netas     -0.442  0.501  0.679 -0.157
## Deuda_externa  0.934 -0.119 -0.253       
## Consumo        0.970 -0.107 -0.180       
## CO2            0.747  0.475  0.363 -0.227
## CH4            0.742  0.538  0.156 -0.120
## N2O            0.740  0.572  0.191 -0.140
## D_Clim         0.754 -0.263 -0.319 -0.168
## D_Geof         0.249  0.586         0.312
## D_Met          0.756 -0.399 -0.348       
## D_Hidr         0.124  0.527 -0.102  0.743
## Pct_Afect      0.204  0.698  0.141 -0.418
## Temp_Prom     -0.398  0.385 -0.578  0.194
## Bio_Index      0.278  0.615 -0.120  0.640
## HDI            0.354 -0.562  0.569  0.400
## Gasto_ID       0.580 -0.441  0.422       
## Est_Pol        0.209 -0.506  0.564  0.433
## 
##                  PC1   PC2   PC3   PC4
## SS loadings    7.545 3.762 2.193 1.770
## Proportion Var 0.419 0.209 0.122 0.098
## Cumulative Var 0.419 0.628 0.750 0.848
  • Factor 1: Las variables con las cargas más altas en el primer factor son las correspondientes a datos macroeconómicos (excluyendo exportaciones netas, la cual se reparte en el resto de factores) y gases de efecto invernadero (GEI), tienen una alta presencia en este factor.

  • Factor 2: En el segundo factor, las cargas más altas corresponden a porcentaje de población afectada por sequías, inundaciones y temperaturas extremas (Pct_Afect), índice de biodiversidad (Bio_index), desastres geográficos (D_Geof).

  • Factor 3: En el tercer factor, la variable con mayor carga es exportaciones netas (Exp_Netas), temperatura promedio (Temp_prom) y Human Development Index (HDI) también juegan un papel importante.

  • Factor 4: En el cuarto factor, desastres hídricos (D_Hidr) y, nuevamente, el índice de biodiversidad (Bio_Index) tienen las cargas más altas.

A continuación, se presentan las comunalidades para su análisis.

factores$communality
##           PIB           IED     Exp_Netas Deuda_externa       Consumo 
##     0.9784737     0.9404290     0.9318136     0.9514390     0.9843380 
##           CO2           CH4           N2O        D_Clim        D_Geof 
##     0.9656525     0.8790039     0.9319286     0.7667511     0.5112572 
##         D_Met        D_Hidr     Pct_Afect     Temp_Prom     Bio_Index 
##     0.8519132     0.8550855     0.7240467     0.6781786     0.8803558 
##           HDI      Gasto_ID       Est_Pol 
##     0.9247460     0.7094347     0.8059735

Como se explicó previamente, la comunalidad se entiende como la proporción de la varianza de cada variable que es explicada por los factores estimados. En este caso, D_Geof y Temp_prom son variables que no logran ser del todo bien explicadas por el modelo.

Mientras que las variables macroeconómicas, como PIB, IED, Exportaciones Netas, Deuda Externa y Consumo, presentan comunalidades altas, indicando que los factores extraídos representan adecuadamente su variación. De manera similar, las variables asociadas a gases de efecto invernadero, como CO2, CH4 y N2O, también muestran valores elevados de comunalidad. En cuanto a las variables sociales e institucionales, HDI, Gasto_ID y Est_Pol muestran valores no tan altos como las variables previamente mencionadas, sin embargo, logran ser explicadas bastante bien por la técnica multivariada(comunalidades mayores a 0.7).

A continuación, se presentan las unicidades (varianza específica).

factores$uniquenesses
##           PIB           IED     Exp_Netas Deuda_externa       Consumo 
##    0.02152629    0.05957096    0.06818644    0.04856102    0.01566203 
##           CO2           CH4           N2O        D_Clim        D_Geof 
##    0.03434746    0.12099611    0.06807137    0.23324890    0.48874280 
##         D_Met        D_Hidr     Pct_Afect     Temp_Prom     Bio_Index 
##    0.14808677    0.14491452    0.27595331    0.32182144    0.11964423 
##           HDI      Gasto_ID       Est_Pol 
##    0.07525398    0.29056529    0.19402651

En este punto, analizar las unicidades no tiene sentido, ya que estas corresponden simplemente a la parte de la varianza que no es explicada por los factores comunes, es decir, son el complemento de las comunalidades.

Por último, existen más medidas de ajuste del modelo que son útiles para su evaluación, entre las que destacan la Raíz Cuadrática Media de los Residuos (RMSR) y la complejidad media de los ítems. El RMSR determina hasta que punto el modelo reproduce de buena manera las correlaciones observadas, entre menor sea su valor mejor será el ajuste. Por su parte, la complejidad media evalúa en que grado las variables están bien representadas por un único factor, valores cercanos a uno indican un buen ajuste. A continuación, se presenta el RMSR del modelo

round(factores$rms,2)
## [1] 0.03

El valor correspondiente al RMSR es bajo, lo que índica que el modelo captura adecuadamente la información contenida en la matriz de correlaciones.

Por otro lado, se presenta la complejidad media de los ítems

round(mean(factores$complexity),2)
## [1] 2.11

Debido a que esta métrica tuvo un valor correspondiente a 2.1, se puede afirmar que las cargas están repartidas en más de un factor. Por tanto, se puede considerar necesario aplicar una rotación.

Rotación varimax y cuartimax

Anteriormente, se realizó el AF mediante factores principales, de esta forma, se estimó \(\mathbf{L}\) y \(\boldsymbol{\Psi}\) . Además, se interpretaron las cargas, y se analizó la comunalidad y la unicidad.

Sin embargo, un problema descritó en el apartado de Fundamentación Teórica, y que se hace presente en este momento es la interpretación de las cargas. Sin las rotaciones, tratar de hallar el factor latente presente en los datos es algo muy complejo, por lo que se probara la rotación varimax y de ser necesario cuartimax para hacer esto.

factores<-principal(R,nfactors = 4,rotate = "varimax",scores = TRUE)
factores$loadings
## 
## Loadings:
##               RC1    RC2    RC3    RC4   
## PIB            0.775  0.557  0.244       
## IED            0.854  0.343  0.270  0.144
## Exp_Netas     -0.857  0.439              
## Deuda_externa  0.913  0.273  0.164  0.129
## Consumo        0.901  0.355  0.201       
## CO2            0.265  0.920  0.184  0.123
## CH4            0.349  0.828         0.266
## N2O            0.319  0.872         0.263
## D_Clim         0.849  0.154        -0.139
## D_Geof                0.402         0.590
## D_Met          0.906         0.158       
## D_Hidr                              0.923
## Pct_Afect     -0.120  0.780 -0.318       
## Temp_Prom     -0.137 -0.274 -0.671  0.366
## Bio_Index             0.208         0.906
## HDI            0.157 -0.115  0.941       
## Gasto_ID       0.379  0.171  0.714 -0.165
## Est_Pol              -0.169  0.878       
## 
##                  RC1   RC2   RC3   RC4
## SS loadings    5.756 4.096 2.999 2.420
## Proportion Var 0.320 0.228 0.167 0.134
## Cumulative Var 0.320 0.547 0.714 0.848

Nuevamente, se procederá a revisar la complejidad media de los ítems.

round(mean(factores$complexity),2)
## [1] 1.43

En este caso, se obtuvo un valor de 1.4, lo que quiere decir que con la rotación el modelo fue capaz de distribuir las cargas de la mejor forma posible, ya que estas no se dispersan en múltiples factores sino que se concentran en uno solo. Por ello, se puede asegurar que no es necesario realizar alguna otra rotación.

Ahora se procederá a realizar la interpretación de los factores:

  • Factor 1 (Extensión Territorial): En este factor, las cargas más altas corresponden a las variables económicas, desastres meteorológicos y desastres climáticos. Según se consultó con la persona experta en los datos, este factor puede ser interpretado como extensión territorial, ya que la mayoría de países desarrollados (excluyendo algunos casos como Japón) tienden a tener grandes territorios. En consecuencia, se producen más desastres climáticos y meteorológicos, producto de que estos países cuentan con grandes terrenos en donde es más posible que ocurran este tipo de desastres. A modo de ejemplo, como Estados Unidos, Rusia o China tienen una extensión tan grande, pueden tener más desastres asociados a tormentas, temperaturas extremas, sequías, etc. Mientras que otros países tercermundistas no son propensos a ello en la misma medida por la intervención de dicho factor.

  • Factor 2 (Impacto ambiental): En este caso, las variables que presentan cargas más altas son los gases de efecto invernadero (CH4, NO2 y CO2), además del porcentaje de población afectada por sequías, inundaciones y temperaturas extremas (Pct_Afect). En este caso, se interpreta el factor latente como el efecto del cambio climático o el impacto ambiental de la mano humana sobre el planeta Tierra.

  • Factor 3(Desarrollo institucional): Con respecto al tercer factor, las variables de política y desarrollo (como HDI, estabilidad política y gasto en inversión y desarrollo) tienen altas cargas, junto con temperatura promedio (Temp_Prom), que presenta una relación inversa con el conjunto antes mencionado. Por esta razón, se decidió llamar a este factor desarrollo institucional, ya que es bien sabido que los países con altos niveles de desarrollo social y humano, por lo general, son países como los nórdicos, en donde las temperaturas tienden a ser muy bajas.

  • Factor 4(Condiciones Naturales): Para este factor, las variables más influyentes son Desastres Geográficos, Desastres Hídricos e Índice de Biodiversidad (Bio_Index). Teniendo en cuenta esto, se considera que el factor latente que interviene en esta ocasión corresponde a las condiciones naturales del país. Esto se debe a que los Desastres Geográficos hacen referencia a eventos destructivos derivados de procesos geológicos internos de la tierra, en los cuales no hay intervención de la actividad humana. Adicionalmente, el Bio_Index evalúa la variedad de especies y su abundancia relativa en un determinado país, por lo que también remite a condiciones naturales propias de un territorio. Esta última interpretación puede extenderse igualmente a los desastres hídricos.